신테카바이오 "AI신약개발, ‘결합 언어’로 또 한번 비상…3bmGPT가 던진 메시지"
3bmGPT, 3D 결합 정보 단어·문장 형태로 변환해 새 결합 패턴 연속성 포착
EGFR 등 특정 타깃과 유사한 결합 양식 자동 분류·탐색
약물재창출·멀티타깃 분석·오프타깃 위험 평가 등 연구개발 활용
권혁진 기자 hjkwon@yakup.com 뉴스 뷰 페이지 검색 버튼
입력 2025-12-02 08:00   수정 2025.12.02 08:00
신테카바이오 AI신약 플랫폼 개발팀 이태섭 책임연구원.©약업신문=권혁진 기자

“이번 연구 결과는 단순한 데모가 아니라, 신테카바이오가 축적해 온 결합 데이터와 해석 기술, 플랫폼 구조가 실제로 작동한다는 점을 학술적으로 입증한 것입니다. 이제 AI 신약개발은 개념이 아니라 검증된 실체 기술로 경쟁해야 합니다. 데이터 품질과 모델의 재현성이 앞으로 기업 간 차이를 결정하게 될 것입니다.”

항체·ADC·저분자까지 복잡해지는 타깃-리간드 결합을 사람이 머릿속으로 모두 이해하고 설계하기에는 한계가 점점 뚜렷해지고 있다. ‘알파폴드’로 대표되는 구조 예측 AI가 단백질 입체 구조를 보여줬다면, 신테카바이오가 개발한 ‘3bmGPT’는 새로운 관점으로 접근하여 ‘결합 양식’을 언어로 표현했다.

신테카바이오(대표 정종선)는 지난달 거대언어모델(LLM) 기반 단백질-저분자 결합 분석 모델 3bmGPT 연구 결과를 국제 SCI 저널 ‘MDPI Molecules’의 30주년 특별판(Recent Advances in Computational and Theoretical Chemistry)에 정식 게재했다.

특히 이번 연구는 미국 실리콘밸리 글로벌 AI 반도체 기업 세레브라스 시스템즈(Cerebras Systems)의 빈 클레어 장(Bin Claire Zhang) 박사팀이 공동으로 수행했다. 세레브라스 시스템즈는 대규모 딥러닝 및 거대언어모델 학습을 위해 설계된 웨이퍼 스케일 엔진(Wafer Scale Engine, WSE)과 AI 슈퍼컴퓨팅 클러스터를 개발·운영하는 세계적 기업이다. 제약바이오를 포함한 다양한 산업의 AI 모델 학습 인프라를 지원하고 있다.

약업신문은 지난달 28일 서울 종로구 광화문 비즈니스센터에서 이번 연구의 주요 저자인 신테카바이오 AI신약 플랫폼 개발팀 이태섭 책임연구원을 만났다. 3bmGPT가 어떤 과학적 가설에서 출발했는지, 결합 양식 언어화라는 접근이 기존 구조생물학·계산화학 모델과 무엇이 다른지 직접 확인하기 위해서다.

“기존 AI가 보지 못한 결합의 흐름을 포착하다”

신테카바이오 연구진은 단백질-리간드의 3차원 결합 정보를 ‘바인딩 인터랙션 워드(Interaction word)’로 변환하고, 전체 결합 성질을 표현하는 ‘바인딩 인터랙션 센텐스(Interaction sentence)’로 생성해, GPT 모델 알고리즘에 학습시켜 3bmGPT를 개발했다.

이 모델은 DNA 폴리머레이스나 타이로신 키나아제(TK) 계열처럼 결합 양식이 비슷한 표적을 결합 언어 공간(Language Space)에서 자연스럽게 하나의 군집으로 묶어낸다. 필요에 따라 인접한 군집으로도 배열된다.

또한 EGFR(Epidermal Growth Factor Receptor)-리간드 결합 데이터를 기반으로 EGFR 계열과 결합 양식이 유사한 다른 단백질을 찾아낼 수 있다. 여기에 임베딩 공간에서 이웃한 결합 패턴을 활용해 리간드·DrugBank 라이브러리와 매칭하면, 약물 재창출 후보를 제안하는 기능도 가능하다.

쉽게 말해, 기존 AI가 단백질의 ‘모양’을 비교했다면, 3bmGPT는 결합 시 나타나는 ‘행동 패턴’을 문장처럼 읽어내는 것이다. 

이 문장이 비슷하면 구조가 달라도 같은 군집에 배치되고, 이에 따라 EGFR 약물과 결합 문장이 유사한 화합물은 재창출 후보로 자동 제안된다. 반대로 독성과 오프 타깃(Off-target) 위험이 높은 패턴을 초기 단계에서 바로 걸러낼 수 있다.

이태섭 연구원은 “단백질과 리간드가 결합할 때 형성되는 3차원 상호작용 패턴을 1D 언어로 단순화한 것처럼 보이지만, 실제로는 복잡한 결합의 전반적 흐름을 더 선명하게 드러낼 수 있다”라고 설명했다.

3D 좌표 대신 ‘바인딩 단어’를 만든 이유

3bmGPT의 출발점은 논문 아이디어라기보다, 신테카바이오 내부의 매우 실용적인 고민에서 시작됐다. 수많은 도킹·시뮬레이션 결과를 어떻게 고도화할 것인가 하는 문제였다.

이 연구원은 “신테카바이오는 이미 단백질-리간드 결합 시뮬레이션 데이터를 아카이브하는 내부 시스템을 운영하고 있었다”며 “여기에 저장된 3D 결합 정보를 하나하나 잘게 쪼개 ‘단어’처럼 정의하고, 이를 언어 모델이 이해할 수 있는 토큰 시퀀스로 바꿔본 것이 3bmGPT의 출발점”이라고 설명했다.

연구자의 이력도 모델의 방향을 그대로 반영한다. 통계를 전공하고 머신러닝을 깊게 파고든 뒤, 박사 과정에서 바이오인포메틱스를 아우르는 융합 연구를 해왔다. 그는 “생물학만 보거나, 반대로 수학·AI만 보는 것보다, 둘을 같이 섞어야 보이는 패턴이 분명히 있다”라고 말했다.

그는 “전통적인 3D-CNN·GNN 기반 모델들은 좌표 전체를 그대로 다루는 방식은 데이터가 무겁고, 해석도 쉽지 않다”면서 “반대로 결합을 언어로 바꾸면, 트레이닝부터 확장, 멀티모달 결합에서 훨씬 큰 자유도를 얻을 수 있다”고 말했다.

원자 단위 상호작용 ‘바인딩 인터랙션 워드’로

3bmGPT의 핵심은 3차원 결합에서 반복적으로 등장하는 원자·잔기 수준의 상호작용 특징을 하나의 ‘바인딩 인터랙션 워드’로 정의하고, 이를 나열해 하나의 ‘바인딩 인터랙션 센텐스’를 만드는 데 있다.

연구진은 기존 구조생물학에서 널리 쓰이는 DSSP 같은 고전적인 알고리즘과 신테카바이오 내부의 규칙을 조합해, 수소결합·소수성 상호작용·양이온-π 상호작용 등 다양한 결합 특징을 코드화했다. 이렇게 만들어진 바인딩 인터랙션 워드들을 순서대로 나열하면, 특정 리간드-표적 쌍의 결합 양식이 하나의 문장처럼 표현된다.

이 접근의 장점은 두 가지다. △모든 결합 정보를 미시적으로 완벽하게 보존하는 대신, 신약개발 의사결정에 중요한 정보를 중심으로 요약해 언어 모델에 넣을 수 있는 점. △개별 결합 포인트 하나하나에 집착하기보다, 전체 결합 양식의 유사성과 연속성을 한번에 평가할 수 있다는 점이다.

이 연구원은 “지금까지 많은 AI 신약개발 접근법은 핵심 바인딩 포인트를 찾아내는 데 초점을 맞추는 환원적인 방식을 주로 사용해 왔다”면서도 “반면 3bmGPT는 단백질과 리간드가 만들어내는 결합 전체를 하나의 연속적인 패턴으로 파악한다”고 설명했다.

이어 그는 “이 방식으로 결합 양식을 표현하면, DNA 폴리머레이스나 TK 계열 키나아제처럼 결합 특성이 비슷한 타깃들이 결합 언어 공간(BLS) 상에서 동일 클러스터 또는 인접한 클러스터에 모여든다”며 “이때 서로 다른 계열 사이에 존재하는 경계 영역도 끊어진 경계선이 아니라, 결합 양식이 조금씩 변화하는 연속적인 스펙트럼으로 포착된다는 점이 특징”이라고 덧붙였다.

선행 연구 모델 대비 성능 평가서 경쟁력 확보

논문에서는 3bmGPT와 기존 구조 탐색 도구인 ProBiS와 Foldseek를 직접 비교한 결과도 제시됐다. 두 도구가 주로 특정 결합 데이터가 어떤 성질을 가지고 있는지 분류하는 데 초점을 맞춘 반면, 3bmGPT는 표적과 리간드(약물 후보) 간 결합 양식의 유사도를 거리 기반으로 연속적으로 계량하는 방식을 적용했다.

이를 통해 각 표적이 임베딩 공간에서 어떤 위치에 놓이는지, 계열 경계 근처의 중간적 성질을 지닌 표적이 어떤 스펙트럼을 이루는지까지 시각적으로 파악할 수 있다. 이 결과는 3bmGPT가 단순한 군집화 도구가 아니라, 결합 양식의 연속성과 변이를 정량적으로 포착하는 구조적 분석 모델이라는 강점을 보여준다.

이 연구원은 “3bmGPT 분석 결과에서 결합 양식이 칼로 나누듯 이분화되는 것이 아니라, 실제 자연계처럼 하나의 연속적인 스펙트럼으로 펼쳐진다는 점이 확인됐다”고 말했다.

특히 그는 “전형적인 뉴클리어 리셉터 군집 안에 비정형 결합 특성이 있는 단백질이 섞여 나타나거나, 기존에는 서로 다른 계열로 분류되던 타깃들이 임베딩 공간에서는 경계부에 길게 이어진 띠 형태로 배열되는 사례가 관찰됐다”며 “교과서적 분류로는 포착하기 어려웠던 회색지대가 시각적으로 드러난 것이 특히 인상적이었다”고 평가했다.

이태섭 책임연구원이 ‘3bmGPT’ 강점을 설명하고 있다.©약업신문=권혁진 기자

EGFR과 닮은 결합 양식 자동으로 묶다…약물 재창출·멀티타깃 분석

이번 연구의 산업적 의미는 결합 언어 공간이 실제 약물 재창출과 멀티타깃 분석에 활용 가능하다는 점에 있다. 3bmGPT는 임베딩 공간에서 EGFR과 유사한 결합 패턴을 보이는 리간드들을 자동으로 모아낸 뒤, 이들을 DrugBank와 같은 데이터베이스에 질의해 재창출 가능성이 있는 기존 약물 후보를 찾아내는 방식으로 활용할 수 있다. 

이때 기준이 되는 것은 단순한 3D 구조 좌표의 유사도가 아니라, 결합 토큰 시퀀스 관점에서 본 결합 양식의 유사성이다. 구조적으로는 어느 정도 차이가 있는 화합물이라도, 바인딩 문장이 비슷하다면 임베딩 공간에서는 서로 가까운 이웃으로 나타나도록 설계돼 있다.

이 연구원은 “새로운 후보물질의 결합 패턴을 임베딩 공간에 투영했을 때, 이미 부작용 프로파일이 잘 알려진 약물과 매우 비슷한 결합 프로파일을 보인다면, 개발 초기 단계에서부터 안전성·ADMET(Absorption, Distribution, Metabolism, Excretion, Toxicity) 리스크를 경고하는 신호로 활용할 수 있다”고 설명했다.

또한 그는 “기존에도 다양한 도구를 이용해 유사 약물을 찾을 수는 있었지만, 3bmGPT는 얼마나 비슷한지 정도를 연속적인 수치로 보여줄 수 있다”며 “이런 특성 덕분에 프로젝트 초기에 후보군을 넓게 탐색하거나, 반대로 피해야 할 영역을 미리 그려보는 데 매우 유용하게 사용할 수 있다”고 덧붙였다.

"특정 태스크 최적화 '스페셜티 GPT' 전략이 답이다”

구글 딥마인드의 알파폴드 계열 모델처럼, 빅테크는 단백질 구조와 약물 설계 영역까지 대형 모델을 앞세우고 있다. 이런 흐름 속에서 신테카바이오는 ‘미니 GPT’ 전략을 지향하고 있다. 

이 연구원은 “AI 신약개발 분야가 겉으로 보면 큰 모델이 모든 영역을 장악하는 ‘위너 테이크 올(Winner takes all, 승자독식)’ 구조처럼 보이지만, 실제로는 특정 태스크에 특화된 작은 모델의 활용 가치가 분명히 있다”고 전했다. 특히 그는 “알파폴드가 3D 구조 전체를 다루는 스트럭처 기반 모델이라면, 3bmGPT는 그 안에서도 결합 패턴만 깊게 파는 모델”이라며 “세부적인 만큼 특정 영역 영역에서 성공 가능성이 더 높다”고 설명했다.

또한 그는 “3D 구조 전체를 직접 다루는 모델은 계산 비용과 데이터 요구량이 매우 크다”며 “반대로 결합 정보를 1차원 바인딩 언어로 바꾸면 훨씬 가볍고 확장성이 좋다”라고 덧붙였다.

실제 신테카바이오 ‘LM-VS’ 서비스에서 3bmGPT는 결합 프로파일을 정교하게 정리하는 언어 엔진으로 활용되고 있다. 그 위에 CNN 기반 예측 모델 등 다른 모듈을 쌓아 올릴 수 있도록 중간 엔진 역할을 하도록 설계돼 있다. 회사는 향후 ADMET 분석이나 약물 재창출 모듈을 추가해 멀티모달 플로우로 확장하는 방향도 검토 중이다.

신테카바이오 내부에서는 이번 논문이 LM-VS 엔진의 타당성을 학술적으로 뒷받침해 준 점에도 의미를 두고 있다. 이 연구원은 “3bmGPT 연구결과 논문 덕분에 신테카바이오 방식이 왜 타당한지 외부에 명확히 말할 수 있게 됐다”면서 “이제는 사업성과 수익으로 그 가치를 다시 증명할 차례”라고 했다.

신테카바이오, AI 신약개발 ‘옥석 가리기’ 기준 제시

국내 AI 신약개발 시장은 그동안 과장된 홍보와 실체 논란이 반복되며 신뢰에 상처를 입어 왔다. 슈퍼컴퓨터 사진과 화려한 슬라이드 쇼 뒤에 실제 데이터와 알고리즘이 보이지 않는다는 비판도 적지 않았다.

이 연구원은 “AI 자체가 워낙 빠르게 발전하다 보니, 학계에서는 이를 매우 보수적으로 보는 경향이 있으며, 의·약학 분야는 말할 것도 없다”라고 말했다. 이어 “그렇기 때문에 더더욱 무엇을 어떻게 모델링했고, 어떤 데이터에서 어떤 패턴이 나왔는지를 논문과 검증 데이터로 보여주는 과정이 중요하다”고 강조했다. 

이번 3bmGPT 논문은 단순히 하나의 모델을 소개하는 차원을 넘어, AI 신약개발 기업이 어떤 수준까지 데이터와 방법론을 공개해야 신뢰를 얻을 수 있는지에 대한 하나의 기준을 제시하려는 시도로도 읽힌다.

향후 방향에 대해 그는 “알파폴드와 같은 구조 예측 AI모델의 결과에 3bmGPT의 바인딩 언어를 접목하면, 한층 고도화된 신약 개발 기술을 구현할 수도 있다”면서 “이런 다양한 접근이 축적되면, AI 신약개발은 선택을 넘어 필수 도구로 자리 잡는 전환점을 맞게 될 것”이라고 전망했다.

전체댓글 0개
    등록된 댓글이 없습니다.