▲ 신현진, Ph.D. (다케다 제약)
불과 몇년 전만해도 꿈같은 소리라고 치부할 만할 일들이 요근래에 실제로 일어나고 있다. 며칠 전 신문기사에서 자동차 산업의 선두 주자 중 하나인 볼보가 인공지능을 기반으로 한 완벽에 가까운 자율 주행 자동차를 2020년까지 상용화 한다는 소식을 읽었다.

만약 볼보의 야심대로라면 우리는 자동차 안에서 일을 하면서 여행을 할 수도 있고, 심지어 야간에 잠을 자면서 길을 떠날 수도 있을 것이다.

별것 아닌 일로 치부할 수도 있으나 우리가 평소에 얼마나 많은 시간을 길 위에서 보내는 지 생각해보면, 우리 삶의 모습이 자율 주행 자동차 하나로 많이 변화 될 것임은 의심의 여지가 없다.

세상은 아주 빠르게 변하고, 많은 부분이 어떤 신기술을 기반으로 하고 있다. 대용량 데이터를 분석하고 이용하는 deep learning 기반 인공지능이 바로 그 신기술의 핵심이다.

주제인 바이오/헬스, 그 중에서 신약개발로 돌아와 보면, 우리는 자연스럽게 한 가지 질문에 다다른다. 과연 이러한 신기술이 여기에도 적용될 수 있을까. 간단한 듯하나 이 질문의 답을 내기는 녹록치 않다.

우선 바이오/헬스 분야 데이터에 대해 이야기해보자. 주변을 둘러보면 바이오/헬스 관련된 쓸만한 데이터가 많다.

예를 들어 2000년도 초부터 시작된 인간유전체(human genome)에 대한 연구는 2000년 후반에 개발돼 상용화된 차세대 시퀀싱(next-generation sequencing) 기술이 성숙해지면서 양적 그리고 질적 향상을 이뤘으며, 이는 유전체(genome) 및 전사체(transcriptome)에 대한 데이터와 지식의 비약적인 축적으로 이어졌다. 좋은 예가 The Cancer Genome Atlas (TCGA)이다.

TCGA는 총 34종의 암 환자들로부터 얻은 샘플로 각종 유전체 데이터(유전 변이, mRNA 발현, DNA methylation, 그리고 선택된 단백질 발현 등)를 제공한다. 한 가지 아쉬운 점은 막상 환자들의 임상데이터(치료 경과)가 빈약하게 제공돼, 실제 신약 개발이나 또는 정밀의학을 위한 특정 환자군을 찾아내는 데 한계가 있다는 것이다.

물론 관련 업계는 이 한계를 알고 있기에, 풍성한 유전체 데이터와 함께 장기간 축적된 환자들의 임상 의료 데이터, 즉 electronic medical record를 모으고 쓸만한 형태로 바꾸기 위한 노력을 계속 하고 있다.

예를 들면 UK Biobank 같은 경우 환자 약 50만 명의 유전체 데이터와 환자들을 진단하고 관찰한 임상 데이터를 모으고 제공하는 것을 목표로 진행되고 있다.

우리나라에서도 최근 아산병원과 카카오인베스트먼트 및 현대중공업 간 인공지능 기반 의료 데이터 공유 및 분석 플랫폼 개발을 위한 공동 프로젝트가 계획중이며 정부는 삼성병원 및 대웅제약을 비롯해 헬스케어 분야에서 막대한 비중을 차지하는 회사 및 기관들과 유전체 데이터 및 여러 종류 의료데이터를 모으는 사업을 추진하고 있다.

그렇다면 다시 원래의 질문으로 돌아가자. 과연 우리가 갖고 있는 deep learning 기반 인공지능 기술이 바로 이러한 데이터에 쓰일 수 있을까. 위에서 데이터 축적에 대해 언급한 까닭은, 위 질문에 대한 답은 우리가 축적된 양질의 데이터를 얼마나 갖고 있는 가에 달려있기 때문이다.

즉 우리는 얼마만큼의 사용가능한 데이터를 갖고 있는가라는 질문으로 치환될 수 있다.
 
▲ Figure 1

Figure 1. Deep learning과 일반 machine learning의 사용된 데이터 샘플 갯수와 성능 향상의 상관 관계 (Slide by Andrew Ng, all rights reserved.)

위의 도표는 deep learning 강좌에서 흔히 인용되는 Stanford University의 인공지능의 대가 Andrew Ng교수의 슬라이드다. 이 슬라이드 의미를 파악하기에 앞서 먼저 deep learning이 뭔지를 간단하게 이해해야 한다.

Deep learning은 본질적으로 신경망을 여러 겹으로 (즉 깊게) 중첩시켜 놓은 형태를 갖고 있다. 여기서 한 겹의 신경망은 하나의 수학적 함수라고 생각하면 되고 이 함수는 원래의 복잡한 데이터를 비틀어 주는 역할을 한다.

데이터를 비틀어 준다는 것은 변형을 의미하는데 변형을 하는 까닭은 숨겨져 있는 또는 묻혀있는 패턴을 수면 위로 드러나게 하기 위해서다.

Deep learning은 데이터를 여러 번 (즉 여러 겹으로 깊게) 비틀어 주기 때문에 눈으로 봐서는 보이지 않는 여러가지 변수들의 상관관계를 이러한 중첩된 변형을 통해 좀 더 명백한 패턴으로 정리해 준다. 이러한 놀라운 기능으로 deep learning은 현재 인공지능의 가장 핵심적인 부분으로 자리를 잡았다.

이것을 안다면 도표가 쉽게 이해가 된다. Deep learning은 데이터가 많으면 많을 수록 강해진다(파란색 선). 데이터를 많이 비틀어도 지엽적인 부분에 사로잡히지 않고 전체를 관통하는 패턴을 잡을 수 있기 때문이다.

하지만 같은 이유로 데이터 사이즈가 작으면 오히려 일반 기계 학습 (machine learning)보다 불리해 진다(그래프 왼쪽의 파란색 선과 붉은색 선). 데이터 양이 적으면 지엽적인 발견에 쉽게 사로잡히기 때문이다.

일반 기계 학습 (machine learning) 방법은 대부분 분석하려는 데이터에 대한 여러가지 가정을 바탕으로 학습을 시작하기에 오히려 데이터 양이 작으면 그럭저럭 움직이지만 데이터 양이 증가한다고 성능이 비약적으로 향상되진 않는다(붉은색 선).

즉 진정한 deep learning 기반 인공지능을 바이오/헬스 분야에 적용하고 싶다면, 우리가 물어봐야 할 첫 번째 질문은 바로 데이터다. 얼마나 많은 양질의 데이터를 가지고 있는지 물어보는 것이 모든 것의 시작이 된다.

Deep learning의 알고리즘은 사실 잘 알려져 있다. 무료 개발 툴과 플랫폼도 많다. 얼마나 좋은 데이터를 확보했는가가 중요하다. 구슬이 서말이라도 꿰어야 보배라고 하는데, 여기서는 오히려 구슬을 꿸 실(인공지능)은 있으니 서말의 구슬(대용량의 양질의 데이터)을 확보하는 것이 시급하다.

인공지능 세계에서는 데이터가 자체 중력을 가지고 있어서 모든 것, 즉 알고리즘, 인력, 그리고 돈 등을 끌어당기기 때문이다.

그렇다면 우리는 질 좋은 데이터를 얼마나 가지고 있을까. 미국을 기준으로 현재 상황을 정리해 본다면 위에서 이야기 했듯이 분자생물학적인 데이터는 많이 생산됐다.

그러나 많은 데이터를 한자리에 모아 통일된 방법으로 전처리(preprocessing and normalization)를 해 데이터에 존재하는 편항성을 제거하고 진짜로 쓸모 있게 만드는 일은 아직 현재 진행형이다.

다만 환자들의 임상 의료 자료나 또는 보험 회사의 약과 치료에 대한 청구(claims) 자료를 가공하는 작업도 아직 완전치는 않으나 많은 진전을 보이고 있다.

현재 많은 인공지능 관련한 회사, 벤처 그리고 심지어 글로벌 제약회사들도 이러한 자원을 확보하기 위해 발 빠르게 뛰고 있다.

이러한 추세라면 적어도 5년 내 이러한 기술적인 부분에서 괄목할만한 성장을 볼 수 있을 것이고, 5년~10년 정도면 실제 바이오/헬스 그리고 제약산업에 영향을 끼칠 수 있는 발견이 이뤄질 수도 있다고 본다.

마지막으로 정리하면, deep learning 기반 인공지능은 바이오/헬스 그리고 제약분야에 많은 변화를 가져다 줄 것이라 믿는다. 다만 다른 인공지능 적용 분야, 예를 들자면 자율주행이나 영상분석과 같은 분야와 비교해 보면 살짝 느리게 진행되고 있다.

결국 성공 여부는 질 좋은 관련 데이터를 얼마나 많이 확보하고, 확보된 데이터를 효과적으로 분석할 수 있는 클라우드를 바탕으로 하는 저장 능력과 GPU와 같은 고성능의 컴퓨팅을 위한 환경을 조성하며, 생물학/의학과 인공지능에 대해 깊은 지식을 가진 전문가들을 초빙하고 양성하는 데에 달려있다.

우리나라에서도 차세대 먹거리와 국민건강 증진을 목표로 바이오/헬스 및 제약 연구와 인공지능 융합에 대해서 많은 관심을 갖고 있는 것으로 안다.

부디 실기하지 말고 가능한 신속하게 투자를 계획하고, 관련 법률의 효과적인 정리를 이루며, 관련 인재들을 확보 함으로써 대한민국도 세계적 추세에 뒤떨어지지 않고 오히려 앞서갈 수 있기를 희망하며 이만 글을 맺는다.

주의: 글쓴이는 현재 미국 소재 제약회사에서 근무하고 있으며, 위 글의 내용은 글쓴이가 근무하는 제약회사가 아닌 글쓴이 개인 의견임을 밝힌다.

페이스북  트위터  카카오톡

독자 의견남기기

독자의견쓰기   운영원칙보기

(0/500자)

        

등록
댓글 0   숨기기
독자의견(댓글)을 달아주세요.