인공지능·데이터 분석으로 질병 확산 예측 가능할까
AI 알고리즘·머신러닝 등 유용…검색 데이터는 신뢰도 낮아
전세미 기자 jeonsm@yakup.com 뉴스 뷰 페이지 검색 버튼
입력 2020-04-06 13:00   수정 2020.04.06 13:00
질병 확산 예측에 인공지능(AI)과 데이터 분석이 어느 정도는 기여할 수 있을 것이라는 의견이 대두됐다.

테크프론티어의 한상기 대표는 2020 KISA 리포트 2월호를 통해 검색 데이터와 소셜 미디어 데이터 분석, 인공지능과 알고리즘 데이터 분석 등을 선도한 해외 기업 및 학자들의 사례를 들어 이 같이 밝혔다.

먼저 검색 데이터와 소셜 미디어 데이터는 감염성 질병을 예방하거나 대처하는 데 유용한 자료가 될 수 없을 가능성이 높다. 기본적으로 주어진 데이터가 전문가에 의해 검증되거나 관리된 것이 아니라는 점에서 데이터 신뢰성 문제를 일으킬 수 있고, 업데이트 주기 등에 대한 표준이 없어 데이터가 과장될 수도 있기 때문이다.

이 같은 점은 검색어의 성격을 파악해서 독감 발생을 예측하고자 한 구글의 사례에 잘 드러나 있다. 독감과 같은 전파력이 높은 감염성 질병에 대한 탐색을 위해 데이터 분석 진행한 연구 중 지금까지 가장 유명했던 방식이 2008년에 시작한 구글 플루트렌드 연구다.

구글은 질병관리본부(CDC)가 증후를 파악하는 ILInet의 데이터와 가장 연관성이 높은 5천만 개의 검색 단어의 후보를 선정하고, 지역에 따른 ILInet의 데이터 특성을 바탕으로 특정 지역에서 발생하는 임의의 검색어가 더 중요하다는 결론을 내렸다.

그 다음으로는 계절에 따른 시점과 심각성을 기반으로 2003년부터 가장 최근 데이터를 분석해 이 모델을 ILI 데이터와 2008년부터 비교하면서 최적화된 데이터를 도출했다.

그러나 2010년 워싱턴 대학에서 구글 플루 트렌드가 CDC 모니터링 프로그램보다 정확도가 25% 정도 떨어진다는 연구를 발표했다. 이유는 독감과 같은 증세 중에서 실제 인플루엔자 바이러스로 인한 것은 20%~70% 정도이기 때문에 검색량의 변화가 실제 상황을 반영할 수 없다는 점이다. 이후 2015년 구글은 플루 트렌드 웹사이트 운영을 종료했다.

2013년에는 감성 분석 회사인 크림슨 헥사곤이 트위터와 페이스북에 올라온 62만 개 이상의 글을 분석해 독감을 언급하거나 자기 증세를 언급하는 현상을 추적 분석하면서 소셜미디어 분석이 이런 분야에 활용될 수 있음을 나타냈다.

그 밖에도 GPS 데이터와 연계해서 아프다고 올린 사람들의 동선을 파악해 지역적 확산을 예측해보는 연구도 있었으나, 사람들의 의도를 정확히 알 수 없다는 점과 포스팅을 올린 사람들이 전체 인구를 대표하지 못한다는 문제들이 지적됐다.

그렇다면 인공지능과 데이터 분석은 새로운 감염 질병을 예측할 수 있을까.

최근 발생한 코로나19에 대해 캐나다에 있는 블루닷(Bluedot)이 코로나바이러스의 확산을 중국 정부가 인식하기 전인 12월 31일 자사의 머신러닝 알고리듬으로 이를 판단해 당사 서비스 고객들에게 관련 정보를 제공했다고 발표한 바 있다.

블루닷은 65개의 언어로 발행되는 해외 뉴스, 동물과 식물 질병 네트워크, 항공 예약 데이터 등을 활용해 어떤 문제가 되는 상황이 발생하고 질병이 어떻게 확산될 수 있는지 예측이 가능한 알고리즘을 소개했다. 이들은 소셜 미디어 데이터는 사용하지 않았다. 그 이유는 너무 지저분해서였다.

이 알고리즘은 자연어 처리를 통한 자동화 과정을 거치면 인간 전문가인 전염병 학자가 그 결과를 검증하고, 과학적으로 의미가 있다고 판단되면 리포트를 정부 기관, 기업, 그리고 공공 의료 기관 등으로 보낸다고 한다. 블루닷은 이 전에도 남부 플로리다에서 지카 바이러스가 발생할 것이라고 예측한 바 있다.

또 다른 사례로 하버드 의대 혁신 임원인 존 브라운스타인의 사례가 있다. 그는 다국적 팀과 함께 건강 트렌드에 대한 머신러닝 기법을 활용한다. 그러나 이런 데이터에서 새로운 바이러스 징후를 찾는다는 것은 매우 어려운 일이다. 모델이 사람들이 사용하는 용어나 조금 다른 증세에 대응하도록 재학습해야하기 때문이다.

그러나 중국 소셜 미디어와 뉴스 원천을 추적하던 과정에서 독감과 유사한 병의 발생이 12월 30일에 일어났다는 것을 파악하고 이를 세계보건기구(WHO)에 알렸다.

인공지능 기술과 다른 기법을 결합해 감염을 예측한 사례도 있다. 영국 사우스햄튼 대학의 앤디 테이텀 교수팀은 바이두에서 받은 스마트폰의 익명화된 이력 데이터를 사용해 코로나19 바이러스가 나타난 이후 어떻게 확산되었는지를 모델링 하는 연구를 진행했다.

해당 연구는 2013년부터 2015년까지 이동 데이터, 2018년 국제 항공 여행 데이터를 통해 설날 동안 코로나2019 바이러스가 어떤 지역으로 퍼져 나갈 것인지 예측하는 연구다.

텐센트의 연구진은 위챗 데이터를 통해 감염 확산 모델을 만들어 보았는데, 여행 통제가 대응 조치를 위한 매우 중요한 약 2.91일 간의 시간을 확보하는 데 도움이 되었다는 결론을 얻었다.
전체댓글 0개
    등록된 댓글이 없습니다.