기사로 읽는 SARS-CoV-2 빅데이터 활용 동향



지난 1월 23일 첫 한국인 코로나바이러스 감염자가 나온 이후 어느새 6개월이 넘는 시간이 흘렀습니다. 코로나바이러스는 중국과 한국이 있는 동아시아를 거쳐 유럽과 미국에도 심각한 위협을 가했습니다. 급기야 세계보건기구(WHO)는 전염병 경보 최고 단계인 팬데믹(pandemic)을 선언하기에 이르렀죠. 항공기와 공장은 멈추었고, 바쁜 일상을 살아가던 사람들은 스마트폰보다 마스크를 먼저 찾는 것이 일상이 되었습니다. 세계적으로 감염자의 증가 추세가 계속됨에 따라 자연스럽게 데이터가 축적되는 양도 늘어났습니다. 오늘은 데이터를 어떻게 활용하는지도 국가의 위기대응 능력을 평가하는 지표가 되고 있는 이 시대를 여러 기사를 통해 알아보고자 합니다.


동향분석 1191-img-01.png

BIG DATA TO BE USED TO PREDICT THE NUMBER OF PEOPLE INFECTED WITH CORONA VIRUS (RiseNetworks 2020.03.19)

기사 :  https://risenetworks.org/big-data-to-be-used-to-predict-the-number-of-people-infected-with-corona-virus/


먼저 이 기사는 역학조사를 통해 얻은 정보를 종합하여 더 많은 일을 예측하고자 하는 시도에 대한 이야기입니다. 연구자들은 ‘아웃브레크 분석’을 이용했습니다. 이것은 확진자, 사망자, 음성과 양성 비울, 감염자와 접촉한 사람, 인구밀도 및 인구통계, 유동성 인구의 이동, 의료 서비스, 지역적 특성 등의 수집 가능한 모든 데이터를 수집하는 것으로 시작합니다. 데이터가 수집된 후에는 머신러닝 소프트웨어를 이용해 패턴을 인식하고 데이터 소스를 정리하죠. 이렇게 가공된 데이터를 다시 알고리즘 모델에 전달하여 최종적으로 각 상황별 최고 감염률을 예측할 수 있습니다.



코로나바이러스 감염 현황 시각화


다음 기사를 소개하기 전에, 전 세계 코로나바이러스 데이터의 흐름을 보여주는 사이트를 알려드리겠습니다. Our World in Data(https://ourworldindata.org/)에서는 국가별로 사망자 수, 사망자 증가 속도, 인구당 검진자 수 등 원하는 카테고리별 그래프를 확인할 수 있습니다.


동향분석 1191-img-02.png


그 중 하나의 그래프를 가지고 The Countries That Are Succeeding at Flattening the Curve (Foreign Policy 2020.04.02) 라는 기사를 읽어보겠습니다. 


동향분석 1191-img-03.png

Our World in Data 자료


동향분석 1191-img-04.jpg

The Countries That Are Succeeding at Flattening the Curve (Foreign Policy 2020.04.02) 

기사 :  https://foreignpolicy.com/2020/04/02/countries-succeeding-flattening-curve-coronavirus-testing-quarantine/


미국은 코로나바이러스의 진원지가 되고 있으며, 앞으로 몇 달 동안 수백만 명을 감염시키고 10만 명에서 24만 명의 사망자를 낼 것으로 예측하고 있습니다. 확진자가 7만 5000명을 넘어선 뉴욕의 병원들은 의료장비와 서비스의 부족을 겪고 있다고 합니다. 앞으로의 미래가 암울한 가운데 서구권 지도자들은 늦장 대응으로 비판받고 있죠. 그에 반해, 동아시아의 몇몇 국가들은 감염률이 기하급수적으로 상승하기 전에 곡선을 평평하게 만들어 상대적인 성공 사례로 평가받고 있습니다. Our World in Data의 그래프 중 하나에 특정 국가들만 강조 표시를 해 보았습니다. 이들은 모두 곡선을 ‘평평’하게 만든 국가입니다. 전 세계적으로 한국과 대만이 가장 방역을 잘한 것으로 보이고, 유럽의 몇몇 국가와 호주도 기울기가 많이 평평해졌습니다. 이들의 공통점을 찾아보자면 나라의 크기가 작고 인구 수는 적지만 민주적인 선진국으로 평가받는다는 점이 아닐까 싶네요.



데이터를 이용한 대응과 분석


그렇다면 이렇게 ‘잘 정리된’ 데이터를 이용하여 능동적으로 대응하는 사례를 알아볼 차례입니다. 가장 빠르게 자리잡은 활용법은 시민들이 궁금해하는 확진자의 이동경로 분석입니다.


동향분석 1191-img-05.jpg

코로나19 확진자 이동경로 분석, ‘10분’이면 충분 역학조사 시스템 개괄도 

(HelloT첨단뉴스 2020.03.28)

기사 :  http://www.hellot.net/new_hellot/magazine/magazine_read.html?code=202&sub=004&idx=51420


특정 지역에서 코로나 확진자가 발생하면 즉시 역학조사관이 파견되어 이동경로와 접촉자를 조사하는 것이 기존 방식이었습니다. 이 방법은 하루 정도의 시간이 소요되며 수기 기록 방식으로 정확성이 부족하다는 단점이 있었죠. 그러나 과학기술정보통신부는 지난 3월 26일부터 ‘코로나19 역학조사 지원 시스템’ 운영을 시작했습니다. 이 시스템의 기반은 스마트시티 데이터 허브 플랫폼입니다. 


이 분석 도구는 도시 내 교통, 에너지, 환경 등 분야에서 나오는 빅데이터를 실시간으로 분석합니다. 코로나19 역학조사 지원 시스템의 최대 장점은 획기적인 시간 절약입니다. 휴대폰 위치 추적과 같은 개인 정보를 자동 분석하며, 이에 필요한 28개 기관 공문 또한 전산으로 처리됩니다. 확진자 한 사람당 분석 시간은 10분 이내로 줄어들게 되었죠. 따라서 확진자의 대규모 발생에도 대처할 수 있게 되었습니다. 또한, 사람들은 특정한 데이터에 집중하여 이전에는 생각지 못했던 결과를 이끌어내기도 합니다.


동향분석 1191-img-06.png

Why daily death tolls have become unusually important in understanding the coronavirus pandemic

(NATURE NEWS 2020.04.09)

기사 :  https://www.nature.com/articles/d41586-020-01008-1


지금까지 코로나바이러스 확산 모니터링의 가장 중요한 지표는 ‘확진자 수’였습니다. 하지만 이 사태를 더 심층적으로 이해하기 위해서는 ‘일별 사망자 수’에 집중해야 한다고 합니다. 확진자 수가 아닌 사망자 수가 더 정확한 데이터인 이유는 크게 두 가지입니다. 먼저, 한국은 그렇지 않지만 대부분의 나라가 검사를 제대로 하지 못하기 때문입니다. 검사 키트나 검사 체계가 없는 나라들이 수두룩한 상태에서 확진자 수는 크게 의미가 없을 수 있습니다. 또 다른 이유는 무증상 환자가 계속 보고되고 있기 때문입니다. 무증상 환자는 확진자로 인식하기 쉽지 않습니다. 지금도 통계에는 잡히지 않는 무증상 환자가 계속 늘어나고 있을 것입니다. 그에 비해 시체를 숨기지 않는 한 사망자 수는 아주 정확한 수치입니다. 위 그래프를 보면 이탈리아가 가장 큰 타격을 받은 것으로 알려져 있지만 사망자 수는 감소 추세인 것을 알 수 있습니다.


동향분석 1191-img-07.jpg

How sewage could reveal true scale of coronavirus outbreak

(NATURE NEWS 2020.04.03)

기사 :  https://www.nature.com/articles/d41586-020-00973-x


의료진과 데이터 과학자들이 감염자나 사망자와 같은 ‘사람’에 집중할 때, 누군가는 그 외의 지표에 집중했습니다. 이 기사는 하수도가 코로나바이러스의 모니터링에 기여할 수 있다는 내용입니다. 도시의 하수는 배수로를 통해 한곳으로 모이게 됩니다. 그 안에는 사람의 침과 배설물이 섞여 있을 것이고, 거기엔 바이러스 유전물질이 포함되어 있겠죠. 현대 과학기술로는 극미량의 유전물질만 있어도 그것을 무한정 증폭할 수 있기 때문에 충분합니다. 네덜란드의 연구자는 실제로 여러 하수처리시설에서 SARS-CoV-2 RNA(유전물질)을 검출했다고 합니다. 이번 사태가 지나간 후에도 하수처리시설에서 상시 모니터링을 진행한다면 바이러스의 확산 정도를 정확하고 신속하게 파악할 것으로 예상됩니다.


동향분석 1191-img-08.png

Bats are a key source of human viruses — but they’re not special

(NATURE NEWS 2020.04.14)

기사 :  https://www.nature.com/articles/d41586-020-01096-z


많은 뉴스에서 다루었듯이 이번 바이러스는 박쥐에서 중간숙주를 거친 후 인간에게 전파되었다고 합니다. 그리고 실제로 그럴 확률이 매우 높습니다. 박쥐에는 엄청난 양의 바이러스가 살고 있기 때문이죠. 그러나 이 기사는 다음번에 비슷한 사태가 발생한다 하더라도 박쥐만을 바라보는 것은 옳지 않다고 말합니다. 박쥐와 설치류는 ‘high-risk viral reservoirs’라고 불릴 만큼 감염 위험이 있는 바이러스를 가지고 있지만, 그렇다고 인간에게 감염될 바이러스의 숙주가 되는 성향이 특별히 높다고는 할 수 없다는 것입니다.


이 연구를 진행한 학자는 ‘바이러스의 수는 특정 목(order)에 속한 종(species)의 수에 비례한다’고 합니다. 즉 숙주의 다양성에 초점을 맞추어야 하는 것이죠. 따라서 이번 코로나바이러스 같은 인수공통전염병의 예방을 위해서는 사람과 동물이 만나는 곳에서 유전체 모니터링이 이루어져야 할 것입니다. 생명과학도로서 통계의 힘을 실감하게 해 준 기사였습니다.



사람들의 행동변화에 따른 데이터 징후


코로나바이러스는 사람들의 일상을 바꾸었습니다. 당연히 소비패턴과 생활패턴에도 변화가 있었을 것입니다. 이에 어떠한 변화가 있었는지 데이터를 통해 짐작해 볼 수 있습니다.


동향분석 1191-img-09.png

빅데이터로 본 코로나… 대전시, 확진자 발생 후 카드사용 55% '뚝'

(조선비즈 2020.03.17)

기사 :  https://biz.chosun.com/site/data/html_dir/2020/03/17/2020031701780.html


기사 작성일자 기준 대전에는 100명이 넘는 확진자가 있었습니다. 확진자가 6,000명이 넘어갔던 대구보다는 훨씬 적은 수지만 지역 상권에 영향을 미치기엔 충분했습니다. 대전시청 인근을 기준으로 유동인구는 작년보다 33.7퍼센트 감소했으며, 카드 사용률이 50퍼센트 이상 줄었습니다. 코로나바이러스의 여파는 경제 불활성화에 그치지 않았습니다.


동향분석 1191-img-10.jpg

"외출 안하니 '셀카' 찍을 일도 없네" 사진앱 이용 29% 감소

(뉴스1코리아 2020.04.14)

기사 :  https://v.kakao.com/v/20200414095444430?from=tgt


사람들이 외출을 자제함에 따라 사진 어플리케이션과 사진을 올릴 매체의 사용 또한 감소했습니다. 유명 카메라 어플리케이션은 이용률이 28퍼센트 감소했고, 인스타그램도 10퍼센트 가까이 이용이 줄었습니다. 영화 산업 또한 타격이 상당한데, CGV 영화 예매 어플리케이션의 이용자 수는 71퍼센트 감소했다고 합니다.


동향분석 1191-img-11.jpg

코로나19 확산에 외출 자제하는 사람들··· 넷플릭스 정보량 폭증

(위키리스크 한국 2020.02.27)

기사 :  http://www.wikileaks-kr.org/news/articleView.html?idxno=78683


위기를 기회 삼아 오히려 TV와 넷플릭스와 같은 인터넷 매체의 사용은 증가했습니다. 특히 넷플릭스의 경우 비슷한 매체들의 영역까지도 집어삼키는 듯한 양상을 보입니다. 확진자가 늘어나는 만큼 집에 머무는 사람들이 늘어나 넷플릭스의 일일 정보량이 폭발적으로 증가합니다. 6개의 TV 서비스 업체의 정보량을 합친 것보다 2배 이상 늘어나는 양상이 뚜렷합니다.


동향분석 1191-img-12.png

These charts show how coronavirus has ‘quieted’ the world

(nationalgeographic 2020.04.08)

기사 :  https://www.nationalgeographic.com/science/2020/04/coronavirus-is-quieting-the-world-seismic-data-shows/?cmpid=org=ngp::mc=social::src=facebook::cmp=editorial::add=fb20200409science-seismicquietingcoronavirus::rid=&sf232513804=1


또한 사람들이 지구에 얼마나 많은 영향을 끼치고 있었는지 통계가 말해주고 있습니다. 코로나바이러스가 퍼지고 사람들이 사회적 거리를 유지하기 위해 집으로 들어가자, 지구가 조용해졌습니다. 지구 표면의 진동이 줄어든 것입니다. 지구의 무게가 약 60조 톤이라고 하는데 정말 놀라운 변화입니다. 교통량이 줄어듦으로 인한 진동 감소뿐만 아니라 지진 자체의 활동도 감소를 보입니다. 지진학자들은 이를 반기는 입장인데, 인간 활동으로 인한 잡음이 줄어들어 지진과 여진을 감지하기 수월해졌기 때문입니다.



데이터의 학술적 활용과 생산


동향분석 1191-img-13.png

STANFORD OFFERS PROJECT ON DATA SCIENCE & AI FOR COVID-19

(Analytics India Magazine 2020.03.27)

기사 :  https://analyticsindiamag.com/stanford-offers-project-on-data-science-ai-for-covid-19/


마지막으로, 학생으로서 교육기관인 대학에게 꼭 소개하고 싶은 이야기를 하고자 합니다. 미국의 스탠퍼드 대학교에서는 4월 봄 학기부터 CS472(과목 코드) Data science and AI for COVID-19라는 수업을 개설했습니다. 이 수업은 하나의 프로젝트와 같은 수업입니다. COVID-19라는 전염병에 대한 기초정보를 모두 훑고, 감염 데이터와 뉴스 그리고 SNS를 머신러닝으로 분석해 보는 과정을 담고 있습니다. 코로나 사태의 각 현장에서 뛰고 있는 인사들의 초청 강연은 덤입니다. 이 프로젝트가 어떤 방향으로 나아가고자 하는지 큰 틀은 정해져 있지만 인문, 사회과학, 자연계 그 어디에 있더라도 각자의 분야를 기초 삼아 참여할 수 있다는 의의가 크게 와닿습니다. 스탠퍼드에서는 이 수업 말고도 ‘Hacking the Pandemic’, ‘Behavior Design’ 등 각 분야에서 코로나 사태에 기여할 수 있는 프로젝트성 수업을 개설했습니다. 이 수업의 많은 정보는 유튜브와 구글에 오픈되어 있으니 한 번 들어가 보는 것도 추천합니다.


동향분석 1191-img-14.png

동향분석 1191-img-15.png

구글 : https://docs.google.com/presentation/d/1bMMtGDreUB1w-qws_5yYgMm0c_WQBSjRNaqHoU7RrI0/edit#slide=id.p

유튜브 : https://www.youtube.com/watch?v=zQMhfsxbmrY&list=PL3FW7Lu3i5JsodzX9fwRbn39fGmGQMp3_


동향분석 1191-img-16.png


출처: https://blog.naver.com/basic_science/222017694541