'구글 독감 트렌드' 빅데이터 마법 같았지만…
디지털 이코노미

'구글 독감 트렌드' 빅데이터 마법 같았지만…

생글생글2022.12.22읽기 5원문 보기
#빅데이터#알고리즘#구글 독감 트렌드#패턴 인식#디지털 경제#데이터 기반 의사결정#질병통제예방센터#빅토르 마이어 쇤버거

(82) 디지털 경제와 빅데이터

빅데이터와 알고리즘에 대한 무비판적 신뢰가 만연.객관적인 시각이 디지털 경제의 발전 초석.

‘데이터가 충분하면 스스로 말한다.’ 2008년 <와이어드(Wired)>에 실린 도발적인 기사다. 이는 데이터가 전체 모집단에 가까워진다면, 오랜 통계적 표본 추출 기법은 아무 쓸모가 없다는 주장이다. 과학적 모형도 필요없다는 주장마저 담겼다. 해당 결과가 맞는지 그렇지 않은지에 대한 이론을 개발할 이유도, 검증할 필요도 없다는 것이다.

구글 엔지니어들은 ‘구글 독감 트렌드(Google Flu Trends)’를 만들면서 어떤 검색어가 독감 전파와 관련있는지에 대해 가설을 세우지 않았다. ‘김동영’보다 ‘독감 증상’ ‘근처 약국’ 같은 검색어가 독감 발생과 밀접하다는 상식적인 추론이 가능하지만 구글팀은 전혀 고려하지 않았다. 단지 상위 5000만 개의 검색어를 입력하고 알고리즘이 파악하도록 했다. 한때 구글의 독감 트렌드는 빅데이터와 알고리즘이 만들어 낸 새로운 세상의 상징이었다. 구글 독감 트렌드는 5000만 개의 검색어를 분석하는 패턴 인식 알고리즘이다. 이를 통해 추가 독감 발생 사례에 관한 질병통제예방센터 발표와 일치하는 검색어를 찾는다. 실제 여러 해 겨울에 독감 발생 현황을 안정적으로 알려줬지만 이들의 추정은 과장됐음이 입증됐다. 느리지만 꾸준히 업데이트되는 질병통제예방센터의 데이터는 이들 추정이 실제보다 두 배만큼 과장된 경우가 있음을 찾아냈다. 문제는 2009년에도 발생했다. 여름 독감이 발생하자 구글 독감 트렌드는 아무런 힘을 쓸 수 없었다. 겨울의 징후에만 반응하도록 설계된 탓이었다. 이번에는 실제 발병 사례가 구글의 추정보다 네 배나 높게 나왔다. 연구진은 구글 독감 트렌드를 특별한 이유 없이 폐기해버렸다. 빅데이터와 알고리즘에 대한 시각 변화구글 독감 트렌드가 사용한 것은 일종의 사후 데이터다. 즉 웹 검색, 신용카드 결제, 인근 통신탑에 포착된 휴대폰 신호 같은 것들이다. <슈퍼 팩트>의 저자 팀 하포드는 이를 ‘디지털 배기가스’라고 표현한다. 알고리즘은 오늘날 대규모 데이터 세트에서 패턴을 찾는 도구가 되었다. 빅데이터와 알고리즘을 바라보는 사람들의 시각은 처음에는 경이로움이었다. 하지만 시간이 지날수록 생각보다 허술한 오류가 발견되고, 인간을 대체하기에 아직은 부족하다는 점을 깨닫기 시작했다.2013년 발간된 빅토르 마이어 쇤버거와 케네스 쿠키어가 집필한 <빅데이터가 만드는 세상>이 전자의 시각이라면, 2016년 캐시 오닐이 발간한 <대량살상 수학무기>는 후자의 시각이다. <빅데이터가 만드는 세상>이 빅데이터와 알고리즘이 어떻게 우리 생활을 바꾸었는지를 소개한다면, 캐시 오닐은 어떻게 빅데이터와 알고리즘이 불평등을 심화하고 민주주의를 위협하는지 보여준다. 이에 대해 하포드는 두 책의 관점은 데이터 기반 알고리즘에 의해 ‘일하는 사람’과 ‘영향을 받는 사람’의 차이라는 통찰을 제시한다. 망치는 목수에게 유용한 도구지만, 못의 입장에서는 그렇지 않다는 것이다. 빅데이터에 관심이 많은 소수의 사람은 자신을 ‘목수’로 생각하지만, 다수의 사람이 자신을 ‘못’으로 생각하면서 혁신의 동력이었던 빅데이터와 알고리즘에 대한 인상이 달라지기 시작했다. CNN은 ‘수학은 인종차별자’라고 표현하기도 했다. 마법은 없다

김동영

KDI 전문연구원사실 목수를 북돋워야 할지 아니면 모르는 사이 못이 되진 않을지 걱정할 필요는 없다. 상황에 따라 다르기 때문이다. 저널리스트인 찰스 두히그의 2012년 뉴욕타임스 기사는 빅데이터에 대해 차분한 감정을 갖도록 도와준다. 미국 할인점 타깃은 구매 데이터 분석을 기반으로 10대 여학생에게 아기 옷과 임부복에 대한 쿠폰을 보냈다. 아버지는 타깃에 항의했고 매니저는 사과했다. 하지만 10대 딸은 실제로 임신을 했다. 이는 당시 데이터 시대가 도래했음을 대표하는 사례로 자주 거론됐다. 하지만 데이터 과학자들에게는 너무나 당연한 이야기였다. 엽산과 비타민을 구입한 명세서를 토대로 임신을 유추했다는 점은 지극히 인간적인 수준의 추론이라는 것이다. 데이터 과학자인 카이저 펑은 임신하지 않았는데 아기 옷 할인 쿠폰을 받는 여성들의 사례도 함께 들었다면 그 일이 그렇게 대단해 보이지 않았을 것이라고 지적한다. 우리는 어쩌면 빅데이터와 알고리즘에 막연한 그리고 무비판적인 신뢰(혹은 비난)를 보내고 있는지도 모른다. 구글의 독감 트렌드, 타깃의 사례가 이를 방증한다. 세상에 그 어떤 미래도 현재, 과거와 완전히 단절적으로 존재할 수 있는 것은 없다. ‘마법은 없다’는 시각이 필요한 시점이다.

AI 퀴즈

이 기사로 1분 퀴즈 풀기

객관식 3문항 · 즉시 채점

광고Google AdSense — 728×90

🔗 본문 속 개념

📚 함께 읽으면 좋은 기사

디지털 시대에는 불특정 대중이 가치를 창출하죠
4차 산업혁명 이야기

디지털 시대에는 불특정 대중이 가치를 창출하죠

디지털 시대에는 불특정 다수가 만드는 정보와 콘텐츠가 핵심 자산이 되며, 구글, 리눅스, 위키피디아 등의 사례에서 보듯이 대중의 자발적 협력을 통해 중앙집권적 방식보다 훨씬 큰 가치를 창출할 수 있다. 따라서 기업들은 분권화되고 개방적인 새로운 접근법을 받아들이지 않으면 디지털 경제에서 생존하기 어렵다.

2018.11.08

디지털전환시대의 플랫폼 독점과 경쟁
4차 산업혁명 이야기

디지털전환시대의 플랫폼 독점과 경쟁

디지털 시대 플랫폼 기업들은 네트워크 효과와 데이터 우위를 바탕으로 독점화 경향을 보이지만, 플랫폼 간 경쟁으로 인해 서비스 유료화와 폐쇄성 강화가 불가피하다. 이러한 변화에 대응하기 위해서는 독점금지법 등의 규제뿐만 아니라 공공플랫폼 구축과 플랫폼 작동 원리에 대한 깊은 이해가 필요하다.

2020.07.02

대입 전략 트렌드는 취업관련성…인공지능 분야 성장성 높아
2020학년도 대입전략

대입 전략 트렌드는 취업관련성…인공지능 분야 성장성 높아

최근 대입 전략의 주요 트렌드는 졸업 후 취업 가능성을 고려한 학과 선택이며, 특히 인공지능 분야의 성장성이 높아 머신트레이너 같은 신흥 직업이 주목받고 있다. 머신트레이너는 머신러닝을 통해 인공지능을 훈련시키는 직업으로, 컴퓨터공학과, 통계학과, 산업공학과 등에서 배울 수 있으며, 소프트웨어중심대학의 특기자전형과 학생부종합전형 등 다양한 입시 전형으로 지원 가능하다.

2019.02.14

데이터는 '디지털경제의 원유'… 기업 경쟁 치열
4차 산업혁명 이야기

데이터는 '디지털경제의 원유'… 기업 경쟁 치열

디지털 경제에서 '원유'로 불리는 데이터의 경쟁력은 보유량보다 데이터 생성 원천에 대한 접근 경로를 독점하는 것이 핵심이다. 구글, 아마존 등 글로벌 기업들과 한국 기업들이 인공지능 스피커 등을 통해 소비자 접근 경로를 확보하려 경쟁하는 이유가 바로 이 때문이다. 빅데이터 중심의 경쟁이 기존 산업 경계를 무너뜨리고 있어 새로운 규제 제도 도입이 필요하다.

2018.03.15

생활속으로 성큼 다가온 IoT제품들
커버스토리

생활속으로 성큼 다가온 IoT제품들

IoT 기술이 커피머신, 스마트 자전거, 웨어러블 기기 등 일상생활 속으로 빠르게 확산되고 있으며, 이는 인터넷·모바일에 이은 제3의 정보화 혁명으로 초연결사회를 만들어갈 것으로 예상된다. 한국이 IoT 시장에서 선도자가 되려면 규제와 제도, 기업 경영전략 등 기존 패러다임을 혁신해야 하며, 반도체 업계도 무어의 법칙을 벗어나 IoT 수요에 맞춘 칩 개발로 전략을 전환하고 있다.

2016.04.14

광고Google AdSense — 728×90 또는 970×250