족집게 예언가인가, 위험한 통제자인가

  • 김국현 IT평론가·'우리에게 IT란 무엇인가' 저자

    입력 : 2013.05.18 03:00

    [Big Data]

    -빅 데이터는 알고 있다 '세상만사'
    인터넷 속 정보 모이면 '패턴'이 돼 대중의 취향·정치 성향까지 파악
    '샘플링' 기초한 여론 조사를 압도

    -빅 데이터는 모른다 '數 이상의 가치'
    숫자로 보이는 실적에 눈이 멀어 밀어내기와 粉飾까지 용인하게 해
    데이터도 왜곡된다는 점 유념해야

    빅데이터가 만드는 세상
    빅데이터가 만드는 세상|빅토르 마이어 쇤버거, 케네스 쿠키어 지음|이지연 옮김|21세기북스|400쪽|2만3000원

    세상만사를 모두 알 수는 없는 게 인간. 샘플을 뽑고 그 속에서 통찰을 얻는 것이 효과적인 전략이었다. 하지만 이 통찰이 아무나 할 수 없는 예술의 영역이었다는 데 문제가 있다. 아이패드를 시장조사도 없이 직관에 따라 만들었다는 스티브 잡스는 그래서 그렇게 경영의 아티스트 대접을 받았다.

    그런데 샘플 조사 대신 '세상 전체'를 보려는 집단이 나타났다. 아예 세상만사 그대로 데이터로 쌓아 놓고 그 이야기를 듣기 시작한 것이다. 구글은 사람들의 검색어를 통해 독감 유행을 예측할 수 있었으며, 아마존의 추천 서적은 구매된 책과 책 사이의 상관관계를 전수조사한 결과다. 페이스북은 한 술 더 떠 사람과 사람 사이의 관계, 그리고 '무엇을 좋아했는지'도 전부 다 기억하려 든다.

    바로 '빅데이터(Big Data)'다. 방대한 양의 정보에는 소량의 정보에서 볼 수 없는 특별한 가치가 있다는 이야기. 이 책은 이 당연한 이야기를 흥미롭게 들려준다. '대량의 정보는 스스로 말할 것'이라 믿는 것, 여기에 저자가 말하는 빅데이터의 본질이 있다.

    IT의 발전은 전수조사를 가능하게 했다. 무섭게 쌓여 가는 데이터지만 정보들 사이의 상관관계만은 의외로 쉽게 조사됐다. 점이 아무리 많아도 점과 점 사이에 유난히 두드러지는 선은 눈에 들어왔다. 점이 다 찍히고 나면 또렷한 선이 보이기 시작한 것이다. 마치 별자리와도 같이.

    예컨대 미국 할인 소매점 타깃(Target)은 오로지 이 상관성만 믿고 어떤 고등학생에게 육아용품 쿠폰을 보냈다. 여성이 임신 3개월 전후로 구매하는 제품들은 서로 상관성을 보이기 때문이었다. 무신경해 보이는 업체의 행동에 학생 아버지야 노발대발했다. 하지만 데이터는 아버지는 모르는 딸의 임신을 알고 있었던 것이다. 여고생과 육아용품. 진실은 '점과 점 사이'에 있었다.

    왜 그렇게 되었는지 이유는 알 수 없어도 때로는 그렇게 되어 버리는 것이 세상사이고 인생이다. 인과관계를 파악해 개운해지고 싶은 본능이 우리에게는 있지만, 진정한 원인이란 논리적으로 설명 불가능한 경우도 많다. 다만 데이터는 그 현상을 스스로 말해줄 것이라는 막연한 낙관, 다른 모든 기술적 유행과 마찬가지로 빅데이터는 이와 같은 낙관에서 시작했다.

    실제로 상관성은 많은 패턴으로 드러났고, 미래란 결국 '내일도 반복될 패턴의 모임'이었다. 월마트는 허리케인이 올 때 딸기맛 팝타르츠라는 과자가 불티나게 팔린다는 것을 알고 미리 쌓아 놓는다. 미래를 아는 일이란 짭짤하기에 늘 흥분된다.

    그러다 보니 지금까지는 쓸모없어 보였거나 행여 정보 취급을 받으리라고는 생각지도 못했던 데이터도 달리 보인다. 의자에 닿는 우리 엉덩이는 제각각 다 다른 데이터일 것이다. 엉덩이 감지 데이터는 이제 자동차 도난 방지 시스템 및 피로 예방 시스템으로 피어난다. 엉덩이마저 포함한 삼라만상은 수많은 센서에 의해 디지털화하여 네트워크로 빨려 들어간다. 구글과 페이스북에 수집되는 위치 정보도, 인간관계도 그 시작에 불과했다.

    톰 크루즈 주연의 영화‘마이너리티 리포트’ 중 한 장면
    사람이 데이터를 이용하는 것일까, 데이터가 사람을 이용하는 것일까. 톰 크루즈 주연의 영화‘마이너리티 리포트’는‘빅 데이터’세상에서는 인간의 소비 이력은 물론 범죄 예측까지 가능하다고 말한다.
    영화 '마이너리티 리포트'에나 나올 법한 일도 생겼다. 미 국토안보부의 연구 프로젝트는 개인의 생리학적 패턴을 모니터링해 잠재적 테러리스트를 식별하려 한다. 어느 날 우리는 공항에서 "자, 데이터가 그리 말했소"라며 체포될지도 모른다. 이 상황에서 데이터는 미래의 자원이 아니라 현실의 통제자다.

    요즘 유행 중인 데이터 중시 경영에서 데이터는 이미 '상전'이다. 인상적인 숫자를 건네려는 욕구, 데이터에 화장을 하려는 꼼수가 뒤따른다. 수량화의 덫이다. 수치로 환원될 수 없는 가치가 분명히 있지만 개의치 않는다. 데이터에 눈이 머니 밀어내기를 하여 당장의 실적을 좋게 만들려 하거나 심지어 분식(粉飾)을 자행한다. 그렇게 해서 망가지는 자기 시장은 수치로 보고되는 당장의 데이터에는 드러나지 않는다.

    데이터 스스로 말을 할 수는 있을지 모르지만 그 이야기를 듣는 것은 결국 우리 사람이고, 행동을 하는 것도 사람이다. 이 책에는 미처 나와 있지 않지만, 구글의 지난겨울 감기 예측은 보기 좋게 틀려 버렸다. 사이트가 유명세를 타자 데이터가 왜곡된 탓일 것이다. 당신의 데이터도 무럭무럭 자라나면서 분명 무슨 말을 할 것이다. 그러나 말이란 게 본디 그렇듯 듣는 이도 말하는 이도 이를 '왜곡'할 수 있음을, 그리고 그 리스크란 무엇인지, 저자들은 담담하고 또 균형 있게 들려준다.

    이전 기사 다음 기사
    기사 목록 맨 위로