빅데이터는 거품이다

데이터로 대변되는 유행에 대한 마음에 새길 비판

빅데이터는 거품이다 (김동환 | 페이퍼로드) 中


빅데이터는 방대한 데이터에 대한 통계적 분석을 수행하여 상관관계(correlation)를 찾는다. 이에 반해 스몰데이터는 원인과 결과의 관계, 즉 인과관계(casual relation)를 파악한다.

빅데이터는 상관관계를 찾을 수는 있지만 인과관계를 확인할 수는 없다. 인과관계는 빅데이터가 아니라 스몰데이터에서 찾을 수 있는 것이다.

케플러는 하늘에 떠 있는 수억 개의 별들의 운행에 관한 빅데이터를 분석하여 흔히 ‘케플러 법칙’이라고 일컬어지는 행성 운동의 법칙을 발견한 것이 아니다. 단 하나의 별, 화성의 움직임을 분석하여 케플러는 행성 운동의 법칙을 발견했다. 페니실린을 발견한 플레밍도 마찬가지다. 플레밍은 수많은 균과 시약의 상호작용을 보여주는 데이터를 분석하지 않았다. 휴가를 다녀온 플레밍은 자신이 균을 배양하던 접시에 곰팡이가 피어 있고 유독 거기에는 균이 자라지 못했다는 사실을 발견했다. 이 단 하나의 접시, 단 하나의 데이터에서 플레밍은 페니실린을 발견했다.


기본적으로 빅데이터의 목표는 방대한 데이터를 분석해서 미래를 예측하고 거대한 수익을 창출하는 것이다. 그런데 과련 그렇게 할 수 있을까? 어떻게 분석해야 엄청난 양의 데이터를 제대로 분석하고 미래를 정확하게 예측할 수 있을까? 빅데이터가 발전하기 위해서는 이런 질문들이 진지하게 논의되어야 할 것이다. 그런데 묘한 점이 있다. 빅데이터 연구를 자세하게 들여다보면 이런 당연한 질문들이 제기되지 않는다는 것이다. 왜 그럴까?

빅데이터를 둘러싸고 벌어지는 모순된 현상이 있다. ‘빅데이터가 왜 필요한가? 데이터가 어마어마하게 산출되기 때문이다. 빅데이터가 왜 실패하는가? 데이터가 없기 때문이다’1는 모순이다. 실제로 이는 우리나라의 정책 현장에서, 그것도 수년간 반복되는 현상이다.

그런데 빅데이터 철학을 둘러싸고 비슷한 모순이 도사리고 있다. 어떻게 분석해야 빅데이터를 제대로 분석할 수 있을까? 이 질문에 대해 빅데이터 옹호론자들이 가지고 있는 정답이 있다. 빅데이터를 투입하면 된다는 것이다. 거대한 데이터를 투입해서 돌리면, 잘못된 답은 저절로 제거되고 정답만 남는다는 것이다.

기묘하게도 빅데이터의 치명적인 문제는 어느새 문제의 해결책으로 둔갑한다. 이렇게 편리한 방법이 세상에 또 있을까? 문제가 어느덧 해결책이 된 것이다. 그러니 거기에는 고민할 것이 없다. 빅데이터에는 아무런 문제가 없다. 왜냐? 심각한 문제가 곧 훌륭한 해결책이 되기 때문이다. 빅데이터라는 말 자체가 문제이자 해결책인 셈이다.


빅데이터의 심층에 자리 잡고 있는 사고방식을 명확하게 보기 위해서는 다소 극단적인 주장을 검토할 필요가 있다. 극단적인 주장 속에 그 세계를 이루는 정신 구조의 원형이 그대로 드러나기 때문이다. 빅데이터에 관하여 가장 극단적인 철학을 제시한 사람은 크리스 앤더슨(Chris Anderson)일 것이다. 그는 2008년 6월 [와이어드(WIRED)]지에 {The End of Theory: The Data Deluge Makes the Scientific Method Obsolete}이라는 제목의 글을 발표했다. 수많은 데이터의 양산과 축적인 과학적 방법을 불필요하게 만들며, 따라서 이론이 필요 없어지는 시대가 곧 찾아온다는 것이다.

조금 더 간략하게 말해보자. 앤더슨의 주장은 거칠게 말해서, ‘빅데이터를 빅컴퓨터에 넣으면 빅컴퓨터와 빅데이터가 알아서 우리에게 무언가를 알려준다는 것’이다. 그렇기 때문에 우리는 골치 아픈 이론이나 과학을 버려도 된다는 것이다.

그런데 놀라운 일이 있다. 이런 얄팍한 생각이 꽤 많은 지식인들의 마음을 사로잡고 있다는 사실이다.

앤더슨은 상관관계로 충분하다고 생각한다. 심지어 상관관계가 인과관계보다 더 우수하다고 주장한다.

분명하고 절대 변하지 않는 한 가지 사실은, 빅데이터 분석을 통하여 알 수 있는 것은 인관관계가 아니라 상관관계일 뿐이라는 점이다. 앤더슨조차도 이를 분명하게 인정하고 있다. 이것이 빅데이터 분석의 궁극적인 한계이다. 상관관계는 행태주의의 근원적인 개념이다. 표면적인 행태들 간의 상관관계를 발견하면 된다는 것이 행태주의의 근본 정신이다. 심층적으로 그리고 구조적으로 행태들이 어떠한 인과관계를 연결되어 있는지는 알 수 없다는 것이다.


빅데이터는 데이터일 뿐이다

어떤 형태로 존재하든 상관없이 빅데이터는 근본적으로 데이터이다. 빅데이터도 결국에는 데이터란 말이다. 데이터가 많다고 해서 데이터 자체의 특성이 달라지는 것은 아니다. 모래가 많다고 물이 되는 것은 아니듯 말이다. 모래는 모래고, 물은 물이다. 많다고 변하는 것은 아니다. 빅데이터는 데이터다.

Big Data = Data

그렇다면 데이터란 무엇인가? 데이터는 ‘과거의 기록’이다. 어떤 형태를 지니는 데이터이건 모든 데이터는 과거의 기록이다. 즉, 데이터는 ‘과거’라는 특성과 ‘기록’이라는 특성을 지닌다. 이 두 가지가 데이터의 본질이다. 데이터는 미래에 발생하는 것이 아니다. 데이터는 이미 지나간 것이다.

여기에서 중요한 것이 데이터는 기록된 것이지, 발생한 그대로의 사실이 아니라는 것이다. 그 기록이 틀릴 수 있고 사실에 가까울 수도 있다. 기록은 언제나 누군가에 의해 기록된 것일 뿐이다.

빅데이터에 대한 가장 큰 망상은 빅데이터를 통해 미래를 예측할 수 있다는 주장이다. 근본적으로 빅데이터는 과거의 기록이다. 빅데이터를 분석해서 과거에 어떤 일이 있었는지를 자세히 알 수 있다고 한다면, 어느 정도 수긍할 수 있다. 하지만 과거의 기록인 빅데이터를 가지고 미래를 예측할 수 있다는 주장과 기대는 난센스이다.

아무리 데이터가 많다고 하더라도 미래를 예측하는 일은 데이터만 가지고는 할 수 없다. 이론이 있어야 한다. 데이터는 그 이론이 과거에 비추었을 때 어느 정도 타당한지 테스트할 수 있게 도와주는 재료일 뿐이다.

데이터(Data) 이론(Theory)
과거의 기록 통시적 원리
상관관계 인관관계
과거의 평가 미래의 예측

빅데이터는 데이터다. 데이터는 과거의 기록일 뿐이다. 그리고 빅데이터 분석은 상관관계만을 제공한다. 이것은 아무리 복잡한 첨단 기술을 가지고 온다고 하더라도 변할 수 없는 것이다. 데이터가 아무리 많아도 그것이 지식이나 지혜가 될 수는 없다. 이에 비해 이론은 지적인 고민과 정제와 깨달음의 산물이다. 이론은 그 자체가 지식이다. 많은 이론들이 모여서 훌륭한 지혜를 제공할 수 있는 것이다. 그러나 데이터는 아니다. 그 숫자가 아무리 많아도 아니다.


  1. 원문은 ‘빅데이터가 왜 필요한가? 빅데이터가 어머어마하게 산출되기 때문이다. 빅데이터가 왜 실패하는가? 빅데이터가 없기 때문이다’ 이지만 의미가 좀 더 명확하도록 문구를 약간 바꾸고 오타를 수정했다. [return]