[도서] [경제 경영] 모두 거짓말을 한다 - 세스 스티븐스 다비도위츠
원제 : Everybody Lies: Big Data, New Data, and What the Internet Reveals About Who We Really Are
설문조사에 답할 때 사람들은 당혹스러운 행동이나 생각을 축소해서 이야기한다. 사람들은 멀쩡하게 보이기를 원한다. 설문조사가 대부분 익명인데도 말이다. 이것을 사회적 바람직성 편향(social desirability bias)이라고 부른다. 1950년에 발표된 한 논문은 설문조사가 그러한 편향의 희생양이라는 강력한 증거를 제시했다. 연구자들은 덴버 주민 중 몇 버센트가 투표를 했는지, 기부를 했는지, 도서관 대출카드를 갖고 있는지 등에 대한 데이터를 공적인 정보원에서 수집했다. 그러고는 주민들에게 설문조사를 실시해 그 비율이 서로 같은지 확인했다. 결과는 놀라웠다. 주민들이 설문조사에 보고한 내용은 연구자들이 수집한 데이터와 크게 달랐다. 이름을 쓰는 칸이 없었는데도 대다수 사람들이 유권자 등록을 했고, 투표를 했으며, 기부를 한다고 과장했다.
차원의 저주는 변수(차원)는 많은데 그리 많은 관측을 하지 않을 때마다 우리를 덮친다. 차원의 저주는 빅데이터에서 중요한 문제다. 새로운 데이터셋은 대체로 종래의 데이터 출처에 비해 기하급수적으로 많은 변수를 제공하기 때문이다. 빅데이터 출처를 이용해서 시장을 예측한다고 주장하는 많은 사람이 이 저주에 걸려 있다. 차원의 저주를 극복하려면, 자신의 연구에 대해 겸손해야 하고 자신이 찾아낸 결과와 사랑에 빠지지 말아야 한다. 결과에 대한 추가 실험을 실시해야 한다. 사회과학자들은 이것을 '표본 외' 실험이라고 부른다. 더 많은 변수를 시도할수록 더 겸손해져야 한다. 시도하는 변수가 많아질수록 표본 외 실험은 어려워진다. 시도하는 모든 실험을 기록하는 것 역시 중요하다. 그런 다음에야 이 저주의 희생자가 될 가능성이 얼마나 높은지, 결과에 대해서 얼마나 많은 의심을 가져야 하는지 정확히 알 수 있다.
무작위 실험이 인과관계를 증명하는 가장 좋은 방법이며, 이 방법이 사회과학 분야로 널리 퍼졌다.
2000년 구글이 인터넷에 혁명을 일으키는 실험을 하나 진행하기로 결정했다. 그들은 무작위로 사용자를 두 집단으로 나눴다. 실험집단에게는 검색 결과 페이지에 링크 스무 개를 보여줬다. 통제집단에게는 지금껏 그랬듯 링크 열 개를 보여줬다. 이후 엔지니어들은 그들이 구글에 얼마나 자주 다시 방문하는지를 기반으로 두 집단의 만족도를 비교했다.
중요한 점은 디지털 세계에서의 실험은 오프라인 세계에서의 실험에 비해 엄청난 장점이 있다는 것이다.
디지털 세계에서의 무작위 실험은 비용과 시간이 적게 든다. 참가자를 찾을 필요도, 그들에게 돈을 줄 필요도 없다. 사용자를 어떤 집단에 무작위로 배정하는 코드 한 줄만 쓰면 그만이다. 사용자에게 설문지를 채우라고 할 필요도 없다. 사용자의 마우스 움직임과 클릭만 측정하면 된다. 반응을 정리하고 분석할 필요도 없다. 결과를 정리/분석하는 자동 프로그램만 구축하면 된다. 그 어떤 계약도 필요 없다. 사용자에게 그들이 실험에 참여하고 있다는 사실조차 이야기할 필요가 없다.
이것이 빅데이터가 가진 네 번제 힘이다. 빅데이터는 진정한 인과관계를 찾아낼 수 있는 무작위 대조군 실험을 훨씬 더 쉽게 할 수 있게 해준다. 당신이 온라인에 있기만 하면 언제나 거의 어디에서든지 실험을 진행할 수 있다. 빅데이터 시대에는 세상 전체가 실험실이다.
A/B 테스트가 이토록 중요한 또 다른 이유는 작게 보이는 변화도 큰 효과를 낼 수 있기 때문이다.
2012년 12월, 구글은 광고에 변화를 줬다. 네모 칸 안에 오른쪽을 가리키는 화살표를 추가한 것이다. 이 화살표는 정말 이상하다. 오른쪽을 가리키는데 거기에는 아무것도 없다. 사실 이 화살표가 처음 등장했을 때 많은 구글 고객은 비판적이었다. 그들은 구글이 왜 광고에 의미 없는 화살표를 넣었는지 궁금해했다.
구글은 영업 비밀에 대해 방어적이기 때문에 이 화살표가 얼마나 가치 있는지 정확하게 언급하지 않는다. 하지만 그들은 A/B 테스트를 거쳐 이 화살표를 선택했다고 언급했다. 화살표를 추가하자 더 많은 사람들이 이 광고를 클릭했다는 것이다. 의미 없어 보이는 이 작은 변화를 통해 구글과 광고주는 많은 돈을 벌었다.