< 목록보기

Computation journalism- 저널리즘의 확장 또는 종속 2

by

이번 ‘Computation+Journalism’ 컨퍼런스에서 또 하나 제 흥미를 끌었던 주제들은 컴퓨터 프로그래밍을
통해 만들어진 각종 tool들이었습니다. 당연히 기자들이 정보를 수집하고 처리하는데 도움을 주는 툴도 있
었지만 독자들이 기사나 인터넷의 정보를 잘 이해할 수 있게 돕는 툴들까지 상당히 다채로웠습니다.
몇 가지 소개해 보면 다음과 같습니다.


– 과학이나 의학기사를 쓰는 과정에서 기자가 선택한 전문용어를 자동으로 쉬운 용어로 바꿔주는 프로그램
– 기사에 나오는 수치에 대해서 다른 사실과 비교하는 조건문 등을 넣어 독자의 이해를 돕는 프로그램
  (예를 들어 미국에 있는 총기가 3억정이라는 기사문이 있다면 그 중간에 “이 3억정은 미국인 1명당 1정씩
  돌아가는 양”이라고 부연설명을 넣어주는 식)
– 기사문이나 기사 속 그래프에서 사용한 데이터를 원래 소스와 연결시킨 뒤 데이터의 범위를 바꿔서 살펴
  볼 수 있게 하는 프로그램(예를 들어 세계 각국의 온실가스배출량에 대한 그래프가 기사에 나왔다면 그
  그래프가 인용한 자료를 연결시켜 연도나 나라를 바꿔서 배출량을 다시 살펴볼 수 있게 하는 방식)


이외에도 더 많지만 이런 툴들은 보도의 충실성, 독자의 복지라는 두 가지 측면에서 상당히 의미 있는 시도
들로 보였습니다. 물론 아직은 대부분 일부 데이터 안에서만 작동하는 데모프로그램 수준이었지만 실용화
되면 반향이 클 것으로 보였습니다.


이 가운데서 특히 제 눈길을 잡은 것은 fact-checking 프로그램이었습니다. 듀크대, 텍사스 알링턴대, 스탠
포드대, 구글리서치의 인력들이 협업으로 내놓은 프로그램은 ‘ClaimBuster’라는 이름의 자동 팩트체킹 도구
입니다.(물론 아직 일부 시연동작만 하는 미완성 프로그램입니다.)




사실 팩트체크는 요사이 우리나라에서도 관심의 대상이 되고 있습니다만 다른 나라에서는 몇 년 전부터 유행
이 됐습니다. 이번 발표에도 참여한 듀크대(Duke Reporter’Lab)에 따르면 현재 64개의 팩트체크 사이트가
활동하고 있다고 합니다. 정부나 정치인의 말과 발표, 통계의 진위를 검증하는 언론 본연의 역할이 다시 주
목되고 있는 셈인데, 물론 대부분의 사이트는 언론이 아니라 시민단체들에 의해서 운영되고 있습니다. 또 이
런 감시기능이 새삼 유행을 타게 된 이유는 인터넷이란 매체를 통해 이 감시활동의 결과물이 대중들에게 전
달될 수 있게 된 데 따른 것으로 보입니다.


그런데 이런 인터넷의 전파력이 역설적이게도 팩트체킹 자체에도 위기를 가져다주고 있다는게 이 연합연구팀
의 도구개발 이유이기도 합니다. 정치인 등의 말과 발표가 언론매체 뿐 아니라 인터넷, SNS를 통해 복제되고
전파되며 이 과정에서 편견을 가진 사용자들에 의해 변이되기도 합니다. 이러다보니 팩트체킹을 해야할 정보
의 양은 기하급수적으로 늘어나게 됩니다. 반면 팩트체킹 인력은 한정돼 있고 시간도 부족하다보니 점점 허위
정보를 가려내는 역할이 축소되고 있다는 것입니다.


그래서 연합연구팀은 컴퓨터기술에 의한 자동 팩트체킹이 해결책이라며 팩트체킹툴을 제시합니다. 물론 완성
된 것은 아니고, 자동화된 펙트체킹 프로그램이라는 아직 먼 목표를 이루기 위해 꼭 필요한 첫 과제를 해결한
중간단계의 툴입니다. 이들이 제시한 툴인 ‘Claimbuster’는 한마디로 메시지 가운데서 무엇이 팩트체킹을
해야 할 화자의 주장(claim)인지 가려내서 뽑아주는 기능을 갖고 있습니다. 별것 아닌 것 같지만 무수히 많은
사람들의 주장과 메시지의 홍수 속에서 진실을 가릴 주장들만 가려내는 것도 방대한 작업이고 상당히 자동화
과정이 필요합니다.


Claimbuster 제작팀은 수십 년 간의 미국 대선후보 토론회 내용을 소재로 팩트체킹할 주장을 가려내는 과정
을 시범적으로 보여줬습니다. 우선 첫 단계로 토론회에서 나온 대화문 가운데 5개 낱말이하의 지나치게 짧은
문장은 제외시킵니다. 그리고 두 번째 단계에서 중요한 사실이 담긴 문장과 중요도 낮은 사실을 담은 문장
(예를 들어 “나는 어제 텍사스를 방문했다” 등 분명 fact지만 검증할 필요가 없는 것들), 그리고 사실이 아닌
의견문들을 분류해 냅니다. 이 분류가 핵심인데, 이를 우선 문장에 포함된 감정적 요소, 명사와 수치포함 여부
등이 분석되고 이 분석결과를 평가하는 프로그램적 과정을 통해 분류가 이뤄지는 것으로 보였습니다.
 
물론 이 학술대회에서는 IT기술을 이용한 저널리즘의 대표라 할 수 있는 데이터 저널리즘 사례도 나왔습니
다. 2년 연속으로 퓰리처상을 수상하면서 유명해진 온라인 탐사보도 매체인 프로퍼블리카의 올가 피어스 기
자는 ‘Surgeon Scorecard’라는 기획보도 겸 데이터베이스를 소개했습니다. 기사 겸 데이터베이스라는 것이
이해가 안 될 수 있지만, 이 기획물은 정말 외과병원의 의료사고를 둘러싼 일련의 기획기사들과 함께 외과
병원들의 의료분쟁에 대한 데이터베이스를 결과물로 내놓고 있었습니다.


프로퍼블리카는 이를 위해서 2009년부터 2013년까지 4년간 입원실을 갖춘 외과병동이 있는 병원들의 청구기
록을 입수해 분쟁사례를 분석해 데이터베이스로 만들었습니다. 긴박하게 이뤄지거나 위험성이 높아 실력 좋
은 의사도 사고를 내기 쉬운 수술을 제외하고 대신 비교적 위험성이 덜한 무릎수술 등을 대상으로 사고기록
을 집계했습니다. 이렇게 해서 병원과 의사들의 랭킹을 매긴 겁니다. 프로퍼블리카는 또 자신들이 입수한
기록에만 의지하고 않고 독자들도 참여해서 자신들의 치료나 의사체험 사례를 정보로 제공하게끔 했습니다.
독자도 기사생산에 참여하는 일종의 ‘Crowdsourcing’을 한 셈입니다.


이렇게 해서 만든 데이터베이스에는 무려 1만6천 명이 넘는 외과의사들의 랭킹이 올라갔습니다. 독자들은
자신이 사는 동네 주변의 의사를 검색해서 조회해볼 수도 있는데 이 데이터베이스는 앞으로 식당 등의 평가
사이트로 유명한 Yelp에도 제공해서 식당 뿐 아니라 병원 평가도 일반화시킬 예정이라고 합니다. 확장성이
대단한 기획물입니다.


이렇게 이 행사를 통해 IT기술과 저널리즘이 결합하는 움직임을 들여다봤습니다. 그러나 적어도 이번 행사를
통해 봐서는 IT쪽과 저널리즘이 동등하게 결합했다기 보다는 IT전문가들이  저널리즘 영역에 진출하고 더 나
아가 주도권을 잡아가는 게 아닌가 하는 생각을 갖게 했습니다. 대부분의 참가자들이 프로그래머나 컴퓨터공
학자들이었고, 발표영역도 다양했던 반면 기자들은 데이터 저널리즘 쪽에 치우쳐 있었습니다. 더구나 강연에
도 나선 뉴욕타임스의 데이터 사이언스팀장의 사례처럼 대형 언론사들이 데이터 사이언스팀을 꾸려서 독자들
이 선호하는 기사의 소재와 형식을 알아내려는 애쓰고 있는 것도 같은 흐름이라 할 수 있을 것입니다.


컴퓨터 프로그래밍이라는 기술경제사회의 공용어를 아는 IT공학자들이 이제 저널리즘에서도 주도권을 잡아가
는 반면 저를 포함한 기자들은 발전하는 IT에 대해 이해도가 오히려 떨어지고 있는 상황이라는 점을 부인하기
어려워 보입니다. 기자들이 충분한 IT지식을 갖추기는 어렵겠지만 적어도 언론사 내부적으로는 엔지니어와 기
자들이 협업할 수 있는 시스템을 마련해야 할 것입니다.##