AI 기반 자동화 팩트체킹 시범서비스를 경험해보세요!
AI 팩트체크는 인공지능을 활용하여 특정 주장에 대해 사실여부와 근거문장을 확인할 수 있는 서비스입니다.
한국어 데이터세트를 통해 인공지능으로 학습된 모델은 자동으로 관련된 문서와 문장들을 찾아 참과 거짓 여부를 판단하고, 근거를 추출합니다.

‘자동화 팩트체킹 서비스’는 필요할까?

날마다 온라인에서 생산되는 무수히 많은 정보를 사람이 일일이 확인하는 것은 불가능 합니다. 특히 최근들어 허위정보가 국민의 안전과 건강까지 위협하는 상황입니다.

인공지능 기술(AI)을 활용하여 자동화된 팩트체크의 도입이 필요합니다. 언어의 모호함, 신뢰할 수 있는 데이터에 대한 제한된 접근성 등으로 아직 사람처럼 자료를 깊이 있게 분석하는 것은 불가능하지만, 사람보다 빠르게 많은 양의 글을 읽고 관련된 문서를 찾아내어 사실을 확인할 수 있으니 완벽하지 않더라도 앞으로 기술이 더 정교해지면 유용한 서비스가 될 것으로 판단됩니다.

AI 활용 자동화 팩트체킹 시범서비스

본 사업은 2020년부터 진행된 AI 기반 팩트체크 자동화 서비스의 일환으로 한글 기반 팩트체크 알고리즘 개발을 위해 베이스라인 모델 구축 및 고도화를 진행하였으며, 알고리즘의 성능을 확산시키기 위한 데이터세트 및 모델을 공개합니다.

1

한국어 주장과 근거들로 구성된 80,000개의 팩트체크 데이터세트를 구축.

2

인공신경망 기반의 머신러닝 베이스라인 모델 학습


3

주장에 대한 사실여부와 근거문장을 확인할 수 있는 웹 시범서비스 운영

4

구축된 데이터세트 공개 및 모델 공식 평가, 모델 성능 비교를 위한 리더보드 운영

‘자동화 팩트체킹 서비스’ 진행과정

모델학습단계

데이터세트 생성 → 인공신경망 학습 → AI 모델

주장 검증 단계

주장 입력 → 문서 찾기 → 문장 찾기 → 판단 → 출력

1) DR(Document Retrieval): 관련 있는 문서를 추출한다.

2) SS(Sentence Selection): 문서들 가운데 관련 있는 문장을 찾는다.

3) RTE(Recognition Textual Entailment): 여러 근거들로부터 얻은 함의를 종합하여 참/거짓/판단불가로 분류

※ 검증의 근거로 인터넷 백과사전인 한국어 위키피디아, 그리고 연합뉴스 사회 섹션의 기사들을 사용합니다. 연구자들은 구축된 팩트체크 데이터세트를 내려 받아 더 정교한 모델을 만들고 제출하여 성능을 확인해 볼 수 있으며. 제출한 모델은 리더보드에 기록되어 다른 모델들과 성능을 비교할 수 있습니다.

해외 자동화 팩트체크 주요 사례

풀팩트 Full Fact

영국의 풀팩트(Full Fact)는 뉴스 보도 내용과 정치인의 의회 발언록에서 검증할 만한 주장을 추출한 뒤 기존 데이터와 비교하여 검증하는 툴을 만들었습니다. 특히 통계와 관련된 주장을 검증하기 위해 정치인 발언을 음성 인식하여 문장으로 바꾼 뒤, 이 발언이 검증할 만한 주장인지를 판단하고, 자동으로 통계청 데이터와 연동하여 사실 여부를 판단하는 시스템을 구축하였습니다.

클레임버스터 Claimbuster

미국의 텍사스대학교, 듀크대학교, 스탠퍼드대학교 연구팀과 구글 리서치팀이 공동 개발한 Claimbuster 시스템은 팩트체크가 필요한 문장을 자동적으로 감지합니다. 검증이 필요한 주장을 발견하는 기계학습 시스템과 더불어 온전히 처음부터 끝까지 완전한 자동화 시스템을 목표로 시스템을 확장하고 있습니다. 이미 검증이 완료된 주장들의 데이터베이스를 구축하고 이와 일치하지 않는 데이터는 더불어 울프람 알파(Wolfram Alpha)와 같은 통계 및 수치 데이터를 연동하여 검증하는 시스템을 구축하고 있습니다.

피버 FEVER, a large-scale dataset for Fact Extraction and VERification

대부분의 자동화된 팩트체크 시스템은 기존에 검증 완료된 주장을 찾아서 검색하여 보여주는 방식을 갖추었습니다. 그러나 이미 데이터베이스를 구축하지 않은 일반적인 사실에 대한 사실 여부는 검증하기 어려웠습니다. FEVER는 팩트체크된 내용을 따로 모아놓은 데이터베이스가 아닌 법전, 백과사전과 같은 일반적인 자연어로 기술된 문장으로부터 사실 여부를 검증할 수 있도록 하는 것을 목적으로 합니다. FEVER는 인공지능 기반의 팩트체크를 위한 데이터세트로 자연어처리 분야의 학회인 NAACL에서 2018년에 발표되었습니다. FEVER의 데이터세트은 위키피디아 등에서 수집한 영문 기반의 185,445개의 주장과 이를 뒷받침할 수 있는 근거로 구성이 되어 있습니다. 이 데이터세트를 학습하면, 기존에 학습하거나 검증 완료되지 않은 자연어 문서로부터 팩트체크가 가능합니다.

※ 본 연구 사업은 방송통신발전기금을 지원받아 진행한 사업입니다.

한글 데이터세트 활용을 위한 자동화 웹 서비스

웹사이트에 접속하시면 팩트체크 알고리즘을 테스트해볼 수 있습니다.