한동훈 장녀가 발표한 '국제 학술대회' 논문도 표절 확인

2022년 05월 07일 18시 54분

2022년 05월 07일 18시 54분

2022년 05월 07일 18시 54분

한동훈 법무부 장관 후보자의 장녀가 지난해 해외 학술대회에서 발표한 논문의 상당 부분이 3년 전 다른 사람이 쓴 자료를 베낀 것으로 드러났다.
한동훈 후보자의 고등학생 장녀는 지난해 12월 국제전기 · 전자 · 공학회 (Institute of Electrical and Electronics Engineers, IEEE)가 주최하는 학술대회에 영어 논문을 발표했다. 제목은 “Machine Learning in Healthcare Application of Advanced Computational Techniques to Improve Healthcare”이다. 의료 분야에서의 머신 러닝의 적용을 주제로 다뤘다. 이 논문은 참고문헌을 포함해 5쪽 분량으로 데이터나 모델에 기반한 논문은 아니었다. 
그런데, 이 논문의 상당 부분이 학생들의 영어 에세이를 올리고 거래하는 해외 웹사이트(UKessays.com)에 2018년 11월 올라간 “딥러닝의 개념과 응용”(Concepts and Applications of Deep Learning)이라는 에세이의 핵심 내용과 거의 동일한 것으로 확인됐다. 이 웹사이트는 주로 학생들이 쓴 에세이를 올리고 거래하는 곳으로, 한국의 ‘해피캠퍼스’와 비슷하다. 이 에세이는 무료 샘플로 제공되고 있었다.  
뉴스타파가 논문 표절을 검사하는 프로그램(Copyleaks)을 통해 검사한 결과, 한 후보자의 장녀와 에세이간의 표절률은 약 56%가 나왔다. 표와 그림, 참고문헌은 제외한 수치다. 
▲ 논문의 표절을 검사하는 프로그램(Copyleaks)에서 두 글을 비교한 결과, 약 56%가 일치했다. 
한 후보자 장녀의 논문은 총 2,331 단어로 되어 있다. 이중 표절을 의심받는 단어는 1,294단어였다. 이 가운데, 99%의 단어가 기계적인 표절 의혹을 피하려고 단어만 살짝 바꾼 이른바 ‘문장 바꾸기’(paraphrased words) 형태였다. 실제 UKessays에 있는 에세이는 67개의 의미 있는 문장 구조로 구성돼 있는데, 한 후보자 장녀의 논문 가운데 61개의 문장은 단어를 한두 개 바꾸거나, 문장의 구조를 살짝 손보는 식으로 수정해 옮겨 온 것이다. 

핵심 논지는 베끼면서 단어와 문장만 바꾸는 '교활한 표절'(Sneaky Plagiarism)

이는 보통 7개 단어를 연속해 인용해야만, 표절로 인정하는 컴퓨터 프로그램의 적발을 피하려는 '꼼수'로 보인다. 학계에서는 이를 '교활한 표절'(Sneaky Plagiarism)이라고 부른다. 실제 이러한 기계적 표절 기준을 적용한 국내 표절 적발 프로그램에서 두 개의 글을 비교한 결과, 표절률은 5% 미만으로 나왔다. 
하지만 표절 여부는 단순히 문서 유사도의 수치만으로 판정하는 것이 아니다. 실제 한 후보자 장녀 논문의 핵심 요지가 UKessays의 에세이와 동일한 것으로 최종 판명되면, 단어의 표절률에 상관없이 표절이다. 두 개의 논문은 모두 의료 분야의 머신러닝 적용에 관한 독자적 데이터나 방법론은 제시하지 않고 문헌 조사에만 의존한 논문(review article)에 불과했다.  
▲  2021년 한동훈 후보자 장녀의 논문(위), 2018년 에세이 상거래 웹사이트에 올라와 있는 에세이(아래) 
두 논문이 얼마나 유사한지 이해하기 위해 위에 제시된 논문 초록의 첫 대목을 비교해 보자.
"진화했다"(has been evolved)를 "발전했다"(has developed)로, "머신러닝 연구의 새로운 분야"(new field of Machine Learning Research)를 "머신러닝의 새로운 연구 분야"(new field of research in Machine Learning)로 단어 위치를 바꿨다. 
또 "문제를 다뤘다"(deals with problems)를 "문제 해결에 이용했다"(are used to solve problems)로 바뀌었고, "∽에 의해 영향을 받는다"(are affected by)는 문장은 "∽때문에 해결할 수 없다"(cannot solve due to)로 고쳤다. 그러나 두 개의 문장의 뜻은 같다.
2018년 UK 에세이 사이트에 올려진 글과 한동훈 후보자의 장녀가 쓴 논문을 더 비교해보자. 
▲ 2021년 한동훈 후보자 장녀 논문(위), 2018년 에세이 상거래 웹사이트에 올라와 있는 에세이(아래) 
이번에는 단어는 물론 문장의 구조를 바꾼 사례다. 뜻은 대동소이하다. 한국어로 번역하면, 두 문장 모두 “최근에 머신러닝 알고리즘 성능은 입력 데이터의 고유한 특징에 크게 좌우된다. 예를 들어 스팸 메일 여부를 구분하는 작업의 경우에는 입력 문서를 단어로 쪼갬으로써 수행할 수도 있다.”
2021년 한동훈 후보자 장녀의 논문과 2018년 에세이 상거래 웹사이트에 올라온 글 중, 한 가지만 더 소개한다.
▲ 2021년 한동훈 후보자 장녀 논문(위), 2018년 에세이 상거래 웹사이트에 올라와 있는 에세이(아래) 
"사람"(people)이라는 단어를 "개인"(Individuals)으로, "다양한 글쓰기 스타일"(different ways of writing)이라는 구절을 "독특한 글쓰기 스타일"(distinct writing styles)로 조금 표현을 달리했지만, 뜻은 비슷하거나 같다.

논문 발표한 학술대회, 장소는 아프리카 알제리

이처럼 한 후보자의 장녀가 다른 사람의 자료를 베껴 학술대회에서 발표한 것도 문제지만, 또 다른 의혹은 논문의 발표 경위와 발표 장소다. 이 논문은 IEEE 학술대회의 하나로써, ICISAT(International conference on information systems and advanced technologies)가 주최하는 학회에서 발표됐다. 
 IEEE는 미국 뉴욕에 사무실이 있는데, 전 세계 150개 나라의 수십만 명이 회원으로 있는 전기·전자·공학 분야의 최대 조직이다. 이 가운데 ICISAT라는 학술단체가 지난해 12월 알제리에서 주최한 학술대회에 한 후보자의 장녀가 참가한 것이다. 
북미·유럽이나 아시아가 아닌 아프리카 알제리에서 열리는 학회에 국내 고등학생이 논문을 발표한 이유를 쉽게 납득하기 어렵다. 이 학회의 참여 역시, 미국 대학의 진학을 염두에 둔 ‘스펙 쌓기’의 일환으로 진행됐다는 의혹으로부터 자유로울 수 없다. 더구나 한 후보자의 장녀가 쓴 논문은 3년 전 다른 사람이 쓴 에세이의 논지를 그대로 베낀 것으로 논문 자체의 학문적 가치는 거의 없다. 
특히 한 후보자의 장녀가 논문을 발표한 학술대회가 열린 곳은 아프리카 알제리의 테베사(Tebessa)였다. 물론 IEEE 이름으로 열리는 모든 학술대회가 건전하지는 않다. 엄격한 동료 심사가 적용되는 권위 있는 학회에서부터 형식적인 심사로 인해 제출되는 거의 모든 논문이 채택되는 부실학회까지 범위가 매우 다양하다. 한 후보자의 장녀가 참여한 알제리 ICISAT가 엄격한 동료 평가와 편집진 심사를 거치는 학회인지 확인하려 했지만, 이 단체의 홈페이지에서는 해당 정보를 찾을 수 없었다. 
뉴스타파는 한동훈 법무부 장관 후보자 측에 지난해 알제리에서 열린 IEEE 학술대회에 장녀가 직접 참가해 논문을 발표했는지, IEEE 알제리 학술대회에 참여한 경위가 무엇인지, 장녀가 발표한 논문이 다른 사람의 자료를 단어만 바꾸는 방식으로 베꼈다는 사실을 알고 있었는지 물었다. 하지만,  한 후보자 측은 “시간이 늦고 질문 사항이 많아 오늘 답은 어려울 것 같고. 내일(5월 8일) 중에는 답변을 하겠다”는 메시지를 보내왔다. 
뉴스타파는 이번 주 한동훈 후보자의 장녀가 돈만 내는 무조건 실어주는 '약탈적 학술지'에 논문을 게재하고, 다른 사람의 문제를 그대로 베껴 만든 수학책을 아마존에 출간하고 판매해 저작권을 위반한 게 아니냐는 의혹을 잇따라 보도했다. 
이 보도와 관련해, 뉴스타파는 한동훈 후보자의 장녀가 베낀 문제의 저작권자인 수학 전공자로부터 이메일 한 통을 받았다. 이 수학 전공자는 2000년대 초반부터 웹사이트를 개설해 운영 중이며, 자신이 개발하고 공개하는 모든 콘텐츠에 대해 그 자신이 저작권을 갖고 있다고 밝혔다.
뉴스타파 보도가 나가고 30여 분 뒤, 한동훈 후보자 측으로부터 해명이 왔다.  한 후보자 측은 "후보자 장녀의 에세이는 25개의 논문, 문헌을 참고하여 그 출처를 표기한 바 있고 (주석 참조), 전체 논문과의 표절률은 4%, 언급하신 에세이와는 표절률이 1% (표절 검사 전문 사이트인 '카피킬러' 기준)로 확인되는 등 표절의 문제는 아니고,  후보자 장녀 에세이의 주제(헬쓰케어, Healthcare)와 결론은 언급하신 에세이와는 전혀 상이한 것으로 보인다"고 주장했다.
그러나 앞에서 언급한 바와 같이 한동훈 후보자 장녀의 논문은 표절 검사 전문 프로그램의 적발을 피하려는 '교활한 표절'의 전형적 사례다. 뉴스타파 역시 기계적 표절 기준만을 적용하는 국내 표절 적발 프로그램에서는 5% 미만의 표절률이 나왔다는 사실을 위에서 언급한 바 있다. 또 한 후보자 장녀의 논문과 문제의 에세이는 핵심 논지가 서로 비슷하다는 사실 역시 이미 지적한 바 있다.      
제작진
데이터최윤원
리서처강유진 홍채민
디자인이도현
출판허현재

관련뉴스