딥페이크 탐지 기술AI vs 인간 연구실세계 벤치마크

AI는 사진을, 인간은 영상을 잡는다 — 플로리다대·퍼듀대 연구가 뒤집은 딥페이크 탐지의 상식

2026-05-05·9분 읽기
AI와 인간의 딥페이크 탐지 능력 비교 연구 2026

딥페이크 탐지는 당연히 AI가 더 잘할 것이라는 전제가 무너졌습니다. 2026년 1월 7일, 플로리다대학교(UF) 심리학·컴퓨터과학 연구팀이 국제학술지 《Cognitive Research: Principles and Implications》에 발표한 연구는 딥페이크 탐지 분야의 뿌리 깊은 가정을 정면으로 뒤집었습니다. AI 알고리즘은 딥페이크 이미지(정지 사진)를 탐지하는 데 있어 최대 97%의 정확도를 기록했지만, 딥페이크 영상(동영상)에서는 우연 수준(chance level)으로 성능이 급락했습니다. 반면 인간은 이미지에서 우연 수준의 판별력을 보였지만, 영상에서는 약 3분의 2(~66%)의 정확도로 AI를 압도했습니다. 같은 시기, 퍼듀대학교(Purdue)의 머신러닝·미디어포렌식 연구소(M2 Lab)는 24개 탐지 시스템을 실세계 정치 딥페이크 데이터로 평가한 벤치마크를 공개해 또 다른 충격을 안겼습니다. 실험실 성능이 실제 SNS 환경에서는 전혀 다르게 나타난 것입니다. 두 연구가 함께 시사하는 메시지는 분명합니다. 딥페이크 탐지는 'AI 하나'나 '인간 하나'로 해결될 문제가 아닙니다. 미디어 유형별로 강점이 다른 AI와 인간의 역할을 재설계해야 할 전환점에 도달했습니다.

연구 설계 — '실험실 속 딥페이크'가 아닌 '현실의 딥페이크'를 테스트하다

플로리다대 연구팀은 플로리다 국가안보연구소(FINS)의 디뎀 펠리바노글루(Didem Pehlivanoglu) 박사, 맹디 주(Mengdi Zhu) 박사와 심리학과 교수 나탈리 에브너(Natalie Ebner) 박사가 주도했습니다. 연구팀은 수백 개의 실제 및 딥페이크 이미지와 영상을 수집·제작했으며, 참가자들에게 각 미디어가 진짜인지 가짜인지를 평가하도록 했습니다. 동시에 동일한 미디어를 AI 탐지 알고리즘 여러 종류에 통과시켜 성능을 비교했습니다. 연구가 다른 점은 단순한 정확도 측정을 넘어섰다는 것입니다. 연구팀은 참가자들의 인지적 특성(분석적 사고 능력, 인터넷 숙련도)과 사회정서적 특성(기분 상태, 타인 신뢰 성향)이 딥페이크 탐지 성능에 미치는 영향을 함께 분석했습니다. 즉, '누가' 더 잘 잡는지뿐 아니라 '왜 잘 잡는지'를 함께 규명한 것입니다.

퍼듀대 M2 랩은 보다 실전적인 관점에서 접근했습니다. 2025년 10월 발표된 '실세계에 적합한가? 현실 딥페이크 탐지(Fit for Purpose? Deepfake Detection in the Real World)' 연구는 상업용·정부용·학술용 탐지 시스템 24개를 동시에 평가했습니다. 사용된 데이터셋은 퍼듀가 자체 구축한 '정치 딥페이크 사건 데이터베이스(PDID)'로, X(구 트위터)·유튜브·틱톡·인스타그램에서 실제 유포된 딥페이크 사건을 수집한 이미지 232장과 영상 173편입니다. 핵심 설계 철학은 '실제 SNS에서 압축·저해상도·후처리된 콘텐츠'를 대상으로 한다는 것이었습니다. 학술 벤치마크들이 주로 품질 높은 공개 데이터셋을 사용하는 것과 대조적으로, 이 연구는 실제 온라인 유통 상황을 재현하려 했습니다.

핵심 발견 — AI 97% vs 인간 우연(이미지), 인간 66% vs AI 우연(영상)

플로리다대 연구의 결과는 연구팀 자신들도 놀라게 했습니다. 딥페이크 이미지 탐지 부문에서 AI 알고리즘은 최대 97%의 정확도를 기록했습니다. 반면 인간 참가자들은 우연 수준(50% 전후)에 머물렀습니다. AI가 정지 이미지에서 탐지하는 핵심 단서는 인간의 눈에는 보이지 않는 픽셀 수준의 아티팩트입니다. GAN(생성적 적대 신경망)이나 확산 모델이 생성한 이미지에는 눈의 반사 패턴 불일치, 피부 텍스처의 미세한 반복 구조, 귀와 머리카락 경계의 블러 패턴 등 인간이 의식적으로 인지하기 어려운 수학적 흔적이 남습니다. AI는 이 잔여 신호를 수백만 개의 학습 사례를 통해 민감하게 포착합니다.

그러나 동영상으로 넘어오면 상황이 완전히 역전됩니다. AI의 동영상 딥페이크 탐지 성능은 우연 수준으로 추락했고, 인간은 약 66%의 정확도를 유지했습니다. 연구 책임자들은 이 결과에 '모두 약간 충격을 받았다'고 인정했습니다. 왜 이런 역전이 일어났을까요? 연구팀의 분석에 따르면, 동영상에는 이미지에 없는 시간적(temporal) 단서가 풍부하게 존재합니다. 입술 동기화(lip-sync)의 미묘한 어긋남, 눈 깜빡임 패턴의 비자연스러움, 표정의 비대칭적 변화, 발화 시 목과 어깨의 미세한 움직임 — 이런 단서들은 인간의 사회적 인지 시스템이 수백만 년의 진화를 통해 민감하게 포착하도록 설계되어 있습니다. 반면 AI 탐지 모델 대부분은 단일 프레임 분석에 최적화되어 있거나, 프레임 간 시간적 일관성 모델링이 취약합니다.

인간 개인 간 탐지 능력 차이도 주목할 만한 발견이었습니다. 분석적 사고 능력이 높은 참가자와 인터넷 숙련도가 높은 참가자는 딥페이크 영상 탐지에서 더 높은 성과를 보였습니다. 특히 흥미로운 것은 기분의 영향입니다. 더 긍정적인 기분 상태에 있는 참가자들은 딥페이크 영상 탐지에서 더 낮은 성과를 보였는데, 연구팀은 이를 '긍정적 기분이 타인에 대한 신뢰를 높여 비판적 판단을 약화시킬 수 있다'고 해석했습니다. 이 발견은 딥페이크를 이용한 사회공학 공격(social engineering)에 대한 중요한 함의를 가집니다. 공격자들은 피해자를 긍정적 기분 상태로 유도하는 맥락(경품 당첨 알림, 오랜 지인 재회 상황)에서 딥페이크 사기를 구사하는 경향이 있는데, 이것이 단순한 우연이 아닐 수 있다는 것입니다.

퍼듀대 벤치마크 — 실험실 챔피언이 실제 현장에선 무너진다

퍼듀대 M2 랩이 실시한 벤치마크는 딥페이크 탐지 업계에 또 다른 경종을 울렸습니다. 24개 시스템 중 많은 것들이 FaceForensics++나 DFDC 같은 학술 데이터셋에서는 90% 이상의 탐지율을 자랑했습니다. 그러나 실제 SNS에서 유통된 저화질·압축·재인코딩된 정치 딥페이크를 대상으로 하자 성능이 급격히 저하되었습니다. 이미지의 경우 일부 모델이 80% 이상을 유지했지만, 영상의 경우 거의 모든 상업용 모델이 60%대 이하로 떨어졌습니다. 영상 탐지가 특히 어려운 이유는 SNS 플랫폼들이 업로드 과정에서 영상을 강도 높게 압축하기 때문입니다. 이 압축 과정이 딥페이크의 인공적 흔적(아티팩트)을 자연스럽게 제거하거나 변형시켜, 탐지 모델이 학습한 패턴과 다른 모습을 만들어냅니다.

그 가운데 Incode의 'Deepsight' 시스템은 눈에 띄는 성과를 보였습니다. 퍼듀대 연구에서 Deepsight는 상업용 도구 중 이미지 오탐율(False Acceptance Rate) 최저치인 2.56%를 기록했고, 영상 정확도는 상업용 중 최고인 77.27%(영상 FAR 10.53%)를 달성했습니다. 퍼듀대 슈 후(Shu Hu) 교수는 'Incode는 원래 정치 컨텐츠가 아닌 신원 인증(identity verification)을 위해 설계된 탐지기인데, 이 정치 벤치마크에서 선두를 차지했다는 것은 분포 전환(domain shift)에도 강건함을 보여준다'고 평가했습니다. Deepsight는 2025년 12월 정식 출시됐으며, 딥페이크 이미지·영상뿐 아니라 주입 공격(injection attack)과 합성 신원(synthetic identity)까지 탐지한다고 밝혔습니다.

두 연구가 함께 가리키는 방향 — 하이브리드 탐지 전략의 필요성

두 연구는 서로 다른 방법론에서 출발했지만 결론적으로 같은 곳을 가리킵니다. 딥페이크 탐지를 'AI에게 전부 맡기거나' '인간에게 전부 맡기는' 단일 접근법은 작동하지 않는다는 것입니다. 이미지: AI에게 맡겨라. 대용량 정지 이미지 스캐닝은 AI가 인간보다 수십 배 빠르고, 97% 수준의 정확도를 보입니다. SNS 플랫폼이나 뉴스 에이전시가 대량 사진 콘텐츠를 실시간 검증하는 데 AI 자동화는 필수적입니다. 영상: 인간 검토자를 보조 단계로 배치하라. AI 선별 후 인간 팩트체커가 영상을 최종 확인하는 파이프라인이 현 기술 수준에서 최선입니다. 플로리다대 연구팀이 제안하는 '인간-AI 협력(human-AI collaboration)' 모델이 바로 이 원리입니다. 특히 분석적 사고를 훈련받은 팩트체커와 AI의 결합은 단순 AI 또는 단순 인간보다 현저히 높은 탐지율을 기대할 수 있습니다.

또한 두 연구는 현재 탐지 기술이 안고 있는 구조적 한계를 공유합니다. 모든 탐지 모델은 학습 데이터의 분포를 벗어나면 성능이 저하됩니다. 딥페이크 생성 기술이 빠르게 진화하는 상황에서, 오늘의 탐지기가 내일의 딥페이크에 효과적이라는 보장이 없습니다. 퍼듀대 벤치마크는 이 점을 실증했으며, 이는 탐지 모델의 지속적 재학습과 실세계 데이터를 반영한 평가 체계의 중요성을 강조합니다. 한국의 디지털성범죄 피해자 지원 맥락에서 이 연구들은 실질적 함의를 갖습니다. 피해자가 SNS에서 발견한 딥페이크 영상에 대해 AI 탐지기가 '가짜 아님'이라고 판정했더라도, 그것이 곧 진짜라는 의미는 아닙니다. 특히 SNS를 통해 압축·유통된 영상의 경우 AI 탐지기의 오판 가능성이 높다는 점을 당사자와 지원 기관 모두 인식해야 합니다.

딥페이크 탐지의 미래 — 시간적 분석·멀티모달·지속 재학습

두 연구가 가리키는 다음 방향은 세 가지입니다. 첫째, 시간적 분석(temporal analysis) 강화입니다. 현재 영상 딥페이크 탐지의 가장 큰 약점은 프레임 간 일관성을 충분히 분석하지 못한다는 점입니다. 트랜스포머 기반 아키텍처가 CNN보다 데이터셋 간 일반화 성능이 11.33% 낮은 수준의 성능 하락으로 더 견고하다는 것은 이미 알려져 있지만, 비디오의 시간적 패턴을 처음부터 끝까지 추적하는 모델은 아직 초기 단계입니다. 플로리다대 연구에서 인간이 영상 탐지에 강한 이유가 바로 이 시간적 단서 활용이라는 점을 감안하면, AI의 다음 도전은 이 인간적 강점을 알고리즘으로 구현하는 것입니다. 둘째, 멀티모달 탐지 통합입니다. 영상·오디오·텍스트를 교차 분석하는 통합 접근법이 단일 모달 탐지보다 현저히 강건합니다. Incode Deepsight가 이미지·영상·주입 공격을 통합 탐지하는 것, Reality Defender가 영상·오디오·이미지·텍스트를 교차 분석하는 것이 이 방향의 선례입니다. 셋째, 실세계 데이터 기반 지속 재학습입니다. 퍼듀대 PDID 같은 '실제 유포 딥페이크' 데이터베이스를 탐지 모델 학습에 지속적으로 반영해야 하며, 이를 위한 공공-민간 데이터 공유 체계가 필요합니다.

출처 및 참고 자료

1. University of Florida News (2026.02). Machines spot deepfake pictures better than humans, but people outperform AI in detecting deepfake videos. https://news.ufl.edu/2026/02/deepfake-detection/ 2. Pehlivanoglu, D., Zhu, M., Ebner, N.C. et al. (2026.01.07). Is this real? Susceptibility to deepfakes in machines and humans. Cognitive Research: Principles and Implications. https://link.springer.com/article/10.1186/s41235-025-00700-y 3. TechXplore (2026.02). Machines spot deepfake pictures better than humans, but people outperform AI in detecting deepfake videos. https://techxplore.com/news/2026-02-machines-deepfake-pictures-humans-people.html 4. The Hacker News / Expert Insights (2025.12). Purdue University's Real-World Deepfake Detection Benchmark Raises the Bar for Enterprise Models. https://thehackernews.com/expert-insights/2025/12/purdue-universitys-real-world-deepfake.html 5. Incode (2025.12.02). Incode Launches Deepsight, the World's Most Accurate Deepfake Defense. Business Wire. https://www.businesswire.com/news/home/20251202871720/en/Incode-Launches-Deepsight-the-Worlds-Most-Accurate-Deepfake-Defense 6. Biometric Update (2025.12). Incode launches Deepsight to protect against deepfakes, injection attacks. https://www.biometricupdate.com/202512/incode-launches-deepsight-to-protect-against-deepfakes-injection-attacks 7. Bioengineer.org (2026.03). Machines Outperform Humans in Detecting Deepfake Images, While People Excel at Spotting Deepfake Videos. https://bioengineer.org/machines-outperform-humans-in-detecting-deepfake-images-while-people-excel-at-spotting-deepfake-videos/