Indícios fisiológicos e interpretáveis para a detecção de deepfake em vídeos: um estudo empírico com mapas PPG e características projetadas manualmente

Rosa, Paulo Henrique Guazzi

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/40449

Título:	Indícios fisiológicos e interpretáveis para a detecção de deepfake em vídeos: um estudo empírico com mapas PPG e características projetadas manualmente
Título(s) alternativo(s):	Physiological and interpretable cues for deepfake video detection: an empirical study with PPG maps and handcrafted features
Autor(es):	Rosa, Paulo Henrique Guazzi
Orientador(es):	Nassu, Bogdan Tomoyuki
Palavras-chave:	Deepfakes - Detecção Fotopletismografia Visão por computador Processamento de imagens - Técnicas digitais Processamento de sinais - Técnicas digitais Aprendizado do computador Vídeo digital - Análise Deepfakes - Detection Photoplethysmography Computer vision Image processing - Digital techniques Signal processing - Digital technique Machine learning Digital video - Analysis
Data do documento:	30-Abr-2026
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Curitiba
Citação:	ROSA, Paulo Henrique Guazzi. Indícios fisiológicos e interpretáveis para a detecção de deepfake em vídeos: um estudo empírico com mapas PPG e características projetadas manualmente. 2026. Dissertação (Mestrado em Computação Aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2026.
Resumo:	Os vídeos deepfake tornaram-se progressivamente mais realistas, reduzindo a confiabilidade de detectores baseados exclusivamente em artefatos visíveis. Este trabalho investiga a detec- ção de deepfakes sob duas perspectivas complementares: (i) a consistência fisiológica, capturada por meio de mapas de fotopletismografia (PPG, de photoplethysmography) remota, à semelhança do método FakeCatcher, e (ii) descritores interpretáveis projetados manualmente, relacionados a movimento, textura, variação cromática e artefatos de compressão. Realizamos um estudo de ablação exaustivo sobre todos os subconjuntos de características manuais (1023 combinações) e utilizamos SHAP para quantificar a relevância das características entre diferentes conjuntos de dados. Experimentos conduzidos nos conjuntos CelebDF (v1 e v2) e FaceForensics++ demonstram que subconjuntos compactos de descritores manuais superam consistentemente o uso do conjunto completo de características, e que as pistas mais informativas variam de forma marcante conforme as características do conjunto de dados. Observamos ainda que CNNs baseadas em PPG alcançam forte desempenho intra-conjunto, enquanto a robustez entre domínios permanece desafiadora sob condições heterogêneas. Por fim, analisamos a (frequentemente limitada) complementaridade entre pistas fisiológicas e descritores manuais sob estratégias de fusão tardia, e mostramos que a correção seletiva de viés pode proporcionar ganhos modestos, porém consistentes, em um pequeno subconjunto de casos próximos à fronteira de decisão. Em síntese, nossos resultados esclarecem quais pistas explicáveis permanecem eficazes em cenários com poucos artefatos e fornecem orientações práticas sobre quando a combinação multimodal é vantajosa.
Abstract:	Deepfake videos have become increasingly realistic, reducing the reliability of detectors based solely on visible artifacts. This paper studies deepfake detection from two complementary viewpoints: (i) physiological consistency, captured through remote photoplethysmography (PPG) maps in the spirit of the popular FakeCatcher detector, and (ii) interpretable handcrafted descriptors related to motion, texture, chromatic variation, and compression artifacts. We perform an exhaustive ablation study over all handcrafted feature subsets (1023 combinations) and use SHAP to quantify feature relevance across datasets. Experiments on the CelebDF (v1 and v2) and FaceForensics++ datasets show that compact subsets of handcrafted descriptors consistently outperform using the full feature set, and that the most informative cues shift markedly with dataset characteristics. We also observe that PPG-based CNNs achieve strong intra-dataset performance, while cross-domain robustness remains challenging under heterogeneous conditions. Finally, we analyze the (often limited) complementarity between physiological and handcrafted cues under late-fusion strategies, and show that selective bias-correction can provide minor yet consistent gains in a small subset of near-boundary cases. Overall, our results clarify which explainable cues remain effective in low-artifact scenarios and provide practical guidance on when multimodal combination is beneficial.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/40449
Aparece nas coleções:	CT - Programa de Pós-Graduação em Computação Aplicada

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
indiciosdeteccaodeepfakevideos.pdf		3,75 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons