A transição do RAG tradicional para o RAG multimodal: desafios na extração semântica e indexação de documentos complexos

Autores

  • Ítalo Miguel Castor Diniz Pinheiro Universidade Federal de Campina Grande (UFCG)

DOI:

https://doi.org/10.55892/jrg.v9i20.3500

Palavras-chave:

Retrieval-Augmented Generation, RAG multimodal, Compreensão documental, Modelos visão-linguagem, Recuperação de informações

Resumo

Os sistemas Retrieval-Augmented Generation (RAG) consolidaram-se como uma das principais estratégias para ampliar a capacidade dos modelos de linguagem por meio da integração entre recuperação de informações e geração de respostas fundamentadas em fontes externas de conhecimento. Entretanto, as arquiteturas tradicionais de RAG foram desenvolvidas predominantemente para ambientes textuais, apresentando limitações quando aplicadas a documentos complexos compostos por múltiplas modalidades de informação, como tabelas, gráficos, imagens e estruturas visuais. Nesse contexto, o presente estudo teve como objetivo analisar a transição do RAG tradicional para o RAG multimodal, com ênfase nos desafios relacionados à extração semântica, indexação documental e recuperação de informações em documentos visualmente ricos. Trata-se de uma revisão narrativa da literatura baseada na análise de estudos publicados entre 2020 e 2025 que abordaram recuperação aumentada por geração, compreensão multimodal de documentos, modelos visão-linguagem e indexação visual. Os resultados demonstraram que abordagens tradicionais dependentes de OCR e processamento textual tendem a apresentar perdas semânticas decorrentes da incapacidade de preservar adequadamente informações estruturais e visuais. Em contrapartida, modelos multimodais recentes, como LayoutLMv2, LayoutXLM, Donut, ColPali, VisRAG, M3DocRAG e VDocRAG, evidenciam avanços significativos na compreensão documental ao integrar simultaneamente informações textuais, visuais e espaciais. Conclui-se que a evolução para arquiteturas multimodais representa uma mudança paradigmática na recuperação de informações, ampliando a capacidade dos sistemas de inteligência artificial em compreender, indexar e recuperar conhecimento contido em documentos complexos.

Downloads

Não há dados estatísticos.

Biografia do Autor

Ítalo Miguel Castor Diniz Pinheiro, Universidade Federal de Campina Grande (UFCG)

Bacharelado em Ciência da Computação

Referências

CHO, Jaemin et al. M3DOCRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding. arXiv:2411.04952, 2024. Disponível em: https://arxiv.org/abs/2411.04952.

FAYSSE, Manuel et al. ColPali: Efficient Document Retrieval with Vision Language Models. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 2025, Singapore. Singapore: ICLR, 2025. Disponível em: https://openreview.net/forum?id=ogjBpZ8uSi.

KIM, Geewook et al. OCR-free Document Understanding Transformer. In: EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV), 17., 2022, Tel Aviv. Cham: Springer, 2022. p. 498-517. DOI: 10.1007/978-3-031-19815-1_29.

LEWIS, Patrick et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In: CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NeurIPS), 34., 2020, Vancouver. Vancouver: NeurIPS, 2020. p. 9459-9474. Disponível em: https://proceedings.neurips.cc/paper/2020/hash/6b493230205f780e1bc26945df7481e5-Abstract.html.

TANAKA, Ryota et al. VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents. In: IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2025, Nashville. Nashville: IEEE/CVF, 2025. Disponível em: https://openaccess.thecvf.com/content/CVPR2025/html/Tanaka_VDocRAG_Retrieval-Augmented_Generation_over_Visually-Rich_Documents_CVPR_2025_paper.html.

XU, Yang et al. LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (ACL), 59., 2021, Bangkok. Bangkok: Association for Computational Linguistics, 2021. p. 2579-2591. Disponível em: https://aclanthology.org/2021.acl-long.201/.

XU, Yiheng et al. LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding. arXiv:2104.08836, 2021. Disponível em: https://arxiv.org/abs/2104.08836.

YU, Shi et al. VisRAG: Vision-based Retrieval-Augmented Generation on Multi-Modality Documents. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 2025, Singapore. Singapore: ICLR, 2025. Disponível em: https://openreview.net/forum?id=zG459X3Xge.

Downloads

Publicado

2026-06-16

Como Citar

PINHEIRO, Ítalo M. C. D. A transição do RAG tradicional para o RAG multimodal: desafios na extração semântica e indexação de documentos complexos. Revista JRG de Estudos Acadêmicos , Brasil, São Paulo, v. 9, n. 20, p. e093500, 2026. DOI: 10.55892/jrg.v9i20.3500. Disponível em: https://mail.revistajrg.com/index.php/jrg/article/view/3500. Acesso em: 22 jun. 2026.

ARK