A transição do RAG tradicional para o RAG multimodal: desafios na extração semântica e indexação de documentos complexos

Autores/as

  • Ítalo Miguel Castor Diniz Pinheiro Universidade Federal de Campina Grande (UFCG)

DOI:

https://doi.org/10.55892/jrg.v9i20.3500

Palabras clave:

Retrieval-Augmented Generation, RAG multimodal, Compreensão documental, Modelos visão-linguagem, Recuperação de informações

Resumen

Os sistemas Retrieval-Augmented Generation (RAG) consolidaram-se como uma das principais estratégias para ampliar a capacidade dos modelos de linguagem por meio da integração entre recuperação de informações e geração de respostas fundamentadas em fontes externas de conhecimento. Entretanto, as arquiteturas tradicionais de RAG foram desenvolvidas predominantemente para ambientes textuais, apresentando limitações quando aplicadas a documentos complexos compostos por múltiplas modalidades de informação, como tabelas, gráficos, imagens e estruturas visuais. Nesse contexto, o presente estudo teve como objetivo analisar a transição do RAG tradicional para o RAG multimodal, com ênfase nos desafios relacionados à extração semântica, indexação documental e recuperação de informações em documentos visualmente ricos. Trata-se de uma revisão narrativa da literatura baseada na análise de estudos publicados entre 2020 e 2025 que abordaram recuperação aumentada por geração, compreensão multimodal de documentos, modelos visão-linguagem e indexação visual. Os resultados demonstraram que abordagens tradicionais dependentes de OCR e processamento textual tendem a apresentar perdas semânticas decorrentes da incapacidade de preservar adequadamente informações estruturais e visuais. Em contrapartida, modelos multimodais recentes, como LayoutLMv2, LayoutXLM, Donut, ColPali, VisRAG, M3DocRAG e VDocRAG, evidenciam avanços significativos na compreensão documental ao integrar simultaneamente informações textuais, visuais e espaciais. Conclui-se que a evolução para arquiteturas multimodais representa uma mudança paradigmática na recuperação de informações, ampliando a capacidade dos sistemas de inteligência artificial em compreender, indexar e recuperar conhecimento contido em documentos complexos.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Ítalo Miguel Castor Diniz Pinheiro, Universidade Federal de Campina Grande (UFCG)

Bacharelado em Ciência da Computação

Citas

CHO, Jaemin et al. M3DOCRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding. arXiv:2411.04952, 2024. Disponível em: https://arxiv.org/abs/2411.04952.

FAYSSE, Manuel et al. ColPali: Efficient Document Retrieval with Vision Language Models. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 2025, Singapore. Singapore: ICLR, 2025. Disponível em: https://openreview.net/forum?id=ogjBpZ8uSi.

KIM, Geewook et al. OCR-free Document Understanding Transformer. In: EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV), 17., 2022, Tel Aviv. Cham: Springer, 2022. p. 498-517. DOI: 10.1007/978-3-031-19815-1_29.

LEWIS, Patrick et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In: CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NeurIPS), 34., 2020, Vancouver. Vancouver: NeurIPS, 2020. p. 9459-9474. Disponível em: https://proceedings.neurips.cc/paper/2020/hash/6b493230205f780e1bc26945df7481e5-Abstract.html.

TANAKA, Ryota et al. VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents. In: IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2025, Nashville. Nashville: IEEE/CVF, 2025. Disponível em: https://openaccess.thecvf.com/content/CVPR2025/html/Tanaka_VDocRAG_Retrieval-Augmented_Generation_over_Visually-Rich_Documents_CVPR_2025_paper.html.

XU, Yang et al. LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (ACL), 59., 2021, Bangkok. Bangkok: Association for Computational Linguistics, 2021. p. 2579-2591. Disponível em: https://aclanthology.org/2021.acl-long.201/.

XU, Yiheng et al. LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding. arXiv:2104.08836, 2021. Disponível em: https://arxiv.org/abs/2104.08836.

YU, Shi et al. VisRAG: Vision-based Retrieval-Augmented Generation on Multi-Modality Documents. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 2025, Singapore. Singapore: ICLR, 2025. Disponível em: https://openreview.net/forum?id=zG459X3Xge.

Publicado

2026-06-16

Cómo citar

PINHEIRO, Ítalo M. C. D. A transição do RAG tradicional para o RAG multimodal: desafios na extração semântica e indexação de documentos complexos. JRG Journal of Academic Studies , Brasil, São Paulo, v. 9, n. 20, p. e093500, 2026. DOI: 10.55892/jrg.v9i20.3500. Disponível em: https://mail.revistajrg.com/index.php/jrg/article/view/3500. Acesso em: 22 jun. 2026.

ARK