A transição do RAG tradicional para o RAG multimodal: desafios na extração semântica e indexação de documentos complexos
DOI:
https://doi.org/10.55892/jrg.v9i20.3500Palavras-chave:
Retrieval-Augmented Generation, RAG multimodal, Compreensão documental, Modelos visão-linguagem, Recuperação de informaçõesResumo
Os sistemas Retrieval-Augmented Generation (RAG) consolidaram-se como uma das principais estratégias para ampliar a capacidade dos modelos de linguagem por meio da integração entre recuperação de informações e geração de respostas fundamentadas em fontes externas de conhecimento. Entretanto, as arquiteturas tradicionais de RAG foram desenvolvidas predominantemente para ambientes textuais, apresentando limitações quando aplicadas a documentos complexos compostos por múltiplas modalidades de informação, como tabelas, gráficos, imagens e estruturas visuais. Nesse contexto, o presente estudo teve como objetivo analisar a transição do RAG tradicional para o RAG multimodal, com ênfase nos desafios relacionados à extração semântica, indexação documental e recuperação de informações em documentos visualmente ricos. Trata-se de uma revisão narrativa da literatura baseada na análise de estudos publicados entre 2020 e 2025 que abordaram recuperação aumentada por geração, compreensão multimodal de documentos, modelos visão-linguagem e indexação visual. Os resultados demonstraram que abordagens tradicionais dependentes de OCR e processamento textual tendem a apresentar perdas semânticas decorrentes da incapacidade de preservar adequadamente informações estruturais e visuais. Em contrapartida, modelos multimodais recentes, como LayoutLMv2, LayoutXLM, Donut, ColPali, VisRAG, M3DocRAG e VDocRAG, evidenciam avanços significativos na compreensão documental ao integrar simultaneamente informações textuais, visuais e espaciais. Conclui-se que a evolução para arquiteturas multimodais representa uma mudança paradigmática na recuperação de informações, ampliando a capacidade dos sistemas de inteligência artificial em compreender, indexar e recuperar conhecimento contido em documentos complexos.
Downloads
Referências
CHO, Jaemin et al. M3DOCRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding. arXiv:2411.04952, 2024. Disponível em: https://arxiv.org/abs/2411.04952.
FAYSSE, Manuel et al. ColPali: Efficient Document Retrieval with Vision Language Models. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 2025, Singapore. Singapore: ICLR, 2025. Disponível em: https://openreview.net/forum?id=ogjBpZ8uSi.
KIM, Geewook et al. OCR-free Document Understanding Transformer. In: EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV), 17., 2022, Tel Aviv. Cham: Springer, 2022. p. 498-517. DOI: 10.1007/978-3-031-19815-1_29.
LEWIS, Patrick et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In: CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NeurIPS), 34., 2020, Vancouver. Vancouver: NeurIPS, 2020. p. 9459-9474. Disponível em: https://proceedings.neurips.cc/paper/2020/hash/6b493230205f780e1bc26945df7481e5-Abstract.html.
TANAKA, Ryota et al. VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents. In: IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2025, Nashville. Nashville: IEEE/CVF, 2025. Disponível em: https://openaccess.thecvf.com/content/CVPR2025/html/Tanaka_VDocRAG_Retrieval-Augmented_Generation_over_Visually-Rich_Documents_CVPR_2025_paper.html.
XU, Yang et al. LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (ACL), 59., 2021, Bangkok. Bangkok: Association for Computational Linguistics, 2021. p. 2579-2591. Disponível em: https://aclanthology.org/2021.acl-long.201/.
XU, Yiheng et al. LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding. arXiv:2104.08836, 2021. Disponível em: https://arxiv.org/abs/2104.08836.
YU, Shi et al. VisRAG: Vision-based Retrieval-Augmented Generation on Multi-Modality Documents. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 2025, Singapore. Singapore: ICLR, 2025. Disponível em: https://openreview.net/forum?id=zG459X3Xge.
Downloads
Publicado
Como Citar
Edição
Seção
ARK
Licença

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.

































