Automatización documental con AI: scraping inteligente de PDFs con Gemini y Vertex AI

En muchos procesos de negocio, la gestión de grandes volúmenes de documentos no estructurados sigue siendo un cuello de botella crítico.
PDFs con imágenes escaneadas, fotografías de baja calidad y formatos heterogéneos dificultan la extracción de datos y obligan a validaciones manuales que consumen tiempo y recursos.
Para abordar este desafío desarrollamos una solución personalizada de procesamiento y análisis documental asistido por AI que combina técnicas de preprocesamiento de imagen, OCR avanzado y modelos de lenguaje en la nube para extraer, estructurar y validar información a escala. La arquitectura es modular, escalable y fácilmente adaptable a distintos contextos e industrias donde el procesamiento masivo de documentos es un requisito clave.
Arquitectura e integración
La solución se construyó sobre Google Cloud Platform, utilizando Vertex AI como plataforma para despliegue de modelos de AI y Machine Learning, permitiendo el despliegue de modelos LLM, en este caso Gemin. Lo que se buscaba era generar el reconocimiento y scraping de documentos para simplificar la carga de los mismos y optimizar los tiempos operativos.
Cada vez que se recibe un documento nuevo se dispara una solicitud hacia Gemini API la cual retorna un objeto Json, donde cada clave y valor encontrado dentro de los documentos se retorna de una manera estructurada. Luego se inicia un proceso de validaciones y tratamiento de información en la API desarrollada en Python. La que expone en Endpoints para distintos usos e implementaciones del proyecto. Tales como almacenaje en base de datos, data warehouse, validaciones en tiempo de ejecución, entre otras.
Cuando el usuario necesite cargar un nuevo documento a través de la interfaz, adjuntará el documento en cuestión, en background, se ejecutarán los procesos antes mencionados y cuando el usuario llegue a la pantalla de carga de datos de ese documento esta pantalla se auto completará, evitando la carga manual de todos esos campos, requiriendo solo una breve validación.
Aplicabilidad en otras industrias
Si bien el caso inicial estaba orientado a la evaluación de garantías crediticias, el mismo patrón arquitectónico es reutilizable en cualquier escenario con grandes volúmenes de documentos heterogéneos. Sectores como banca, financieras, aseguradoras o incluso estudios contables enfrentan procesos similares: lotes de miles de documentos que deben ser clasificados, interpretados y validados rápidamente.
Un ejemplo claro: en el caso de pólizas de seguro, el sistema podría identificar si una póliza corresponde a la persona de interés, si está vigente o si presenta datos incompletos. Lo mismo aplica para recibos, estados contables o documentos regulatorios.
Resultados y beneficios operativos
Este enfoque reduce drásticamente el tiempo necesario para pasar de documento crudo a dato estructurado listo para análisis y toma de decisiones. La AI no reemplaza la revisión experta, pero elimina gran parte de las tareas operativas de lectura, clasificación y carga, liberando capacidad para análisis de casos y validaciones complejas.
La arquitectura es modular, escalable y puede integrarse de forma paralela a sistemas existentes, lo que permite su adopción progresiva sin interrumpir los procesos actuales.