Automatización en la gestión documental

Automatización en la Gestión Documental: clasificación de documentos y extracción de metadatos

¿Has pensado en el tiempo que podrías ahorrar gracias a las herramientas de automatización en la Gestión Documental? Gracias a la clasificación de documentos y extracción de metadatos podemos agilizar la automatización de tareas que hasta ahora podíamos hacer de forma manual.

¿Qué son los metadatos?

Cuando hablamos de metadatos en muchas ocasiones al cliente le resulta difícil interiorizar el concepto, sobre todo si no posee experiencia en el manejo de herramientas de gestión documental. Sin profundizar mucho en las implicaciones teóricas del término, los metadatos son la respuesta lógica a la necesidad de “estructurar” la información de los documentos asociándoles datos que sirvan para describirlos y clasificarlos facilitando su gestión, en general, y búsqueda y recuperación, en particular.

En nuestro día a día generamos “tablas” y “documentos” para describir distintos aspectos de los documentos que manejamos (fechas, títulos, estado de tramitación, etc.) para que, de alguna manera, nos ayuden a gestionarlos. Estamos, pues, generando metadatos sobre los documentos. Desafortunadamente, el hecho de que estos datos se registren en una hoja de cálculo o similar no nos está aportando ningún valor añadido y está penalizando nuestra gestión por el coste de una tarea de extracción puramente “manual”.

Las herramientas de gestión documental como las que GEDSA implanta a sus clientes poseen utilidades relacionadas con la captura y extracción de metadatos de los documentos (independientemente de su formato original).

Con estas funcionalidades podemos definir unos modelos de captura a través de la tipología documental (clasificación automática) y sus metadatos asociados (extracción automática). Los vemos a continuación:

Tipología documental

Viene determinada por las características físicas del documento (aplicando técnicas para la representación y comparación de histogramas del documento con el del modelo predefinido) y por la presencia de determinadas expresiones características.

Estas se pueden localizar mediante:

– Combinación de algoritmos de OCR
Expresiones regulares (secuencias de caracteres que conforman un patrón de búsqueda).

Por ejemplo, si en un documento aparece la expresión “factura” es más que probable que se trate de ese tipo de documento y, siendo así, es posible pre-definir su clasificación automática en base a ese criterio. Esto es útil cuando nos encontramos con expedientes que contienen documentación heterogénea que nos interesa identificar por su tipología (separar el contrato de la factura, por ejemplo).

Extracción de metadatos

La extracción de los metadatos asociados a cada tipo de documento (previamente clasificado de forma automática) también puede automatizarse. Para ello se aplican técnicas de procesamiento de texto (OCR) que extraen el texto completo del documento que pueden combinarse con otras, más específicas (como la definición de las coordenadas dentro del documento de las que debe extraerse cada metadato).

Por ejemplo, si tratamos con formatos de documento homogéneos, como pueden ser las facturas emitidas por una compañía) podemos trazar sobre el documento el área que contiene datos como el número de factura puesto que siempre aparece reflejado en la misma zona del documento y es, por tanto, previsible.

Es posible incluso que esté convencido de las bondades que los automatismos descritos en este artículo pero le preocupe cómo configurarlos a su casuística. En GEDSA aportamos soluciones globales por lo que cualquier implantación de software viene acompañada de un estudio previo y de la adaptación de la herramienta para que solo tenga que ocuparse de utilizarla ya en condiciones de pleno rendimiento.

¿Quieres saber más sobre la Automatización en la Gestión Documental?