En los últimos años se ha multiplicado las referencias al Big Data en los foros sobre transformación digital como nuevo enfoque para el tratamiento de enormes cantidades de datos que no pueden ser gestionados con herramientas tradicionales. Pero en muchas ocasiones el concepto de Big Data queda algo oscuro por lo que intentaremos clarificarlo aproximándonos al término partiendo de su categorización:
Distintos Tipos de Datos – Big Data
Web and Social Media: contenido Web e información obtenida de las redes sociales (Facebook, Twitter, LinkedIn, etc.). Con aplicación en el análisis de los hábitos de consumo y en general en el Marketing Digital.
Machine-to-Machine (M2M): datos obtenidos mediante tecnologías que permiten conectarse a otros dispositivos y capturar ciertos eventos y los transmitirlos a otras aplicaciones. Engloba el llamado Internet de las cosas (IoT: Internet of Things).
Big Transaction Data: registro de datos transaccionales como por ejemplo la facturación, las llamadas o los movimientos entre cuentas. Relacionados con funciones de controlling, entre otras.
Biometrics: información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, etc. Vinculados a la seguridad e servicios de inteligencia.
Human Generated: agrupa toda la información generada por humanos, típicamente documentos en distintos soportes.
Sin necesidad de profundizar demasiado en el análisis podemos deducir que los datos generados por humanos (a diferencia del resto) no tienen su origen en el uso disruptivo de la tecnología sino que responden a la tradicional necesidad de dejar testimonio de determinada actividad en el contexto de cualquier organización. Estos documentos no tendrán necesariamente un formato nativo digital; Incluso en aquellos casos en que el documento sea electrónico, tampoco puede inferirse que los datos que contiene también lo sean ya que, en la mayoría de casos, la información estará desestructurada.
La buena noticia es que la transición de estos documentos humanos a una estructura de datos computable es automatizable. Para ello, se requiere simultanear o aplicar alternativamente tecnologías de captura (escaneado, digitalización de documentos, OCR,…) con otras técnicas de índole documental (expresiones regulares, semántica, diccionarios, registros de autoridades,…).
Mediante este procedimiento será factible convertir los documentos en datos estructurados y organizados que procesables por otros tipos de tecnología para, por ejemplo, extraer modelos estadísticos para la toma de decisiones.
Sin embargo, en primera instancia e independientemente de esto, estaremos ya disfrutando de los beneficios de la automatización de la gestión documental evitando tareas no productivas como determinar si un documento debe ser o no conservado o describirlo para permitir su posterior recuperación y soslayando el riesgo de perder un documento crítico (y el coste de recuperarlo o generarlo de nuevo).
Podemos concluir que el reto disruptivo en relación con los datos generados por humanos radica en la aplicación de técnicas para su extracción automática y gestión de los documentos que los contienen, llegando incluso a aventurar que éstas son técnicas propias del Big Data.
En GEDSA podemos ayudarte a valorar qué estrategias aplicar para transformar digitalmente tu empresa.