Gedsa Digitalización Ebook

Proyecto GEDSA: Servicio de digitalización con OCR y generación de ficheros eBook

Desde hace más de 20 años, en GEDSA venimos ofreciendo un Servicio Integral de Gestión Documental a instituciones y empresas que nos ha llevado a convertirnos en una de las empresas líderes del mercado con un alto grado de implantación nacional.

Recientemente hemos terminado un proyecto de Servicio de digitalización con OCR y generación de ficheros eBook para uno de nuestros clientes.

Como alcance, se ha realizado:

  • Fondo documental compuesto por libros en papel y en PDF
  • Escaneo de los libros en papel para su conversión a formato PDF.
  • Una vez convertidos todos los libros a PDF, procesamiento por Reconocimiento Óptico de Caracteres del global de páginas.
  • Generación de índices interactivos de contenidos y notas al pie para los formatos de libro electrónico (.mobi y .epub).
  • Entregables: ficheros en formato epub, mobi y PDF, por cada libro.

PROCESO TÉCNICO

1. RECOGIDA Y RECEPCIÓN DEL FONDO A PROCESAR
Recogida de todos los libros en formato papel en la sede del cliente. Paralelamente se habilita al cliente una instancia en el servidor FTP de GEDSA (podría ser sFTP si la confidencialidad de los datos lo requiere) para recepcionar los libros en formato original PDF.


2. ESCANEO
Adecuación de la documentación física para poder ser procesada mediante escáneres de alta producción.
Una vez separadas las hojas, pasamos a la digitalización de las hojas a una resolución de 400dpi en blanco y negro, con la intención de mejorar la calidad del resultado del proceso de OCR.
El proceso de digitalización en cadena de GEDSA contempla una etapa de verificación y corrección de la calidad de la imagen, garantizando que el proceso de conversión no ha supuesto la pérdida de contenido o calidad.

3. RECONOCIMIENTO ÓPTICO DE CARACTERES (OCR)
El Reconocimiento Óptico de Caracteres, u OCR por sus siglas en inglés, es una tecnología que le permite convertir diferentes tipos de documentos, tales como documentos en papel escaneados, archivos de PDF o imágenes captadas por una cámara digital en los datos editables y con opción de búsqueda.
La tarea de procesado de OCR se realiza sobre los libros físicos y sobre los libros que se remitan en PDF que no tengan información textual embebida.
El resultado del OCR nos permite obtener el texto que forme las distintas líneas del documento.

4. CREACIÓN DE ÍNDICES INTERACTIVOS
Una de las grandes ventajas que ofrecen los libros electrónicos es la opción de poder crear índices, y tablas de contenido y notas a pie de página con llamadas entre los elementos, de forma que pulsando sobre el enlace nos dirigirá exactamente al punto buscado.

5. ENTREGA DE FICHEROS A CLIENTE
El resultado del proceso de conversión digital se pone a disposición del cliente como enlace de descarga desde el servidor FTP de GEDSA. Para cada libro creamos un fichero ZIP que contiene las tres versiones de libro digital (MOBI, EPUB, PDF) así como las imágenes digitalizadas en formato TIFF de los libros que hayan sido escaneados.
¿Quieres más información sobre nuestros servicio de Digitalización?
Este proceso puede llevarse a cabo sobre cualquier tipo de publicación (manual, monografía, artículo de revista científica, tesis doctoral, etc.) en formato papel o electrónico (MS Word, PDF, TIFF, JPEG…).
Más información