Digitalización OCR

El Reconocimiento Óptico de Caracteres con sus siglas en español ROC o más conocido en sus siglas inglesas OCR, es un procedimiento para digitalizar un texto, ya sea a través de un escáner o un documento ya escaneado con el fin de reconocer los caracteres y símbolos escritos en el documento.

Cómo funciona

Un sistema OCR lee y representa las variaciones de los diferentes caracteres impresos o digitalizados que aparecen en los documentos mediante una serie de patrones preestablecidos por idiomas.

Lo que permite que funcione el OCR es que, al pasar un texto por un cierto dispositivo, el sistema reconozca los caracteres como parte de un alfabeto para poder ser editado con un procesador de textos y no como una imagen.

Con el OCR, se ahorra el trabajo que tienen que realizar muchas personas al no tener que transcribir el texto. Si alguien escanea un libro, gracias al OCR podrá editar el texto escaneado a través de un editor de textos, ya que el ordenador es incapaz de entender el texto que se encuentra en una imagen.

Un poco de historia

La primera máquina patentada de OCR aparece en Alemania en 1929 por Gustav Tauschek. Este dispositivo mecánico usaba un foto-detector en la que mediante una luz alineaba los caracteres con plantillas personalizadas.

En 1955 se intentó comercializar el primer sistema OCR desarrollado por David Shepard por IBM, sin embargo le otorgaron la licencia pero no se llegó a poner en producción en serie.

No será hasta partir de 1965 cuando se empezó a usar algunos sistemas OCR para clasificar el correo postal o actividades bancarias.

Con la llegada de las nuevas tecnología el sector OCR está en auge y en las últimas décadas está empezando a tener una fuerte presencia en grandes proyectos de digitalización.

Características

Cuando se hace referencia a OCR son programas que realizan la transcripción entre imagen a texto. Aunque para realizar el reconocimiento de caracteres depende del software que se use, la calidad de la imagen es un factor principal para que el proceso se lleve a cabo.

Para que el OCR reconozca la mayor cantidad de caracteres, el texto tiene que tener una excelente calidad de imagen con una resolución mínima superior a 300 ppp con textos de letras claras y grandes o 600 ppp si el texto no tiene gran calidad o las letras son pequeñas.

Como se ha hablado anteriormente, el OCR compara los caracteres del texto con plantillas establecidas en el software. Por lo que para que concuerde perfectamente el reconocimiento, los textos tampoco pueden tener una paginación inclinada, puesto que puede no reconocer algunos caracteres.

Ventajas y desventajas

Ventajas

Una de las ventajas es la disminución del tamaño de almacenamiento al guardar el documento como texto y no como una imagen. Las imágenes pueden ocupar mucho más espacio en disco que los textos, aproximadamente el triple de peso.

Otra de las ventajas ineludibles es la búsqueda y recuperación de documentos. La aplicación del OCR permite realizar búsquedas de texto libre sobre la totalidad del documento, disminuyendo el tiempo de búsqueda pudiendo utilizar parámetros de recuperación de texto ayudando a proliferar la web semántica.

En el proceso de creación de los metadatos, el OCR se puede utilizar para generar índices de palabras clave del texto reconocido de forma automática.

El OCR permite convertir el texto de los documentos digitalizados a formatos editables, ayudando a la explotación de los documentos.

Ayuda en al accesibilidad a personas con discapacidad visual al poder editar el documento fácilmente y convertirlo a programas específicos para tal fin.

Ahorro de tiempo humano respecto a la inserción manual de datos pudiendo alcanzar una velocidad de lectura de hasta 1.200 caracteres por segundo.

Desventajas

La gran desventaja está relacionada con el nivel de efectividad insatisfactorio del OCR. Con documentos históricos o anteriores a la edición industrial resulta ineficiente al tener los textos caracteres y estilos específicos y únicos realizándose con dificultad el reconocimiento y dando margen de error.

Otro de los problemas frecuentes que se encuentran en el OCR es la calidad del texto original. Una mala digitalización, o páginas en mal estado complica la la labor de reconocimiento. Entre los factores más comunes a dar error se encuentran; deterioro de los documentos originales, letra borrosa o poco nítida, manchas o transparencias en el papel, letras fragmentadas o solapadas, tipografías extrañas o fuera de uso, baja resolución de la imagen o mala configuración del escáner, entre otras.

OCR en nuestros días

A día de hoy, el OCR es una tecnología transversal, aplicable en distintos ámbitos y sectores para la digitalización de formularios, documentos administrativos, informes, preservación etc., ya que presenta ventajas comunes para todos ellos.

El auge de la web semántica y los problemas asociados al Big Data, han hecho imprescindible el uso de herramientas de OCR para la búsqueda y recuperación de información.

En el sector cultural, por ejemplo el OCR se aplica principalmente en los procesos de digitalización de documentos históricos, en soporte papel o microformas para preservación del patrimonio.

Aunque en la última década se está implantando sistemas OCR en numerosos proyectos digitales, sigue habiendo margen de fallo en el reconocimiento de caracteres, teniendo que intervenir el factor humano en ocasiones para rectificar el error.

El nivel de sofisticación y precio está directamente relacionado con su precisión y efectividad en el reconocimiento de caracteres. Encontramos multitud de programas de OCR gratuitos o a bajo coste, pero el nivel de precisión varía y da posibilidad a que intervenga el ojo humano para buscar los fallos.

OCR en 102 Novadoc

En 102 Novadoc utilizamos los mejores softwares de reconocimiento OCR del mercado y aplicamos su tecnología en función de las características del documento.

Nuestras aplicaciones realizan el procesado automático de documentos impresos (facturas, albaranes, cheques, acuses de recibo, notificaciones bancarias, radiografías, partidas de nacimiento, poderes notarial, escrituras, etc.), lectura de códigos de barras / sellos / marcas de correos / etc., digitalización de documentos históricos, reconocimiento de matrículas de vehículos, entre otras.

 

[Total:0    Promedio:0/5]

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *