Reconocimiento óptico de caracteres y visión artificial
El reconocimiento óptico de caracteres (OCR) juega un papel importante en la identificación de objetos en los procesos industriales y logísticos.
En entornos industriales, un software OCR debe ser capaz de leer códigos numéricos o letras con precisión, incluso en las condiciones más adversas, para poder identificar claramente los objetos. Es imprescindible que el software permita identificar con gran fiabilidad aquellos caracteres más complejos, distorsionados, borrosos, desenfocados o sesgados, incluso en superficies muy reflectantes. Actualmente, estos requisitos tan exigentes se pueden satisfacer con las últimas tecnologías en visión artificial.
Lectura OCR basada en Deep Learning
El Deep Learning es una tecnología especialmente adecuada para resolver aplicaciones de OCR. Mediante un entrenamiento exhaustivo basado en grandes volúmenes de datos de imágenes, los algoritmos del software aprenden de forma independiente para reconocer de forma fiable una amplia gama de caracteres en una gran variedad de condiciones. Los clasificadores OCR garantizan que se pueda leer con precisión una amplia gama de fuentes preentrenadas.
Sin embargo, las tecnologías tradicionales de OCR basadas en reglas presentan algunos inconvenientes. Por ejemplo, existen múltiples parámetros a los que debe adaptarse la segmentación de letras individuales en función de la aplicación. Las letras identificadas se leen individualmente y deben asignarse a palabras específicas. Esta no es una tarea fácil si no se conoce el contexto del texto a leer y este es el motivo por el cual las soluciones convencionales no ofrecen los mismos resultados que sí se consiguen mediante la IA.
Deep OCR: Reconocimiento óptico de caracteres con independencia del tipo de fuente y la orientación
Con Deep OCR, una función integrada en el software estándar de visión artificial HALCON, ya no es necesario segmentar caracteres individuales.
La tecnología utiliza dos redes de Deep Learning previamente entrenadas: una se usa para encontrar palabras completas en lugar de letras individuales en la imagen. Como resultado, la posición exacta de la palabra respectiva se marca con un rectángulo envolvente (cuadro delimitador). Por otro lado, la segunda red está entrenada específicamente para leer la palabra. La principal diferencia con los métodos convencionales es que ambos pasos del reconocimiento de caracteres, es decir, encontrar y leer las palabras, se basan en algoritmos de Deep Learning y se leen palabras completas en lugar de letras individuales.
La gran ventaja de este enfoque dual es que solo es necesario adaptar unos pocos parámetros a la aplicación en cuestión. Por ejemplo, la tecnología funciona con total independencia del tipo de fuente, tanto con números impresos en puntos, cursiva o perforados. La orientación y alineación del texto en la imagen y la polaridad, es decir, si los caracteres negros están sobre un fondo blanco o viceversa, no influyen en los resultados. Esto se debe a que la red ya ha sido entrenada con respecto a estos parámetros, por lo que no es necesario realizar los ajustes correspondientes manualmente. Las dos redes también se pueden utilizar de manera independiente la una de la otra. Esto tiene sentido, por ejemplo, si ya se conoce la posición exacta de la palabra respectiva en la imagen.
Por consiguiente, el Deep Learning se puede usar exclusivamente para leer el texto, lo que ahorra una gran cantidad de capacidad de cálculo. Esto es muy importante si Deep OCR se ejecuta en un hardware de bajo rendimiento. Si se puede omitir la localización del texto debido a información previa, se puede realizar un tiempo de ejecución de aproximadamente 10 ms en una CPU estándar. En una GPU de gama media, el tiempo de ejecución es incluso de solo 5 ms, lo que es muy rápido para una aplicación de Deep Learning.
¿Quieres hablar con un experto?
Te ofrecemos soluciones innovadoras, soporte técnico y un servicio personalizado para integrar la visión artificial en tus proyectos. ¡Contacta con nosotros!
Artículos Destacados
-
CSI Hiperespectral: El uso de imágenes espectrales para el análisis de pruebas forenses
-
Fringe Projection: medición 3D para el sector automoción
-
Inteligencia artificial en el Edge para aplicaciones industriales
-
Proyección y mapping 3D: el espectáculo debe continuar
-
Pedro Durán Martín, nuevo CEO del Grupo INFAIMON