Reconhecimento ótico de caracteres e visão artificial
O reconhecimento ótico de caracteres (OCR) desempenha um papel importante na identificação de objetos nos processos industriais e logísticos.
Em ambientes industriais, um software de OCR deve ser capaz de ler códigos numéricos ou letras com precisão, mesmo nas condições mais adversas, para identificar claramente os objetos. É essencial que o software possa identificar de forma fiável os caracteres mais complexos, distorcidos, apagados, fora de foco ou distorcidos, mesmo em superfícies altamente refletivas. Atualmente, esses requisitos muito exigentes podem ser cumpridos com as mais recentes tecnologias em visão artificial.

Leitura de OCR baseada em Deep Learning
O Deep Learning é uma tecnologia especialmente indicada para resolver aplicações de OCR. Através de treino exaustivo baseado em grandes volumes de dados de imagem, os algoritmos do software aprendem de forma independente a reconhecer de forma fiável uma ampla variedade de caracteres sob uma grande variedade de condições. Os classificadores OCR garantem que possa ser lida uma ampla variedade de fontes pré-treinadas com precisão.
No entanto, as tecnologias tradicionais de OCR baseadas em regras apresentam alguns inconvenientes. Por exemplo, existem vários parâmetros a que a segmentação de letras individuais deve ser adaptada, consoante a aplicação. As letras identificadas são lidas individualmente e devem ser atribuídas a palavras específicas. Essa não é uma tarefa fácil se não se conhecer o contexto do texto a ser lido, e é por isso que as soluções convencionais não oferecem os mesmos resultados que se conseguem com a IA.
Deep OCR: Reconhecimento ótico de caracteres, independentemente do tipo de fonte e da orientação
Com Deep OCR, uma função integrada no software padrão de visão artificial HALCON, já não é necessário segmentar caracteres individuais.
A tecnologia utiliza duas redes de Deep Learning previamente treinadas: uma é usada para encontrar palavras inteiras em vez de letras individuais na imagem. Em resultado disso, a posição exata da respetiva palavra é marcada com um retângulo delimitador (caixa delimitadora). Por outro lado, a segunda rede é treinada especificamente para ler a palavra. A principal diferença dos métodos convencionais é que ambas as etapas de reconhecimento de caracteres, ou seja, encontrar e ler as palavras, são baseadas em algoritmos de Deep Learning e leem-se palavras inteiras em vez de letras individuais.
A grande vantagem desta dupla abordagem é que apenas alguns parâmetros precisam de ser adaptados à aplicação em questão. Por exemplo, a tecnologia funciona com total independência do tipo de fonte, tanto com números impressos em pontos, itálicos ou perfurados. A orientação e alinhamento do texto na imagem e na polaridade, ou seja, se os caracteres pretos estiverem sobre fundo branco ou vice-versa, não influenciam os resultados. Isto deve-se ao facto de a rede já ter sido treinada relativamente a esses parâmetros, pelo que não há necessidade de fazer os ajustes correspondentes manualmente. As duas redes também podem ser usadas independentemente uma da outra. Isto faz sentido, por exemplo, se a posição exata da respetiva palavra na imagem já for conhecida.
Portanto, o Deep Learning pode ser usado exclusivamente para ler o texto, o que economiza uma grande capacidade de computação. Isto é muito importante se o Deep OCR for executado em hardware de baixo desempenho. Se a localização de texto puder ser ignorada devido a informações prévias, pode conseguir-se um tempo de execução de cerca de 10 ms numa CPU padrão. Numa GPU de gama média, o tempo de execução pode ser de apenas 5 ms, o que é muito rápido para uma aplicação de Deep Learning.

Quer falar com um especialista?
Oferecemos-lhe soluções inovadoras, suporte técnico e um serviço personalizado para integrar a visão artificial nos seus projetos. Contate-Nos!