terça-feira, 16 de dezembro de 2008

Softwares para OCR

Finalmente consegui comprar o Scanner que eu queria, um HP Scanjet G2410. O scanner é ótimo, quem qualidade e velocidade excelentes. O mesmo não posso dizer do software que veio acompanhando o mesmo.

Além de serem muito pesados - quase 200 MB num editor de imagem simples e software OCR – não são tão simples de usar e conseguir o que desejamos.

Resolvi remover tudo e procurar softwares similares que fossem gratuitos e mais leves.

Baixei o driver do site do fabricante (apenas 1,4 MB).

Como editor de imagens usei o PhotoFiltre (3,5 MB), um editor simples que já comentei aqui no blog.

Para realizar OCR - Reconhecimento Óptico de Caracteres, ou seja, digitalizar um texto e transformá-lo em texto editável – testei alguns programas que comentarei abaixo:



O primeiro foi o TopOCR 3.1 (www.topocr.com, 7 MB), um programa bem feio, mas que faz o trabalho direitinho. Já vem com suporte para Português do Brasil instalado e salva os arquivos em PDF, RTF, TXT e outros formatos.

Conta com diversos ajustes de imagem (rotação, brilho, contraste), e permite realizar o reconhecimento recebendo uma imagem do scanner ou abrindo arquivos. O único contra é que não consegui abrir vários arquivos ao mesmo tempo para processar em lote, é necessário abrir um a um manualmente.

Entretanto o reconhecimento atingiu 100% de acerto, não precisei corrigir nem as quebras de linha, o programa já separou os parágrafos com perfeição. É o programa que usarei com maior freqüência.




Outro programa que testei foi o FreeOCR.net 2.5 (www.freeocr.net, 2,5 MB). Este é bem mais bonito que o primeiro e tem funcionalidades semelhantes. Perde no editor de texto, que não suporta formatação, mas ganha pontos com um recurso de fazer OCR em arquivos PDF.

O teste sobre uma imagem escaneada também resultou em 100% de acertos, inclusive nos acentos, mas neste caso eu precisei organizar os parágrafos, pois o programa adiciona quebras de linha “à torta e a direita”.

O reconhecimento sobre o PDF não chegou a 100%, errou em alguns acentos, mas ainda assim foi muito bom. Melhor que digitar ou ficar fazendo CTRL C + CTRL V.

A instalação padrão só traz o idioma inglês, mas é possível adicionar outros pacotes de reconhecimento (como português do Brasil) baixando complementos no site do desenvolvedor.

O desenvolvedor deste programa oferece também uma versão paga que oferece mais recursos.

Abaixo segue uma lista de programas de OCR pagos que possuem muitas outras funções, ideal para empresas que desejam digitalizar documentos em grande volume. A maioria oferece versões de avaliação. Infelizmente não pude testar esses, quando eu o fizer, publicarei minhas impressões.

ABBYY FineReader 9.0 – www.abbyy.com

ReadIris Pro 11.0 - www.irislink.com

Omni Page 16.0 - www.nuance.com/omnipage

Nenhum comentário: