Convertir documentos escaneados a texto (DOC, PDF) con OCR Online

Screen shot 2010-06-14 at 10.47.57 AM

Acaban de escanear un documento, pero no tienen la aplicación necesaria para convertir ese documento en texto editable en la PC? Usualmente, cuando escaneamos, lo que nos queda es una archivo de imagen, de buena calidad, claro, pero que no nos servirá de mucho si queremos editarlo.

Lo que sucede es que el scanner básicamente hace una copia, en imagen, del documento que tenemos. Para poder “descifrarlo” y convertir esa imagen en caracteres, y esos caracteres en palabras, necesitamos pasarlo por una aplicación OCR. OCR, u Optical Character Recognition, no es más que el acto de coger esta imagen (que, por supuesto, tiene que tener un buen nivel de detalle), y tratar de reconocer los caracteres como letras. Por eso, es importante siempre que el software (o en este caso, la aplicación web) esté configurada en nuestro idioma, ya que siempre hay un margen de error.

 

Con OCROnline, sin embargo, podemos coger esa imagen que nos deja el scan, y en segundos, convertiro en texto editable en formato RTF o Doc, o incluso convertirlo a un PDF. Los resultados son sorprendentemente buenos, como pueden ver en la imagen inferior:

Screen shot 2010-06-14 at 10.49.00 AM

Lo único que hice fue coger una imagen de Google (búsqueda: documentos escaneados), que ni siquiera tenía mucha calidad, pasarla por OCR Online, decirle que me de el documento en RTF, y los resultados fueron bastante satisfactorios.

Lo mejor de todo, por supuesto, es que todo el proceso se hace online, sin instalar absolutamente nada. El servicio nos limita a imágenes de 10 Megabytes (más que suficiente), y también a 100 subidas máximo por día (si están haciendo más, es hora de considerar, mejor, una aplicación de escritorio dedicada). Pero para un uso ocasional o casual, OCR Online es una excelente herramienta.

8 thoughts on “Convertir documentos escaneados a texto (DOC, PDF) con OCR Online”

  1. Excelente recomendacion!!! muy buena aplicacion!! te salva cuando lo necesites! Muy interesantes los articulos!!

  2. Ahora tenemos que conseguir encontrar un programa que pase los .pdf a cualquier formato de imagen, para asi poder hacer el OCR con ACROBAT.

    Se os ocurre algo? Alberto, alguna idea?

    abrazo

    dartah

  3. El mejor convertidor que me he encontrado es Able2Extract. El problema es que no es gratuito y sólo dan una semana para probarlo con un límite de 3 páginas. Creo que es de lo mejor, yo lo probé con un archivo que tenía bastante basura y se la quitó casi toda. Sólo hubo que hacer muy pocas correcciones al final. Para quien desee revisarlo esta es la liga http://download.cnet.com/Able2Extract/3000-2079_4-10249654.html

  4. Realmente los convertidores de pdf escaneados a texto no sirven para nada, te modifican todo el texto y luego te pasas 4 horas rectificando.

Comments are closed.