Convertir documentos escaneados a texto (DOC, PDF) con OCR Online

Screen shot 2010-06-14 at 10.47.57 AM

Acaban de escanear un documento, pero no tienen la aplicación necesaria para convertir ese documento en texto editable en la PC? Usualmente, cuando escaneamos, lo que nos queda es una archivo de imagen, de buena calidad, claro, pero que no nos servirá de mucho si queremos editarlo.

Lo que sucede es que el scanner básicamente hace una copia, en imagen, del documento que tenemos. Para poder “descifrarlo” y convertir esa imagen en caracteres, y esos caracteres en palabras, necesitamos pasarlo por una aplicación OCR. OCR, u Optical Character Recognition, no es más que el acto de coger esta imagen (que, por supuesto, tiene que tener un buen nivel de detalle), y tratar de reconocer los caracteres como letras. Por eso, es importante siempre que el software (o en este caso, la aplicación web) esté configurada en nuestro idioma, ya que siempre hay un margen de error.

 

Con OCROnline, sin embargo, podemos coger esa imagen que nos deja el scan, y en segundos, convertiro en texto editable en formato RTF o Doc, o incluso convertirlo a un PDF. Los resultados son sorprendentemente buenos, como pueden ver en la imagen inferior:

Screen shot 2010-06-14 at 10.49.00 AM

Lo único que hice fue coger una imagen de Google (búsqueda: documentos escaneados), que ni siquiera tenía mucha calidad, pasarla por OCR Online, decirle que me de el documento en RTF, y los resultados fueron bastante satisfactorios.

Lo mejor de todo, por supuesto, es que todo el proceso se hace online, sin instalar absolutamente nada. El servicio nos limita a imágenes de 10 Megabytes (más que suficiente), y también a 100 subidas máximo por día (si están haciendo más, es hora de considerar, mejor, una aplicación de escritorio dedicada). Pero para un uso ocasional o casual, OCR Online es una excelente herramienta.

About Arturo Goga

Hey! Mi nombre es Arturo Goga. Si el artículo te agrada, no olvides suscribirte a la página. Puedes leer más en Sobre el autor, o bien ponerte en contacto conmigo. Aquí mi perfil en Google+ También puedes suscribirte en Facebook!

Comments

  1. Negocioaz says:

    Excelente recomendacion!!! muy buena aplicacion!! te salva cuando lo necesites! Muy interesantes los articulos!!

  2. JARS says:

    Excelente!! yo que necesitaba algo así, tnks! XD; justo hoy empecé a bajar el ABBYY FineReader (que por cierto es el mejor programa OCR ^^), pero pea como 250 megs, y no tenía tiempo para eso… me salvaste XD… es hora de utilizarlo, saludos…

  3. enzima says:

    es una chufa, no deja coger pdf como origen, tengo cerca de 5000 documentos en ese formato… a seguir buscando…

  4. dartah says:

    Ahora tenemos que conseguir encontrar un programa que pase los .pdf a cualquier formato de imagen, para asi poder hacer el OCR con ACROBAT.

    Se os ocurre algo? Alberto, alguna idea?

    abrazo

    dartah

  5. dartah says:

    compañeros, creo que yo solo he encontrado la respuesta, aqui:

    http://www.convertfiles.com/

    podemos hacerlo :)

    ya me dirán si os sirve, yo lo probaré mañana con calma

  6. crudito says:

    muchas gracias, actualmente eficientar el tiempo es indispensable, muchas gracias me sirvió de maravilla

  7. Observador says:

    El mejor convertidor que me he encontrado es Able2Extract. El problema es que no es gratuito y sólo dan una semana para probarlo con un límite de 3 páginas. Creo que es de lo mejor, yo lo probé con un archivo que tenía bastante basura y se la quitó casi toda. Sólo hubo que hacer muy pocas correcciones al final. Para quien desee revisarlo esta es la liga http://download.cnet.com/Able2Extract/3000-2079_4-10249654.html

  8. Pepe says:

    Realmente los convertidores de pdf escaneados a texto no sirven para nada, te modifican todo el texto y luego te pasas 4 horas rectificando.

  9. Poncho says:

    Porquería de recomendación, solo 5 páginas como que no sirven de mucho, en vano me registré.