ReCAPTCHA Ayudando a digitalizar libros antiguos.
ReCAPTCHA
Los CAPTCHAs pueden ser más o menos difíciles pero por encima de todo son muy molestos por la desconfianza y la pérdida de tiempo que suponen.
En los comentarios de este blog los usamos como mal menor para evitar el el SPAM indiscriminado y la verdad es que funcionan razonablemente bien. Para un ordenador es relativamente difícil reconocer unas letras que estén suficientemente deformadas. Para un humano normal el proceso suele ser la mar de sencillo.
Dejando aparte que seguramente hay soluciones mejores la verdad es que es difícil evitar el uso de CAPTCHAS hoy por hoy así que, dado que la desconfianza va a seguir ahí, quizás podamos mejorar el tema “perdida de tiempo”.
Una MUY BUENA IDEA™ es la que han tenido en ReCAPTCHA. Se trata de aprovechar los CAPTCHAS para digitalizar textos correctamente. Es decir, una especie de OCR voluntario y distribuido. Para situarles un poco les diré que los sistemas de Reconocimiento Óptico de Caracteres (OCR) acostumbran a fallar más que una escopeta de feria y a la hora de digitalizar textos impresos siempre hay que revisar el resultado para asegurarse que al programa de OCR no se le haya ido la pinza.
Pues bien, la idea de ReCAPTCHA es muy sencilla, cada vez que querramos validarnos como humanos™ en una web que use el sistema ReCAPTCHA nos aparecerá una imagen con dos palabras escaneadas y nosotros haremos de OCR a ojo, es decir, digitalizaremos las palabras. Así ayudaremos a digitalizar libros enteros con nuestras pequeñas aportaciones.
Si, se lo que están pensando: si somos nosotros los que “traducimos” la palabra correctamente y sus programas de OCR no pueden hacerlo entonces ¿cómo sabe el sistema que lo hemos hecho bien y por lo tanto somos humanos? Pues muy sencillo, te ponen dos palabras, una de ellas es de control, fue reconocida correctamente en su momento (por su programa de OCR) y posteriormente deformada, mientras que la otra es la palabra que realmente tenemos que reconocer porque su programa no puede. Como no sabemos cual es cual tenemos que escribir bien las dos (eso evita posibles gamberradas) y como hay que escribir correctamente al menos una de las dos palabras no puede ser hecho por programas de manera automática.
Una solución brillante y tremendamente útil.
Via: | ReCAPTCHA Ayudando a digitalizar libros antiguos.
Thank you for reading this post. You can now Leave A Comment (0) or Leave A Trackback.
Post Info
This entry was posted on Friday, June 22nd, 2007 and is filed under Utilidades.You can follow any responses to this entry through the Comments Feed. You can Leave A Comment, or A Trackback.
Previous Post: Por favor manden sus comentarios »
Next Post: Comparativa PS3 vs Xbox 360 vs Nintendo Wii »




























