Domingo 13 de febrero del 2005 Discovery

Comprender el árabe

Discovery Channel

Un grupo de investigación de la Universidad de Buffalo está desarrollando un programa para digitalizar el alfabeto árabe, una tarea importante que hasta el día de hoy no se pudo concretar.

En la nueva era de Internet, los textos que no están al alcance de los navegantes corren el riesgo de quedar en un segundo plano. Si el mundo digital continúa avanzando y ocupando un lugar cada vez más importante, estos documentos podrían directamente quedar en el olvido. Por eso es indispensable desarrollar herramientas que permitan que lenguas como el árabe o el chino sean incorporadas a la red y estén al alcance de todos.

Por otro lado, desde los atentados del 11 de septiembre de 2001, el idioma árabe está cobrando creciente importancia porque la zona se transformó en un centro geopolítico en el que se centra la atención mundial. Sin embargo, la carencia de herramientas de software que permitan la digitalización de textos en este lenguaje obstaculiza el aprendizaje para los estudiantes extranjeros. Por ese motivo, diversos investigadores están intentando desarrollar los programas necesarios para superar el problema.

Expertos en informática de la Universidad de Buffalo, Estados Unidos, están trabajando en el diseño de un programa que pueda reconocer con un sensor óptico los caracteres del idioma. El objetivo es que logre identificar las letras escritas a mano o a máquina y que pueda a su vez buscar información específica. La posible lectura de manuscritos no es un dato menor, porque este tipo de anotaciones son frecuentes en los márgenes de un texto impreso y pueden tener valor en sí mismas. Además, los documentos árabes antiguos estaban escritos a mano y, por lo tanto, esta nueva tecnología permitiría tener también acceso a textos de siglos atrás.

Los científicos del Center for Unified Biometrics and Sensors (CUBS) explicaron que el diseño de un software para el alfabeto árabe representa un desafío importante debido a las características de la escritura. Los caracteres adoptan distintas formas si su inclusión es al principio, en el centro o al final de una palabra, y el límite entre un vocablo y otro no siempre está definido. Además, suele suceder que las vocales se pronuncian pero no se escriben.

Venu Govindaraju, el principal investigador de este centro, asegura que estas dificultades serán un estímulo para la informática ya que “este proyecto ayudará a empujar las fronteras de la visión de la computadora y reconocer el patrón e inteligencia artificial en general”. Explicó que el software del programa Reconocimiento Óptico de Caracteres (OCR) estaba diseñado para que la computadora registrara e interpretara las imágenes de un alfabeto, fueran éstas palabras o caracteres, basándose en datos examinados anteriormente.

Se han invertido cerca de 240.000 dólares para financiar, durante dos años, una investigación que es considerada importante por varias razones. Al margen de la coyuntura política actual, el árabe es el cuarto idioma más hablado en el mundo ya que alrededor de 235 millones de personas lo tienen como lengua madre.

Govindaraju, que es también profesor de informática e ingeniería en la Universidad de Buffalo, dijo que este proyecto contribuiría a que la red abarcara más lenguajes que el inglés. “Internet entera se sesga hacia la gente que habla este idioma. El miedo es ese: si un OCR no se desarrolla para una lengua en particular, entonces todos los textos clásicos en esa lengua corren el riesgo de quedar en el olvido”, consideró.

Para informarse con más detalle sobre este tema, vea Conexión Discovery, todos los martes a las 7 p.m. en Discovery Channel.

Discovery

Diseño

© Copyright 2009. Compañia Anónima EL UNIVERSO. Todos los derechos reservados.