Blog de Israel Viana

¿Te entiende Google? Web semántica y PLN

3 de febrero de 2009

A Google no le interesa entenderme, le basta con dominar el mundo.

Conspiranoias aparte, un buen profesor mío, Jesús Soto, ha publicado recientemente un artículo titulado "¿Te entiende Google?" en la revista universitaria de la UCAM. El artículo en cuestión viene a explicar la necesidad de las tecnologías de procesamiento del lenguaje natural en las búsquedas por Internet. Ejemplifica el problema con las herramientas de traducción automáticas Google y Babelfish y el motor de búsqueda de Google, en los que se obtienen resultados inesperados al traducir "mosca" del español al inglés y viceversa (la traducción de mosca, "fly", significa también volar), y también al buscar "mosca" (páginas sobre el insecto, la pesca con mosca, etc).

Los dos problemas que plantea son muy diferentes, aunque tienen en común la necesidad del PLN (procesamiento del lenguaje natural). No voy a discutir esta necesidad, ni tampoco los importantes avances que la investigación está logrando. De lo que voy a hablar es sobre web semántica (cómo no).

Señor Soto: de poco vale el maravilloso PLN en un buscador si no hay web semántica. Es muy sencilo: si entre nosotros y el contenido que buscamos está el buscador, debe haber un "protocolo" de comunicación entre nosotros y el buscador (PLN), pero también entre el buscador y el contenido. Dicho de otra manera, con el PLN el buscador entenderá qué es lo que queremos buscar, pero sin web semántica no podrá entender qué es lo que hay en la web. O al menos en el ideal escenario de ese futurista mundo de los agentes inteligentes que nos buscan el vuelo más barato o realizan investigaciones científicas.

Y digo poco porque efectivamente, sí hay lugar para el PLN en las búsquedas sin web semántica. Un pequeño lugar en el que el PLN es utilizado para "entender" el contenido de una web no semántica, una comprensión que se complementa con estadísticas de uso (cuántas más veces se haga click en tal enlace al buscar tal palabra, más cercano semánticamente se considera de los términos buscados) y algoritmos como PageRank. Efectivamente, ese pequeño lugar se llama Google, el buscador que el 96% de los españoles usan.

Podemos considerar esta cuestión como las dos caras de una misma moneda: si la web está escrita en lenguaje natural, y los buscadores son máquinas, o bien hacemos que los buscadores entiendan el lenguaje natural (pero no de cara al usuario, sino de cara al contenido) o que la web se adapte al lenguaje de las máquinas. Los esfuerzos de la investigación actual sobre la web semántica se centran en la realización y despliegue de tecnologías que permitan adaptar el contenido de la web actual a lenguajes formales, procesables por máquinas.

Uno pueda pensar que es mejor hacer que las máquinas comprendan el lenguaje, antes que adaptar los billones de páginas web a esta nueva tecnología. Efectivamente, las tecnologías de PLN tienen una importante función en la web semántica, sin ir más lejos adaptar parcial o totalmente los sitios web actuales a la web semántica. O, de cara al usuario, permitir búsquedas (y no sólo búsquedas, lo que suena más futurista es la idea de agente inteligente) más refinadas. Pero las apariencias engañan: cuando hemos visto a los ordenadores hacer cosas geniales es cuando hemos entendido que la máquina trabaja con una representación parcial del universo en su propio lenguaje. Por ejemplo, la programación.

Limitar la web inteligente al PLN significaría "construir sobre arena", ya que tendríamos que estar remodelando los algoritmos continuamente, y las aplicaciones de usuario final avanzarían de forma mucho más lenta.


Compartir en Twine Delicious Facebook Twitter

4 comentarios

Gravatar de Paco Arcas
Paco Arcas
el 1 de abril de 2009 a las 20:16

La web semántica, tal como se ideó es, por ahora, utópica. Iba a ser la web 2.0, pero lo social se le adelantó, va a la 3.0, pero la ubicuidad se le adelantará, ¿será la 4.0?, no lo se, pero Ser Tim tiene un cabreo monumental con eso puesto que tenía intención de incluir etiquetado semántico desde la 1.0.

Hay muchas voces críticas sobre el tema que aseguran que la web semántica va a ser el primer fracaso oficial del W3C, yo no lo creo así puesto que todos los estándares que se han ido creando al uso están ahí e incluso están sirviendo para otros proyectos mas tangibles. Pero el resultado final esperado (vendido) está muy lejos porque se ha acabado chocando con, precisamente, la necesidad del PLN.

De entrada, partimos de las siguientes premisas necesarias:
-Un sistema de etiquetado de metadatos.
-Un mecanismo de representación de ontologías.
Ambos los tenemos, el W3C se está encargando de ello.

Pero los metadatos los deben poner los propios autores de los documentos: Cualquier documentalista o bibliotecónomo te dirá que etiquetar información de forma correcta es algo que requiere bastante formación. Además, ¿pretendes que después de escribir todo este rollo en tu blog me ponga a etiquetarlo semánticamente?, y eso que estoy intentando escribir correctamente ¿hablamos de los autores de páginas que saltan entre la B y la V o la Q y la K, etc sin mayor dolor en la vista?, ¿estos van a etiquetar o los dejamos fuera de la WS?. O autores que "mientan" en su etiqueado para conseguir posicionamiento en los buscadores repitiedo muchas veces el mismo metadato o poniendo otros distintos al tema de la página. Además, no hay que olvidar que somos humanos y hoy etiquetamos, mañana no, aquí me equivoco, allí tengo una falta de ortografía en el metadato (no es código y no tiene porqué dar error el navegador).
De hecho, casi ningún motor de búsqueda se fía de los metadatos, que ya tienes las páginas como el description, etc. para generar los resultados de sus rankings. Y, ¿que hacemos con los miles de millones de páginas ya publicadas en cientos de idiomas?, ¿todo el mundo se va a lanzar como loco a etiquetar semánticamente?

El otro elemento es la ontología desde el punto de vista de la ingeniería del conocimiento, estupendo recurso que ha dado resultados tangibles de su utilidad en ámbitos muy concretos. Pero estamos hablando de una ontología del lenguaje humano, que esté consensuada por todo el planeta y que hable de cualquier cosa. Hasta ahora las ontologías describen relaciones jerárquicas entre conceptos de un tipo de enfermedad en particular o ejemplos similares, pero aunque pudieramos abordar la ontología de todo lo habido y por haber, sin entrar en cuestiones sobre taxonomías léxicas u ontologías conceptuales, ¿llegaríamos a acuerdos sobre, por ejemplo, el concepto frio?, ¿tienen la misma percepción de este concepto aquí y en Rusia?, ¿la guerra es buena, mala, necesaría, beneficiosa?, yo tengo claro que lo segundo, pero en otras partes del mundo donde también haces páginas y que tendrían que etiquetarlas, no lo sé. O sobre temas morales más delicados que dividen al mundo, de estos tambíen hay páginas y por tanto tienen que aparecer en la ontología planetaria ¿donde los clasificamos?.

Ante la búsqueda "conseguir paz" también quiero los resultados de páginas que hablen de "evitar guerra", y en muchos idiomas, no solo en español. El motor de búsquedas tendría que saber entre otras cosas que evitar es antónimo de conseguir y eso es PLN.

Tu mismo te respondes en este párrafo:
"Los esfuerzos de la investigación actual sobre la web semántica se centran en la realización y despliegue de tecnologías que permitan adaptar el contenido de la web actual a lenguajes formales, procesables por máquinas."

Pero solo es mi humilde y resumida opinión.
"Pa gustos, los colores y pa disgustos, la dolores."

Gravatar de Isra
Isra
el 1 de abril de 2009 a las 20:16

Gracias por tu sabio comentario! Coincido en que una web semántica "absoluta" es utópica. La representación formal de "todo el conocimiento humano" es sencillamente imposible, por una cuestión antropológica: no pensamos como ordenadores, no hablamos como ordenadores, cambiamos más rápidamente que los ordenadores (los científicos dicen que nuestro cerebro cambia de forma cuando se produce un cambio importante en nuestros pensamientos).

Pero yo creo en la web semántica. Quizá no se pueda representar formalmente todo lo que se dice (quizá no sea necesario), pero sí parte de ello. Por ejemplo, a corto plazo lo que sí es posible es aportar los metadatos correspondientes a la BD de un CMS (los que interesen, claro). Para eso hay ontologías como Dublin Core, FOAF, SIOC... que se pueden implementar hoy día y que se pueden considerar más "linked data" que "semantic web". No obstante, si algo tiene RDF es escalabilidad, así que si hoy definimos metadatos (o los propios datos) con ontologías limitadas, mañana podrán ser complementadas o cambiadas de una forma relativamente sencilla (en comparación al esfuerzo de implantar tecnologías semánticas a nivel global).

El PLN es fundamental para la web semántica. Por poner un ejemplo:

En un foro se puede iniciar un hilo en el que alguien pida opiniones sobre un producto. Se puede unir ese post con una URL que describa el producto (la web del fabricante, por ejemplo) con una relación de "opinión". No es descabellado. Un robot con PLN puede hacerlo (e incluso manualmente no supone un gran esfuerzo). No hace falta semantizar el hecho de que "estaba pensando en comprarme tal o cual cosa, y mi cuñado me ha hablado bien de esa marca".

Las respuestas a la pregunta inicial podrían hablar sobre otros modelos de esa marca, productos de la competencia, fallos conocidos... y a las malas se podrían resumir como "opinión a favor" o "en contra" o con una puntuación 0-10 sobre el producto. Se puede hacer una ontología con eso.

Confío en que el procesamiento del lenguaje evolucionen lo suficiente como para aprender pautas de más alto nivel que la simple comprensión semántica, sino que puedan aprender el comportamiento de los usuarios y el avance en la inteligencia colectiva. Aunque sería una cuestión teórica interesante, es como pensar que podrían hacer las propias ontologías.

Gravatar de Guiller...
Guillermo Wolf
el 11 de junio de 2009 a las 16:15

Muy interesante el tema. Aunque lo que hablan es más profundo de lo que voy a preguntar, quizás ustedes puedan ayudar.


En el algoritmo de búsqueda de Google ellos toman en cuenta la semántica en Inglés, al menos mejor que en Español.

Que experiencia tienen ustedes en España al hacer SEO en páginas cuyo contenido no es en Inglés?. Como manejan ustedes el asunto de la conjugación de los verbos para que el Search Engine comprenda que comprar, compramos, compre, etc. basicamente son términos relacionados?.

En USA hay un pequeño detalle 45 millones de hispanos que usan computadoras que en su mayoria tienen por defecto el lenguaje Inglés lo mismo con los browsers, pero mucha de esta gente realiza busquedas en Español usando Google.com y no Google.es o Google Mexico o Google Latinoamérica.

Que opinión tienen ustedes?.

Cómo ustedes manejan esta situación al hacer SEO en Español?.

Disculpen pero no recuerdo el código para el símbolo de interrogación abierto y mi teclado es en Inglés.

saludos

Gravatar de Isra
Isra
el 11 de junio de 2009 a las 20:54

Hola, Guillermo. Por una parte, no hablábamos precisamente de SEO, aunque es un tema interesante y relacionado con la semántica.

Creo que estás un poco anticuado con respecto al procesamiento semántico de idiomas diferentes al inglés. Hoy día el motor de Google es compatible con decenas, sino cientos, de idiomas, incluido por supuesto el español (la segunda o tercera lengua más usada en Internet). Sólo tienes que hacer un pequeño experimento para comprobarlo: busca "inventó Linux" e "inventaron Linux" y verás que, aunque los resultados no son exactamente los mismos, el primero de ellos es común a ambas búsquedas. La palabra encontrada en la página es "inventó", pero Google entiende que "inventaron" significa lo mismo:

http://www.google.com/search?q=invent%C3%B3+linux&ie=utf-8&oe=utf-8&aq=t&rls=org.debian:es-ES:unofficial&client=iceweasel-a

http://www.google.com/search?q=inventaron+linux&ie=utf-8&oe=utf-8&aq=t&rls=org.debian:es-ES:unofficial&client=iceweasel-a

Por último, debes saber que en SEO lo que se manejan son palabras clave, tales como "vuelos baratos" o "manual de aviación", con lo que las variantes gramaticales no suelen ser tan grandes. No obstante, para los anuncios AdSense Google también entiene esas diferencias:

http://www.google.com/search?q=adquirir+piscina&ie=utf-8&oe=utf-8&aq=t&rls=org.debian:es-ES:unofficial&client=iceweasel-a

http://www.google.com/search?q=comprar+piscina&ie=utf-8&oe=utf-8&aq=t&rls=org.debian:es-ES:unofficial&client=iceweasel-a


Escribe tu opinión

Nombre:
E-mail: (no se mostrará)
Sitio web:
Por favor, suma 6 + 6:
Comentario:
israelviana.es es propiedad de Israel Viana, escrito en Murcia (España). Puedes ponerte en contacto conmigo a través de la dirección de e-mail .com.
Información en RDF Metadatos Dublin Core Creative Commons License