martes, 12 de marzo de 2013

El algoritmo de búsqueda de Google



Los medios de comunicación han difundido a lo largo de esta semana una noticia a medias, una mentira vaya.. para variar..

De ser cierto que Google explicara al mundo el funcionamiento de su algoritmo de búsqueda, podemos estar seguros de que ese titular se disputaría con cualquier noticia internacional de primer orden la apertura de los periódicos. El contenido exacto de ese código es un nuevo Santo Grial. Y para Google, desvelarlo o perderlo a través de una filtración, significaría algo parecido a una inmolación empresarial. No más de 150 personas en el mundo tienen acceso a su contenido completo.


El ex ingeniero de Google, Luis von Ahn, que ha visto parte de ese código, le quita hierro al asunto: “No creo que fuese tan malo para Google, al menos hasta el punto de quebrar. Creo que la búsqueda sería un poco peor (por SEO), y que otras compañías como Microsoft harían uso del código para mejorar sus propias búsquedas”, explica a Teknautas desde Nueva York este experto en ciencia computacional.

“Es difícil cuantificar cuántos millones de dólares cuesta ese código, ya que no sólo hay que tener en cuenta el algoritmo en sí mismo sino también la ‘data’ que tiene Google”, añade. Lo que sí ha hecho la compañía norteamericana es divulgar, desde la superficie, los mecanismos del proceso de búsqueda, el camino que sigue una palabra desde que la tecleamos en nuestro ordenador hasta que el buscador nos la devuelve con millones de resultados. “Es como si yo te digo que un coche funciona con gasolina y cuatro ruedas, pero no te explico cuáles son sus componentes”, dice von Ahn.

Aún así, merece la pena recorrer y descubrir ese camino, que ha sido difundido por la compañía norteamericana a través de la web How Search Works, una campaña donde Google explica el funcionamiento básico de sus algoritmos de búsqueda desde la indexación hasta la lucha contra el 'spam'.

Hagamos el sencillo ejercicio de buscar la palabra “Chávez” en el buscador. Lo primero que hará Google, en este caso, aunque es un ejemplo demasiado sencillo para la capacidad de su maquinaria interna, será lo que técnicamente denominan ‘crawling’, un término que puede traducirse como “gateo”. 

Significa que Google rastreará en fracciones de segundo el volumen de 30 billones -y creciendo- de páginas existentes en internet para encontrar todas las referencias a la palabra “Chávez”. 

Precisamente es en este punto del proceso donde Google se ha encontrado con problemas precisamente en España, donde decenas de particulares han denunciado al buscador para que deje de indexar información sensible procedente de Boletín Oficial del Estado (BOE) o los medios de comunicación. Según Google, son los propios editores de la información los que pueden decidir, desde su propio código, si permiten o no que el buscador “gatee” sobre sus contenidos.

Pero regresando a nuestro camino, lo que hará Google a continuación es clasificar las páginas donde se han encontrado referencias a “Chávez”, al mismo tiempo que monitoriza todas las webs indexadas en el buscador, un volumen de datos que puede supera los 100 millones de Gb.

Hasta aquí, todo normal. Pero la magia de Google llega en el segundo paso del proceso, donde entran en juego los distintos algoritmos del código del buscador, pensados para leer la mente del usuario. Ellos son, a la postre, los encargados de filtrar los resultados, tratando de descifrar lo que el internauta quiere encontrar. Es lo que llaman “el mejor resultado posible”.

“La revolución de Google consiste en que el buscador utiliza las búsquedas de los millones de usuarios para aprender de ellos. Usan esa información, la conservan. Parece que cada uno de nosotros busca cosas diferentes, pero en realidad las personas tenemos cosas en común”, explica Luis von Ahn. Pura psicología.

Para comprender hasta qué punto Google utiliza a los propios usuarios para mejorar su sistema bastará un solo ejemplo en referencia a la búsqueda de imágenes. Como las fotografías no tienen texto, era difícil relacionar, por ejemplo, la palabra “gato” con las imágenes de un gato. ¿Qué se le ocurrió a Luis von Ahn para solucionarlo?  Inventó un juego ‘online’ que consistía en los internautas etiquetasen fotografías. Jugaron millones de personas, y esa información le sirvió a Google para mejorar su plataforma de búsqueda de imágenes.

“Tardaron 15 años en escribir el código de búsqueda, y los algoritmos se siguen mejorando todos los días. Una de las cosas que han hecho últimamente es mejorar aún más las búsquedas según la geolocalización del usuario. Es decir, si alguien está buscando algo desde Barcelona es muy probable que quiera encontrar algo que esté cerca de él”, añade el científico guatemalteco.

El buscador analiza el mundo real, y por eso es sencillo que sepa que en el caso de la palabra “Chávez” que hemos lanzado al buscador tiene relación directa con la actualidad informativa. Por eso los resultados se ordenan, si la búsqueda es desde España, según las últimas apariciones en prensa del nombre propio en los medios nacionales, además de las páginas de información general en Wikipedia o las relaciones directas a páginas web personales o cuentas públicas en plataformas como Twitter. La superficie del algoritmo es sencilla. Cada vez más, vivimos inmersos en el código de Google, por eso no nos damos cuenta de lo que hay detrás.


0 comentarios :

Publicar un comentario