El Blog de Google para América Latina Introducción a la Calidad de Búsqueda…

Udi Manber, Vicepresidente de Ingeniería, Calidad de Búsqueda

Calidad de Búsqueda es el nombre del equipo responsable para la clasificación de los resultados de búsqueda de Google. Nuestro trabajo queda claro: algunos cientos de millones de veces al día las personas harán preguntas a Google y, en una fracción de segundo, Google necesita decidir cuáles páginas Web mostrarles y en qué orden mostrarlas entre mil millones de éstas. Últimamente, también hemos estado haciendo otras cosas. Pero hablaremos sobre eso más adelante.

Para algo que se usa tan seguido por tantas personas, es sorprendente que poco se sepa sobre la clasificación en Google. Esto es completamente nuestra culpa y se debe al diseño. Para ser honestos, somos bastante reservados sobre lo que hacemos. Esto se debe a dos razones: competencia y abuso. La competencia es bastante clara. Ninguna compañía desea compartir su fórmula secreta con su competencia. En cuanto al abuso, si hacemos que nuestras fórmulas de clasificación sean demasiado accesibles, facilitamos que las personas burlen en sistema. La seguridad por medio de la oscuridad nunca será la medida más fuerte y nosotros no dependemos de ésta exclusivamente, pero sí previene gran parte del abuso.

Los detalles de los algoritmos de clasificación son en gran parte los activos más valiosos de Google. Nos sentimos muy orgullosos de éstos y los protegemos de gran manera. Haciendo un cálculo, más de mil años de programación/ciencia se han ido directamente a su desarrollo y no ha bajado la velocidad de la innovación.

Pero ser completamente reservado no es lo ideal y este blogpost es parte de un esfuerzo renovado por abrirnos un poco más de lo que hemos hecho en el pasado. Trataremos de informarle periódicamente sobre las cosas nuevas, explicar cosas anteriores, proporcionar consejos, difundir noticias y entablar conversaciones. Comenzaré con información general sobre nuestro grupo.

Debo tomarme un momento para presentarme. Me llamo Udi Manber, soy Vicepresidente de ingeniería de Google y estoy a cargo de la Calidad de Búsqueda. Llevo más de dos años en Google y he trabajado en las tecnologías de búsqueda durante casi 20 años.

La base del grupo es el equipo que trabaja en la clasificación principal. La clasificación es difícil, mucho más difícil de lo que la gente piensa. Una de las razones se debe a que los idiomas son inherentemente ambiguos y los documentos no siguen ningún conjunto de reglas. Realmente no existen estándares sobre cómo transmitir información, por lo tanto debemos poder comprender todas las páginas Web, escritas por cualquier persona y por cualquier motivo. Eso solamente es la mitad del problema. Además, necesitamos comprender las consultas que hacen las personas, las cuales en promedio tienen menos de tres palabras, y trazarlas para que podamos comprender todos los documentos. Esto sin mencionar que las personas tienen necesidades diferentes. Además, tenemos que hacer todo esto en unos cuantos milisegundos.

La parte más famosa de nuestro algoritmo de clasificación es PageRank, un algoritmo desarrollado por Larry Page y Sergey Brin, fundadores de Google. A la fecha, PageRank se sigue usando pero ahora es parte de un sistema mucho más grande. Otras partes incluyen los modelos de lenguaje (la capacidad de manejar las frases, los sinónimos, los signos diacríticos, los errores ortográficos, etc.), modelos de consulta (no sólo es el idioma, sino cómo las personas lo usan en la actualidad), modelos de tiempo (algunas consultas se responden mejor con una página con 30 minutos de antigüedad y otras se responden mejor con una página que resistió la prueba del tiempo) y modelos personalizados (no todas las personas desean la misma cosa).

Otro equipo en nuestro grupo es responsable de evaluar qué tan bien nos estamos desempeñando. Esto se hace de diferentes formas, pero la meta siempre es la misma: mejorar la experiencia del usuario. Ésta no es la meta principal, es la única meta. Cada minuto hay evaluaciones automatizadas (para asegurarse de que nada malo suceda), evaluaciones periódicas de nuestra calidad en general y, lo que es más importante, evaluaciones de mejoras algorítmicas específicas. Cuando un ingeniero obtiene una nueva idea y desarrolla un algoritmo nuevo, nosotros probamos sus ideas a fondo. Tenemos un equipo de estadísticos que analizan todos los datos y determinan el valor de la nueva idea. Nos reunimos semanalmente (en casos, dos veces por semana) para repasar esas nuevas ideas y aprobar nuevos lanzamientos. En el 2007, lanzamos más de 450 nuevas mejoras, alrededor de 9 por semana en promedio. Algunas de estas mejoras son simples y obvias – por ejemplo, arreglamos la forma en la cual se manejan las consultas de acrónimos en hebreo (en hebreo, un acrónimo se denota por una (“) junto al último carácter, entonces IBM sería IB”M), y algunas mejoras son muy complicadas – por ejemplo, en enero hicimos cambios significativos al algoritmo de PageRank. La mayor parte del tiempo buscamos mejoras en relevancia, pero también trabajamos en proyectos en los cuales el único propósito es simplificar los algoritmos. Lo simple es bueno.

En los últimos dos años, la búsqueda internacional ha sido una de nuestras áreas de enfoque principal. Esto significa todos los idiomas hablados, no sólo los principales. Por ejemplo, el año pasado hicimos grandes mejoras en azerbaijano, un idioma hablado por alrededor de 8 millones de personas. En los últimos meses, lanzamos el revisor ortográfico en estonio, catalán, serbio, serbocroata, ucraniano, bosnio, latvio, filipino, eslovaco y farsi. Organizamos una red de personas de todo el mundo que nos proporciona retroalimentación y tenemos un gran conjunto de voluntarios de todas partes de Google que hablan idiomas diferentes y nos ayudan a mejorar la búsqueda.

Otro equipo está dedicado a nuevas características y nuevas interfaces de usuario. Tener un gran motor es necesario para un gran auto, pero no es suficiente. El auto tiene que ser cómodo y fácil de conducir. La interfaz de usuario de búsqueda de Google es bastante simple. Muy pocos de nuestros usuarios leen las páginas de ayuda y se desempeñan muy bien sin éstas (pero, no obstante, es bueno leerlas y estamos trabajando para mejorarlas). Cuando agregamos nuevas características, tratamos de asegurarnos de que sean intuitivas y fáciles de usar para todos. Uno de los cambios más visibles que hicimos el año pasado fue la Búsqueda universal. Otros cambios incluyen Bloc de Notas de Google, Motores de búsqueda personalizados y, por supuesto, muchas mejoras hechas a iGoogle. Al equipo de interfase del usuario le ayuda un equipo de expertos en usabilidad que realizan estudios de usuarios y evalúan las nuevas características. Dichos expertos viajan por todo el mundo y hasta van a los hogares de los usuarios para conocer su ámbito natural. (¡No te preocupes, no llegamos sin ser anunciados o sin ser invitados!)

Existe un equipo entero que se concentra en luchar contra el spam Web y otros tipos de abusos. Ese equipo trabaja en una gran variedad de problemas que van desde texto oculto hasta páginas no relacionadas con el tema que están llenas de galimatías clave, más muchos otros esquemas que las personas usan con la intención de clasificarse más arriba en nuestros resultados de búsqueda. El equipo localiza las nuevas tendencias de spam y trabaja en contrarrestar dichas tendencias de forma escalable; así como los demás equipos, éste lo hace a nivel internacional. El grupo de spam Web trabaja de cerca con el equipo de la Central para Webmasters de Google, para poder compartir los conocimientos con todos y escuchar también a los dueños del sitio.

Existen otros equipos dedicados a proyectos particulares. En general, nuestra estructura organizacional es bastante informal. Las personas se desplazan e inician nuevos proyectos todo el tiempo.

Uno de los aspectos principales sobre la búsqueda es que las expectativas de los usuarios aumentan rápidamente. Las consultas de mañana serán mucho más difíciles que las consultas actuales. Así como la ley de Moore rige la duplicación de la velocidad de cómputo cada 18 meses, existe una ley no escrita que duplica la complejidad de nuestras consultas más difíciles en un corto periodo de tiempo. Es imposible medir esto de forma precisa, pero todos lo sentimos. Sabemos que no podemos descansar en nuestros laureles, tenemos que trabajar duro para cumplir el reto.