| Sobre la manipulación de buscadores tipo Google |
| Por Juanma. |
| Este pequeño artículo
no pretende ser ninguna Biblia del internauta, únicamente busca despertar
la curiosidad de nuestros ávidos camaradas en este tema de los buscadores
de Internet. Más concretamente aquí mostraremos cómo estos sistemas pueden
ser manipulados.
Un ejemplo sencilloVamos a comenzar con un ejemplo muy sencillo, nos vamos a www.google.es y allí decimos que busque la palabra "ladrones", a ver qué es lo que nos muestra. Bueno si no lo has hecho te adelantaré que la primera página que aparece es la de la SGAE. Tiene su gracia, hay que reconocerlo, pero cómo puede ocurrir esto... Esto puede ocurrir porque los buscadores de Internet no son más que un algoritmo, con muchas variables, pero un algoritmo a fin de cuentas. Y si conocemos o intuimos cuáles son las variables, podemos variar el resultado. Cosas a tener en cuentaBueno lo primero de todo es dar algunas nociones sencillas, sobre qué es y cómo funciona la Web. La página web que estás viendo ahora no es más que un código llamado HTML que define qué es lo que se debe mostrar por pantalla. Vamos, algo tan sencillo como: pon este texto en negrita, pon aquí un enlace, usa este color, etc. Bien, pues esto es un lenguaje universal, está regulado y estandarizado por el W3C (www.w3c.org), que no es más que el organismo que regula los estándares sobre los que funciona Internet (IP, Ethernet, etc. son otros tipo de estándares). Cualquiera puede hacerse un programa que reconozca estos ficheros para poder procesarlos. Los buscadores lo que hacen principalmente es analizar el código HTML que contiene cada página, y a partir de aquí sacan ciertas conclusiones. Estas conclusiones dependen mucho del buscador, además las variables que usan sobre el código lógicamente son secretas, porque de ellas depende el éxito del buscador. Pero si pensamos un poco, nos daremos cuenta de que para el buscador es muy importante el número de veces que se repite una palabra en una página web. Vamos a usar esta página www.keyworddensity.com que nos mide la densidad de palabras en una página web y da unas estadísticas bastante buenas. Cuando estemos dentro vamos a introducir estos dos links www.uc3m.es (universidad Carlos III donde estudia un servidor) y www.ugr.es (universidad de Granada) y vamos a utilizar como keyword "universidad" a ver qué pasa. En la página de la uc3m tenemos que la palabra aparece 4 veces, y en la de la ugr aparece 20 veces. Si miráis el código fuente de ambas páginas veréis que en la uc3m casi no hay código fuente, mientras que en la ugr tenemos muchísimo. Esto se debe principalmente a que la uc3m utiliza un sistema privado de acceso para los usuarios con lo que la página principal tiene poco contenido. Si buscáis en Google la palabra "universidad" veréis que la ugr aparece la segunda, mientras que la uc3m no la encontraréis entre las 10 primeras. Luego se deduce que el número de veces que se repite una palabra dentro de una página influye en algo a la hora de buscar la página. El hecho de que el contenido de algunas páginas requiera contraseñas es lo que se llama web invisible. La mayor parte del Web es invisible, es decir los motores de búsqueda no tienen acceso. Esto generalmente ocurre porque el acceso es restringido mediante contraseña o las páginas se generan dinámicamente, y una tercera posibilidad puede ser que se prohíba la entrada a los motores de búsqueda. Aparte del número de veces que se repite una palabra en nuestra página, es muy importante que las palabras por las que queramos buscar nuestra página se encuentren en el título de la misma y/o en la URL. Si buscamos en Google "país", la primera página que se nos muestra es la del periódico y además aparecerá resaltada la palabra dentro de su URL. Google da mucha importancia a esto, porque considera que si el título de tu página es www.paellas.com tu página puede ser la más apropiada cuando se busca la palabra "paellas", aunque si entráis en esa página, veréis que se trata de un chiringuito playero... La cuestión principalAunque todo esto es muy importante, tanto Google como el resto de los buscadores se orientan de la importancia de una página mediante sus enlaces.Volvamos con el ejemplo de la SGAE. La explicación de este fenómeno se basa en que se hizo algo llamado Google Bombing que consiste en " engañar" al buscador. Lo que se hizo fue que mucha gente desde sus páginas utilizaron enlaces a la SGAE y en el atributo title, que lo que hace es mostrar un cuadro de texto cuando dejamos el ratón encima de un enlace, pusieron la palabra "ladrones". Esto no hubiera tenido ninguna repercusión si lo hubiesen hecho dos o tres personas, pero cuando lo hacen cientos o miles la cosa cambia. Cuando ocurre esto, Google relaciona la palabra "ladrones" con la dirección de la web. Lo relaciona con tanta intensidad que cree que la web que mejor responde a la búsqueda "ladrones" es esa página. Hay que darse cuenta de que es muy difícil saber cuál es la importancia de algo, una persona puede hacer una estimación, pero un ordenador... La cuestión es cómo hacemos que un algoritmo refleje nuestro pensamiento (ésto se llama inteligencia artificial). Verdaderamente es algo muy difícil pero parece lógico que si una página es referenciada por muchas otras páginas, el contenido de la página será bueno... o al menos importante. Esto es un problema bastante grave, porque cómo diferenciamos lo que es bueno, de lo que únicamente es popular. Además, analizar una página puede dar pequeños problemas. Por ejemplo en Google introducimos la siguiente búsqueda: link:www.epsilones.com. En esta búsqueda, que nos dice las páginas que tienen un link haciendo referencia a Epsilones, aparecen 151 resultados (lo cual no está nada, nada mal). Pero claro si echamos un vistazo más detenidamente veremos que hay una página llamada gatopardo con un enlace a Epsilones en el menú de la derecha, lo cual hace que se repita en todas sus páginas, y como muchas de sus páginas están indexadas en Google, los enlaces a Epsilones se repiten mucho. Este tipo de enlaces tan frecuentes dentro de una URL son tratados por Google para que no aumente artificialmetne el número de enlaces a una página.Google tiene un algoritmo denominado Page Rank el cual asocia a una página un rango entre 0 y 10. Debo de decir que este algoritmo se desconoce ya que Google únicamente da a conocer algunos parámetros de funcionamiento de su algoritmo. Vamos a usar este link para saber qué Page Rank tiene Epsilones: http://www.prchecker.info/check_page_rank.php . Epsilones tiene un Page Rank de 5 sobre diez, decir que el Ministerio de sanidad y consumo (www.msc.es ) tiene un Page Rank de 7. Parece ser que Page Rank funciona con una escala logarítmica, lo cual quiere decir que por ejemplo con 10 enlaces tendremos un rango de 1, con 10 tendremos 2, con 100 tendremos 3 y así sucesivamente. Para Google tiene más valor un enlace desde una página con Page Rank 7 que 30 enlaces desde páginas que considera dudosas, es decir, Google tiene un sistema de confianza. Cuando una página es nueva y se da de alta en Google, pasa un período denominado Sand Box (caja de arena) en el cual Google vigila el comportamiento de la página. Cuando esta página se considera fiable pasará a ser incluída en el buscador, esto proceso ayuda a que Google pueda analizar la evolución de una página para poder saber si verdaderamente esta página puede responder a una búsqueda. Nos están vigilandoGoogle vigila no solo el contenido de las páginas si no también su evolución. Durante el Sand Box, Google decidirá si tu página merece aparecer: a veces este período puede ser de incluso semanas (en mi caso tardé tres semanas en conseguir que apareciese mi página). Ahora es cuando toca hablar de un simpático robot llamado Googlebot. Googlebot no es nada más y nada menos que un programa de ordenador que se recorre todo Internet (sí todo Internet) cada cierto tiempo y almacena las páginas web en la tremenda base de datos que posee Google (decir que en Google cada cinco minutos se estropea un disco duro, imaginad todos los discos que tienen...). Cuando el Googlebot entra en una página almacena cierta información sobre la página, no toda, solo una cierta parte. El gran éxito de Google se basa en que almacena una menor cantidad de información por página que otros buscadores como Yahoo. A su vez el Googlebot recorre todos los enlaces que hay en la página y visita estas páginas a las que apunta. Es muy importante que estos enlaces estén disponibles (que no salga el famoso error 404), de lo contrario Google penalizará tu página por considerarla inapropiada. Por esto es muy importante que el código de la página sea apropiado para el Googlebot, ya que si encuentra que tu página es difícil de leer, es más que probable que la ignore y vuelva en otra ocasión. Un aspecto muy importante es utilizar un sitemap, esto es un archivo XML en el que se especifican los enlaces de tu página que tiene que visitar el Googlebot, con qué prioridad, frecuencia, etc. De esta forma haces mucho más sencillo el trabajo al Googlebot, aparte de que puedes comunicar a Google cuándo se ha actualizado tu página. Vuelvo a recalcar que esto es muy importante, porque en un principio Google tiene que saber de la existencia de tu página, y si le informas de que está ahí y le comunicas los cambios se sentirá muy interesado. En mi caso hubo temporadas en las que el Googlebot me visitaba automáticamente, sin yo decirle nada, cada cuatro horas y siempre lo hacía en aquellas horas en las que yo solía modificar el contenido y aprovechaba para bajarse mi fichero sitemap. A Google no le gusta la picarescaCuidado los pícaros que pretenden hacer trampas. Existen trucos muy viejos como por ejemplo: quiero que mi página aparezca en la búsqueda "jamón serrano", y lo que hago es repetir la palabra "jamón serrano" hasta la saciedad en el texto. Lo siento pero Google penaliza esto, porque Google se guia por la la densidad de las palabras, y cuando digo penalizar significa que te puede llegar a quitar del buscador y dejar de confiar en tu página. Otros trucos como escribir las palabras de búsqueda en el mismo color que el fondo de la página, lo cual es una estupidez, porque Google se da cuenta. Otra gente utiliza lo que se llama link farms, páginas en las que la gente publica sus enlaces. Estas páginas son muy sencillas de reconocer, porque no hay nada de texto únicamente enlaces y más enlaces. Ten cuidado de que tu página no aparezca en estos lugares porque Google probablemente penalizará tu página. Nuestros amigos los metadatosLos metadatos son el futuro del web, no quisiera enrollarme explicando lo que son, pero únicamente decir que con las etiquetas meta podemos definir de forma unívoca de qué estamos hablando. Estas etiquetas están en el comienzo de las páginas y tienen una estructura del tipo <meta description....>. Google a fecha de hoy no ha admitido que tenga en cuenta estas etiquetas, aunque alguna gente afirma que tienen efecto en las búsquedas. Lo que yo hago en estas etiquetas es definir aspectos de mi página como por ejemplo: el autor, una pequeña descripción del sitio, palabras clave, cada cuando debe pasarme un robot de búsqueda, etc. Si vas a hacer una página tenlo en cuenta a la hora de crearla e infórmate de cómo usarlos. Te propongo que pongas en Google la búsqueda "casa", visites la primera página, que es la de la Casa real, veas el código fuente, eches un vistazo a los metadatos y pienses sobre por qué aparece esa página la primera con esa búsqueda. La paciencia es buena compañeraVamos a suponer que hemos subido una página hace dos semanas en una búsqueda tan rara como "chisdanvintor" (como el visigodo pero con r al final). En un principio lo buscamos en el Google y no aparecía nada, por lo que decidimos hacernos una página específicamente para poder ser encontrada usando esta palabra de búsqueda. Hace dos semanas que la subimos y no aparece, incluso aparece en otros buscadores como Yahoo y MSN pero no aparece en Google, ¿qué pasa? La respuesta es Google Dance. Cada cierto tiempo Google recalcula todos los factores que posicionan a las páginas, y esto lleva tiempo. Por mi experiencia puedo decir que este proceso es cuanto menos desconcertante, puedes no aparecer nunca, estar un día el primero y a la hora desaparecer. Esto se debe a que los cálculos no se hacen todos de golpe, se hacen por partes, porque esto requiere una grandísima cantidad de cálculo distribuido y quién sabe cuánto tiempo de procesado. ¿Y no hace esto Yahoo o MSN? Sí, también hacen un proceso similar, pero Google es mucho más cauteloso y desconfía mucho más. Es más sencillo colocar una página la primera en Yahoo que en Google, respecto a MSN debo decir que es un buscador que a veces devuelve resultados muy confusos, por lo que yo no me molestaría en optimizar búsquedas para él. Además, Google tiene muy en cuenta la antigüedad de las páginas, cuanto más antigua sea una página mejor se posicionará. Algunos ejemplos prácticosMis compañeros del año pasado se inventaron una palabra, documentamanía, la cual, al realizar la búsqueda en Google, no aparecía. Sencillamente no existía tal palabra, porque hay que decir que Google almacena todo, todo, todo, esto quiere decir que si buscamos un número como 3987a encontraremos resultados. Bueno pues el año pasado esta palabra no existía y ahora si la buscas encontraras 33700 resultados e incluso una empresa ha comprado la palabra de búsqueda para patrocinarse. ¿Qué es lo ha pasado? Pues sencillamente que Internet tiende a duplicar contenidos, encontrarás páginas estúpidas que sin ningún motivo tienen enlaces a estas páginas, únicamente porque los han copiado y pegado o las han utilizado para promocionar sus páginas. ¿Quiere esto decir que la palabra documentamanía tiene algún significado? No, no vale nada ni tiene un significado concreto, es un invento... y sin embargo ahí está, y tiene tantos enlaces que podríamos llegar a creer que es algo importante que hemos estado desconociendo. Incluso una empresa ha comprado esa palabra para patrocinar sus búsquedas... Otro ejemplo práctico es una página que he desarrollado (aprovecho para promocionarme http://es.geocities.com/metadatosxmlorganizacion). Durantes tres semanas no apareció en ninguna parte, en ningún buscador, yo ya estaba desesperado y sin embargo de golpe y plomazo en una semana apareció primero en Yahoo y posteriormente en Google. Esta página debería aparecer al realizar dos búsquedas la primera: recuperación y organización de la información y la segunda "documentos xml recuperación" (con o sin tilde). Debo de decir que para la segunda búsqueda estoy orgulloso porque aparece la primera, tanto en Google como en Yahoo. Es más sin yo esperármelo comenzó a aparecer la primera con búsquedas como "documentos rdf", apareciendo por delante del estándar del w3c 8-D. Prácticamente haciendo combinaciones de palabras con "recuperación, xml, rdf, documentos y organización" aparece la página, lo cual me dejó muy sorprendido. Incluso a fecha de hoy buscando documentos xml aparecerá la décima de entre dos millones de búsquedas, lo cual está bastante bien. La búsqueda recuperación y organización de la información es otra historia ya que parece que mi página no estuvo optimizada en un principio para esta consulta, por lo que sigo trabajando para que aparezca en Google. Algunas conclusiones
|