Web oculta indexada


Sorprendentemente, Google podría indexar páginas web sin enlaces entrantes. Es decir, Google podría encontrar páginas web que en principio parecerían webs ocultas, jamás dadas de alta en un motor de búsqueda, sin enlaces desde ninguna página web, sin estar listadas en ningún sitemap, y alojadas en servidores que no permiten ver el listado de sus directorios.

A continuación expondré la situación que me llevó a investigar que Google podría utilizar ciertos mecanismos para encontrar nuevas páginas web. Además daré a conocer algunos trucos acerca de las bases de datos de Google para evitar resultados confusos al tener en cuenta todas las posibles fuentes de información.

Por qué investigué que Google podría indexar páginas sin enlaces entrantes


Mientras estaba desarrollando un sitio web para un cliente, creé una versión temporal de la página web, la cual subí a mi propio servidor para probarla. Pongamos, por ejemplo, que el dominio web del cliente era:

http://nombre-de-dominio-del-cliente/

Y que subí la página de prueba a:

http://mi-dominio/nombre-de-dominio-del-cliente/index.htm

Así pues, la única forma de acceder a esa página de prueba sería escribir la URL completa de su directorio, ¿verdad? Pues bien, esto no fue cierto. Me sorprendí verdaderamente cuando, realizando una búsqueda en Google del nombre de dominio de mi cliente, encontré que la segunda entrada se correspondía con la URL de la página de prueba alojada en mi propio servidor. Por tanto, esto es lo pensé que había hecho Google: indexar páginas a las que no apuntaba ningún enlace en todo Internet.

Pero, ¿seguro que la página estaba oculta a los buscadores?


Muy bien, el hecho es que Google indexó una página, en principio, oculta. Se trataba de una web en construcción después de todo, así que se suponía que nadie debía acceder a ella (¡al menos, por el momento!). Con lo que realmente estaba interesado en descubrir cómo Google indexa páginas web ocultas y aisladas como esta. La pregunta básica que me formulé era: ¿Puedo estar realmente seguro de que la página web en cuestión estaba oculta a los motores de búsqueda? Por ello comprobé todos los aspectos básicos:
  • La página indexada por Google no tenía enlaces entrantes (según la búsqueda de sitios que la enlazaban a través de Google). Ninguna página de mi dominio apuntaba a ella. Y tampoco tenía ningún enlace hacia ella, que yo supiera (o que Google me confirmase) desde ningún otro sitio de Internet.

  • La página en construcción nunca se dio de alta en buscadores. No estoy seguro de si, enviando una URL concreta de un directorio dentro de un dominio web a un motor de búsqueda se podría garantizar que se rastrease dicho directorio (en lugar de buscar sistemáticamente a partir de los enlaces disponibles en el directorio raíz). Pero sí que estoy completamente seguro de que jamás di de alta la URL de la página web en construcción para que Google indexase su contenido.

  • Nadie más pudo dar de alta esa URL. Ninguno de mis compañeros de trabajo conocía esa página en construcción. Y no creo que los hackers o los espías tengan cosas peores que hacer que interceptar mis transmisiones para darlas de alta en Google.

  • La página web no estaba incluida en el mapa del sitio. Sí, es cierto que tengo en mi dominio tanto Google Sitemaps como listas de URLs de Yahoo. Pero comprobé las páginas incluidas en esa lista, y no encontré ninguna referencia a la página web indexada misteriosamente.

  • Mi servidor no proporciona listado de directorios. Si no se introduce la URL exacta del directorio, o si no hubiera una página web index en dicho directorio, el servidor no devolvería una lista de las páginas y directorios contenidos, sino un espartano mensaje de "listado de directorios deshabilitado".

Así que, tras esta comprobación exhaustiva, estaba bastante seguro de que esa página web estaba oculta y no podía ser indexada... hasta que me di cuenta de que le estaba proporcionando información adicional a Google para que encontrara mis páginas. Esa información iba dirigida a Google y sólo a Google, de una forma un tanto indirecta e inadvertida.

A continuación desvelo esos dos servicios gratuitos de Google que el propio Google podría utilizar para indexar páginas web nuevas:

Google puede descubrir e indexar páginas web con Google Analytics


Me di cuenta de que había instalado el código de seguimiento de visitas de Google Analytics en la página en construcción. Creé un perfil para el nuevo sitio web (de hecho, en el dominio definitivo de mi cliente), e incrusté el código de seguimiento (la última versión de Google, ga.js) en dicha página web de prueba. Además, había habilitado que Google Analytics compartiese los datos estadísticos recogidos en mi web con otras aplicaciones de Google.

Sin embargo, he de admitir que la instalación del código de seguimiento de estadísticas no estaba configurada por completo: nunca subí ninguna página al dominio de mi cliente, y por ello Google mostraba el mensaje de "código de seguimiento no instalado". De hecho, la gráfica de estadísticas no mostraba ninguna visita en absoluto.

Por ello creo que es posible que Google pueda utilizar los datos de Google Analytics para indexar nuevas páginas web (o incluso para ajustar los resultados de búsqueda de manera que sean más relevantes).

Los datos anónimos de navegación enviados por Google Chrome podrían ser usados para indexar nuevas páginas web en Google


La única otra aplicación de Google que sabía de la existencia de mi página web oculta era el novedoso y rápido como el rayo navegador Google Chrome. Utilicé este navegador para probar la nueva versión de la página web. Y Google Chrome tenía activa la opción que le permitía enviar datos de navegación anónimos acerca de las sugerencias de la barra de navegación y los datos de auto-completar.

En principio, asumí que estos datos de navegación anónimos se utilizarían para proporcionar resultados de búsqueda más relevantes y precisos en Google. Pero no me esperaba que los datos de navegación recogidos anónimamente por Google Chrome podrían ser usados por Google para indexar nuevas páginas web. Así que, descartando toda otra opción, creo que Google encontró e indexó mi página web oculta porque le facilité la URL directamente en la barra de navegación de Google Chrome en repetidas ocasiones.

Sin embargo, la página oculta sí tenía un enlace entrante


Cuando ya estaba seguro de que Google había indexado una página web oculta, recibí un mensaje muy interesante de las Herramientas para Webmasters de Google, justo tras cambiar el nombre de esa página oculta.

El mensaje en cuestión era un error de rastreo de la URL, indicando que dicha URL no podía encontrarse. Comprobando los detalles del error descubrí que dicha "página oculta" había sido enlazada desde el sitio web de mi cliente (aunque ya no se encontraba enlazada desde ahí).

Esto me recordó algunos de los principios más básicos de la programación web:
  • Los clientes utilizan los sitios web de formas insospechadas (incluso cuando dicho sitio web aún no está acabado).

  • Google posee muchas bases de datos con información distinta, con lo que no se puede confiar plenamente en un único resultado aislado. Mientras que una búsqueda normal de sitios con enlaces a un sitio concreto puede no devolver ningún resultado, quizá se obtengan resultados distintos al comprobar el número de enlaces a través de las Herramientas para Webmasters de Google.

  • Las Herramientas para Webmasters de Google tienen ahora la funcionalidad de informar de enlaces rotos incluso cuando el único enlace entrante a una página web viene de un sitio web externo. Después de todo, resulta práctico mantener contenidos útiles en aquellas URL que otros enlazaron.


Conclusiones


Parece que no se puede confiar en el mero hecho de que ningún enlace apunte a una página web si se pretende mantener dicha página web oculta, y si se tiene intención de utilizar aplicaciones Google con dicha página. Bien Google Chrome o bien Google Analytics podrían utilizar los datos de navegación obtenidos para indexar nuevas páginas web en Google, con lo que pasarían a formar parte de los resultados de búsqueda de Google.

Ahora bien, esto no es ninguna violación de la seguridad o de la privacidad: si esto sucede es porque se le ha concedido permiso a la aplicación para recoger y utilizar este tipo de información. De hecho, si se desea que los motores de búsqueda ignoren parte de un sitio web, no hay más que decírselo así en el archivo robots.txt. Sólo hay que tener en cuenta que los archivos robots.txt son públicos, y que usuarios humanos podrían encontrar de este modo una lista completa de sus "URLs secretas y ocultas" sin más que leer estos archivos. Pero bueno, ésa es otra historia.

Después de todo, Google Chrome y Google Analytics podrían estar tratando simplemente de ayudar a Google a hacer lo que mejor sabe: descubrir e indexar tantas páginas web como sea posible (¡incluso cuando esas páginas web parecen estar verdaderamente escondidas!).

Por último, si se desea obtener resultados precisos acerca de los enlaces de un sitio web, no se puede confiar en una única búsqueda de enlaces. Google dispone de muchos centros de datos, cuyo contenido presenta unas ciertas diferencias sutiles. Así que, la forma de obtener información fiable acerca de las páginas que enlazan a uno de nuestros sitios web, no sólo se deben consultar los enlaces a través del motor de búsqueda principal de Google, sino también a través de las Herramientas para Webmasters de Google.