Me llamo la atención, mirando el error-log de mi Server, que se repetía varias veces el error de archivo no encontrado (un tal robot.txt). Lo primero que hice fue mandarme al google enseguida. Ahí di con la clave.
Aparentemente existe una forma estándar de evitar que los robots consulte alguna sección específica del sitio, ya sea un directorio, una página o un archivo. Es bastante sencillo, se especifica en ese archivo de texto robot.txt que robot queres que no entre, o que robot queres que no entre y adonde.
A continuación explico más o menos como hacerlo. No se si exista la explicación en castellano; la que encontré yo, fue en inglés. Igual puede serlesútil.
Este archivo debe llamarse robots.txt y encontrarse en la carpeta raíz de nuestro sitio. (/robots.txt)
El archivo esta dividido en bloques, donde en cada bloque se especifican los detalles de exclusión de cada agente robot; a su vez se puede especificar un bloque igual para dos o mas robots sin tener que repetirlo.
En la primera línea del bloque se especifica el robot (user-agent), se pueden usar * para determinar un universo. Por ejemplo:
User-agent: *
User-agent: Gulliver/1.3
(encontre una completa lista de bots user-agent aca: http://support.free-conversant.com/2701)
Dentro del bloque, Disallow especifica con la ruta a la que no queremos darle acceso al robot, por ejemplo:
Disallow: /tmp/
Disallow: /foo.html
Cada línea debe estar después de un salto de línea. También se permiten comentarios anteponiendo el #
Ahora veamos un par de ejemplos completos:
En este ejemplo le denegamos el acceso a todos los robots, menos a Guliver/1.3, a /paginas-personales/ a /tmp/ y a /foo.html
# robots.txt para http://www.ele-zeta.com.ar
User-agent: * # este bloque va para todos los bots.
Disallow: /paginas-personales/ # Toda la carpeta y sus directorios
Disallow: /tmp/ # toda la carpeta temporal
Disallow: /foo.html # tan solo el archivo foo.html
# en este nuevo bloque le permitimos a Gulliver recorrer todo nuestro sitio
User-agent: Gulliver/1.3
Disallow:
Las cosas que se aprende cuando uno se sienta un ratito a leer “cosas” de Internet. Y no sólo que se queda leyendo mas de un ratito, sino que se pone a postear lo que aprendió… Ja!
Saludos.

















