Sunday, May 23, 2010

Una breve guía para el archivo Robot.txt

Una de las formas más usuales en que los robots de los diferentes buscadores saben que indexar o no en un sitio es mediante el archivo robots.txt, el mismo le dice a los robots de los buscadores que partes del sitio deben o no visitar, aunque no existe un estándar formal como tal se ha formado un conjunto de normas que son seguidas por la mayoría de los buscadores.

¿Donde debe estar el archivo robots.txt?
Normalmente y lo recomendado es que este archivo este en directorio raíz de tu sitio, puesto que los robots de los buscadores tratarán de encontrarlo.

¿Para que tener un robot.txt?
Cuando un sitio contiene carpetas administrativas o partes del sitio las cuales no deseamos que sean indexadas en los buscadores (por ejemplo carpetas protegidas con passwords, secciones en construcción del sitio), configuramos este archivo de forma que los robots no traten de acceder a estas ubicaciones y de este modo evitamos que nuestro sitio le de mensajes de error al robot mientras indexa nuestro sitio.

Ejemplos de esto es con sistemas CRM como Wordpress o Joomla donde existen carpetas que contienen los archivos de administración de los sistemas, en Worpress la carpeta /wp-admin/ y en Joomla /administrator/, lo mismo es válido para otros sistemas y otras carpetas, o que simplemente no deseemos ser indexados (en el caso que el sitio es para miembros y/o no deseamos que nos encuentren).

¿Cómo lo programamos?
Primero identificamos al robot, esto puede ser ya sea por el nombre o con el comodín * (se refiere a todos los buscadores), para esto utilizaremos
User-agent:

Si deseamos que la regla se aplique a todos los buscadores utilizaremos *
User-agent: *

Si deseamos que una regla se aplique solo al robots de google
User-agent: Google

Después de identificar al robot procedemos a darle una o varias reglas
Si deseamos que indexe todo el sitio
Disallow:
  
Si deseamos que no indexe nada
Disallow: /
Si deseamos bloquear una carpeta especifica
Disallow: /carpeta/
Ahora pongamos todo junto
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/

Con esto evitamos que todos los robots indexen las carpetas

  • administrator
  • cache
  • components 


Otra parte importante de la configuración del archivo robots.txt es la utilización de la etiqueta html  <meta name="robots" content="">

Esta etiqueta html nos permite darle información a los robots de indexación , esto nos permite decirle a un robot si la pagina debería o no ser indexada  content="index" content="noindex" o si debe seguir o no los links que hay en la misma content="follow" content="nofollow".


Link
Bases de conocimientos de robots (listas de robots conocidos)
Sitios para profundizar
Herramientas para generar nuestros propios robots.txt
Extenciones para Wordpress

No comments: