Archivo robots.txt, su funcionamiento e importancia en tu estrategia SEO

Archivo robots.txt, su funcionamiento e importancia en tu estrategia SEO
El archivo robots.txt es una de las piezas claves en la configuración de un sitio Web y tiene una gran importancia SEO en la configuración básica a nivel de posicionamiento Web. El archivo robots.txt es un archivo, que como dice su extensión es un archivo txt o archivo de texto, este se conoce como protocolo de exclusión de robots o protocolo de robots.txt.

Si estamos llevando a cabo una estrategia SEO es fundamental configurar correctamente nuestro archivo robots.txt. Disponer de un archivo bien configurado supondrá que los robots de búsqueda escojan la información correcta más rápidamente, obteniendo una mejor navegabilidad en la web, un mejor posicionamiento en los buscadores y además reducimos algunos inconvenientes que nos pueden traer estos robots si no se controlan.
Este archivo expone unas recomendaciones que los robots buscadores deben de cumplir. Es decir, le indicamos que es lo que no queremos indexar. De esta manera, selccionarán mejor la información de nuestra web y mejorará el posicionamiento.
El archivo robots.txt se ha de subir a la raíz del alojamiento para indicar a los robots qué paginas o directorios no nos interesa indexar. Solo ha de haber un archivo robots.txt en cada sitio web.
La configuración de este archivo es importante, ya que nos aporta unos beneficios de varios tipos en cuanto al SEO se refiere, por ejemplo:

  • – Ayuda a hacer una indexacion más fluida del contenido importante de la web, con lo que mejora el posicionamiento en Internet. Además puede agilizar el rastreo de los robots, mejorando el uso de la web.
  • – Impide el acceso a determinados robots, ya que algunos de ellos solo proporcionan problemas en la web porque no son buscadores, además de limitar la información que queremos mostrar, de manera que los datos personales privados no puedan ser encontrados en Google.
  • – Reducen la sobrecarga del servidor, porque se puede controlar el tiempo de acceso de algunos robots. Algunos de estos robots se dedican a hacer una cantidad elevada de peticiones que pueden saturar el servidor y que el usuario real tenga una navegación mas lenta por la pagina.

 

¿Cómo se crea un archivo robots.txt?

El archivo robots se crea utilizando dos comandos.

User-Agent: (Spider Name)
Disallow: (Ruta)

El Spider Name, es el nombre del robot buscador. Si se quiere indicar que las prohibiciones afecten a todos los buscadores, se ha de poner “*” en vez del nombre del buscador.
La Ruta, es el nombre del archivo o carpeta que no se quiere indexar. Para prohibir la indexacion a todos los documentos de un directorio, en la ruta que se ha de incluir el carácter “/” al final del nombre del directorio. Es decir, el formato será:

Disallow: /directorio/

Ejemplos:

Disallow: / prohibe la entrada a todo el alojamiento.
Disallow: /foro/ prohibe la entrada al directorio foro.
Disallow: permite la entrada a todo el alojamiento.

¿Qué es el Crawl-delay?

Si se revisan estadísticas, entre otros, se puede observar que a veces algunos robots que revisan la web, realizan multitud de peticiones al servidor hasta sobrecargarlo. Para evitar esta sobrecarga, se puede utilizar la directiva Crawl-delay, que indica el tiempo el tiempo entre cada acceso del robot.

Ejemplo:

User-agent: *
Crawl-delay: 60

Esto indica que los robots han de esperar 60 segundos entre cada acceso.
El inconveniente que aporta esta directiva es que no afecta a todos los robots, algunos de los que si afecta, son: MSNBot, Slurp i Googlebot.

¿Cómo configurar un archivo robots.txt en un CMS concreto?

Es probable que muchos gestores de contenido como Joomla, Drupal, WordPress, etc, ya tienen su propio robots.txt que se instala junto con la aplicación.Lo único que se debería de hacer es añadir la directiva “crawl-delay” para no sobrecargar la pagina y también se debería indicar los directorios o artículos que no han de ser indexados.

Ejemplos de robots.txt:
Para un WordPress:

User-agent: *
Crawl-Delay: 60
Disallow: /wp-content/
Disallow: /wp-icludes/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /category/
Disallow: /tag/*
Disallow: /tag/
Disallow: /wp-*
Disallow: /login/
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.php$
User-agent: All
Allow:/
User-agent: Googlebot-Image
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /

Para un Drupal:

User-agent: *
Crawl-delay: 60
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /sites/
Disallow: /themes/
# Files
Disallow: /changelog.txt
Disallow: /cron.php
Disallow: /install.mysql.txt
Disallow: /install.pgsql.txt
Disallow: /install.php
Disallow: /install.txt
Disallow: /license.txt
Disallow: /maintaners.txt
Disallow: /update.php
Disallow: /upgrade.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=search/
# Extras on drupal.org
# no access for table sorting paths or any paths that have parameters
Disallow: /*?sort*
Disallow: /*&sort*
Disallow: /*?solrsort*
Disallow: /*&solrsort*
# no access to profiles that are often targeted by spammers.
Disallow: /profile/interest/*
Disallow: /profile/industries/*
Disallow: /profile/companies/*
# Disallow bogus aggregator pages
Disallow: /aggregator/*
# Disallow project search
Disallow: /project/issues/search/*
Disallow: /project/issues/*
# Disallow book export
Disallow: /book/export/*
# Disallow pift tests
Disallow: /pift/retest/*
# Disallow project subscription
Disallow: /project/issues/subscribe-mail/*

Para un Joomla:

User-agent: *
Crawl-delay: 60
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Añadir comentario

Your email address will not be published. Required fields are marked *