4.5 1 1 1 1 1 1 1 1 1 1 Rating 4.50 (2 Votes)

Ya habréis oído más de una vez hablar sobre el archivo robots.txt, o tal vez solo lo hayáis visto en vuestra web y queréis saber que es y para qué sirve este singular fichero, ya que seguramente no tengáis muy claro que es ni cómo funciona, al igual que yo la primera vez que lo vi, como es normal, ya que no es algo que se estudie ni se sepa de forma general. Pues bien, para todos aquellos que no lo sepáis el archivo o fichero robot.txt es el archivo que leen buscadores de internet como Google o Bing a través de sus bots también conocidos como arañas, para saber entre otras cosas, dónde están los mapas del sitio de nuestra web y que carpetas pueden o no indexar o explorar, ya que a través del el podemos denegar o permitir leer o no ciertas partes de nuestra web, y así que los buscadores puedan o no indexarlas.

 


Así que como ya os habréis dado cuenta, la importancia que tiene tener bien configurado el archivo robots.txt es muy alta, ya que si no lo tenemos creado y bien configurado, los buscadores por defecto lo indexaran todo y cualquier persona podría leer cualquier parte de nuestra web, consiguiendo incluso las contraseñas de acceso a la nuestra web, o por el contrario podríamos estar nosotros mismos denegándole el acceso a los buscadores, impidiendo así que nos indexen y por tanto impidiendo que nos llegue ninguna visita a través de estos, lo que es muy grave. Por eso he decidido crear este artículo, para enseñaros de la manera más sencilla posible, como crear vuestro propio fichero robots.txt y así controlar los accesos de los robots de los buscadores a las distintas partes de vuestra página web.
 
Pero no podéis modificar el artículo sin un poco de información primero, ya que es importante que tengáis muy claro que cosas modificáis en dicho archivo, pues teniendo en cuenta su función, y tal y como os he comentado ya anteriormente, si este estuviera mal configurado, podríamos estar denegando el acceso a los artículos de nuestra página web o blog, o directamente permitiendo el acceso a sitios que no deberíamos, así que para evitar que eso ocurra, a continuación os explico cómo hacer vuestro propio archivo o fichero robots.txt, información que acompañare de ejemplos de la sintaxis necesaria para realizarlos, y además justo al final del articulo os dejare unos ejemplos de cómo quedaría el archivo robots.txt, para Joomla y WordPress, por si queréis usarlo de base para crear el vuestro.
 

¿Cómo crear nuestro propio archivo o fichero robots.txt para Joomla, WordPress y cualquier otra página web o blog?

Lo primero que debemos hacer para crear un buen fichero robots.txt, es crear el fichero físicamente, lo cual es muy sencillo, ya que solo tendremos que crear un fichero de texto básico con el bloc de notas, al cual llamaremos robots, y después pasaremos a definir una de las opciones más importantes de nuestro fichero robots.txt. Lo primero es indicar buscadores pueden indexar nuestra página web o blog, la configuración se puede hacer distinta para cada buscador o igual para todos los buscadores, pero como lo normal es poner la misma para todos, ya que querremos que todos puedan acceder a las mismas partes de nuestra web, y recibir el mayor número de visitas de todos ellos, usaremos la siguiente sintaxis para indicar que la configuración que ira después de ella es para todos los buscadores:
 
Para indicar que la configuración de nuestro fichero robots.txt es para todos los buscadores, ponemos:
 
User-agent: *
 
Donde el asterisco significa todos.

Para deshabilitar el acceso de los buscadores a ciertas carpetas la sintaxis que deberíamos utilizar es la siguiente:
 
Disallow: /DirecciónCarpeta/

Ejemplo:

Disallow: /administrator/
 
Los buscadores no indexaran aquello que este en la carpeta “administrator”. Y si ponemos la siguiente sintaxis:
 
Disallow: /administrator/temporales
 
Los buscadores no indexaran el contenido de la carpeta temporales, pero si lo harán de “administrator”, ya que aquí lo que estamos haciendo es indicar la dirección especifica de una carpeta que queremos no indexar que sería temporales, y le estamos indicando que esta carpeta está dentro de “administrator”.
 
Por el contrario si lo que queremos es habilitar el acceso, tenemos 2 opciones o no poner nada o usar la siguiente sintaxis:

Allow: /DirecciónCarpeta/
 
Ejemplo:

Allow:  /images/
 
Esto estará indicando a las arañas de los buscadores que indexen las imágenes contenidas en el directorio “imágenes”.
 
Si quisiéramos habilitar el acceso a una carpeta que está dentro de otra carpeta que hemos deshabilitado con anterioridad, como por ejemplo y basándonos en los ejemplos anteriores la carpeta “temporales” seria:
 
Allow:  /administrator/temporales/imágenes
 
Esto habilitaría el acceso a la carpeta imágenes, sin afectar lo más mínimo a la carpeta “administrator”, ni temporales, la cual seguiría inhabilitada para su indexación, así como todo su contenido excepto la carpeta “imágenes”, a la cual le hemos dado permisos especiales para que si sea indexada.

Y os estaréis preguntando, que, si no es necesario poner nada para permitir el acceso a una carpeta, ya que solo basta con no denegarlo, entonces ¿Por qué hay una regla específica para permitirlo? Pues muy fácil, porque puede ocurrir por ejemplo que dentro de la carpeta “administrator” a la cual hemos denegado el acceso antes, haya una carpeta a la que si queremos que tenga acceso, en ese caso podemos denegar el acceso general a esa carpeta como ya hemos hecho, y para que una vez se haya denegado el acceso general a la carpeta, aprobemos el acceso a una carpeta dentro del “administrador” que en este caso llamaremos imágenes para que veáis como deberíamos escribirlo, de una manera más clara que con anterioridad:
 
Ejemplo:

Disallow: /administrator/

Allow: /administrator/imagenes/
 
De esta forma los buscadores solo podrán indexar la carpeta “imágenes” de todas las que haya dentro de la carpeta “administrador2, sin embargo sino hubiésemos puesto la admisión específica para la carpeta fotos, estaría bloqueada la indexación de todo el contenido de la carpeta “administrator” incluyendo la carpeta fotos.
 
Un símbolo muy importante que debéis tener en cuenta es el del asterisco, *, este es el equivalente a la palabra todo para Google, es decir, que podemos usarlo para indicarle a Google por ejemplo que todo lo que empiece por la dirección que sea, pero termine en una carpeta llamada “feed” no lo indexe, o que todas aquellas carpetas o archivos con un símbolo de interrogación tampoco sea indexado, la forma de usarlo sería la siguiente.
 
Sintaxis:
 
Disallow: /*/feed/
 
Esto evitara que Google rastree cualquier cosa, en cualquier carpeta que se llame “feed”.
 
Disallow: /*?
 
Con esta orden, le estamos diciendo a Google que no indexe ningún artículo, archivo o carpeta que empiece por cualquier palabra y que contenga el símbolo de interrogación ?.
 
Sin embargo, para mayor comprensión del archivo robots.txt, y aunque cueste hacer más la primera vez, os recomiendo que hagáis un archivo robots.txt con lo que llamaríamos rutas absolutas. Es decir que pongáis el Disallow, y la carpeta cuyo contenido que queréis que no se indexe completamente y sin atajos, por ejemplo, para deshabilitar la carpeta “mundo”, y la carpeta “mundo” que está dentro de la carpeta “hola”, lo haríamos de la siguiente forma si usamos rutas absolutas.
 
Disallow: /mundo

Disallow: /hola/mundo
 
Por último y no por ello menos importante, deberemos especificar la dirección donde se encuentra nuestro mapa del sitio llamado sitemap.xml, para que los buscadores lo encuentres y así indexen nuestros artículos más deprisa, para ello basta con añadir al final del fichero robots.txt la siguiente línea.

Sintaxis:

Sitemap: https://www.dominio.com/sitemap.xml
 
En el caso de mi web la sintaxis seria:

Sitemap: https://www.windowslinuxymac.com/sitemap.xml
 
Hay que tener en cuenta que el archivo sitemap.xml, no puede superar los 10Mb de espacio ni contener más de 50.000 URL’s distintas, cosa poco probable pero no imposible que os ocurra, si vuestra página web o blog es de gran tamaño. Si este fuera tu caso divide los enlaces en 2 o más sitemaps, e indícalo de la siguiente forma en el archivo robots.txt.

Sintaxis:

Sitemap: https://www.dominio.com/sitemap.xml
Sitemap: https://www.dominio.com/sitemap2.xml
 
Al final, si lo has hecho todo correctamente debería quedaros algo así:

Ejemplo de fichero robots.txt de Joomla:

User-agent: *
 
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /tmp/
 
Sitemap: https://www.dominio.com/sitemap.xml
 
Ejemplo de fichero robots.txt de Wordress:
 
User-agent: *
 
Disallow: /wp-login
Disallow: /wp-admin
Disallow: //wp-includes/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: /*/page/
Disallow: /*/feed/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*
 
Sitemaps: http://www.dominio.com/sitemap.xml
 
En fin, espero que mi artículo os haya servido de ayuda, sé que al principio puede asustar, pero luego es más sencillo de lo que parece, sobre todo teniendo en cuenta, que si vuestra web esta creada con un CMS o gestor de contenido tipo Joomla o Wordpress llevara un fichero robots.txt que solo tendréis que modificar un poquito, como por ejemplo indicando la dirección de vuestro mapa del sitio, ya que ninguno suele tenerlo añadido por defecto, bueno, no os olvidéis de comentar vuestras opiniones y dudas, las cuales contestare en cuanto las lea. A continuación, os voy a dejar unos enlaces a otros artículos relacionados que creo que pueden ser de vuestro interés, muchas gracias por vuestra visita y espero que volváis pronto.

 

Como redireccionar un dominio web sin www a uno con www
 
Como indicar la posición del sitemap.xml en nuestro robots.txt


Como hacer Ping a Google, Yahoo o Bing de forma automática

Escribir un comentario


Código de seguridad
Refescar