Anuncio 1:

¿Qué es? y como crear un archivo robots.txt

Ya habréis oído más de una vez hablar sobre el archivo robots.txt, o tal vez solo lo hayáis visto en vuestra web y queréis saber que es y para qué sirve por qué pero seguramente no tengáis muy claro que es ni cómo funciona, al igual que yo la primera vez que lo vi, como es normal.

Pues bien, el archivo robot.txt es el archivo que leen los buscadores para saber entre otras cosas dónde están los mapas del sitio de nuestra web y que carpetas pueden o no indexar o explorar, ya que a través del el podemos denegarlo o permitirle leer o no ciertas partes de nuestra web.
 
Sabiendo esto, os daréis cuenta de la importancia que tiene tener bien configurado el archivo robots.txt, por eso he creado este artículo, para enseñaros de la manera más sencilla posible como crear vuestro propio fichero robots.txt y así controlar los accesos de los robots de los buscadores a las distintas partes de vuestra web.
 
Es importante que tengáis muy claro que cosas modificáis en dicho archivo, pues teniendo en cuenta su función si este estuviera mal configurado, podríamos estar denegando el acceso a los artículos, lo cual sería muy grave, o permitiendo el acceso a sitios que no deberíamos, pues bien a continuación os explico cómo hacer vuestro propio robots.txt, lo acompañare de ejemplos y justo al final os dejare el mío, por si queréis usarlo de base para crear el vuestro.
 
Para crear un buen fichero robots.txt, debemos crear el fichero físicamente, y  después definir  una de las opciones más importantes, lo primero es indicar que partes de nuestra web puede o no leer, la configuración se puede hacer distinta para cada buscador o igual para todos, como lo normal es poner la misma para todos, ya que siempre hay que tender hacia los formatos universales, pues es la que aquí vamos a describir, para ello usaremos la siguiente sintaxis:
 

Para indicar que la configuración que vamos a poner después es para todos los buscadores, ponemos:
 
User-agent: *

Para deshabilitar el acceso de los buscadores a ciertas carpetas la sintaxis que deberíamos utilizar es la siguiente:
 
Disallow: /DirecciónCarpeta/

Ejemplo:

Disallow: /administrator/
 
Los buscadores no indexaran aquello que este en la carpeta administrator.
 
Por el contrario si lo que queremos es habilitar el acceso, tenemos 2 opciones o no poner nada o usar la siguiente sintaxis:

Allow: /DirecciónCarpeta/
 
Ejemplo:

Allow  /images/
 
Esto estará indicando a las arañas de los buscadores que indexen las imágenes contenidas en el directorio images.
 
Y os estaréis preguntando, que si no es necesario poner nada para permitir el acceso a una carpeta, ya que solo basta con no denegarlo, entones ¿Por qué hay una regla específica para permitirlo?
 
Pues muy fácil, porque puede ocurrir por ejemplo que dentro de la carpeta administrator a la cual hemos denegado el acceso antes, haya una carpeta a la que si queremos que tenga acceso, en ese caso podemos denegar el acceso general a esa carpeta como ya hemos hecho, y para que una vez se haya denegado el acceso general a l carpeta, aprobemos el acceso a una carpeta dentro del administrador que en este caso llamaremos fotos para que veáis como deberíamos escribirlo:
 
Ejemplo:

Disallow: /administrator/
Allow: /administrator/fotos/
 
De esta forma los buscadores solo podrán indexar la carpeta fotos de todas las que haya dentro del administrador, sin embargo sino hubiésemos puesto la admisión específica para la carpeta fotos, estaría bloqueada la indexación de todo el contenido de la carpeta administrator incluyendo la carpeta fotos.
 
Por último y no por ello menos importante, deberemos especificar la dirección donde se encuentra nuestro mapa del sitio llamado sitemap.xml, para que los buscadores lo encuentres y así indexen nuestros artículos más deprisa, para ello basta con añadir al final del fichero robots.txt la siguiente línea:

Sintaxis:

Sitemap: http://www.dominio.com/sitemap.xml
 
En el caso de mi web la sintaxis seria:

Sitemap: http://www.windowslinuxymac.com/sitemap.xml
 
Hay que tener en cuenta que el archivo sitemap.xml, no puede superar los 10Mb ni contener más de 50.000 URL’s distintas. Si este fuera tu caso divide los enlaces en 2 o más sitemaps, e indícalo de la siguiente forma en el archivo robots.txt.

Sintaxis:

Sitemap: http://www.dominio.com/sitemap.xml
Sitemap: http://www.dominio.com/sitemap2.xml
 
 
Al final, si lo has hecho todo correctamente debería quedarte algo así:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
 
Sitemap: http://www.windowslinuxymac.com/sitemap.xml
 
En fin, espero que mi artículo os haya servido de ayuda, sé que al principio puede asustar, pero luego es más sencillo de lo que parece, sobre todo teniendo en cuenta, que si vuestra web esta creada con un CMS o gestor de contenido tipo Joomla o Wordpress llevara un fichero robots.txt que solo tendréis que modificar un poquito, como por ejemplo indicando la dirección de vuestro mapa del sitio, ya que ninguno suele tenerlo añadido por defecto, bueno, no os olvidéis de comentar vuestras opiniones y dudas, muchas gracias por vuestra visita y espero que volváis pronto.

Escribir un comentario


Código de seguridad
Refescar

Anuncio 3:

Utilizamos cookies para mejorar su experiencia.

Si acepta o continúa navegando, consideramos que acepta su uso. Saber más

Acepto