Si estás buscando ampliar tus conocimientos de posicionamiento web, es muy probable te preguntes para qué sirve el archivo robots.txt y si realmente lo necesitas. Y en el blog de SEO de nuestra agencia de posicionamiento web te lo vamos a explicar con detalle.
Como sabes Google visita nuestras webs periódicamente y rastrea los diferentes contenidos que tenemos en ella a través de sus “robots” (de ahí el nombre del archivo robots.txt), también conocidos como crawlers o arañas.
Pero, además del famoso Googlebot de Google, existen otras arañas populares que también aceden a tu página, como Yahoo_Slurp de Yahoo o Msnbot de Bing. Estos crawlers rastrean nuestra web y van descubriendo los nuevos contenidos que vamos añadiendo, los valoran y por último los indexan en los resultados de búsqueda (SERPs) según dicha valoración.
Entonces, ¿qué pinta este archivo en todo esto? Sigue leyendo para descubrirlo.
Para empezar ¿qué es el archivo robots.txt?
El archivo robots.txt es un archivo situado en la raíz de tu sitio web que da instrucciones a los robots de los motores de búsqueda. Con estas instrucciones realizadas a través de comandos en el fichero, indicas a los crawlers cómo deben comportarse dentro de tu web y consecuentemente cómo realizar el rastreo y posterior indexación de tus contenidos de la manera que más te interese.Para qué sirve el archivo robots.txt
Vale, una vez sabemos qué es el archivo robots.txt, resulta básico conocer sus principales usos y cómo podemos sacarle partido dentro de nuestra web. Estas son algunas de las formas más comunes en las que se emplea:- Para restringir el acceso a determinadas partes de tu web a las arañas de los motores de búsqueda usando determinados comandos aplicados a este archivo.
- Con una buena configuración del robots.txt podrás optimizar el crawl budget o presupuesto de rastreo, es decir, el tiempo que los robots de los motores de búsqueda destinan a rastrear todos los contenidos de tu web. Si lo configuramos de tal manera que el bot no tenga que rastrear contenido que tenga poca importancia dentro de tu sitio web o contenido que sea muy similar (contenido duplicado o paginaciones), estaremos optimizando gran parte de dicho presupuesto de rastreo.
- Utilizando una serie de comandos que más abajo te detallamos, en este archivo además de restringir de manera sencilla la accesibilidad del bot a directorios, subdirectorios, archivos y URLs específicas de tu web, podrás especificar el sitemap de tu web.
¿Realmente lo necesito?
El archivo robots.txt no es obligatorio, simplemente lo crearemos si queremos restringir algunas partes de la web de cara a los robots de los motores de búsqueda. En concreto, será interesante crear un archivo robots.txt si quieres:- Ocultar partes de tu web a los motores de búsqueda.
- Restringir acceso a contenido duplicado.
- Restringir acceso a archivos de código.
- Indicar el Sitemap de nuestra web a los bots.
- Restringir ciertos directorios o subdirectorios de tu web.
Comandos del robots.txt
Bien, ahora que sabes qué y para qué sirve el archivo robots.txt, y una vez que has podido determinar si realmente lo necesitas configurar para tu proyecto, te vamos a indicar los comandos principales que puedes implementar en él. Estos serían:- User-agent: Indica sobre que robot se aplicarán las reglas que escribiremos a continuación.
- Disallow: Aquí podremos restringir el acceso a un directorio, subdirectorio o página en concreto.
- Allow: Todo lo contrario que disallow, sirve para dar acceso a nuestra web. Sirve para decirle a los robots que una parte de las páginas que habíamos puesto bajo la regla de Disallow, sí queremos que las rastreen.
- Sitemap: Con este comando les indicaremos la ruta de nuestro mapa del sitio