Para qué sirve el archivo robots.txt y cómo saber si lo necesitas

Si estás buscando ampliar tus conocimientos de posicionamiento web, es muy probable te preguntes para qué sirve el archivo robots.txt y si realmente lo necesitas. Y en el blog de SEO de nuestra agencia de posicionamiento web te lo vamos a explicar con detalle. Como sabes Google visita nuestras webs periódicamente y rastrea los diferentes contenidos que tenemos en ella a través de sus “robots” (de ahí el nombre del archivo robots.txt), también conocidos como crawlers o arañas. Pero, además del famoso Googlebot de Google, existen otras arañas populares que también aceden a tu página,  como Yahoo_Slurp de Yahoo o Msnbot de Bing. Estos crawlers rastrean nuestra web y van descubriendo los nuevos contenidos que vamos añadiendo, los valoran y por último los indexan en los resultados de búsqueda (SERPs) según dicha valoración. Entonces, ¿qué pinta este archivo en todo esto? Sigue leyendo para descubrirlo. para que sirve el archivo robots.txt

Para empezar ¿qué es el archivo robots.txt?

El archivo robots.txt es un archivo situado en la raíz de tu sitio web que da instrucciones a los robots de los motores de búsqueda. Con estas instrucciones realizadas a través de comandos en el fichero, indicas a los crawlers cómo deben comportarse dentro de tu web y consecuentemente cómo realizar el rastreo y posterior indexación de tus contenidos de la manera que más te interese.

Para qué sirve el archivo robots.txt

Vale, una vez sabemos qué es el archivo robots.txt, resulta básico conocer sus principales usos y cómo podemos sacarle partido dentro de nuestra web. Estas son algunas de las formas más comunes en las que se emplea:
  • Para restringir el acceso a determinadas partes de tu web a las arañas de los motores de búsqueda usando  determinados comandos aplicados a este archivo.
  • Con una buena configuración del robots.txt podrás optimizar el crawl budget o presupuesto de rastreo, es decir, el tiempo que los robots de los motores de búsqueda destinan a rastrear todos los contenidos de tu web. Si lo configuramos de tal manera que el bot no tenga que rastrear contenido que tenga poca importancia dentro de tu sitio web o contenido que sea muy similar (contenido duplicado o paginaciones), estaremos optimizando gran parte de dicho presupuesto de rastreo.
  • Utilizando una serie de comandos que más abajo te detallamos, en este archivo además de restringir de manera sencilla la accesibilidad del bot a directorios, subdirectorios, archivos y URLs específicas de tu web, podrás especificar el sitemap de tu web.
Pero como venimos comentando, todo esto son indicaciones para los robots y no garantizan que una página no se muestre en los resultados de búsqueda definitivamente, porque también entraran en juego los enlaces entrantes que estén recibiendo esas URLs que hemos decidido restringir. Por lo que si se quiere desindexar concretamente una página para que deje de mostrarse en los resultados de búsqueda, la mejor opción siempre es implementar la metaetiqueta robots “noindex”, sin que esté restringido el acceso mediante el archivo de robots.txt a dicha página, ya que será necesario para el robot poder rastrearla y detectar dicha metaetiqueta de indexación. [banner_seo] En la siguiente imagen podemos ver un ejemplo de aplicación, que fue muy viral en internet en su día, de cómo la Casa Real utilizaba el archivo robots.txt para restringir el acceso a los bots a los subdirectorios (en todos los idiomas) relacionados con Iñaki Urdangarin (todos sabemos porqué). robots.txt casa real

¿Realmente lo necesito?

El archivo robots.txt no es obligatorio, simplemente lo crearemos si queremos restringir algunas partes de la web de cara a los robots de los motores de búsqueda. En concreto, será interesante crear un archivo robots.txt si quieres:
  • Ocultar partes de tu web a los motores de búsqueda.
  • Restringir acceso a contenido duplicado.
  • Restringir acceso a archivos de código.
  • Indicar el Sitemap de nuestra web a los bots.
  • Restringir ciertos directorios o subdirectorios de tu web.
Con todo lo comentado, la necesidad de crear dicho archivo y configurarlo adecuadamente radica en la importancia de guiar a los robots hacia una buena navegación, rastreo e indexación de las distintas páginas de tu web, para que no pase por páginas que no te interesen y puedas así optimizar el crawl budget que destinen los robots a rastrear tu web. [subscripcion]

Comandos del robots.txt

Bien, ahora que sabes qué y para qué sirve el archivo robots.txt, y una vez que has podido determinar si realmente lo necesitas configurar para tu proyecto, te vamos a indicar los comandos principales que puedes implementar en él. Estos serían:
  • User-agent: Indica sobre que robot se aplicarán las reglas que escribiremos a continuación.
Si ponemos User-agent: *, estaremos indicando que las reglas serán para todos los bots. Si ponemos, por ejemplo, User-agent: Googlebot, solo este bot cumplirá las reglas descritas.
  • Disallow: Aquí podremos restringir el acceso a un directorio, subdirectorio o página en concreto.
Por ejemplo, Disallow: /wp-admin/
  • Allow: Todo lo contrario que disallow, sirve para dar acceso a nuestra web. Sirve para decirle a los robots que una parte de las páginas que habíamos puesto bajo la regla de Disallow, sí queremos que las rastreen.
  • Sitemap: Con este comando les indicaremos la ruta de nuestro mapa del sitio
Ejemplo: Robots.txt de BigSEO Agency Robots.txt BigSEO Marketing En User-agent, con el * estamos indicando que llamamos a todos los bots. En la segunda línea con el Disallow, estamos indicando que no queremos que accedan a /wp-admin/. Y justo después, le especificamos que dentro de esa parte, todo lo que sea admin-ajax.php sí lo rastreen. En la cuarta línea volvemos con un Disallow, indicando a los robots que no rastreen nada bajo el subdirectorio /en/. Y por último, le indicamos la ruta de nuestro Sitemap XML. Esperamos poder haberte aclarado para qué sirve el archivo robots.txt y cómo puedes configurarlo para que sea beneficioso para tu proyecto web. Pero como siempre, si aún tienes preguntas, no dudes en contactar con nosotros, ¡seguro que podemos ayudarte!

Deja un comentario

Twittear
Compartir
Compartir