logo Carlos blanco

Robots.txt

¿Qué es el Archivo Robots.txt?

El archivo Robots.txt es un archivo de texto utilizado en sitios web para comunicarse con los «robots» de los motores de búsqueda, también conocidos como «spiders» o «crawlers». Estos robots son programas automatizados que recorren la web para indexar y clasificar el contenido de los sitios web en los motores de búsqueda como Google, Bing, Yahoo, entre otros.

El archivo Robots.txt se coloca en el directorio raíz del sitio web y proporciona instrucciones a estos robots sobre qué páginas o secciones del sitio web pueden o no pueden ser rastreadas o indexadas. Esto es crucial para el SEO ya que permite controlar cómo se indexa y se muestra el contenido del sitio en los resultados de búsqueda.

Es importante tener en cuenta que aunque el Robots.txt proporciona instrucciones a los motores de búsqueda, no todos los bots siguen estas instrucciones, las indicaciones que hacemos son sugerencias, no directivas.

Directivas Robots.txt

User-Agent

En el contexto del archivo Robots.txt, los User Agents (Agentes de Usuario) se utilizan para especificar directivas de rastreo y indexación específicas para diferentes tipos de bots o rastreadores web. Cuando un bot de un motor de búsqueda o cualquier otro rastreador web accede al archivo Robots.txt en la raíz de un sitio web, busca directivas específicas para su User Agent particular.

Por ejemplo, supongamos que quieres permitir que Google rastree todo tu sitio web, pero deseas bloquear el acceso a un directorio llamado «pruebas» para todos los bots. En tu archivo Robots.txt, podrías escribir algo así:

				
					User-agent: *
Disallow: /pruebas/
User-agent: Googlebot
Allow: /

				
			

En este caso, «User-agent: Googlebot» se aplica específicamente al bot de Google. La directiva «Allow: /» indica que se permite el acceso a todas las páginas del sitio web para ese bot. 

Por tanto, aunque en la primera línea se limite el acceso a la carpeta /pruebas/ a todos los bots, debido a las dos últimas líneas donde se específica que a Google bot concretamente se le permite acceder a todo el site, sólo este bot podrá acceder a la carpeta /pruebas/

Disallow

Esta directiva se utiliza para indicar a los robots de los motores de búsqueda qué partes del sitio web no deben ser rastreadas ni indexadas. Se especifica el camino relativo de las URL que se desean bloquear. Por ejemplo, si quieres evitar que los motores de búsqueda indexen una carpeta llamada «pruebas» en tu sitio web, puedes usar la siguiente directiva en el archivo Robots.txt:

				
					Disallow: /pruebas/

				
			

Esto le indica a los robots que no deben rastrear ninguna página dentro de la carpeta «pruebas».

Allow

Aunque no es tan comúnmente utilizado como Disallow, la directiva Allow se emplea para permitir el acceso a ciertas URL o directorios dentro del sitio web que de otro modo serían bloqueados por una regla Disallow más general. Por ejemplo, si bloqueaste el acceso a toda una carpeta con Disallow, pero deseas permitir el acceso a una página específica dentro de esa carpeta, puedes usar Allow. Por ejemplo:

				
					Disallow: /pruebas/
Allow: /pruebas/ejemplo.html

				
			

Esto le dice a los robots que no rastreen ninguna página dentro de la carpeta «pruebas», excepto la página específica «ejemplo.html».

Estas directivas son esenciales para el control de cómo los motores de búsqueda indexan y muestran el contenido de un sitio web en los resultados de búsqueda. Al utilizar Disallow y Allow de manera efectiva en el archivo Robots.txt, los webmasters pueden influir en qué partes de su sitio web son visibles para los motores de búsqueda y, por lo tanto, para los usuarios que realizan búsquedas en línea.

Este sería un ejemplo de un archivo Robots.txt completo: 

				
					User-agent: *
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/*
Allow: *.js*
Allow: *.css*
Allow: *.js
Allow: *.css
Disallow: /?page_id=*
Disallow: /?p=*
Disallow: /?s=*
Disallow: /wp-admin/
Disallow: /cgi-bin
Disallow: /*/attachment/
Disallow: /tag/*/page/

Sitemap: https://soycarlosgonzalez.com/sitemap_index.xml

				
			

Importancia del Robots en el SEO

El archivo Robots.txt es crucial para el SEO porque ayuda a controlar cómo los motores de búsqueda indexan y acceden al contenido de un sitio web (Este archivo gana más relevancia cuanto más grande sea la web). Aquí hay algunas razones por las cuales el archivo Robots.txt es importante para el SEO:

  1. Control de rastreo: El archivo Robots.txt permite a los propietarios de sitios web indicar a los motores de búsqueda qué áreas del sitio web pueden rastrear y qué áreas deben evitar. Esto es esencial para garantizar que el contenido relevante se indexe adecuadamente mientras se evita que se indexen páginas no deseadas, como páginas de administración, páginas de inicio de sesión, etc.

  2. Evitar contenido duplicado: Al excluir ciertas secciones del sitio web del rastreo con el archivo Robots.txt, se puede evitar la indexación de contenido duplicado. Esto es importante porque el contenido duplicado puede afectar negativamente el ranking del sitio en los motores de búsqueda.

  3. Optimización del presupuesto de rastreo: Los motores de búsqueda asignan un presupuesto de rastreo a cada sitio web. Al utilizar el archivo Robots.txt para indicar qué partes del sitio son prioritarias para el rastreo, se puede optimizar este presupuesto para garantizar que las páginas más importantes se rastreen con mayor frecuencia.

  4. Protección de información confidencial: Al bloquear el acceso a ciertas áreas del sitio web que contienen información confidencial, como archivos de datos sensibles o áreas de administración, se puede proteger la seguridad y la privacidad del sitio.

  5. Mejora de la experiencia del usuario: Al controlar qué partes del sitio web son indexadas y mostradas en los resultados de búsqueda, se puede mejorar la experiencia del usuario al dirigirlos hacia el contenido más relevante y útil.

Consejos para Optimizar el Robots.txt

  1. Identifica y prioriza el contenido importante: Antes de crear o modificar tu archivo Robots.txt, identifica las partes más importantes de tu sitio web que deseas que los motores de búsqueda indexen. Prioriza estas secciones para asegurarte de que reciban la mayor atención de rastreo.

  2. Utiliza comentarios para mayor claridad: Incluye comentarios en tu archivo Robots.txt para explicar tus directivas y facilitar la comprensión de otros desarrolladores que puedan trabajar en el sitio en el futuro. Los comentarios también pueden ser útiles para recordar por qué ciertas páginas o secciones están bloqueadas o permitidas.

  3. Evita el bloqueo de contenido importante: Asegúrate de no bloquear accidentalmente contenido importante que deseas que se indexe. Revisa cuidadosamente tus directivas Disallow para asegurarte de que no estás excluyendo páginas cruciales para tu SEO.

  4. Maneja el contenido duplicado: Utiliza el archivo Robots.txt junto con otras técnicas, como redireccionamientos 301 y etiquetas canonicales, para manejar el contenido duplicado de manera efectiva. Esto ayuda a consolidar la autoridad de la página y evita que los motores de búsqueda se confundan sobre qué versión de la página indexar.

  5. Mantén tu archivo actualizado: Revisa y actualiza regularmente tu archivo Robots.txt para reflejar cambios en la estructura de tu sitio web. Esto es especialmente importante después de rediseños, cambios en la arquitectura del sitio o la adición de nuevas secciones.

  6. Prueba tus directivas: Antes de implementar cambios importantes en tu archivo Robots.txt, pruébalos utilizando herramientas de prueba como Google Search Console o herramientas en línea de verificación de Robots.txt para asegurarte de que estén funcionando según lo previsto.

Conclusiones y Recomendaciones Finales

El archivo robots.txt es un elemento clave en la optimización de sitios web para los motores de búsqueda. Al utilizar el archivo robots.txt de manera efectiva, puedes controlar el acceso de los motores de búsqueda a tu sitio web y mejorar su visibilidad y clasificación en los resultados de búsqueda.

Fuente: Centro de la búsqueda de Google

Fuente 2: Escribir y enviar Robots.txt