Actualmente Google lanzó la funcionalidad de comprobación de robots.txt en Google Search Console. Sin embargo, puede existir la pregunta de cuál es el beneficio de esta herramienta nueva.

¿Qué es el Robots.txt?

 

Vamos a empezar por el inicio, como bien afirma Google en su centro para desarrolladores, específicamente en este enlace https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=es, el archivo robots.txt representa una puerta de entrada para los crawlers por lo que mayoritariamente contiene indicaciones acerca de cómo debe rastrearse un determinado sitio; aun así, estas reglas no son absolutas ya que aunque exista la indicación de no ingresar a ciertas páginas, es muy probable que Google acceda a ellas e ciertos casos.

Por ejemplo, estos comandos se escriben de manera muy sencilla y están orientadas a excluir o permitir de manera muy práctica. En caso de que queramos bloquear todas las URLs de sitio debemos generar un archivo que proceda del blog de notas en caso de tener una computadora con Windows o del editor de texto en caso de tener una Mac, al guardarlo deberá tener la extensión TXT y el nombre Robots.

Así de esta manera sencilla podemos colocar permisos y exclusiones que afecten a la globalidad del las páginas. Por lo que debemos conocer las partes que conforman un archivo robots.

Tipos de crawlers y permisos

La primera parte está orientada a quiénes queremos que revisen nuestro sitio y quiénes no. Si queremos que entren todos los crawlers a todo el sitio colocamos la siguientes líneas

  • User-agent *. (Cualquier Agente ya sea Google, Bing, Duck guck go pueden entrar a todo el sitio)
  • Allow: / (Raíz del sitio bloquea todo el sitio)

Si queremos que nadie entre al sitio se debe colocar. No obstante, cabe mencionar que aunuqe este comando bloquea todos los crawlers el ADSbot debe mencionarse de manera explícita

  • User-agent *
  • Disallow: /
  • User-agent AdsBot-Google
  • Disallow: /

Si queremos bloquear por ejemplo el Chat GPT colocamos

  • User-agent: ChatGPT-User
  • Disallow: /

Para referir al sitemap simplemente se coloca la indicación

  • Sitemap: (URL del Sitemap= Dominio+Sitemap.xml)

Estas consideraciones son aplicables siempre y cuando se introduzca el archivo de manera manual a la raíz del sitio. Si estás usando algún CMS como WordPress, Shopify o alguna otra, siempre hay maneras de hacelo mediante plugins o por medio del administrador de carpetas si tienes acceso al hosting. Sin embargo, la mayoría de las veces no es necesario colocar este archivo de manera manual a menos que se quieran bloquear URLs de manera puntual.

Ejemplo de Robots.txt para WordPress

  • User-agent: * (Permite el acceso a todos los buscadores)
  • Disallow: /wp-admin/ (Restringe el acceso a la carpeta de administración)
  • Allow: /wp-admin/admin-ajax.php (Permite la lectura del contenido dinámico)
  • Sitemap: https://haaguilar.com/sitemap.xml (Declara la ubicación del Sitemap)

Detalles del funcionamiento del bloqueo de Google

 

El Robots no es definitivo

Aunque parezca que es un archivo absoluto, la realidad es que los buscadores deciden si siguen las reglas que impusiste o no, en alguna ocasiones aparecerá la leyenda indexado aún con la exclusión de Robots. Esto significa que en algunas ocasiones el buscador puede ignorar lo que se coloque siempre y cuando considere que la página es útil para el usuario. También si hay elementos contradictorios o el rastreador considera un tipo de sintaxis diferente puede ser que considere irrelevante las reglas o parcialemente aplicables y decida que puede meter al índice lo que considere necesario.

Bloqueo definitivo

Google considera que es más complicado bloquear una página si tiene un interlinkeado, ya que estas URLs pueden llegar a ser importantes debido a su interacción con el sitio. Así también, la única manera de bloquear definitivamente una URL es por medio de la metaetiqueta no index dentro del código de la misma.

Otras formas de bloquear al rastreador

La más eficiente es colocando una barrera que deba pasarse de cierta manera. Es decir, estableciendo un usuario y contraseña Google es incapaz de entrar al contenido del sitio ya que requiere de una autenticación. Por otro lado, hay estructuras que impiden el rastreo de las páginas, por ejemplo un home sin footer ni menús que contenga enlaces o cuyo contenido solo se pueda visualizar mediante un selector naturalmente estará bloqueado de Google.

Bloqueo por tecnología

Páginas creadas por medio de Ángular, Single Page Application y otras necesitan ajustes adicionales para colocar contenidos en Google ya que como dependen de la actividad del usuario los contenidos no siempre están disponibles o se generan por medio de URLs variables que se construyen a medida que el usuario navega es complicado indexar este tipo de páginas sin una estrategia adicional.

Recuerda que siempre que hagas un desarrollo de páginas web debes considerar contratar un consultor SEO porque la mayoría de las veces, las páginas suelen funcionar bien pero vender poco o nada.

 

× ¿Hablamos?