¿Cómo verificar que el Googlebot que rastrea mi web es el de Google?

Published in

Es muy habitual que cuando miremos los logs de nuestros sitios web, nos pongamos las manos a la cabeza y nos empecemos a preocupar. Es el caso de un gran amigo, Álvaro de iSocialWeb, que me comentaba esta mañana si sabía porque tenía miles de peticiones en su página wp-login.php (la página para hacer login al panel de administrador en WordPress). En su caso, tenía esa página bloqueada por robots.txt, así que seguro que no era Googlebot de Google, ya que se toman las reglas del robots.txt como una obligación.

Sus reglas en Robots.txt

Para entender porqué esto puede suceder, debemos primero entender cómo identificamos a Googlebot. En su caso tenía muchísimos eventos a esta URL:

Eventos a la URL wp-login.php

En el caso de Álvaro, usaba la herramienta Screaming Frog Log Analyzer, una herramienta muy potente que interpreta los logs y los agrupa para poder sacar conclusiones rápidamente.

Uno de los problemas de estas herramientas, es que no verifican que Googlebot, es el Googlebot de Google.

Cualquiera con un simple Screaming Frog Crawler puede simular que es Googlebot, y esa misma práctica la llevan a cabo muchos spammers para hacer ataques de fuerza bruta en WordPress, ya que la URL es siempre la misma.

Simular Googlebot con Screaming Frog

¿Qué podemos hacer para combatir este tipo de ataques?

Le comentaba a Álvaro, que primero debía ver si realmente se trataba de Googlebot. Para ello, podemos mirarlo de dos formas:

En su caso era claro, el rango de IPs no era el mismo.

Logs y IPs desde Screaming Frog Log Analyzer

Así pues, otro caso cerrado en el que tenemos que tomar medidas para que no nos pase esto.

Ejemplos de acciones a tomar:

  1. Mover la URL de wp-login.php a otra URL inventada, así no tenemos patrones típicos.
  2. Poner un limitador como por ejemplo Login Lockdown.

Caso solucionado.

¡Hasta pronto!

Update: Cómo verlo sin complicarse con Screaming Frog Log Analyzer

Gracias a MJ Cachón por explicarnos que Screaming Frog Log Analyzer tiene una columna en la que te marca si es un bot spoofed (falso). Lee más sobre esto en la nota de la versión 2.0.