Categorías
Uncategorized

Qué son los bots | Funcionamiento y protección

¿Qué son los bots en la web?

Daniel González

22/12/2022

Los bots en web también conocido como robots o rastreadores son software que escudriñan las páginas de las webs con varios objetivos, como pueden ser el indexar contenido en tu web para atraer clientes y subir peldaños en el posicionamiento de los navegadores, al estar su página referenciada desde muchas otras.

¿Cómo eligen los bots qué webs analizar?

Su patrón se basa en que a partir de un listado de urls de distintas webs conocidas, las van analizando y guardando los enlaces que encuentran para añadirlas a su listado. De esta forma si tu sitio web está siendo referenciada por otra que un bot está analizando, dará con la url de la referencia y se la guardará para posteriormente analizar tu web, mandarte mensajes si encuentra un formulario de correo, escribir comentarios en ella… por los motivos anteriormente dichos.

¿Cómo me protejo de los bots?


La manera más usada de protegerse ante bots es usar alguna clase de captcha. ¿Qué es un captcha? Para quien no los recuerde o no los hayan visto, son esas imágenes con letras garabateadas y difíciles de leer para demostrar que eras un humano.

Vale, si ahora lo recuerdas te estarás preguntando qué pasó con ellos, por qué no se usan ya… la respuesta es que a mucha gente le costaba bastante pasar esa barrera de seguridad o no quería pasarla directamente por lo que google desarrolló su versión llamada reCaptcha.

Versiones de reCaptcha

La primera versión de reCaptcha validaba que eras humano partir de palabras de proyectos de escaneo de textos que los ordenadores no podían identificar, ayudando de paso a estos.

La segunda versión, que creo que es la que todos mejor recordamos, era aquella donde te ponían una serie de imágenes y tenías que seleccionar las que tuvieran un coche, una moto… o una sola imagen donde tuvieras que clicar una parte, como la famosa del semáforo que hoy en día seguro que confunde a los nuevos usuarios de internet intentando averiguar si hay que seleccionar toda la estructura del semáforo o solo aquella que contiene las luces.

Por último y la más interesante, la tercera versión de recaptcha la cual por así decirlo es invisible. Se trata de algoritmos internos que comprueban si eres un humano a partir de unas migas de pan que dejamos los humanos como puede ser por las cookies activas, la IP, como te has desplazado hasta el botón que quieres pulsar… y en base a los datos que ha recogido te puntúa del 0 al 1, siendo 0 la detección de un bot y un 1 la de un humano. Normalmente y por consejo de Google los desarrolladores establecen que si no tienes una puntuación mínima de 0.7 se te trate como un bot.

¿Qué versión se debería de utilizar?

No recomendaría la primera versión porque ya está bastante obsoleta y resulta algo tediosa para los usuarios, ni tampoco la segunda versión que ya empieza a no ser eficaz ,ni siquiera al 80%, ya que gracias al avance en el software de estos bots ya son capaces de vez en cuando de identificar algunas imágenes para pasar la seguridad.

Respecto a la tercera versión, gracias a unas pruebas que hemos hecho durante un largo periodo de tiempo sabemos que hemos tenido 293 comprobaciones, de las cuales ningún bot ha conseguido pasar la seguridad de esta versión y como comentamos anteriormente no implica ningún esfuerzo por parte del usuario.

¿Todos los bots son malos?

No todos los robots son malos, hay algunos como el robot de google “Googlebot” que se encarga de analizar las webs tanto en su versión para escritorios y móviles.

Normalmente estos bots son respetuosos, pero si no quieres que rastreen tu sitio web basta con indicarlo en el archivo robots.txt y/o en la página en concreto que no quieres que analice con la regla noindex que se establece a con una etiqueta <meta> o un encabezado de respuesta HTTP.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.