Raspado: ¿Es bueno, malo o algo intermedio?

Se ha hablado mucho sobre el raspado de datos. Aquí hay un desglose de lo que es, por qué podría ser problemático y cómo podríamos lidiar con él en el futuro.

Para un ejemplo reciente de raspado abusivo de datos, no tenemos que retroceder demasiado en el tiempo: en abril de 2021, los investigadores descubrieron una base de datos que contenía los datos personales de más de 500 millones de usuarios de Facebook, que circulaba en foros de hackers. No mucho más tarde, surgieron informes de noticias similares sobre una fuente de datos de la base de datos de LinkedIn. El análisis de ambos incidentes mostró que los hackers ni siquiera necesitaban atacar los servidores de las plataformas de redes sociales para hacerse con los datos. Hicieron uso de un truco práctico llamado «raspado de datos». ¿Cómo funciona esta técnica y qué tan grande es el peligro del raspado de datos para los usuarios de Internet?

Raspado de pantalla y raspado web

El raspado de datos es esencialmente una forma de transferir datos de un sistema a otro. Pero difiere de los métodos de transferencia de datos más convencionales. La principal diferencia está en la salida. Los datos raspados no sirven como entrada para otro programa informático, sino que están destinados a mostrarse al usuario final. Por lo tanto, el raspado de datos es una técnica muy cruda que solo se utilizará cuando no haya otra forma de extraer datos de un sistema, como un sistema operativo que ya no es compatible con el hardware moderno. La salida a menudo es muy desestructurada porque cosas como el formato, los datos binarios y otra información adicional no se transfieren. Esto puede incluso hacer que los programas se bloqueen durante el raspado de datos.

Existen diferentes variantes técnicas dentro del raspado de datos. La forma más antigua es el raspado de pantalla. Con el raspado de pantalla, una herramienta especial se conecta a un sistema informático obsoleto. La herramienta de raspado se hace pasar por un usuario y simula los comandos clave para navegar por la interfaz del sistema. A continuación, la herramienta extrae los datos del sistema y los pasa al nuevo sistema. Este método de trabajo inspiró herramientas de automatización más modernas que funcionan sobre la misma base.

Además del raspado de pantalla, también existe el raspado web, que se utiliza para extraer datos de las páginas web. El principio es más o menos el mismo. Una vez más, generalmente necesita una herramienta de raspado para hacer que la página web crea que usted es un administrador web que va a modificar la página. La mayoría de los sitios web de hoy en día tienen algoritmos de seguridad incorporados para detectar tales herramientas y negarles el acceso. Por lo tanto, los incidentes de raspado a gran escala como los de Facebook son realmente muy raros, al menos hasta donde sabemos hasta ahora.

¿Peligroso o no?

El raspado de datos no es en sí mismo una práctica ilegal. Los proveedores de nube reconocidos como Amazon AWS ofrecen herramientas seguras de raspado web en forma de API gratuitas. Como cualquier programa de computadora, el raspado de datos solo se vuelve peligroso cuando las herramientas caen en las manos equivocadas. Como sucedió en Facebook, para referirse a ese incidente.

En el incidente de la imagen de datos raspados de Facebook, la base de datos contenía datos personales como números de teléfono y direcciones de correo electrónico. Si los ciberdelincuentes se apoderan de estos datos, pueden utilizarlos para el phishing y otros tipos de fraude. Por lo tanto, es cierto que el raspado de datos es inicialmente mucho menos intrusivo que piratear la cuenta de alguien y probablemente no se verá directamente afectado por un ataque de raspado. Pero a largo plazo, puede hacerlo más vulnerable a los ataques de phishing. La reciente fuga de datos raspados de LinkedIn parece menos intrusiva y mostró datos menos interesantes, sin embargo, cada tipo de datos siempre puede ser interesante para cada ciberdelincuente o hacker. El raspado de datos puede abrir la puerta a ataques de spear phishing; los hackers pueden aprender los nombres de los superiores, proyectos en curso, empresas u organizaciones de confianza, etc. Esencialmente, todo lo que un hacker podría necesitar para elaborar su mensaje para hacerlo plausible y provocar la respuesta correcta en sus víctimas.

¿Cómo protegerse del raspado?

Como usuario de un sitio web, básicamente no hay mucho que pueda hacer contra un ataque de raspado, excepto administrar cuidadosamente la información que comparte sobre usted en ese sitio web. Con Facebook como ejemplo, por lo tanto, haga una verificación de privacidad regular para averiguar qué comparte realmente o no. En última instancia, la responsabilidad radica en lo que compartes tú mismo. Y eso probablemente no siempre sea tan fácil mirando todos los problemas que vemos en estos días. Además, tenga en cuenta que los efectos que resultan de que alguien acceda a su información personal pueden no manifestarse durante mucho tiempo. En el momento en que alguien abusa de sus datos, es posible que ya haya olvidado que incluso los compartió con la red en algún momento.

Consejos para propietarios y creadores de sitios web

Debe tener en cuenta que todo lo que es visible y accesible en su sitio web para los visitantes humanos posiblemente también sea visible para los scrapingbots. También hay algunos trucos técnicos que se pueden aplicar para asegurar el contenido. Sin embargo, estos trucos a menudo tienen sus limitaciones. A menudo puede reconocer un intento de raspado por un gran número de solicitudes enviadas a su sitio web desde una sola dirección IP (que no debe confundirse con un ataque DDoS, que también se basa en esta técnica). A continuación, puede excluir esa dirección IP sospechosa. En otros casos, bloquear el contenido con los detalles de inicio de sesión puede ser de gran ayuda. El raspador luego tiene que exponer una parte de sí mismo para obtener acceso al contenido. Cambiar regularmente su HTML puede confundir a los raspadores hasta tal punto que raspan en otros lugares. La desventaja de esto es que este enfoque también puede llevar a la confusión entre sus propios desarrolladores web. El uso de CAPTCHA o muchos archivos multimedia también puede desalentar los intentos de raspado por parte de personas sospechosas. Los bots a veces se codifican para romper explícitamente patrones específicos de CAPTCHA o pueden emplear servicios de terceros que utilizan mano de obra humana para leer y responder en tiempo real a los desafíos de CAPTCHA. En el aspecto legal: las empresas deben tomar medidas contra los raspadores de datos y advertirles contra el proceso. Esto se puede incluir en los términos de servicio. Por supuesto, esto no hace nada en contra del raspado por sí solo, pero se puede usar durante las demandas.

Un vistazo al futuro

Diversos actores aprovechan los bots de raspado web, incluidos los competidores nefastos, los advenedizos de Internet, los ciberdelincuentes, los piratas informáticos y los spammers, para robar sin esfuerzo cualquier pieza de contenido que estén programados para encontrar y, a menudo, imitar el comportamiento regular del usuario, lo que los hace difíciles de detectar y aún más difíciles de bloquear. El raspado web representa un desafío crítico para la marca de un sitio web, puede amenazar las ventas y las conversiones, reducir las clasificaciones de SEO o socavar la integridad del contenido que tomó tiempo y recursos para producir. Pero hay un problema aún mayor detrás de esto, que radica en el crecimiento de los intentos de phishing o ataques de ransomware que podrían basarse en los datos robados y raspados de los usuarios del sitio web atacado. Esa es la razón por la que los diseñadores web y las empresas de redes sociales deberían pensar dos veces antes de usar las acciones necesarias contra este tipo de ataques en el futuro. Comprender la naturaleza intrusiva del peligro actual de raspado web no solo crea conciencia sobre este creciente desafío, sino que también permite a los propietarios de sitios web tomar medidas para proteger su propiedad y la privacidad de sus usuarios. Esperemos que todos lean este blog.

Enlace: Raspado: Riesgos, Peligros y algunos Consejos | G DATOS (gdatasoftware.com) Blog de G DATA Eddy Willems