Fran 馃悵 Brizzolis

hace 7 a帽os 路 9 min. de lectura 路 ~10 路

Blogging
>
Blog de Fran 馃悵
>
Web tracking: el negocio de la red

Web tracking: el negocio de la red


Online tracking consumes a

quarter of your browser's effort.

26. C54

cet to fliliia
for your mr information

20.28%

3
[TXTA 9

facebook
18.84%


El valor de la recolecci贸n de datos y su an谩lisis, popularmente referido bajo t茅rminos como Big Data o Smart Data se ha convertido, sin lugar a dudas, en una poderosa herramienta que empieza a cobrar importancia en m煤ltiples aspectos de la sociedad moderna. As铆, sectores tan diversos como medios de comunicaci贸n, entornos de negocio y econ贸micos, sectores pol铆ticos e incluso de inteligencia militar se han visto involucrados, cuando no necesitados de contemplar en su operativa de trabajo esta importante estrategia de an谩lisis de datos.


Distintas motivaciones, mismo objetivo

La obtenci贸n y explotaci贸n de datos, tanto de fuentes p煤blicas, como los obtenidos por otros m茅todos de rastreo e identificaci贸n conocido como "tracking, son de gran utilidad para recopilar informaci贸n de usuarios de internet. Las motivaciones para hacerlo son m煤ltiples: la creaci贸n de perfiles de clientes y an谩lisis de comportamientos para mejorar estrategias ventas y mercado, la manipulaci贸n a medida de precios y publicidad seg煤n el origen del objetivo, la monetizaci贸n de la informaci贸n recopilada mediante su venta a terceros, el seguimiento de individuos o colectivos, estad铆sticas, etc.

Estas t茅cnicas son muy comunes de modo que ya a nadie sorprende, por ejemplo, la precisi贸n de anuncios de publicidad en nuestra navegaci贸n por internet o la variaci贸n de precios en compras online cuyo comportamiento ser谩 distinto dependiendo del p煤blico objetivo al que se dirige.

Para conseguir identificar, clasificar y recopilar la informaci贸n de los usuarios de internet se emplean diversos m茅todos y tecnolog铆as web que permiten recoger la suficiente informaci贸n como para tener perfectamente perfilado a un usuario y sus patrones de comportamiento.

Estos mecanismos son de uso generalizado e impactan de forma directa sobre la privacidad del usuario el cual, como veremos a continuaci贸n, no tiene una forma sencilla de evitar esta exposici贸n y proteger su anonimato.

En este art铆culo nos centraremos en "web tracking" en referencia a mecanismos de rastreo dirigidos a la identificaci贸n de dispositivos, navegadores y herramientas que utilizamos com煤nmente los usuarios de internet.


Web tracking e identificadores

Aunque no sean las 煤nicas, podemos citar las t茅cnicas m谩s empleadas para perfilar usuarios o dispositivos y que podr铆amos agrupar como sigue:

  • Identificadores de parte cliente (sesi贸n, cach茅, almacenamiento local)
  • Huella digital hardware/software
  • Otros m茅todos: patrones espec铆ficos de comportamiento, preferencias locales, inyecci贸n de cabeceras HTTP.


Identificadores en parte cliente

Dentro de esta categor铆a de identificadores encontramos ciertos elementos (datos, ficheros) que son almacenados localmente por los navegadores en diversas ubicaciones de la m谩quina cliente. Estos datos, ser谩n transmitidos a servidores web y utilizados para identificar al usuario y realizar las operaciones deseadas seg煤n su perfil.

La eliminaci贸n de los datos almacenados no siempre cuenta con un mecanismo autom谩tico o ya configurado lo cual, dificulta su eliminaci贸n y favorece su persistencia. El almacenamiento de los datos puede ser: almacenamiento local, de sesi贸n, o cach茅. Estos datos, en principio, contar谩n con una persistencia claramente definida.

Como veremos a continuaci贸n, los mecanismos de borrado de los datos de navegaci贸n no siempre son tan eficaces como podr铆a esperarse.


Identificadores de sesi贸n

Este tipo de identificadores se almacena de forma temporal mientras el usuario hace uso de navegador y persiste mientras dure la sesi贸n. Suele tratarse de elementos contenidos en la p谩gina como campos ocultos, propiedades DOM de la p谩gina o formularios web de autenticaci贸n expl铆citos que validan al usuario 煤nicamente durante una sesi贸n activa. A diferencia de las cookies, y otros m茅todos, estos identificadores no se almacenan y desaparecen al salir de la sesi贸n o p谩gina visitada. Este m茅todo es obsoleto y generalmente no es muy utilizado, sobre todo cuando existe la posibilidad de emplear cookies u otro tipo de almacenamiento con mayor persistencia.


Almacenamiento Cach茅

La cach茅 constituye un elemento muy a tener en cuenta desde el punto de la privacidad. Los navegadores web implementan una cach茅 que les permite obtener un mejor rendimiento a la hora de visualizar sitios previamente visitados, almacenando parte de su contenido como im谩genes o scripts. Es un tipo de almacenamiento muy com煤n y la persistencia de los datos almacenados depende directamente de la configuraci贸n empleada en el navegador y/o del borrado manual.

La persistencia de los elementos cacheados generalmente est谩 determinada mediante valores que son establecidos mediante cabeceras HTTP al visitar una web. Entre estas cabeceras encontramos:

Expires/max-age. Determina una fecha de caducidad de los datos los cuales se mantendr谩n hasta que se alcance esa fecha o se realice un purgado manual de la cach茅.

ETag. Esta cabecera etiqueta un contenido variable del sitio web y su valor indicar谩 al navegador cuando un recurso ha sido cambiado.

Last-Modified. Se emplea para notificar la fecha de la 煤ltima vez que el contenido web ha sufrido alguna modificaci贸n.

Estas cabeceras pueden ser aprovechadas para conseguir almacenar en el navegador cliente elementos diferenciadores con la persistencia deseada y as铆 tener un perfil asociado al usuario. Una prueba de concepto de esta idea la encontramos en Japitracing, un trabajo de M谩ster en Seguridad realizado en 2011 en la Universidad Europea de Madrid. En ese estudio se saca partido a las cabeceras HTTP para almacenar en la cach茅 del navegador c贸digo JavaScript y utilizarlo para rastrear geogr谩ficamente al usuario.


Datos y ficheros locales

Las cookies han sido y siguen siendo un mecanismo ampliamente utilizado para identificar y perfilar usuarios y as铆 poder mantener un hist贸rico de su navegaci贸n, preferencias y sesiones. Pueden almacenar hasta 4 KB de informaci贸n y su eliminaci贸n es sencilla, pero este borrado no siempre evita que el seguimiento de la informaci贸n persista o se reconstruya, como se describe a continuaci贸n.

Las aplicaciones de Adobe Flash almacenan datos en la parte cliente con un mecanismo hom贸logo a las cookies HTTP, y que se conoce como Local Shared Objects (LSO), los cuales cuentan con una capacidad de almacenamiento de hasta 100 KB. Este contenido puede ser accedido por todos los navegadores instalados ya que Adobe Flash comparte la misma ruta de localizaci贸n de archivos.

La tendencia es que los navegadores integren en la gesti贸n de cookies los elementos LSO Flash de modo que su eliminaci贸n suponga tambi茅n la eliminaci贸n de ficheros Flash. Sin embargo, existen t茅cnicas que utilizando c贸digo JavaScript son capaces de regenerar cookies HTTP borradas a partir del almacenamiento Flash (Evercookies).

An谩logamente los applets de Microsoft Silverlight, mantienen un almacenamiento de datos local conocido como Isolated Storage. Esta tecnolog铆a no depende de la gesti贸n de datos de navegaci贸n ni de la cach茅 del navegador siendo necesario un borrado manual de los ficheros. Esta caracter铆stica le confiere un alto grado de persistencia que puede ser aprovechada para la identificaci贸n del cliente web. Por otra parte, este almacenamiento puede ser compartido entre distintas instancias o ventanas del navegador.

HTML5 vino acompa帽ado de importantes funcionalidades, entre ellas una API (WebStorage) que incluye m贸dulos para gestionar el almacenamiento de datos con distintos grados de persistencia como Local storage (cach茅) o Session Storage (sesi贸n). Similarmente IndexedDB o File son otros ejemplos de API para almacenar ficheros y manejar bases de datos en el cliente, cuyo borrado requerir谩 intervenci贸n manual en la mayor铆a de las ocasiones

  • Cookies HTTP
  • Flash (cookies Flash)
  • Silverlight
  • HTML5
  • Java

Java asimismo tambi茅n dispone API la espec铆fica PersistenceService que proporciona m茅todos para almacenar datos locales en el cliente incluso para aplicaciones externas al entorno del navegador.


Otros m茅todos

  • HSTS

HSTS es un mecanismo de seguridad cuyo objetivo es forzar que la conexi贸n a un dominio concreto se realice 煤nicamente bajo HTTPS. Para ello el navegador almacena un listado de sitios registrados inicialmente y posteriormente, va a帽adiendo nuevos bajo demanda a trav茅s de cabeceras HTTP. Una vez se almacena un registro HSTS, 茅ste ser谩 permanente hasta que caduque y no servir谩 para nada borrar cookies, cach茅 o ficheros temporales. 脷nicamente podr谩 ser borrado desde opciones avanzadas del navegador de forma no trivial. Sacando partido de este mecanismo es posible generar registros HSTS en el navegador del usuario y as铆 crear un conjunto identificador al que se ha dado en denominar, de modo quiz谩s inapropiado, supercookies HSTS.

Puede realizarse un test de prueba en el siguiente enlace: http://www.radicalresearch.co.uk/lab/hstssupercookies

Como podemos ver HSTS, independientemente de su misi贸n original, ha pasado a convertirse en una herramienta que puede utilizarse para obtener informaci贸n que compromete la privacidad del usuario. De este modo, podr铆a obtenerse incluso el hist贸rico de navegaci贸n, tal y como se ha demostrado en un trabajo presentado en la conferencia de seguridad ToorCon de San Diego de 2015. En una prueba de concepto denominada Sniffly se demuestra c贸mo, a trav茅s de solicitudes HSTS y analizando el tiempo de respuesta del navegador (que depender谩 de si tiene o no el registro almacenado) es posible inferir los sitios visitados por el usuario.


Huella digital software/hardware

Las t茅cnicas basadas en huella digital utilizan elementos diferenciadores en el hardware o el software empleado por el usuario. Para ello y mediante JavaScript, Flash, Java y otras tecnolog铆as web se recopilar谩 informaci贸n que har谩 posible crear una "huella digital" que lo identifique con bastante precisi贸n.


Huella digital de navegador

La iniciativa Panopticlick de la fundaci贸n Electronic Frontier Foundation (EFF), implement贸 una prueba de concepto para demostrar c贸mo de particular era un cliente web en el momento de acceder a la web. A trav茅s de un algoritmo que recoge informaci贸n trav茅s de peticiones HTTP y AJAX sobre los plugins instalados, la resoluci贸n de pantalla, fuentes, zona horaria, cookies y objetos flash, determina una huella digital que permite diferenciar a un cliente web entre millones. Para navegadores que tengan java y flash activado afirman que el grado de fiabilidad a la hora de la identificaci贸n se sit煤a en torno al 95%. Esta informaci贸n demuestra el grado de precisi贸n con que se puede construir una huella que determine la identidad de un navegador/dispositivo concreto.


Huella digital HTML5 canvas

La huella canvas es una de los m茅todos m谩s recientes que se est谩n utilizando para la identificaci贸n de dispositivos seg煤n las caracter铆sticas de su hardware. Se hacer uso de la tecnolog铆a WebGL de generaci贸n de gr谩ficos para generar una imagen en un elemento HTML <canvas> en el cliente. Esta imagen, seg煤n se deduce del estudio "Pixel Perfect: Fingerprinting Canvas in HMTL5" depende directamente del hardware y tiene un grado de entrop铆a suficientemente alto como para crear una huella digital del equipo del usuario. Analizando las caracter铆sticas de los pixeles que conforman la imagen generada en el cliente web es posible obtener una huella identificativa con alto grado de precisi贸n.


Huellas de red y geolocalizaci贸n

La direcci贸n IP del dispositivo o de la red en la que se encuentra es otro de los datos habituales que se utilizan para tratar de identificar usuarios a trav茅s de diversas t茅cnicas, entre ellas el an谩lisis de tr谩fico, cabeceras HTTP o el empleo de Java, Flash, JavaScript o HTML5. Datos de proxy intermedios tambi茅n pueden aportar informaci贸n o incluso puede ser posible obtener la direcci贸n IP de la red privada del cliente, por ejemplo, empleando API JavaScript proporcionada por WebRTC, un proyecto libre para dotar facilidades de comunicaciones en tiempo real a los navegadores.

La geolocalizaci贸n tambi茅n es otro de los datos extra铆dos y utilizados para el perfilado e identificaci贸n. Para ello, se consulta la direcci贸n en bases de datos p煤blicas o bien se emplea la API Geolocation, de HTML5. No obstante, la geolocalizaci贸n es un dato que no cuenta con la suficiente precisi贸n y que se ve afectado por circunstancias como la utilizaci贸n de VPN o el uso de red Tor, que falsear铆an el origen real.


Marcadores dependientes de las preferencias y comportamiento

Existen caracter铆sticas que van unidas al comportamiento habitual del usuario y que por tanto no est谩n atadas a un dispositivo concreto. Estos datos son 煤tiles para identificar un perfil de usuario que est茅 haciendo uso del dispositivo. Entre esta informaci贸n se encuentra:

  • Lenguaje preferido, codificaci贸n de caracteres, y zona horaria.
  • Datos en cach茅 y en el hist贸rico de navegaci贸n.

Es interesante destacar que la informaci贸n de cach茅 e hist贸rico de navegaci贸n puede obtenerse con cierta colaboraci贸n del usuario, como se describe en el estudio llevado a cabo en colaboraci贸n con Microsoft: I Still Know What You Visited Last Summer. En este estudio se describen varias t茅cnicas, destacando la utilizaci贸n de los distintos colores que utiliza un navegador para diferenciar enlaces visitados o no visitados y as铆, camuflarlos en im谩genes, captchas u otros elementos interactivos de la p谩gina para determinar si el usuario los ha visitado o no.

Otra aproximaci贸n m谩s sencilla para acceder al hist贸rico del navegador y que no necesita interacci贸n con el usuario es la ya referenciada Sniffy, donde se saca partido a la tecnolog铆a HSTS.


Inyecci贸n de cabeceras HTTP

El asunto de la inyecci贸n de cabeceras HTTP ya tuvo su repercusi贸n en 2014 cuando se public贸 que Verizon, una operadora de telecomunicaciones americana estaba a帽adiendo cabeceras con marcadores al tr谩fico HTTP de sus clientes, con objeto de crear un identificador para cada uno de ellos. Esta circunstancia se bautiz贸 como "permacookies".

Por otro lado, y m谩s recientemente, se public贸 por parte de la iniciativa acessnow.org el estudio: The Rise of Mobile TrackingHeaders: How Telcos Around the World Are Threatening Your Privacy donde se detalla esta misma estrategia de identificaci贸n en dispositivos m贸viles empleada por operadoras de telefon铆a. Ante este tipo de acciones poco se puede hacer, puesto que es imposible controlar el tr谩fico una vez ha abandonado nuestro terminal m贸vil y est谩 en mano del operador.


Persistencia de elementos identificadores

Podr铆a pensarse que, utilizando navegaci贸n privada, y limpiando frecuentemente los datos de navegaci贸n, cach茅 y cookies se eliminar铆a cualquier elemento de identificaci贸n o rastreo. 驴Es esto as铆?: no siempre, de hecho, casi nunca. Tenemos desde elementos que se borran 煤nicamente con cerrar el navegador hasta elementos sobre los que no podemos actuar, como las huellas digitales o la inyecci贸n de cabeceras, pasando por elementos que persisten y/o se regeneran tras eliminar completamente los datos de navegaci贸n.

En la siguiente tabla se recogen las principales tecnolog铆as empleadas para identificar usuarios y su persistencia al borrado.


Defensa contra la identificaci贸n y rastreo

驴Podemos hacer algo para evitar ser clasificados en nuestro uso cotidiano de internet? Como decimos no demasiado. Las tecnolog铆as web actuales utilizan JavaScript, Flash, Java y cookies casi en cualquier sitio, y cuentan con capacidades de persistencia que suelen superar los mecanismos b谩sicos de limpieza de los navegadores. La navegaci贸n privada no supone una gran mejora, al igual que otras opciones como Do not track que incorporan algunos navegadores. A pesar de todo siempre es recomendable como primer paso para proteger nuestra privacidad, realizar un vaciado completo de ficheros y contenidos de navegaci贸n tras cada uso del navegador.

Para ir m谩s lejos en la protecci贸n de nuestra privacidad podemos desactivar todas las tecnolog铆as ya mencionadas (Java, Flash, JavaScript, etc.) e impedir la ejecuci贸n de plugins y scripts en el navegador, pero esto, generalmente, hace que la experiencia de uso de internet se degrade de forma considerable. Como medida alternativa pueden utilizarse herramientas como uBlock Origin (Chrome, Firefox) para bloquear dominios y/o p谩ginas de anuncios, bloqueadores de JavaScript como NoScript (Firefox) o ScriptSafe (Chrome), plugins para detectar canvas fingerprinting como CanvasFingerprintBLock, e incluso si solemos comprar por internet, utilizar alguna de las herramientas dise帽adas para detectar manipulaci贸n de precios como la ya mencionada, $heriff.

Finalmente, y adoptando una posici贸n m谩s estricta en busca de una mayor privacidad, se podr铆a hacer uso de navegadores especialmente dise帽ados para este objetivo como, por ejemplo, Tor browser

La disminuci贸n involuntaria de privacidad al utilizar internet poco a poco va calando en la conciencia social y, en general, empieza a despertar claro inter茅s. Un ejemplo de ello es el reciente caso sucedido en B茅lgica con la solicitud judicial a Facebook para detener el rastreo de usuarios que visitan su p谩gina.



Comentarios

Art铆culos de Fran 馃悵 Brizzolis

Ver blog
hace 5 a帽os 路 3 min. de lectura

隆Hola abejas!... Aqu铆 sigo intentando recuperar el ritmo, y como siempre recopilando informaci贸n que ...

hace 5 a帽os 路 10 min. de lectura

隆Hola abejas!... Hoy os traigo un post sobre una de las tendencias de mayor crecimiento en los 煤ltim ...

hace 5 a帽os 路 3 min. de lectura

El programa 路 Pegasus, fue creado por la firma NSO Group para espiar exclusivamente a bandas crimina ...

Puede que te interesen estos puestos de trabajo


  • Cronoshare Ja茅n (Ja茅n), Espa帽a

    Necesito un servicio de Dise帽o web para empresas con las siguientes caracter铆sticas:驴Qu茅 se solicita realizar? 路 Crear un nuevo sitio web 路 驴Qu茅 tipo de sitio web tiene / le gustar铆a tener? 路 De un negocio 路 Plataforma de sitio web preferida 路 Lo que recomiende el dise帽ador web 路 ...


  • Cronoshare Barcelona (Barcelona), Espa帽a

    Necesito un servicio de Desarrollo de P谩ginas Web con las siguientes caracter铆sticas:驴Qu茅 se solicita realizar? 路 Renovaci贸n de una p谩gina web existente 路 驴Qu茅 tipo de sitio web tiene / le gustar铆a tener? 路 De un negocio 路 Plataforma de sitio web preferida 路 Wordpress 路 Opciones ...


  • Cronoshare L'Hospitalet de Llobregat (Barcelona), Espa帽a

    Necesito un servicio de Dise帽ador Web con las siguientes caracter铆sticas:驴Qu茅 tipo de trabajo hay que realizar? 路 Crear nuevo sitio web 路 驴Qu茅 tipo de sitio web tienes o quieres tener? 路 Negocio 路 Por favor, seleccione la plataforma de sitio web preferida 路 Lo que el dise帽ador we ...