(articolo fortemente modificato il 24/03/08)
(l’articolo ha raggiunto uno dei suoi scopi ad agosto, come aggirare google)
Tim, il creatore del web, nell’intervista “Web creator rejects net tracking” ha spiegato perché la profilazione è un rischio per gli utenti. La cosa bella è che Tim è molto più autorevole di me (la finaccia fantasma), degli ippoliti (luci e ombre di google) e di un eroe di nome Daniel Brandt (google-watch). Ma basterà l’autorevolezza del Creatore ? Il problema di cui parla è difficile da comunicare, molto di più di altri problemi di privacy come l’intercettazione o il furto del portatile. Perchè ? Noi ci esponiamo su Internet riflettendo sull’importanza dei dati che diamo nel singolo “invio” (il nome e il cognome, la carta di credito) ma non vediamo il significato dei dati che diamo in un arco di tempo maggiore.Ne risulta che l’intercettazione e furto sono molto più “concreti” come tipologia di perdita. L’user tracking/net tracking/user profiling non sono dati che ci possono essere sottratti, ma dati che comunichiamo per necessità e per leggerezza, e non hanno alcun valore se raccolti in un singolo momento, lo ottengono se collezionati per un lungo periodo.
La terminologia in gioco:
user profiling: nome e feature inventata da Microsoft affinchè tenere traccia del comportamento dell’utente, perché il suo sistema operativo (dell’utente o di MS ?) possa decidere cos’è meglio per lui.
profilo: insieme di dati che descrivono in modo quasi univoco una persona. di solito il profilo è fotografico. Ad esempio il mio naso e i miei occhi sono caratteristici per definirmi in quanto volto differente da un altro; allo stesso modo, il mio profilo informatico (ricevo posta da certe persone che conosco solo io, cerco informazioni su argomenti che interessano solo a me) descrive il mio profilo utente Internet: il mio “volto” informatico.
user tracking: coppia di nomi più intuitiva di user profiling. Viene fatta da chi raccoglie dati in Internet al meglio delle proprie possibilità. Lo può realizzare chi intercetta il traffico (tutti quelli in mezzo che lo leggono), chi lo invia (il client, gli spyware fanno in parte anche questo) e chi lo riceve (il server, che non aspetta altro). Sono log molto più dettagliati. Quello che è differente da un semplice log è il “soggetto”. Un servizio di posta avrà come log quello che succede su di lui, e così il web. Un log di sistema avrà come soggetto il server, gli accessi, i crash, ecc… Quando il soggetto è l’utente, si tratta di user profiling. Ad esempio: L’utente si è collegato alle 18.45, dopo 10 secondi è passato sopra al banner con la tettona, dopo ha letto un email di Mr-X, non ha risposto. dopo 40 secondi ha cliccato sul link “meno tasse = più privatizzazione”, e dopo 20 minuti ha risposto all’email di Mr-X.
Alcuni dati è intuitivo che un server li sappia (contenuto email, provenienza del login, sequenza di click fatti), altri è meno intuitivo (passaggio del mouse, velocità di scrittura, click di link esterni) ma ajax, flash e http redirect hanno il loro subdolo impiego e possono fornire queste informazioni.
Un profilo è qualcosa che descrive la persona in un modo unico, ed una volta che il profilo è stilato, anche se l’utente dovesse anonimizzarsi, qualora il suo profilo ricomparirebbe composto la sua connessione anonima sarebbe plausibilmente riconducibile a quella riconoscibile precedente.
Ad esempio:
Mario all’inzio della sua carriera ha l’email <m.rossi@tim.it> con la quale si collega da casa. Scrive e-mail a varie persone, tra le quali: la madre, il capo, la ragazza. Questo fa generare un profilo di questo tipo:
- m.rossi <-> ragazza
- m.rossi <-> madre
- m.rossi <-> capo
chi sta raccogliendo i profili, non ha solo quello di m.rossi, ma anche:
- ragazza <-> amica1
- ragazza <-> amica2
- ragazza <-> m.rossi
e poi:
- madre <-> mailing list “suore di milingo”
- madre <-> m.rossi
per finire:
- capo <-> cliente1
- capo <-> cliente2
- capo <-> moglie del capo
- capo <-> m.rossi
Dopo 2 anni cambia qualcosa, e m.rossi inizia a capire l’importanza dell’anonimato e della riservatezza. Cambia la propria email in anon5466@autistici.org, e ci accede solo tramite TOR. Prima la sua email era riconducibile alla sua persona, ora no. Prima il suo IP era riconducibile alla connessione di casa sua, ora no. Ma è davvero anonimo ?
L’esistenza di un “profilo” fa in modo che, pur quando cambierà email, anon5466 non avrà contatti differenti da quelli che aveva mario prima, quindi:
- anon5466 <-> ragazza
- anon5466 <-> madre
- anon5466 <-> capo
E chi dovesse avere tutti i profili storati in un db, e stesse cercando la nuova email di m.rossi, quale difficoltà avrebbe a fare una query siffatta:
“cerca tutti gli utenti che comunicano con $ragazza, $madre, $capo (e gli altri, li possiamo pure ignorare, m.rossi era l’unico con quei 3)”
2 anni prima la query avrebbe risposto m.rossi, ora si voleva ritrovare m.rossi, e la query te lo ritrova: anon5466, m.rossi si credeva anonimo, ma il suo profilo sociale (o digitale ? o socio-digitale ?) l’ha seguito, rendendo la nuova mail riconducibile alla vecchia.
Questo è il problema che sento quando parlo di “profilazione”. Il fatto che la categorizzazione degli individui sia immorale/pregiudizievole/da regime/ecc… me ne può importare poco, ma il fatto che una volta stilato il mio profilo questo mi segua, mi inquieta di più.
La profilazione dove può essere effettuata ?
Ovunque gli utenti lascano delle tracce. L’esempio precedente riguarda la profilazione del solo mittente-destinatario email, ma il valore dei profili si sente quando può descrivere interessi, attitudini, ligua, legami, ecc… Quando i profili delle persone diventano il valore aggiunto, a chi li raccoglie importa averne tanti. E’ il motivo per cui le comunità online vengono lanciate e si diffuse con mezzi sempre alternativi, ma efficaci. Se agli utenti è necessario dare un motivo per essere attirati sulla comunità, sul portale, sul servizio, se ne crea uno con nuove caratteristiche, ma l’obiettivo è sempre lo stesso: la raccolta dei dati. Altrimenti con cosa ci pagherebbero la banda e i server ? Ecco che i grandi player dividono la ricerca e lo sviluppo in due sezioni: una di community/facciata/apparenza/offerta, l’altra di analisi/business sull’analisi dei meta-dati.
Quello che c’è da tenere a mente è: il profilo ti identifica, per interessi, per contatti, per provenienza della navigazione. Ogni dato può essere profilato, e più appariamo diversi al server più possibilità avrà di discriminarci in modo univoco.
La capacità di profilazione che hanno società come hotmail/yahoo!/google non le conosco, ma non bisogna fare l’errore di focalizzarsi verso una società specifica, andrebbe trovata una soluzione non dipendende dai singoli servizi.
Perchè i profili hanno valore ? dove vengono raccolti maggiormente ?
Ovunque una società crei un servizio gratuito e utile per gli utenti: webmail, motore di ricerca, asta online, pubblicazione e ricerca dei video, mailing list. Più profili completi = più banner cliccati, più veicolazione della navigazione. Tu hai il servizio gratuito e lei ha quello che vuole.
Quindi è meglio :) no ?
Fintanto il profilo serve per dare “consigli per gli acquisti” a te più consoni è solo un bene. Ma alcuni eventi degli ultimi tempi potrebbero darti risvolti differenti a questa visione.
Quali eventi ?
Lo scandalo Telecom Italia non è tanto il segno di corruzione e di abuso di potere, ma segno di un potere che prima era centralizzato ed ora è distribuito.
Quando l’unica rete di telecomunicazioni era statale (la SIP), lo stato aveva la tecnologia e la possibilità fisica di effettuare intercettazioni. E solo lui le aveva entrambe. Ora che la rete è Internet, la tecnologia per effettuare intercettazioni l’hanno tutti (sono tecnologie aperte!) e la possibilità fisica l’ha chiunque abbia acceso alla rete. Io alla mia rete casalinga e Telecom Italia a tutte le reti di sua competenza ed al traffico che vi transita (pure il mio). E così anche gli altri operatori. Ok, intercettare il traffico è illegale, allora come si ottiene il traffico da profilare ? Offrendo servizi gratuiti e facendo in modo che gli utenti navighino su di te, così i dati sono quelli che hai inviato tu a loro, loro non li hanno presi illecitamente. Per questo il valore di una community non dipende dal servizio offerto, ma dal numero di utenti attivi.
Ci deve essere la certezza da parte dell’utente che, quando si registra ad un servizio gratuito, i dati derivati dalle nostre navigazioni verranno collezionati ed analizzati, perchè è quello che sta pagando i server e la banda che consumiamo. Se poi non si ha idea del tipo di informazioni che ne possono essere derivati, quello stà purtroppo all’ignoranza statistica, alla non visione di insieme e ad altri problemi che un singolo è legittimo che abbia.
Ma sono fortemente convinto che visione di 2 anni di log del nostro comportamento ci farebbe capire cose su di noi che neppure noi sappiamo :)
Obiettivo da raggiungere:
Non potendo fidarci dei servizi gratuiti, ne della rete insicura, l’obiettivo è proteggerci a priori affinchè sia il più possibile difficile per i server creare un nostro profilo.
I due modi per impedire rendere meno facile la profilazione:
Il meno automatizzabile, e più di “stile”, stà nel tenere bene a mente quali informazioni e “parti di se” si espongono in rete con le stesse discriminanti. Ad esempio:
L’email vecna@hotmail.com la userò per l’instant messaging e basta. l’email cippaloppa@gmail.com la userò per orkut e per google e basta. l’email @tiscali.it la userò per lavoro e basta. Quando mi stancherò di una di queste realtà, distruggerò l’email corrispondene e non avrò lasciato dei legami con le altre mie facciate.
Altrimenti c’è una linea d’azione che non si basa sul “minimizzare” il singolo profilo, ma nel condividere le discriminanti di profilazione (un utente, un computer, un cookie) con altri, così da mescolare i profili. Quest’idea venne ispirandosi ai supermercati e rimane un esempio lampante :)
I maggiori supermercati usano dare tessere tramite le quali è possibile godere di sconti e collezionare punti. Questo causa una profilazione dell’utente da parte loro. Come ci si può rendere anonimi da quel punto di vista ? Di certo non cambiando tesserina periodicamente. Ogni tessera avrà il nostro profilo, perchè è così che siamo (m.rossi manda email a quelle 4 persone, e noi come utenti abbiamo delle tipologie di acquisto sempre differenti).
L’unico modo per modificare profilo è sporcarlo con acquisti non nostri. Ma questo è impossibile, perchè nessuno si metterebbe mai a comprare roba che non gli serve. Si può usare una tessera che è stata usata, per un certo periodo, da un’altra persona. Così mescolerò il mio profilo al suo, creando un profilo nuovo.
Il modo migliore per organizzarlo sarebbe una cassa anonima di tessere. Quando un utente consegna la propria ne ritira una già messa ad un utente precedente. Così che periodicamente l’utente possa mescolare il proprio profilo con altri, continuando a godere degli sconti dei tesserati.
Trasportanto lo stesso concetto in forma digitale, troviao l’equivalente delle tesserine e l’equivalente del supermarket. Le tesserine sono qualunque cosa consentono il tracciamento via web: cookie, username/password, coppia IP+user agent, estensioni del browser, cache del browser. Il supermarket è una di quelle grandi società che offrono servizi gratuiti, e per un modo o per l’altro il loro dominio rientra nella mia navigazione, nelle mail e nell’instant messaging.
Inoltre approfondiamo il tutto con questo articolo, e poi vediamo quali soluzioni per ora sono state sviluppate.
Leggete l’articolo, è davvero importante :)
<ATTENZIONE>
NON SI DEVE PENSARE SOLO AI MOTORI DI RICERCA, NE’ VEDERE IN GMAIL/HOTMAIL/YAHOO! MAIL IL PROBLEMA. SEBBENE LE CONTROMISURE VENGONO SCRITTE IN FUNZIONE DI QUESTI PLAYER, IL PROBLEMA VA ANALIZZATO IN MODO PIU’ AMPIO.
</ATTENZIONE>
scroogle: motore di ricerca che proxa la ricerca verso google. Si tratta in sostanza di un google senza tracciamento. Il problema non è solo Google, ma tutti i motori di ricerca, e sarebbe utile, per dare raffronto e spunti ad usarne altri, che scroogle facesse da proxy anche su altri search engine, uno di questi 100 ad esempio :)
TrackMeNot: Inizialmente pensavo fosse una bella idea mal sviluppata, lasciandomi trascinare da titoli come: worst security tool ever, o altri. E invece poi è evoluto coprendo una serie di comportamenti importanti (le faq e le feature). Crea artificiosamente dei profili alterati di ricerca, così da fuorviare il profilo registrato.
GCookies: spiegato in questa mail, manda il cookie usato da un utente ad un server, e ne riceve un altro. il cookie in precedenza è appartenuto ad un altro, cosi che i profili possano mescolarsi. Funziona per google, con un server d’appoggio per lo scambio di cookie.
CustomizeGoogle: plugin per firefox in grado di pulire i cookie di google e mantenere le preferenze inalterate così da unire usabilità a riservatezza. Fa l’errore di considerare il cookie come unica discriminante per accumulare profilo, e ha un’interfaccia grafica notevole per delle feature minime. Se qualcuno volesse programmare una gui ed una pagina speciale di firefox dalla quale effettuare ricerche sicure potrebbe partire da questo codice, ma al momento non da grandi innovazioni.
Privoxy, http://www.privoxy.org Consente di cambiare l’user agent (fisso, con uagen lo si può generare automaticamente, e potrebbe essere migliorato), bloccare banner, filtrare cookie. Può essere messo su un proxy remoto o usato localmente. E’ uno strumento essenziale per qualunque progetto che mira a proteggere la navigazione dell’utente.
Cosa manca ?
Con NoScript si può impedire la profilazione tramite browser e tramite cache (richiede javascript). Manca un sistema di protezione per i servizi che richiedono l’autenticazione e probabilmente quello non potrà mai esistere, e per questo è ora di tornare a usare buone applicazioni sui client anzichè delegare tutti gli oneri a server :) Manca ancora un modo perchè l’informazione non sia centralizzata da un paio di motori di ricerca monopolisti, ma l’utente venga a contatto con le ricerche di altri motori (meno noti, e probabilmente peggiori di google, ok :) Manca il concetto che bisogna difendersi dalla profilazione e non da Google/Yahoo!, per quanto loro siano i due più grandi player (le statistiche mettono google al 5 posto, ma nel bene e nel male ormai è il riferimento collettivo). Manca la protezione verso servizi utili (mappe) che non richiedono l’autenticazione. Manca un sistema efficace per confondere le reti dei grandi player, che è in realtà molto più estesa del semplice dominio google.com, yahoo.com… se pensiamo a doubleclick, flickr, ebay, google-analytics, googlesyndication, ads, blogspot, youtube… E’ necessaria una visione di insieme di questi elementi, che con la loro imperterrita diffusione riescono ad essere presenti nella maggior parte delle connessioni web, con un referer; Questi log, in macchine dall’orario ben sincronizzato, consentono di stilare la sequenza di navigazione di troppe troppe pagine. pagine delle quali, i grandi player, conoscono i contenuti… avendoli indicizzati negli anni. Insomma: manca l’hack definitivo, che dovrà essere realizzato considerando ogni vantaggio che possono avere società di questa dimensione. (è anche possibile non esista questa soluzione, ma…)
March 26th, 2008 at 1:50 pm
Articolo interessantissimo. Per quanto riguarda i modi per rendere meno facile la profilazione, in particolare quello di utilizzare mail diverse per scopi diverse, domanda: vale anche per gli alias? vengono considerati come mail diverse tra di loro (anche se alla fine sono solo dei nomi diversi di un’unica mail)?
March 26th, 2008 at 3:57 pm
gli alias vengono visti come emai differenti (giustamente, sono mail differenti). ci sono alcuni siti (bastardi :) tipo linkedIn, nei quali, se tu ricevi un invito verso la tua email A, e sei iscritto con l’email B, aggiungono A, e poi gli aggiungeranno C e poi D. sta anche a chi sta attorno a te non diffondere i tuoi dati. un po’ come nelle catene di sant’antonio, dove qualcuno giustamente si puo’ incazzare che la propria email finisca tra una lista di “To:” perchè l’amico spammer non conosce l’uso della “Bcc:” …
August 26th, 2008 at 3:26 pm
[…] fonte: http://www.delirandom.net/20080321/vecchi-attacchi-allanonimato-e-svisceramento-di-questa-occulta-pr… […]