Cat de departe ajunge amprenta noastra digitala? Suntem constienti de urmele lasate de participarea noastra la retelele sociale si de orice continut pe care il incarcam intr-un loc accesibil — sau nu atat de accesibil — pe internet.
Dar contributiile pe care le aducem in acele forumuri merg catre galerie. Modulam continutul acestora tinand cont de o idee aproximativa despre cine le va vedea si despre imaginea pe care vrem sa o oferim. Platformele de mesagerie instantanee, precum WhatsApp, sunt o alta problema: „In mesajele private dezvaluiti mai multe despre dvs., nu numai in continut, ci si in modul in care folositi limbajul”, explica Timo Koch, cercetator la Departamentul de Psihologie al Universitatii. din Munchen.
Dupa ce au analizat un set de peste 300.000 de mesaje WhatsApp si au antrenat un algoritm capabil sa recunoasca varsta si sexul autorilor lor, Koch si echipa sa avertizeaza ca experimentul evidentiaza importanta pastrarii confidentialitatii in aceste spatii. „Criptarea end-to-end este un prim pas important. Dar in afara de asta trebuie sa fim informati si ca platformele sunt transparente si adauga etichete atunci cand informatia nu este criptata”, motiveaza expertul.
Preocuparile lui Koch si ale echipei sale sunt alimentate de tendinta retelelor sociale de a favoriza tot mai mult utilizarea spatiilor private de mesagerie. „Facebook isi schimba atentia asupra acestor conversatii si probabil ca vor sa foloseasca datele, asa ca trebuie sa avem o conversatie despre cum vrem sa protejam aceste mesaje si sa ne asiguram ca, daca sunt etichetate ca private, chiar sunt.”
Cate mesaje sunt necesare pentru a ne identifica? Depinde de ce parte a procesului luam in considerare. Koch si echipa sa si-au bazat algoritmul pe continutul What’s up, Deutschland?, un corpus de 451.938 de conversatii WhatsApp furnizate de 495 de voluntari germani. Dupa filtrarea cazurilor in care varsta si sexul nu au fost furnizate si schimburile au fost prea scurte, au ramas cu 226 de subiecte, 309.229 de mesaje, 1.949.518 de cuvinte.
Studii similare care au folosit retelele sociale ca sursa de continut si-au bazat analizele pe esantioane mari de text de zeci de milioane de cuvinte contribuite de zeci de mii de voluntari. Neajunsurile in ceea ce priveste volumul informatiei sunt insa neutralizate de calitatea acesteia si de modul mai intim in care ne exprimam in aceste medii. „Faptul ca avem un set de date atat de mic si ca predictiile noastre functioneaza ne ofera un indiciu despre cat de mult s-ar putea face. Rezultatele noastre ar trebui considerate minime”, spun ei.
Odata ce algoritmul a fost antrenat, un esantion de aproximativ 1.000 de cuvinte este suficient pentru a obtine o clasificare de gen si varsta cu o precizie rezonabila. Pentru a evalua aceasta cifra, am facut un numar de cuvinte intr-o conversatie moderat activa intre doua persoane: trei zile de dialog lasa in urma putin peste 1.000 de cuvinte. In ciuda tuturor, cercetatorii recunosc ca, cu o baza de date mai mare, potentialul analizei ar fi mult mai mare. „Daca ne gandim la analiza personalitatii sau la alte caracteristici, am avea nevoie de mai multe informatii pentru ca exista diferente mai subtile”, spune Koch. „Cand ai un model bun, a face o predictie este o chestiune de mai putin de doua secunde.”
Spune-mi cine esti si iti voi spune cum era
Aceasta identificare este posibila deoarece modul nostru de a ne exprima pe WhatsApp raspunde tiparelor demografice. Conform continutului din What’s up, Deutschland?, utilizatorii mai tineri folosesc mai multe emoji-uri si se exprima la persoana intai mai des. Aceasta caracteristica, care a fost deja apreciata in studiul continutului postat pe alte platforme, pare sa confirme ca devenim mai putin individualisti odata cu varsta.
Cand vine vorba de gen, Koch si echipa ei au descoperit o utilizare mai mare si mai variata a emoji-urilor la femei, care folosesc, de asemenea, mai mult pronumele la persoana intai singular. In cazul barbatilor, se remarca folosirea unui limbaj mai colocvial si o frecventa mai mare a referintelor la consumul de alcool.
Koch nu exclude ca au existat mici evolutii in modul in care ne exprimam pe aceste forumuri. Nu degeaba, continutul setului de date pe care l-au folosit pentru studiul lor a fost compilat intre noiembrie 2014 si ianuarie 2015. Formate precum autocolante, care au fost incorporate in 2018 —desi erau deja in alte aplicatii, precum Line—, sau accesul direct la gif-uri ar fi putut introduce anumite variatii.
Dar accesarea unui corpus mai larg si actualizat nu este usoara, cel putin din mediul academic. „O mare tehnologie are acces la mult mai multe date”, spune el. Surse de informatii mai bogate si mai recente ar permite, de exemplu, sa efectuam analize mai complexe ale personalitatii utilizatorilor sau sa studiem modul in care modul in care suntem sinceri prin mesajele private variaza in contrast cu ceea ce impartasim din retelele sociale din diferite culturi. si contexte nationale.
O alta limitare care apare in afara tarilor vorbitoare de engleza este limba. Dominanta limbii engleze in dezvoltarea sistemelor de procesare a limbii implica faptul ca majoritatea instrumentelor disponibile sunt in aceasta limba. „A trebuit sa ne antrenam propriile modele. Fiecare limba este diferita si are propriile semne”, spune Koch.
Privind la urechile lupului, ar trebui sa masuram mai mult sinceritatea conversatiilor pe care le avem in aplicatiile de mesagerie privata? Pentru Koch, in acest moment, depinde de cat de multa pondere acordam intimitatii fata de confort. „Exista cateva alternative bune, cum ar fi Signal, care este, de asemenea, criptat si nu are in spate o corporatie care sa aiba un interes sa profite de pe urma informatiilor”, spune el.