Il problema della qualità dei dati nella social media analysis

  • 5 Marzo 2019
  • Scritto da: Maristella Matera e Riccardo Medana

di Maristella Matera e Riccardo Medana

Il problema della qualità dei dati nella social media analysis

Le API non si preoccupano della bontà dei dati e chiaramente le informazioni provenienti dalla fonte social si presentano ricche di problemi che intaccano la qualità complessiva di essi e in ultima analisi intaccano la qualità finale delle nostre analisi.

Il problema della Data Quality è onnipresente quando si parla di dati e soprattutto quando questi sono in grande quantità, ma nel mondo dei social network questo problema prende una piega abbastanza diversa.

Normalmente una bassa qualità dei dati è dovuta a errori d’immissione, campi vuoti ed errori di elaborazione, ma nel mondo social questi tre elementi non sono presenti per costruzione (su un profilo Facebook le informazioni di base sono necessarie e se non vengono fornite non si può utilizzare il servizio, quindi un livello minimo di completezza è assicurato), d’altro canto essa si presenta sotto nuove forme:

 

  • falsificazione volontaria di informazioni
  • applicativi automatici che generano traffico e dati sui social (bot)

 

Il primo punto è auto-esplicativo; le persone, soprattutto sui social, tendono a mentire su delle informazioni sensibili non controllabili e di poco interesse per il loro scopo (luogo, età, lavoro, istruzione, etc). Per le consuete analisi riguardanti i post e le pagine, per fortuna queste informazioni non sono di alcun rilievo, però basti pensare ad una analisi della distribuzione geografica o demografica rispetto ad un post o ad un interesse per capire quanto queste falsificazioni inficino pesantemente i risultati finali.

Il secondo punto è prerogativa unica del mondo social e da un paio di anni prende sempre più piede. Attualmente l’utilizzo di bot ha tre scopi precisi e distinti che ci permettono anche di darne una classificazione:

 

  • fan bot
  • spam bot
  • influencer bot

 

I primi sono i bot più semplici, ma rappresentano la maggioranza. Spesso fanpage di dimensioni ridotte sono portate ad acquistare like per vedere incrementate fanbase e network size per rendersi più visibili e alzare i loro guadagni. Queste pratiche sono molto diffuse soprattutto su Facebook tanto da creare di fatto un “mercato nero” dei like.

I secondi sono presenti in modo abbastanza capillare nelle pagine di forte rilevanza in tutti i social network in cui sia possibile commentare o rispondere in qualche modo a dei post o a delle pagine.

Gli spam bot lasciano dei messaggi, spesso contenenti link, che indirizzano ad altre pagine del social o a siti esterni. Di fatto, come dice il nome, lasciano dello spam nei vari commenti ai post e nelle varie risposte, in modo da pubblicizzare la pagina o il sito da cui sono stati creati/ingaggiati.

La terza categoria è meno diffusa delle altre due e difficilmente distinguibile e individuabile se il bot è ben programmato.

Gli influencer bot sono presenti sui maggiori social network e interferiscono con le metriche d’importanza per le pagine, rilasciando like casuali, commenti, spesso senza senso, o condividendo/retwittando più e più volte lo stesso contenuto.

Queste tre categorie concorrono a ridurre in certi casi in modo drastico ed evidente la qualità dei dati di nostro interesse, ma purtroppo sono ancora oggi di difficile individuazione e debellazione.

Un primo metodo per assicurarsi una buona accettabilità delle informazioni scaricate sta nell’individuare ed eliminare i dati maggiormente corrotti, generati da bot che sono facilmente visibili anche a occhio nudo, osservando determinati pattern nel dataset (centinaia di retweet identici dallo stesso utente, continui post con la presenza della stessa menzione, picchi molto anomali nelle metriche, etc ).

In Figura 8 si nota per esempio come vi sia una serie di RT identici, con la presenza di due menzioni e un link esterno, che si rivela non concernente al contesto, che “rimbalzano” tra vari utenti.

 

Figura 8- Esempio di retweet da parte di bot (Milano Fashion Week)

 

Osservando poi in Figura 9 il network creato da questi tweet, è possibile notare una grande quantità di tweet che presentano caratteristiche simili, quasi identiche, ai retweet precedenti. Grazie anche a conoscenza del dominio e archivi di bot conosciuti, gli utenti @amyboom90 e @brandymaclegit sono stati individuati come bot di tipologia spam e quindi si è potuto effettuare un raffinamento nel dataset.

 

 

Figura 9 – Mentions Network del dataset Milano Fashion Week e individuazione di bot

 

La piattaforma Bat Radar ha, nel corso del tempo, affinato la tecnologia per intercettare i bot e per smascherare vere e proprie frodi ai danni delle aziende.

Vuoi scoprire cosa possiamo fare per la  tua azienda? Scrivici oggi stesso a info-chiocciola-bat-radar.com

 

Bibliografia

Czernek – “Social Measurement Depends on Data Quantity and Quality”. MillwardBrown

Okalow – “Investigating Social Media’s Spam-bot Problem”. www.b2bnn.com

 

Lascia un commento

avatar
Shares