Follower fake, bot, inattivi: l’importanza dei dati



Questo post ha piu' di sei mesi. Le informazioni contenute potrebbero non essere aggiornate: ultima modifica: 26.07.12

In questi giorni si è parlato molto di Twitter e di alcune ricerche sugli account di alcuni personaggi politici e dei loro follower fake e bot: a me interessa una sola cosa, i dati. Polemiche e teorie del complotto le lascio volentieri ad altri perché sono sicuro che avranno un sacco di cose divertenti da scrivere. La cosa più interessante per me è controllare: modificando una frase di Greimas “fuori dai numeri non c’è salvezza”. Ho quindi chiesto i dati sulla precedente analisi e sono andato a verificare.

Ipotesi di partenza

In questo caso più che validare un’ipotesi ero curioso di sapere cosa avrei trovato di diverso rispetto all’analisi sul mio account e se avrei trovato un margine d’errore più elevato rispetto a quanto riscontrato nell’analisi dei miei follower. Al momento questi dati non sono disponibili al pubblico: è possibile svolgere l’analisi sul nuovo set di dati scaricabili a questo indirizzo.

Analisi dei dati

In questo caso parliamo solamente dei dati emersi dalla prima analisi dei follower di Beppe Grillo.  Come avevo fatto in precedenza il mio interesse è soprattutto legato alla validità dell’algoritmo: mentre prima avevo potuto testarlo solo sul mio account, adesso ho fatto le cose un poco più in grande. L’idea originale era di controllare tutti e 20.000 gli account analizzati per vedere quanto un’analisi fatta da una persona si sarebbe discostata da quella fatta in automatico. Come prima cosa ho voluto seguire la procedura fatta l’altra volta: ho ordinato tutti gli account per punteggio BOT per avere davanti agli occhi la scena completa.

grafico totale follower grillo

Avendo però tempi piuttosto limitati ho dovuto rivedere la scelta iniziale: ho quindi deciso di analizzare solo gli account con il punteggio BOT più alto e verificare lo scostamento rispetto ad un’analisi umana. Per procedere  ho quindi suddiviso il campione iniziale in sezioni legate al rapporto tra punteggio umano e BOT. In modo da controllare ho analizzato uno per uno gli account per un totale di 7.657: sono quindi stati analizzati 268 account con un rapporto umano-BOT di 1-17, 4.474 con un rapporto 2-16, 1.354 con un rapporto 2-15, 1.561 con un rapporto 4-14. Dal momento che non sono riuscito a completare tutta la sezione 4-14 ho deciso di escluderla dall’analisi: le seguenti considerazioni quindi si basano sull’analisi di 6.096 account.

Fin dalle prime fasi dell’analisi ho ritenuto necessario aumentare il numero delle categorie suddividendo tra

  • Errori: valutazioni errate dell’algoritmo (utenti umani attivi)
  • Inattivi: account privi di qualunque update e di informazioni
  • SpamBot: programmi automatizzati della famiglia dei bot
  • Non più attivi: utenti che non hanno postato per un periodo superiore a 6 settimane

Questi sono i grafici di riepilogo per le varie categorie e i dati di dettaglio

1-17

grafico  1-17 account twitter

  • 1 errore
  • 260 inattivi
  • 3 spambot
  • 4 non più attivi

2-16

grafico  2-16 account twitter

  • 3 errori
  • 4.375 inattivi
  • 13 spambot
  • 83 non più attivi

3-15

grafico  3-15 account twitter
  • 9 errori
  • 1.172 inattivi
  • 13 spambot
  • 83 non più attivi

Somma delle tre classi

grafico riassuntivo account twitter

  • 13 errori
  • 5807 inattivi
  • 43 spambot
  • 233 non più attivi

Conclusioni

Uno dei primi elementi sulle quali soffermarsi sono le categorie utilizzate nell’analisi iniziale: human e BOT, da un lato utenti con un comportamento umano, dall’altra utenti con comportamento assimilabile a quello di un programma automatizzato. Anche se la distinzione è sostanzialmente corretta a mio avviso sarebbe più corretto distinguere tra account attivi e account inattivi e bot. Tuttavia ritengo la discussione sulle categorie poco proficua dal momento che le queste diventano obsolete nel momento in cui vengono create e non è possibile generare delle classi che rendano conto in maniera precisa e puntuale delle diversità (come mostrato da Porfirio). Durante l’analisi mi sono reso conto che anche le quattro da me utilizzate avrebbero potuto essere ampliate inserendo un ulteriore discrimine con “scarsamente attivo”, ma questo avrebbe richiesto di ricominciare l’analisi e sono altresì sicuro che nel proseguire dei controlli avrei trovato nuove categorie.

L’elemento più interessante sul quale concentrarsi è il margine d’errore dello 0.2% e le motivazioni di questo scostamento. Al momento dell’analisi da parte del tool (t=1) alcuni account erano appena stati aperti e quindi non avevano informazioni o update: al momento della mia analisi (t=2) avevano iniziato a twittare con regolarità. Tuttavia è mia opinione che se avessi condotto l’analisi a t=1 o il tool fosse stato usato a t=2 probabilmente i risultati sarebbero stati perfettamente sovrapponibili. Qualora venisse analizzato nuovamente lo stesso campione a t=3 potrebbe esserci un margine d’errore maggiore rispetto a quello da me riscontrato, ma ritengo sarebbe in ogni caso inferiore al 1%: anche se il tasso d’errore sembra crescere al diminuire del punteggio BOT ho riscontrato nelle classi superiori un numero d’errori inferiore dato che gli errori sono collegati principalmente agli account inattivi quindi con punteggio BOT elevato, ovviamente quest’ultima ipotesi è da verificare.

Da questo punto di vista sarebbe opportuno per migliorare la precisione dell’algoritmo o introdurre una variabile legata al tempo d’iscrizione dell’account o svolgere due analisi sullo stesso campione a t=1 e dopo un mese a t=2 in modo da analizzare la differenza o  selezionare il campione a t=1 e analizzarlo  a t=2. A mio avviso tra t=1 e t=2 deve intercorrere un tempo non inferiore a due settimane.

Uno degli aspetti a mio avviso più interessanti è stato osservare che molti degli account non più attivi mostravano come unici update mention nei confronti delle celebrità (come ad esempio Fiorello o analoghi) o semplici retweet dei contenuti legati a Beppe Grillo. Da questo punto di vista si vede come l’adozione da parte di alcuni testimonial sia stata una ragione per molti utenti per avvicinarsi alla piattaforma. Tuttavia le difficoltà d’uso (scrittura di messaggi di senso compiuto in 140 caratteri e creazione di una nuova rete sociale) hanno portato all’abbandono di molti di questi utenti (o semplicemente alla fine delle eventuali interazioni).

Da questo punto di vista si nota come le teorie sul foraging possano dare degli schemi di lettura interessanti e a mio avviso appropriati. Normalmente in natura i gruppi animali sono restii ad abbandonare il proprio territorio (patch o oasi) dal momento che  niente assicura che verrà trovata una patch migliore. Normalmente quindi si assiste o a spostamenti forzati (esaurimento o modifiche sostanziali dell’equilibrio all’interno della patch) o spostamenti relativamente brevi: si esplorano i territori circostanti ma si ritorna all’oasi più fertile ed abbondante. Data la facilità con la quale ci si può muovere online tra le varie patch informative è possibile assistere a spostamenti in sciami su nuove piattaforme sulla spinta di fattori esterni alle quali però segue un abbandono per tornare nella patch a noi più familiare e che viene percepita come più utile da un punto di vista informativo.

Per ottenere uno spostamento stabile è quindi necessario fare in modo che venga percepito immediatamente un maggior ricchezza informativa e una maggior semplicità d’uso all’interno del nuovo territorio (o piattaforma in questo caso). Tuttavia è molto difficile che le nuove piattaforme vengano percepite come migliori dal momento che sarà necessario ricreare tutta la nostra rete sociale: uno delle cause principali che spinge quindi verso nuovi territori, anche online, è il degrado dell’ambiente informativo.

In questo frangente ho inserito come categoria non tanto BOT ma semplicemente Spambot poiché sono i più facili da individuare in maniera certa. Non è infatti possibile a mio avviso capire con certezza se un account vuoto  è stato creato da un utente o se è stato creato da un programma automatizzato. Inoltre esistono anche BOT avanzati che simulano interazioni umane condividendo contenuti, utilizzando hashtag e interagendo all’interno della propria rete: fortunatamente il fenomeno non è molto esteso al momento ma è un fattore da tenere in considerazione in futuro.

Un elemento esterno ai risultati è la valutazione sull’acquisto o meno di follower e l’eventuale responsabilità per questo gesto. Questi due elementi sono strettamente collegati.

  • Normalmente per identificare l’eventuale acquisto si fa riferimento a eventuali picchi all’interno del diagramma di crescita. Tuttavia un eventuale picco può essere legato a investimenti pubblicitari: solo nel caso ci sia un salto a quattro cifre è probabile che sia avvenuta una crescita forzata. Tuttavia, anche se con 20 dollari si comprano 50.000 follower da un giorno all’altro, per cifre leggermente superiori, è possibile acquistare lo stesso numero di follower ma diluiti nel tempo in modo da simulare una crescita organica.
  • Uno dei problemi principali, a mio avviso, è che non è necessario essere i proprietari dell’account per acquistare follower: è possibile che qualcuno, a mia insaputa, decida di “regalarmi” 50.000 follower per poi insinuare che l’acquisto sia stato fatto dal proprietario dell’account. L’unico modo per far fronte a questa eventualità è tenere l’account lucchettato: una pratica tuttavia che non può essere intrapresa da aziende e personaggi pubblici.
  • Non è possibile distinguere tra utenti passivi che non personalizzano l’account e BOT: tuttavia è possibile correlare l’aumento improvviso di follower con un numero particolarmente elevato di account sospetti.
Inoltre la discussione sui finti follower o sui BOT non è particolarmente interessante a  mio avviso per una serie di ragioni:
  • anche guardando gli ultimi dati generali si vede che all’aumentare del numero generale di follower aumenta anche il numero di newbie, una cosa piuttosto nota (più è grande l’account maggiore è il numero di newbie che lo troveranno come suggested)
  • Una grande massa di utenti attira inesorabilmente un elevato numero di account fasulli (per scopi illeciti)
  • È qualcosa che ha un impatto solo sulla cosmesi dell’account ma che alla fine non porta a nessun risultato concreto nel business (per cui un eventuale cliente potrebbe accorgersene)
  • I Social Media non spostano i voti (per lo meno in questo momento in Italia e per alcuni anni ancora) e tutta questa discussione ha semplicemente rafforzato posizioni già definite

Considerazioni

Quanto può avere senso sapere quanti sono gli utenti attivi? Ha senso una misurazione di questo genere? Personalmente ho sia una risposta positiva che una negativa

Reach potenziale, reach probabile e reach verosimile

Una delle informazioni che spesso viene richiesta è l’esposizione del messaggio, quante persone hanno visto l’update definito in alcuni casi awareness o reach. Questi valori non sono particolarmente importanti o interessanti a mio avviso nel mondo dei social media (personalmente non li userei come KPI perché credo ci sia un bias nella visione classica del purchase funnel) ma possono avere una qualche utilità in alcuni frangenti.

Esistono vari strumenti che permettono di stimare l’esposizione dei propri messaggio su Twitter ma a mio avviso nessuno di questi è particolarmente affidabile: in alcuni casi si possono ottenere gli stessi risultati tirando alcuni D20. In alcuni casi, per stimare il reach, invece di usare strumenti automatizzati, si fanno operazioni sul numero dei follower.

La più banale semplicemente consiste nel moltiplicare il numero di update fatti per il numero di utenti che ci seguono: a mio avviso questo può essere definito come reach potenziale, ovvero il numero di persone che potrei raggiungere ipotizzando che tutti gli utenti che mi seguono siano veri e attivi nel momento in cui pubblico tutti gli update.

  • Reach potenziale

In alternativa potremmo invece usare il numero di utenti attivi (usando quindi il valore individuato sopra) e moltiplicare il numero di update per questo valore sempre assumendo come vero che siano online nel momento in cui pubblico i miei update: tenderei a definire questo come reach probabile dal momento che riduco in qualche modo l’incertezza epistemica.

  • Calcolo del Reach Probabile

Infine posso prendere il reach probabile e moltiplicarlo per una percentuale corrispondente al numero medio di utenti online all’ora:  tenderei a definire questo come reach verosimile (“certo” è una parola troppo grossa dato il numero di variabili in gioco). Personalmente uso come variabile parte dei risultati di tweriod legati all’account con il quale sto lavorando (si possono utilizzare valori assoluti ma a mio avviso la differenza tra i comportamenti degli utenti è troppo eterogenea per assimilare tutti gli account ad un unico valore).

  • Reach verosimile

In ogni casi si tratta sempre di riduzione dell’incertezza epistemica ma rimane la componente aleatoria: siamo sempre all’interno della probabilità, ma almeno in questo modo posso ridurre il numero di fattori che possono andare a influenzare il risultato finale. Personalmente tendo a non dare troppa  importanza al reach dato che non posso calcolarlo in maniera troppo precisa: ci sono applicazioni che calcolano anche l’esposizione a seguito dei retweet aggiungendo ai calcoli il numero unico dei follower della persona che ci ha retwittato (ribadisco che per me ha questi valori sono gli stessi che si potrebbero ottenere tirando alcuni d20 o usando quest’app o questo sito)

Avendo inoltre il numero di follower attivi posso andare a visualizzare le variazioni mese per mese e verificare le variazioni all’interno della mia community ed eventualmente valutarne lo stato di salute. Avendo fatto un’analisi dell’attività posso sapere quali possono essere i contenuti che mi permetto di raccogliere il maggior numero di follower attivi che potrò andare a coinvolgere in altre attività

Infine posso andare a vedere quale potrebbe essere il livello di engagement medio (numero di utenti attivi / interazioni totali) per registrare eventuali variazioni durante il tempo. Personalmente non adoro questa metrica perché deve essere collegata ad altri fattori per capire se si tratta di un risultato positivo o negativo.

Metriche di Business

Sono sempre più convinto che le attività fatte sui Social Media debbano essere fatte per rispondere a degli obiettivi di business precisi e raggiungere determinati risultati: quello che devo quindi andare a misurare è quindi l’effetto, l’impatto che le attività sui Social Media hanno sull’azienda. Questo può essere calcolato in vari modi ma in generale si tratta di correlare alcune metriche così da poter confrontare il ROI di singole attività su diversi canali.

Ad esempio si possono confrontare le sorgenti di traffico del sito aziendale (ed eventuale tasso di conversione) e valutare quindi quale delle azioni intraprese è stata la più profittevole. Avere il numero di fan attivi aggiungerebbe semplicemente un ulteriore elemento, l’entrata dell’imbuto: dato che sula piattaforma x ho n utenti attivi, di questi quanti hanno acquistato sul sito? Potrebbe essere una metrica aggiuntiva, ma non ho ancora avuto modo di testarla e quindi per ora non esprimo giudizi sull’eventuale utilità: istintivamente direi che non aggiunge valore.

Sviluppi futuri

Sicuramente questo lavoro rappresenta una prima parte di analisi per verificare quanto possa essere affidabile la soluzione adottata: in futuro sarebbe opportuno ripetere l’analisi sul nuovo campione. Quest’ultimo, non essendo concentrato su un unico account, permetterebbe di verificare eventuali differenze e assicurare una maggior precisione. È mia opinione che i risultati non si discosterebbero in ogni caso quanto riscontrato dall’analisi qui fatta.

Si potrebbe inoltre portare avanti l’analisi iniziata considerando la validità dello strumento per identificare account umani: al momento questa parte non è ancora stata analizzata, ma rappresenta una parte fondamentale per comprendere eventuali limiti dello strumento di analisi e migliorarne le capacità.

Featured image: foto by petesimon http://buff.ly/LP4CEd

51 replies

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Leave a Reply