Blog - Latest News

Follower fake, bot, inattivi: l’importanza dei dati

July 26, 2012/49 Comments/in Comunicare stanca, Monitoraggio/by pierotaglia

Questo post ha piu' di sei mesi. Le informazioni contenute potrebbero non essere aggiornate: ultima modifica: 26.07.12

In questi giorni si è parlato molto di Twitter e di alcune ricerche sugli account di alcuni personaggi politici e dei loro follower fake e bot: a me interessa una sola cosa, i dati. Polemiche e teorie del complotto le lascio volentieri ad altri perché sono sicuro che avranno un sacco di cose divertenti da scrivere. La cosa più interessante per me è controllare: modificando una frase di Greimas “fuori dai numeri non c’è salvezza”. Ho quindi chiesto i dati sulla precedente analisi e sono andato a verificare.

Ipotesi di partenza

In questo caso più che validare un’ipotesi ero curioso di sapere cosa avrei trovato di diverso rispetto all’analisi sul mio account e se avrei trovato un margine d’errore più elevato rispetto a quanto riscontrato nell’analisi dei miei follower. Al momento questi dati non sono disponibili al pubblico: è possibile svolgere l’analisi sul nuovo set di dati scaricabili a questo indirizzo.

Analisi dei dati

In questo caso parliamo solamente dei dati emersi dalla prima analisi dei follower di Beppe Grillo. Come avevo fatto in precedenza il mio interesse è soprattutto legato alla validità dell’algoritmo: mentre prima avevo potuto testarlo solo sul mio account, adesso ho fatto le cose un poco più in grande. L’idea originale era di controllare tutti e 20.000 gli account analizzati per vedere quanto un’analisi fatta da una persona si sarebbe discostata da quella fatta in automatico. Come prima cosa ho voluto seguire la procedura fatta l’altra volta: ho ordinato tutti gli account per punteggio BOT per avere davanti agli occhi la scena completa.

Avendo però tempi piuttosto limitati ho dovuto rivedere la scelta iniziale: ho quindi deciso di analizzare solo gli account con il punteggio BOT più alto e verificare lo scostamento rispetto ad un’analisi umana. Per procedere ho quindi suddiviso il campione iniziale in sezioni legate al rapporto tra punteggio umano e BOT. In modo da controllare ho analizzato uno per uno gli account per un totale di 7.657: sono quindi stati analizzati 268 account con un rapporto umano-BOT di 1-17, 4.474 con un rapporto 2-16, 1.354 con un rapporto 2-15, 1.561 con un rapporto 4-14. Dal momento che non sono riuscito a completare tutta la sezione 4-14 ho deciso di escluderla dall’analisi: le seguenti considerazioni quindi si basano sull’analisi di 6.096 account.

Fin dalle prime fasi dell’analisi ho ritenuto necessario aumentare il numero delle categorie suddividendo tra

Errori: valutazioni errate dell’algoritmo (utenti umani attivi)
Inattivi: account privi di qualunque update e di informazioni
SpamBot: programmi automatizzati della famiglia dei bot
Non più attivi: utenti che non hanno postato per un periodo superiore a 6 settimane

Questi sono i grafici di riepilogo per le varie categorie e i dati di dettaglio

1-17

1 errore
260 inattivi
3 spambot
4 non più attivi

2-16

3 errori
4.375 inattivi
13 spambot
83 non più attivi

3-15

9 errori
1.172 inattivi
13 spambot
83 non più attivi

Somma delle tre classi

13 errori
5807 inattivi
43 spambot
233 non più attivi

Conclusioni

Uno dei primi elementi sulle quali soffermarsi sono le categorie utilizzate nell’analisi iniziale: human e BOT, da un lato utenti con un comportamento umano, dall’altra utenti con comportamento assimilabile a quello di un programma automatizzato. Anche se la distinzione è sostanzialmente corretta a mio avviso sarebbe più corretto distinguere tra account attivi e account inattivi e bot. Tuttavia ritengo la discussione sulle categorie poco proficua dal momento che le queste diventano obsolete nel momento in cui vengono create e non è possibile generare delle classi che rendano conto in maniera precisa e puntuale delle diversità (come mostrato da Porfirio). Durante l’analisi mi sono reso conto che anche le quattro da me utilizzate avrebbero potuto essere ampliate inserendo un ulteriore discrimine con “scarsamente attivo”, ma questo avrebbe richiesto di ricominciare l’analisi e sono altresì sicuro che nel proseguire dei controlli avrei trovato nuove categorie.

L’elemento più interessante sul quale concentrarsi è il margine d’errore dello 0.2% e le motivazioni di questo scostamento. Al momento dell’analisi da parte del tool (t=1) alcuni account erano appena stati aperti e quindi non avevano informazioni o update: al momento della mia analisi (t=2) avevano iniziato a twittare con regolarità. Tuttavia è mia opinione che se avessi condotto l’analisi a t=1 o il tool fosse stato usato a t=2 probabilmente i risultati sarebbero stati perfettamente sovrapponibili. Qualora venisse analizzato nuovamente lo stesso campione a t=3 potrebbe esserci un margine d’errore maggiore rispetto a quello da me riscontrato, ma ritengo sarebbe in ogni caso inferiore al 1%: anche se il tasso d’errore sembra crescere al diminuire del punteggio BOT ho riscontrato nelle classi superiori un numero d’errori inferiore dato che gli errori sono collegati principalmente agli account inattivi quindi con punteggio BOT elevato, ovviamente quest’ultima ipotesi è da verificare.

Da questo punto di vista sarebbe opportuno per migliorare la precisione dell’algoritmo o introdurre una variabile legata al tempo d’iscrizione dell’account o svolgere due analisi sullo stesso campione a t=1 e dopo un mese a t=2 in modo da analizzare la differenza o selezionare il campione a t=1 e analizzarlo a t=2. A mio avviso tra t=1 e t=2 deve intercorrere un tempo non inferiore a due settimane.

Uno degli aspetti a mio avviso più interessanti è stato osservare che molti degli account non più attivi mostravano come unici update mention nei confronti delle celebrità (come ad esempio Fiorello o analoghi) o semplici retweet dei contenuti legati a Beppe Grillo. Da questo punto di vista si vede come l’adozione da parte di alcuni testimonial sia stata una ragione per molti utenti per avvicinarsi alla piattaforma. Tuttavia le difficoltà d’uso (scrittura di messaggi di senso compiuto in 140 caratteri e creazione di una nuova rete sociale) hanno portato all’abbandono di molti di questi utenti (o semplicemente alla fine delle eventuali interazioni).

Da questo punto di vista si nota come le teorie sul foraging possano dare degli schemi di lettura interessanti e a mio avviso appropriati. Normalmente in natura i gruppi animali sono restii ad abbandonare il proprio territorio (patch o oasi) dal momento che niente assicura che verrà trovata una patch migliore. Normalmente quindi si assiste o a spostamenti forzati (esaurimento o modifiche sostanziali dell’equilibrio all’interno della patch) o spostamenti relativamente brevi: si esplorano i territori circostanti ma si ritorna all’oasi più fertile ed abbondante. Data la facilità con la quale ci si può muovere online tra le varie patch informative è possibile assistere a spostamenti in sciami su nuove piattaforme sulla spinta di fattori esterni alle quali però segue un abbandono per tornare nella patch a noi più familiare e che viene percepita come più utile da un punto di vista informativo.

Per ottenere uno spostamento stabile è quindi necessario fare in modo che venga percepito immediatamente un maggior ricchezza informativa e una maggior semplicità d’uso all’interno del nuovo territorio (o piattaforma in questo caso). Tuttavia è molto difficile che le nuove piattaforme vengano percepite come migliori dal momento che sarà necessario ricreare tutta la nostra rete sociale: uno delle cause principali che spinge quindi verso nuovi territori, anche online, è il degrado dell’ambiente informativo.

In questo frangente ho inserito come categoria non tanto BOT ma semplicemente Spambot poiché sono i più facili da individuare in maniera certa. Non è infatti possibile a mio avviso capire con certezza se un account vuoto è stato creato da un utente o se è stato creato da un programma automatizzato. Inoltre esistono anche BOT avanzati che simulano interazioni umane condividendo contenuti, utilizzando hashtag e interagendo all’interno della propria rete: fortunatamente il fenomeno non è molto esteso al momento ma è un fattore da tenere in considerazione in futuro.

Un elemento esterno ai risultati è la valutazione sull’acquisto o meno di follower e l’eventuale responsabilità per questo gesto. Questi due elementi sono strettamente collegati.

Normalmente per identificare l’eventuale acquisto si fa riferimento a eventuali picchi all’interno del diagramma di crescita. Tuttavia un eventuale picco può essere legato a investimenti pubblicitari: solo nel caso ci sia un salto a quattro cifre è probabile che sia avvenuta una crescita forzata. Tuttavia, anche se con 20 dollari si comprano 50.000 follower da un giorno all’altro, per cifre leggermente superiori, è possibile acquistare lo stesso numero di follower ma diluiti nel tempo in modo da simulare una crescita organica.
Uno dei problemi principali, a mio avviso, è che non è necessario essere i proprietari dell’account per acquistare follower: è possibile che qualcuno, a mia insaputa, decida di “regalarmi” 50.000 follower per poi insinuare che l’acquisto sia stato fatto dal proprietario dell’account. L’unico modo per far fronte a questa eventualità è tenere l’account lucchettato: una pratica tuttavia che non può essere intrapresa da aziende e personaggi pubblici.
Non è possibile distinguere tra utenti passivi che non personalizzano l’account e BOT: tuttavia è possibile correlare l’aumento improvviso di follower con un numero particolarmente elevato di account sospetti.

Inoltre la discussione sui finti follower o sui BOT non è particolarmente interessante a mio avviso per una serie di ragioni:

anche guardando gli ultimi dati generali si vede che all’aumentare del numero generale di follower aumenta anche il numero di newbie, una cosa piuttosto nota (più è grande l’account maggiore è il numero di newbie che lo troveranno come suggested)
Una grande massa di utenti attira inesorabilmente un elevato numero di account fasulli (per scopi illeciti)
È qualcosa che ha un impatto solo sulla cosmesi dell’account ma che alla fine non porta a nessun risultato concreto nel business (per cui un eventuale cliente potrebbe accorgersene)
I Social Media non spostano i voti (per lo meno in questo momento in Italia e per alcuni anni ancora) e tutta questa discussione ha semplicemente rafforzato posizioni già definite

Considerazioni

Quanto può avere senso sapere quanti sono gli utenti attivi? Ha senso una misurazione di questo genere? Personalmente ho sia una risposta positiva che una negativa

Reach potenziale, reach probabile e reach verosimile

Una delle informazioni che spesso viene richiesta è l’esposizione del messaggio, quante persone hanno visto l’update definito in alcuni casi awareness o reach. Questi valori non sono particolarmente importanti o interessanti a mio avviso nel mondo dei social media (personalmente non li userei come KPI perché credo ci sia un bias nella visione classica del purchase funnel) ma possono avere una qualche utilità in alcuni frangenti.

Esistono vari strumenti che permettono di stimare l’esposizione dei propri messaggio su Twitter ma a mio avviso nessuno di questi è particolarmente affidabile: in alcuni casi si possono ottenere gli stessi risultati tirando alcuni D20. In alcuni casi, per stimare il reach, invece di usare strumenti automatizzati, si fanno operazioni sul numero dei follower.

La più banale semplicemente consiste nel moltiplicare il numero di update fatti per il numero di utenti che ci seguono: a mio avviso questo può essere definito come reach potenziale, ovvero il numero di persone che potrei raggiungere ipotizzando che tutti gli utenti che mi seguono siano veri e attivi nel momento in cui pubblico tutti gli update.

In alternativa potremmo invece usare il numero di utenti attivi (usando quindi il valore individuato sopra) e moltiplicare il numero di update per questo valore sempre assumendo come vero che siano online nel momento in cui pubblico i miei update: tenderei a definire questo come reach probabile dal momento che riduco in qualche modo l’incertezza epistemica.

Infine posso prendere il reach probabile e moltiplicarlo per una percentuale corrispondente al numero medio di utenti online all’ora: tenderei a definire questo come reach verosimile (“certo” è una parola troppo grossa dato il numero di variabili in gioco). Personalmente uso come variabile parte dei risultati di tweriod legati all’account con il quale sto lavorando (si possono utilizzare valori assoluti ma a mio avviso la differenza tra i comportamenti degli utenti è troppo eterogenea per assimilare tutti gli account ad un unico valore).

In ogni casi si tratta sempre di riduzione dell’incertezza epistemica ma rimane la componente aleatoria: siamo sempre all’interno della probabilità, ma almeno in questo modo posso ridurre il numero di fattori che possono andare a influenzare il risultato finale. Personalmente tendo a non dare troppa importanza al reach dato che non posso calcolarlo in maniera troppo precisa: ci sono applicazioni che calcolano anche l’esposizione a seguito dei retweet aggiungendo ai calcoli il numero unico dei follower della persona che ci ha retwittato (ribadisco che per me ha questi valori sono gli stessi che si potrebbero ottenere tirando alcuni d20 o usando quest’app o questo sito)

Avendo inoltre il numero di follower attivi posso andare a visualizzare le variazioni mese per mese e verificare le variazioni all’interno della mia community ed eventualmente valutarne lo stato di salute. Avendo fatto un’analisi dell’attività posso sapere quali possono essere i contenuti che mi permetto di raccogliere il maggior numero di follower attivi che potrò andare a coinvolgere in altre attività

Infine posso andare a vedere quale potrebbe essere il livello di engagement medio (numero di utenti attivi / interazioni totali) per registrare eventuali variazioni durante il tempo. Personalmente non adoro questa metrica perché deve essere collegata ad altri fattori per capire se si tratta di un risultato positivo o negativo.

Metriche di Business

Sono sempre più convinto che le attività fatte sui Social Media debbano essere fatte per rispondere a degli obiettivi di business precisi e raggiungere determinati risultati: quello che devo quindi andare a misurare è quindi l’effetto, l’impatto che le attività sui Social Media hanno sull’azienda. Questo può essere calcolato in vari modi ma in generale si tratta di correlare alcune metriche così da poter confrontare il ROI di singole attività su diversi canali.

Ad esempio si possono confrontare le sorgenti di traffico del sito aziendale (ed eventuale tasso di conversione) e valutare quindi quale delle azioni intraprese è stata la più profittevole. Avere il numero di fan attivi aggiungerebbe semplicemente un ulteriore elemento, l’entrata dell’imbuto: dato che sula piattaforma x ho n utenti attivi, di questi quanti hanno acquistato sul sito? Potrebbe essere una metrica aggiuntiva, ma non ho ancora avuto modo di testarla e quindi per ora non esprimo giudizi sull’eventuale utilità: istintivamente direi che non aggiunge valore.

Sviluppi futuri

Sicuramente questo lavoro rappresenta una prima parte di analisi per verificare quanto possa essere affidabile la soluzione adottata: in futuro sarebbe opportuno ripetere l’analisi sul nuovo campione. Quest’ultimo, non essendo concentrato su un unico account, permetterebbe di verificare eventuali differenze e assicurare una maggior precisione. È mia opinione che i risultati non si discosterebbero in ogni caso quanto riscontrato dall’analisi qui fatta.

Si potrebbe inoltre portare avanti l’analisi iniziata considerando la validità dello strumento per identificare account umani: al momento questa parte non è ancora stata analizzata, ma rappresenta una parte fondamentale per comprendere eventuali limiti dello strumento di analisi e migliorarne le capacità.

Featured image: foto by petesimon http://buff.ly/LP4CEd

49 replies

Roberto Dadda says:
July 26, 2012 at 9:30 am

Sono confuso, dici che hai verificato, ma come? Come fai a essere certo che chi appare bot è bot e chi umano umano?
Reply
Mario Faccinelli says:
July 26, 2012 at 9:38 am

Non avevo dubbi
Reply
Roberto Dadda says:
July 26, 2012 at 9:39 am

se tu lo hai capito spiegalo anche a chi come me evidentemente è meno intelligente, ma vorrebbe capire lo stesso
Reply
Mario Faccinelli says:
July 26, 2012 at 9:41 am

parlane con chi ha scritto il pezzo, non con me…
Reply
Roberto Dadda says:
July 26, 2012 at 9:42 am

Ti svelerò un segreto che ti potrebbe essere utile: quando si posta dopo un pezzo e si fa una domanda ci si rivolge a chi ha scritto il pezzo, so che ti stupirà…
Reply
Piero Tagliapietra says:
July 26, 2012 at 10:13 am

Ciao Roberto, come hai letto ho potuto appurare solo la presenza di spambot perché sono gli unici che a mio avviso si possono identificare in maniera sicura 🙂
Il resto ho preferito considerarlo genericamente come inattivo: è chiaro? : )
Reply
Max Kava says:
July 26, 2012 at 10:22 am

lunghissimo post fondato su basi molli molli e nessun fondamento scientifico. che notizia è che se fai 'girare' l'algoritmo e se fai il controllo a manina la differenza è dell'1%? I criteri che usa l'algoritmo e quelli che hai usato a manina sono gli stessi? chi li ha validati? in pratica hai misurato una distanza col metro, poi l'hai fatto a spanne e ci dici che la differenza è solo dell'1%. nessuna parola sul vero punto: misurare in mele o rutti una distanza non ha basi scientifiche…
Reply
Piero Tagliapietra says:
July 26, 2012 at 10:25 am

Mi aspetto che tu riesca a fare di meglio: non vedo l'ora di leggere e controllare i nuovi dati che pubblicherai 🙂
Reply
Max Uggeri says:
July 26, 2012 at 10:26 am

Max, ma ti ha punto una tarantola? Capisco che possa starti sui maroni MCC, ma vista da fuori sembra una crociata personale… 😉
Reply
Max Kava says:
July 26, 2012 at 10:27 am

tutto qui? siccome hai scritto un post lunghissimo sul dito senza accorgerti che il problema è la luna non rispondi nel merito? ahahaha, ridicolo. ripeto la domanda: che senso ha verificare che una dll 'giri' bene rispetto ad un calcolo a manina? che margine di errore umano hai se controlli migliaia di profili a manina? chi ha validato i criteri della ricerca?
Reply
Giuseppe Mangano says:
July 26, 2012 at 10:35 am

non ho capito alla fine qual'è la percentuale degli attivi tra I follower di beppe grillo. Potresti indicarmela?
Reply
Max Kava says:
July 26, 2012 at 10:47 am

Max Uggeri ma davvero non riusciamo a discutere nel merito delle osservazioni? "se sai fare di meglio fallo", "scrivi perchè ce l'hai con mcc"… un po' sottotono. Nessuna tarantola, vedere guri e prof che ci dicono che un algoritmo fa bene i calcoli è RIDICOLO, sarebbe come fare uscire una ricerca che la calcolatrice se fai 2+2 ti dà 4 ignorando che l'operazione corretta sarebbe stata 2*2. Quindi, torniamo al post: i dati come sono stati validati? l'errore introdotto dalla misurazione umana com'è stato valutato e quanto pesa? i criteri (vero FULCRO) della ricerca sono condivisibili o meno?
Reply
Max Kava says:
July 26, 2012 at 10:48 am

"Inoltre la discussione sui finti follower o sui BOT non è particolarmente interessante"… e io invece dico che è l'unica motivazione valida per discutere della 'ricerca'.
Reply
Roberto Dadda says:
July 26, 2012 at 11:12 am

Forse si è perso il focus: il problema non è capire se l'algoritmo è applicato correttamente, il problema è validare in qualche modo il fatto che l'algoritmo dia o meno risultati giusti!
Reply
Roberto Dadda says:
July 26, 2012 at 11:18 am

entrare nel merito no?
Reply
Roberto Dadda says:
July 26, 2012 at 11:18 am

eras per max
Reply
Renato Gabriele says:
July 26, 2012 at 11:19 am

L'algoritmo sembra produrre classificazioni di vario livello, the BOT a Weak Human ed altro? Avete analizzato lì dove gli errori possono essere maggiori o si limita ad analizzare le curve tendenti a 0 nella curva di Gauss?
Cito: "ho quindi deciso di analizzare solo gli account con il punteggio BOT più alto e verificare lo scostamento rispetto ad un’analisi umana."
Reply
Roberto Peraboni says:
July 26, 2012 at 12:05 pm

Per semplificare il post l'avrei tagliato in due: the un lato la verifica dei risultati dell'algoritmo (e andarti a vedere quasi 6000 profili mi fa capire che la cosa ti sta particolarmente a cuore); dall'altro il potenziale tool per calcolare la vera reach.
Io ho una domanda: per inattivo intendi utente creato su Twitter che non ha mai fatto un tweet ma che "segue" degli utenti. Esatto?
Non sarebbe un'idea, vista l'alta percentuale riscontrata, che twitter creasse degli strumenti interni per cancellare gli utenti inattivi, ovvero quello che hanno totalizzato meno di un login sulla piattaforma negli ultimi 3-4 mesi e 0 tweet fatti storicamente the quando esistono?
Reply
Piero Tagliapietra says:
July 26, 2012 at 12:21 pm

Ciao Giuseppe su questo punto non posso risponderti perché non lo so. Anche se accettiamo come valide le percentuali dell'algoritmo non ho ancora controllato gli account segnalati come umani e quindi non posso esprimermi in merito. Dovrei prendere i nuovi dati e analizzare tutti gli account umani (se trovo un po' di tempo mi piacerebbe farlo)
Reply
Piero Tagliapietra says:
July 26, 2012 at 1:35 pm

Roberto esatto, quello è il metodo che ho usato: sinceramente non so quanto possa essere utile un tool del genere. Se una persona è interessata solo ai risultati potrebbe guardare solo i click, gli share e le mention e ignorare il reach.
Inoltre vale la regola del 1-9-90: la maggior parte degli utenti delle community sono spettatori, forzarli a produrre contenuti potrebbe avere un impatto negativo sulla community.
Reply
Piero Tagliapietra says:
July 26, 2012 at 1:37 pm

Roberto per fare quello a mio avviso bisognerebbe sviluppare un'altro algoritmo e confrontarlo oppure fare un'analisi su campione di dati diverso (anche se tenderei a usare lo stesso modo di selezione per definire il pool di utenti da selezionare)
Reply
Piero Tagliapietra says:
July 26, 2012 at 1:39 pm

Max forse ti è sfuggito il pezzo delle ipotesi dove dico che a me interessava vedere di quanto si sarebbero scostati i risultati rispetto a un'analisi che avrei fatto io utilizzando lo stesso campione.
Proponimi delle modalità di valutare in maniera diversa e sarò felice di usarli per controllare i nuovi dati: tuttavia eventuali critiche sull'algoritmo e sul campione dovresti farle non qui dato che con quello non ho niente a che fare e non potrei darti risposte : )
Reply
Piero Tagliapietra says:
July 26, 2012 at 1:46 pm

Ciao Roberto: per le domande sull'algoritmo ti rimando al post di Matteo perché non saprei come risponderti dato che non mi sono occupato né della ricerca né dell'algoritmo http://www.thefool.it/2012/06/08/i-finti-account-di-twitter-e-la-ricerca-di-marco-camisani-calzolari/
In questo caso non sapevo (e tutt'ora non so) dove potrebbero essere presenti gli errori maggiori: l'idea iniziale era appunto di verificarne la distribuzione su tutto l'insieme, ma per esigenze di tempo mi sono dovuto concentrare su una singola porzione di dati.
Dato che ritengo più difficile identificare un comportamento da bot che da utente attivo mi sono concentrato su quel segmento: ovviamente l'analisi è incompleta da questo punto di vista perché non è fatta su tutti gli elementi definiti nella ricerca come BOT e manca l'analisi di eventuali errori nella parte umana.
Stavo pensando di farlo su uno dei nuovi account della ricerca (magari meno numeroso) appena trovo un po' di tempo libero 🙂
Reply
Piero Tagliapietra says:
July 26, 2012 at 1:47 pm

Dovresti però dirmi come fai ad identificare con certezza un BOT: personalmente lo ritengo impossibile, si riescono ad identificare solo gl spambot in maniera abbastanza certa
Reply
Marco Massarotto says:
July 26, 2012 at 1:49 pm

L'ennesima dimostrazione che quelli che la "ricerca" di MCC e I giornali hanno definito "BOT" o, peggio, "FAKE comperati" (senza alcuna dimostrazione che siano "account fatti the robot" o comperati al "mercato nero") sono semplicemente "Inactive user" o molto probabilmente (nemmeno qui viene escluso che non sia così) "lettori" che usano twitter per leggere, ma non scrivono (aka "Lurker"). Secondo medie ben note dai tempi della "regolina" 1-9-90… 🙂 Interesante invece il calcolo del reach pesando gli inattive user, su questo hai avuto una bella intuizione Piero!
Reply
Piero Tagliapietra says:
July 26, 2012 at 1:53 pm

Grazie mille Marco 🙂 Il problema è proprio il fatto che secondo me non è possibile distinguere con certezza tra gli spectator e gli inattivi (come avevamo detto tempo fa): secondo me si possono fare le due analisi e tenerle in parallelo: da un lato il totale (tenendo presente che è viziato dalla presenza di alcuni account inattivi) dall'altro il probabile (tenendo presente che è viziato dalla presenza di alcuni account inattivi). Possono essere entrambe strade valide 🙂
Reply
Marco Massarotto says:
July 26, 2012 at 1:57 pm

Certo Piero, ma si può (e SI DEVE e NON è stato fatto scientemente) distinguere tra inattive e BOT e tra inattive e fake comperati). Questo fa perdere credibilità alla ricerca, l'aver coltivato quest'area grigia, invece di illuminarla. Mi piacerebbe che tu studiassi un sistema/metodo per garantire gli investimenti media di chi compra engagement ads e promoted tweets per capire se chi ha comperato ha o meno "imbottito" l'acquisto di fake. Questo sarebbe davvero utile e disruptive!
Reply
Enrico Bianchessi says:
July 26, 2012 at 1:58 pm

una "ricerca" inutile e pretestuosa come la polemiche che sono seguite. amen.
Reply
Piero Tagliapietra says:
July 26, 2012 at 1:58 pm

Ci possiamo provare 🙂
Reply
Max Kava says:
July 26, 2012 at 2:07 pm

come ho scritto è impossibile, per questo la ricerca di mcc non ha senso (la frase sopra è ambigua, sorry: volevo dire che invece di parlare di chi è mcc o l'errore che c'è tra la manina e l'algoritmo, dovremmo parlare del fatto che puoi dividere facilmente utenti attivi/passivi, ma tra i passivi è superopinabile come dividi i bot dagli umani silenziosi)
Reply
Max Kava says:
July 26, 2012 at 2:09 pm

Piero Tagliapietra cmq non so come si possa parlare di errore dell'1% quando non c'è alcun accenno al tema della misurazione(bhrutalmente: chi dice che la misurazione manuale è corretta?)
Reply
Piero Tagliapietra says:
July 26, 2012 at 2:09 pm

Ma su questo sono d'accordo: infatti ho scritto che non sono d'accordo con la classificazione fatta e che personalmente avrei optato per attivi vs inattivi e spambot
Reply
Stefano Bussolon says:
July 26, 2012 at 2:09 pm

ho scaricato e sbirciato i dati raw di mcc. A naso, la maggioranza dei similBot mi parevano proprio o inattivi o lurkerz.
Reply
Piero Tagliapietra says:
July 26, 2012 at 2:12 pm

Anche sull'errore a manina possiamo discuterne: personalmente ho previsto come possibilità anche un margine maggiore dato che in alcuni casi è possibile che facendo l'analisi tra un mese (t=3) alcuni attivi si siano attivati e quindi il margine cambi.
Personalmente ritengo non esistano modi che possano dare la certezza assoluta, ma che ci siano strumenti con un margine più o meno grande: sarebbe interessante incrociare i dati con altre metriche in modo da avere altre indicazioni
Reply
Roberto Dadda says:
July 26, 2012 at 2:48 pm

Pietro si possono fare molte cose, per esempio una prova in bianco: se metto un account e non lo tocco cosa succede? Se metto un account e posto una serie di parole casuali ogni sera? Poi si potrebbero comperare diecimila follwer e vedere cosa succede e come si comportano su un account vergine appena creato. Si potrebbe voglio dire fare una ricerca scientifica e non buttare lì un algoritmo e lavorare sui risultati senza nessuna validazione come ha fatto MCC!
Reply
Antonio Nanni says:
July 26, 2012 at 3:20 pm

Bel post, molto interessante, anche se ovviamente non definitivo. Mi permetto una sola osservazione piuttosto marginale. La pseudo-citazione iniziale credo sia una modifica di "Fuori dal testo non c'è salvezza". Se così è la frase è the attribuirsi ad A.J. Greimas e non ad Eco. Comunque complimenti ancora per l'articolo!
Reply
Walter Vannini says:
July 26, 2012 at 3:24 pm

Roberto tutto quello che l'algoritmo fa è contare. Escludendo errori di aritmetica, l'algoritmo che conta dà risultati giusti per definizione. Quello che serve è semplicemente stabilire cosa vogliamo chiamare risultato giusto. In altre parole, quali valori assegnare ai parametri. Che è quello che è stato fatto. Io ho anche suggerito un mese fa di "giocare" coi parametri e vedere cosa cambiava, e anche questo c'è nel secondo giro. Possiamo passare a chiederci che interesse aziendale ha un utente umano che ricade nei parametri scelti da Marco Camisani ?
Reply
Francesco Franz Nanni says:
July 26, 2012 at 3:48 pm

veramente bell'articolo!
Reply
Roberto Dadda says:
July 26, 2012 at 4:13 pm

Walter Vannini Non è proprio esatto. Il fine qui è chiarissimo: stabilire chi sia umano e chi sia bot, questo è abbastanza chiaro. La misura diretta è impossibile e di conseguenza si fa una misura indiretta: scegli di misurare qualche cosa d'altro e poi definisce un algoritmo che tarato con gli opportuni parametri fa si che misuri una cosa e ne determini un'altra. Di algoritmi ne puoi scrivere infiniti, il problema è validarli, dimostrare cioè che la misura che fai è in un certo range di precisione corretta. Questa è una cosa che Camisani nemmeno tenta! E' banalissimo argomento dell'esame di Teoria e pratica delle misure.
Reply
Max Kava says:
July 26, 2012 at 8:05 pm

aspetta che forse non mi sono spiegato: se tu misuri 'a mano' applicando i criteri, hai un possibile cd errore di misurazione. (in estrema sintesi, non vedo traccia di elementi della teoria degli errori nella misurazione dei dati, per cui anche la parte dove dice l'errore è l'1%' in realtà è sbagliata perché presuppone due misure esatte)
Reply
Piero Tagliapietra says:
July 26, 2012 at 8:29 pm

In realtà presuppongo due misure sbagliate in partenza 😀 Il problema nel farlo "a mano" è che non posso verificare differenze nella misura: ci vorrebbe o un'altra persona o dovrei effettuare la misurazione sugli altri campioni. Il problema di questa misurazione è che anche andando a ripetere l'analisi non avrei variazioni a meno che non si attivino degli account ma a quel punto non ha più senso perché è come se fossero campioni diversi (dovrei rifare lo stesso test in un periodo di tempo uguale)
Reply
Piero Tagliapietra says:
July 26, 2012 at 8:34 pm

Oh errore gravissimo! Me lo ricordavo da Lector in Fabula e non ho controllato! Grazie mille 🙂
Reply
Max Kava says:
July 26, 2012 at 9:30 pm

appunto! anche tutto il discorso dell'errore 1% è sbagliato 🙂
Reply
Piero Tagliapietra says:
July 26, 2012 at 10:07 pm

in questo caso no perché è interno alla misurazione che ho fatto io: bisognerebbe calcolare lo scarto con altre misurazioni e poi applicarlo 🙂
Reply
Max Kava says:
July 26, 2012 at 10:29 pm

mi arrendo 🙂 (purtroppo per capire perché è sbagliato bisogna avere solide basi scientifiche… analisi1,2,calcolo numerico, fisica1 e 2, e magari qualche elemento dei corsi di misure di ing… per cui potremmo andare avanti all'infinito senza che se ne esca. notte!)
Reply
Piero Tagliapietra says:
July 27, 2012 at 7:53 am

Probabilmente vero, ho solo alcune rozze basi della materia. Per capirne il senso invece potrebbe essere necessario aver studiato comunicazione 😀
Reply
Max Kava says:
July 27, 2012 at 8:07 am

(cosa che per altro ho fatto, ma non credo sia una gara a chi ha più competenze :D)
Reply
Giuseppe Mangano says:
July 27, 2012 at 4:12 pm

Ritengo che sia quello il dato più interessante…
Reply
Marco Brandizi says:
July 30, 2012 at 4:15 pm

Interessante. In un commento ad un paio di post sull'argomento (http://hightech.blogosfere.it/2012/07/grillo-camisani-calzolari-follower-twitter-giornalismo.html, http://www.techeconomy.it/2012/07/26/lo-scarso-senso-della-conta-dei-follower-forse-finti-su-twitter/) avevo esposto I miei dubbi circa la mancanza di una ulteriore analisi, come quella qui sopra. Mi pare che questa integrazione ci dica che non è così facile stabilire se un follower passa il test di Turing o no, ma anche che, ai fini della reacheability, non fa molta differenza se si tratta di questo o di un utente inattivo.
Reply

Want to join the discussion?
Feel free to contribute!