Rilevazione algoritmica della specializzazione nelle conversazioni online

Ringrazio Federico Bo per la traduzione in Italiano.

Partecipanti

Alberto Cottica, Benjamin Renoust, Khatuna Sandroshvili, Luca Mearelli, Gaia Marcus, Kei Kreutler, Jonne Catshoek, Federico Bo.

Obiettivo

Scoprire quali gruppi di utenti in Edgeryders (si) sono auto-organizzati in conversazioni specialistiche, nelle quali le persone gravitano intorno a uno o due argomenti (piuttosto che disperdere la loro partecipazione in tutte le discussioni). Inoltre capire se questi “specialisti”, oltre che concentrarsi su determinati argomenti, interagiscano strettamente l’uno con l’altro.

Perché è importante

Capire le dinamiche dei social networks e delle communities e conoscere lo schema della loro infrastruttura può rivelarsi un utile strumento adisposizione dei policy makers per ripensare il modo in cui vengono sviluppate e implementate le linee guida politiche. Inoltre si potrebbe assicurare che questi indirizzi riflettano in maniera corretta bisogni e possibili soluzioni proposte dai cittadini.

Poter scoprire i legami tra i membri di un social network basati sulle loro aree di specializzazione può permettere ai decision makers di:

  • Attingere a reti esistenti di esperti e persone informate per capire meglio un problema di policy e i gruppi che ne sono più influenzati (cioè i beneficiari della policy).
  • Identificare “dal basso” pre-esistenti idee e proposte per le politiche che si intendono sviluppare e mettere in atto
  • Unire insieme reti diverse accomunate da un provato interesse per le politiche pubbliche, utilizzandole per progettare nuove soluzioni orientate al cambiamento e all’innovazione

Piuttosto che spendere tempo e risorse nello sviluppo e nella costruzione di sempre nuove communities intorno a vari temi, questa metodologia può aiutare ad utilizzare strutture già esistenti rafforzandole con queste reti di “esperti dal basso”, razionalizzando e rendendo più efficienti i processi decisionali.

I dati e gli strumenti

Edgeryders è un progetto nato su iniziativa del Consiglio d’Europa e della Commissione Europea nel 2011. Il suo obbiettivo era generare proposte per le nuove politiche europee sui giovani dai giovani stessi attraverso l’utilizzo di una piattaforma web aperta strutturata come un social network (maggiori informazioni). Attualmente Edgeryders è uno spinoff del progetto originale, incorporato come impresa nonprofit con sede in UK.

La piattaforma iniziale – sui dati della quale viene effettuata l’analisi – è stata realizzata con Drupal 6. Usando un set di plugin chiamato Views Datasource sono stati esportati in tre file JSON le informazioni su utenti, post e commenti.

Questi dati hanno consentito di ricreare la rete delle conversazioni nella quale gli utenti sono i nodi e i commenti gli archi. Anna e Bob sono connessi da un arco se Anna ha scritto almeno un commento su un frammento di contenuto scritto da Bob. Si è utilizzato il framework Tulip per costruire e analizzare il grafo a partire dai dati disponibili. Il risultato è stata una rete di 260 utenti attivi, circa 1600 archi e 400 commenti.

Per avvicinarsi all’obbiettivo si è arricchito il dataset con informazioni extra sulla semantica delle conversazioni.

Cosa si è fatto.

Per definire in che misura gli utenti gravitano intorno a certi argomenti e l’uno all’altro si è effettuata una “entanglement analysis” sul dataset. Questa analisi è stata proposta da Benjamin Renoust nel 2013 ed è stata eseguita con un programma chiamato Data Detangler.

1. Edgeryders come social network di commenti

Questi dati possono essere interpretati come un social network: le persone scrivono post e commenti nella rete e, naturalmente, si commentano a vicenda. Ogni commento può essere visto come un arco che connette l’autore del commento all’autore di un post o di un commento. Oppure si può interpretare il social network come un grafo bipartito che connette gli utenti al contenuto: i commenti sono archi che connettono i loro autori all’unità di contenuto che stanno commentando.

2. I post sono scritti in risposta alle “missioni”

In Edgeryders sono presenti nove “campagne” ciascuna delle quali contiene dei brief, o “missioni”. I post (e relativi commenti) sono scritti in risposta alle missioni.

3. Le keywords indicizzano le missioni

Per capire come le varie campagne e missioni sono connesse tra di loro si sono analizzate le parole chiave (keywords) di ogni missione.

Procedendo manualmente, attraverso il servizio online TagCrowd, si sono trovate e selezionate le prime 12/15 parole per ordine di frequenza presenti nelle missioni (sono state rimosse parole non significative o inerenti le funzionalità della piattaforma, tipo “add post”).

La combinazione di questi tre passi ha prodotto un “multiplex social network“(nel quale esistono relazioni multiple tra lo stesso insieme di attori) indicizzato da keywords. Vediamo quali sono stati i passi successivi.

4. Eliminare gli specialisti “spuri”

Sono stati eliminati gli archi collegati a una sola missione che identificano specialisti “spuri” (se Alice ha con Bob una sola interazione, il 100% della loro conversazione è assegnato al tema discusso in quell’unica interazione. Abbiamo ritenuto di non assegnare valore informativo a questo dato) .

5. Rimuovere conversazioni generaliste.

A questo punto si ha un social network di utenti e keywords. Ogni keyword può esser vista come un “livello” della rete, che identifica una sotto-rete: la rete delle conversazioni sul lavoro, sull’educazione ecc. Per isolare le conversazioni specializzate, per ciascun arco si sono rimosse tutte le keyword ad eccezione di quelle che apparivano in tutte le intersezioni tra due utenti. Ovvero, si è ricostruita la rete assegnando a ciascun arco l’intersezione dell’insieme di keywords comprese in ogni interazione individuale. In alcuni casi l’intersezione era vuota e quindi l’arco è stato eliminato.

Un utile effetto collaterale di questi ultimi due passi è stato quello di ridurre fortemente l’influenza dei moderatori del team di Edgeryders, che sono per definizione tra gli utenti più attivi e potrebbero distorcere i risultati dell’analisi. Il punto 4 rimuove le interazioni “one off” con gli utenti poco attivi, il punto 5 rimuove gli archi che connettono tra loro i moderatori, visto che partecipando a tutte le discussioni fanno tendere a zero l’intersezione delle parole chiave.

6. Identificazione gruppi di specialisti

Si è arrivati quindi a identificare gruppi di specialisti identificano quegli utenti che interagiscono tra loro solo con un piccolo numero di keywords. Nell’esempio n(keywords)=2.

Conversazioni specializzate in "education" e "learning"

 

Conclusioni

Il metodo sembra in grado di identificare “gruppi” di specialisti, dove la parola “gruppo” è intesa nel senso di un’insieme di persone che non solo contribuiscono con contenuti ma interagiscono gli uni con gli altri. Questo fa emergere l’”intelligenza collettiva” nelle conversazioni su larga scala. Nella figura 1 sono evidenziati individui (sulla sinistra) che interagiscono solo attraverso le parole “education” e “learning“. Gli individui evidenziati che non sono connessi con alcun arco evidenziato sono utenti che hanno scritto contenuti relativi a queste parole chiave ma non sono parte di interazioni su queste stesse parole.

Scoprire nuove parole chiave associate allo schema di interazione tra gli utenti precedentemente rilevato.

Una volta identificati i gruppi di specialisti il passo successivo è guardare le keywords che co-occorrono negli archi che li connettono. Per esempio nella Figura 2 si possono vedere le parole che si aggiungono a “education” e “learning” nel gruppo prima identificato. Si può notare sia che anche la parola “open” è significativa (la grandezza del circolo associato è proporzionale al suo uso). Si potrebbe interpretare questo dato dicendo che gli “specialisti” in educazione in questa community pensano che il concetto di “apertura” sia importante quando si parla di educazione.

Questo metodo è scalabile. Può essere usato per scoprire inaspettati schemi di interazione che possono essere oggetto di successive ricerche.

 

Margini di miglioramento

Il problema principale con questo metodo d’analisi è che è estremamente sensibile alla selezione delle keywords. Si possono ottenere risultati migliori con un metodo che associ al conteggio delle occorrenze un’analisi etnografica. Purtroppo le “folksonomies” (tagging non strutturato) tendono a non funzionare perché introducono molto rumore nel sistema.

La rete di Dio

Ormai è qualche mese che penso al movimento benedettino in termini di sistemi adattivi complessi (i benedettini sono una rete, non un’organizzazione) e alla Regola di san Benedetto come a un protocollo. Più ci penso, più mi convince.

E quindi, quando Riccardo Luna mi ha chiesto di raccontare la storia di unMonastery a Next, ne è uscita la presentazione qui sotto. Può sembrare strano andare nel tempio dell’innovazione e delle startup a parlare del monachesimo del sesto secolo, ma l’innovazione non è nata nella Silicon Valley. E se provate a guardare Benedetto da Norcia attraverso il filtro dell’innovazione sociale, quello che si vede è… sorprendente. Non perdetevi il videoclip di 50 secondi girati all’unMonastery Matera (a circa 7.30 della presentazione) fatti dal bravissimo Nico Bisceglia. Lo trovate anche qui.

Photo: Marco Giacomassi

Perché non esiste (ancora) una community europea dei dati aperti

L’ultimo fine settimana di marzo abbiamo fatto SOD14, il secondo raduno annuale della mailing list di Spaghetti Open Data. È stato entusiasmante: abbiamo avuto 182 iscritti, con 139 persone contemporaneamente presenti alla conferenza di venerdì 28. Circa 100 persone hanno partecipato all’hackathon di sabato 29 e ai minicorsi di domenica 30. Abbiamo prodotto 12mila tweets (e, essendo geeks, li abbiamo archiviati tutti). Tutti sono venuti a proprie spese, ritagliandosi il tempo tra gli impegni quotidiani.

Ci sono già almeno dieci resoconti di SOD14 in rete (il mio preferito è quello di Ida Leone), quindi non sto a farne un altro. Mi interessa invece rilevare un punto critico.

Premessa: tutto, dal programma della conferenza alle tracce degli hackathon, è emerso in modo bottom-up. Per forza:  Spaghetti Open Data è una comunità. Non ha soldi, né capi, né personalità giuridica, nemmeno un codice fiscale. Quindi SOD14 è stato completamente organizzato da volontari: certo, la città e la Regione ospitanti – Bologna e l’Emilia-Romagna – ci hanno viziato con spazi gratis, caffè gratis, un wi-fi impeccabile e hanno perfino pagato due mini-corsi, organizzati e tenuti da membri della comunità stessa (grazie!), per un totale in cash di 1500 euro. La comunità ha fornito trailers videologhijingles e suoneriet-shirtsadesivi e perfino supereroi; c’erano persone di tutti i tipi (data geeks, giuristi, funzionari pubblici, attivisti, data journalists, sviluppatori, perfino un piccolo gruppo di open archeologi) con una forte presenza femminile. SOD14 ha avuto l’energia giocosa degli eventi veramente dal basso, quasi ruspanti. La comunità è così forte perché è “spessa” nel tempo e nell’interazione: gira sulla possente mailing list di SOD, che mentre scrivo ha 896 iscritti, 1.840 threads e 20.000 messaggi (stimati) accumulati in tre anni e mezzo – nel 2014 ha buttato fuori oltre 20 messaggi al giorno di media. È di gran lunga la più grande risorsa sugli open data in lingua italiana.

Quindi, un evento perfetto, di una comunità in salute. Ma con una mancanza: a SOD14 non c’era l’Europa.

Abbiamo fatto il possibile per stare vicini ai nostri fratelli e sorelle d’arme europei. L’unico keynote della conferenza era in inglese, tenuto da Adam Shorland di Wikimedia Germania a parlarci di Wikidata. Ho chiamato personalmente EPSI, l’iniziativa della DG CNECT per la promozione dei dati aperti nell’Unione Europea, e ho chiesto loro di sostenerci – non con soldi, che comunque non potremmo accettare (non abbiamo un conto in banca) ma con la presenza fisica di una persona che venisse a dirci “non siete soli, in Europa siamo contenti che voi ci siate”. Nonostante avessimo aggiornato e verificato la EPSI scoreboard per l’Italia a SOD13, nessuno si è fatto vivo a SOD14 per ringraziare di persona la comunità. Inizialmente mi hanno promesso di mandare qualcuno, ma poi hanno deciso di farsi rappresentare da Matteo Brunati, il corrispondente EPSI per l’Italia, presente a SOD14.

Cara Commissione Europea, in quanto patriota europeo e attivista open data, sento che è mio dovere farti sapere che hai perso un’occasione, e consigliarti di non farlo mai più. A SOD14 non abbiamo discusso di problemi degli open data italiani; tutti i problemi che abbiamo davanti hanno almeno una dimensione europea. Per esempio, abiamo avuto una sessione affascinante sui dati aperti generati dall’archeologia e dai beni culturali in generale. L’Italia non è l’unico paese alle prese con i problemi e le opportunità che ne derivano! Qui abbiamo problemi con autorità pubbliche molto conservatrici, e ci aiuterebbe poterci confrontare con le nostre controparti in Grecia o in Francia. Qui tu potresti fare la differenza, ma a SOD14 non l’hai fatta. Potrei fare altri dieci esempi così solo da SOD14; potresti farli anche tu. Lo sai che questo è vero.

Matteo è un civic hacker di altissimo livello, e EPSI è molto fortunata ad averlo a bordo. Noi, però, siamo la sua comunità di origine, e parliamo con lui tutti i giorni o quasi. Non c’è nessun valore aggiunto a mettergli in testa un cappello europeo. Se vuoi dare valore all’impegno europeista di Matteo, mandalo a eventi come il nostro, ma in Estonia, in Belgio, o in Irlanda; e per aggiungere valore agli eventi italiani come SOD14 mandaci i tuoi corrispondenti danesi, spagnoli o austriaci. Sono le relazioni orizzontali che costruiscono comunità. So che lo sai, perché fai programmi come Erasmus da molto tempo e in molte varianti. Sai anche che costruire relazioni orizzontali al livello europeo richiede tempo e pazienza, e in questo momento nessuno ci sta lavorando, nemmeno tu. E così, cose che dovremmo poter dare per scontate non succedono. Perché non abbiamo civic hackers di tutto il continente che lavorano insieme su qualche progetto open data in vista delle elezioni europee? Perché i civic hackers europei non passano tempo insieme. Non si conoscono nemmeno. SOD è potentissima, ma assolutamente italocentrica. Perfino TweetYourMEP è stato costruito esclusivamente da italiani. Così, non c’è una community europea solida degli open data.

Non per questo devi arrenderti.  L’Europa ha giocato un ruolo chiave nello sbloccare il lato dell’offerta della scena open data. La direttiva EPSI è stata importantissima nell’incoraggiare governi con meno cultura sui dati, come il nostro, ad avviarsi sulla strada giusta. Europeana è una grande idea. Hai fatto bene su questi fronti: perché non dovresti fare altrettanto bene nell’aiutare a crescere il lato della domanda? Un anno fa, EPSI mi ha intervistato e mi ha chiesto: cosa pensi che dovrebbe fare l’Europa in tema open data? Ho risposto: investite nella comunità. Date loro spazi gratis, rimborsi spese per i viaggi e qualcosa da fare (questo video, 6:08). Penso ancora che questo sarebbe il modo migliore di usare la tua infrastruttura EPSI. E adesso che ci penso, perché non fai un passo in più e metti in piedi un Erasmus per gli Open Data? Qualche centinaio di scambi internazionali, con persone di tutta Europa che lavorano sui dati aperti, farebbe molto per creare la rete “small world” che ci serve per essere comunità a livello europeo. Spaghetti Open Data è pronta ad aiutarti. Ci stai?