Tag Archives: decreto Brunetta

Open data: the hardship and the power

These days the Spaghetti Open Data mailing list (priceless) is all the rage for two interesting contributions.

  1. the first one is the extraordinary data.gov demo in earthquakes. It draws from a dataset of earthquakes, filed by intensity and location, and returns a map of earthquakes in the world over the last week. It updates dynamically, so what you’ll see changes over time: above is a screeb grab of what northern Japan looks at the time of writing, with well over 300 seismic evens over a world total of more than 400. (hat tip: Federico Bo)
  2. the second one is useful to dampen our enthusiasm with a realistic assessment of real-life difficulties. Eric Sanna has published a tutorial of sorts to build a simple chart starting from a dataset of absence from work of the employees of Consiglio Nazionale delle Ricerche. Italian law mandates public agencies to publish data on employee absences, and CNR obliged — but using PDF, not exactly on open format. Tinkering around, Eric went from PDF to Excel, and from Excel to chart. But that took 1h 30′; and Eric is way more data literate than the average — he actually works at ISTAT! Plus, his tutorial stops where the real elaboration begins, and the civic hacker sets off to extract some hidden knowledge from the data. For example, what could the peak in absences in August possibly mean? Conclusion: manipolating data is hard, and it will stay hard. There is a lot of work to do to make public data truly usable, and until that work gets done the potential of open data will go, at least in part, untapped.

La forza e la fatica e degli open data

Dalla mailing list di Spaghetti Open Data (impagabile) raccolgo e rilancio due segnalazioni di questi giorni che mi sembrano interessanti.

  1. la prima è la straordinaria demo di data.gov sui terremoti. Pesca da un dataset di terremoti, archiviati per intensità e coordinate geografiche, e restituisce una mappa dei terremoti dell’ultima settimana. Siccome è aggiornata dinamicamente, la visualizzazione cambia nel tempo: qui sopra mostro uno screengrab che fa vedere i 300 e passa eventi sismici avvenuti in Giappone questa settimana, su oltre 400 in tutto il mondo (hat tip: Matteo Brunati). Riccardo Strobbia ha costruito uno strumento simile, stringendo i limiti temporali della query per avere una visualizzazione dei terremoti in tempo reale (hat tip: Federico Bo)
  2. la seconda è utile per temperare i nostri entusiasmi per i dati aperti con le difficoltà molto reali di manipolazione. Eric Sanna ha pubblicato una specie di tutorial per costruire un semplice grafico a partire dal dataset di assenze dal lavoro dei dipendenti del Consiglio Nazionale delle Ricerche, la cui pubblicazione, come forse ricorderete, è prevista dal decreto Brunetta. Il CNR, come purtroppo molti enti e agenzie, ha pubblicato sì i dati, ma in formato PDF, quindi pochissimo aperto. A forza di smanettare, Eric riesce a passare da PDF a Excel, e da Excel a un grafico. Però ci mette un’ora e mezza: lui, che in quanto a rapporto con i dati è decisamente più attrezzato del cittadino medio (lavora all’ISTAT)! Inoltre, il lavoro descritto da Eric serve solo a fluidificare i dati e mostrarli, mentre si ferma alla soglia dell’elaborazione vera e propria – cioè della fase che potrebbe strappare ai dati qualche segreto, qualche intuizione. Per esempio: come interpretare il picco di assenze in agosto? Conclusione: manipolare i dati è faticoso, e lo rimarrà ancora a lungo. C’è ancora molto lavoro da fare per rendere i dati pubblici veramente fruibili, e fino a che non lo saranno il loro potenziale rimarrà ancora, almeno in parte, inespresso.