#OpenAid, dati aperti sui fondi per la cooperazione allo sviluppo

Il Ministero degli Affari Esteri ha appe­na lan­cia­to un nuo­vo pro­get­to open­da­ta incen­tra­to sui fon­di ita­lia­ni per la coo­pe­ra­zio­ne allo svi­lup­po. Il car­di­ne del pro­get­to è il por­ta­le Open Aid, che sul­la scia di esem­pi ana­lo­ghi come OpenCoesione offre al cit­ta­di­no un ser­vi­zio di esplo­ra­zio­ne dei dati dal 2004 a oggi, con visua­liz­za­zio­ni per­so­na­liz­za­te, map­pe, gra­fi­ci, ecc. Non man­ca la pos­si­bi­li­tà di sca­ri­ca­re i dati grez­zi in for­ma­to CSV e pre­sto saran­no mes­se a dispo­si­zio­ne anche del­le API per l’interrogazione in remo­to del data­ba­se com­ple­to. Non stu­pi­te­vi se nel navi­ga­re il sito avver­ti­te una sen­sa­zio­ne di déjà vu. Tecnicamente è sta­to rea­liz­za­to dal­la Depp srl, una real­tà azien­da­le ormai pun­to di rife­ri­men­to in que­sto ambi­to, nata da quell’incredibile espe­rien­za che è OpenPolis.

 

Naturalmente veden­do la dispo­ni­bi­li­tà del down­load dei dati, rila­scia­ti in CC By-Sa 3.0 e divi­si in un file per ogni anno, e la man­can­za di API, ho pen­sa­to subi­to di dar­ci un’occhiata e met­te­re tut­to su dati​.data​ni​n​ja​.it. Ecco i prin­ci­pa­li pas­si che ho segui­to:

  1. Ho sca­ri­ca­to i 9 file CSV dal sito uffi­cia­le;
  2. Li uni­ti insie­me uno dopo l’altro dal 2004 al 2012;
  3. Ho eli­mi­na­to le righe di inte­sta­zio­ne ripe­tu­te;
  4. Ho impor­ta­to la tabel­la in LibreOffice:
    1. Ho fat­to atten­zio­ne che i nume­ri a vol­te era­no in nota­zio­ne ita­lia­na, altre in nota­zio­ne anglo­sas­so­ne;
    2. Mi sono accor­to che non tut­te le righe ave­va­no un id uni­co (colon­na crsid);
    3. Ho aggiun­to una colon­na UID con un nume­ro pro­gres­si­vo;
    4. Ho eli­mi­na­to ovun­que i ritor­ni a capo all’interno del­le cel­le.
  5. Ho espor­ta­to la tabel­la in TSV;
  6. Ho impor­ta­to tut­to in Open Refine;
  7. Ho ripu­li­to tut­ta la tabel­la:
    1. Ho eli­mi­na­to gli spa­zi mul­ti­pli e quel­li agli estre­mi del­le strin­ghe;
    2. Ho tra­mu­ta­to in nume­ri le strin­ghe “nume­ro” e in date le strin­ghe “data”;
    3. Ho uni­for­ma­to il case dei carat­te­ri.
  8. Ho espor­ta­to la tabel­la in for­ma­to CSV;
  9. L’ho impor­ta­ta come risor­sa in un data­set di dati​.data​ni​n​ja​.it (piat­ta­for­ma DKAN), inse­ren­do tut­ti i meta­da­ti e le descri­zio­ni del caso;
  10. Ho impor­ta­to la risor­sa nel Datastore, in modo da abi­li­ta­re l’accesso via API.

Nella discus­sio­ne ori­gi­na­ta su Spaghetti Open Data è emer­sa qua­si subi­to la que­stio­ne dei meta­da­ti: il data­set è pie­no di sigle e codi­ci alfa­nu­me­ri­ci, cosa mai signi­fi­ca­no? Inizialmente su Open Aid pur­trop­po non c’era trac­cia di rife­ri­men­ti uti­li, ma ora sono sta­ti aggiun­ti. È inter­ve­nu­to anche Ettore Di Cesare di OpenPolis, che ci ha con­fer­ma­to che pre­sto saran­no rila­scia­te tut­te le spe­ci­fi­che del caso. Nel frat­tem­po, gra­zie all’amica e col­le­ga Donata Columbro (per­so­nag­gio già ben noto tra i data­ni­n­ja), abbia­mo mes­so su un foglio con­di­vi­so per cer­ca­re di capi­re insie­me come ven­go­no descrit­ti i fon­di alla coo­pe­ra­zio­ne.

Una del­le risor­se chia­ve per capi­re codi­ci e abbre­via­zio­ni è for­ni­ta dal­le “DAC and CRS code lists” dell’OECD, rila­scia­te in un file xls com­ple­to con tan­te tabel­le per ogni indi­ca­to­re. Il lavo­ro è anco­ra work in pro­gress, ma ho ini­zia­to a estrar­re quel­le a cui i dati Open Aid fan­no rife­ri­men­to e a inse­rir­le diret­ta­men­te su dati​.data​ni​n​ja​.it. Grazie alla pos­si­bi­li­tà di effet­tua­re join tra tabel­le diret­ta­men­te median­te le API di DKAN è così pos­si­bi­le richie­de­re e lavo­ra­re diret­ta­men­te su tabel­le deri­va­te, in cui codi­ci e rife­ri­men­ti sono auto­ma­ti­ca­men­te sosti­tui­ti da nomi e descri­zio­ni.

Un altro pas­so ver­so una mag­gio­re tra­spa­ren­za e aper­tu­ra del­la PA ita­lia­na, dun­que! E quin­di, buon lavo­ro e buon diver­ti­men­to a tut­ti! 🙂

Alessio Cimarelli

Alessio Cimarelli

Data scientist at Dataninja
Sono giornalista free-lance, data scientist e sviluppatore web. Dopo la lau­rea in fisica all’Università Sapienza di Roma, ho con­se­guito il master in Comunicazione della Scienza alla SISSA di Trieste e ho comin­ciato a girare l’Italia, tra gior­na­li­, uffici stampa e ricerca pura. Sono co-fondatore di dataninja.it e datamediahub.it e attualmente collaboro con varie testate ita­liane (Wired, L'Espresso, Secolo XIX) e alcune agen­zie edi­to­riali in ambito di data jour­na­lism e svi­luppo web. Sono mem­bro della comu­nità Spaghetti Open Data e ormai scrivo quasi più in java­script e python che in ita­liano o inglese.
Alessio Cimarelli

Andrea Borruso

Software development at PANOPTES srl
Geomatico, mi occupo di rilevamento e trattamento informatico di dati relativi alla Terra e all’ambiente, ho una società che costruisce sensori per droni (Panoptes srl) e sono uno degli autori delle linee guida Open Data dei Comuni di Palermo e di Matera.
Di notte faccio il civic hacker.

Latest posts by Andrea Borruso (see all)