Buon data-driven Halloween su data​jour​na​li​sm​.it

This post is also avai­la­ble in: Inglese

Mezzanotte, l’Ora del­le Streghe! E nem­me­no il tem­po di ripren­der­si dagli spa­ven­ti not­tur­ni di Halloween che doma­ni ci aspet­ta la Notte dei Morti, quel­la tra Ognissanti (1 Novembre) e, appun­to, il Giorno dei Morti (2 Novembre).

In que­sto perio­do dell’anno anche un pic­co­lo data­ni­n­ja fa pau­ra così masche­ra­to! Per l’esattezza è costrui­to con le paro­le che più fre­quen­te­men­te appa­io­no nei tito­li dei film hor­ror: la base dati è la lista dei tito­li di 3000 film (sele­zio­na­ti da un tota­le di poco più di 9000 tito­li che tro­va­te qui) estrat­ta da Freebase (dopo un’istrut­ti­va discus­sio­ne sul­la mai­ling list di SOD), men­tre la word cloud costrui­ta sul pro­fi­lo del nostro logo è rea­liz­za­ta con l’app on-line Tagul.

Questo è solo uno dei gio­chi­ni con cui mi sono diver­ti­to nel pre­pa­ra­re il mio ulti­mo post su data​jour​na​li​sm​.itQuando il data­jour­na­li­sm si tin­ge di ros­so… san­gue. Ho pro­dot­to la word cloud com­ple­ta con tut­ti i 9090 film hor­ror elen­ca­ti in Freebase con la clas­si­fi­ca del­le 25 paro­le più usa­te, ho con­fron­ta­to tre Top 10 dei film hor­ror miglio­ri (con qual­che sor­pre­sa), ho pro­dot­to una com­po­si­zio­ne a per­di­ta d’occhio con più di 2000 locan­di­ne di film hor­ror (per que­sto un enor­me gra­zie a Marco Viola di Splattercontainer!).

Per la cro­na­ca il down­load mas­si­vo del­le imma­gi­ni (no, Marco non ne sape­va anco­ra nul­la quan­do gli ho cari­ca­to il ser­ver con più di 2000 acces­si in pochi secon­di!) ha richie­sto solo l’uso dell’uti­li­ty wget, ben nota in ambien­te linux, men­tre per la com­po­si­zio­ne è sta­to suf­fi­cien­te que­sto coman­do (bene­det­ta libre­ria ima­ge­ma­gick):

montage -tile 25x -geometry +0+0 *.jpg collage.jpg

Il mon­tag­gio di tut­te que­ste locan­di­ne mi ha sug­ge­ri­to anche una velo­ce ana­li­si cro­ma­ti­ca del­le imma­gi­ni, giu­sto per veri­fi­ca­re la sen­sa­zio­ne che ci sia­no dei colo­ri pre­fe­ri­ti dagli aman­ti dell’horror. Ecco qua il codi­ce base per otte­ne­re un csv con colo­ri e nume­ro di pixel a par­ti­re da un’immagine (tut­to il gio­co avvie­ne con il pri­mo coman­do con­vert, il resto ser­ve per ripu­li­re l’output e otte­ne­re un csv puli­to):

convert imagename.jpg -colors $colors -depth 8 -verbose info: | \
sed -n '1p; /Histogram:/,/Colormap:/p' | \
head -n -1 | tail -n +3 | \
awk -F'[:#s]' 'BEGIN{print "color,pixel"}{print "#"$3 "," $1}' | \
sed 's/ //g' > data.csv

È imme­dia­to con­sta­ta­re che i colo­ri domi­nan­ti sono il nero, il ros­so scu­ro e i gri­gi.

Infine, ecco un ulti­mo diver­tis­se­ment facil­men­te rea­liz­za­bi­le gra­zie all’open sour­ce: un foto-mosai­co del­la sto­ri­ca locan­di­na di Halloween — La not­te del­le stre­ghe (il miti­co film di Carpenter del 1978)… fat­to con le 2000 locan­di­ne! Almeno per que­sta not­te, ben­tor­na­to Michael Myers! 🙂

Locandina di Halloween - La notte delle streghe (1978)

Foto-mosai­co del­la locan­di­na di Halloween com­po­sta da 2000 locan­di­ne di film hor­ror. Clicca per vede­re l’immagine ad alta riso­lu­zio­ne. Composizione otte­nu­ta con l’utility meta­pi­xel. I dirit­ti del­le sin­go­le imma­gi­ni sono dei legit­ti­mi pro­prie­ta­ri.

Alessio Cimarelli

Alessio Cimarelli

Data scientist at Dataninja
Sono giornalista free-lance, data scientist e sviluppatore web. Dopo la lau­rea in fisica all’Università Sapienza di Roma, ho con­se­guito il master in Comunicazione della Scienza alla SISSA di Trieste e ho comin­ciato a girare l’Italia, tra gior­na­li­, uffici stampa e ricerca pura. Sono co-fondatore di dataninja.it e datamediahub.it e attualmente collaboro con varie testate ita­liane (Wired, L'Espresso, Secolo XIX) e alcune agen­zie edi­to­riali in ambito di data jour­na­lism e svi­luppo web. Sono mem­bro della comu­nità Spaghetti Open Data e ormai scrivo quasi più in java­script e python che in ita­liano o inglese.
Alessio Cimarelli