N.1 2016 - L'utente come risorsa

Navigazione dei contenuti del fascicolo

Qualcosa di nuovo sulla lettura. Nuove prospettive di conoscenza con i big data

Stefano Bandera

Social media analyst, Roma; mr.stefanobandera@gmail.com

Giovanni Caruso

Psicologo, Roma; giovanni_caruso@hotmail.com

Chiara Faggiolani

Dipartimento di Scienze documentarie, linguistico-filologiche e geografiche, Università di Roma la Sapienza; chiara.faggiolani@uniroma1.it

Andrea Ricci

Centro Nazionale per i Trapianti, Roma; andrea.ricci@iss.it

Per tutti i siti web l’ultima consultazione è stata effettuata il 12 maggio 2016.

Il contributo rispecchia globalmente le opinioni dei quattro autori: tuttavia, l’introduzione, le conclusioni e i paragrafi 3 e 5 sono stati scritti da Chiara Faggiolani, il paragrafo 1 da Giovanni Caruso, il paragrafo 2 da Andrea Ricci, il paragrafo 4 da Stefano Bandera.

Abstract

Il tema di questo articolo è la lettura intesa come «ciò che succede quando leggiamo». A quel «succedere quando» sono connessi diversi aspetti: le motivazioni soggiacenti, le sue modalità e i suoi tempi, il cosa si legge e il piacere che se ne ricava, la sua socialità, infine. Queste dimensioni definiscono il significato attribuito alla lettura: esse non sono il background, non sono qualcosa di esterno, per intenderci, sono dentro l’esperienza di lettura.

Le ricerche in questo ambito, invece, tendono a concentrarsi essenzialmente sugli aspetti quantitativi dei comportamenti e delle scelte dei lettori: sappiamo come segmentarli, in base a quali variabili, sappiamo quanti libri leggono, quali generi amano, quale è il canale che preferiscono, quanto spendono. Indagando tra le pieghe della statistica ufficiale non è facile intercettare il cambiamento delle pratiche di lettura alla luce delle trasformazioni soprattutto tecnologiche in corso.

Sulla base di queste premesse l’articolo presenta il progetto di ricerca PERCE.READ (La percezione della lettura in Italia nel contesto del social reading), finalizzato a studiare il ”contesto” in cui avviene la lettura oggi, farne emergere le ”connessioni” con altre pratiche, in definitiva ridefinirne il ”significato”, soprattutto alla luce delle trasformazioni tecnologiche in corso. Le grandi masse di dati presenti sul web (big data), lasciate più o meno volontariamente dai lettori, sono il ”mezzo” utilizzato per farlo.

La ricaduta auspicata: trasformare questi dati in informazioni utili agli attori della filiera del libro per individuare proposte creative e innovative capaci di rispondere in modo efficace alle sfide lanciate in maniera sempre più stringente dalla complessità del contesto in cui operano, soprattutto sul fronte della promozione della lettura.

English abstract

This paper is about reading, considered as «what happens when we read». Different aspects are related to this «to happen when»: the underlying motivations, its mode and its timing, what we read and how satisfied we are and finally its sociability.

These dimensions define the present meaning of reading: they are not only the background of reading, they are not something external, they are the reading experience.

Research in this field in Italy tends to focus on quantitative aspects of behaviour and choice of readers: we know how to segment them, the principal variables, we know how many books they read, what genres they love, which is the channel they prefer and how much they spend.

If we try to investigate into the folds of official statistics, it is not easy to pick up the change of the reading practices in the contest of technological transformations.

On these premises, this paper presents PERCE.READ (Perception Reading in Italy in the contest of social reading), a research project aimed at studying the ”context” in which the reading takes place today, brings out the ”connections” with other practices. All this is useful for redefining the meaning of reading.

The great quantity of data on the web (big data), left more or less voluntarily by the readers, are the means used for these analyses. The awaited impact is to turn big data into useful information for the publishing industry. This sector could acquire creative and innovative proposals capable to responding effectively to the challenges of the context in which it operates, especially in terms of reading promotion.

Introduzione

La lettura è l’oggetto di studio del pro­getto di ricerca che si presenta in que­ste pagine. Lettura intesa come «ciò che succede quando leggiamo». A quel «succedere quando» sono con­nessi diversi aspetti: le motivazioni soggiacenti, le sue modalità e i suoi tempi, il cosa si legge e il piacere che se ne ricava, la sua socialità, infine.

Queste dimensioni – il sospetto è che non siano soltanto queste – insieme definiscono il suo significato: esse non sono il background, non sono qualcosa di esterno, per intenderci, sono dentro l’esperienza di lettura.

Il progetto PERCE.READ (La perce­zione della lettura in Italia nel contesto del social reading), nato all’interno della cornice istituzionale del Master in Data science dell’Università degli studi di Roma Tor Vergata, si propo­ne di studiare il “contesto” in cui av­viene la lettura oggi, farne emergere le “connessioni” con altre pratiche, in definitiva definirne il “significato”, a partire dalle possibilità offerte da quello scenario tecnologico e prima ancora conoscitivo in rapidissima evoluzione che va sotto il nome di big data, ovvero le grandi masse di dati presenti sul web, lasciate più o meno volontariamente dai lettori.

La nostra convinzione è, infatti, che la lettura si stia profondamente ri­configurando non solo per il «suo migrare dal testo/libro gutenberghiano al testo/libro digitale» ma anche in «uno spazio “altro”, il Web, i cui segni frusciano tra macchine e menti delle persone, e tra macchine ed altre macchine, nascosti nella loro invisibile forma digitale».

Il gruppo di ricerca che ha lavorato al progetto PERCE.READ si caratteriz­za per la sua spiccata interdisciplinarità: la competenza nel trattamento statistico dei dati strutturati e non strutturati, la conoscenza dei social media, delle policy relative alla pri­vacy e all’estrazione informatica dei dati, unite alla conoscenza dei pro­cessi cognitivi implicati nella lettura sono state fondamentali per la pro­gettazione, la rilevazione, l’analisi e l’interpretazione dei dati nel partico­lare contesto degli studi sulla lettura. Si ritiene utile sottolineare tale aspetto perché accostandosi a studi di questo tipo la commistione di diversi approc­ci metodologici e interpretativi appare essere una conditio sine qua non.

Per ragioni di spazio e per meglio ri­spondere agli obiettivi della sezione che ci ospita, ovvero presentare ricer­che innovative e in progress, ci soffer­meremo essenzialmente sul metodo utilizzato nel nostro studio ed è per questo che essenzialmente è di trac­ce lasciate dai lettori che parleremo.

Il cervello che legge

La lettura è un processo cognitivo molto complesso rispetto al quale è necessario aprire una breve pa­rentesi utile alla contestualizzazione della nostra ipotesi di lavoro.

Alla voce ”lettura” del Dizionario di Psicologia di Umberto Galimberti, leggiamo che si tratta di un «pro­cesso di acquisizione informativa che consente, previo riconosci­mento delle combinazione segni che che costituiscono le parole del linguaggio scritto, l’associazione del significante (segno) al signifi­cato (senso)». Il riconoscimento della parola scritta, quindi, avviene dapprima a livello percettivo-visivo tramite l’identificazione delle singo­le lettere che la compongono all’in­terno di un processo influenzato dal grado di familiarità della forma della parola che è stato acquisito con l’esercizio. Segue poi il livel­lo semantico di decodifica del si­gnificato delle parole nel quale, in sostanza, si passa da una rappre­sentazione visiva ad una rappresentazione interiore del suono e del significato in base a quel “lessico interno” che si acquisisce a partire dalla propria esperienza linguistica. A livello neuronale si può quindi af­fermare che sussistono a due diffe­renti reti cerebrali:

- la rete cerebrale del suono, com­prendente le regioni superiori del lobo temporale, la corteccia fronta­le inferiore e la corteccia precentra­le dell’emisfero sinistro e, nei casi in cui vi sia compatibilità fra lettere viste e suoni uditi, la regione del planum temporale che viene speci­ficamente attivata;

- la rete cerebrale del significato, comprendente la parte posterio­re della circonvoluzione temporale media, il lato ventrale anteriore del lobo temporale e la parte triango­lare della regione frontale inferiore dell’emisfero sinistro e, nei casi in cui due o più parole condividono lo stesso significato, la regione tem­porale media sinistra, anch’essa specificamente attivata.

È, dunque, grazie all’attivazione della regione occipito-temporale ventrale sinistra che riusciamo a riconoscere le lettere e le parole: tale regione, secondo Stanislas Dehaene, si sarebbe riciclata a tale funzione. Secondo questa tesi, nota come “riciclaggio neuronale”, il nostro cervello, grazie alla sua in­nata plasticità che gli ha consentito di adattarsi all’ambiente circostante, per poter acquisire le competenze necessarie alla lettura nell’attuale contesto culturale ha dovuto conver­tire vecchie funzioni che avevano una utilità nel nostro passato evolutivo.

Inoltre, la scoperta dei “neuroni specchio” ha implicazioni impor­tanti nell’esperienza di lettura. Mol­to sinteticamente, si può dire che grazie a queste particolari cellule, quando si osserva qualcuno ese­guire un’azione, all’attivazione delle aree visive il nostro sistema moto­rio si attiva come se noi eseguissi­mo le azioni che osserviamo. In so­stanza, vedere un’azione significa simularla. Ciò vale non solo quan­do si vede compiere un’azione ma anche quando se ne sente parlare o quando se ne legge. In tal senso i neuroni specchio sono ritenuti alla base dei processi di coinvolgimen­to emotivo ed empatico.

Considerato che la letteratura ri­crea un mondo di emozioni e di esperienze e sia le emozioni sia le esperienze dei personaggi lette­rari abitano il mondo immaginario del romanzo, il meccanismo di si­mulazione ci aiuta ad attraversare quel mondo fittizio permettendo di capire e, in parte, rivivere le emo­zioni dei protagonisti e le loro vicissitudini. Ai fini della nostra analisi, questo consente di poter avanzare ipotesi interpretative più strutturate sull’esperienza di lettura.

Cosa sappiamo dei lettori e della lettura

Le ricerche sull’esperienza di lettura delle neuroscienze sono ancora agli inizi.

L’attenzione degli studiosi, degli edi­tori e più in generale degli attori della filiera del libro negli ultimi anni si è con­centrata soprattutto su due aspetti:

Le ricerche sui lettori tendono a concentrarsi essenzialmente sugli aspetti quantitativi dei comporta­menti e delle scelte: sappiamo come segmentarli, in base a quali variabili, sappiamo quanti libri leggono, quali generi amano, quale è il canale che preferiscono, quanto spendono.

Molta meno attenzione è stata de­dicata al connubio tra le diverse questioni: indagando tra le pieghe della statistica ufficiale non è affat­to facile intercettare il cambiamen­to delle pratiche di lettura alla luce delle trasformazioni soprattutto tecnologiche in corso.

Usando le parole di Roberto Casati: «ci sono oggi più risposte (tecnolo­giche) che domande (sociali), e do­vremmo quindi cominciare a metter­ci in cerca delle buone domande». Le stime sulla lettura dal 1993 provengono dall’indagine annuale Aspetti della vita quotidiana che dal 2001 rileva anche dati riguardanti l’uso delle nuove tecnologie: per­sonal computer e Internet.

Nel 2015 in Italia i lettori – secondo l’Istat le persone di sei anni e più che dichiarano di aver letto almeno un libro nel corso dell’anno per motivi non scolastici o professionali – sono stati il 42,0% della popolazione.

Dopo il forte incremento verificatosi negli ultimi trent’anni del Novecento – la percentuale è passata dal 16,6 del 1965 al 40,7 del 1996 – e dopo un lento ma progressivo aumento della quota di lettori registrato a partire dal 2000, che ha raggiunto il picco massimo nel 2010 (46,5%), negli ultimi quattro anni si è mani­festata una altrettanto lenta e pro­gressiva inversione di tendenza: la quota di persone che dichiarano di aver letto almeno un libro nel tem­
po libero nell’arco dei 12 mesi pre­cedenti l’intervista è scesa dal 46% nel 2012, al 41,4% nel 2014, per poi invertire lievemente il trend ed arrivare al 42,0% del 2015 (Fig. 1). Solo il 13,7% dei lettori sono ”forti”, leggono, cioè, in media almeno un libro al mese. Sono lo zoccolo duro del mercato editoriale: da soli essi acquistano circa il 40% dei libri venduti in Italia. Non sono i lettori forti ad aver smesso di leggere libri: appassionati e fedeli, leggono tan­to e nel tempo.

La quota più significativa di lettori in Italia è rappresentata dai cosid­detti ”deboli”, coloro che leggono al massimo tre libri in un anno. Rap­presentano il 45,5% dei lettori: quasi 11 milioni di persone che mostrano un rapporto saltuario e fragile con la lettura. Quasi la metà dei lettori tota­li. Sono prevalentemente maschi – il 49,3% dei lettori maschi non legge più di 3 libri in un anno – con al più la licenza media (52,4%), e residenti nel Sud del paese (60.2%).

È opinione largamente condivisa che i comportamenti di lettura sia­no condizionati da numerosi fattori di natura ambientale, culturale, so­ciale, familiare.

Al fine di meglio comprendere lo scenario della lettura in Italia sopra descritto, per prima cosa abbiamo ritenuto opportuno approfondire i dati aggregati pubblicati dall’Istat nel rapporto La produzione e la lettura di libri in Italia: anno 2015, per quantificare l’effetto ovvero il peso delle variabili che maggior­mente influenzano la lettura in Italia. In particolare abbiamo analizzato le tre variabili che la letteratura in ma­teria definisce fortemente incidenti sui comportamenti di lettura: il tito­lo di studio, il sesso e l’età.

Dopo aver disaggregato in ma­niera semi-automatica il dato Istat abbiamo eseguito una regressione logistica ordinata per valutare l’ef­fetto delle singole co-variate sulla variabile di esito, ovvero il numero di libri letti. Tutte le variabili disponi­bili erano di tipo categoriale codifi­cate come segue:

  • Sesso: 0: maschio, 1: femmina;
  • Classe età: 0: >65; 1: 45-64; 2; 25-44; 3: 06-24;
  • Titolo di studio: 0: Licenza elementare; 1: Licenza media; 2: Di­ploma superiore; 3: Laurea e post­laurea.

Come variabile di outcome è sta­to utilizzato il numero di libri letti nel corso dei 12 mesi che hanno preceduto l’intervista (secondo la codifica 0; 1-3; 4-6; 7-11; >12). La variabile di outcome è, dunque, di tipo categoriale ordinata.

L’analisi è stata eseguita utilizzando il software STATA v.10.1.

In Tabella 1 vengono riportati i risulta­ti della regressione logistica ordinata. Tutte le variabili analizzate evidenzia­no un effetto statisticamente significa­tivo sulla lettura, confermando quanto sottolineato dalle indagini Istat.

Dall’analisi multivariata risulta evi­dente come il titolo di studio (odds Ratio = 1,97 Sta. Err = 0,018) e il sesso (odds Ratio = 1,9, Sta. Err = 0,032) siano le variabili che quan­titativamente influenzano di più la lettura. Il sesso femminile e un elevato titolo di studio sono entrambi fattori che favoriscono la lettura.

Anche l’età influenza la lettura in maniera inversamente proporziona­le – i soggetti giovani sono quelli che leggono di più – ma il suo effetto è quantitativamente meno rilevante. La quota di lettori nel nostro paese è superiore al 50% della popolazione solo tra gli 11 ed i 19 anni mentre la fascia di età in cui si legge di più è quella tra i 15 e i 17 anni (53,9%).

L’aspetto più preoccupante è che sono proprio i più giovani ad aver smesso di leggere libri, ovvero la fa­scia d’età che ha sempre registrato (e tuttora registra) la percentuale di diffusione più alta della lettura. Nel 2015 rispetto all’anno precedente la quota di lettori è, infatti, diminuita dal 44,6% al 44,0% per i ragazzi tra i 6 ed i 10 anni; dal 53,5% al 52,1% per quelli tra gli 11 ed i 14 anni; dal 51,7% al 50,3% per giovani tra i 18 ed i 19 anni.

Solo la fascia di età tra i 15 e i 17 anni mostra un aumento della percentuale di lettori dal 51,1% al 53,9% divenendo la fascia di età che legge di più.

La lettura di libri viene praticata soprattutto dalle persone con un titolo di studio più elevato: leggono tre laureati su quattro (il 75,0% nel 2015 e il 74,9% nel 2014), ma la proporzione si riduce a uno su due fra chi ha conseguito al più il tito­lo di diploma superiore (50,2% nel 2015 e il 51,1% nel 2014).

Mentre la correlazione positiva tra lettura e titolo di studio o condizione professionale dovrebbe apparire ab­bastanza scontata, ciò che merite­rebbe un diverso approfondimento è proprio il numero di laureati o dirigenti che dichiara di non prendere mai un libro tra le mani nel corso dell’anno. Nel 2015 il 25% dei nostri concitta­dini laureati e il 49,8 % dei diploma­ti dichiara all’Istat di non aver letto neppure un libro nel tempo libero nei 12 mesi precedenti all’intervista.

Se, nel complesso, il livello di istru­zione influisce in misura rilevante sui livelli di lettura (la quota di lettori oscilla tra un valore massimo del 75,0% fra i laureati ed un minimo del 25,7% per chi possiede al più la licenza elementare), osservando più nel dettaglio il fenomeno attra­verso un confronto generazionale si rileva che anche tra le persone con un titolo di studio superiore la propensione alla lettura è andata diminuendo nel corso del tempo. I laureati con più di 45 anni leggono, infatti, in proporzione di più rispetto alle persone più giovani con equi­valente livello d’istruzione.

«Evidentemente – come sottolinea il primo Rapporto sulla promozio­ne della lettura in Italia – non basta saper leggere per diventare lettori – e aggiunge – in Italia, più ancora che in altri paesi industrializzati, si manifesta una forte discrepanza fra la crescita dei livelli di alfabetizza­zione e i tassi di lettura nel tempo libero. Infatti, dobbiamo constatare che da qualche decennio crescita dell’istruzione e crescita della lettu­ra viaggiano a velocità differenti».

Figura 1 Andamento della lettura dal 1965 al 2015 in relazione alle diverse fonti Istat. Valore espresso in %
Tabella 1 Risultati della regressione logistica ordinale

Nuove prospettive di conoscenza con i big data

Un aspetto decisivo che pare oppor­tuno sottolineare è che nelle indagini Istat sopra descritte il rapporto con la lettura rilevato è assolutamente quan­titativo, ma l’oggettività dei dati pog­gia su una domanda iniziale che possiamo definire del tutto soggettiva: gli intervistati si autodefiniscono lettori in base alla loro personale percezione di cosa sia la lettura e il libro. Il sospet­to è che l’utilizzo dei media digitali oltre ad aver modificato le abitudini di lettura stia cambiando anche la percezione e il significato attribuito a questa pratica. È esattamente questo aspetto che ab­biamo cercato di approfondire attra­verso l’utilizzo dell’approccio big data. Una definizione puntuale di questo fenomeno non è ancora stata forma­lizzata. In questa sede si fa riferimento a quella più accreditata:

Big data is high-volume, high-ve­locity and high-variety information assets that demand cost-effecti­ve, innovative forms of information processing for enhanced insight and decision making.

Oggi abbiamo a disposizione ingenti quantità di dati, di vari tipi e con diverso grado di qualità, che facciamo fatica ad inquadrare in categorie predefinite perché molto diversi da quelli a cui sia­mo stati abituati e con i quali abbiamo interagito finora. Grandi quantità di dati complessi che forniscono informazioni su fenomeni altrimenti difficilmente os­servabili in modo diretto.

Attraverso l’uso delle applicazioni ICT per le nostre attività quotidiane lascia­mo in modo più o meno volontario ”briciole digitali”: lasciamo una traccia nei social network a cui partecipiamo, nelle query che poniamo ai motori di ricerca, nei tweet che inviamo e riceviamo. Queste tracce, se opportu- namente analizzate, consentono di registrare e approfondire i comporta­menti individuali e collettivi, i desideri, le opinioni, le relazioni tra le persone, la percezione dei fenomeni.

Il processo di gestione e analisi dei dati è costituito da sei passaggi (Fig. 2): (1) acquisizione, (2) estrazione, (3) integrazione, (4) analisi, (5) interpreta­zione, (6) decisione.

Nella fase di acquisizione (1), si selezio­nano i dati, che vengono filtrati e puliti per ridurne la possibile mancanza di accuratezza. In questa fase vengono generati eventuali metadati associati ai dati (ad esempio, come i dati sono sta­ti acquisiti, da quale fonte ecc.).

Poiché i dati acquisiti non saranno tipicamente già nel formato richie­sto per l’analisi, durante la fase di estrazione (2) occorre trasformare i dati, normalizzarli, pulirli per miglio­rarne la veridicità.

È in questa fase, ad esempio, che se si vuole procedere ad una analisi di text mining i dati acquisiti da fonti diverse verranno integrati ad esem­pio in un unico corpus (3), secondo le logiche del software di analisi che il ricercatore avrà deciso di utilizzare. Le fasi appena esaminate (acqui­sizione, estrazione e integrazione) possono essere inglobate nella più generale fase di ”preparazione dei dati”, che rappresenta un momento cruciale nella gestione dei big data. Nella fase di analisi (4) i dati vengono esplorati per estrarre l’informazione ricercata. Tale esplorazione richiede l’adozione di metodologie che differiscono da quelle tradizionalmente usate per l’analisi statistica di piccoli campioni, e che comprendono tec­niche di data mining, text mining, machine learning.

La successiva fase di interpretazione (5) richiede la conoscenza dell’ambi­to di riferimento dei dati stessi. Solo la conoscenza del contesto, della provenienza dei dati può consenti­re l’identificazione dei pattern di in­teresse. La medesima conoscenza approfondita del contesto di riferi­mento è determinante anche nell’ul­tima fase di decisione (6) finalizzata all’utilizzo delle informazioni ricavate in modo efficace e mirato.

Tornando all’obiettivo specifico del progetto PERCE.READ – ovvero indagare la percezione della lettura attraverso le tracce lasciate in rete dai lettori – abbiamo ritenuto oppor­tuno applicare una analisi di opinion mining. Con questa espressione – sovente utilizzata come sinonimo di sentiment analysis – si fa riferimento ad un metodo che, raccogliendo e analizzando in tempo reale le reazioni degli utenti o i trend su un qualsiasi fenomeno a partire dai contenuti pre­senti nei social network, attraverso particolari tecniche di text mining, de­finisce l’opinione positiva o negativa, l’intensità di tale opinione, l’emotività con la quale è stata espressa e la sua rilevanza da parte del pubblico.

Particolarmente congeniale al nostro obiettivo è sembrata la campagna di promozione della lettura #ioleggoperché promossa dall’Associa­zione italiana editori nel 2015 che, oltre ad una serie di eventi “reali” nelle piazze, ha previsto anche una intensa attività sui principali social network, generando una grande at­tività di conversazione su libri e let­tura. La campagna chiedeva, infatti, ai lettori di esprimere e raccontare la propria passione per la lettura e condividerla attraverso l’utilizzo delle principali piattaforme social con l’u­tilizzo dell’hashtag #ioleggoperché. Per questa ragione è sembrato particolarmente coerente con gli obiettivi del nostro progetto utilizzare i testi prodotti nel periodo che va da mar­zo a settembre 2015 in occasione di questa campagna come fonte prin­cipale per la costruzione del corpus oggetto dell’analisi di opinion mining.

Figura 2 Processo di gestione e analisi dei big data

L’estrazione dei dati e il processo di data cleaning

Prima di entrare nel merito del pro­cesso di estrazione dei dati dal web, che ha consentito di costru­ire il corpus della nostra analisi, sembra utile aprire una brevissima parentesi sull’utilizzo dei social net­work nel nostro paese.

Il caso italiano è, infatti, abbastanza curioso. In rapporto agli altri stati dell’Unione europea, l’Italia registra una delle percentuali più basse di penetrazione di Internet tra la po­polazione: secondo i dati Eurostat, nel 2014 ancora un italiano su tre non ha utilizzato la rete.

A fronte di questa bassa penetra­zione si registra, al contrario, un utilizzo massiccio dei social net­work in linea con gli altri stati eu­ropei, con una penetrazione che arriva a toccare quasi la metà della popolazione italiana (46%). Com­plessivamente sono 28 milioni gli italiani che hanno utilizzato almeno una volta i social media nell’arco del 2014, con 22 milioni di utenti che ormai vi accedono tramite di­spositivo mobile.

Avere coscienza di questi numeri è importante perché l’universo di rifermento per la raccolta dei testi per l’analisi di opinion mining è sta­to proprio lo spazio virtuale del web e in particolare i canali del cosid­detto web 2.0 tra cui siti di blog­ging e social media.

La fase di text mining è stata prece­duta dalla definizione e dalla messa a punto del corpus testuale tramite l’utilizzo di operatori booleani per la definizione delle chiavi di ricerca e tramite tecniche di web scraping, in grado di recuperare contenuti sulle principali piattaforme web.

Il processo integrato di definizione della keyword di ricerca, di esplo­razione o crawling, e di estrazione dei dati è stato eseguito tramite il software proprietario Tracx.

Tracx è una piattaforma di social media analytics sviluppata per il settore commerciale in grado di recuperare e rielaborare dati web provenienti da fonti diverse in un range temporale limitato, al con­trario dei principali software open source che richiedono una più len­ta elaborazione e un accesso alle API (Application Programming In­terfaces) di siti web più limitato.

La lettura, oggetto della ricerca, si legava ad una serie di keyword per­tinenti quali: ”lettura”, ”libro”, “legge­re”. Se tali termini erano da un lato inclusi nel topic di analisi, dall’altro lato risultavano essere troppo gene­rali e poco adatti per il recupero di testi online specifici per l’approfon­dimento del tema della percezione. Abbiamo, quindi, ritenuto oppor­tuno non partire da tali termini ma utilizzare parole chiave più specifi­che, scelte tra gli hashtag di cam­pagne di promozione della lettura quali #ioleggoperché, che oltre ad avere un’estensione semantica più ristretta, erano funzionali al nostro scopo di rilevazione dell’opinione. Alla scelta di questi termini è segui­ta un’analisi qualitativa tramite tag cloud sui contenuti già raccolti con le chiavi di ricerca generali individua­te in precedenza. L’obiettivo era os­servare se tra le sequenze di parole più ricorrenti ve ne fossero alcune che rimandassero al nostro tema di ricerca, così da poterle includere nella query finale. Espressioni e hype emersi sono stati: ”mi piace leggere”, ”#23 aprile”, ”amo leggere”.

La chiave di ricerca risultante è sta­ta ottenuta tramite la combinazio­ne dei diversi operatori logici OR, AND, NOT. Si è inoltre proceduto legando alcuni termini o espressio­ni tra loro con una distanza massi­ma di tre parole, in modo da evitare contenuti fuori tema.

#ioleggoperché OR [io leggo perché]~3 OR ioleggoperché OR ioleggodifferente OR #ioleggodifferente OR [io leggo differente] OR [piace leggere perché]~3 OR #librialpiede OR [libri al piede] OR librialpiede OR #libriinvaligia OR [libri in valigia] OR libriinvaligia OR #vivalalettura OR [viva la lettura] OR vi- valalettura OR #amoleggere OR [amo leggere]~3 OR #vivalalalettura OR vivalalettura OR [viva la lettura] OR (#23aprile AND leggo) OR (#23aprile AND lettu­ra) OR (#23aprile AND leggere) OR (#23aprile AND “libro”) .

La fase di crawling o esplorazio­ne, avvenuta tramite l’accesso alle API, presenti su siti e piattaforme web, ci ha consentito di recuperare contenuti quali post, articoli, tweet da siti di news, social network, blog e forum entrati poi a far parte del corpus definitivo. Occorre, inoltre, specificare che non tutti i siti web consentono l’accesso ad applica­zioni terze e spider: alcuni come Facebook hanno cambiato di re­cente la propria policy in tale senso, mentre altri forniscono un ordine di priorità di accesso ai diversi spider in seguito ad accordi commerciali. Nella successiva fase di scraping sono stati analizzati i metadati, scaricati e importati in un database locale. Nel nostro caso i contenu­ti scaricati tramite scraping hanno portato in un primo momento alla costituzione di un corpus costitui­to da un totale di 47.827 record, il 58% dei quali estratti da Twitter, il 21% da Facebook, il 16% da Insta­gram e il restante 5% da blog e altri social media (Fig. 3).

Nell’esplorare i dati all’interno del dataset abbiamo individuato un problema di duplicazione dei con­tenuti, successivamente eliminati, dovuto a due fattori:

  1. un errore automatico del software di scraping (843 item). Questo è un errore che avviene di frequente, so­prattutto su medie e grandi moli di dati, per via delle difficoltà di dialogo tra software e API del sito richiamato;
  2. la presenza in rete, e in particola­re sui social network, di bot (abbre­viazione di robot) in grado di inviare contenuti in modo automatico – nel nostro caso, 1.281 tweet identici prodotti da un bot su Twitter in po­chi minuti – e produrre altre azioni sociali.

Questa prima operazione di data cleaning ha portato, quindi, alla definizione del corpus testuale, in totale 45.703 record, da importare nel software di analisi statistica del testo IRaMuTeQ per la successi­va fase di text mining.

Dopo una prima analisi del corpus, ci siamo resi conto che hashtag, URL e indirizzi mail sporcavano eccessivamente l’analisi, tanto da renderla scarsamente informativa. Abbiamo intrapreso quindi ad una seconda attività di data cleaning, questa volta lavorando direttamen­te sul file .txt, attraverso l’utilizzo di editor di testo avanzati e delle se­guenti regular expression:

Figura 3 Fonte dei testi estratti (in %)

TROVA TUTTE LE STRINGHE CHE INIZIANO CON HTTP FINO ALLO SPAZIO SUCCESSIVO (https?:\/\/[^\s]+) (www[^\s]+)

_^(?:(?:https?|ftp)://)(?:\S+(?::\

S*)?@)?(?:(?!10(?:\.\d{1,3}) {3})(?!127(?:\.\d{1,3}){3}) (?!169\.254(?:\.\d{1,3}){2}) (?!192\.168(?:\.\d{1,3}){2}) (?!172\.(?:1[6-9]|2\d|3[0-1]) (?:\.\d{1,3}){2})(?:[1-9]\d?|1\d\ d|2[01]\d|22[0-3])(?:\.(?:1?\ d{1,2}|2[0-4]\d|25[0-5])){2}(?:\. (?:[1-9]\d?|1\d\d|2[0-4]\d|25[0- 4]))|(?:(?:[a-z\x{00a1}-\x{ffff}0- 9]+-?)*[a-z\x{00a1}-\x{ffff}0-9]+) (?:\.(?:[a-z\x{00a1}-\x{ffff}0-9]+- ?)*[a-z\x{00a1}-\x{ffff}0-9]+)*(?:\. (?:[a-z\x{00a1}-\x{ffff}]{2,}))) (?::\d{2,5})?(?:/[^\s]*)?$_iuS

TROVA TUTTE LE E-MAIL: \b[A-Z0-9._%+-]+@[A-Z0-9.-]+\. [A-Z]{2,4}\b

TROVA TUTTI GLI HASHTAG

(\B#\w\w+) (?:(?<=\s)|^)#(\w*[A-Za-z_.\?]+\w*) questa Ë migliore

TROVA TUTTE LE STRINGHE CHE INIZIANO CON @ (?:(?<=\s)|^)@(\w*[A-Za-z_.\?]+\w*)

Dopo l’eliminazione di hashtag, URL e indirizzi mail abbiamo ottenuto il corpus definitivo composto da 44.928 UCI (unità di contesto iniziali), 37.694 forme grafiche e 1.650.864 occorrenze, con un 46,01% di ha­pax (17.344) ovvero le parole che ri­corrono una sola volta, come mostra il diagramma di Zipf in Fig. 4.

Figura 4 Diagramma di Zipf

Uomini e donne che leggono: come cambia il significato attribuito alla lettura

La lettura è un passatempo de­cisamente femminile. Le indagini Istat dimostrano da sempre come le donne abbiano una maggiore propensione alla lettura già a par­tire dai 6 anni di età: nel 2015, ad esempio, complessivamente il 48,6% delle femmine e solo il 35% dei maschi hanno letto almeno un libro nel corso dell’anno. Per que­sta ragione è sembrato particolarmente interessante osservare cosa si nasconde dietro le conversazioni sulla lettura di uomini e donne at­traverso l’analisi di specificità del lin­guaggio femminile vs maschile.

In questo paragrafo presentiamo in estrema sintesi qualche risultato ottenuto.

L’estrazione dei dati dal web, come evidenziato nei paragrafi precedenti, necessita di grande accortezza nel processo di data cleaning. Per più della metà dei testi estratti (53%), infatti, il sesso non era specificato (ND): il 34% dei testi era riconducibile a donne e solo il 13% a uomini. Per questa ragione è stata esclusa la modalità ND. L’analisi di speci­ficità ha evidenziato una sovra-rappresentazione delle forme verbali nelle donne rispetto agli uomini.

Sono state, quindi, prese in consi­derazione le azioni sovra-rappre- sentate (ovvero >2 per le donne) o sotto-rappresentate (ovvero <2 per gli uomini). Nel merito dei significa­ti, è stato osservato che le azioni che le donne esprimono parlando di lettura sono riferibili essenzial­mente a 6 ambiti:

  1. emozioni: è stato osservato un vissuto emozionale molto forte con­nesso a polarità tendenzialmente positive: ”piangere” (+ 6,07), ”sorridere” (+5,11), ”ridere” (+ 2,38), ”commuovere” (+ 2,09). Non mancano però le emozioni negative: la ”paura” (+4,39) è l’emozione specifica più pe­culiare del linguaggio femmini­le insieme alla ”felicità” (+4,35);
  2. empatia/partecipazione: ”aiutare” (+3,59), ”incentivare” (+3,44), “condividere” (+3,36), “raccontare” (+2,93), “partecipare” (+2,75), “im­medesimare” (+2,36), “coin­volgere” (+2,25);
  3. scoperta/evasione: ”scoprire” (+8,44), ”viaggiare” (+3,94), ”immergere” (+ 3,61), ”sogna- re” (+2,98), ”fingere” (+2,74), ”partire” (+2,68), ”evadere” (+2,62), ”sfuggire” (+2,09), ”dimenticare” (+2,07). L’e­vasione si lega ad un altro universo di senso molto denso, che è quello attinente la famiglia, estremamente presente nel linguaggio specifico delle donne, ma anche all’universo della re­sistenza e della salvezza;
  4. resistenza/salvezza: ”bastare” (+4,62), ”resistere” (+3,54), ”sopravvivere” (+2,91), ”mancare” (+2,20), ”accettare” (+2,08), ”respirare” (+2,04);
  5. sentimento: ”piacere” (+13,94), ”amare” (+13,34), ”sentire” (+11,56), ”adorare” (+7,08), ”innamorare” (+2,8401), ”appassionare” (+2,48);
  6. poter fare: ”fare” (+16,91), ”potere” (+11,19), ”accadere” (+8,31), ”riuscire” (+6,64), ”diventare” (+6,60).

La lettura è percepita come la chia­ve per evadere dai problemi del quotidiano e per ritagliarsi uno spa­zio proprio e intimo, ricco di emo­zioni e magia. Sembrerebbe che le donne nella lettura possano trovare emozioni, sentono di poter fare tut­to e ambiscono a vivere le vite più diverse, evadendo dai problemi del reale, esplorando dimensioni nuove e magiche attraverso il coinvolgi­mento empatico con i personaggi e le loro vicissitudini. La lettura, in tal senso, sembrerebbe essere sim­bolizzata come nutrimento interio­re, non tanto per la mente quanto per il cuore. Anche gli aggettivi, infatti, denotano un universo di senso positivo in cui domina l’aspetto emozionale: ”felice” (+7,93), ”meraviglioso” (+7,35), ”fantastico” (+6,54), ”magico” (+3,19), ”perfetto” (+2,85).

Rispetto alla specificità del linguag­gio maschile è stata osservata una maggiore eterogeneità dei conte­nuti caratterizzati dall’assenza di forme troppo specifiche e facilmen­te riferibili a precisi contesti e ambiti di vita. Per le azioni connesse alla lettura, infatti, è parsa interessan­te la presenza di azioni riconduci­bili all’esternazione delle emozio­ni – ”assistere” (+ 4,78), ”vedere” (+3,23), ”ballare” (+3,06), ”celebrare” (+2, 88) – piuttosto che all’in­teriorizzazione delle stesse, come osservato per le donne.

Questa ipotesi ha assunto più corpo con l’esplorazione delle altre forme grammaticali, con particolare atten­zione ai nomi – la forma maschile per eccellenza. Due gli universi di senso più densi che, per fornire una sintesi efficace, abbiamo definito la ”saga” con una sovra-rappresentazione dei ruoli che fanno riferimento all’ambito dell’azione fisica e del combattimen­to – ”cavaliere” (+8,15), ”padrone” (+5,54), ”teatrale” (+5,32), ”potente” (+5,00), ”nobile” (+5,00), ”culmine” (+4,81), ”re” (+3,86), ”conquista” (+ 3,82) – e il ”musical” che apre alla dimensione della poli-sensorialità – ”concerto” (+ 2,78), ”coreografico” (+2,74), ”theatre” (+2,74), ”danzatore” (+2,74), ”musicale” (+2,54), ”ballo” (+2,48). In generale, gli uomini sono attratti dalle emozioni forti e dall’effetto sorpresa: azione, movimento, sensazioni forti sono ciò che amano della lettura.

L’analisi di specificità per sesso ha quindi evidenziato profonde differen­ze nella percezione della letteratura da parte dei due generi. Questi dati, se relazionati con le statistiche sulla lettura, spiegano che la differenza non è soltanto quantitativa ma pro­fondamente legata alle motivazioni soggiacenti e al significato, anche emotivo, attribuito a questa pratica. Già questi dati sono sufficienti a farci ipotizzare che una campagna di pro­mozione della lettura per essere effica­ce debba prevedere diversi stili e lin­guaggi per i due sessi, utili a sollecitare i diversi universi di senso coinvolti.

Tale differenza sembra sostanziar­si nella ricerca per generi letterari. Negli uomini è interessante la sovra-rappresentazione della parola ”fumetto” (+2,33), genere sovente considerato minore ma evidente­mente interessante ed amato dal genere maschile; per le donne sono sovra-rappresentati i generi ”fantasy” (+2,39) e ”romance” (+2,58).

Conclusioni

Avere tanti dati a disposizione (big data) non significa necessariamente avere un alto potenziale informati­vo. Chi si avvicina a studi di questo genere deve sapersi muovere con molta cautela ed estremo rigore poiché diverse sono le difficoltà che si possono incontrare strada facendo, soprattutto nella fase di scraping e di data cleaning, come messo in evidenza nei paragrafi precedenti. Questi aspetti, spesso (ma non sempre) evidenziati dalla letteratura sul trattamento dei big data, si pos­sono pienamente e consapevol­mente cogliere solo “sporcandosi le mani con i dati”. È dal mettere le mani in pasta che possono emer­gere interessanti suggestioni e utili indicazioni rispetto alle potenzialità degli strumenti e alle criticità dei vari step del processo di ricerca.

Il contesto della lettura è fatto di tante cose: informazioni – per esempio le informazioni disponibili sui libri o le recensioni scritte dai lettori – di mezzi – i social network o i media più tradizionali – di per­sone – gli autori, gli editori, i lettori stessi – di istituzioni – le scuole e le biblioteche più di tutti – e di relazio­ni che intercorrono tra queste.

Progetti come PERCE.READ, fina­lizzato a comprendere le dinamiche soggiacenti i comportamenti di let­tura e la sua percezione dimostra­no come sia oggi fondamentale poter integrare una conoscenza essenzialmente deduttiva – come è quella della statistica ufficiale, che rimane comunque punto di riferi­mento imprescindibile per qualsia­si studio sulla lettura – con quella induttiva prodotta dall’analisi di big data. Tale integrazione, riferendosi comunque a dati testuali, può es­sere utilmente implementata da ap­procci basati su logiche inferenziali abduttive utili a formulare ipotesi in­terpretative più attendibili. Si fa riferi­mento, ad esempio, all’analisi emo­zionale del testo, una metodologia elaborata in ambito psicoanalitico e psico-sociologico che, ponendo il focus sul piano affettivo-simbolico delle parole, cerca di rintracciare emozioni entro le produzioni discor­sive e testuali per conoscere e inter­venire nelle relazioni sociali.

Infatti, se attraverso l’induzione da sola ci si affiderebbe esclusivamen­te alla scoperta casuale, facendo affidamento soltanto sul ragiona­mento deduttivo non si potrebbero scoprire cose nuove.

In un contesto di grande trasforma­zione come quello attuale, questo tipo di approccio integrato può es­sere utile agli editori e a tutti gli attori della filiera del libro per individuare proposte creative e innovative ca­paci di rispondere in modo efficace alle sfide lanciate in maniera sem­pre più stringente dalla complessità del contesto in cui operano.

La rete e le piattaforme in cui la lettura si sta riconfigurando – per motivi di spazio non si è parlato di social reading, ma anche que­sto è un tema all’ordine del giorno – sono un ambiente il cui effetto collaterale principale è proprio la raccolta di dati ai quali sarebbe im­possibile accedere in altro modo. È di questo ambiente che il progetto PERCE.READ ha fatto tesoro, con l’obiettivo di fornire interessanti suggestioni e utili indicazioni per lo sviluppo di un nuovo filone di ricer­che sulla lettura.