N.2 2016 - L'ambiente digitale e le biblioteche

Navigazione dei contenuti del fascicolo

Dalla parte dei ricercatori. Biblioteche digitali e marcatura testuale: una nota a partire da due case study

Elisa Della Calce

Dipartimento di Studi Umanistici, Università di Torino; elisa.dellacalce@unito.it

Paolo Tripodi

Dipartimento di Filosofia e Scienze dell’Educazione, Università di Torino; paolo.tripodi@unito.it

Rossana Damiano

Dipartimento di Informatica Università di Torino, Università di Torino; rossana.damiano@unito.it

Gli autori desiderano ringraziare Maria Cassella per l’attenzione e il supporto forniti nella stesura del contributo. Per tutti i siti web l’ultima consul­tazione è stata effettuata il 19 novembre 2016.

Abstract

In questo contributo vengono proposte alcune riflessioni sull’utilità delle biblioteche digitali e della marcatura testuale per gli studi classici e la storia della filosofia. Si descrive il progetto torinese I Maestri dell’Università degli studi di Torino: l’opera e il pensiero, nel quale sono state digitalizzate e marcate secondo lo standard TEI alcune opere di filosofi e classicisti che hanno insegnato all’Università di Torino tra la metà dell’Ottocento e i primi decenni del Novecento. Il discorso intorno al progetto torinese è stato pretesto e punto di partenza per immaginare una situazione ipotetica di lavoro nella quale sia digitalizzato e marcato un corpus di opere molto più ampio, prendendo in considerazione tutti i testi pubblicati da docenti di filosofia e di studi classici in alcuni importanti atenei europei (ad esempio in Francia, Italia, Germania e Gran Bretagna) in un determinato periodo storico (ad esempio tra il 1840 e il 1940). Se un progetto di questo tipo venisse realizzato, gli studiosi di storia della filosofia e di discipline classiche potrebbero integrare i metodi di lavoro tradizionali con gli strumenti digitali e computazionali. I due principali modelli teorici a cui si è fatto riferimento sono il distant reading, introdotto da Franco Moretti in storia della letteratura, e l’analisi sociologica dei “campi” culturali e accademici proposta da Pierre Bourdieu. Applicando questo tipo di metodi si potrebbero ricavare risultati originali in merito alla circolazione internazionale delle idee, alla presenza di pattern testuali significativi nei corpora considerati e all’interazione tra i contesti politico-istituzionali e la produzione scientifica di ambito accademico.

English abstract

In this paper we present some reflections on the usefulness of digital libraries and textual markup for the classical studies and the history of philosophy. First, we describe the project “I Maestri dell’Università degli studi di Torino: l’opera e il pensiero”, in which a small corpus of works by philosophers and classicists who taught at the University of Turin from mid-Nineteenth century to the first decades of the Twentieth century has been digitized, marked up according to TEI standards and augmented with semantic information. Then, we take inspiration from this project to figure out a hypothetical working scenario characterized by the availability of a larger corpus of digitized and TEI-marked texts that takes into account all the works published by professors of philosophy and classical literature in some important European universities (for example in France, Italy, Germany and the UK) for a given historical period (for example from 1840 to 1940). If such a corpus were available, historians of philosophy and classicists could supplement traditional methods with digital and computational ones thanks to digitization. The two main models we refer to in this paper are “distant reading”, introduced by Franco Moretti for literary history, and the analysis of cultural and academic “fields” proposed by Pierre Bourdieu for sociology. These methods would allow scholars to get a fresh understanding of the international circulation of ideas for the given areas and periods of time, letting the presence of interesting patterns emerge from the textual corpora, with insights about the interaction between scientific-academic works and the political-institutional contexts of their production.

Un progetto torinese

Le opere dei docenti che hanno lavorato all’Università di Torino tra l’Ottocento e il Novecento sono conser­vate e tutelate nelle numerose biblioteche dell’ateneo. Tuttavia sono poco accessibili, non solo a causa de­gli orari di servizio delle biblioteche ma anche perché, spesso, si tratta di materiale raro o facilmente dete­riorabile. Inoltre, benché si tratti di docenti che hanno avuto un ruolo importante nella storia dell’Università di Torino, lo studio e la valorizzazione del loro pensiero e della loro produzione scientifica e letteraria sono af­fidati soprattutto a momenti occasionali come conve­gni, seminari e mostre.

Il Centro interdipartimentale MeDiHum dell’Università di Torino ha recentemente promosso e, in parte, re­alizzato il progetto I Maestri dell’Università degli studi di Torino: l’opera e il pensiero, al fine di creare una biblioteca digitale che includa le opere di filosofi (come Pasquale D’Ercole ed Erminio Juvalta) e di studiosi di lingue classiche (come Carlo Boucheron, Giuseppe Fraccaroli, Amedeo Peyron e Tommaso Vallauri) che hanno avuto un ruolo particolarmente significativo nel­la storia della cultura accademica torinese, pur essen­do relativamente poco studiati. Si tratta, ovviamen­te, di un primo nucleo di discipline e di docenti, ma il progetto prevede di ampliare il numero di autori e di testi presi in considerazione. I testi sono stati acquisiti mediante scansione e OCR (optical character recogni­tion), corretti e marcati secondo lo standard TEI (text encoding initiative) e poi inseriti in un content mana­gement system (CMS), il cui ruolo consiste nel sempli­ficare e uniformare la gestione e la presentazione dei contenuti attraverso un sistema di pagine predefinito. In particolare, al CMS prescelto sono state aggiunte funzioni di ricerca sviluppate appositamente per il pro­getto: alla funzione di ricerca nei metadati dei singoli testi, già disponibile nel CMS utilizzato, sono state ag­giunte una funzione di ricerca testuale collegata alle immagini dei testi, che permette all’utente di accedere direttamente alle pagine corrispondenti ai risultati tro­vati, e una funzione di ricerca semantica che consente di cercare alcuni tipi di entità menzionati nel testo. La marcatura TEI è stata utilizzata per associare alle named entity presenti nel testo (nomi di persona, rife­rimenti geografici, concetti astratti) i termini standard ricavati dalle apposite risorse terminologiche disponi­bili in rete (authority file e tassonomie di termini quali VIAF e DBpedia). Questo tipo di annotazione dei testi permette agli utenti di esplorarne i contenuti astraen­do dalle specifiche espressioni linguistiche (poiché la stessa entità può essere associata a più espressioni linguistiche) e di accedere alla loro definizione online, ove disponibile. In questo modo l’ormai consolidata pratica della marcatura testuale si lega con il para­digma dei Linked Open Data, che uniforma e rende organico all’architettura del web l’uso degli indirizzi di rete (uniform resource identifier, URI) per la condivi­sione di risorse (inclusa la conoscenza semantica dei concetti che ricorrono nei testi). La funzione di ricerca semantica implementata per il progetto permette inol­tre agli utenti di accedere direttamente alla definizione online di una determinata entità.

Per rendere più agevole la consultazione, le opere sono state pubblicate utilizzando la piattaforma Omeka, un CMS open source di larga diffusione interna­zionale e specificamente progettato per la creazione di collezioni digitali online. Grazie alla disponibilità di “temi” predefiniti (vesti grafiche accattivanti e pre­disposte all’utilizzo su vari dispositivi) e a una logica di interazione con l’utente caratterizzata da intuitività e immediatezza, Omeka si è affermato come soluzio­ne standard per collezioni digitali che si indirizzino al grande pubblico. La gestione dei metadati in Omeka si basa sullo standard Dublin core, ma può essere estesa e resa interpretabile usando altri schemi, grazie ai plugin elaborati dall’ampia comunità degli sviluppatori di Omeka. La biblioteca digitale rende immediatamente e gratu­itamente disponibili le opere dei Maestri dell’ateneo torinese finora digitalizzate non solo ai docenti dell’U­niversità di Torino e ai cultori delle discipline classiche e filosofiche, ma anche agli enti che si occupano della gestione e conservazione del patrimonio culturale, agli studenti e, in generale, a tutti gli utenti interessati. Ol­tre all’aggiunta delle funzionalità sopra descritte, che permettono agli utenti di cercare nel testo riferimenti a persone, luoghi geografici, concetti e, a partire da essi, accedere alle risorse collegate nel web, la piattaforma Omeka è stata oggetto di modifiche ad hoc sia nella grafica sia nelle funzionalità di accesso, allo scopo di renderla più facilmente riconoscibile: in particolare, alla veste grafica predefinita sono stati sovraimposti logo, schema colori e altri elementi grafici (carattere tipogra­fico e immagini).

Questo contributo non è incentrato sul tema della digita­lizzazione di ampi corpora di testi e non tratta direttamen­te problemi teorici e metodologici di carattere generale attinenti all’ambito multiforme delle digital humanities e delle biblioteche virtuali. Il nostro scopo è invece quel­lo di proporre alcune riflessioni intorno a una questione specifica: in che modo la digitalizzazione e la marcatura strutturale e di contenuto di un corpus di testi può aprire nuove e interessanti vie di ricerca per le discipline di cui ci occupiamo professionalmente, la storia della filosofia e gli studi classici? In via preliminare, illustriamo breve­mente i modelli teorici ai quali faremo riferimento.

Antenati e modelli teorici: il distant reading di Franco Moretti

Il metodo del distant reading, introdotto circa vent’anni fa da Franco Moretti in storia della letteratura e in critica letteraria, ha fornito nuove prospettive sulla letteratura e il suo sviluppo storico. Il metodo di Moretti si basa non sullo studio dettagliato di alcuni testi canonici (come nel cosiddetto close reading caratteristico del New Critici­sm), ma sull’aggregazione e l’analisi di grandi quantità di dati, con l’ausilio di metodi statistici e di strumenti computazionali: nel distant reading si contano parole e si fa data mining lessicale (in titoli, abstract, artico­li, capitoli e libri di origine eterogenea e appartenenti a svariati generi letterari), si costruiscono grafici e mappe, si calcolano tendenze, si descrivono e si rappresentano visivamente network, si fa analisi stilistica computazio­nale e così via. Riteniamo che un’applicazione del me­todo del distant reading a diversi ambiti delle scienze umane e, in particolare, agli studi classici e alla storia della filosofia (così come, del resto, alla storia del pen­siero scientifico) sia destinata nei prossimi anni ad ac­crescere la sua influenza: questo tipo di innovazione metodologica consente nuove conferme o smentite di ipotesi ottenute con i metodi ermeneutici e analitici più tradizionali e, soprattutto, incoraggia la formulazione di nuove ipotesi; il distant reading è un tipo di ricerca au­tenticamente empirico o, più precisamente, sperimen­tale, e ciò fa sì che spesso i dati inducano i ricercatori, nel corso dell’indagine, a scoprire nuove vie, a cambiare direzione, a lasciarsi guidare da risultati non attesi (né, forse, cercati), in un modo più decisivo e significativo rispetto a quanto avviene normalmente negli studi basati su metodi più tradizionali. Inoltre il metodo del distant reading, pur rimanendo un metodo di analisi “di testi”, si presta a indagini di storia esterna e di sociologia dell’ac­cademia: non a caso, ci sembra ragionevole includere nel concetto di distant reading applicato alle scienze umane anche l’analisi delle corrispondenze multiple usata spesso dai sociologi di scuola bourdieusiana. Allo Stanford Literary Lab (fondato nel 2010 da Moret­ti e Matthew L. Jockers) e nei centri di ricerca a esso associati sono state realizzate e sono in via di realizza­zione numerose applicazioni “sperimentali” del distant reading e dei metodi delle digital humanities: la com­parazione sistematica di centinaia di network di opere teatrali in una dozzina di diverse letterature nazionali e in diversi periodi storici, usando modelli informatici; un’analisi formale e interdisciplinare (che mescola storia della letteratura, narratologia e psicologia) dei caratteri che, nei diversi periodi (dal 1750 a oggi) e nei diversi ge­neri letterari, sono associati all’esperienza della suspen­se; una misurazione quantitativa e una mappatura digi­tale dei luoghi letterari nei quali i personaggi dei romanzi settecenteschi e ottocenteschi provano emozioni (di rabbia, paura, sorpresa e così via); lo studio dell’evolu­zione dello stile e dei generi letterari nell’enorme corpus testuale reso disponibile da Fanfiction (un archivio onli­ne che contiene oltre sei milioni di racconti); l’analisi, in un corpus di testi tratto dalle pubblicazioni del Ministero degli Affari esteri, della storia e dei cambiamenti nelle associazioni semantiche e concettuali relative alla no­zione accademica, politica e sociale di “sicurezza” tra il 1922 e il 1939; e molti altri ancora.

Lo sviluppo della linguistica computazionale nell’ulti­mo decennio sta offrendo tecniche di analisi sempre più sofisticate, che in futuro potranno essere impiega­te anche nella storia della cultura: si pensi ad esem­pio alla sentiment analysis (l’analisi automatica delle caratteristiche affettive di un testo), all’opinion mining (l’estrazione di indicatori di soggettività da un testo) e all’author profiling (l’identificazione automatica dell’au­tore). La disponibilità di questi strumenti automatici, con l’affermarsi del crowd sourcing nell’annotazione di testi, prefigura uno scenario in cui le tecniche del distant reading avranno una diffusione sempre più am­pia e condivisa.

Oltre il progetto torinese: i Maestri d’ateneo europei

Nel progetto torinese preso qui in esame la marcatu­ra tematica consente di indagare alcuni aspetti della storia della filosofia e degli studi classici che difficil­mente emergono con i metodi più tradizionali: gra­zie agli strumenti computazionali delle digital huma­nities si potrebbe considerare la storia della ricezione dell’antico negli studi accademici nazionali, spaziando da un’analisi intertestuale che punta all’individuazione delle citazioni classiche a un’indagine di tipo seman­tico centrata su specifiche aree concettuali. Analoga­mente, si potrebbe indagare la presenza, nelle filosofie accademiche nazionali, di particolari occorrenze lessi­cali, pattern argomentativi, tradizioni teoriche e nomi di filosofi, usando tecniche di visualizzazione avanza­ta, che rendono le relazioni interne ai dati esplorabili attraverso interfacce grafiche innovative, in grado di far emergere schemi comuni, relazioni complesse e associazioni inedite e poco intuitive.

Prima di presentare più nel dettaglio alcuni esempi, conviene osservare che, naturalmente, l’interesse di un’operazione di questo tipo è tanto maggiore quanto più ampio e sistematico è il corpus di testi preso in considerazione: si potrebbe infatti passare dalla co­struzione di una biblioteca digitale torinese alla costru­zione di una biblioteca dei Maestri d’ateneo – classicisti e filosofi – italiani ed europei. Da qui in avanti scriveremo quindi avendo come orizzonte di riferimen­to la situazione ipotetica (e auspicabile) in cui siano stati digitalizzati e marcati secondo i criteri adottati nel progetto originale (con tag di nomi di persona, luoghi geografici e concetti fondamentali) tutti i testi pubblica­ti da docenti di storia della filosofia e di studi classici in alcuni importanti atenei europei in un determinato pe­riodo storico (per esempio in Italia, Francia, Germania e Gran Bretagna tra il 1840 e il 1940, considerando, per ciascun Paese, i dieci atenei più grandi). Prendere in esame una grande quantità di dati permette, anzi­tutto, di avere un quadro della produzione scientifica nelle accademie europee più realistico e meno viziato dalle consuete scelte di un canone. Vediamo dunque alcuni esempi di come potrebbe funzionare questo metodo di lavoro applicato alla biblioteca digitale che immaginiamo di creare.

Primo esempio. La circolazione internazionale delle idee: le digital humanities incontrano la sociologia di Bourdieu

In una conferenza tenuta a Friburgo nel 1989 e inti­tolata “Le condizioni sociali della circolazione inter­nazionale delle idee”, Pierre Bourdieu abbozzava un programma di ricerca sulle relazioni internazionali nel campo della cultura. Secondo Bourdieu uno studio di questo tipo dovrebbe considerare l’insieme varie­gato e spesso trascurato delle interazioni sociali e dei contesti sociopolitici entro cui i testi circolano, quando oltrepassano le frontiere nazionali. In particolare, Bou­rdieu suggeriva di analizzare i processi di selezione dei testi (che cosa si pubblica, chi traduce, chi pubblica) e vari elementi paratestuali (case editrici, collane, autori delle prefazioni e così via), ritenendo che un’analisi di questo tipo avrebbe permesso di comprendere meglio i meccanismi sociologici della circolazione internazionale delle idee, evitando di accettare acriticamente immagini ingenue o eccessivamente semplificate dell’internazio­nalizzazione della vita culturale di un certo paese.

La creazione di una biblioteca digitale dei Maestri d’a­teneo europei e l’applicazione dei metodi computazio­nali e quantitativi delle digital humanities e del distant reading permettono di lavorare nel solco di Bourdieu, anzitutto perché – come lo stesso Bourdieu ha osser­vato, per esempio in Homo academicus del 1984 – il contesto universitario è un luogo privilegiato per indagare le relazioni sociali tra cultura, intellettuali e potere. Ma, d’altra parte, la grande quantità di dati che è possibile analizzare grazie alla biblioteca digitale (e che Bourdieu, ovviamente, non aveva a disposizione) consente di rendere più ampia, realistica e oggettiva l’analisi sociologica. Per esempio, grazie alla marca­tura TEI, si potrebbero scoprire le differenze quantita­tive e geografiche nella trattazione di Hegel (o di Kant) nelle accademie non tedesche: quando arriva, come viene usato, quale campo occupa, quali logiche stan­no dietro l’uso che ne viene fatto? Ci sono differenze tra l’ateneo torinese e quello milanese o napoletano? E tra i diversi paesi europei? Il peso di Hegel (o di Kant) nelle tradizioni accademiche nazionali potrebbe esse­re misurato ricercando nei testi marcati la presenza di lessico hegeliano e – grazie all’analisi delle corrispon­denze multiple introdotta da Jean-Paul Benzécri – di autori legati a Hegel, e le informazioni contenute nella taggatura “strutturale” potrebbero fornire le informa­zioni paratestuali che Bourdieu considerava cruciali.

Secondo esempio. L’uso politico della storia: un’analisi quantitativa

I metodi digitali e quantitativi danno la possibilità di trovare conferme, smentite, ampliamenti, integrazioni, nuove vie in diversi ambiti delle digital humanities. Un caso particolarmente interessante è quello dello stu­dio dell’uso politico della storia da parte di istituzioni e autori. Si tratta di un tema che gli studiosi hanno a lungo trattato con i metodi tradizionali. Si consideri, ad esempio, il caso di Amedeo Peyron (uno dei Ma­estri dell’ateneo torinese) il quale, convinto che «rien ne rassemble plus à l’histoire d’Italie comme celle de la Grèce», parlando della storia greca evocava, tal­volta implicitamente, le vicende della politica sabau­da a lui contemporanee. Ipotizzando di digitalizza­re e marcare non solo le opere di argomento storico di Peyron, ma anche il suo epistolario (in cui sono contenute riflessioni significative sul rapporto tra storia greca e storia sabauda), si potrebbero ottenere risultati interessanti: analizzando quantitativamente testi come questi, che sono nati con differenti scopi comunicativi e appartengono a diversi generi letterari, sarebbe pos­sibile ottenere una “mappatura” completa di questo argomento “nell’opera di Peyron”. Ma, d’altra parte, sarebbe di estremo interesse verificare, anche contrastivamente, quanto e come questo modello di uso po­litico della storia si applichi a una pluralità di docenti, a varie università europee e a svariati contesti storici.

Terzo esempio. I Maestri d’ateneo nella didattica universitaria

L’uso didattico delle tecnologie può procurare vantag­gi a livello motivazionale e a livello cognitivo, consen­tendo di proporre agli studenti attività personalizzate, più adeguate ai loro stili di apprendimento, fondate su un approccio interattivo e multimediale. In questa sede ci limitiamo a fare qualche osservazione sul pos­sibile uso della biblioteca digitale europea dei Maestri d’ateneo nella didattica universitaria.

L’analisi digitale e quantitativa della produzione ac­cademica dei filosofi e dei classicisti servirebbe a vari scopi: permetterebbe agli studenti di usare in modo critico e consapevole le tecnologie, di familiarizzare con la nozione di “biblioteca digitale” (che cos’è, come si realizza, a che cosa serve, perché è importante), e di creare infine percorsi di studio e di approfondimen­to interdisciplinari. Per esempio, gli studenti potreb­bero non solo individuare le co-occorrenze verbali e ritmiche, come è possibile fare ad esempio in archivi digitali come Musisque deoque (per la poesia latina) o DigilibLT (per la letteratura latina tardo-antica), ma anche imparare a contare le citazioni classiche (greche o latine) nella produzione accademica di alcuni autori interessanti in un certo periodo, riflettendo sul posto occupato dagli autori classici in quel contesto storico e culturale. Si tratterebbe di un modo alternativo e intellettualmente stimolante per avvicinare gli studenti alla storia della ricezione dei testi classici.

Considerazioni conclusive

In questo contributo abbiamo proposto alcune rifles­sioni sull’utilità delle biblioteche digitali e della mar­catura testuale per gli studi classici e la storia della filosofia. Abbiamo descritto il progetto torinese I Ma­estri dell’Università degli Studi di Torino: l’opera e il pensiero, nel quale sono state digitalizzate e marca­te secondo lo standard TEI alcune opere di filosofi e classicisti che hanno insegnato all’Università di Torino tra la metà dell’Ottocento e i primi decenni del Nove­cento e che, pur avendo avuto un ruolo significativo nella cultura accademica torinese, sono relativamente poco studiati. Il discorso intorno al progetto torinese è stato pretesto e punto di partenza per immaginare una situazione ipotetica di lavoro nella quale sia digita­lizzato e marcato un corpus di opere molto più ampio, prendendo in considerazione tutti i testi pubblicati da docenti di filosofia e di studi classici in alcuni impor­tanti atenei europei in un determinato periodo storico (ad esempio si può pensare di restringere il campo di analisi a una decina di università in Italia, Francia, Germania e Gran Bretagna tra il 1840 e il 1940). Se un progetto di questo tipo venisse realizzato, gli stu­diosi di storia della filosofia e di discipline classiche potrebbero integrare i metodi di lavoro tradizionali con gli strumenti digitali e computazionali. I due principali modelli teorici a cui abbiamo fatto riferimento sono il distant reading, introdotto da Franco Moretti in storia della letteratura, e l’analisi sociologica dei “campi” cul­turali e accademici proposta da Bourdieu e dalla sua scuola. Applicando il distant reading e gli strumenti della sociologia bourdieusiana alla nostra ipotetica bi­blioteca digitale, si potrebbe ottenere una mappatura completa della produzione accademica negli ambiti considerati, con la possibilità di ricavare risultati origi­nali e prospettive inesplorate in merito alla circolazione internazionale delle idee, alla presenza di pattern si­gnificativi nei corpora considerati, all’uso politico della storia e all’interazione tra i contesti politico-istituzionali e la produzione scientifica di ambito accademico.

Abbiamo concluso suggerendo che i metodi com­putazionali, applicati alle biblioteche digitali, possono avere risvolti interessanti per la didattica universitaria, giacché consentono di stimolare l’attenzione degli studenti e di affrontare lo studio disciplinare in modo alternativo ed efficace.