Uno studente d’informatica di 21 anni, usando un modello di machine learning, ha scoperto la prima parola in un papiro arrotolato e carbonizzato vincendo 40.000 dollari. Un passo fondamentale verso la soluzione di un antico enigma con una sfida che mette in palio 700.000 dollari entro dicembre 2023.
Nel 79 d.C. il Vesuvio erutta e venti metri di fango caldo e cenere seppelliscono Ercolano, compresa una grande villa appartenuta probabilmente al suocero di Giulio Cesare. All’interno vi è conservata una vasta biblioteca di rotoli di papiro con testi filosofici greci, in prevalenza epicurei.
Le pergamene vengono carbonizzate dal calore dei detriti vulcanici. Per secoli, mentre ogni testo antico si dissolve esposto all’azione dell’aria, la biblioteca sottoterra preserva i suoi tesori. Nel 1752, operai al servizio dei Borbone scoprono casualmente quella che è oggi nota come la Villa dei Papiri. Gli scavi portano alla luce statue bellissime, affreschi e l’unica raccolta di libri pervenuta intatta dall’antichità.
I primi tentativi di aprire i rotoli purtroppo ne distruggono molti. Non sapremo mai quanti ce ne fossero esattamente. L’inventario del 1986 riporta 1.826 papiri, di cui oltre 340 sono quasi completi, 970 in parte danneggiati ed in parte leggibili, più di 500 sono solo frammenti carbonizzati.
Alla fine del XVIII secolo, l’abate Piaggio inventa una macchina per srotolare le strisce. I testi sono resi visibili e rapidamente copiati per poi essere riesaminati da accademici esperti dell’Ellenismo e corretti.
Gli scavi non sono mai stati completati e molti storici ritengono che rimangano altre migliaia di rotoli dove potrebbero esserci delle testimonianze uniche di filosofia, letteratura, scienza, matematica e poesia greca e latina.
Nel 2015, il Dr. Brent Seales, professore d’informatica dell’Università del Kentucky, legge il rotolo En-Gedi, ritrovato nella regione del Mar Morto, senza aprirlo grazie all’impiego della tomografia a raggi X e della visione artificiale. Il testo è tratto dal libro del Levitico ed è una delle scoperte più significative dell’archeologia biblica degli ultimi dieci anni.
I papiri di Ercolano si rivelano più impegnativi perché l’inchiostro è a base di carbonio, a differenza degli inchiostri più densi utilizzati a En-Gedi e non offre alcun contrasto ai raggi X con il papiro sottostante a base di carbonio.
Decisi a leggere i rotoli campani, Seales e la sua squadra sperimentano una nuova idea. Alcuni frammenti staccati dai papiri sono leggibili sotto la luce infrarossa e si possono usare per un modello di apprendimento automatico in grado di rilevare inchiostro altrimenti invisibile ai raggi X.
Servendosi di un acceleratore di particelle, i ricercatori generano scansioni TC 3D di due pergamene complete con risoluzioni fino a 4-8 µm, con 16 bit di dati di densità per voxel, ritenendo che i modelli di machine learning possano rilevare sottili motivi superficiali che indichino la presenza d’inchiostro a base di carbonio.
Lo studente laureato Stephen Parsons lavora sul rilevamento dell’inchiostro dalle scansioni TC utilizzando modelli di apprendimento automatico ed il suo metodo è talmente convincente da attirare l’attenzione degli imprenditori tecnologici Nat Friedman e Daniel Gross che danno vita alla Vesuvius Challenge per accelerare i progressi.
Il concorso, aperto nel marzo del 2023, prevede un primo premio di 700.000 dollari e diversi premi minori per lo sviluppo di mezzi e tecniche open source.
All’inizio dell’estate, il “team di segmentazione” si è unito alla sfida cominciando a mappare la struttura 3D della pergamena con strumenti creati da EduceLab. A luglio 2023 si è arrivati a segmentare ed “appiattire virtualmente” centinaia di centimetri quadrati di papiro.
All’inizio di agosto, il concorrente Casey Handmer, ex fondatore ed esperto di startup del JPL, ha scritto un post sul blog sulla sua scoperta di un “modello craquelé” che assomiglia ad inchiostro.
Casey ha trovato lo schema fissando le scansioni TC segmentate per ore e ore. L’identificazione è sorprendente perché Stephen Parsons aveva già visto prove dirette d’inchiostro in frammenti, ma non nei rotoli.
Luke Farritor, studente universitario e stagista estivo di SpaceX che lavora presso Starbase, sente parlare della Vesuvius Challenge.
Dopo aver visto lo schema di Casey, discusso su Discord, inizia a trascorrere le serate e le notti ad addestrare un modello di apprendimento automatico. Ogni nuova scoperta migliora il modello rivelando un ciclo. Luke trova alcune dozzine di tratti d’inchiostro e lettere complete che possono essere etichettate ed utilizzate come dati per il training.
In poco tempo, il modello scopre tracce invisibili ai suoi occhi che formano lettere ed accenni a parole vere e proprie.
Luke decide di presentare la propria ricerca al concorso First Letters Prize che richiede di trovare almeno 10 lettere in un’area di 4 cm2.
Il professor Seales mostra l’immagine ricavata dal modello di Luke al team di papirologi e studiosi specializzati che rimangono senza fiato perché leggono la parola porphyras, nonostante le lettere siano sbiadite. Porpora o viola è una parola piuttosto rara nei testi antichi.
Una revisione sul modello ha successivamente annotato i segni identificati con una sicurezza maggiore all’80% o inferiore.
Un papirologo ha osservato che: “La sequenza πορφυ̣ρ̣ας̣ può essere πορφύ̣ρ̣ας̣ (sostantivo per tintura viola o panni di porpora) oppure πορφυ̣ρ̣ᾶς̣ (aggettivo per viola). A causa della mancanza di contesto non si esclude πορφύ̣ρ̣α ς̣κ (o πορφυ̣ρ̣ᾶ ς̣κ).”
Nella lettura bisogna tener presente che i segni assomigliano più a ΠΟΡΦΥΡΑϹ e che i testi di quel periodo non hanno spazi, rendendo difficile determinare i confini delle parole.
Nel frattempo un altro concorrente, Youssef Nader, studente egiziano laureato in biorobotica a Berlino, ha perseguito un approccio diverso arrivando alla stessa parola. Motivato dalle scoperte di Casey e Luke, ha esaminato i progetti vincitori del premio Ink Detection su Kaggle incentrato sul miglioramento della tecnica di Stephen Parsons adattando dei modelli con pre-addestramento senza supervisione sui dati dei rotoli, con successiva messa a punto delle etichette dei frammenti.
La sua idea è presentata per un “Premio di follow-up per il rilevamento dell’inchiostro” meritandosi una piccola gratificazione in denaro. L’idea è promettente. Settimane dopo, Youssef sottopone la propria candidatura al premio First Letters dopo aver visto i primi risultati di Luke su Twitter e Discord decidendo di concentrarsi sulla stessa area all’interno del rotolo, ma con un modello differente.
Con il modello modificato del concorso Kaggle appaiono forme di lettere annotate da Youssef che ripetendo questa pseudo-etichettatura in modo iterativo, ottiene etichette speculative per un numero di segmenti all’interno del rotolo. I modelli addestrati su queste etichette sono stati quindi in grado di rilevare l’inchiostro all’interno della pergamena ed i dati di addestramento dai frammenti di pergamena sono alla fine rimossi.
Il risultati prodotto è ancora più chiaro di quello di Luke, assicurando a Youssef il secondo premio di 10.000 dollari, mentre i papirologi hanno cominciato a speculare sulle possibili parole sopra (ανυοντα / ANYONTA, “raggiungendo”) e sotto (ομοιων / OMOIωN, “simile”).
Le aspettative sono enormi perché sembra che il papiro sia un testo finora sconosciuto.
L’équipe di segmentazione ed i concorrenti continuano a fare progressi. Solo pochi giorni fa il modello di Youssef ha generato una nuova immagine di chiarezza e dimensioni scioccanti.
La prima squadra a leggere una pergamena entro il 31 dicembre 2023 si aggiudica 700.000 dollari, se il team di revisione riesce a decifrare almeno 4 passaggi separati di testo continuo e plausibile, ciascuno lungo almeno 140 caratteri.
Su GitHub trovate il modello di Luke e di Youssef.
I Tutorial online permettono di comprendere i punti cardini fornendo risorse preziose.
RIPRODUZIONE RISERVATA – © 2023 SHOWTECHIES – Quando la Tecnologia è spettacolo™
Immagini: EduceLab – Villa Papiri di Rocío Espín – Vesuvius Challenge
Commenta per primo