# ELITE NEL Pipeline

This notebook shows how to apply the different modules and functions inside the ELITE repository to annotate entities within humanistic documents. The main idea of ELITE is to adopt different State-Of-The-Art components to perform Mention Detection (i.e. Named Entity Recognition) and Entity Disambiguation which are fine-tuned on humanistic documents.

# Data Processing

All the components of ELITE process documents which are stored as dictionaries containing a text, optionally with a title and a publication date. Here you can see an example of how to process a document for ELITE.

In [1]:
from elite.utils import shape_doc

title = "Lettera di Giacomo Leopardi ad Antonio Fortunato Stella"
text = """
Bologna 26 Marzo 1826
Sig. ed Amico amatis. e preg.mo

Rendo risposta alle fav.me sue de' 20 e 22 cor-
rente. Son tornato a raccomandare al Moratti l'affar delle spe-
dizioni, come fo quasi ogni volta. Ma egli mi risponde sempre di
non aver mancato di spedir subito, e io non so che cosa mi replica-
re. Non veggo a che attribuire questi maledettissimi ritardi (i qua-
li è più che certo che non provengono nè potrebbero proveni-
re da questa censura), se non all'infame negligenza delle diligen-
ze e delle poste. Se a ciò Ella crede ch'io possa porre qualche
riparo, mi scriva il come, e io farò tutto il possibile. Ho ricevuto
le nuove prove del Petrarca, e del Cicerone, che consegnerò in-
fallibilmente al Moratti quest'altro ordinario, con nuove raccomanda-
zioni. La mia intenzione sarebbe di terminare il lavoro del Petrarca
per questo autunno, se la salute o altro ostacolo non m'impedirà. Gli
altri volumetti della Collezione dei Moralisti conterebbero =Scelta di
discorsi di Dione Grisostomo.= Idem di Massimo Tirio. = Idem di Pen-
sieri filosofici di autori perduti, dalla collezione di Stobeo. = Idem di
favole esopiane di autori greci. = Il Gerone di Senofonte.= Questo è
quanto posso dirle fin qui, giacchè io stesso non saprei ancora deter-
minarmi circa gli altri, e risolverei in seguito._ Confesso che mi sen-
to molto lusingato e superbo del voto favorevole che Ella accor-
da alle predilette mie Operette morali. Il ms. è di 311. pagine,
precisamente della forma del ms. d'Isocrate che le ho spedito,
scrittura egualmente fitta, di mio carattere. Sarei ben contento
se Ella volesse e potesse esserne l'editore. Delle offerte
(di cui ella mi domanda) non dobbiamo parlare. Già s'intende che
quel poco di buono ch'io ho o posso avere in materie lette-
rarie, e che sia di suo uso, dev'esser suo senz'altri discorsi. Sola-
mente la prego a darmi una risposta concreta in questo proposito
tosto ch'ella potrà. Debbo far[e] a lei ed a tutta la sua fami-
glia, i complimenti di Mad. Padovani, che abita ora qui nella mia
stessa casa al mio stesso piano. Vi unisco i miei, e, con tutto il
cuore abbracciandola, e augurandole ogni contentezza, mi ripeto

suo obbl.mo e cordialiss. s.re ed amico
Giacomo Leopardi.
All'Illustriss. Signore
Il Sig. Ant. Fortunato Stella
Milano"""
publication_date = "1826-03-26"
doc = shape_doc(text, title, publication_date)
doc

  from .autonotebook import tqdm as notebook_tqdm


{'doc_id': 'Lettera di Giacomo Leopardi ad Antonio Fortunato Stella',
 'title': 'Lettera di Giacomo Leopardi ad Antonio Fortunato Stella',
 'text': "\nBologna 26 Marzo 1826\nSig. ed Amico amatis. e preg.mo\n\nRendo risposta alle fav.me sue de' 20 e 22 cor-\nrente. Son tornato a raccomandare al Moratti l'affar delle spe-\ndizioni, come fo quasi ogni volta. Ma egli mi risponde sempre di\nnon aver mancato di spedir subito, e io non so che cosa mi replica-\nre. Non veggo a che attribuire questi maledettissimi ritardi (i qua-\nli è più che certo che non provengono nè potrebbero proveni-\nre da questa censura), se non all'infame negligenza delle diligen-\nze e delle poste. Se a ciò Ella crede ch'io possa porre qualche\nriparo, mi scriva il come, e io farò tutto il possibile. Ho ricevuto\nle nuove prove del Petrarca, e del Cicerone, che consegnerò in-\nfallibilmente al Moratti quest'altro ordinario, con nuove raccomanda-\nzioni. La mia intenzione sarebbe di terminare il lavoro del Petrarca\np

# Named Entity Recognition

To perform Named Entity Recognition (NER), ELITE relies on the [GliNER](https://github.com/urchade/GLiNER) library. The following snippet shows how to perform NER with a domain-specific model fine-tuned on the Zibaldone. Make sure to have downloaded the models from Zenodo and that the [config.json](./config.json) file inside the repository mentions the correct paths to the models and knowledge base.

In [2]:
from elite.ner import load_ner_model, get_mentions_with_ner

In [3]:
config_file = "config.json"
ner_model = load_ner_model(config_file)
doc_with_mentions = get_mentions_with_ner(doc, ner_model)
doc_with_mentions

config.json not found in C:\Users\sntcr\OneDrive\Desktop\projects\ELITE\ELITE_models\NER\gliner_dz_b4_e4


{'doc_id': 'Lettera di Giacomo Leopardi ad Antonio Fortunato Stella',
 'title': 'Lettera di Giacomo Leopardi ad Antonio Fortunato Stella',
 'text': "\nBologna 26 Marzo 1826\nSig. ed Amico amatis. e preg.mo\n\nRendo risposta alle fav.me sue de' 20 e 22 cor-\nrente. Son tornato a raccomandare al Moratti l'affar delle spe-\ndizioni, come fo quasi ogni volta. Ma egli mi risponde sempre di\nnon aver mancato di spedir subito, e io non so che cosa mi replica-\nre. Non veggo a che attribuire questi maledettissimi ritardi (i qua-\nli è più che certo che non provengono nè potrebbero proveni-\nre da questa censura), se non all'infame negligenza delle diligen-\nze e delle poste. Se a ciò Ella crede ch'io possa porre qualche\nriparo, mi scriva il come, e io farò tutto il possibile. Ho ricevuto\nle nuove prove del Petrarca, e del Cicerone, che consegnerò in-\nfallibilmente al Moratti quest'altro ordinario, con nuove raccomanda-\nzioni. La mia intenzione sarebbe di terminare il lavoro del Petrarca\np

# Entity Linking

To perform Entity Linking, ELITE adopts two modules respectively for Candidate Retrieval and Candidate Reranking. The candidate retrieval module is based on a pre-trained bi-encoder language model which performs k-NN search over a vector database of Wikipedia entities. The candidate reranker uses a Gradient Boosted Tree classifier to rerank candidates based on embedding, lexical, type and time similarity.

### Loading Resources for Entity Linking (works also on CPU-only)

In [4]:
from elite.utils import load_from_config
biencoder, biencoder_params, indexer, conn, rf_classifier = load_from_config("config.json")

Loading biencoder...
cpu


  state_dict = torch.load(resolved_archive_file, map_location='cpu')
  state_dict = torch.load(fname, map_location="cpu")


Device: cpu
Loading complete.
Loading index and database...
Loading index from: ELITE_models/KB/faiss_hnsw_ita_index.pkl
Loading complete.
Loading reranker complete.


### Performing Entity Linking

In [5]:
from elite.reranker import disambiguate_mentions_and_rerank
doc_with_entities = disambiguate_mentions_and_rerank(doc_with_mentions, biencoder, biencoder_params,
                                                         indexer, conn,
                                                         rf_classifier, top_k = 50,
                                                         threshold_nil=0.5)
doc_with_entities



Encoding mentions in document:  Lettera di Giacomo Leopardi ad Antonio Fortunato Stella


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.96s/it]


Executing kNN search for 13 entities...
kNN Search complete.


{'doc_id': 'Lettera di Giacomo Leopardi ad Antonio Fortunato Stella',
 'title': 'Lettera di Giacomo Leopardi ad Antonio Fortunato Stella',
 'text': "\nBologna 26 Marzo 1826\nSig. ed Amico amatis. e preg.mo\n\nRendo risposta alle fav.me sue de' 20 e 22 cor-\nrente. Son tornato a raccomandare al Moratti l'affar delle spe-\ndizioni, come fo quasi ogni volta. Ma egli mi risponde sempre di\nnon aver mancato di spedir subito, e io non so che cosa mi replica-\nre. Non veggo a che attribuire questi maledettissimi ritardi (i qua-\nli è più che certo che non provengono nè potrebbero proveni-\nre da questa censura), se non all'infame negligenza delle diligen-\nze e delle poste. Se a ciò Ella crede ch'io possa porre qualche\nriparo, mi scriva il come, e io farò tutto il possibile. Ho ricevuto\nle nuove prove del Petrarca, e del Cicerone, che consegnerò in-\nfallibilmente al Moratti quest'altro ordinario, con nuove raccomanda-\nzioni. La mia intenzione sarebbe di terminare il lavoro del Petrarca\np

# Convert Annotated Document in HTML

For further text editing purposes, it is possible to use ELITE's built-in functions to convert an annotated dictionary into an HTML string.

In [6]:
from elite.utils import generate_html_from_json

html_content = generate_html_from_json(doc_with_entities)
html_content

'\n    <html>\n    <head>\n        <title>Lettera di Giacomo Leopardi ad Antonio Fortunato Stella</title>\n        <meta charset="utf-8">\n        <meta name="publication_date" content="1826-03-26">\n        <style>\n            .person { color: blue; }\n            .work { color: green; }\n            .location { color: orange; }\n            .organization { color: red; }\n        </style>\n    </head>\n    <body>\n        <h1>Lettera di Giacomo Leopardi ad Antonio Fortunato Stella</h1>\n        <p>\n<a href="https://www.wikidata.org/wiki/Q1891" class="location" target="_blank">Bologna</a> 26 Marzo 1826\nSig. ed Amico amatis. e preg.mo\n\nRendo risposta alle fav.me sue de\' 20 e 22 cor-\nrente. Son tornato a raccomandare al <a href="https://www.wikidata.org/wiki/Q571532" class="person" target="_blank">Moratti</a> l\'affar delle spe-\ndizioni, come fo quasi ogni volta. Ma egli mi risponde sempre di\nnon aver mancato di spedir subito, e io non so che cosa mi replica-\nre. Non veggo a ch