<a href="https://colab.research.google.com/github/antoniospadea/Progetto-Carbon/blob/main/Prove_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#INTRODUZIONE


In [None]:
# üì¶ 1. Installazione delle librerie necessarie

# spaCy √® una libreria di NLP (Natural Language Processing) molto potente e veloce,
# utilizzata per analizzare testi, estrarre informazioni linguistiche, costruire pipeline NLP.
# Per prima cosa, installiamo spaCy:
!pip install -U spacy

# Per analizzare testi in italiano, dobbiamo installare un modello linguistico adatto.
# 'it_core_news_sm' √® il modello italiano base ('small') rilasciato ufficialmente da spaCy.
!python -m spacy download it_core_news_sm

# In alternativa, in Colab, per evitare problemi con il comando da terminale,
# possiamo scaricare il modello cos√¨:
import spacy
from spacy.cli import download
download("it_core_news_sm")


In [1]:
!pip install -U spacy
!python -m spacy download it_core_news_sm

Collecting it-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-3.8.0/it_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m13.0/13.0 MB[0m [31m27.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: it-core-news-sm
Successfully installed it-core-news-sm-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('it_core_news_sm')
[38;5;3m‚ö† Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


‚ÑπÔ∏è Cos'√® 'it_core_news_sm'?

√à un pacchetto pre-addestrato specifico per la lingua italiana, e contiene:
- regole per la tokenizzazione (divisione in parole/punteggiatura)
- dizionari per la lemmatizzazione (riconoscere la forma base delle parole)
- modelli statistici per il POS tagging (Part-of-Speech = categoria grammaticale)
- strumenti per il parsing e NER (Named Entity Recognition)

Il nome √® formato da:
  - 'it'           = lingua italiana
  - 'core'         = libreria principale spaCy (non commerciale)
  - 'news'         = addestrato su un corpus di notizie
  - 'sm' (small)   = versione leggera (pi√π veloce, ma meno precisa rispetto a 'md' o 'lg')

spaCy distribuisce i modelli ufficiali da questo repository:
https://github.com/explosion/spacy-models


In [1]:
# üì• 2. Caricamento del modello linguistico italiano

# Dopo aver installato il modello, dobbiamo "caricarlo" in memoria usando spacy.load().
# Questo comando restituisce un oggetto NLP che possiamo usare per processare i testi.
nlp_it = spacy.load("it_core_news_sm")



Iniziamo con il codice

##üìå 1. TOKENIZATION ‚Äî Suddividere il testo in unit√† minime (token)

In [None]:
# Definiamo una frase in italiano da analizzare con spaCy.
# Passiamo questa frase al modello linguistico 'nlp_it': il testo viene trasformato in un oggetto 'doc',
# che contiene tutte le informazioni linguistiche estratte automaticamente (token, lemmi, POS, ecc.).

# Tokenizzazione: spaCy divide il testo in unit√† minime chiamate 'token', che includono parole,
# punteggiatura e simboli. Ogni token √® un oggetto con propriet√† linguistiche (come lemma, categoria, dipendenze).


In [3]:
# Frase di esempio
text = "Il gatto salta sul tavolo e beve il latte."

# Applichiamo il modello
doc = nlp_it(text)

# Tokenizzazione: ogni parola e punteggiatura √® un token
print("üìçTokenizzazione:")
print([token.text for token in doc])


üìçTokenizzazione:
['Il', 'gatto', 'salta', 'sul', 'tavolo', 'e', 'beve', 'il', 'latte', '.']


üîç Come vedere tutte le propriet√† di un token

In [4]:
#Ora prendiamo un singolo token, ad esempio il primo:
token = doc[0]
#Per vedere tutte le propriet√† disponibili, puoi usare:
dir(token)


['_',
 '__bytes__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__pyx_vtable__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 'ancestors',
 'check_flag',
 'children',
 'cluster',
 'conjuncts',
 'dep',
 'dep_',
 'doc',
 'ent_id',
 'ent_id_',
 'ent_iob',
 'ent_iob_',
 'ent_kb_id',
 'ent_kb_id_',
 'ent_type',
 'ent_type_',
 'get_extension',
 'has_dep',
 'has_extension',
 'has_head',
 'has_morph',
 'has_vector',
 'head',
 'i',
 'idx',
 'iob_strings',
 'is_alpha',
 'is_ancestor',
 'is_ascii',
 'is_bracket',
 'is_currency',
 'is_digit',
 'is_left_punct',
 'is_lower',
 'is_oov',
 'is_punct',
 'is_quote',
 'is_right_punct',
 'is_sent_end',
 'is_sent_start',
 'is_space',
 'is_stop',
 'is_title',
 'is_upper',
 'lang

In [5]:
token = doc[2]  # "salta"

print(f"text:     {token.text}")        # Il testo originale
print(f"lemma:    {token.lemma_}")      # Forma base
print(f"pos:      {token.pos_}")        # Parte del discorso
print(f"tag:      {token.tag_}")        # Etichetta grammaticale dettagliata
print(f"dep:      {token.dep_}")        # Relazione sintattica
print(f"head:     {token.head.text}")   # La parola a cui √® collegato
print(f"is_stop:  {token.is_stop}")     # √à una stop word?
print(f"is_alpha: {token.is_alpha}")    # √à composta solo da lettere?
print(f"shape:    {token.shape_}")      # Forma del token (es. "Xxxxx", "xxx", ecc.)


text:     salta
lemma:    saltare
pos:      VERB
tag:      V
dep:      ROOT
head:     salta
is_stop:  False
is_alpha: True
shape:    xxxx


## üìã Riassunto delle propriet√† principali di un Token in spaCy

| **Propriet√†** | **Come si usa (`token.`)** | **A cosa serve (spiegazione pratica)** |
|---------------|----------------------------|----------------------------------------|
| `text`        | `token.text`               | Il testo originale del token (es. `"gatto"`) |
| `lemma_`      | `token.lemma_`             | Forma base della parola (es. `"essere"` per `"√®"`) |
| `pos_`        | `token.pos_`               | Parte del discorso (es. `NOUN`, `VERB`, `ADJ`) |
| `tag_`        | `token.tag_`               | Etichetta grammaticale dettagliata     |
| `dep_`        | `token.dep_`               | Tipo di relazione sintattica (es. `nsubj` = soggetto) |
| `head`        | `token.head.text`          | La parola a cui il token √® collegato sintatticamente |
| `is_stop`     | `token.is_stop`            | `True` se √® una stop word (es. "il", "e", "di") |
| `is_alpha`    | `token.is_alpha`           | `True` se contiene solo lettere        |
| `is_punct`    | `token.is_punct`           | `True` se √® un segno di punteggiatura  |
| `shape_`      | `token.shape_`             | Struttura del token (es. `"Xxxx"`, `"xx"`) |
| `like_num`    | `token.like_num`           | `True` se il token rappresenta un numero |
| `idx`         | `token.idx`                | Posizione iniziale del token nel testo originale |


#Ambiguit√†

üîé Esempio 1 ‚Äî ‚ÄúRoma‚Äù come squadra di calcio (organizzazione)

In [6]:
text1 = "La Roma ha vinto la partita contro il Milan."
doc1 = nlp_it(text1)

print("üìçEntit√† riconosciute:")
for ent in doc1.ents:
    print(f"{ent.text:20} ‚ûú {ent.label_}")


üìçEntit√† riconosciute:
Roma                 ‚ûú ORG
Milan                ‚ûú ORG


Cosa ci aspettiamo:

- `Roma` ‚Üí `ORGANIZZAZIONE` (squadra di calcio)

- `Milan` ‚Üí `ORGANIZZAZIONE` (idem)

üîé Esempio 2 ‚Äî ‚ÄúRoma‚Äù come citt√† (luogo)

In [7]:
text2 = "Sono tornato da Roma ieri sera, era bellissima."
doc2 = nlp_it(text2)

print("üìçEntit√† riconosciute:")
for ent in doc2.ents:
    print(f"{ent.text:20} ‚ûú {ent.label_}")


üìçEntit√† riconosciute:
Roma                 ‚ûú LOC


Cosa ci aspettiamo:

- `Roma` ‚Üí `LOCALIT√Ä` (citt√†)

- magari anche `ieri sera` ‚Üí `DATA` (tempo)

##üìå 2. POS TAGGING ‚Äî Etichettare la categoria grammaticale (Part-of-Speech)

Il **POS Tagging** (Part-of-Speech Tagging) √® il processo con cui ogni parola del testo viene classificata
secondo la sua **categoria grammaticale**, come **nome (NOUN)**, **verbo (VERB)**, **aggettivo (ADJ)**, ecc.

In spaCy, dopo aver processato il testo con il modello NLP (`nlp_it(text)`), ogni token possiede
un attributo chiamato `pos_` che rappresenta la sua categoria grammaticale principale.

Nel codice qui sotto, stampiamo per ogni token il suo testo e la relativa etichetta grammaticale:

```python
print("üìçPOS tagging (categoria grammaticale):")
for token in doc:
    print(f"{token.text:15} ‚ûú {token.pos_}")


In [8]:
print("üìçPOS tagging (categoria grammaticale):")
for token in doc:
    print(f"{token.text:15} ‚ûú {token.pos_}")


üìçPOS tagging (categoria grammaticale):
Il              ‚ûú DET
gatto           ‚ûú NOUN
salta           ‚ûú VERB
sul             ‚ûú ADP
tavolo          ‚ûú NOUN
e               ‚ûú CCONJ
beve            ‚ûú VERB
il              ‚ûú DET
latte           ‚ûú NOUN
.               ‚ûú PUNCT


## üìå 3. NER ‚Äî Named Entity Recognition (Riconoscimento delle Entit√† Nominate)

La **Named Entity Recognition (NER)** √® una tecnica del NLP che permette di identificare e classificare automaticamente
le **entit√† importanti** all‚Äôinterno di un testo, come:

- üë§ Persone (`PER`)
- üè¢ Organizzazioni (`ORG`)
- üåç Luoghi o localit√† (`LOC`)
- üìÖ Date, orari, periodi (`DATE`, `TIME`)
- üí∏ Quantit√†, percentuali, valute (`MONEY`, `PERCENT`, ecc.)

In spaCy, le entit√† vengono estratte dopo aver analizzato il testo con il modello NLP. Ogni entit√† ha:
- `ent.text` ‚Üí il testo dell‚Äôentit√† individuata
- `ent.label_` ‚Üí il tipo di entit√† (etichetta semantica)

Ecco il codice per stampare tutte le entit√† trovate:

```python
print("üìçNamed Entity Recognition:")
for ent in doc.ents:
    print(f"{ent.text:20} ‚ûú {ent.label_}")


In [9]:
print("üìçNamed Entity Recognition:")
for ent in doc.ents:
    print(f"{ent.text:20} ‚ûú {ent.label_}")

üìçNamed Entity Recognition:


In [10]:
# Frase complessa con diverse entit√†
text = "Luned√¨ 13 marzo 2023, Maria Rossi ha presentato il progetto di Apple durante una conferenza a Milano."

# Analisi con spaCy
doc = nlp_it(text)

# Stampa entit√† trovate
print("üìçEntit√† riconosciute:")
for ent in doc.ents:
    print(f"{ent.text:25} ‚ûú {ent.label_}")

# Visualizzazione grafica con displacy
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)


üìçEntit√† riconosciute:
Maria Rossi               ‚ûú PER
Apple                     ‚ûú ORG
Milano                    ‚ûú LOC


### üéØ Esempio pratico: Named Entity Recognition su una frase complessa

In questo esempio analizziamo una frase che contiene **diverse entit√† nominate**:

üìå "Luned√¨ 13 marzo 2023, Maria Rossi ha presentato il progetto di Apple durante una conferenza a Milano."

Il modello spaCy √® in grado di riconoscere:
- `Maria Rossi` ‚Üí **Persona** (`PER`)
- `Apple` ‚Üí **Organizzazione** (`ORG`)
- `Milano` ‚Üí **Localit√†** (`LOC`)
- `Luned√¨ 13 marzo 2023` ‚Üí **Data** (`DATE`)

Questo tipo di analisi √® utile per:
- üîç Estrarre informazioni chiave da documenti e articoli
- üìö Disambiguare termini ambigui (es. ‚ÄúRoma‚Äù come squadra o citt√†)
- ü§ñ Alimentare chatbot, motori di ricerca, sistemi di risposta automatica
- üß† Costruire **grafi semantici** che connettano persone, luoghi, date ed eventi

‚û°Ô∏è La visualizzazione sotto evidenzia le entit√† direttamente nel testo, con colori diversi per ogni tipo.

> ‚ö†Ô∏è Ricorda: il modello `it_core_news_sm` √® leggero, quindi pu√≤ perdere qualche entit√† in testi pi√π complessi. Modelli pi√π grandi (`md`, `lg`) migliorano l'accuratezza.


## üìå 4. Lemmatization ‚Äî Forma base della parola

La **lemmatizzazione** √® il processo con cui ogni parola viene ricondotta alla sua **forma base** o **lemma**.

üìç Esempi:
- `"correvano"` ‚Üí `"correre"` (verbo all‚Äôinfinito)
- `"ragazzi"` ‚Üí `"ragazzo"` (nome singolare)
- `"velocemente"` ‚Üí `"veloce"` (avverbio riconvertito all‚Äôaggettivo base)

In spaCy, ogni token ha un attributo `.lemma_` che restituisce il lemma corrispondente.

### ‚úÖ Codice
```python
for token in doc:
    print(f"{token.text:15} ‚ûú lemma: {token.lemma_}")


In [13]:
# Frase di esempio
text = "I ragazzi correvano velocemente verso la stazione."

# Analizza la frase
doc = nlp_it(text)

# Lemmatizzazione: forma base delle parole
print("üìçLemmatizzazione:")
for token in doc:
    print(f"{token.text:15} ‚ûú lemma: {token.lemma_:15} | POS: {token.pos_}")


üìçLemmatizzazione:
I               ‚ûú lemma: il              | POS: DET
ragazzi         ‚ûú lemma: ragazzo         | POS: NOUN
correvano       ‚ûú lemma: correvare       | POS: VERB
velocemente     ‚ûú lemma: velocemente     | POS: ADV
verso           ‚ûú lemma: verso           | POS: ADP
la              ‚ûú lemma: il              | POS: DET
stazione        ‚ûú lemma: stazione        | POS: NOUN
.               ‚ûú lemma: .               | POS: PUNCT


## üìå 5. Dependency Parsing ‚Äî Relazioni sintattiche tra parole

Il **Dependency Parsing** √® il processo con cui spaCy analizza la **struttura sintattica** di una frase,
identificando **come ogni parola dipende da un'altra** grammaticalmente.

Ogni parola (token) ha:
- `dep_` ‚Üí tipo di relazione sintattica con la parola a cui √® legata
- `head` ‚Üí parola "governante" (cio√® la parola da cui dipende)

### üß† Esempio:
Frase: `"Giulia ha scritto una lettera al suo migliore amico."`

| Parola         | Dipendenza (`dep_`) | Testa grammaticale (`head.text`)        |
|----------------|---------------------|-----------------------------------------|
| `Giulia`       | `nsubj`             | `scritto` (soggetto del verbo)          |
| `ha`           | `aux`               | `scritto` (ausiliare del verbo)         |
| `scritto`      | `ROOT`              | ‚Äî (verbo principale, radice della frase)|
| `lettera`      | `obj`               | `scritto` (oggetto del verbo)           |
| `una`          | `det`               | `lettera` (articolo determinativo)      |
| `amico`        | `obl`               | `scritto` (complemento indiretto)       |
| `al`           | `case`              | `amico` (preposizione "a")              |
| `suo`          | `det`               | `amico` (aggettivo possessivo)          |
| `migliore`     | `amod`              | `amico` (aggettivo qualificativo)       |

### üß© A cosa serve questa analisi:
- Capire chi fa cosa (es. soggetto, oggetto, complemento)
- Costruire **grafi grammaticali** o **parser semantici**
- Potenziare chatbot, motori di risposta, ricerca avanzata

> üìà La visualizzazione `displacy.render(doc, style="dep")` mostra graficamente queste relazioni con **archi sopra la frase**.



In [11]:
displacy.render(doc, style="dep", jupyter=True)


In [12]:
text = "Maria ha comprato un computer nuovo a Roma."

doc = nlp_it(text)

# Visualizzazione della struttura sintattica con archi
from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)


Il **Dependency Parsing** analizza la struttura sintattica di una frase, identificando le relazioni grammaticali tra le parole.

### üß† Esempio:
Frase: `"Maria ha comprato un computer nuovo a Roma."`

| Parola   | Dipendenza (`dep_`) | Testa grammaticale (`head.text`) | Descrizione                         |
|----------|---------------------|----------------------------------|-------------------------------------|
| Maria    | `nsubj`             | `comprato`                       | Soggetto del verbo                  |
| ha       | `aux`               | `comprato`                       | Ausiliare del verbo                 |
| comprato | `ROOT`              | ‚Äî                                | Verbo principale (radice della frase) |
| un       | `det`               | `computer`                       | Determinante del nome               |
| computer | `obj`               | `comprato`                       | Oggetto del verbo                   |
| nuovo    | `amod`              | `computer`                       | Aggettivo che modifica il nome      |
| a        | `case`              | `Roma`                           | Preposizione che introduce il complemento |
| Roma     | `obl`               | `comprato`                       | Complemento obliquo (luogo)         |

### üìà Visualizzazione grafica

La visualizzazione con `displacy.render(doc, style="dep")` mostra graficamente queste relazioni con archi sopra la frase, facilitando la comprensione della struttura sintattica.

- il verbo principale (`ROOT`)
- il soggetto (`nsubj`)
- l‚Äôoggetto (`obj`)
- il complemento (`obl`)


##üìå 6. VOCABULARY ‚Äî Costruzione di un dizionario dei lemm

Esempio pratico: Lemmatizzazione per normalizzare e costruire un vocabolario

Nel NLP, √® comune trovare la stessa parola scritta in modi diversi a seconda del tempo verbale o del numero (singolare/plurale).
La **lemmatizzazione** risolve questo problema, riconducendo tutte le forme alla **radice comune**, o **lemma**.

### üß™ Frase analizzata:
*"Ho comprato un libro. Poi ne ho comprati altri due. Compra anche tu qualcosa da leggere!"*

### üîç Risultato:
- `"compra"`, `"comprato"`, `"comprati"` ‚Üí **"comprare"**
- `"libro"`, `"libri"` ‚Üí **"libro"**

### üìö Utilit√†:

| Obiettivo                           | Come aiuta la lemmatizzazione |
|------------------------------------|-------------------------------|
| üîç Normalizzazione                 | Rende confrontabili parole simili (es. per ricerche) |
| üìö Vocabolario pulito              | Riduce le dimensioni del dizionario nei modelli NLP |
| üìà Ricerca e classificazione       | Migliora l‚Äôefficacia di motori di ricerca o analisi del testo |

> Esempio: un motore di ricerca semantico riconosce che "compra" e "comprato" si riferiscono alla stessa azione **grazie al lemma comune**: `"comprare"`.


In [14]:
# Frase con flessioni verbali e nominali
text = """
Ho comprato un libro. Poi ne ho comprati altri due. Compra anche tu qualcosa da leggere!
"""

# Analisi con spaCy
doc = nlp_it(text)

# Estrazione dei lemmi (ignorando punteggiatura e stopword)
lemmi = [token.lemma_.lower() for token in doc if token.is_alpha and not token.is_stop]

# Conteggio delle frequenze dei lemmi
from collections import Counter
vocabolario = Counter(lemmi)

# Stampa dei lemmi normalizzati e frequenze
print("üìö Vocabolario normalizzato (lemmi):")
for lemma, freq in vocabolario.items():
    print(f"{lemma:15} ‚ûú {freq}")


üìö Vocabolario normalizzato (lemmi):
comprare        ‚ûú 3
libro           ‚ûú 1
leggere         ‚ûú 1


## üìå 7. STOP WORD FILTERING ‚Äî Rimozione delle parole vuote

Le **stop word** sono parole molto comuni che, nella maggior parte dei casi, **non aggiungono significato semantico forte** al testo.
Esempi in italiano: `"il"`, `"la"`, `"di"`, `"e"`, `"con"`, `"che"`, `"per"`...

Queste parole vengono spesso **rimosse** durante le analisi linguistiche per:
- üìö semplificare il vocabolario
- ‚öôÔ∏è migliorare le prestazioni degli algoritmi
- üß† focalizzarsi sui termini realmente significativi

### üß™ Esempio:
Frase: `"La ragazza ha preso il treno per andare a Roma con il suo amico."`

Senza le stop word rimangono solo:
- `ragazza`, `preso`, `treno`, `andare`, `Roma`, `amico`

### üß∞ Come funziona in spaCy:
- Ogni token ha una propriet√† booleana `.is_stop`
- Se `token.is_stop == True`, allora √® una stop word

> ‚ö†Ô∏è Nota: la lista delle stop word √® specifica per ogni lingua e pu√≤ essere personalizzata.


In [15]:
# Frase di esempio
text = "La ragazza ha preso il treno per andare a Roma con il suo amico."

# Analisi linguistica
doc = nlp_it(text)

# Filtraggio delle parole vuote (stop words)
print("üìçParole significative (senza stop word e punteggiatura):")
for token in doc:
    if not token.is_stop and not token.is_punct:
        print(token.text)


üìçParole significative (senza stop word e punteggiatura):
ragazza
preso
treno
andare
Roma
amico


## üìå 8. VISUALIZZAZIONI ‚Äî Con displacy (sintassi e entit√†)

spaCy include uno strumento integrato chiamato **`displacy`**, che permette di visualizzare in modo interattivo:

### 1Ô∏è‚É£ Relazioni sintattiche (`style="dep"`)
Mostra **archi sopra la frase** che collegano le parole in base alla loro funzione grammaticale (soggetto, verbo, oggetto, complemento...).  
√à utile per comprendere la struttura sintattica di una frase e per attivit√† di parsing linguistico avanzato.

### 2Ô∏è‚É£ Entit√† nominate (`style="ent"`)
Evidenzia **entit√† riconosciute** (persone, luoghi, organizzazioni, date...) con colori diversi all‚Äôinterno del testo.  
Serve a visualizzare facilmente **quali parti del testo sono state classificate semanticamente** dal modello.

### üß™ Frase usata:
*"Luned√¨ 20 maggio, Luca Bianchi ha incontrato il sindaco di Roma per discutere il progetto."*

- ‚ú® Entit√† riconosciute: `Luca Bianchi` (PER), `Roma` (LOC), `20 maggio` (DATE)
- üîÅ Relazioni sintattiche: `Luca` ‚Üí soggetto, `ha incontrato` ‚Üí verbo principale, `sindaco` ‚Üí oggetto, `di Roma` ‚Üí specificazione

> üìå Queste visualizzazioni sono interattive solo in notebook Jupyter/Colab.


In [16]:
from spacy import displacy

# Frase di esempio
text = "Luned√¨ 20 maggio, Luca Bianchi ha incontrato il sindaco di Roma per discutere il progetto."

# Analisi del testo
doc = nlp_it(text)

# Visualizzazione 1: Relazioni sintattiche (dependency parsing)
print("üìçVisualizzazione delle relazioni sintattiche:")
displacy.render(doc, style="dep", jupyter=True)

# Visualizzazione 2: Entit√† nominate (NER)
print("üìçVisualizzazione delle entit√† riconosciute:")
displacy.render(doc, style="ent", jupyter=True)


üìçVisualizzazione delle relazioni sintattiche:


üìçVisualizzazione delle entit√† riconosciute:


In [17]:
!pip install dateparser


Collecting dateparser
  Downloading dateparser-1.2.1-py3-none-any.whl.metadata (29 kB)
Downloading dateparser-1.2.1-py3-none-any.whl (295 kB)
[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/295.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[90m‚ï∫[0m[90m‚îÅ‚îÅ‚îÅ[0m [32m266.2/295.7 kB[0m [31m9.0 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m295.7/295.7 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: dateparser
Successfully installed dateparser-1.2.1


In [18]:
import dateparser

testo = "Ci vediamo luned√¨ 20 maggio alle 14:30."

data = dateparser.parse(testo, languages=['it'])
print("üìÖ Data estratta:", data)


üìÖ Data estratta: None


In [20]:
import dateparser

# Esempio semplice e chiaro
frase = "20 maggio 2024"

data = dateparser.parse(frase, languages=['it'])
print("üìÖ Data estratta:", data)


üìÖ Data estratta: 2024-05-20 00:00:00


## üìå Estrazione automatica di date in italiano ‚Äî Regex + Dateparser

##üîç Perch√© i modelli standard hanno difficolt√† con le date in italiano?

I modelli pre-addestrati di spaCy per l'italiano, come `it_core_news_sm`, sono stati addestrati su dataset che non coprono esaustivamente tutte le espressioni di date possibili nella lingua italiana. Questo porta a una bassa precisione nel riconoscimento delle entit√† temporali. Inoltre, la libreria `dateparser`, sebbene supporti oltre 200 lingue, pu√≤ avere difficolt√† con frasi complesse o ambigue in italiano, specialmente se contengono elementi come giorni della settimana o espressioni colloquiali.

Per superare questo limite, possiamo **combinare due strumenti**:
- üîç Espressioni regolari (`regex`) per identificare le porzioni di testo che contengono date
- üß† La libreria `dateparser` per interpretare le date trovate e convertirle in oggetti `datetime`

### ‚úÖ Obiettivo:
Analizzare frasi in italiano e riconoscere automaticamente date come:
- "Luned√¨ 20 maggio"
- "Marted√¨ 5 giugno"
- "Domenica prossima"

Questa strategia migliora notevolmente l‚Äôaccuratezza rispetto al solo uso di spaCy.


In [22]:
import re
import dateparser

# Frase di esempio
testo = "Luned√¨ 20 maggio, Luca Bianchi ha incontrato il sindaco di Roma per discutere il progetto."

# Pattern per cercare date in forma: giorno settimana + giorno + mese (es. "Luned√¨ 20 maggio")
pattern = r"\b(?:luned√¨|marted√¨|mercoled√¨|gioved√¨|venerd√¨|sabato|domenica)\s+\d{1,2}\s+\w+"

# Cerca nel testo
match = re.search(pattern, testo, flags=re.IGNORECASE)

if match:
    data_str = match.group()
    data = dateparser.parse(data_str, languages=['it'], settings={'PREFER_DATES_FROM': 'future'})
    print(f"üìÖ Data trovata: '{data_str}' ‚ûú {data}")
else:
    print("‚ùå Nessuna data trovata nel testo.")


üìÖ Data trovata: 'Luned√¨ 20 maggio' ‚ûú 2025-05-20 00:00:00
