# Elaborazione del Linguaggio Naturale {#sec-nlp}

## Laboratorio di Python

### Esperimento 1: Introduzione ai Word Embeddings

In questo esperimento vogliamo implementare i word embedding in maniera semplificata e intuitiva per cercare di capire le notevoli proprietà che riescono a esprimere.
I *word embeddings* sono vettori numerici. Qui li rappresentiamo in 3D con assi per *regalità*, *genere* ed *età* per parole come "re", "regina", ecc.

In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import numpy as np

# Word embeddings semplificati
word_embeddings = {
    "re": [5.0, 5.0, 5.0],
    "regina": [5.0, -5.0, 5.0],
    "principe": [3.0, 5.0, 2.0],
    "principessa": [3.0, -5.0, 2.0],
    "uomo": [1.0, 5.0, 5.0],
    "donna": [1.0, -5.0, 5.0]
}

words = list(word_embeddings.keys())
embeddings = list(word_embeddings.values())

# Grafico 3D
fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')
x = [emb[0] for emb in embeddings]
y = [emb[1] for emb in embeddings]
z = [emb[2] for emb in embeddings]
ax.scatter(x, y, z, s=100)
for i, word in enumerate(words):
    ax.text(embeddings[i][0], embeddings[i][1], embeddings[i][2], word)
ax.set_xlabel('Regalità')
ax.set_ylabel('Genere')
ax.set_zlabel('Età')
ax.set_title('Visualizzazione 3D dei Word Embeddings')
ax.view_init(elev=20, azim=7)
plt.show()

# Distanza coseno
def distanza_coseno(vec1, vec2):
    prodotto_scalare = np.dot(vec1, vec2)
    norma_vec1 = np.linalg.norm(vec1)
    norma_vec2 = np.linalg.norm(vec2)
    return 1 - (prodotto_scalare / (norma_vec1 * norma_vec2))

# Matrice delle distanze
n_words = len(words)
matrice_distanze = [[0.0] * n_words for _ in range(n_words)]
for i in range(n_words):
    for j in range(n_words):
        matrice_distanze[i][j] = distanza_coseno(embeddings[i], embeddings[j])

# Visualizzazione
print("Matrice delle distanze coseno:")
print("          ", end="")
for word in words:
    print(f"{word:>10}", end="")
print()
for i, word1 in enumerate(words):
    print(f"{word1:10}", end="")
    for j in range(n_words):
        print(f"{matrice_distanze[i][j]:10.3f}", end="")
    print()

# Calcolo di "regina"
def sottrai_vec(vec1, vec2):
    return np.array(vec1) - np.array(vec2)
def somma_vec(vec1, vec2):
    return np.array(vec1) + np.array(vec2)

print("Word embedding di regina:")
print(word_embeddings["regina"])
print("Word embedding calcolato: regina = re - uomo + donna")
print(somma_vec(sottrai_vec(word_embeddings["re"], word_embeddings["uomo"]), word_embeddings["donna"]))

I risulrari numerici dell'esperimento ci mostrano che anche se in una versione molto semplificata, i word embedding sono in grado di esprimere proprietà come la regalità, il genere e l'età.
Infatti si noti come sottraendo a **re** **uomo** si ottiene la regalità che può essere sommata a **donna** per ottenere **regina**.

### Esperimento 2: Analisi del Sentiment

In questo esperimento vogliamo stimare il sentiment (molto negativo, negativo, neutrale, positivo, molto positivo) di un frammento di testo. 
A questo scopo usiamo un modello addestrato su più lingue per stimare il sentiment in frammenti di testo in Italiano e Giapponese.Il modello prescelto è tabularisai/multilingual-sentiment-analysis di Hugging Face.

::: {.callout-caution}
Nota: Richiede pip install transformers e una connessione per scaricare il modello.
:::

In [None]:
from transformers import pipeline

# Pipeline con modello multilingue
pipe = pipeline("text-classification", model="tabularisai/multilingual-sentiment-analysis")

# Testo in Italiano
frase = "Questo prodotto non è fatto bene."
risultato = pipe(frase)
print(frase)
print(risultato)

# Testo tradotto in Giapponese 
frase = "この製品はよく作られていません。"
risultato = pipe(frase)
print(frase)
print(risultato)

L'output dell'esperimento ci dice che entrambre le frasi sono considerate negative.
Si noti come la frase in Giapponese sia la traduzione della frase in Italiano fatta da un traduttore basato su LLM e non mostrato in questo esempio.

### Esperimento 3: Sistema di Domanda-Risposta su un Testo Giuridico

In questo esperimento vogliamo implementare un semplicissimo sistema che ci consenta di di dialogare con un breve testo giuridico. Facendo domande e ottenendo risposte sui contenuti del testo.Il modello adottato è "deepset/roberta-base-squad2" sempre da Hugging Faceper rispondere a domande su un testo giuridico.

::: {.callout-caution}
Nota: Richiede pip install transformers e una connessione per scaricare il modello.
:::

In [None]:
from transformers import pipeline

# Pipeline per question answering
qa_pipeline = pipeline("question-answering", model="deepset/roberta-base-squad2")

# Contesto giuridico
contesto = """
L'articolo 3 della Costituzione italiana stabilisce che tutti i cittadini hanno pari dignità sociale e sono eguali davanti alla legge,
senza distinzione di sesso, razza, lingua, religione, opinioni politiche, condizioni personali e sociali.
È compito della Repubblica rimuovere gli ostacoli di ordine economico e sociale che,
limitando di fatto la libertà e l'eguaglianza dei cittadini, impediscono il pieno sviluppo della persona umana.
"""

# Domande
domanda1 = "Qual è il compito della Repubblica?"
risultato1 = qa_pipeline(question=domanda1, context=contesto)
print(f"Domanda: {domanda1}")
print(f"Risposta: {risultato1['answer']}\n")

domanda2 = "Chi ha pari dignità sociale?"
risultato2 = qa_pipeline(question=domanda2, context=contesto)
print(f"Domanda: {domanda2}")
print(f"Risposta: {risultato2['answer']}\n")

domanda3 = "Quale articolo della Costituzione stabilisce che tutti i cittadini hanno pari dignità sociale?"
risultato3 = qa_pipeline(question=domanda3, context=contesto)
print(f"Domanda: {domanda3}")
print(f"Risposta: {risultato3['answer']}\n")

Dall'output dell'esperimento possiamo vedere che il sistema è in grado di rispondere a domande sul testo giuridico. Ovviamente il sistema non è in grado di rispondere a domande il cui oggetto non è specificato nel testo. Inoltre, la brevità del testo usata non consente di rispondere a domande che richiedono un'analisi più approfondita.