# Apprendimento Non Supervisionato

## Laboratorio Python

### Esperimento 1: Segmentazione di documenti legali con K-means

In questo esperimento Python, utilizziamo l'algoritmo K-means per raggruppare documenti legali basandoci sulla frequenza delle parole chiave presenti nei documenti.
Si ipotizza che i documenti legali possano appartenere a categorie specifiche, come Contratti, Reati, Proprietà Privata, Assicurazioni, e Contratti di Lavoro. In particolare, si ipotizza che siano presenti 3 categorie principali. Il numero di cluster (K) è impostato a 3.

Il funzionamento del semplice codice che segue può essere descritto come segue:

1. Si caricano le stop word della lingua italiana in modo che il codice possa rimuovere correttamente le parole comuni in italiano come "il", "di", "la", migliorando la qualità del clustering K Stop Words Italiane;
2. I documenti legali sono trasformati in vettori numerici usando la tecnica **TF-IDF**, che calcola l'importanza delle parole in ciascun documento.
3. L'algoritmo K-means raggruppa i documenti in 3 cluster (ad esempio, Contratti, Reati, Proprietà Privata).
4. Ogni documento viene assegnato a un cluster in base alla somiglianza del suo contenuto con altri documenti.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from nltk.corpus import stopwords
import nltk

# Scarica le stop words italiane
nltk.download('stopwords')
stop_words_italiane = stopwords.words('italian')

# Dati simulati: estratti di documenti legali
documenti_legali = [
    "Il contratto di locazione è regolato dal Codice Civile.",
    "Il reato di furto è punito secondo l'articolo 624.",
    "La proprietà privata è garantita dalla Costituzione.",
    "L'assicurazione copre i danni derivanti da incidenti stradali.",
    "Il contratto di lavoro subordinato deve rispettare le norme vigenti.",
    "Il Codice Penale stabilisce le pene per i reati contro la persona. Le pene sono determinate dalla gravità del reato.",
    "Le controversie contrattuali sono risolte tramite arbitrato.",
]

# Trasformazione dei documenti in rappresentazioni numeriche (TF-IDF)
vectorizer = TfidfVectorizer(stop_words=stop_words_italiane)
X = vectorizer.fit_transform(documenti_legali)

# Applicazione di K-means
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# Etichette dei cluster
labels = kmeans.labels_

# Visualizzazione dei risultati
for i, documento in enumerate(documenti_legali):
    print(f"Documento: {documento}")
    print(f"Appartiene al cluster: {labels[i]}\n")

### Esperimento 2: Identificazione di anomalie nei dati giudiziari con DBSCAN

In questo epserimento useremo l'algoritmo DBSCAN per analizzare un dataset multivariato simulato in ambito giuridico. L'obiettivo è individuare pattern o anomalie nei dati relativi a sentenze legali.
Il funzionamento del codice che segue può essere descritto come segue:

1. Viene generato un dataset simulato contenente variabili come numero di testimoni, durata dei processi, gravità del reato, ecc.
2. L'algoritmo DBSCAN viene applicato per identificare cluster di casi simili e individuare eventuali anomalie o outlier. DBSCAN assegna il valore `-1` ai punti considerati outlier.
3. I risultati vengono visualizzati graficamente in 2D (numero di testimoni contro durata dei processi), con cluster distinti identificati da colori diversi, per una comprensione visiva dei cluster e delle anomalie. In particolare, il cluster -1 è quello composto dalle anomalie.

In [None]:
import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Generazione di dati simulati: caratteristiche di sentenze legali
np.random.seed(42)

# Creazione di variabili
numero_testimoni = np.random.randint(1, 10, size=200)  # Numero di testimoni per caso
durata_processi = np.random.normal(loc=12, scale=4, size=200)  # Durata dei processi in mesi
gravita_reato = np.random.randint(1, 5, size=200)  # Gravità del reato (1=leggera, 4=grave)

# Creazione di outlier
outlier_testimoni = [20, 25]
outlier_durata = [40, 50]
outlier_gravita = [5, 5]

# Inserimento degli outlier nei dati
numero_testimoni = np.append(numero_testimoni, outlier_testimoni)
durata_processi = np.append(durata_processi, outlier_durata)
gravita_reato = np.append(gravita_reato, outlier_gravita)

# Combinazione delle variabili in un DataFrame
data = pd.DataFrame({
    'Numero_Testimoni': numero_testimoni,
    'Durata_Processi': durata_processi,
    'Gravita_Reato': gravita_reato
})

# Standardizzazione dei dati
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

# Applicazione dell'algoritmo DBSCAN
dbscan = DBSCAN(eps=1.5, min_samples=5)  # Parametri regolabili
labels = dbscan.fit_predict(data_scaled)

# Aggiunta delle etichette al DataFrame
data['Cluster'] = labels

# Visualizzazione dei risultati
print("Esempio di cluster individuati:")
print(data.head())

# Visualizzazione in 2D (numero testimoni vs durata processi)
plt.figure(figsize=(10, 6))
for cluster in np.unique(labels):
    cluster_data = data[data['Cluster'] == cluster]
    plt.scatter(cluster_data['Numero_Testimoni'], cluster_data['Durata_Processi'], label=f"Cluster {cluster}", alpha=0.7)

plt.title("Cluster di Dati Legali (Numero Testimoni vs Durata Processi)")
plt.xlabel("Numero Testimoni")
plt.ylabel("Durata Processi (mesi)")
plt.legend()
plt.grid()
plt.show()

Con questo approccio, è possibile identificare sia i cluster naturali nei dati sia eventuali anomalie (outlier), che potrebbero rappresentare sentenze particolarmente atipiche o significative.