# Addestramento di Llama per la Classificazione

In [1]:
# Importa la libreria NumPy per l'elaborazione numerica avanzata
import numpy as np

# Importa la libreria Pandas per l'elaborazione e l'analisi dei dati
import pandas as pd

In [2]:
# Legge un file CSV e lo carica in un DataFrame di Pandas
df = pd.read_csv('data/TREC_05_1.csv')

In [3]:
# Importa la funzione train_test_split dalla libreria scikit-learn
from sklearn.model_selection import train_test_split

In [4]:
# Rimuove le righe contenenti valori NaN dal DataFrame df
df = df.dropna()

# Seleziona la colonna 'email' come feature X e la colonna 'label' come target y, convertendoli in array NumPy
X = df['email'].to_numpy()
y = df['label'].to_numpy()

# Divide i dati in set di addestramento e test, utilizzando train_test_split dalla libreria scikit-learn
# test_size=0.2 indica che il 20% dei dati sarà utilizzato come set di test, il restante 80% come set di addestramento
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)


In [5]:
# Importa il modulo warnings per gestire gli avvisi
import warnings

# Ignora tutti gli avvisi
warnings.filterwarnings('ignore')

# Importa la libreria Pandas per l'elaborazione dei dati
import pandas as pd

# Importa la funzione apply da nest_asyncio per l'implementazione di asyncio in contesti non asincroni
import nest_asyncio
nest_asyncio.apply()

# Importa LMStudio e le sue dipendenze da llama_index per la gestione dei messaggi
from llama_index.llms.lmstudio import LMStudio
from llama_index.core.base.llms.types import ChatMessage, MessageRole

In [6]:
# Definisce il percorso della directory dei modelli di LM Studio
LM_STUDIO_DIR = '/home/valerio/.cache/lm-studio/models'

In [7]:
def get_LLM(model_name):
    """
    Crea e restituisce un'istanza di LMStudio con le configurazioni specificate.

    Args:
    - model_name (str): Nome del modello da utilizzare.

    Returns:
    - LMStudio: Istanzia un oggetto LMStudio configurato con il model_name specificato.
    """
    llm = LMStudio(
        model_name=model_name,
        base_url="http://localhost:1234/v1",  # URL di base del servizio LMStudio
        temperature=0.7,                      # Temperatura per la generazione di testo
        request_timeout=60,                   # Timeout della richiesta in secondi
    )

    return llm

def request_llm(llm, prompt):
    """
    Esegue una richiesta per completare un prompt utilizzando l'oggetto LMStudio fornito.

    Args:
    - llm (LMStudio): Oggetto LMStudio configurato.
    - prompt (str): Prompt di input per la generazione di testo.

    Returns:
    - str: Risposta generata dal modello LMStudio come stringa.
    """
    response = llm.complete(prompt)  # Esegue la richiesta di completamento del prompt
    return str(response)             # Restituisce la risposta come una stringa


In [9]:
from models.random_forest import random_forest

In [10]:
# Addestra il modello Random Forest sui dati di addestramento
random_forest.fit(X_train, y_train)

# Esegue la predizione utilizzando il modello addestrato sui dati di test
y_pred_rf = random_forest.predict(X_test)

In [None]:
# Assegna il nome del modello a una variabile
model_name = 'Meta-Llama-3-8B-Instruct-GGUF'

# Ottiene un'istanza di LMStudio configurata con il modello specificato
llm = get_LLM(model_name)

In [None]:
y_pred = []  # Lista vuota per memorizzare le predizioni

# Itera su X_test e y_test contemporaneamente utilizzando enumerate e zip
for i, (message, y_) in enumerate(zip(X_test, y_test)):
    try:
        y_rf = y_pred_rf[i]  # Ottiene la predizione del modello Random Forest per l'indice i
        message = str(message).strip()  # Rimuove spazi bianchi dal messaggio e lo converte in stringa
        message = f"{y_rf} {message}"  # Concatena la predizione del Random Forest al messaggio
        text = request_llm(llm, message)  # Utilizza LMStudio per completare il messaggio
        text = text.replace('\n', ' ').strip()  # Rimuove caratteri di nuova linea e spazi bianchi dal testo generato
        print(i, y_, text)  # Stampa l'indice, l'etichetta reale e il testo generato
        y_pred.append(text)  # Aggiunge il testo generato alla lista delle predizioni
    except Exception as e:
        y_pred.append(-1)  # Se si verifica un'eccezione, aggiunge -1 alla lista delle predizioni e continua
        continue

0 1 This
1 1 As
2 1 I
3 0 0
4 0 0
5 0 0
6 0 0
7 0 0
8 0 0
9 0 0
10 1 1
11 1 1
12 0 0
13 1 0
14 0 0
15 1 1
16 0 0
17 1 0
18 1 0
19 0 0
20 0 0
21 1 1
22 0 The
23 0 0
24 1 1
25 0 0
26 1 1
27 0 0
28 1 0
29 1 1
30 0 0
31 1 1
32 0 This
33 1 0
34 0 0
35 1 0
36 0 0
37 1 1
38 1 0
39 0 0
40 0 0
41 1 1
42 1 1
43 1 0
44 0 As
45 1 This
46 0 0
47 0 0
48 0 0
49 1 0
50 0 0
51 0 0
52 0 0
53 1 1
54 1 0
55 0 0
56 1 As
57 0 I apolog
58 1 0
59 0 0
60 0 Class
61 0 0
62 1 1
63 0 As
64 0 0
65 1 1
66 0 0
67 0 0
68 1 0
69 0 0
70 0 1
71 0 0
72 0 0
73 0 0
74 1 1
75 0 0
76 0 0
77 0 0
78 0 0
79 1 1
80 1 0
81 0 1
82 1 0
83 0 0
84 0 0
85 0 0
86 0 0
87 0 0
88 0 0
89 0 0
90 1 0
91 0 0
92 0 1
93 0 0
94 1 0
95 1 0
96 1 1
97 1 0
98 0 0
99 0 
100 1 1
101 1 1
102 1 0
103 0 0
104 0 0
105 0 0
106 1 0
107 0 0
108 1 0
109 1 1
110 0 0
111 0 0
112 0 B
113 1 Based
114 1 I
115 0 0
116 0 0
117 1 1
118 1 1
119 1 1
120 0 0
121 0 0
122 0 0
123 1 1
124 0 0
125 0 0
126 0 1
127 0 0
128 1 1
129 1 1
130 1 0
131 0 0
132 1 0
133 0 0
134 0 0
1

In [15]:
def parse(y):
    """
    Funzione che tenta di convertire il valore di y in un numero intero assoluto.
    Se la conversione fallisce, restituisce -1.

    Args:
    - y: Valore da convertire

    Returns:
    - int: Numero intero assoluto se la conversione è riuscita, -1 altrimenti.
    """
    try:
        return abs(int(y))  # Converte y in un numero intero assoluto e lo restituisce
    except:
        return -1  # Se la conversione fallisce, restituisce -1

# Applica la funzione parse a ciascun elemento di y_pred e lo converte in un array NumPy
y_pred_ = np.array(list(map(parse, y_pred)))

array([-1, -1, -1, ...,  1,  1,  0])

In [19]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Calcola e stampa l'accuracy
print('Accuracy:', accuracy_score(y_test, y_pred_))

# Calcola e stampa la precisione usando il weighted average
print('Precision:', precision_score(y_test, y_pred_, average='weighted'))

# Calcola e stampa il recall usando il weighted average
print('Recall:', recall_score(y_test, y_pred_, average='weighted'))

# Calcola e stampa l'F1-score usando il weighted average
print('F1:', f1_score(y_test, y_pred_, average='weighted'))

Accuracy: 0.6712081566362899
Precision: 0.7748559747203332
Recall: 0.6712081566362899
F1: 0.6843927325593366
