# **Logistic Regression**

Questo esempio mostra come eseguire logistic regression utilizzando diversi solver. Il modello viene addestrato utilizzando il metodo `fit`. Vengono valutate le prestazioni in termini di accuratezza e tempo di esecuzione dei solver testati.

**Importazione delle librerie necessarie**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import time

**Generazione dataset**

Viene generato un dataset sintetico

In [None]:
xmin, xmax = -5, 5
n_samples = 100
np.random.seed(0) # seed impostato per riproducibilità degli esperimenti
X = np.random.normal(size=n_samples) # generazione di n_samples campioni da una distribuzione normale

y = (X > 0).astype(float) # y è un vettore di n_samples elementi: y[i] = 1 se X[i] > 0, 0 altrimenti

X[X > 0] *= 4 # vengono moltiplicati per 4 tutti gli elementi del vettore X maggiore di 0

X += 0.3 * np.random.normal(size=n_samples) # vengono aggiunti dei valori random ai campioni

X = X[:, np.newaxis] # X viene trasformato in una matrice

# grafico dei campioni
plt.plot(X)


**Creazione training set e test set**

Si utilizza la funzione `train_test_split` per dividere i dati in un set di training e un set di test. Il parametro `test_size` è impostato a 0.2: il 20% del dataset viene utilizzato come test e il rimanente 80% come training. `random_state` è impostato ad 1 per rendere l'esperimento riproducibile.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

**Creazione del modello di regressione logistica**

Si crea un'istanza della classe `LogisticRegression` e viene impostato a 1000 il parametro `max_iter` che controlla il numero massimo di iterazioni per il solver selezionato.

In [None]:
logreg = LogisticRegression(max_iter=1000)
solvers = [ 'lbfgs', 'liblinear', 'newton-cg', 'sag'] # solver analizzati
train_times = []
accuracies = []

Per ciascuno dei solver selezionati:
* si utilizza il metodo `fit` per addestrare il modello sui dati di training
* si utilizza la funzione `score` per calcolare l'accuratezza media del modello sui dati di test
* si utilizza il metodo `time` per calcolare il tempo di addestramento

In [None]:
for solver in solvers:
    logreg.solver = solver
    start_time = time.time()
    logreg.fit(X_train, y_train)
    train_time = time.time() - start_time
    train_times.append(train_time)
    accuracy = logreg.score(X_test, y_test)
    accuracies.append(accuracy)
    print(f'Solver: {solver}')
    print(f'Time: {train_time:.4f}s')
    print(f'Accuracy: {accuracy:.4f}\n')

**Visualizzazione risultati**

* Creazione di un grafico a barre per l'accuratezza

In [None]:
plt.bar(solvers, accuracies, label='Accuratezza')
plt.xlabel('Solver')
plt.ylabel('Accuratezza')
plt.title('Accuratezza dei Solver')
plt.legend(loc='best')
plt.show()

* Creazione di un grafico a barre per i tempi di addestramento

In [None]:
plt.bar(solvers, train_times, label='Tempo di addestramento')
plt.xlabel('Solver')
plt.ylabel('Tempo (s)')
plt.title('Tempo di Addestramento dei Solver')
plt.legend(loc='best')
plt.show()

In base ai dati ottenuti dai vari solver è possibile selezionare quello che fornisce i risultati migliori in base alle esigenze specifiche di un problema.

**Calcolo probabilità e grafico risultati**

In [None]:
x_range = np.linspace(xmin, xmax, 1000) # creazione di 1000 numeri equidistanti tra xmin e xmax
x_range = x_range[:, np.newaxis]
y_proba = logreg.predict_proba(x_range) # calcolo la probabilità di appartenenza ad una delle due classi per ciascun campione

plt.figure(figsize=(10,4))
plt.scatter(X, y, color='black') # grafico campioni

plt.plot(x_range, y_proba[:, 1], label='Probability class Y=1', color='red')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Logistic Regression Function')
plt.legend(loc='best')
plt.show()