![under_construction](figures/under_construction.gif)

# Analisi discriminate

## Indice

1. [](#)<br>
    1.1 [](#)<br>

In [None]:
import inspect
import matplotlib.pyplot as plt
import numpy as np

%matplotlib inline

# Creare il data set

In [None]:
from msbd.datasets import crea_normali

print(inspect.getsource(crea_normali))

In [None]:
np.random.seed(42)

mu0 = [-0.5, -0.5]
mu1 = [0, 0]
mu2 = [1, 1]
sigma0 = [[0.5, -0.1], 
          [-0.1, 0.5]]
sigma1 = [[0.75, -0.5], 
          [-0.5, 0.75]]
sigma2 = [[1, -0.9], 
          [-0.9, 1]]

X, y = crea_normali(
    medie=[mu0, mu1, mu2],
    cov=[sigma0, sigma1, sigma2],
    num=[100] * 3,
)

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=42)

In [None]:
from msbd.grafici import grafico_bidimensionale_classi

print(inspect.getsource(grafico_bidimensionale_classi))

In [None]:
plt.title("Tre gaussiane")

grafico_bidimensionale_classi(X_train, y_train, alpha=0.75, s=75)

plt.legend()
plt.show()

# Analisi discriminate lineare

## Analisi discriminate lineare come algoritmo di riduzione della dimensionalità

In [None]:
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

In [None]:
pca = PCA(n_components=2)
lda = LinearDiscriminantAnalysis(n_components=2)

X_pca = pca.fit_transform(X_train)
X_lda = lda.fit_transform(X_train, y_train)

### Confrontare PCA e LDA

In [None]:
plt.figure(figsize=(12, 4))

plt.subplot(121)
plt.title("PCA")
grafico_bidimensionale_classi(X_pca, y_train, alpha=0.75, s=75)
plt.xlabel("Prima componente")
plt.ylabel("Seconda componente")
plt.legend()

plt.subplot(122)
plt.title("LDA")
grafico_bidimensionale_classi(X_lda, y_train, alpha=0.75, s=75)
plt.xlabel("Prima componente")
plt.ylabel("Seconda componente")
plt.legend()

plt.show()

### Esercizio

Basta la prima componente principale per separare le classi? E la prima componente ottenuta con LDA?

## Analisi discriminate lineare come algoritmo di classificazione

In [None]:
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

In [None]:
from msbd.grafici import grafico_bidimensionale_classi_previste

print(inspect.getsource(grafico_bidimensionale_classi_previste))

In [None]:
plt.figure(figsize=(8, 6))

grafico_bidimensionale_classi_previste(X_train, y_train, X_val, y_val, lda.predict(X_val), "LDA")

plt.show()

# Analisi discriminante quadratica

In [None]:
qda = QuadraticDiscriminantAnalysis()

qda.fit(X_train, y_train)

In [None]:
plt.figure(figsize=(8, 6))

grafico_bidimensionale_classi_previste(X_train, y_train, X_val, y_val, qda.predict(X_val), "QDA")

plt.show()

### Esercizio

Motivare come mai la previsione ottenuta con la classe `QuadraticDiscriminantAnalysis` risultata più accurata rispetto a quella ottenuta con la classe `LinearDiscriminantAnalysis`. È sempre così?

### Esercizio

Riprodurre il grafico [Linear and Quadratic Discriminant Analysis with covariance ellipsoid](https://scikit-learn.org/stable/auto_examples/classification/plot_lda_qda.html#sphx-glr-auto-examples-classification-plot-lda-qda-py) utilizzando i dati di questo notebook.

> Nota: nel nostro caso le classi (e quindi le elissi) sono 3.