# Analisi discriminate

## Indice

1. [Creare il data set](#dataset)<br>
2. [Analisi discriminate lineare (LDA)](#lda)<br>
    2.1 [Analisi discriminate lineare come algoritmo di riduzione della dimensionalità](#riduzione)<br>
    2.2 [Analisi discriminate lineare come algoritmo di classificazione](#classificazione)<br>
3. [Analisi discriminante quadratica (QDA)](#qda)<br>

In [None]:
import inspect
import matplotlib.pyplot as plt
import numpy as np

%load_ext autoreload
%autoreload 2

# 1. Creare il data set <a id=dataset> </a>

In [None]:
from msbd.datasets import crea_normali

print(inspect.getsource(crea_normali))

In [None]:
np.random.seed(42)

mu0 = [-0.5, -0.5]
mu1 = [0, 0]
mu2 = [1, 1]
sigma0 = [[0.5, -0.1], 
          [-0.1, 0.5]]
sigma1 = [[0.75, -0.5], 
          [-0.5, 0.75]]
sigma2 = [[1, -0.9], 
          [-0.9, 1]]

X, y = crea_normali(
    medie=[mu0, mu1, mu2],
    cov=[sigma0, sigma1, sigma2],
    num=[100] * 3,
)

### Dividere i dati in training e validation

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=42)

### Rappresentare graficamente i dati

In [None]:
from msbd.grafici import grafico_bidimensionale_classi

print(inspect.getsource(grafico_bidimensionale_classi))

In [None]:
plt.title("Tre gaussiane")

grafico_bidimensionale_classi(X_train, y_train, alpha=0.75, s=75)

plt.legend()
plt.show()

# 2. Analisi discriminate lineare (LDA) <a id=lda> </a>

## 2.1 Analisi discriminate lineare come algoritmo di riduzione della dimensionalità <a id=riduzione> </a>

In [None]:
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

In [None]:
pca = PCA(n_components=2)
lda = LinearDiscriminantAnalysis(n_components=2)

X_pca = pca.fit_transform(X_train)
X_lda = lda.fit_transform(X_train, y_train)

### Esercizio

Commentare la differenza tra gli argomenti del metodo `fit()` (e quindi `fit_transform()`) della classe `PCA` e `LinearDiscriminantAnalysis`.

### Confrontare componenti principali e variabili canoniche (o discriminanti)

In [None]:
plt.figure(figsize=(12, 4))

plt.subplot(121)
plt.title("Analisi delle componenti principali ")
grafico_bidimensionale_classi(X_pca, y_train, alpha=0.75, s=75)
plt.xlabel("1° componente principale")
plt.ylabel("2° componente principale")
plt.legend()

plt.subplot(122)
plt.title("Analisi del discriminante lineare")
grafico_bidimensionale_classi(X_lda, y_train, alpha=0.75, s=75)
plt.xlabel("1° variabile canonica")
plt.ylabel("2° variabile canonica")
plt.legend()

plt.show()

### Esercizio

La prima componente principale separa approssimativamente le classi? E la prima variabile canonica?

## 2.2 Analisi discriminate lineare come algoritmo di classificazione <a id=classificazione> </a>

In [None]:
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

In [None]:
from msbd.grafici import grafico_bidimensionale_classi_previste

print(inspect.getsource(grafico_bidimensionale_classi_previste))

### Classificare le osservazioni del validation set

In [None]:
plt.figure(figsize=(8, 6))

grafico_bidimensionale_classi_previste(X_train, y_train, X_val, y_val, lda.predict(X_val), "LDA")

plt.show()

# 3. Analisi discriminante quadratica (QDA) <a id=qda> </a>

In [None]:
qda = QuadraticDiscriminantAnalysis()

qda.fit(X_train, y_train)

### Classificare le osservazioni del validation set

In [None]:
plt.figure(figsize=(8, 6))

grafico_bidimensionale_classi_previste(X_train, y_train, X_val, y_val, qda.predict(X_val), "QDA")

plt.show()

### Esercizio

1. Identificare almeno tre osservazioni classificate incorettamente da LDA e correttamente da QDA;
2. Motivare come mai, in questo caso, QDA risulta più accurata di LDA. È sempre così?
3. Rieseguire il notebook fino a qua dopo aver posto `sigma0` e `sigma1` uguali a `sigma2`. Commentare il risultato.

### Esercizio

Riprodurre il grafico [Linear and Quadratic Discriminant Analysis with covariance ellipsoid](https://scikit-learn.org/stable/auto_examples/classification/plot_lda_qda.html#sphx-glr-auto-examples-classification-plot-lda-qda-py) utilizzando i dati di questo notebook.

> Nota: nel nostro caso le classi (e quindi le elissi) sono 3.