# PCA sul dataset IRIS

## Import librerie e definizioni utili


In [None]:
import pandas as pd 
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt 
import seaborn as sns
from mpl_toolkits import mplot3d


target_names = {
    0:'setosa',
    1:'versicolor', 
    2:'virginica'
}

## Caricamento del dataset

In [None]:
iris = datasets.load_iris()
 
df = pd.DataFrame(
    iris.data, 
    columns=iris.feature_names
    )
 
df['target'] = iris.target
df['target_names'] = df['target'].map(target_names)

df

## Caricamento separato dei dati e del target

In [None]:
X = iris.data
y = iris.target

## Standardizzazione delle variabili (media nulla e varianza unitaria)

In [None]:
X_scaled = StandardScaler().fit_transform(X)
print('Prime righe di X')
print(X[:5,:])
print('Prime righe di X_scaled')
print(X_scaled[:5,:])
print('mean')
print(np.mean(X_scaled, axis=0))
print('std dev')
print(np.std(X_scaled, axis=0))

## Riduzione della dimensionalità tramite PCA

In [None]:
pca = PCA(n_components=3)
 
pca_features = pca.fit_transform(X_scaled)
 
print('Shape before PCA: ', X_scaled.shape)
print('Shape after PCA: ', pca_features.shape)
 
pca_df = pd.DataFrame(
    data=pca_features, 
    columns=['PC1', 'PC2', 'PC3'])

pca_df['target'] = y
pca_df['target'] = pca_df['target'].map(target_names)
 
pca_df

## Alcune considerazioni

Per sapere il contributo di ogni feature alla definizione di una componente principale è possibile riferirsi a `pca.explained_variance_`, la cui lunghezza è pari al numero di componenti `n_components` scelto

In [None]:
print(pca.explained_variance_)
NC = len(pca.explained_variance_)

sns.set()

plt.bar(range(1,NC+1), pca.explained_variance_)
plt.plot(range(1,NC+1), np.cumsum(pca.explained_variance_), c='red', label='Cumulativa')
 
plt.legend(loc='upper left')
plt.xlabel('Componenti principali')
plt.ylabel('Varianza espressa')
plt.title('Varianza espressa dalle nuove feature')
 
plt.show()

Possiamo cercare di visualizzare meglio la varianza espressa dalle feature iniziali del dataset con uno scatter plot tridimensionale

In [None]:
plt.style.use('default')
 
fig = plt.figure()
ax = plt.axes(projection='3d')
 
ax.scatter3D(X_scaled[:, 0], X_scaled[:, 1], X_scaled[:, 2], c=X_scaled[:, 2], cmap='jet')
 
plt.title(f'IRIS 3D Scatter')
 
ticks = np.linspace(-3, 3, num=5)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_zticks(ticks)
 
ax.set_xlabel('sepal_length', rotation=150)
ax.set_ylabel('sepal_width')
ax.set_zlabel('petal_length', rotation=60)
plt.show()

**Osservazione:** la variabile `petal_length`, già visivamente, esprime meno varianza rispetto alle altre due.

Sembra quasi di osservare in 3D una distribuzione di dati che sarebbe ben visualizzabile/spiegabile in sole due dimensioni.

Se decidessimo di visualizzare solo `sepal_length` vs. `sepal_width` però avremmo arbitrariamente deciso di **perdere** una variabile.

## **Soluzione:** riduciamo il dataset da 4 feature a 2 feature utilizzando la PCA! 

In [None]:
pca = PCA(n_components=2)
 
# Fit and transform data
pca_features = pca.fit_transform(X_scaled)
 
# Create dataframe
pca_df = pd.DataFrame(
    data=pca_features, 
    columns=['PC1', 'PC2'])

pca_df['target'] = y
pca_df['target'] = pca_df['target'].map(target_names)
 
pca_df.head()

Visualizziamo i risultati

In [None]:
sns.set()
 
sns.lmplot(
    x='PC1', 
    y='PC2', 
    data=pca_df, 
    hue='target', 
    fit_reg=False, 
    legend=True
    )
 
plt.title('2D PCA Graph')
plt.show()