# PCA su un dataset di votazioni scolastiche

## Import librerie

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import seaborn as sns
import matplotlib.pyplot as plt
from  utils import biplot

## Caricamento e visualizzazione del dataset

In [None]:
df = pd.read_csv('data\\dettaglio_voti_studente.csv')
df

## Preprocessing e PCA in due componenti

In [None]:
X_orig = df.to_numpy()
scaler = StandardScaler()
X = scaler.fit_transform(X_orig)

pca = PCA(n_components=2)
pca.fit(X)

## Varianza delle componenti e visualizzazione dei contributi delle variabili iniziali a ogni componente principale

In [None]:
pd.DataFrame(pca.explained_variance_)

In [None]:
pd.DataFrame(pca.components_, columns=df.columns.values.tolist())

## Visualizzazione grafica

In [None]:
y = pca.transform(X)
biplot(y, np.transpose(pca.components_), df.columns.values.tolist())
plt.show()

## Proviamo adesso a effettuare la PCA in 2 dimensioni utilizzando però il dataset originale

In [None]:
y = pca.fit_transform(X_orig)
biplot(y, np.transpose(pca.components_), df.columns.values.tolist())
plt.show()

**Osservazione:** senza la fase di standardizzazione delle variabili in ingresso si nota una preponderanza delle due feature `italiano` e `matematica`

Verifichiamo che questa si rifletta numericamente nei risultati della PCA 

In [None]:
pd.DataFrame(pca.components_, columns=df.columns.values.tolist())

In [None]:
pd.DataFrame(np.linalg.norm(pca.components_, axis=0).reshape(1,-1), columns=df.columns.values.tolist())

e per concludere osserviamo il range delle variabili *prima* e *dopo* la standardizzazione

In [None]:
pd.DataFrame([np.max(X_orig, axis=0) - np.min(X_orig, axis=0), np.max(X, axis=0) - np.min(X, axis=0)], columns=df.columns.values.tolist())