<a href="https://colab.research.google.com/github/Jegovila/SI4/blob/main/5%20Clasificaci%C3%B3n%20n%C3%BAmeros%20y%20PCA/C%C3%B3digos/python/PCA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción

PCA es uno de los algoritmos no supervisados màs utilizados. Es un algoritmo de reducción de dimensionalidad, pero también puede ser útil como herramienta para visualización, filtrado de ruido, etc.

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')

In [None]:
rng = np.random.RandomState(1)
X = np.dot(rng.rand(2, 2), rng.randn(2, 200)).T
plt.scatter(X[:, 0], X[:, 1])
plt.axis('equal');

A simple vista, está claro que existe una relación casi lineal entre las variables $x$ y $y$. Esto recuerda a la Regresión lineal, pero el planteamiento del problema aquí es diferente: en lugar de intentar predecir los valores de $y$ a partir de los valores de $x$, el problema de aprendizaje no supervisado intenta aprender sobre la relación entre los valores de $x$ y $y$.

En el análisis de componentes principales, esta relación se cuantifica encontrando una lista de los ejes principales en los datos y utilizando esos ejes para describir el conjunto de datos. Usando el estimador PCA de Scikit-Learn, podemos calcular esto de la siguiente manera:


In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca.fit(X)

El modelo aprende algunas cantidades de los datos, sobre todo los componentes y la varianza explicada:

In [None]:
print(pca.components_)

In [None]:
print(pca.explained_variance_)

Para ver qué significan estos números, visualicémoslos como vectores sobre los datos de entrada, usando los componentes para definir la dirección del vector y la varianza explicada para definir la longitud al cuadrado del vector:

In [None]:
def draw_vector(v0, v1, ax=None):
    ax = ax or plt.gca()
    arrowprops=dict(arrowstyle='->', linewidth=2,
                    shrinkA=0, shrinkB=0)
    ax.annotate('', v1, v0, arrowprops=arrowprops)

# plot data
plt.scatter(X[:, 0], X[:, 1], alpha=0.2)
for length, vector in zip(pca.explained_variance_, pca.components_):
    v = vector * 3 * np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ + v)
plt.axis('equal');

Estos vectores representan los ejes principales de los datos, y la longitud de cada vector es una indicación de cuán "importante" es ese eje para describir la distribución de los datos; más precisamente, es una medida de la varianza de los datos cuando se proyectan sobre ese eje. La proyección de cada punto de datos sobre los ejes principales son los componentes principales de los datos.


Esta transformación de ejes de datos a ejes principales es una transformación afín, lo que significa que se compone de traslación, rotación y escalado uniforme.


## PCA como reducción de la dimensionalidad

El uso de PCA para la reducción de dimensionalidad implica poner a cero uno o más de los componentes principales más pequeños, lo que da como resultado una proyección de los datos de menor dimensión que preserva la varianza máxima de los datos.

In [None]:
pca = PCA(n_components=1)
pca.fit(X)
X_pca = pca.transform(X)
print("original shape:   ", X.shape)
print("transformed shape:", X_pca.shape)

Los datos transformados se han reducido a una única dimensión. Para comprender el efecto de esta reducción de dimensionalidad, podemos realizar la transformación inversa de estos datos reducidos y trazarlos junto con los datos originales:

In [None]:
X_new = pca.inverse_transform(X_pca)
plt.scatter(X[:, 0], X[:, 1], alpha=0.2)
plt.scatter(X_new[:, 0], X_new[:, 1], alpha=0.8)
plt.axis('equal');

Este conjunto de datos de dimensión reducida es, en cierto sentido, "lo suficientemente bueno" para codificar las relaciones más importantes entre los puntos: a pesar de reducir el número de características de datos en un 50%, las relaciones generales entre los puntos de datos se conservan en su mayoría.

# Ejemplos

In [None]:
!wget -nc "https://raw.githubusercontent.com/Jegovila/SI4/main/5%20Clasificaci%C3%B3n%20n%C3%BAmeros%20y%20PCA/C%C3%B3digos/python/wine.csv"

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv("wine.csv")
df

In [None]:
df.iloc[:,1:].describe()

In [None]:
for c in df.columns[1:]:
    df.boxplot(c,by='Class',figsize=(7,4),fontsize=14)
    plt.title("{}\n".format(c),fontsize=16)
    plt.xlabel("Wine Class", fontsize=16)

In [None]:
#plt.figure(figsize=(10,6))
plt.scatter(df['OD280/OD315 of diluted wines'],df['Flavanoids'],c=df['Class'],edgecolors='k',alpha=0.75,s=150)
plt.grid(True)
plt.title("Scatter plot of two features showing the \ncorrelation and class seperation",fontsize=15)
plt.xlabel("OD280/OD315 of diluted wines",fontsize=15)
plt.ylabel("Flavanoids",fontsize=15)
plt.show()

In [None]:
def correlation_matrix(df):
    from matplotlib import pyplot as plt
    from matplotlib import cm as cm

    fig = plt.figure(figsize=(8,6))
    ax1 = fig.add_subplot(111)
    cmap = cm.get_cmap('jet', 30)
    cax = ax1.imshow(df.corr(), interpolation="nearest", cmap=cmap)
    ax1.grid(True)
    plt.title('Wine data set features correlation\n',fontsize=15)
    labels=df.columns
    ax1.set_xticklabels(labels,fontsize=9)
    ax1.set_yticklabels(labels,fontsize=9)
    # Add colorbar, make sure to specify tick locations to match desired ticklabels
    fig.colorbar(cax, ticks=[0.1*i for i in range(-11,11)])
    plt.show()

correlation_matrix(df)

## PCA

In [17]:
from sklearn.preprocessing import StandardScaler

In [25]:
scaler = StandardScaler()

In [26]:
X = df.drop('Class',axis=1)
y = df['Class']

In [27]:
X = scaler.fit_transform(X)

In [None]:
dfx = pd.DataFrame(data=X,columns=df.columns[1:])
dfx

import PCA

In [37]:
from sklearn.decomposition import PCA

In [72]:
pca = PCA(n_components=None)
pca.fit(dfx)

In [None]:
pca.explained_variance_ratio_

In [None]:
plt.plot(pca.explained_variance_ratio_.cumsum(), marker = "o", linestyle="--")
plt.title("Explained variance by Components")
plt.xlabel("Number of Components")
plt.ylabel("Sum")

In [None]:
dfx_trans = pca.transform(dfx)
dfx_trans = pd.DataFrame(data=dfx_trans)
dfx_trans.head(10)

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(dfx_trans[0],dfx_trans[1],c=df['Class'],edgecolors='k',alpha=0.75,s=150)
plt.grid(True)
plt.title("Class separation using first two principal components\n",fontsize=20)
plt.xlabel("Principal component-1",fontsize=15)
plt.ylabel("Principal component-2",fontsize=15)
plt.show()