In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import classification_report, precision_score, confusion_matrix
from numpy.random import multivariate_normal

import warnings
warnings.simplefilter('ignore')

# Ejercicio 1

## a)

Generar una muestra de vectores aleatorios de tamaño 20 con distrbución $N_{2}(\mu,\Sigma)$, con $\mu=(0,0)$ y $\Sigma=Id$. ¿Quiénes son las componentes principales?

In [None]:
mean = np.array([0,0])
cov = np.array([[1, 0], [0, 1]])

sample = multivariate_normal(mean=mean, cov=cov, size=20)

Ahora, como la matriz de covarianza es igual a la matriz identidad, los autovectores son iguales a las columnas de la covarianza. Dicho esto, los componentes principales son iguales a las observaciones.

In [None]:
eigenvalues, eigenvectors = np.linalg.eig(cov)

print('Autovectores:\n')
print('Primer autovector:', eigenvectors[:, 0])
print('Segundo autovector:', eigenvectors[:, 1])

print('\nAutovalores:\n')
print('Primer autovalor:', eigenvalues[0])
print('Segundo autovalor:', eigenvalues[1])

## b)

Generar una muestra como la anterior, pero utilizar $\Sigma = \begin{pmatrix} 2 & 1.2 \\ 1.2 & 1 \end{pmatrix}$. Calcular los autovectores de $\Sigma$ y dar las componentes muestrales.

In [None]:
mean = np.array([0,0])
cov = np.array([[2, 1.2], [1.2, 1]])

sample = multivariate_normal(mean=mean, cov=cov, size=20)

In [None]:
eigenvalues, eigenvectors = np.linalg.eig(cov)

print('Autovectores:\n')
print('Primer autovector:', eigenvectors[:, 0])
print('Segundo autovector:', eigenvectors[:, 1])

print('\nAutovalores:\n')
print('Primer autovalor:', eigenvalues[0])
print('Segundo autovalor:', eigenvalues[1])

Graficar los datos y los autovectores. Añadir al mismo gráfico los datos proyectados en el primer componente y proyectados a las segunda componente (sugerencia: usar la funcion eigen).

In [None]:
# Existing scatter plot
figure = px.scatter(
    x=sample[:, 0],
    y=sample[:, 1],
    size=[1] * sample.shape[0]
)

# Add another scatter plot with cross markers
figure.add_scatter(
    x=eigenvectors[:, 0],
    y=eigenvectors[:, 1],
    mode='markers',
    marker=dict(size=25, color='black'),
    name='Autovectores'
)

# Update layout
figure.update_layout(
    title='Distribución',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    xaxis_title='X1',
    yaxis_title='X2',
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.show()

## c)

*Generar una muestra aleatoria de tamaño $50$ con matriz de covarianza diagonal tal que el primer autovector se corresponda con el $90\%$ de la variabilidad de la muestra medida como la traza de $\Sigma$. Una vez logrado el primer objetivo poner un outlier en la dirección del segundo autovector y calcular las PCA.*

In [None]:
mean = np.array([0,0])
cov = np.array([[0.9, 0.1], [0.1, 0.1]])

sample = multivariate_normal(mean=mean, cov=cov, size=20)

In [None]:
eigenvalues, eigenvectors = np.linalg.eig(cov)

print('Autovectores:\n')
print('Primer autovector:', eigenvectors[:, 0])
print('Segundo autovector:', eigenvectors[:, 1])

print('\nAutovalores:\n')
print('Primer autovalor:', eigenvalues[0])
print('Segundo autovalor:', eigenvalues[1])

In [None]:
# Existing scatter plot
figure = px.scatter(
    x=sample[:, 0],
    y=sample[:, 1],
    size=[1] * sample.shape[0]
)

# Add another scatter plot with cross markers
figure.add_scatter(
    x=eigenvectors[:, 0],
    y=eigenvectors[:, 1],
    mode='markers',
    marker=dict(size=25, color='black'),
    name='Autovectores'
)

# Update layout
figure.update_layout(
    title='Distribución',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    xaxis_title='X1',
    yaxis_title='X2',
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.show()

Los componentes principales para este caso son:

In [None]:
# Ajustamos PCA
pca = PCA(n_components=2).fit(sample)

# Calculamos la proporción de la varianza explicada por cada componente
var = pca.explained_variance_ratio_

# Transformamos la muestra
pca = pca.transform(sample)

cols = [f'PC{i+1} ({v:.2f}%)' for i, v in enumerate(var * 100)]
pca = pd.DataFrame(pca, columns=cols)

In [None]:
# Existing scatter plot
figure = px.scatter(
    x=pca.iloc[:, 0],
    y=pca.iloc[:, 1],
    size=[1] * sample.shape[0]
)

# # Add another scatter plot with cross markers
# figure.add_scatter(
#     x=eigenvectors[:, 0],
#     y=eigenvectors[:, 1],
#     mode='markers',
#     marker=dict(size=25, color='black'),
#     name='Autovectores'
# )

# Update layout
figure.update_layout(
    title='Distribución',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    xaxis_title='X1',
    yaxis_title='X2',
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.show()

Si ahora agregamos un outlier en la misma dirección que el segundo vector obtenemos:

In [None]:
outlier = np.array([np.mean(sample[:, 0]), 3])
sample = np.vstack((sample, outlier))

Calculamos los nuevos PCA y los graficamos para ver como cambiaron

In [None]:
# Ajustamos PCA
pca2 = PCA(n_components=2).fit(sample)

# Calculamos la proporción de la varianza explicada por cada componente
var = pca2.explained_variance_ratio_

# Transformamos la muestra
pca2 = pca2.transform(sample)

cols = [f'PC{i+1} ({v:.2f}%)' for i, v in enumerate(var * 100)]
pca2 = pd.DataFrame(pca2, columns=cols)

In [None]:
# Existing scatter plot
figure = px.scatter(
    x=pca.iloc[:, 0],
    y=pca.iloc[:, 1],
    size=[1] * pca.shape[0],
)

figure.data[0].name = 'Old Components'
figure.data[0].showlegend = True

# Add another scatter plot with cross markers
figure.add_scatter(
    x=pca2.iloc[:, 0],
    y=pca2.iloc[:, 1],
    mode='markers',
    marker=dict(size=25, color='red'),
    name='New Components',
    opacity=0.6
)

# Update layout
figure.update_layout(
    title='Distribución',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    xaxis_title='X1',
    yaxis_title='X2',
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.show()

# Ejercicio 2

*Utilizar las componentes principales como técnica de reducción de dimensión en algún conjunto de datos que utilizaron en Aprendizaje Supervisado. Hacer un ligero análisis y combinar con una técnica de clasificación. Comparar con la misma técnica sin utilizar la reducción. Sugerencia: si utilizó un algoritmo muy complicado, es preferible que baje un poco la complejidad para poder comparar razonablemente.*

In [None]:
X = datasets.load_iris(as_frame=True)['data']
y = datasets.load_iris(as_frame=True)['target']

Calculamos los componentes principales. Para obtener la cantidad $q$ óptima de componentes miramos la proporción total de la variación explicada por los $q$ componentes y nos quedamos con el valor de $q$ que nos permita explicar aproximadamente un poco más del $90\%$ de la variación.

In [None]:
explained_variance = []
for i in np.arange(2, 5):
    pca = PCA(n_components=i).fit(X)
    explained_variance.append(pca.explained_variance_ratio_.sum())

figure = px.line(
    x=np.arange(2, 5),
    y=explained_variance,
    title='Varianza explicada',
    labels={'x': 'q', 'y': 'Varianza'},
    template='none'
)

figure.update_layout(
    title='Varianza explicada',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    xaxis_title='X1',
    yaxis_title='X2',
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.show()

Vemos que con dos componentes principales ya podemos explicar un $97.7\%$ de la variabilidad, por lo que elegimos $q=2$. Graficamos los componentes principales con las verdaderas etiquetas

In [None]:
pca = PCA(n_components=2).fit(X)
pca = pca.transform(X)
pca = pd.DataFrame(pca, columns=['PC1', 'PC2'])

# Existing scatter plot
figure = px.scatter(
    x=pca.iloc[:, 0],
    y=pca.iloc[:, 1],
    color=y.astype(str),
    color_discrete_map={'0': '#E65983', '1': '#2D3846'},
    size=[1] * pca.shape[0],
)

# Update layout
figure.update_layout(
    title='Distribución',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    xaxis_title='X1',
    yaxis_title='X2',
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.show()

Ajustamos ahora un Random Forest para clasificar las observaciones. Lo entrenamos usando los componentes principales:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(pca, y, test_size=0.3, random_state=42)

Realizamos una optimización de parámetros para el modelo:

In [None]:
rand_forest = RandomForestClassifier(random_state=42)
optim = RandomizedSearchCV(
    estimator=rand_forest,
    param_distributions={
        'n_estimators': np.arange(50, 150),
        'criterion': ['gini', 'entropy', 'log_loss'],
        'max_depth': np.arange(5, 20),
        'min_samples_split': np.arange(2, 10),
        'min_samples_leaf': np.arange(1, 7)
    },
    random_state=42,
    scoring='precision_macro',
    n_jobs=2
)

search = optim.fit(pca, y)
search.best_params_

In [None]:
print('Precision:', search.best_score_.__format__('.2%'))

Para ver los grupos graficamente, volvemos ajustar el modelo con todos los datos y con los hiperparámetros óptimos, así podemos comparar visualmente con el gráfico de arriba:

In [None]:
forest = RandomForestClassifier(**search.best_params_, random_state=42)
y_pred = forest.fit(pca, y).predict(pca)

# Existing scatter plot
figure = px.scatter(
    x=pca.iloc[:, 0],
    y=pca.iloc[:, 1],
    color=y_pred.astype(str),
    color_discrete_map={'0': '#E65983', '1': '#2D3846'},
    size=[1] * pca.shape[0],
)

# Update layout
figure.update_layout(
    title='Clasificación con Random Forest',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    xaxis_title='PC1',
    yaxis_title='PC2',
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.show()

In [None]:
cm = confusion_matrix(y, y_pred)

fig, ax = plt.subplots(figsize=(12, 6))
sns.heatmap(cm, annot=True, cmap='Blues')
ax.set_title('Matriz de Confusión', loc='left', fontdict={'fontsize': 13, 'fontweight': 'bold'})

Ahora realizamos la misma optimización de parámetros pero sin utilizar componentes principales como features

In [None]:
rand_forest = RandomForestClassifier(random_state=42)
optim = RandomizedSearchCV(
    estimator=rand_forest,
    param_distributions={
        'n_estimators': np.arange(50, 150),
        'criterion': ['gini', 'entropy', 'log_loss'],
        'max_depth': np.arange(5, 20),
        'min_samples_split': np.arange(2, 10),
        'min_samples_leaf': np.arange(1, 7)
    },
    random_state=42,
    scoring='precision_macro',
    n_jobs=2
)

search = optim.fit(X, y)
search.best_params_

In [None]:
print('Precision:', search.best_score_.__format__('.2%'))

Para ver los grupos graficamente, volvemos ajustar el modelo con todos los datos y con los hiperparámetros óptimos, así podemos comparar visualmente con el gráfico de arriba:

In [None]:
forest = RandomForestClassifier(**search.best_params_, random_state=42)
y_pred = forest.fit(X, y).predict(X)

# Existing scatter plot
figure = px.scatter(
    x=pca.iloc[:, 0],
    y=pca.iloc[:, 1],
    color=y_pred.astype(str),
    color_discrete_map={'0': '#E65983', '1': '#2D3846'},
    size=[1] * pca.shape[0],
)

# Update layout
figure.update_layout(
    title='Clasificación con Random Forest',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    xaxis_title='PC1',
    yaxis_title='PC2',
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.show()

In [None]:
cm = confusion_matrix(y, y_pred)

fig, ax = plt.subplots(figsize=(12, 6))
sns.heatmap(cm, annot=True, cmap='Blues')
ax.set_title('Matriz de Confusión', loc='left', fontdict={'fontsize': 13, 'fontweight': 'bold'})

# Ejercicio 3

*Para los datasets que estuvimos trabajando utilizar PCA para poder dibujar. Recuerde que reducir la dimensión puede ser una buena forma de visualizar los clusters.*

Aplicamos PCA al dataset `usa_arrest`. Graficamente nos queda el siguiente gráfico:

In [None]:
df = pd.read_csv('data/usa_arrests.csv').set_index('Unnamed: 0').rename_axis('state')

In [None]:
pca = PCA(n_components=2).fit(df)
labels = [f'PC{i + 1} ({v * 100:.3}%)' for (i, v) in enumerate(pca.explained_variance_ratio_)]
pca = pca.transform(df)

# Existing scatter plot
figure = px.scatter(
    x=pca[:, 0],
    y=pca[:, 1],
    size=[1] * len(pca[:, 0]),
)

# Update layout
figure.update_layout(
    title='Distribución',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    xaxis_title=labels[0],
    yaxis_title=labels[1],
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.show()

Aplicamos PCA al dataset `mall_customers`. Graficamente nos queda el siguiente gráfico:

In [None]:
df = pd.read_csv('data/mall_costumers.csv').set_index('CustomerID')
df['Gender'] = np.where(df['Gender']=='Male', 1, 0)

In [None]:
pca = PCA(n_components=3).fit(df)
labels = [f'PC{i + 1} ({v * 100:.3}%)' for (i, v) in enumerate(pca.explained_variance_ratio_)]
pca = pca.transform(df)

# Existing scatter plot
figure = px.scatter_3d(
    x=pca[:, 0],
    y=pca[:, 1],
    z=pca[:, 2],
    size=[1] * len(pca[:, 0]),
)

# Update layout
figure.update_layout(
    title='Distribución',
    title_font=dict(size=16, family='Arial', color='black', weight='bold'),
    scene=dict(
        xaxis_title=labels[0],
        yaxis_title=labels[1],
        zaxis_title=labels[2]
    ),
    plot_bgcolor='white',
    yaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
    xaxis=dict(showgrid=True, gridcolor='LightGray', showline=True, linecolor='Black', zeroline=True, zerolinecolor='LightGray'),
)

figure.update_traces(marker=dict(line=dict(width=0)))
figure.show()