# Reducción de Dimensionalidad. PCA


PCA es una técnica estadística introducida por el matemático Karl Pearson en 1901. 
- Funciona transformando los datos de alta dimensión en un espacio de baja dimensión (eigenvectores) a la vez que maximiza la varianza (o dispersión) de los datos en el nuevo espacio.
- Esto ayuda a preservar los patrones y relaciones más importantes en los datos.
- En Scikit-learn existe un componente [PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)

"PCA = Reducir dimensiones, Preservar información"

**Saber más:** https://medium.com/all-about-ml/understanding-principal-component-analysis-pca-556778324b0e

In [None]:
import os

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler 
from sklearn.metrics import accuracy_score, r2_score

import warnings
# warnings.filterwarnings("ignore")

In [None]:
df = pd.read_csv("https://github.com/ricardoahumada/Python_for_Data_Science/raw/refs/heads/master/data/2008_small.zip",nrows = 1000000)


df = df.dropna(subset = ['AirTime','Distance','TaxiIn','TaxiOut',"DepDelay","ArrDelay"])
df = df.sample(frac=1).head(1000)

X = df[['AirTime','Distance','TaxiIn','TaxiOut',"DepDelay","ArrDelay"]] 
columnas = X.columns

In [None]:
columnas

In [None]:
X

## Preparar los datos y entrenar el modelo

In [None]:
# Preparamos los datos y entrenamos el modelo
scaler = StandardScaler()   ## IMPORTANTISIMO ##
scaler.fit(X)

X = scaler.transform(X)

In [None]:
# Entremar el modelo: el numero de componentes son la cantidad de nuevas columnas que quiero
pca = PCA(n_components=2) 

pca.fit(X)

## Evaluación del resultado: explicabilidad

>La interpretación de los datos se relaciona de manera directa con las columnas originales

In [None]:
# Composición de las PCAs
pd.DataFrame(np.round(pca.components_,2),columns=columnas)

- 1a componente - PCA1 : Tiene más peso DepDelay y ArrDelay en la misma dirección.
- 2a componente - PCA2 : Tiene más peso AirTime	y Distance en la dirección opuesta.

In [None]:
# Explicabilidad de la nueva varianza
print(pca.explained_variance_ratio_)
print(pca.explained_variance_ratio_.sum())

- El PCA1 explica el 34% de la varianza
- El PCA2 explica el 33% de la varianza
- En conjunto explican el 69% de la varianza original

### Los nuevos valores

In [None]:
nuevosvalores = pca.transform(X)
pd.DataFrame(nuevosvalores,columns=['PCA1', 'PCA2'])

In [None]:
# Visualizar la transformación del espacio

plt.scatter(nuevosvalores[:,0],nuevosvalores[:,1],)
plt.xlabel("PCA1")
plt.ylabel("PCA2")
plt.show()

## Requiriendo una varianza específica

In [None]:
# Entremar el modelo: requerimos una varianza del 90%
pca = PCA(0.98) 

pca.fit(X)

In [None]:
# Nuevos componentes
pd.DataFrame(np.round(pca.components_,2),columns=columnas)

In [None]:
# Varianza

print(pca.explained_variance_ratio_)
print(pca.explained_variance_ratio_.sum())

### Los nuevos valores

In [None]:
nuevosvalores = pca.transform(X)
pd.DataFrame(nuevosvalores)

## Ejercicio
- Para el dataset del Titanic busca los componentes que representen el 97% de la varianza.

In [35]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA


# Cargar el dataset del Titanic
df = pd.read_csv('../../../data/titanic/train.csv')

# Mostrar las primeras filas
print(df.columns)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


In [36]:
# Eliminar Columnas
df_clean = df.drop(columns=['PassengerId', 'Name', 'Ticket', 'Cabin', 'Embarked'], errors='ignore')

In [37]:
# Valores nulos
df_clean['Age'].fillna(df_clean['Age'].mean(), inplace=True)  # Imputar edad con la media
df_clean['Fare'].fillna(df_clean['Fare'].mean(), inplace=True)  # Imputar tarifa con la media
df_clean.dropna(inplace=True)

df_clean.isna().sum()

Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
dtype: int64

In [38]:
#  categorizar
df_clean['Sex'] = df_clean['Sex'].map({'male': 0, 'female': 1})

print(df_clean.shape)

(891, 7)


In [39]:
# Estandarizar las variables
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_clean)

In [53]:
pca = PCA(0.97)
pca.fit(X_scaled)

In [54]:
# Nuevos componentes
pd.DataFrame(np.round(pca.components_,2))

Unnamed: 0,0,1,2,3,4,5,6
0,0.49,-0.44,0.46,0.02,0.17,0.29,0.49
1,0.06,-0.43,-0.16,0.53,-0.51,-0.47,0.13
2,0.5,0.23,0.47,-0.27,-0.4,-0.29,-0.4
3,-0.08,0.19,0.37,0.74,0.05,0.37,-0.37
4,0.09,-0.03,0.13,0.16,0.72,-0.64,-0.12
5,-0.51,0.32,0.53,-0.02,-0.15,-0.25,0.51
6,0.47,0.65,-0.33,0.27,0.01,-0.02,0.41


In [55]:
# Varianza

print(pca.explained_variance_ratio_)
print(pca.explained_variance_ratio_.sum())

[0.3002827  0.24122494 0.16593752 0.10398332 0.08028478 0.06046163
 0.04782511]
1.0


In [56]:
nuevosvalores = pca.transform(X_scaled)
pd.DataFrame(nuevosvalores)

Unnamed: 0,0,1,2,3,4,5,6
0,-1.411406,-0.670639,-0.227850,-0.459810,0.388015,0.090598,0.054144
1,2.270906,0.982132,0.379163,0.135733,0.962187,0.005615,-0.353225
2,0.407851,-0.250340,2.060165,0.326271,0.248887,0.285467,0.416876
3,2.084780,0.810868,0.587120,0.101065,0.969129,-0.176445,-0.567051
4,-1.537353,0.331648,-0.135162,0.222295,-0.102800,0.217164,0.324545
...,...,...,...,...,...,...,...
886,-0.975862,0.534487,-0.289890,-0.490262,-0.183575,-0.108007,-0.581421
887,1.668270,0.557542,1.467855,-0.680074,0.170984,-0.253053,-1.104812
888,0.436697,-1.798491,-0.249720,1.563348,-0.879830,0.734765,-0.391926
889,0.725474,1.171559,0.347702,-1.068692,-0.012199,-1.378664,-0.268302
