# Reducción de Dimensionalidad. PCA


PCA es una técnica estadística introducida por el matemático Karl Pearson en 1901. 
- Funciona transformando los datos de alta dimensión en un espacio de baja dimensión (eigenvectores) a la vez que maximiza la varianza (o dispersión) de los datos en el nuevo espacio.
- Esto ayuda a preservar los patrones y relaciones más importantes en los datos.
- En Scikit-learn existe un componente [PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)

"PCA = Reducir dimensiones, Preservar información"

**Saber más:** https://medium.com/all-about-ml/understanding-principal-component-analysis-pca-556778324b0e

In [None]:
import os

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler 

import warnings
# warnings.filterwarnings("ignore")

In [None]:
df = pd.read_csv("https://github.com/ricardoahumada/Python_for_Data_Science/raw/refs/heads/master/data/2008_small.zip",nrows = 1000000)


df = df.dropna(subset = ['AirTime','Distance','TaxiIn','TaxiOut',"DepDelay","ArrDelay"])
df = df.sample(frac=1).head(1000)

X = df[['AirTime','Distance','TaxiIn','TaxiOut',"DepDelay","ArrDelay"]] 
columnas = X.columns

In [None]:
columnas

In [None]:
X

## Preparar los datos y entrenr el modelo

In [None]:
# Preparamos los datos y entrenamos el modelo
scaler = StandardScaler()   ## IMPORTANTISIMO ##
scaler.fit(X)

X = scaler.transform(X)

In [None]:
# Entremar el modelo: el numero de componentes son la cantidad de nuevas columnas que quiero
pca = PCA(n_components=2) 

pca.fit(X)

## Evaluación del resultado: explicabilidad

>La interpretación de los datos se relaciona de manera directa con las columnas originales

In [None]:
# Composición de las PCAs
pd.DataFrame(np.round(pca.components_,2),columns=columnas)

- 1a componente - PCA1 : Tiene más peso DepDelay y ArrDelay en la misma dirección.
- 2a componente - PCA2 : Tiene más peso AirTime	y Distance en la dirección opuesta.

In [None]:
# Explicabilidad de la nueva varianza
print(pca.explained_variance_ratio_)
print(pca.explained_variance_ratio_.sum())

- El PCA1 explica el 34% de la varianza
- El PCA2 explica el 33% de la varianza
- En conjunto explican el 69% de la varianza original

### Los nuevos valores

In [None]:
nuevosvalores = pca.transform(X)
pd.DataFrame(nuevosvalores,columns=['PCA1', 'PCA2'])

In [None]:
# Visualizar la transformación del espacio

plt.scatter(nuevosvalores[:,0],nuevosvalores[:,1],)
plt.xlabel("PCA1")
plt.ylabel("PCA2")
plt.show()

## Requiriendo una varianza específica

In [None]:
# Entremar el modelo: requerimos una varianza del 90%
pca = PCA(0.9) 

pca.fit(X)

In [None]:
# Nuevos componentes
pd.DataFrame(np.round(pca.components_,2),columns=columnas)

In [None]:
# Varianza

print(pca.explained_variance_ratio_)
print(pca.explained_variance_ratio_.sum())

### Los nuevos valores

In [None]:
nuevosvalores = pca.transform(X)
pd.DataFrame(nuevosvalores)

## Ejercicio
- Para el dataset del Titanic busca los componentes que representen el 97% de la varianza.

In [None]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans, DBSCAN
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

# Cargar el dataset del Titanic
df = pd.read_csv('../../../data/titanic/train.csv')

# Mostrar las primeras filas
print(df.columns)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
(891, 12)


In [None]:
# Eliminar Columnas
df_clean = df.drop(columns=['PassengerId', 'Name', 'Ticket', 'Cabin', 'Embarked'], errors='ignore')


In [None]:
# Valores nulos
df_clean['Age'].fillna(df_clean['Age'].mean(), inplace=True)  # Imputar edad con la media
df_clean['Fare'].fillna(df_clean['Fare'].mean(), inplace=True)  # Imputar tarifa con la media
df_clean.dropna(inplace=True)

df_clean

In [None]:
#  categorizar
df_clean['Sex'] = df_clean['Sex'].map({'male': 0, 'female': 1})

In [None]:
# Estandarizar las variables
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_clean)

In [None]:
pca = PCA(0.97)
pca.fit(X_scaled)

In [None]:
# Nuevos componentes
pd.DataFrame(np.round(pca.components_,2))

In [None]:
# Varianza

print(pca.explained_variance_ratio_)
print(pca.explained_variance_ratio_.sum())

In [None]:
nuevosvalores = pca.transform(X_scaled)
pd.DataFrame(nuevosvalores)

In [None]:
cumulative_variance = np.cumsum(pca.explained_variance_ratio_)
