# Reducción de Dimensionalidad. PCA


PCA es una técnica estadística introducida por el matemático Karl Pearson en 1901. 
- Funciona transformando los datos de alta dimensión en un espacio de baja dimensión a la vez que maximiza la varianza (o dispersión) de los datos en el nuevo espacio.
- Esto ayuda a preservar los patrones y relaciones más importantes en los datos.

"PCA = Reducir dimensiones, Preservar información"

**Saber más:** https://medium.com/all-about-ml/understanding-principal-component-analysis-pca-556778324b0e

In [None]:
import os

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler 
from sklearn.metrics import accuracy_score, r2_score

import warnings
warnings.filterwarnings("ignore")

In [None]:
df = pd.read_csv("https://github.com/ricardoahumada/Python_for_Data_Science/raw/refs/heads/master/data/2008_small.zip",nrows = 1000000)


df = df.dropna(subset = ['AirTime','Distance','TaxiIn','TaxiOut',"DepDelay","ArrDelay"])
df = df.sample(frac=1).head(1000)

X = df[['AirTime','Distance','TaxiIn','TaxiOut',"DepDelay","ArrDelay"]] 
columnas = X.columns

In [None]:
X

In [None]:
scaler = StandardScaler()   ## IMPORTANTISIMO ##
scaler.fit(X)

X = scaler.transform(X)

pca = PCA(n_components=2) # El numero de componentes son la cantidad de nuevas columnas que quiero
pca.fit(X)

In [None]:
pca.components_

In [None]:
columnas

In [None]:
X

In [None]:
print(np.round(pca.components_,2)) # nuevas columnas x viejas columnas

In [None]:
columnas

In [None]:
pd.DataFrame(np.round(pca.components_,2),columns=columnas)

# 1a componente, vuelos largos y retrasos altos (vuelos cortos, retrasos bajos)
# 2a componente, vuelos cortos y retrasos altos (vuelos largos, retrasos bajos)

>La interpretación de los datos se relaciona de manera directa con las columnas originales

In [None]:
print(pca.explained_variance_ratio_)

In [None]:
nuevosvalores = pca.transform(X)
nuevosvalores

>Visualizar la transformación del espacio

In [None]:
plt.scatter(nuevosvalores[:,0],nuevosvalores[:,1],)
plt.xlabel("Primera NUEVA columna: vuelos largos y retrasos altos")
plt.ylabel("Segunda NUEVA columna: vuelos cortos y retrasos altos")
plt.show()