# Principal Component Analysis (PCA)

El Análisis de Componentes Principales (PCA, por sus siglas en inglés, Principal Component Analysis) es una técnica estadística utilizada para reducir la dimensionalidad de un conjunto de datos, conservando al mismo tiempo la mayor cantidad posible de su variabilidad. En otras palabras, PCA transforma un conjunto de variables correlacionadas en un nuevo conjunto de variables no correlacionadas llamadas componentes principales.

La idea detrás del PCA es encontrar un nuevo conjunto de ejes (llamados componentes principales) en el espacio de los datos originales, de manera que cuando los datos se proyectan en estos nuevos ejes, la varianza sea maximizada en el primer componente principal, luego en el segundo, y así sucesivamente. Esto permite reducir la cantidad de información necesaria para describir los datos, manteniendo la mayor cantidad posible de esa información.

Los principales usos del PCA incluyen:

1. **Reducción de Dimensionalidad:** PCA se utiliza para reducir el número de variables en un conjunto de datos, lo especialmente útil cuando se enfrentan conjuntos de datos con muchas características (variables). Al reducir la dimensionalidad, los datos se vuelven más fáciles de visualizar y analizar.

2. **Análisis Exploratorio de Datos:** PCA ayuda a identificar patrones y relaciones en los datos. Puede revelar qué variables están correlacionadas entre sí y cómo se agrupan los datos en diferentes direcciones.

3. **Eliminación de la Colinealidad:** En conjuntos de datos con variables altamente correlacionadas, PCA puede ayudar a reducir esta colinealidad al transformar estas variables en componentes no correlacionados.

4. **Compresión de Datos:** PCA puede ser utilizado para comprimir datos manteniendo la mayor parte de su información. Esto es útil en aplicaciones donde se necesita almacenar o transmitir grandes volúmenes de datos de manera eficiente.

En resumen, PCA es una técnica poderosa para analizar y simplificar conjuntos de datos complejos, facilitando la comprensión de la estructura subyacente de los datos y permitiendo la toma de decisiones informadas en diversas aplicaciones.

A continuación, te mostraré cómo crear un DataFrame con pandas y luego realizar un análisis de PCA en esos datos:

In [1]:
# Importa las bibliotecas necesarias
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

In [2]:
# Crea un DataFrame de ejemplo
data = {
    'Feature1': [1, 2, 3, 4, 5],
    'Feature2': [5, 4, 3, 2, 1],
    'Feature3': [2, 3, 1, 5, 4]
}

df = pd.DataFrame(data)

In [3]:
# Estandariza los datos (opcional, pero se recomienda para PCA)
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)

In [4]:
# Realiza el análisis de PCA con 2 componentes principales
pca = PCA(n_components=2)
pca_result = pca.fit_transform(scaled_data)

In [5]:
# Crea un nuevo DataFrame con los resultados de PCA
pca_df = pd.DataFrame(data=pca_result, columns=['PC1', 'PC2'])

In [6]:
# Concatena los resultados de PCA con el DataFrame original
final_df = pd.concat([df, pca_df], axis=1)

In [7]:
# Muestra el DataFrame final con los resultados de PCA
print(final_df)

   Feature1  Feature2  Feature3       PC1       PC2
0         1         5         2 -2.087305 -0.378361
1         2         4         3 -0.868238 -0.496149
2         3         3         1 -0.701660  1.227873
3         4         2         5  1.569898 -0.731725
4         5         1         4  2.087305  0.378361
