# **Aplicando PCA al dataset**

In [11]:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

##### **Cargamos los datos**

In [12]:
# Cargar datos
X = pd.read_csv("Data/X_data.csv")
y = pd.read_csv("Data/y_data.csv").values.flatten()

# Lista de componentes a probar
componentes_lista = [12, 10, 11, 9, 5, 3]

### **Función para evaluar PCA y regresión lineal**

In [13]:
def evaluar_pca(X, y, n_componentes, n_ejecuciones=5):
    resultados = []
    for ejecucion in range(n_ejecuciones):
        # División de datos
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=ejecucion)
        
        # Aplicar PCA
        pca = PCA(n_components=n_componentes)
        X_train_pca = pca.fit_transform(X_train)
        X_test_pca = pca.transform(X_test)
        
        # Modelo de regresión lineal
        model = LinearRegression()
        model.fit(X_train_pca, y_train)
        y_pred = model.predict(X_test_pca)
        
        # Métricas de rendimiento
        mse = mean_squared_error(y_test, y_pred)
        r2 = r2_score(y_test, y_pred)
        resultados.append({'Ejecución': ejecucion + 1, 'MSE': mse, 'R²': r2})
    
    # Promedio y mediana de las ejecuciones
    resultados_df = pd.DataFrame(resultados)
    print(f"\nResultados para {n_componentes} Componentes:")
    print(resultados_df)
    print(f"Promedio MSE: {resultados_df['MSE'].mean():.4f}, Promedio R²: {resultados_df['R²'].mean():.4f}")
    print(f"Mediana MSE: {resultados_df['MSE'].median():.4f}, Mediana R²: {resultados_df['R²'].median():.4f}")
    return resultados_df

#### **Ejecutar PCA con diferentes cantidades de componentes**

In [14]:
resultados_totales = {}
for n_componentes in componentes_lista:
    resultados_totales[n_componentes] = evaluar_pca(X, y, n_componentes)


Resultados para 12 Componentes:
   Ejecución          MSE        R²
0          1  2627.987870  0.961365
1          2  2840.201035  0.962851
2          3  2779.856214  0.959801
3          4  2628.882177  0.969544
4          5  2610.588703  0.963194
Promedio MSE: 2697.5032, Promedio R²: 0.9634
Mediana MSE: 2628.8822, Mediana R²: 0.9629

Resultados para 10 Componentes:
   Ejecución          MSE        R²
0          1  2714.562165  0.960092
1          2  2882.951481  0.962292
2          3  3020.987531  0.956315
3          4  2654.332272  0.969249
4          5  2631.805617  0.962895
Promedio MSE: 2780.9278, Promedio R²: 0.9622
Mediana MSE: 2714.5622, Mediana R²: 0.9623

Resultados para 11 Componentes:
   Ejecución          MSE        R²
0          1  2697.095694  0.960349
1          2  2844.284562  0.962798
2          3  2820.070683  0.959220
3          4  2626.784329  0.969568
4          5  2625.413038  0.962985
Promedio MSE: 2722.7297, Promedio R²: 0.9630
Mediana MSE: 2697.0957, Mediana 