In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

In [2]:
#Cargar datos
df = pd.read_csv('./datos/dataset_limpio_s_outliers.csv', parse_dates=['fecha'])

In [3]:
# Selección de variables para PCA
vars_mosto = [
    'reposo2_min', 'reposo2_temp',
    'reposo3_min', 'reposo3_temp',
    'reposo4_min', 'reposo4_temp',
    'pH_1', 
    'primer_mosto_extracto', 'ultima_agua_extracto',
    'agua_lavado_temp', 'temperatura_llenado',
    'paila_llena_extracto', 'ebullicion_minutos',
    'ebullicion_temp', 'mosto_frio_extracto'
]

# Extraer DataFrame con solo estas variables
df_mosto = df[vars_mosto].copy()
df_mosto.head()

Unnamed: 0,reposo2_min,reposo2_temp,reposo3_min,reposo3_temp,reposo4_min,reposo4_temp,pH_1,primer_mosto_extracto,ultima_agua_extracto,agua_lavado_temp,temperatura_llenado,paila_llena_extracto,ebullicion_minutos,ebullicion_temp,mosto_frio_extracto
0,10.333333,65.216667,15.0,70.2,25.0,72.233333,5.605,18.381667,1.516667,76.166667,74.3,14.988333,50.0,100.966667,15.993333
1,6.0,65.266667,26.666667,70.2,25.0,72.233333,5.61,18.466667,1.496667,76.166667,74.4,15.083333,50.0,100.866667,16.043333
2,10.333333,65.216667,15.0,70.2,25.0,72.233333,5.605,18.381667,1.516667,76.166667,74.3,14.988333,50.0,100.966667,15.993333
3,10.5,65.35,15.0,70.2,25.0,72.25,5.585,18.875,1.535,76.6,74.75,14.99,50.0,101.0,16.0
4,6.0,65.166667,15.0,70.2,25.0,72.166667,5.6,18.39,1.533333,76.2,74.133333,15.0,50.0,100.933333,16.0


In [4]:
# Estandarizar con StandardScaler
scaler = StandardScaler()
m_scaled = scaler.fit_transform(df_mosto)

# Crear DataFrame de variables estandarizadas
df_mosto_scaled = pd.DataFrame(
    m_scaled,
    columns=[f"{col}_scaled" for col in vars_mosto]
)

# Concatenar con el DataFrame original o usar solo las escaladas
df_scaled = pd.concat([df, df_mosto_scaled], axis=1)

# Verificar resultados
df_scaled.head()

Unnamed: 0,fecha,marca,ea,er,eo,gfa,gfr,abv,pH,grupo,...,reposo4_temp_scaled,pH_1_scaled,primer_mosto_extracto_scaled,ultima_agua_extracto_scaled,agua_lavado_temp_scaled,temperatura_llenado_scaled,paila_llena_extracto_scaled,ebullicion_minutos_scaled,ebullicion_temp_scaled,mosto_frio_extracto_scaled
0,7/06/2023,IPA,2.67,5.11,15.39,82.651072,66.796621,6.91,4.31,803804805806807808,...,1.618994,0.229151,-0.618481,-0.529045,-0.622904,-0.326542,-0.71457,1.153596,0.202654,0.01457
1,7/06/2023,IPA,2.67,5.1,15.35,82.605863,66.775244,6.88,4.31,829830831,...,1.618994,0.397318,-0.482082,-0.652419,-0.622904,-0.145023,-0.645844,1.153596,-0.161927,0.653456
2,7/06/2023,IPA,2.67,5.11,15.41,82.673589,66.839714,6.92,4.31,803804805806807808,...,1.618994,0.229151,-0.618481,-0.529045,-0.622904,-0.326542,-0.71457,1.153596,0.202654,0.01457
3,8/06/2023,IPA,2.62,5.09,15.54,83.140283,67.245817,7.03,4.38,794816817,...,1.816715,-0.443516,0.17317,-0.415953,1.901464,0.490294,-0.713365,1.153596,0.324181,0.099755
4,10/06/2023,IPA,2.67,5.06,15.17,82.399473,66.644693,6.78,4.48,826827828,...,0.828112,0.060984,-0.605109,-0.426234,-0.428722,-0.629075,-0.70613,1.153596,0.081127,0.099755


In [5]:
#calculamos el número de componentes suficientes para explicar el 90% de la varianza acumulada.

X_scaled = df_mosto_scaled.values

# Ajustar PCA para explicar el 90% de la varianza
pca = PCA(n_components=0.90, svd_solver='full')
X_pca = pca.fit_transform(X_scaled)

print(f"Número de componentes necesarios para 90% de varianza: {pca.n_components_}")
print("Varianza explicada por componente:", pca.explained_variance_ratio_)
print("Varianza acumulada:", np.cumsum(pca.explained_variance_ratio_))


Número de componentes necesarios para 90% de varianza: 10
Varianza explicada por componente: [0.22286988 0.16190211 0.11817919 0.08690244 0.07424847 0.06941094
 0.06238233 0.05093472 0.04780408 0.045176  ]
Varianza acumulada: [0.22286988 0.38477199 0.50295119 0.58985362 0.66410209 0.73351302
 0.79589535 0.84683008 0.89463415 0.93981015]


In [6]:
""" Extraemos los loadings (cargas) de cada componente para entender qué variables de mosto están 
marcando más cada PC, y a continuación construir el DataFrame de scores que usaremos como features
en nuestro modelo predictivo. """

# Extraer loadings para interpretación
vars_mosto = [
    'reposo2_min', 'reposo2_temp',
    'reposo3_min', 'reposo3_temp',
    'reposo4_min', 'reposo4_temp',
    'pH_1',
    'primer_mosto_extracto', 'ultima_agua_extracto',
    'agua_lavado_temp', 'temperatura_llenado',
    'paila_llena_extracto', 'ebullicion_minutos',
    'ebullicion_temp', 'mosto_frio_extracto'
]
loadings = pd.DataFrame( #loadings nos dice qué variables de mosto “mandan” más en cada componente principal
    pca.components_.T,
    index=vars_mosto,
    columns=[f'PC{i+1}' for i in range(pca.n_components_)]
)
print("Loadings (cargas) de cada variable en los primeros componentes:")
print(loadings)

# Construir DataFrame de scores y unir con ABV
df_scores = pd.DataFrame(
    X_pca,
    columns=[f'PC{i+1}' for i in range(pca.n_components_)],
    index=df.index
)

#df_model contiene los 10 PC como features y la variable objetivo abv, listo para pasar a la fase de modelado.
df_model = pd.concat([df_scores, df['abv']], axis=1) 

print("\nPrimeras filas del DataFrame de modelado:")
print(df_model.head())


Loadings (cargas) de cada variable en los primeros componentes:
                            PC1       PC2       PC3       PC4       PC5  \
reposo2_min            0.455131  0.319580  0.000303  0.025210 -0.044873   
reposo2_temp           0.445450  0.336534  0.136448  0.068500 -0.032279   
reposo3_min           -0.018276 -0.208857  0.603743  0.146495 -0.004399   
reposo3_temp           0.438293  0.346064  0.125382  0.094212 -0.034101   
reposo4_min           -0.109191 -0.097209  0.451726  0.320042  0.239144   
reposo4_temp          -0.021960  0.122605 -0.214931  0.250750  0.126192   
pH_1                   0.068132 -0.006720  0.017275  0.210213  0.565104   
primer_mosto_extracto  0.326025 -0.390904 -0.089706  0.079622  0.239832   
ultima_agua_extracto   0.178302 -0.280747 -0.044725 -0.325271  0.010624   
agua_lavado_temp       0.116158 -0.219265  0.108209 -0.247863 -0.375914   
temperatura_llenado    0.162424 -0.099410  0.360566 -0.170201 -0.271087   
paila_llena_extracto  -0.054737  0.1

In [7]:
#ordena los loadings absolutos descendentes: las 3-5 variables top son las que más contribuyen
n_c = pca.n_components_
for i in range(n_c):
    print(f"características de maceración y hervor definen el eje PC{i+1}:")
    print(loadings[f'PC{i+1}'].abs().sort_values(ascending=False).head(5))

características de maceración y hervor definen el eje PC1:
reposo2_min              0.455131
reposo2_temp             0.445450
reposo3_temp             0.438293
ebullicion_temp          0.327078
primer_mosto_extracto    0.326025
Name: PC1, dtype: float64
características de maceración y hervor definen el eje PC2:
ebullicion_minutos       0.423695
primer_mosto_extracto    0.390904
reposo3_temp             0.346064
reposo2_temp             0.336534
reposo2_min              0.319580
Name: PC2, dtype: float64
características de maceración y hervor definen el eje PC3:
reposo3_min             0.603743
reposo4_min             0.451726
temperatura_llenado     0.360566
ebullicion_temp         0.324140
paila_llena_extracto    0.287540
Name: PC3, dtype: float64
características de maceración y hervor definen el eje PC4:
mosto_frio_extracto     0.594638
paila_llena_extracto    0.398527
ultima_agua_extracto    0.325271
reposo4_min             0.320042
reposo4_temp            0.250750
Name: PC4, dtype

In [8]:
# Sobrescribir df con el DataFrame limpio por IQR
#df = df_iqr_clean.copy()
df_model.to_csv('./datos/dataset_para_modelo.csv', index=False)