In [31]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import itertools
from sklearn.model_selection import train_test_split, GridSearchCV, RepeatedKFold, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder, RobustScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, VotingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.impute import SimpleImputer
from xgboost import XGBRegressor

In [32]:
df_modelo = pd.read_csv('df_EDA_predicprecio.csv')
df_modelo.head()

Unnamed: 0,make,model,version,fuel,year,kms,power,shift,price
0,Opel,Crossland,1.2 GAS 110 GS Line 5p S/S,Gasolina,2022,5.0,110.0,manual,22900
1,Opel,Crossland,1.2 81kW (110CV) GS Line,Gasolina,2022,24847.0,110.0,manual,19990
2,Opel,Crossland,1.5D 88kW (120CV) Business Elegance Auto,Diésel,2021,41356.0,120.0,automatic,18590
3,Opel,Crossland,GS-Line 1.2 GAS MT6 S/S 110cv,Gasolina,2022,11.0,110.0,manual,22700
4,Opel,Crossland,1.2 GS LINE 110 CV 5P,Gasolina,2021,51390.0,110.0,manual,18200


In [33]:
# Función de normalización ajustada
def normalize_version(row):
    version = row['version']
    year = row['year']
    
    # Paso 1: Convertir todo a minúsculas
    version = version.lower()
    
    # Paso 2: Eliminar paréntesis y unidades de potencia como CV, kW
    version = re.sub(r'\s*\(?\d+\s*(cv|kw)\)?\s*', '', version)
    
    # Paso 3: Normalizar palabras clave de combustible
    version = re.sub(r'\bgas\b', 'gasolina', version)
    version = re.sub(r'\bdiesel\b', 'diésel', version)
    
    # Paso 4: Eliminar abreviaturas de transmisión y tipo (MT6, S/S, 5p, auto, manual, etc.)
    version = re.sub(r'\b(mt6|s/s|5p|automatico|manual|auto|edition|line|style|pro|exclusive|gs-line)\b', '', version)
    
    # Paso 5: Eliminar texto que no aporta a la versión, como "cv" o "kw"
    version = re.sub(r'\b(cv|kw)\b', '', version)
    
    # Paso 6: Eliminar caracteres de puntuación innecesarios y espacios adicionales
    version = re.sub(r'\s+', ' ', version)  # Reemplazar múltiples espacios por uno solo
    version = re.sub(r'[^\w\s]', '', version)  # Eliminar caracteres no alfanuméricos (por ejemplo, guiones, paréntesis)
    
    # Paso 7: Eliminar espacios al principio y al final
    version = version.strip()
    
    # Incluir el año en la versión normalizada
    normalized_version = f"{version} {year}"
    
    return normalized_version

# Aplicar la normalización incluyendo el año directamente en df_modelo
df_modelo['normalized_version'] = df_modelo.apply(normalize_version, axis=1)

In [34]:
# Número de filas antes de eliminar duplicados
initial_rows = len(df_modelo)

# Eliminar duplicados basados en 'make', 'model' y 'normalized_version'
df_modelo = df_modelo.drop_duplicates(subset=['make', 'model', 'normalized_version'])

# Número de filas después de eliminar duplicados
final_rows = len(df_modelo)

# Número de filas eliminadas
deleted_rows = initial_rows - final_rows

print(f"\nNúmero de filas originales: {initial_rows}")
print(f"Número de filas después de eliminar duplicados: {final_rows}")
print(f"Número de filas eliminadas: {deleted_rows}")


Número de filas originales: 12453
Número de filas después de eliminar duplicados: 9010
Número de filas eliminadas: 3443


In [35]:
# Función de depuración de valores infinitos
def depurar_valores_infinitos(X):
    """
    Depura valores infinitos separando columnas numéricas y categóricas
    
    Parámetros:
    X (DataFrame): DataFrame de entrada
    
    Retorna:
    DataFrame procesado
    """
    # Separar columnas numéricas y categóricas
    columnas_numericas = X.select_dtypes(include=['int64', 'float64']).columns
    columnas_categoricas = X.select_dtypes(include=['object']).columns
    
    # Clonar el DataFrame
    X_depurado = X.copy()
    
    # Imputar columnas numéricas
    if len(columnas_numericas) > 0:
        # Convertir infinitos a NaN
        X_depurado[columnas_numericas] = X_depurado[columnas_numericas].replace([np.inf, -np.inf], np.nan)
        
        # Imputar valores NaN con la mediana
        imputer_numerico = SimpleImputer(strategy='median')
        X_depurado[columnas_numericas] = imputer_numerico.fit_transform(X_depurado[columnas_numericas])
    
    # Imputar columnas categóricas con el valor más frecuente
    if len(columnas_categoricas) > 0:
        imputer_categorico = SimpleImputer(strategy='most_frequent')
        X_depurado[columnas_categoricas] = imputer_categorico.fit_transform(X_depurado[columnas_categoricas])
    
    return X_depurado

In [36]:
# Función de creación segura de características
def crear_caracteristicas_seguras(df):
    """
    Crea características nuevas manejando casos especiales
    
    Parámetros:
    df (DataFrame): DataFrame original
    
    Retorna:
    DataFrame con nuevas características
    """
    # Clonar el dataframe para no modificar el original
    df_seguro = df.copy()
    
    # Manejar casos de car_age = 0
    df_seguro['car_age'] = 2024 - df_seguro['year']
    df_seguro.loc[df_seguro['car_age'] == 0, 'car_age'] = 1  # Evitar división por cero
    
    # Calcular kms_per_year con manejo de casos especiales
    df_seguro['kms_per_year'] = df_seguro['kms'] / df_seguro['car_age']
    
    # Manejar casos extremos de kms_per_year
    kms_per_year_mean = df_seguro['kms_per_year'].median()
    df_seguro.loc[np.isinf(df_seguro['kms_per_year']), 'kms_per_year'] = kms_per_year_mean
    
    # Calcular power_per_km con manejo de casos especiales
    df_seguro['power_per_km'] = df_seguro['power'] / df_seguro['kms']
    power_per_km_mean = df_seguro['power_per_km'].median()
    df_seguro.loc[np.isinf(df_seguro['power_per_km']), 'power_per_km'] = power_per_km_mean
    
    return df_seguro


In [37]:
# Paso 1: Aplicar función de características
df_modelo = crear_caracteristicas_seguras(df_modelo)

In [38]:
# Paso 2: Depuración inicial de todo el dataset
df_modelo = depurar_valores_infinitos(df_modelo)

In [39]:
# Paso 3: Identificar columnas
columnas_categoricas = ['make', 'model', 'version', 'fuel', 'shift']
columnas_numericas = ['year', 'kms', 'power', 'car_age', 'kms_per_year', 'power_per_km']

In [40]:
# Paso 6: Preparación de datos
# Separar características y objetivo
X = df_modelo.drop('price', axis=1)
y = df_modelo['price']

In [41]:
# Dividir datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [42]:
# Paso 7: Preprocesador robusto
preprocessor = ColumnTransformer(
    transformers=[
        ('num', RobustScaler(), columnas_numericas),
        ('cat', OneHotEncoder(handle_unknown='ignore'), columnas_categoricas)
    ])

In [43]:
# Inicializar un diccionario para guardar los resultados
resultados_modelos = {}

# Depurar valores infinitos una vez
X_train_depurado = depurar_valores_infinitos(X_train)
X_test_depurado = depurar_valores_infinitos(X_test)

In [44]:
# === Celda para RandomForest ===

# Definir modelo y parámetros
nombre = 'RandomForest'
modelo = RandomForestRegressor(random_state=42)
parametros = {
    'n_estimators': [100, 200, 300, 400],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10, 15],
    'max_features': ['sqrt', 'log2', None],  # Corregido: 'auto' por 'sqrt', None
    'bootstrap': [True, False]
}

# Crear pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', modelo)
])

# Grid Search con validación cruzada repetida
grid_search = GridSearchCV(
    pipeline, 
    param_grid={f'regressor__{k}': v for k, v in parametros.items()}, 
    cv=RepeatedKFold(n_splits=5, n_repeats=3),
    scoring=['neg_mean_squared_error', 'r2'],  # Usar múltiples métricas
    refit='r2',  # Reajustar usando R2
    verbose=1,   # Mostrar progreso
    n_jobs=-1    # Usar todos los núcleos
)

In [45]:
# Entrenar el modelo
print(f"Iniciando entrenamiento de {nombre}...")
grid_search.fit(X_train_depurado, y_train)


Iniciando entrenamiento de RandomForest...
Fitting 15 folds for each of 384 candidates, totalling 5760 fits


In [46]:
# Obtener mejores parámetros
mejor_combinacion = grid_search.best_params_
print(f"\nMejores parámetros para {nombre}:")
for param, valor in mejor_combinacion.items():
    print(f"{param.replace('regressor__', '')}: {valor}")

# Evaluar en el conjunto de prueba
y_pred = grid_search.predict(X_test_depurado)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"\nResultados en conjunto de prueba para {nombre}:")
print(f"MSE: {mse:.4f}")
print(f"R²: {r2:.4f}")


Mejores parámetros para RandomForest:
bootstrap: False
max_depth: None
max_features: log2
min_samples_split: 2
n_estimators: 300

Resultados en conjunto de prueba para RandomForest:
MSE: 67535328.9533
R²: 0.8752


In [47]:
# Guardar resultados
resultados_modelos[nombre] = {
    'pipeline': grid_search,
    'mejor_configuracion': mejor_combinacion,
    'cv_results': grid_search.cv_results_,
    'test_mse': mse,
    'test_r2': r2
}

In [48]:
# === Celda para Gradient Boosting ===

# Definir modelo y parámetros
nombre = 'GradientBoosting'
modelo = GradientBoostingRegressor(random_state=42)
parametros = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 4, 5],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'subsample': [0.8, 0.9, 1.0]
}

# Crear pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', modelo)
])

# Grid Search con validación cruzada repetida
grid_search = GridSearchCV(
    pipeline, 
    param_grid={f'regressor__{k}': v for k, v in parametros.items()}, 
    cv=RepeatedKFold(n_splits=5, n_repeats=3),
    scoring=['neg_mean_squared_error', 'r2'],  # Usar múltiples métricas
    refit='r2',  # Reajustar usando R2
    verbose=1,   # Mostrar progreso
    n_jobs=-1    # Usar todos los núcleos
)

In [49]:
# Entrenar el modelo
print(f"Iniciando entrenamiento de {nombre}...")
grid_search.fit(X_train_depurado, y_train)


Iniciando entrenamiento de GradientBoosting...
Fitting 15 folds for each of 729 candidates, totalling 10935 fits


In [50]:
# Obtener mejores parámetros
mejor_combinacion = grid_search.best_params_
print(f"\nMejores parámetros para {nombre}:")
for param, valor in mejor_combinacion.items():
    print(f"{param.replace('regressor__', '')}: {valor}")

# Evaluar en el conjunto de prueba
y_pred = grid_search.predict(X_test_depurado)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"\nResultados en conjunto de prueba para {nombre}:")
print(f"MSE: {mse:.4f}")
print(f"R²: {r2:.4f}")


Mejores parámetros para GradientBoosting:
learning_rate: 0.2
max_depth: 3
min_samples_leaf: 2
min_samples_split: 10
n_estimators: 300
subsample: 1.0

Resultados en conjunto de prueba para GradientBoosting:
MSE: 96942963.3469
R²: 0.8209


In [51]:
# Guardar resultados
resultados_modelos[nombre] = {
    'pipeline': grid_search,
    'mejor_configuracion': mejor_combinacion,
    'cv_results': grid_search.cv_results_,
    'test_mse': mse,
    'test_r2': r2
}

In [52]:
# === Celda para XGBoost ===

# Definir modelo y parámetros
nombre = 'XGBoost'
modelo = XGBRegressor(random_state=42)
parametros = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 4, 5],
    'min_child_weight': [1, 3, 5],
    'subsample': [0.6, 0.8, 1.0],
    'colsample_bytree': [0.6, 0.8, 1.0]
}

# Crear pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', modelo)
])

# Grid Search con validación cruzada repetida
grid_search = GridSearchCV(
    pipeline, 
    param_grid={f'regressor__{k}': v for k, v in parametros.items()}, 
    cv=RepeatedKFold(n_splits=5, n_repeats=3),
    scoring=['neg_mean_squared_error', 'r2'],  # Usar múltiples métricas
    refit='r2',  # Reajustar usando R2
    verbose=1,   # Mostrar progreso
    n_jobs=-1    # Usar todos los núcleos
)

In [53]:
# Entrenar el modelo
print(f"Iniciando entrenamiento de {nombre}...")
grid_search.fit(X_train_depurado, y_train)

Iniciando entrenamiento de XGBoost...
Fitting 15 folds for each of 729 candidates, totalling 10935 fits


In [54]:
# Obtener mejores parámetros
mejor_combinacion = grid_search.best_params_
print(f"\nMejores parámetros para {nombre}:")
for param, valor in mejor_combinacion.items():
    print(f"{param.replace('regressor__', '')}: {valor}")

# Evaluar en el conjunto de prueba
y_pred = grid_search.predict(X_test_depurado)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"\nResultados en conjunto de prueba para {nombre}:")
print(f"MSE: {mse:.4f}")
print(f"R²: {r2:.4f}")


Mejores parámetros para XGBoost:
colsample_bytree: 0.6
learning_rate: 0.2
max_depth: 4
min_child_weight: 1
n_estimators: 300
subsample: 0.8

Resultados en conjunto de prueba para XGBoost:
MSE: 65168045.4124
R²: 0.8796


In [55]:
# Guardar resultados
resultados_modelos[nombre] = {
    'pipeline': grid_search,
    'mejor_configuracion': mejor_combinacion,
    'cv_results': grid_search.cv_results_,
    'test_mse': mse,
    'test_r2': r2
}

In [56]:
# === Celda para comparar resultados ===

# Mostrar resumen de resultados para todos los modelos entrenados
if resultados_modelos:
    print("RESUMEN DE RESULTADOS:\n")
    
    # Crear tabla comparativa
    resultados_df = pd.DataFrame({
        'Modelo': [],
        'MSE Test': [],
        'R² Test': []
    })
    
    for nombre, resultado in resultados_modelos.items():
        nueva_fila = pd.DataFrame({
            'Modelo': [nombre],
            'MSE Test': [resultado['test_mse']],
            'R² Test': [resultado['test_r2']]
        })
        resultados_df = pd.concat([resultados_df, nueva_fila], ignore_index=True)
    
    # Ordenar por R² (descendente)
    resultados_df = resultados_df.sort_values('R² Test', ascending=False).reset_index(drop=True)
    
    # Mostrar tabla
    print(resultados_df)
    
    # Identificar el mejor modelo
    mejor_modelo = resultados_df.iloc[0]['Modelo']
    mejor_r2 = resultados_df.iloc[0]['R² Test']
    mejor_mse = resultados_df.iloc[0]['MSE Test']
    
    print(f"\nMEJOR MODELO: {mejor_modelo}")
    print(f"R² Test: {mejor_r2:.4f}")
    print(f"MSE Test: {mejor_mse:.4f}")
    
    # Mostrar los mejores parámetros del mejor modelo
    print("\nMejores parámetros:")
    for param, valor in resultados_modelos[mejor_modelo]['mejor_configuracion'].items():
        print(f"{param.replace('regressor__', '')}: {valor}")
else:
    print("No hay modelos entrenados para comparar.")

RESUMEN DE RESULTADOS:

             Modelo      MSE Test   R² Test
0           XGBoost  6.516805e+07  0.879583
1      RandomForest  6.753533e+07  0.875209
2  GradientBoosting  9.694296e+07  0.820869

MEJOR MODELO: XGBoost
R² Test: 0.8796
MSE Test: 65168045.4124

Mejores parámetros:
colsample_bytree: 0.6
learning_rate: 0.2
max_depth: 4
min_child_weight: 1
n_estimators: 300
subsample: 0.8


In [64]:
# Encontrar los mejores modelos para cada tipo
mejores_modelos = {}

# Para RandomForest
mejores_modelos['RandomForest'] = resultados_modelos['RandomForest']

# Para GradientBoosting
mejores_modelos['GradientBoosting'] = resultados_modelos['GradientBoosting']

# Para XGBoost
mejores_modelos['XGBoost'] = resultados_modelos['XGBoost']

print("Mejores parámetros para RandomForest:", mejores_modelos['RandomForest']['mejor_configuracion'])
print("Mejores parámetros para GradientBoosting:", mejores_modelos['GradientBoosting']['mejor_configuracion'])
print("Mejores parámetros para XGBoost:", mejores_modelos['XGBoost']['mejor_configuracion'])


Mejores parámetros para RandomForest: {'regressor__bootstrap': False, 'regressor__max_depth': None, 'regressor__max_features': 'log2', 'regressor__min_samples_split': 2, 'regressor__n_estimators': 300}
Mejores parámetros para GradientBoosting: {'regressor__learning_rate': 0.2, 'regressor__max_depth': 3, 'regressor__min_samples_leaf': 2, 'regressor__min_samples_split': 10, 'regressor__n_estimators': 300, 'regressor__subsample': 1.0}
Mejores parámetros para XGBoost: {'regressor__colsample_bytree': 0.6, 'regressor__learning_rate': 0.2, 'regressor__max_depth': 4, 'regressor__min_child_weight': 1, 'regressor__n_estimators': 300, 'regressor__subsample': 0.8}


In [77]:
from sklearn.ensemble import StackingRegressor
from sklearn.pipeline import Pipeline
from sklearn.linear_model import Ridge

In [78]:
# 1️⃣ Extraer los mejores hiperparámetros
best_params_rf = mejores_modelos['RandomForest']['mejor_configuracion']
best_params_gb = mejores_modelos['GradientBoosting']['mejor_configuracion']
best_params_xgb = mejores_modelos['XGBoost']['mejor_configuracion']

In [79]:
# 2️⃣ Crear modelos con los mejores hiperparámetros
rf_best = RandomForestRegressor(
    bootstrap=best_params_rf['regressor__bootstrap'],
    max_depth=best_params_rf['regressor__max_depth'],
    max_features=best_params_rf['regressor__max_features'],
    min_samples_split=best_params_rf['regressor__min_samples_split'],
    n_estimators=best_params_rf['regressor__n_estimators'],
    random_state=42
)

In [80]:
gb_best = GradientBoostingRegressor(
    learning_rate=best_params_gb['regressor__learning_rate'],
    max_depth=best_params_gb['regressor__max_depth'],
    min_samples_leaf=best_params_gb['regressor__min_samples_leaf'],
    min_samples_split=best_params_gb['regressor__min_samples_split'],
    n_estimators=best_params_gb['regressor__n_estimators'],
    subsample=best_params_gb['regressor__subsample'],
    random_state=42
)

In [81]:
xgb_best = XGBRegressor(
    colsample_bytree=best_params_xgb['regressor__colsample_bytree'],
    learning_rate=best_params_xgb['regressor__learning_rate'],
    max_depth=best_params_xgb['regressor__max_depth'],
    min_child_weight=best_params_xgb['regressor__min_child_weight'],
    n_estimators=best_params_xgb['regressor__n_estimators'],
    subsample=best_params_xgb['regressor__subsample'],
    random_state=42
)

In [82]:
# 3️⃣ Definir el StackingRegressor con Ridge como meta-modelo
stacking_model = StackingRegressor(
    estimators=[
        ('rf', rf_best),
        ('gb', gb_best),
        ('xgb', xgb_best)
    ],
    final_estimator=Ridge(alpha=1.0),  # Puedes probar con otro regresor como Lasso o SVR
    n_jobs=-1
)

In [83]:
# 4️⃣ Crear pipeline con preprocesamiento
stacking_pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('stacking', stacking_model)
])

In [84]:
# Entrenar el modelo
stacking_pipeline.fit(X_train, y_train)

In [85]:
# Evaluar el desempeño
y_pred = stacking_pipeline.predict(X_test)
print("Stacking - MSE:", mean_squared_error(y_test, y_pred))
print("Stacking - R2:", r2_score(y_test, y_pred))

Stacking - MSE: 58758485.95028141
Stacking - R2: 0.8914263208111792


In [88]:
from sklearn.ensemble import StackingRegressor
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import RobustScaler, OneHotEncoder
from sklearn.model_selection import GridSearchCV, train_test_split, RepeatedKFold
from sklearn.metrics import mean_squared_error, r2_score


In [89]:
# Dividir datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [90]:
# Preprocesador robusto
preprocessor = ColumnTransformer(
    transformers=[
        ('num', RobustScaler(), columnas_numericas),
        ('cat', OneHotEncoder(handle_unknown='ignore'), columnas_categoricas)
    ])

In [91]:
# Modelos base mejorados
gb_best = GradientBoostingRegressor(
    learning_rate=0.05, 
    max_depth=4, 
    min_samples_split=8, 
    n_estimators=400, 
    subsample=0.9, 
    random_state=42
)

xgb_best = XGBRegressor(
    colsample_bytree=0.8,  
    learning_rate=0.05,  
    max_depth=6,  
    min_child_weight=1,
    n_estimators=500,  
    subsample=0.9,  
    random_state=42
)


In [92]:
svr_best = SVR(kernel='rbf', C=100)

In [93]:
# Stacking Regressor con meta-modelo XGBoost
stacking_model = StackingRegressor(
    estimators=[
        ('gb', gb_best),
        ('xgb', xgb_best),
        ('svr', svr_best)
    ],
    final_estimator=XGBRegressor(n_estimators=100, learning_rate=0.1, random_state=42),
    n_jobs=-1
)


In [94]:
# Crear pipeline con preprocesador
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('stacking', stacking_model)
])

# GridSearch para afinar hiperparámetros del meta-modelo
param_grid = {
    'stacking__final_estimator__n_estimators': [100, 200, 300],
    'stacking__final_estimator__learning_rate': [0.05, 0.1, 0.2]
}

grid_search = GridSearchCV(
    pipeline, param_grid, cv=RepeatedKFold(n_splits=5, n_repeats=3), n_jobs=-1, verbose=1, scoring=['neg_mean_squared_error', 'r2'], refit='r2'
)

In [95]:
grid_search.fit(X_train, y_train)

Fitting 15 folds for each of 9 candidates, totalling 135 fits


In [96]:
# Evaluación final
best_stacking = grid_search.best_estimator_
y_pred = best_stacking.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Mejor configuración del meta-modelo:", grid_search.best_params_)
print(f"Stacking Mejorado - MSE: {mse}")
print(f"Stacking Mejorado - R2: {r2}")


Mejor configuración del meta-modelo: {'stacking__final_estimator__learning_rate': 0.05, 'stacking__final_estimator__n_estimators': 100}
Stacking Mejorado - MSE: 127721174.2857914
Stacking Mejorado - R2: 0.7639973600705317


In [None]:
import joblib
#joblib.dump(stacking_pipeline, 'stacking_model_predictor.joblib')