## Imports

In [8]:
from sklearn.pipeline import Pipeline
import bootcampviztools as bt
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import Toolbox_ML as tb
import lightgbm as lgb

from collections import Counter
from lightgbm import LGBMClassifier, LGBMRegressor
from scipy import stats
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import VarianceThreshold, SelectKBest, f_classif, SelectFromModel, RFE, SequentialFeatureSelector
from sklearn.metrics import mutual_info_score, classification_report
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from xgboost import XGBClassifier, XGBRegressor
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import median_absolute_error, mean_squared_error, mean_absolute_error
from sklearn.compose import ColumnTransformer
from sklearn.feature_selection import SelectKBest, SelectFromModel, f_regression
from catboost import CatBoostRegressor
import pickle
import warnings
warnings.filterwarnings("ignore")
import re
from sklearn.compose import make_column_selector as selector

## Limpieza del train

In [9]:
df = pd.read_csv("./data/train.csv")

#### Funciones de limpieza

In [10]:
# Función para convertir las capacidades a GBs y hacerlas numéricas
def convert_capacity(capacity_str):
    if 'tb' in capacity_str:
        return float(capacity_str.replace('tb', '').strip()) * 1000
    elif 'gb' in capacity_str:
        return float(capacity_str.replace('gb', '').strip())
    else:
        return 0

# Función para descomponer cada entrada en los componentes especificados
def decompose_info(row):
    # Buscar la capacidad de almacenamiento
    capacities = re.findall(r'\d+(?:\.\d+)?[tg]b', row)
    total_capacity = sum(convert_capacity(c) for c in capacities)
    
    # Buscar el tipo de almacenamiento
    if 'ssd' in row and 'hdd' in row:
        storage_type = 'ssd/hdd'
    elif 'SSD' in row and 'hybrid' in row:
        storage_type = 'SSD/Hybrid'
    elif 'hdd' in row and 'flash storage' in row:
        storage_type = 'hdd/flash storage'
    elif 'ssd' in row:
        storage_type = 'ssd'
    elif 'hdd' in row:
        storage_type = 'hdd'
    elif 'flash storage' in row:
        storage_type = 'flash storage'
    elif 'hybrid' in row:
        storage_type = 'hybrid'
    
    # Buscar la combinación de almacenamiento
    if '+' in row:
        multiple_storage = True
    else:
        multiple_storage = False
    
    return pd.Series([total_capacity, storage_type, multiple_storage])

def split_info(row):
    # Extraer marca (Intel o AMD)
    if 'intel' in row:
        brand = 'intel'
    elif 'amd' in row:
        brand = 'amd'
    else:
        brand = None
    
    # Extraer frecuencia (con Ghz)
    ghz = re.search(r'\d+(\.\d+)?ghz', row)
    ghz = ghz.group() if ghz else None
    
    # Extraer el resto
    rest = row
    if brand:
        rest = rest.replace(brand, '').strip()
    if ghz:
        rest = rest.replace(ghz, '').strip()
    
    return pd.Series([brand, ghz, rest])

def split_info_2(row):
    # Extraer marca (Intel Nvidia o AMD)
    if 'intel' in row:
        brand = 'intel'
    elif 'amd' in row:
        brand = 'amd'
    elif 'nvidia' in row:
        brand = 'nvidia'
    else:
        brand = None
    
    # Extraer el resto
    rest = row
    if brand:
        rest = rest.replace(brand, '').strip()
    
    return pd.Series([brand, rest])

def decompose_info_2(row):
    # Buscar resolución en el formato "????x????"
    resolution = re.search(r'\b\d{3,4}x\d{3,4}\b', row)
    resolution = resolution.group() if resolution else None

    # Determinar el tipo de panel
    panel_type = 'ips Panel' in row
    
    # Determinar la calidad de imagen
    if '4k ultra hd' in row:
        quality = '4k ultra hd'
    elif 'quad hd+' in row:
        quality = 'quad hd+'
    elif 'full hd' in row:
        quality = 'full hd'
    elif 'hd' in row:
        quality = 'hd'
    else:
        quality = None
    
    # Determinar si es Touchscreen
    is_touchscreen = 'touchscreen' in row
    
    return pd.Series([resolution, panel_type, quality, is_touchscreen])

#### Target x e y

In [11]:
target = 'Price_euros'
X = df.drop(target, axis = 1)
y = df[target]

#### Creación de nuevas columnas

In [12]:
# Hago todos los valores minúsculas
X = X.applymap(lambda x: x.lower() if isinstance(x, str) else x)

# Descompongo Memory, Cpu, Gpu, ScreenResolution y Product
X[['Capacity', 'Storage Type', 'Multiple Storage']] = X['Memory'].apply(decompose_info)
X[['Marca CPU', 'GHz CPU', 'Modelo CPU']] = X['Cpu'].apply(split_info)
X[['Marca GPU', 'Modelo GPU']] = X['Gpu'].apply(split_info_2)
X[['Modelo CPU', 'Submodelo CPU']] = X['Modelo CPU'].str.rsplit(n=1, expand=True)
X[['Modelo GPU', 'Submodelo GPU']] = X['Modelo GPU'].str.rsplit(n=1, expand=True)
X[['Resolution', 'Panel Type', 'Quality', 'Touchscreen']] = X['ScreenResolution'].apply(decompose_info_2)
X[['Modelo', 'Submodelo']] = X['Product'].str.extract(r'(\w+)\s*(.*)')
X['Submodelo'] = X['Submodelo'].str.replace('-', ' ').str.split('(').str[0].str.strip()

# Quito GHz, GB y Kg de estas columnas
X['GHz CPU'] = X['GHz CPU'].str.replace('ghz','',regex=False)
X['GHz CPU'] = X['GHz CPU'].astype(float)
X.Weight = X.Weight.str.replace('kg','',regex=False)
X.Weight = X.Weight.astype(float)
X.Ram = X.Ram.str.replace('gb','',regex=False)
X.Ram = X.Ram.astype(float)

# Los valores vacíos los transformo en None
X.replace(r'^\s*$', None, regex=True, inplace=True)

In [13]:
X['Marca CPU'].unique()

array(['intel', 'amd'], dtype=object)

#### Drop de columnas antiguas

In [14]:
X = X.drop(columns=['laptop_ID', 'id', 'ScreenResolution', 'Cpu', 'Memory', 'Gpu', 'Product'])

In [15]:
X

Unnamed: 0,Company,TypeName,Inches,Ram,OpSys,Weight,Capacity,Storage Type,Multiple Storage,Marca CPU,...,Marca GPU,Modelo GPU,Submodelo CPU,Submodelo GPU,Resolution,Panel Type,Quality,Touchscreen,Modelo,Submodelo
0,dell,notebook,15.6,8.0,windows 10,2.36,1000.0,hdd,False,intel,...,amd,radeon r7,7500u,m445,1366x768,False,,False,inspiron,5567
1,asus,notebook,15.6,4.0,windows 10,2.00,1000.0,hdd,False,intel,...,intel,hd graphics,n4200,505,1366x768,False,,False,x541na,
2,toshiba,notebook,13.3,8.0,windows 7,1.20,256.0,ssd,False,intel,...,intel,hd graphics,6200u,520,1920x1080,False,full hd,False,portege,z30 c 1cw
3,dell,gaming,15.6,16.0,windows 10,4.42,1256.0,ssd/hdd,True,intel,...,nvidia,geforce gtx,7700hq,1070,3840x2160,False,4k ultra hd,False,alienware,17
4,dell,ultrabook,12.5,8.0,windows 7,1.26,256.0,ssd,False,intel,...,intel,hd graphics,6300u,520,1920x1080,False,full hd,True,latitude,e7270
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
907,acer,2 in 1 convertible,11.6,4.0,chrome os,1.25,32.0,flash storage,False,intel,...,intel,hd graphics,n3060,400,1366x768,False,,True,chromebook,c738t c2ej
908,toshiba,notebook,13.3,4.0,windows 10,1.20,128.0,ssd,False,intel,...,intel,hd graphics,6200u,520,1920x1080,False,full hd,False,portege,z30 c 16h
909,acer,notebook,15.6,8.0,windows 10,2.40,1000.0,hdd,False,amd,...,amd,radeon,7410,r5,1366x768,False,,False,aspire,es1 523
910,dell,ultrabook,14.0,8.0,windows 10,1.36,256.0,ssd,False,intel,...,intel,hd graphics,7600u,620,1920x1080,False,full hd,False,latitude,7480


## Creación de la pipeline

In [16]:
# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Identificar las características numéricas y categóricas
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Crear transformadores para las características numéricas y categóricas
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Combinar los transformadores en un ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])


#### Pruebas con RF

In [24]:
# Crear la pipeline completa con un modelo de regresión
pipeline_1 = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(n_estimators=100, random_state=42))
])

# Definir la cuadrícula de hiperparámetros para el RandomForestRegressor
param_grid = {
    'regressor__n_estimators': [50, 100, 200, 300],       # Número de árboles en el bosque
    'regressor__max_depth': [None, 10, 20, 30],           # Profundidad máxima del árbol
    'regressor__min_samples_split': [2, 5, 10],           # Número mínimo de muestras necesarias para dividir un nodo
    'regressor__min_samples_leaf': [1, 2, 4],             # Número mínimo de muestras necesarias en un nodo hoja
    'regressor__max_features': ['auto', 'sqrt', 'log2'],  # Número de características a considerar para la mejor división
    'regressor__bootstrap': [True, False]
}

# Crear el objeto GridSearchCV
grid_search = GridSearchCV(pipeline_1, param_grid, cv=5, n_jobs=-1, scoring='neg_mean_absolute_percentage_error')

# Ajustar la búsqueda de hiperparámetros en los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Mejor conjunto de hiperparámetros encontrados
print("Mejores hiperparámetros:", grid_search.best_params_)

# Realizar predicciones en el conjunto de prueba con el mejor modelo encontrado
best_model_1 = grid_search.best_estimator_
y_pred_1 = best_model_1.predict(X_test)

# Evaluar el modelo
mae = mean_absolute_error(y_test, y_pred_1)
print("Error absoluto medio del modelo:", mae)

Mejores hiperparámetros: {'regressor__bootstrap': False, 'regressor__max_depth': None, 'regressor__max_features': 'sqrt', 'regressor__min_samples_leaf': 1, 'regressor__min_samples_split': 2, 'regressor__n_estimators': 200}
Error absoluto medio del modelo: 175.7974606557377


#### Pruebas con LightGBM

In [30]:
# Crear la pipeline completa con un modelo de regresión
pipeline_2 = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LGBMRegressor(n_estimators=100, random_state=42))
])

# Definir la cuadrícula de hiperparámetros para el RandomForestRegressor
param_grid = {
    'regressor__num_leaves': [31, 40, 50],                 # Número máximo de hojas en un árbol
    'regressor__max_depth': [-1, 10, 20, 30],              # Profundidad máxima del árbol
    'regressor__learning_rate': [0.01, 0.1, 0.2],          # Tasa de aprendizaje
    'regressor__n_estimators': [100, 200, 300],            # Número de árboles
    'regressor__min_child_samples': [20, 30, 40],          # Número mínimo de muestras en una hoja
    'regressor__subsample': [0.6, 0.8, 1.0],               # Fracción de datos para entrenar cada árbol
    'regressor__colsample_bytree': [0.6, 0.8, 1.0]         # Fracción de características para entrenar cada árbol
}

# Crear el objeto GridSearchCV
grid_search = GridSearchCV(pipeline_2, param_grid, cv=5, n_jobs = -1, scoring='neg_mean_absolute_percentage_error')

# Ajustar la búsqueda de hiperparámetros en los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Mejor conjunto de hiperparámetros encontrados
print("Mejores hiperparámetros:", grid_search.best_params_)

# Realizar predicciones en el conjunto de prueba con el mejor modelo encontrado
best_model_2 = grid_search.best_estimator_
y_pred_2 = best_model_2.predict(X_test)

# Evaluar el modelo
mae = mean_absolute_error(y_test, y_pred_2)
print("Error absoluto medio del modelo:", mae)

#### Pruebas con XGBoost

In [52]:
# Crear la pipeline completa con un modelo de regresión
pipeline_3 = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', XGBRegressor(
        alpha=0.000091,                      # Parámetro de regularización L1 (alpha)
        reg_lambda=0.000091,                 # Parámetro de regularización L2 (lambda)
        gamma=0.000091                       # Parámetro de regularización en la reducción mínima de la pérdida (gamma)
    ))
])

# Definir la cuadrícula de hiperparámetros para el XGBoost
param_grid = {
    'regressor__n_estimators': [725, 735, 745],
    'regressor__max_depth': [7.5, 8, 8.5],
    'regressor__learning_rate': [0.05, 0.1, 0.2],
    'regressor__subsample': [0.6, 0.8, 1],
    'regressor__colsample_bytree': [0.2, 0.4, 0.6],
}

# Crear el objeto GridSearchCV
grid_search = GridSearchCV(pipeline_3, param_grid, cv=5, n_jobs=-1, scoring='neg_mean_absolute_percentage_error')

# Ajustar la búsqueda de hiperparámetros en los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Mejor conjunto de hiperparámetros encontrados
print("Mejores hiperparámetros:", grid_search.best_params_)

# Realizar predicciones en el conjunto de prueba con el mejor modelo encontrado
best_model_3 = grid_search.best_estimator_
y_pred_3 = best_model_3.predict(X_test)

# Evaluar el modelo
mae = mean_absolute_error(y_test, y_pred_3)
print("Error absoluto medio del modelo:", mae)

Mejores hiperparámetros: {'regressor__colsample_bytree': 0.4, 'regressor__learning_rate': 0.05, 'regressor__max_depth': 8, 'regressor__n_estimators': 725, 'regressor__subsample': 0.6}
Error absoluto medio del modelo: 142.1035352429666


- Modelo 1:

param_grid = {
    'regressor__n_estimators': [300, 600, 900],
    'regressor__max_depth': [7, 9, 11],
    'regressor__learning_rate': [0.1, 0.2, 0.4, 0.8],
    'regressor__subsample': [0.1, 0.2, 0.4, 0.8],
    'regressor__colsample_bytree': [0.2, 0.4, 0.8],
}

neg_mean_absolute_percentage_error

Mejores hiperparámetros: {'regressor__colsample_bytree': 0.4, 'regressor__learning_rate': 0.1, 'regressor__max_depth': 9, 'regressor__n_estimators': 600, 'regressor__subsample': 0.8}
Error absoluto medio del modelo: 135.14566630712622

- Modelo 2:

param_grid = {
    'regressor__n_estimators': [725, 735, 745],
    'regressor__max_depth': [7.5, 8, 8.5],
    'regressor__learning_rate': [0.05, 0.1, 0.2],
    'regressor__subsample': [0.6, 0.8, 1],
    'regressor__colsample_bytree': [0.2, 0.4, 0.6],
}

Mejores hiperparámetros: {'regressor__colsample_bytree': 0.2, 'regressor__learning_rate': 0.05, 'regressor__max_depth': 8, 'regressor__n_estimators': 735, 'regressor__subsample': 0.6}
Error absoluto medio del modelo: 127.55910199941833

In [142]:
# Para mirar la matriz de importancias

pipeline_3.fit(X_train, y_train)
model = pipeline_3.named_steps['regressor']
importancias = model.feature_importances_
column_names = preprocessor.transformers_[0][1].named_steps['scaler'].get_feature_names_out(numeric_features).tolist()
column_names.extend(preprocessor.transformers_[1][1].named_steps['onehot'].get_feature_names_out(categorical_features).tolist())

importancias_df = pd.DataFrame({'Características': column_names, 'Importancia': importancias})
importancias_df = importancias_df.sort_values(by='Importancia', ascending=False)


#### Pruebas con CatBoost

In [67]:
# Crear la pipeline completa con un modelo de regresión
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', CatBoostRegressor(random_state=42, silent= True))
])

# Definir la cuadrícula de hiperparámetros para el CatBoost
param_grid = {
    'regressor__iterations': [300, 600, 900],
    'regressor__depth': [7, 9, 11],
    'regressor__learning_rate': [0.1, 0.2, 0.4, 0.8],
    'regressor__subsample': [0.1, 0.2, 0.4, 0.8],
    'regressor__colsample_bylevel': [0.2, 0.4, 0.8]
}

# Crear el objeto GridSearchCV
grid_search = GridSearchCV(pipeline, param_grid, cv=5, n_jobs=-1, scoring='neg_mean_absolute_percentage_error')

# Ajustar la búsqueda de hiperparámetros en los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Mejor conjunto de hiperparámetros encontrados
print("Mejores hiperparámetros:", grid_search.best_params_)

# Realizar predicciones en el conjunto de prueba con el mejor modelo encontrado
best_model_4 = grid_search.best_estimator_
y_pred_4 = best_model_4.predict(X_test)

# Evaluar el modelo
mae = mean_absolute_error(y_test, y_pred_4)
print("Error absoluto medio del modelo:", mae)

Mejores hiperparámetros: {'regressor__colsample_bylevel': 0.4, 'regressor__depth': 7, 'regressor__iterations': 900, 'regressor__learning_rate': 0.1, 'regressor__subsample': 0.2}
Error absoluto medio del modelo: 142.3231006814806


- Modelo 1:

param_grid = {
    'regressor__iterations': [300, 600, 900],
    'regressor__depth': [7, 9, 11],
    'regressor__learning_rate': [0.1, 0.2, 0.4, 0.8],
    'regressor__subsample': [0.1, 0.2, 0.4, 0.8],
    'regressor__colsample_bylevel': [0.2, 0.4, 0.8]
}

Mejores hiperparámetros: {'regressor__colsample_bylevel': 0.4, 'regressor__depth': 7, 'regressor__iterations': 900, 'regressor__learning_rate': 0.1, 'regressor__subsample': 0.2}
Error absoluto medio del modelo: 142.3231006814806

#### Guardar la pipeline

In [14]:
import pickle

pipeline_entrenada = pipeline_3

with open('mi_pipeline_entrenada.pkl', 'wb') as archivo:
    pickle.dump(pipeline_entrenada, archivo)

------

## Limpieza del test

In [28]:
test = pd.read_csv("./data/test.csv")

In [29]:
test = test.applymap(lambda x: x.lower() if isinstance(x, str) else x)

In [30]:
test.Weight = test.Weight.str.replace('kg','',regex=False)
test.Weight = test.Weight.astype(float)
test.Ram = test.Ram.str.replace('gb','',regex=False)
test.Ram = test.Ram.astype(float)

In [31]:
test[['Capacity', 'Storage Type', 'Multiple Storage']] = test['Memory'].apply(decompose_info)
test[['Marca CPU', 'GHz CPU', 'Modelo CPU']] = test['Cpu'].apply(split_info)
test[['Marca GPU', 'Modelo GPU']] = test['Gpu'].apply(split_info_2)
test[['Resolution', 'Panel Type', 'Quality', 'Touchscreen']] = test['ScreenResolution'].apply(decompose_info_2)
test[['Modelo CPU', 'Submodelo CPU']] = test['Modelo CPU'].str.rsplit(n=1, expand=True)
test[['Modelo GPU', 'Submodelo GPU']] = test['Modelo GPU'].str.rsplit(n=1, expand=True)
test['GHz CPU'] = test['GHz CPU'].str.replace('ghz','',regex=False)
test['GHz CPU'] = test['GHz CPU'].astype(float)
test[['Modelo', 'Submodelo']] = test['Product'].str.extract(r'(\w+)\s*(.*)')
test['Submodelo'] = test['Submodelo'].str.replace('-', ' ').str.split('(').str[0].str.strip()
test.replace(r'^\s*$', None, regex=True, inplace=True)
test_copia = test.copy()
test = test.drop(columns=['laptop_ID', 'id', 'ScreenResolution', 'Cpu', 'Memory', 'Gpu', 'Product'])

- Modelos que he ido guardando

In [103]:
modelo_135_xgb = best_model_3

In [121]:
modelo_144_cat = best_model_4

In [136]:
modelo_140_xgb = best_model_3

In [162]:
modelo_134_xgb = best_model_3

In [182]:
modelo_129_xgb = best_model_3

## Predicciones según modelo

In [26]:
predicciones = best_model_1.predict(test) # RF

In [20]:
predicciones = best_model_2.predict(test) # LGBM



In [53]:
predicciones = best_model_3.predict(test) # XGBoost

In [131]:
predicciones = modelo_144_cat.predict(test) # CatBoost

In [54]:
# Mostrar las predicciones
print("Predicciones:")
print(predicciones)

Predicciones:
[2081.9062   651.7459   374.27246 1453.9435   952.0001  1258.2832
 3032.2249   574.2517  2776.688   2075.4714  1615.0204   482.2794
  291.71796  508.13046  428.85703 1285.336    400.26947 1765.8271
 1656.4607  1484.6696  1930.9414  1217.9961  1559.5913  1406.3496
 2014.2358   393.0148   885.19995  351.38184 1138.4337   550.08154
  959.49384 1228.844   1963.0255   346.39606  622.9271  1691.972
  815.5621   728.3439  3033.7612   515.4945   677.733    963.1709
 1043.9877  2072.654   1147.2684  1796.3359   598.9342  3423.496
  266.48804 1208.7861  1073.4264  1020.7538   985.3437   329.93085
 1086.77     704.639    646.2219   241.58879 1409.7904  1053.8634
 1193.5616  1075.5236   646.1884  1025.0103  1274.9816  1448.261
  726.6982  2494.9006   552.9453  2091.9373   941.7196  2595.1077
 1830.0138   895.4979  1455.17    1134.7478   826.9813   474.1368
 1125.4706  1139.1129   281.19736 1873.0862  1645.6299   945.11786
 1228.0387  1417.2676  2182.4578   518.13245 1773.709    576.2

#### Crear df y pasarlo a formato csv

In [56]:
df_final_post_2 = pd.DataFrame(data={'id': test_copia['id'], 'Price_euros': predicciones})

In [57]:
df_final_post_2.to_csv('hola_post_2.csv', header=True, index= False)

-----