In [16]:
import pandas as pd
import numpy as np
from sklearn.model_selection import GridSearchCV
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_squared_error
import pickle
import joblib

In [17]:
df = pd.read_csv('data_ml.csv')

Vamos a empezar a trabajar con el modelo de ML!!

Primero separamos la variable predecir.

In [18]:
X = df.drop('price', axis=1)
y = df['price']

Instanciamos el modelo

In [19]:
regressor = LGBMRegressor()

Creamos la grilla de parámetros.

In [20]:
param_grid = {"n_estimators" : [210, 220, 230],
             "learning_rate" : [0.21, 0.22, 0.24,],
              "max_depth" : [4, 5, 6]}

- learning_rate: La tasa de aprendizaje controla cuánto se ajustan los valores de los hiperparámetros en cada paso de optimización. Un valor menor puede ayudar a mejorar la convergencia, pero también podría requerir más iteraciones.

- n_estimators: El número de árboles en el modelo. Puede aumentar la capacidad del modelo al agregar más árboles, pero también aumentará el tiempo de entrenamiento.

- max_depth: La profundidad máxima de cada árbol. Puede controlar la complejidad del modelo y prevenir el sobreajuste.

- min_child_samples: El número mínimo de muestras en un nodo hoja. Puede controlar la regularización y evitar divisiones en nodos con muy pocas muestras.

- subsample: La fracción de muestras utilizadas para entrenar cada árbol. Puede controlar la varianza y prevenir el sobreajuste.

- colsample_bytree o colsample_bylevel: La fracción de características utilizadas para entrenar cada árbol o nivel. Puede controlar la varianza y mejorar la diversidad de árboles.

- reg_alpha y reg_lambda: Parámetros de regularización L1 y L2, respectivamente. Pueden ayudar a evitar el sobreajuste y controlar la complejidad del modelo.

- min_split_gain: Ganancia mínima requerida para realizar una división en un nodo. Puede controlar la cantidad de mejora requerida para agregar un nodo adicional.

- num_leaves: Número máximo de hojas en cada árbol. Puede controlar la complejidad del modelo y la capacidad de adaptación a los datos.

- scale_pos_weight: Utilizado en problemas de clasificación desequilibrados para ajustar el peso de las clases positivas y negativas.

Instanciamos el método GridSearchCV.

In [21]:
grid_search = GridSearchCV(regressor, param_grid, scoring='neg_mean_squared_error', cv=5)

Fiteamos el modelo.

In [22]:
grid_search.fit(X, y)

You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 692
[LightGBM] [Info] Number of data points in the train set: 20624, number of used features: 321
[LightGBM] [Info] Start training from score 8.896889
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 696
[LightGBM] [Info] Number of data points in the train set: 20625, number of used features: 323
[LightGBM] [Info] Start training from score 9.003622
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 699
[LightGBM] [Info] Number of data points in the train set: 20625, number of used features: 325
[LightGBM] [Info] Start training from score 9.001651
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 694
[LightGBM] [Info] Number of data points in the train set: 20625, nu

In [23]:
best_params = grid_search.best_params_
best_params

{'learning_rate': 0.22, 'max_depth': 5, 'n_estimators': 220}

In [24]:
best_mse = grid_search.best_score_
rmse = np.sqrt(-best_mse)

In [25]:
rmse

8.14425730002838

Entrenamos el modelo con los mejores hiperparametros.

In [26]:
lgbmr = LGBMRegressor(learning_rate=0.2, max_depth=6, n_estimators=220)

In [27]:
lgbmr.fit(X, y)

You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 714
[LightGBM] [Info] Number of data points in the train set: 25781, number of used features: 332
[LightGBM] [Info] Start training from score 8.954915


Guardamos el modelo como archivo pickle.

<p><img src="src/03_pickle.png" height=200> <p>

In [28]:
joblib.dump(lgbmr, 'lgbm_regressor_model.pkl')

['lgbm_regressor_model.pkl']

Probamos levantar el modelo de LGBMRegression, y lo llamamos con otro nombre

Podemos ver la cantidad de features usadas por este modelo, ya que lo guardamos ya entrenado.

In [None]:
#prediccion = modelo_lgbm.predict(X.sample(1, random_state=17))



In [None]:
f"Precio predicho: {prediccion[0]}"

'Precio predicho: 4.21250997285766'

In [None]:
rmse = np.sqrt(mean_squared_error(y.sample(1, random_state=17), prediccion))

print("RMSE:", rmse)

RMSE: 1.2225099728576598


Vamos a preparar un df con algunos valores seteados en 0, para luego pasarle los datos para hacer la predicción.

In [30]:
x_prediccion = X.head(1)
lista_columnas = X.columns.to_list()
x_prediccion

Unnamed: 0,early_access,sentiment,publisher_cat,developer_cat,year,month_2,month_3,month_4,month_5,month_6,...,Warhammer 40K,Web Publishing,Werewolves,Western,Word Game,World War I,World War II,Wrestling,Zombies,e-sports
0,False,0.0,1,1,2018,False,False,False,False,False,...,0,0,0,0,0,0,0,0,0,0


In [31]:
lista_columnas[:17]

['early_access',
 'sentiment',
 'publisher_cat',
 'developer_cat',
 'year',
 'month_2',
 'month_3',
 'month_4',
 'month_5',
 'month_6',
 'month_7',
 'month_8',
 'month_9',
 'month_10',
 'month_11',
 'month_12',
 "1990's"]

In [32]:
lista_features = lista_columnas[16:]
lista_features[0]

"1990's"

In [33]:
x_prediccion.loc[:,lista_features] = 0
x_prediccion

Unnamed: 0,early_access,sentiment,publisher_cat,developer_cat,year,month_2,month_3,month_4,month_5,month_6,...,Warhammer 40K,Web Publishing,Werewolves,Western,Word Game,World War I,World War II,Wrestling,Zombies,e-sports
0,False,0.0,1,1,2018,False,False,False,False,False,...,0,0,0,0,0,0,0,0,0,0


In [34]:
x_prediccion.columns = [column.lower() for column in x_prediccion.columns]
x_prediccion

Unnamed: 0,early_access,sentiment,publisher_cat,developer_cat,year,month_2,month_3,month_4,month_5,month_6,...,warhammer 40k,web publishing,werewolves,western,word game,world war i,world war ii,wrestling,zombies,e-sports
0,False,0.0,1,1,2018,False,False,False,False,False,...,0,0,0,0,0,0,0,0,0,0


In [35]:
joblib.dump(x_prediccion, 'x_prediccion.pkl')

['x_prediccion.pkl']

In [None]:
x_pred['sentiment'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 1 entries, 0 to 0
Series name: sentiment
Non-Null Count  Dtype  
--------------  -----  
1 non-null      float64
dtypes: float64(1)
memory usage: 140.0 bytes
