![image.png](attachment:image.png)

# **LightGBM**



LightGBM (Light Gradient Boosting Machine) es una implementación de gradient boosting que está diseñada para ser distribuida y eficiente con una alta velocidad de ejecución y una utilización eficiente de la memoria. Se destaca por su capacidad para manejar grandes conjuntos de datos y su soporte para optimización en paralelo.

Una característica distintiva de LightGBM es su uso de histogramas para representar los conjuntos de datos, lo que reduce significativamente el tiempo de entrenamiento y el uso de memoria. Además, LightGBM soporta el crecimiento de árboles basado en hojas, lo que puede resultar en un mejor rendimiento y una mayor eficiencia en conjuntos de datos grandes.


# Invocando el modelo LightGBM desde la librería Python

Para utilizar LightGBM en Python, primero es necesario instalar la librería. Puedes hacerlo utilizando pip:

```bash
pip install lightgbm

Luego, puedes importar LightGBM, crear una instancia del modelo y entrenarlo con tus datos. A continuación, se muestra cómo hacerlo para un problema de clasificación:

import lightgbm as lgb

# Crear una instancia del modelo
modelo = lgb.LGBMClassifier() # Para problemas de regresión, puedes usar lgb.LGBMRegressor en lugar de lgb.LGBMClassifier.

# Entrenar el modelo
modelo.fit(X_train, y_train)

# Hacer predicciones
predicciones = modelo.predict(X_test)




# Hiperparámetros destacados de LightGBM

LightGBM ofrece una variedad de hiperparámetros que controlan el proceso de entrenamiento y la construcción del árbol. Algunos de los hiperparámetros más importantes son:

- `num_leaves`: Número de hojas en un árbol. Un valor mayor puede aumentar la precisión del modelo pero también puede llevar a un mayor sobreajuste.
- `max_depth`: Máxima profundidad de un árbol. Se puede usar para controlar el sobreajuste.
- `learning_rate`: Tasa de aprendizaje. Un valor más pequeño significa un entrenamiento más lento pero puede mejorar la precisión del modelo.
- `n_estimators`: Número de árboles a construir.
- `min_data_in_leaf`: Número mínimo de datos en una hoja. Puede ser usado para tratar con el sobreajuste.
- `max_bin`: Número máximo de bines o "categorías" en las que se convierten las variables numéricas al aplicar el binado a las mismas.


NOTA: Esta es una sugerencia y no una imposición, si tienes tiempo y lo crees conveniente puede ser bueno probar el resto de hiperparámetros que puedes encontrar en la [documentación de LightGBM para optimización de hiperparámetros](https://lightgbm.readthedocs.io/en/stable/Parameters-Tuning.html).



# Sugerencias para la aplicación del modelo LightGBM

LightGBM es un algoritmo extremadamente versátil y potente, pero su aplicación es especialmente beneficiosa en ciertas situaciones:

- **Conjuntos de datos grandes**: LightGBM es eficiente en términos de memoria y tiene una velocidad de entrenamiento rápida, lo que lo hace ideal para conjuntos de datos de gran volumen.
- **Problemas con características categóricas de cardinalidad alta**: LightGBM maneja bien las características categóricas sin la necesidad de una extensa ingeniería de características.
- **Cuando se busca un alto rendimiento con menos recursos computacionales**: LightGBM es conocido por su eficiencia computacional, proporcionando modelos de alto rendimiento que no requieren hardware de alta gama.
- **En competiciones de ciencia de datos**: LightGBM ha sido popular en competiciones por su rendimiento y velocidad, especialmente en problemas de clasificación y regresión.



