![image.png](attachment:image.png)

# **Catboost**

# Introducción al Modelo de CatBoost

CatBoost es una biblioteca de boosting que utiliza árboles de decisión y es particularmente eficiente con conjuntos de datos que tienen características categóricas. Una de las principales ventajas de CatBoost es su capacidad para trabajar con categorías sin necesidad de un extenso preprocesamiento para convertir categorías en números, lo que simplifica el flujo de trabajo y reduce el riesgo de errores.

CatBoost está diseñado para tener un buen rendimiento con configuraciones predeterminadas, lo que lo hace accesible para usuarios no expertos en la materia. Al mismo tiempo, ofrece resultados competitivos con una velocidad de entrenamiento notable, incluso con conjuntos de datos grandes.



![image.png](attachment:image.png)

![image.png](attachment:image.png)

# Invocando el modelo CatBoost desde la librería Python

Para comenzar a trabajar con CatBoost en Python, primero es necesario instalar el paquete. Esto se puede realizar utilizando pip:

```bash
pip install catboost


Luego, puedes importar los modelos desde catboost, crear una instancia del modelo y entrenarlo con tus datos. Aquí se muestra cómo hacerlo para clasificación:

from catboost import CatBoostClassifier

# Crear una instancia del modelo
modelo = CatBoostClassifier() #  Para problemas de regresión, puedes usar CatBoostRegressor en lugar de CatBoostClassifier.

# Entrenar el modelo
modelo.fit(X_train, y_train, cat_features=cat_features) # cat_features es una lista de índices de columnas categóricas para que CatBoost las procese adecuadamente. 

# Hacer predicciones
predicciones = modelo.predict(X_test)




# Hiperparámetros destacados de CatBoost

CatBoost ofrece una variedad de hiperparámetros para controlar el entrenamiento del modelo y mejorar su rendimiento. Algunos de los hiperparámetros más importantes son:

- `iterations`: Número de árboles a entrenar. Es equivalente a `n_estimators` en otros modelos de boosting.
- `depth`: Profundidad de los árboles. Controla la complejidad del modelo. (Como `max_depth` en otros modelos basados en árboles)
- `l2_leaf_reg`: Coeficiente para el término de regularización L2 del coste. Puede ser utilizado para balancear la sobre-adaptación del modelo.
- `border_count`: Número de divisiones para características numéricas. Es similar a `max_bin` en LightGBM. (XGBoost, Catboost y LightGBM hacen binning de las variables numéricas y usa los índices en vez de las valores reales para hacer los árboles internos, por eso el número de bins o "categorias" para discretizar los valores numéricos es un hiperparámetro)
- `cat_features`: Índices de características categóricas. CatBoost manejará estas características internamente, convirtiéndolas de manera óptima. [OJO ESTE NO ES UN HIPERPARAMETRO EN EL MISMO SENTIDO CON EL QUE TRATAMOS AL RESTO, pero permite emplearla como hiperparámetro en vez de hacer feature selection en el train]
- `learning_rate`: Tasa de aprendizaje del algoritmo. Un valor más bajo hace que el modelo sea más robusto a la sobre-adaptación, pero puede requerir más iteraciones.

NOTA: Esta es una sugerencia y no una imposición, si tienes tiempo y lo crees conveniente puede ser bueno probar el resto de hiperparámetros que puedes encontrar en la [documentación de CatBoost especifica para optimización](https://catboost.ai/en/docs/references/training-parameters/).



# Sugerencias para la aplicación del modelo CatBoost

CatBoost es una herramienta poderosa y versátil en el ámbito del aprendizaje automático. Sin embargo, su aplicación es particularmente beneficiosa en ciertas situaciones:

- **Problemas con características categóricas**: Una de las mayores fortalezas de CatBoost es su manejo de características categóricas, lo que lo hace ideal para datos que incluyen muchas de estas características.

- **Conjuntos de datos grandes**: CatBoost maneja eficientemente grandes volúmenes de datos y es capaz de entrenar modelos rápidamente, incluso en conjuntos de datos de tamaño considerable.

- **Búsqueda de un buen rendimiento con ajustes mínimos**: CatBoost ofrece buenos resultados con los parámetros predeterminados, lo que lo hace adecuado para usuarios que no desean pasar mucho tiempo en la optimización de hiperparámetros.

- **Escenarios donde el sobreajuste es una preocupación**: Con sus capacidades de regularización incorporadas y un manejo eficiente de las características categóricas, CatBoost puede ser menos propenso al sobreajuste en comparación con otros modelos de boosting.


