# Pycaret
## ¿Qué es Pycaret?
Librería de Python que nos brinda herramientas low code, para desarrollar desde el procesamiento de los datos, hasta el despliegue de un modelo en cuestión de minutos, y unas pocas lineas de código.

In [None]:
# definir el entorno virtual
!python3 -m venv env

# activar el entorno virtual
!source env/bin/activate

# instalar las dependencias de pycaret
!pip install pycaret[full]

> 💡 **Antes de comenzar:**
>
> - PyCaret tiene dos enfoques, el functional API y el OOP API. En este taller nos vamos a enfocar en el functional API, ya que esta nos permite un desarrollo rápido y sencillo. En proyectos de mayor rigor, que necesiten mayor modularidad y encapsulamiento, puede ser idóneo el OOP API.


## Setup
Esta función incializa el ambiente y crea los pipelines de transformación, todo según los parámetros pasados a una función de PyCaret.

Algúnos de los parámetros que podemos pasar son:
- Session_id : Análogo al random state, reproduciibilidad
- categorical_features : permite especificar qué features del dataset son catgóricos.
- normalize : Normalizar según el `normalize_method` (otro parametro)
- Transformation: Transforma los datos según el `transformation method` (también hay target transform)
- Polynomial_features : bool, Polynomial_degree, default 2
- train_size : proporcion del dataset a usar en train y el resto en validación
- fold_strategy : string o sklearn cv generator object : permite escoger el método de validación cruzada a usar en el entrenamiento.
- n_jobs : para las funciones que soportan procesamiento en paralelo.
- use_gpu : suponga que usted teine una 4090 y la quiere quemar con un modelo que sepa predecir el area de un cuadrado basados en su largo y ancho, bueno, aquí usted pone `True`
- Log Experiment (sorpresa para mas adelante)

In [None]:
# Importar las librerias de pycaret

# Cargar los datos

# Inicializar el entorno de pycaret	


**Notemos que:**

- Tenemos las formas del dataset antes y después del preprocesamiento
- Tenemos la cantidad de variables (numéticas)
- Tenemos la imputación para cada tipo de dato, numerico y categórico
- Generador de folds para cross validation
- Y tenemos unas cosas ahí que dicen Experiment, pero eso lo veremos mas adelante. 🪄

In [None]:
# Visualizar los datos de entrenamiento preprocesados


**Además:** podemos ver el comportamiento de estas funciones si implementamos los datos categóricos.

> ⚠️ **Ordinal Features** permite especificar cuando una variable no solo es categórica sino también ordinal.  
> **Ejemplo**: `ordinal_features = {'salary' : ['low', 'medium', 'high']}`


In [None]:
# Definir setup con variables categóricas


**Ahora no solo podemos ver lo anterior, sino también cosas como:**

- Cómo cambió la forma del dataset de original a transformed
- Cantidad de numéricas y de categóricas
- Tipo de imputación para cada variable
- Cantidad de polynomial features
- Tipo de normalización

In [None]:
# visualizar los datos de entrenamiento preprocesados


Ahora, exportemos el modelo ...

In [None]:
# Guardar el pipeline


In [None]:
# Ahora usemos el pipeline pipe en los datos x, y sin transformar

# Definir X, y

# Ajustar el pipeline

# Ver el resultado


In [None]:
# Importar la libreria joblib

# Exportar el pipeline


## Train y optimize
Volviendo al problema inicial, pycaret nos permite realizar la comparación de varios modelos de machine learning, y seleccionar el mejor modelo según una métrica de evaluación.

In [None]:
# Obtener los mejores tres modelos


In [None]:
# Ver el contenido de la variable best


> ⏰ **Notemos que esto podría quedarse un buen rato en este proceso**  
> ¿Cómo hacemos que sea exclusivamente para los modelos que no tienen un tiempo de entrenamiento muy alto?
>
> **Turbo:** solo entrena los modelos que no suelen tomar mucho tiempo en entrenarse.  
> **budget_time:** tiempo límite para el entrenamiento, si se pone, la función parará en el punto que pase el tiempo.


Ahora ¿Y si quisieramos entrenar un modelo en especifico?

In [None]:
# Crear modelo de random forest


**Y luego de tener estos modelos, con estas métricas ¿Cómo los podríamos optimizar?**

por ejemplo, supongamos que nuestro problema requiere de optimizar la métrica de f1

In [None]:
# Tunear el modelo de random forest


Además se pueden usar librerías adicionales para aprovechar sus algoritmos de búsqueda

In [None]:
# tunear el modelo con optuna


Por último, para finalizar el entrenamiento se usa el finalize_model, lo cual reentrenará el modelo tuneado (con hiperparámetros óptimos) con el conjunto de datos completo.

In [None]:
# finalizar el modelo

Exportemos el modelo con el formato 'final_model_Y_m_d'.

In [None]:
# Definir el guardado del experimento

# Importar la libreria os y datetime

# Crear la ruta al directorio "models" en el directorio padre

# Generar el nombre del archivo con la fecha actual
# Ruta completa para guardar el archivo

# Guardar el modelo en la ruta especificada


Con esto, logramos que el modelo quede guardado en la carpeta models, con la fecha en el que fue entrenado.

## Analyze
Para ver todas las métricas sobre el modelo, existen diversos métodos gráficos, los cuales nos ofrece pycaret por medio de la función plot_model.
A esta se le pueden pasar distintos parámetros, como los siguientes:
- plot :
    - 'confusion_matrix'
    - 'feature'

Veamos por ejemplo la matriz de confusión del modelo entrenado.

In [None]:
# Uso del parametro plot = confusion_matrix


Pycaret También nos permite analizar la importancia de las variables en el modelo, por medio del parametro 'feature'.

In [None]:
# Uso del parametro plot = feature


Además de esta función, existe la función interpret_model, la cual nos permite ver la importancia de las variables en el modelo, pero de una forma más detallada, para cada registro.

In [None]:
# llamado interpret model


Finalmente, todas estas funciones se pueden visualizar en un solo paso, con la función evaluate_model.

In [None]:
# llamada a la función evaluate_model
