# Machine learning con PyCaret

In [None]:
!pip install pycaret --upgrade

In [None]:
!pip install autoviz

In [None]:
!pip install --upgrade matplotlib

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
from pycaret.datasets import get_data
dataset = get_data('credit')

In [None]:
from pycaret.classification import *
exp_clf101 = setup(data = dataset, target = 'default', session_id=123, fold_shuffle=True)

La función setup() inicializa el entorno en pycaret y crea la canalización de transformación para preparar los datos para el modelado y la implementación. setup() debe llamarse antes de ejecutar cualquier otra función en pycaret. Toma dos parámetros obligatorios: un marco de datos de pandas y el nombre de la columna de destino. Todos los demás parámetros son opcionales y se utilizan para personalizar la canalización de preprocesamiento (los veremos en tutoriales posteriores).

In [None]:
best_model = compare_models(budget_time=0.5)

Comparar todos los modelos para evaluar el rendimiento es el punto de partida recomendado para el modelado una vez que se completa la configuración (a menos que sepa exactamente qué tipo de modelo necesita, lo que a menudo no es el caso). Esta función entrena todos los modelos en la biblioteca de modelos y los puntúa mediante validación cruzada estratificada para la evaluación de métricas. La salida imprime una cuadrícula de puntuación que muestra la Precisión promedio, AUC, Recuperación, Precisión, F1, Kappa y MCC en los pliegues (10 de forma predeterminada) junto con los tiempos de entrenamiento.

In [None]:
print(best_model)

## Crear modelos en pycaret

In [None]:
models()

In [None]:
# Decision Tree
dt = create_model('dt')

In [None]:
#trained model object is stored in the variable 'dt'.
print(dt)

In [None]:
# Gradient Boosting
gbm = create_model('gbc')

## Tunear los modelos

Cuando se crea un modelo usando la función create_model(), usa los hiperparámetros predeterminados para entrenar el modelo. Para ajustar los hiperparámetros, se utiliza la función tune_model(). Esta función ajusta automáticamente los hiperparámetros de un modelo utilizando Random Grid Search en un espacio de búsqueda predefinido. La salida imprime una cuadrícula de puntuación que muestra la precisión, AUC, recuperación, precisión, F1, Kappa y MCC por pliegue para el mejor modelo. Para usar la cuadrícula de búsqueda personalizada, puede pasar el parámetro custom_grid en la función tune_model.

In [None]:
tuned_gbm = tune_model(gbm)

In [None]:
#tuned model object is stored in the variable 'tuned_dt'.
print(tuned_gbm)

In [None]:
# compare with original
print(gbm)

## Graficar los modelos

In [None]:
plot_model(tuned_gbm, plot = 'auc')

In [None]:
plot_model(tuned_gbm, plot = 'pr')

In [None]:
plot_model(tuned_gbm, plot='feature')

In [None]:
plot_model(tuned_gbm, plot = 'confusion_matrix')

## Evaluar los modelos

In [None]:
evaluate_model(tuned_gbm)

## Segundo ejemplo

In [None]:
import pandas as pd
from pycaret.classification import *

# Load churn_data dataset from th data folder
df = pd.read_csv('data/churn_data.csv')

In [None]:
df.head()

In [None]:
clf_churn = setup(data = df, target = 'Churn', session_id=123, fold_shuffle=True)

In [None]:
best_model = compare_models()

In [None]:
print(best_model)

In [None]:
# Create random forest model
rf = create_model('rf')

In [None]:
# Tune rf model
tuned_rf = tune_model(rf)

In [None]:
# Plot tuned_rf model
plot_model(tuned_rf, plot = 'auc')

In [None]:
# Interpret tuned_rf model
interpret_model(tuned_rf) # Acá algo anda mal