# AutoML: Machine Learning Automatico

El proceso de Machine Learning se puede automatizar un poco. Hay varios servicios en internet que lo hacen y tambien varias librerias. Aqui veremos las siguientes librerias: 
- [FLAML](https://microsoft.github.io/FLAML/docs/Getting-Started/)
- [AutoGluon](https://auto.gluon.ai/)
- [PyCaret](https://pycaret.org/)



## FLAML

Comencemos con FLAML para automatizar solo el proceso de seleccion del algoritmo de machine learning y los hiperparametros

In [None]:
!pip install "flaml[automl]"

Como vimos en la unidad anterior el proceso de Machine Learning culmina entrenando distintas cajas negras con distintos algoritmos y ajustando los parametros de dichos algoritmos para que el resultado del entrenamiento sea el mejor posible. Ahora veremos como utilizar la libreria FLAML para automatizar este proceso.

Primero utilicemos los datos que hemos preprocesado de nuestra base de datos de pacientes con diabetes:

In [None]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [None]:
df_train = pd.read_csv('https://raw.githubusercontent.com/amiune/freecodingtour/main/cursos/espanol/datascience/data/diabetes/diabetes_train_procesado.csv')
df_test = pd.read_csv('https://raw.githubusercontent.com/amiune/freecodingtour/main/cursos/espanol/datascience/data/diabetes/diabetes_test_procesado.csv')

In [None]:
X_train = df_train.loc[:, df_train.columns != "diabetes"]
y_train = df_train.loc[:, "diabetes"]

X_train.head()

Ahora utilicemos la libreria FLAML a la cual le daremos la tabla de entrenamiento separada en X e y al igual que con cualquier algoritmo de sklearn pero ademas especificaremos la tarea a realizar con el parametro task="classification" y el tiempo de computo que le daremos a la libreria para que elcuentre la mejor caja negra posible, en este caso utilizaremos time_budget=10 para darle 10 segundos.

In [None]:
from flaml import AutoML
automl = AutoML()
automl.fit(X_train, y_train, task="classification", time_budget=10)

Una vez que la libreria ha terminado de entrenar distintos modelos podemos ver cual ha sido el mejor (best_estimator), cuales son sus parametros (best_config) y el resultado de su funcion de error (best_loss)

In [None]:
automl.best_estimator

In [None]:
automl.best_config

In [None]:
automl.best_loss

Finalmente podemos utilizar nuestra tabla de prueba para ver que tan bien se desempeña en ella este modelo elegido por la libreria 

In [None]:
X_test = df_test.loc[:, df_test.columns != "diabetes"]
y_test = df_test.loc[:, "diabetes"]

In [None]:
from sklearn.metrics import accuracy_score

def calcular_accuracy_train_val(clf, X_train, y_train, X_val, y_val):
    y_train_pred = clf.predict(X_train)
    print("Entrenamiento accuracy:",accuracy_score(y_train, y_train_pred))
    y_val_pred = clf.predict(X_val)
    print("Validacion accuracy:",accuracy_score(y_val, y_val_pred))
    return clf

In [None]:
clf = calcular_accuracy_train_val(automl, X_train, y_train, X_test, y_test)

## AutoGluon

Ahora utilizaremos AutoGluon para automatizar solo el proceso de seleccion del algoritmo de machine learning y los hiperparametros

In [None]:
!pip install autogluon -U -q

In [None]:
from autogluon.tabular import TabularDataset, TabularPredictor

Cargamos los datos de entrenamiento en la clase especial de AutoGluon llamada TabularDataset

In [None]:
train_data_url = 'https://raw.githubusercontent.com/amiune/freecodingtour/main/cursos/espanol/datascience/data/diabetes/diabetes_train_procesado.csv'
train_data = TabularDataset(train_data_url)
train_data.head()

Entrenamos varios modelos

In [None]:
predictor = TabularPredictor(label='diabetes').fit(train_data)

Cargamos los datos de prueba

In [None]:
test_data_url = 'https://raw.githubusercontent.com/amiune/freecodingtour/main/cursos/espanol/datascience/data/diabetes/diabetes_test_procesado.csv'
test_data = TabularDataset(test_data_url)

Evaluamos los modelos y comparamos sus metricas

In [None]:
predictor.evaluate(test_data, silent=True)

In [None]:
predictor.leaderboard(test_data)

Finalmente hacemos las predicciones que queremos

In [None]:
y_pred = predictor.predict(test_data.drop(columns=['diabetes']))
y_pred.head()

## PyCaret

PyCaret nos ofrece la posibilidad de automatizar todo el proceso desde el Analisis Exploratorio de Datos, pasando por el Machine Learning hasta el analisis y la interpretacion de los resultados por ello le dedicaremos una unidad especial que puedes ver [aqui](https://colab.research.google.com/github/amiune/freecodingtour/blob/main/cursos/espanol/datascience/11_pycaret.ipynb).

# Fin: [Volver al contenido del curso](https://www.freecodingtour.com/cursos/espanol/datascience/datascience.html)