### Introducción
<center><img src="https://mlflow.org/docs/0.4.1/_static/MLflow-logo-final-black.png" width="300" align="center" /><center>
 <center><h1><i>“platform for the machine learning lifecycle”</i></h1><center>
MLFlow es una plataforma open source que permite administrar el ciclo de vida de ML, incluyendo la experimentación, reproducibilidad y deploy de modelos, además de brindar la posibilidad de comparar la performance de los modelos obtenidos a lo largo del proyecto. Es posible utilizarla con múltiples lenguajes, tanto de manera local como en la nube.

## Ejemplo
#### Wines DataSet <br>
Dataset = Un conjunto de datos o dataset corresponde a los contenidos de una única tabla de base de datos o una única matriz de datos de estadística, donde cada columna de la tabla representa una variable en particular, y cada fila representa a un miembro determinado del conjunto de datos que estamos tratando.<br>
Dataset Wines = Estos datos son el resultado de un análisis químico de vinos cultivados en la misma región de Italia pero derivados de tres cultivares diferentes. El análisis determinó las cantidades de 13 constituyentes que se encuentran en cada uno de los tres tipos de vinos. <br>

Columnas:

* Alcohol
* Malic acid
* Ash
* Alcalinity of ash
* Magnesium
* Total phenols
* Flavanoids
* Nonflavanoid phenols
* Proanthocyanins
* Color intensity
* Hue
* OD280/OD315 of diluted wines
* Proline

Target: 3 clases de vinos

<center><img src="https://storage.googleapis.com/kaggle-datasets-images/1590501/2616711/b6aa4b97ceb79d8c9f35117980af6909/dataset-card.jpeg" width="600" align="center" /><center>


In [None]:
from google.colab import drive

drive.mount('/content/drive')

### Código sin tracking

In [None]:
!pip install mlflow --quiet

#### Importar librerias

In [None]:
import numpy as np
import pandas as pd # procesamiento de datos
import matplotlib.pyplot as plt # crear graficos
import seaborn as sns # crear graficos
import mlflow
import mlflow.sklearn # como voy a entrenar un modelo de sklearn, debo importar este módulo de mlflow
from sklearn import datasets # para importar el dataset winws directamente desde los dataset que provee sklearn
from sklearn.metrics import classification_report, confusion_matrix, f1_score, accuracy_score, ConfusionMatrixDisplay # metricas que vamos a utilizar
from sklearn.model_selection import train_test_split
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier # algoritmos de ensamble a utilizar para la clasificacion
from sklearn.tree import DecisionTreeClassifier # algoritmo de tree a utilizar para la clasificacion

#### Cargar Dataset

In [None]:
wines_x, wines_y = datasets.load_wine(return_X_y=True, as_frame=True)
np.unique(wines_y)
np.random.seed(0)
X_train, X_test, y_train, y_test = train_test_split(wines_x, wines_y, test_size=0.30, random_state=42)

In [None]:
X_train

#### Entrenar modelo y predecir

In [None]:
# Modelo usando DecisionTreeClassifier
model_dtc = DecisionTreeClassifier()
model_dtc.fit(X_train, y_train)
print(model_dtc)
predicted_dtc_y = model_dtc.predict(X_test)
print(classification_report(y_test, predicted_dtc_y))
print(confusion_matrix(y_test, predicted_dtc_y))
f1_dtc = f1_score(y_test, predicted_dtc_y, average='macro')
acc_dtc = accuracy_score(y_test, predicted_dtc_y)
print('F1: {} \nAccuracy: {}\n'.format(f1_dtc,acc_dtc))

# Modelo usando ExtraTreesClassifier
model_etc = ExtraTreesClassifier()
model_etc.fit(X_train, y_train)
print(model_etc)
predicted_etc_y = model_etc.predict(X_test)
print(classification_report(y_test, predicted_etc_y))
print(confusion_matrix(y_test, predicted_etc_y))
f1_etc = f1_score(y_test, predicted_etc_y, average='macro')
acc_etc = accuracy_score(y_test, predicted_etc_y)
print('F1: {} \nAccuracy: {}\n'.format(f1_etc, acc_etc))

# Modelo usando RandomForestClassifier
model_rfc = RandomForestClassifier()
model_rfc.fit(X_train, y_train)
print(model_rfc)
predicted_rfc_y = model_rfc.predict(X_test)
print(classification_report(y_test, predicted_rfc_y))
print(confusion_matrix(y_test, predicted_rfc_y))
f1_rfc = f1_score(y_test, predicted_rfc_y, average='macro')
acc_rfc = accuracy_score(y_test, predicted_rfc_y)
print('F1: {} \nAccuracy: {}\n'.format(f1_rfc, acc_rfc))

### Incorporar MLFlow

**Sentencias a utilizar:**
* mlflow.start_run()
* mlflow.log_param()
* mlflow.log_params()
* mlflow.log_metric()
* mlflow.log_metrics()
* mlflow.sklearn.log_model()
* mlflow.end_run()

##### Crear/Setear experimento

In [None]:
# 1- Crear experimento en el mismo lugar donde tiene su notebook con el nombre 'classifier-iris' puede ser mediante la interfaz, o utilizando código '''mlflow.create_experiment('path')'''
path = 'file:/content/drive/My Drive/Activity/mlruns/'
name = ''
try:
  mlflow.set_tracking_uri(path)
  mlflow.create_experiment(name)
except:
  print('Experimiento ya creado')

In [None]:
# 2- Setear experimento a usar
mlflow.set_experiment(name)

##### Empezar trackeo de una ejecución de experimeintación

In [None]:
# Arrancar un run


##### Registrar parámetros, métricas y modelos

In [None]:


#------Loguear parámetros utilizando variables existentes-------
# En este segmento registrar los dos parámetros 'n_arboles' y 'profundidad' que hacen referencias a las variables del mismo nombre, utilizando *log_param*



#-------------------------------------------------------------
#-------------Entrenar un modelo -----------------------------
# En este segmento registrar los dos parámetros 'n_arboles' y 'profundidad' que hacen referencias a las variables del mismo nombre, utilizando *log_param*



#-------------------------------------------------------------
#---------Loguear un parámetro creando valores ---------------
# En este segmento registrar un parámetro llamado '_tipo_algoritmo', donde el valor sea el tipo de modelo utilizado, utilizando *log_param*



#-------------------------------------------------------------
#---------Loguear parámetros usando un diccionario -----------
# En este segmento registrar un  diccionario obtenido a partir de ejecutar *model.get_params()*  con el nombre de '_tipo_algoritmo', utilizando *log_params*


#-------------------------------------------------------------
#---------------------Loguear métricas -----------------------
# En este segmento registrar el score llamado 'score_iris', donde el valor sea la variable score creada en el paso anterior, utilizando *log_metric*



#-------------------------------------------------------------
#---------------------Loguear modelo--------------------------
# En este segmento registrar el modelo con el nombre 'model', donde el objeto a guardar sea 'rf', utilizando *log_model*




#-------------------------------------------------------------



##### Terminar trackeo de la ejecución

In [None]:
# Finalizar la ejecución


##### Nueva prueba de ejecución usando with statement

In [None]:
# Reutilizando el código anterior con la implementación de MLFlow,
# pero en vez de usar mlflow.start_run() y mlflow.end_run() utilizar  *with mlflow.start_run()*
# y usando otro tipo del os modelos



### Desafios

*   Loguear una imagen dentro del run (codigo ejemplo:[ log_figure](https://mlflow.org/docs/latest/python_api/mlflow.html#mlflow.log_figure))
*   Loguear un archivo txt  (codigo ejemplo:[ log_text](https://mlflow.org/docs/latest/python_api/mlflow.html#mlflow.log_text))
*   Loguear un diccionarioo (codigo ejemplo:[ log_dict](https://mlflow.org/docs/latest/python_api/mlflow.html#mlflow.log_dict))



In [None]:
dict_params = model_rfc.get_params()
print('Tipo de dato: {}\nValor: {}'.format(type(dict_params), dict_params))

In [None]:
text = "Este algoritmo tiene la capacidad de adaptarse"
print('Tipo de dato: {}\nValor: {}'.format(type(text), text))

In [None]:
fig = sns.pairplot(X_train[['alcohol','magnesium','color_intensity']]).figure
print('Tipo de dato: {}\nValor: {}'.format(type(fig.figure ), fig))

In [None]:
# Completar aquí, la ejecución de un run, y el logueo de los datos anteriormente mencionados





### Explorar los resultados obtenidos


Podemos ver los resultados que fuimos guardando en diferentes corridas a partir del comando `search_runs`.
Primero podemos consultar los experimentos disponibles usando el comando: `mlflow.tracking.MlflowClient().list_experiments()`

In [None]:
experimentos = mlflow.tracking.MlflowClient().search_experiments()
experimentos

In [None]:
df = pd.DataFrame()
for exp in experimentos:
  row = [exp.artifact_location, exp.experiment_id, exp.lifecycle_stage, exp.name, exp.tags]
  df = df.append([row])
df.columns = ['artifact_location','experiment_id','lifecycle_stage','name','tags']
df

In [None]:
mlflow.search_runs().head(5)

### Formas de filtrar los runs
Hay dos clases para los comparadores: numericos y string.<br>

__Comparadores númericos__  (metrics): =, !=, >, >=, <, and <=.<br>
__Comparadores para string__  (params, tags, and attributes): = and !=.<br>

##### Ejemplos:
Para buscar el subconjunto de ejecuciones con una métrica de precisión registrada mayor que 0.92:<br>
`metrics.accuracy > 0.92`

Para buscar ejecuciones creadas utilizando un modelo de Regresión logística, una tasa de aprendizaje (lambda) de 0.001 y una métrica de error registrada por debajo de 0.05:<br>
`params.model = "LogisticRegression" and params.lambda = "0.001" and metrics.error <= 0.05`

Para buscar los runs que han fallado en su ejecución:<br>
`attributes.status = "FAILED"`

In [None]:
mlflow.search_runs(experiment_ids='<copy_id_experiment>', filter_string= 'metrics.<name_metric> > 0.7').head()

### Cargar un modelo guardado

In [None]:
type(mlflow.search_runs())

Obtener direccion del run del cual nos interesa recuperar el modelo guardado

In [None]:
model_uri = mlflow.search_runs()\
        [mlflow.search_runs()['run_id'] == '<copy_id_run>']\
        .artifact_uri.item()
model_uri

In [None]:
model = mlflow.sklearn.load_model(model_uri+'/model')

In [None]:
type(model)

In [None]:
model= mlflow.sklearn.load_model(model_uri+'/model')
print('Predicción: {}'.format(model.predict(wines_x_test)))
print('Valor Real: {}'.format(wines_y_test))