# MLflow

MLflow es una plataforma de código abierto diseñada para gestionar el ciclo de vida completo de proyectos de aprendizaje automático (ML). Proporciona herramientas para la experimentación, la reproducción de modelos, el seguimiento de parámetros y métricas, así como la implementación y la gestión de modelos en diferentes entornos.

## Componentes Principales

1. **Tracking:** Permite realizar un seguimiento de experimentos y comparar los resultados de diferentes modelos. Registra parámetros, métricas y archivos de registro durante el entrenamiento de modelos.

2. **Projects:** Ofrece una estructura para organizar código, datos y configuraciones en proyectos de aprendizaje automático. Facilita la reproducción de experimentos y la colaboración en equipos.

3. **Models:** Proporciona un formato estándar para empaquetar modelos de aprendizaje automático, independientemente del marco de trabajo utilizado. Esto facilita la implementación y la integración de modelos en diferentes entornos.

4. **Registry:** Permite gestionar y organizar versiones de modelos, facilitando la colaboración entre equipos y el seguimiento de cambios en los modelos.

## Funcionamiento

MLflow es compatible con varios marcos de trabajo de aprendizaje automático, como TensorFlow, PyTorch, Scikit-Learn y otros. Puedes utilizar MLflow en tu entorno de desarrollo local o en la nube. Además, es compatible con múltiples lenguajes de programación, como Python, R y Java.

En resumen, MLflow proporciona una plataforma integral que simplifica el desarrollo, seguimiento y despliegue de modelos de aprendizaje automático, mejorando la reproducibilidad y la colaboración en proyectos de análisis de datos.


## Importamos las librerias necesarias para ejecutar el notebook

In [1]:
import pandas as pd
import numpy as np
import mlflow
import mlflow.sklearn

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import accuracy_score

from sklearn.datasets import load_breast_cancer

In [2]:
cancer = load_breast_cancer()

In [3]:
df = pd.DataFrame(cancer['data'], columns=cancer['feature_names'])

In [4]:
df['target'] = cancer['target']
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


In [5]:
df.shape

(569, 31)

In [6]:
df.describe()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
count,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,...,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0
mean,14.127292,19.289649,91.969033,654.889104,0.09636,0.104341,0.088799,0.048919,0.181162,0.062798,...,25.677223,107.261213,880.583128,0.132369,0.254265,0.272188,0.114606,0.290076,0.083946,0.627417
std,3.524049,4.301036,24.298981,351.914129,0.014064,0.052813,0.07972,0.038803,0.027414,0.00706,...,6.146258,33.602542,569.356993,0.022832,0.157336,0.208624,0.065732,0.061867,0.018061,0.483918
min,6.981,9.71,43.79,143.5,0.05263,0.01938,0.0,0.0,0.106,0.04996,...,12.02,50.41,185.2,0.07117,0.02729,0.0,0.0,0.1565,0.05504,0.0
25%,11.7,16.17,75.17,420.3,0.08637,0.06492,0.02956,0.02031,0.1619,0.0577,...,21.08,84.11,515.3,0.1166,0.1472,0.1145,0.06493,0.2504,0.07146,0.0
50%,13.37,18.84,86.24,551.1,0.09587,0.09263,0.06154,0.0335,0.1792,0.06154,...,25.41,97.66,686.5,0.1313,0.2119,0.2267,0.09993,0.2822,0.08004,1.0
75%,15.78,21.8,104.1,782.7,0.1053,0.1304,0.1307,0.074,0.1957,0.06612,...,29.72,125.4,1084.0,0.146,0.3391,0.3829,0.1614,0.3179,0.09208,1.0
max,28.11,39.28,188.5,2501.0,0.1634,0.3454,0.4268,0.2012,0.304,0.09744,...,49.54,251.2,4254.0,0.2226,1.058,1.252,0.291,0.6638,0.2075,1.0


# Análisis de Datos con Scikit-Learn

En este código, se realiza un análisis de datos utilizando el conjunto de datos de cáncer de mama proporcionado por Scikit-Learn. Aquí hay una breve descripción de las operaciones realizadas:

1. **Carga del Conjunto de Datos:**
   - Se carga el conjunto de datos de cáncer de mama utilizando la función `load_breast_cancer` de Scikit-Learn.

2. **Creación de un DataFrame:**
   - Se crea un DataFrame utilizando los datos del conjunto de datos, asignando las características a las columnas y la variable objetivo ('target') a una columna adicional.

3. **Visualización de los Primeros Registros:**
   - Se muestra una vista previa de los primeros registros del DataFrame para obtener una comprensión inicial de los datos.

4. **Dimensiones del DataFrame:**
   - Se imprime la forma del DataFrame para conocer el número de filas y columnas en los datos.

5. **Estadísticas Descriptivas:**
   - Se proporcionan estadísticas descriptivas del DataFrame, incluyendo conteos, medias, desviaciones estándar, mínimos y máximos.

6. **Nombres de Columnas:**
   - Se muestran los nombres de las columnas presentes en el DataFrame.

Este código sirve como punto de partida para explorar y comprender el conjunto de datos de cáncer de mama, y para realizar análisis estadísticos básicos sobre sus características y variable objetivo.


In [7]:
df.columns

Index(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error', 'fractal dimension error',
       'worst radius', 'worst texture', 'worst perimeter', 'worst area',
       'worst smoothness', 'worst compactness', 'worst concavity',
       'worst concave points', 'worst symmetry', 'worst fractal dimension',
       'target'],
      dtype='object')

In [8]:

train, test = train_test_split(df, test_size=0.2)

In [9]:
test_target = test['target']
test[['target']].to_csv('test-target.csv', index=False)
del test['target']
test.to_csv('test.csv', index=False)

In [10]:
features = [x for x in list(train.columns) if x != 'target']
x_raw = train[features]
y_raw = train['target']


In [11]:
features = [x for x in list(train.columns) if x != 'target']
x_raw = train[features]
y_raw = train['target']

x_train, x_test, y_train, y_test = train_test_split(x_raw, y_raw,
                                                            test_size=.20,
                                                            random_state=123,
                                                            stratify=y_raw)

In [12]:
clf = RandomForestClassifier(n_estimators=100,
                            min_samples_leaf=2,
                            class_weight='balanced',
                            random_state=123)

preprocessor = Pipeline(steps=[('scaler', StandardScaler())])

model = Pipeline(steps=[('preprocessor', preprocessor),
                           ('RandomForestClassifier', clf)])


In [13]:
model.fit(x_train, y_train)

# Entrenamiento de un Modelo con Scikit-Learn

En estas líneas de código, se lleva a cabo el proceso de entrenamiento de un modelo de clasificación utilizando Scikit-Learn. Aquí se presenta una descripción resumida de las operaciones realizadas:

1. **División del Conjunto de Datos:**
   - El conjunto de datos original se divide en conjuntos de entrenamiento (train) y prueba (test) utilizando la función `train_test_split`.

2. **Preparación del Conjunto de Prueba:**
   - Se extrae la variable objetivo del conjunto de prueba y se guarda en un archivo CSV llamado 'test-target.csv'. Luego, se elimina la variable objetivo del conjunto de prueba y se guarda en otro archivo CSV llamado 'test.csv'.

3. **División del Conjunto de Entrenamiento:**
   - El conjunto de entrenamiento se divide en subconjuntos de entrenamiento y prueba utilizando la función `train_test_split` nuevamente.

4. **Configuración del Modelo:**
   - Se configura un modelo de clasificación utilizando el algoritmo Random Forest Classifier con parámetros específicos.

5. **Preprocesamiento y Entrenamiento del Modelo:**
   - Se utiliza un preprocesador que incluye un escalador estándar (StandardScaler) dentro de una tubería (Pipeline).
   - El modelo (Random Forest Classifier) se incluye también en una tubería.
   - La tubería completa se entrena con el conjunto de entrenamiento.

En resumen, estas líneas de código representan el proceso de preparación de datos, configuración y entrenamiento de un modelo de clasificación utilizando Random Forest en Scikit-Learn.


In [14]:
accuracy_train = model.score(x_train, y_train)
accuracy_train

0.9945054945054945

In [15]:
model.score(x_test, y_test)

0.967032967032967

In [16]:
model.get_params()

{'memory': None,
 'steps': [('preprocessor', Pipeline(steps=[('scaler', StandardScaler())])),
  ('RandomForestClassifier',
   RandomForestClassifier(class_weight='balanced', min_samples_leaf=2,
                          random_state=123))],
 'transform_input': None,
 'verbose': False,
 'preprocessor': Pipeline(steps=[('scaler', StandardScaler())]),
 'RandomForestClassifier': RandomForestClassifier(class_weight='balanced', min_samples_leaf=2,
                        random_state=123),
 'preprocessor__memory': None,
 'preprocessor__steps': [('scaler', StandardScaler())],
 'preprocessor__transform_input': None,
 'preprocessor__verbose': False,
 'preprocessor__scaler': StandardScaler(),
 'preprocessor__scaler__copy': True,
 'preprocessor__scaler__with_mean': True,
 'preprocessor__scaler__with_std': True,
 'RandomForestClassifier__bootstrap': True,
 'RandomForestClassifier__ccp_alpha': 0.0,
 'RandomForestClassifier__class_weight': 'balanced',
 'RandomForestClassifier__criterion': 'gini',
 '

In [17]:
mlflow.set_experiment('Cancer2')
with mlflow.start_run(run_name='Despliegue BD14'):
  mlflow.log_metric('m1', 1.0)
  mlflow.log_param('n_estimators', 100)
  mlflow.log_metric('accuracy_train', accuracy_train)

# Evaluación del Modelo y Obtención de Parámetros

En este bloque de código, se evalúa el modelo previamente entrenado y se obtienen algunos detalles sobre su rendimiento y configuración. A continuación, se presenta una breve descripción de las líneas de código:

1. **Evaluación del Rendimiento en el Conjunto de Entrenamiento:**
   - Se calcula la precisión del modelo en el conjunto de entrenamiento utilizando la función `score` y se almacena en la variable `accuracy_train`.
   - La precisión en el conjunto de entrenamiento se imprime para evaluar cómo se desempeña el modelo en los datos utilizados para el entrenamiento.

2. **Evaluación del Rendimiento en el Conjunto de Prueba:**
   - Se calcula la precisión del modelo en el conjunto de prueba utilizando la función `score`. La precisión en el conjunto de prueba se imprime para evaluar cómo generaliza el modelo en datos no vistos.

3. **Obtención de Parámetros del Modelo:**
   - Se obtienen los parámetros del modelo utilizando la función `get_params`. Esto proporciona información detallada sobre la configuración del modelo.

En resumen, estas líneas de código se centran en evaluar la precisión del modelo en los conjuntos de entrenamiento y prueba, así como en obtener información detallada sobre los parámetros del modelo.
## Revisar algunas métricas del modelo

In [18]:
from mlflow.tracking import MlflowClient
client = MlflowClient()

In [19]:
model_name = 'clf-model2'

In [20]:
with mlflow.start_run() as run:
  run_num = run.info.run_id
  model_uri = 'runs:/{run_id}/artifact_path'.format(run_id=run_num, artifact_path=model_name)

  mlflow.log_metric('accuracy_train', accuracy_train)
  mlflow.sklearn.log_model(model,model_name)

  model_details = mlflow.register_model(
      model_uri=model_uri,
      name=model_name
  )


Registered model 'clf-model2' already exists. Creating a new version of this model...
Created version '2' of model 'clf-model2'.


Automatizamos el proceso en Traning Scripts

In [24]:
import pandas as pd
import numpy as np
import mlflow
import time
import mlflow.sklearn
import subprocess
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import accuracy_score

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
df = pd.DataFrame(cancer['data'], columns=cancer['feature_names'])
df['target'] = cancer['target']

# Split data into train and test sets
train, test = train_test_split(df, test_size=0.2)
test_target = test['target']
test[['target']].to_csv('test-target.csv', index=False)
del test['target']
test.to_csv('test.csv', index=False)

features = [x for x in list(train.columns) if x != 'target']
x_raw = train[features]
y_raw = train['target']
x_train, x_test, y_train, y_test = train_test_split(x_raw, y_raw,
                                                    test_size=0.2,
                                                    random_state=42,
                                                    stratify=y_raw)
n_stimators = [2,10,20,30,50,80,100,130]




mlflow.set_experiment('Pruebas desde Script')
for i in n_stimators:
  with mlflow.start_run() as run:
    clf = RandomForestClassifier(n_estimators=i,
                                min_samples_leaf=2,
                                class_weight='balanced',
                                random_state=123)

    preprocessor = Pipeline(steps=[('scaler', StandardScaler())])

    model = Pipeline(steps=[('preprocessor', preprocessor),
                              ('RandomForestClassifier', clf)])
    model.fit(x_train, y_train)
    accuracy_train = model.score(x_train, y_train)
    model.score(x_test, y_test)

    mlflow.log_metric('accuraty_train', accuracy_train)
    mlflow.log_param('n_stimators', i)
    mlflow.sklearn.log_model(model, 'clf-modellll')



Script con argumentos como parametros de entrada 

In [None]:
# funciones.py
%%writefile funciones2.py
import argparse
import subprocess
import time
import mlflow
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_breast_cancer

def argumentos():
    print("aaa")
    parser = argparse.ArgumentParser(description='__main__ de la aplicación con argumentos de entrada.')
    parser.add_argument('--nombre_job', type=str, help='Valor para el parámetro nombre_documento.')
    parser.add_argument('--n_estimators_list', nargs='+', type=int, help='List of n_estimators values.')
    return parser.parse_args()

def load_dataset():
    cancer = load_breast_cancer()
    df = pd.DataFrame(cancer['data'], columns=cancer['feature_names'])
    df['target'] = cancer['target']
    return df

def data_treatment(df):
    # Split data into train and test sets
    train, test = train_test_split(df, test_size=0.2)
    test_target = test['target']
    test[['target']].to_csv('test-target.csv', index=False)
    del test['target']
    test.to_csv('test.csv', index=False)

    features = [x for x in list(train.columns) if x != 'target']
    x_raw = train[features]
    y_raw = train['target']
    x_train, x_test, y_train, y_test = train_test_split(x_raw, y_raw,
                                                        test_size=.20,
                                                        random_state=123,
                                                        stratify=y_raw)
    return x_train, x_test, y_train, y_test

def mlflow_tracking(nombre_job, x_train, x_test, y_train, y_test, n_estimators):
    mlflow_ui_process = subprocess.Popen(['mlflow', 'ui', '--port', '5000'])
    print(mlflow_ui_process)
    time.sleep(5)
    mlflow.set_experiment(nombre_job)
    for i in n_estimators:
        with mlflow.start_run() as run:
            clf = RandomForestClassifier(n_estimators=i,
                                          min_samples_leaf=2,
                                          class_weight='balanced',
                                          random_state=123)

            preprocessor = Pipeline(steps=[('scaler', StandardScaler())])

            model = Pipeline(steps=[('preprocessor', preprocessor),
                                    ('RandomForestClassifier', clf)])
            model.fit(x_train, y_train)
            accuracy_train = model.score(x_train, y_train)
            model.score(x_test, y_test)

            mlflow.log_metric('accuracy_train', accuracy_train)
            mlflow.log_param('n_estimators', i)
            mlflow.sklearn.log_model(model, 'clf-model')
    print("Se ha acabado el entrenamiento del modelo correctamente")


In [None]:
# main.py
%%writefile main3.py
from funciones2 import argumentos, load_dataset, model, mlflow_tracking

def main():
  print("Eejcutamos el main")
  args_values = argumentos()
  df = load_dataset()
  x_train, x_test, y_train, y_test = data_treatment(df)
  mlflow_tracking(args_values.nombre_job, x_train, x_test, y_train, y_test, args_values.n_estimators_list)

if __name__ == "__main__":
  main()




Cargar un modelo desde local

In [None]:
import mlflow
logged_model = 'runs:/0bc28fe3e218408d840a134e195d7b71/clf-model'

# Load model as a PyFuncModel.
loaded_model = mlflow.pyfunc.load_model(logged_model)


In [None]:
loaded_model.predict(x_train)

array([1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0,
       1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0,
       0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0,
       0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0,
       1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1,
       0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1,
       0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1,

Cargar un modelo desde la nube