# MLflow

MLflow es una plataforma de código abierto diseñada para gestionar el ciclo de vida completo de proyectos de aprendizaje automático (ML). Proporciona herramientas para la experimentación, la reproducción de modelos, el seguimiento de parámetros y métricas, así como la implementación y la gestión de modelos en diferentes entornos.

## Componentes Principales

1. **Tracking:** Permite realizar un seguimiento de experimentos y comparar los resultados de diferentes modelos. Registra parámetros, métricas y archivos de registro durante el entrenamiento de modelos.

2. **Projects:** Ofrece una estructura para organizar código, datos y configuraciones en proyectos de aprendizaje automático. Facilita la reproducción de experimentos y la colaboración en equipos.

3. **Models:** Proporciona un formato estándar para empaquetar modelos de aprendizaje automático, independientemente del marco de trabajo utilizado. Esto facilita la implementación y la integración de modelos en diferentes entornos.

4. **Registry:** Permite gestionar y organizar versiones de modelos, facilitando la colaboración entre equipos y el seguimiento de cambios en los modelos.

## Funcionamiento

MLflow es compatible con varios marcos de trabajo de aprendizaje automático, como TensorFlow, PyTorch, Scikit-Learn y otros. Puedes utilizar MLflow en tu entorno de desarrollo local o en la nube. Además, es compatible con múltiples lenguajes de programación, como Python, R y Java.

En resumen, MLflow proporciona una plataforma integral que simplifica el desarrollo, seguimiento y despliegue de modelos de aprendizaje automático, mejorando la reproducibilidad y la colaboración en proyectos de análisis de datos.


## Importamos las librerias necesarias para ejecutar el notebook

In [2]:
import pandas as pd 
import numpy as np 
import mlflow 

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

from sklearn.datasets import load_breast_cancer

In [3]:
cancer = load_breast_cancer()

In [4]:
cancer

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]], shape=(569, 30)),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1,

# Análisis de Datos con Scikit-Learn

En este código, se realiza un análisis de datos utilizando el conjunto de datos de cáncer de mama proporcionado por Scikit-Learn. Aquí hay una breve descripción de las operaciones realizadas:

1. **Carga del Conjunto de Datos:**
   - Se carga el conjunto de datos de cáncer de mama utilizando la función `load_breast_cancer` de Scikit-Learn.

2. **Creación de un DataFrame:**
   - Se crea un DataFrame utilizando los datos del conjunto de datos, asignando las características a las columnas y la variable objetivo ('target') a una columna adicional.

3. **Visualización de los Primeros Registros:**
   - Se muestra una vista previa de los primeros registros del DataFrame para obtener una comprensión inicial de los datos.

4. **Dimensiones del DataFrame:**
   - Se imprime la forma del DataFrame para conocer el número de filas y columnas en los datos.

5. **Estadísticas Descriptivas:**
   - Se proporcionan estadísticas descriptivas del DataFrame, incluyendo conteos, medias, desviaciones estándar, mínimos y máximos.

6. **Nombres de Columnas:**
   - Se muestran los nombres de las columnas presentes en el DataFrame.

Este código sirve como punto de partida para explorar y comprender el conjunto de datos de cáncer de mama, y para realizar análisis estadísticos básicos sobre sus características y variable objetivo.


In [5]:
df = pd.DataFrame(cancer["data"], columns=cancer["feature_names"])

In [7]:
df["target"] = cancer["target"]

In [9]:
df.shape

(569, 31)

In [10]:
df.describe()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,radius error,texture error,perimeter error,area error,smoothness error,compactness error,concavity error,concave points error,symmetry error,fractal dimension error,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
count,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0
mean,14.127292,19.289649,91.969033,654.889104,0.09636,0.104341,0.088799,0.048919,0.181162,0.062798,0.405172,1.216853,2.866059,40.337079,0.007041,0.025478,0.031894,0.011796,0.020542,0.003795,16.26919,25.677223,107.261213,880.583128,0.132369,0.254265,0.272188,0.114606,0.290076,0.083946,0.627417
std,3.524049,4.301036,24.298981,351.914129,0.014064,0.052813,0.07972,0.038803,0.027414,0.00706,0.277313,0.551648,2.021855,45.491006,0.003003,0.017908,0.030186,0.00617,0.008266,0.002646,4.833242,6.146258,33.602542,569.356993,0.022832,0.157336,0.208624,0.065732,0.061867,0.018061,0.483918
min,6.981,9.71,43.79,143.5,0.05263,0.01938,0.0,0.0,0.106,0.04996,0.1115,0.3602,0.757,6.802,0.001713,0.002252,0.0,0.0,0.007882,0.000895,7.93,12.02,50.41,185.2,0.07117,0.02729,0.0,0.0,0.1565,0.05504,0.0
25%,11.7,16.17,75.17,420.3,0.08637,0.06492,0.02956,0.02031,0.1619,0.0577,0.2324,0.8339,1.606,17.85,0.005169,0.01308,0.01509,0.007638,0.01516,0.002248,13.01,21.08,84.11,515.3,0.1166,0.1472,0.1145,0.06493,0.2504,0.07146,0.0
50%,13.37,18.84,86.24,551.1,0.09587,0.09263,0.06154,0.0335,0.1792,0.06154,0.3242,1.108,2.287,24.53,0.00638,0.02045,0.02589,0.01093,0.01873,0.003187,14.97,25.41,97.66,686.5,0.1313,0.2119,0.2267,0.09993,0.2822,0.08004,1.0
75%,15.78,21.8,104.1,782.7,0.1053,0.1304,0.1307,0.074,0.1957,0.06612,0.4789,1.474,3.357,45.19,0.008146,0.03245,0.04205,0.01471,0.02348,0.004558,18.79,29.72,125.4,1084.0,0.146,0.3391,0.3829,0.1614,0.3179,0.09208,1.0
max,28.11,39.28,188.5,2501.0,0.1634,0.3454,0.4268,0.2012,0.304,0.09744,2.873,4.885,21.98,542.2,0.03113,0.1354,0.396,0.05279,0.07895,0.02984,36.04,49.54,251.2,4254.0,0.2226,1.058,1.252,0.291,0.6638,0.2075,1.0


# Entrenamiento de un Modelo con Scikit-Learn

En estas líneas de código, se lleva a cabo el proceso de entrenamiento de un modelo de clasificación utilizando Scikit-Learn. Aquí se presenta una descripción resumida de las operaciones realizadas:

1. **División del Conjunto de Datos:**
   - El conjunto de datos original se divide en conjuntos de entrenamiento (train) y prueba (test) utilizando la función `train_test_split`.

2. **Preparación del Conjunto de Prueba:**
   - Se extrae la variable objetivo del conjunto de prueba y se guarda en un archivo CSV llamado 'test-target.csv'. Luego, se elimina la variable objetivo del conjunto de prueba y se guarda en otro archivo CSV llamado 'test.csv'.

3. **División del Conjunto de Entrenamiento:**
   - El conjunto de entrenamiento se divide en subconjuntos de entrenamiento y prueba utilizando la función `train_test_split` nuevamente.

4. **Configuración del Modelo:**
   - Se configura un modelo de clasificación utilizando el algoritmo Random Forest Classifier con parámetros específicos.

5. **Preprocesamiento y Entrenamiento del Modelo:**
   - Se utiliza un preprocesador que incluye un escalador estándar (StandardScaler) dentro de una tubería (Pipeline).
   - El modelo (Random Forest Classifier) se incluye también en una tubería.
   - La tubería completa se entrena con el conjunto de entrenamiento.

En resumen, estas líneas de código representan el proceso de preparación de datos, configuración y entrenamiento de un modelo de clasificación utilizando Random Forest en Scikit-Learn.


In [11]:
train, test = train_test_split(df, test_size=0.2, random_state=42)

In [12]:
test_target = test["target"]
test.to_csv("text.csv", index=False)

In [23]:
features = [x for x in list(train.columns) if x != 'target']
x_raw = train[features]
y_raw = train['target']

In [15]:
y_raw

68     1
181    0
63     1
248    1
60     1
      ..
71     1
106    1
270    1
435    0
102    1
Name: target, Length: 455, dtype: int64

In [16]:
x_train, x_test, y_train, y_test = train_test_split(x_raw, y_raw, test_size=0.2, random_state=42)

In [53]:
clf = RandomForestClassifier(n_estimators=2, 
                             min_samples_leaf=2, 
                             class_weight='balanced',
                             random_state=42)

In [None]:
preprocessor = Pipeline(steps=[('scaler', StandardScaler())])

model = Pipeline(steps=[('preprocessor', preprocessor), ('RandomForestClassifier', clf)])

In [55]:
y_train

89     1
562    0
523    1
240    1
151    1
      ..
57     0
492    0
418    1
385    0
325    1
Name: target, Length: 364, dtype: int64

In [None]:
model.fit(x_train, y_train)

0,1,2
,steps,"[('preprocessor', ...), ('RandomForestClassifier', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,steps,"[('scaler', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,copy,True
,with_mean,True
,with_std,True

0,1,2
,n_estimators,2
,criterion,'gini'
,max_depth,
,min_samples_split,2
,min_samples_leaf,2
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


# Evaluación del Modelo y Obtención de Parámetros

En este bloque de código, se evalúa el modelo previamente entrenado y se obtienen algunos detalles sobre su rendimiento y configuración. A continuación, se presenta una breve descripción de las líneas de código:

1. **Evaluación del Rendimiento en el Conjunto de Entrenamiento:**
   - Se calcula la precisión del modelo en el conjunto de entrenamiento utilizando la función `score` y se almacena en la variable `accuracy_train`.
   - La precisión en el conjunto de entrenamiento se imprime para evaluar cómo se desempeña el modelo en los datos utilizados para el entrenamiento.

2. **Evaluación del Rendimiento en el Conjunto de Prueba:**
   - Se calcula la precisión del modelo en el conjunto de prueba utilizando la función `score`. La precisión en el conjunto de prueba se imprime para evaluar cómo generaliza el modelo en datos no vistos.

3. **Obtención de Parámetros del Modelo:**
   - Se obtienen los parámetros del modelo utilizando la función `get_params`. Esto proporciona información detallada sobre la configuración del modelo.

En resumen, estas líneas de código se centran en evaluar la precisión del modelo en los conjuntos de entrenamiento y prueba, así como en obtener información detallada sobre los parámetros del modelo.
## Revisar algunas métricas del modelo

In [None]:
accuracy_train = model.score(x_train, y_train); accuracy_train

0.9615384615384616

0,1,2
,steps,"[('preprocessor', ...), ('RandomForestClassifier', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,steps,"[('scaler', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,copy,True
,with_mean,True
,with_std,True

0,1,2
,n_estimators,2
,criterion,'gini'
,max_depth,
,min_samples_split,2
,min_samples_leaf,2
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [58]:
accuracy_test = model.score(x_test, y_test); accuracy_test

0.8791208791208791

In [59]:
model.get_params()

{'memory': None,
 'steps': [('preprocessor', Pipeline(steps=[('scaler', StandardScaler())])),
  ('RandomForestClassifier',
   RandomForestClassifier(class_weight='balanced', min_samples_leaf=2,
                          n_estimators=2, random_state=42))],
 'transform_input': None,
 'verbose': False,
 'preprocessor': Pipeline(steps=[('scaler', StandardScaler())]),
 'RandomForestClassifier': RandomForestClassifier(class_weight='balanced', min_samples_leaf=2,
                        n_estimators=2, random_state=42),
 'preprocessor__memory': None,
 'preprocessor__steps': [('scaler', StandardScaler())],
 'preprocessor__transform_input': None,
 'preprocessor__verbose': False,
 'preprocessor__scaler': StandardScaler(),
 'preprocessor__scaler__copy': True,
 'preprocessor__scaler__with_mean': True,
 'preprocessor__scaler__with_std': True,
 'RandomForestClassifier__bootstrap': True,
 'RandomForestClassifier__ccp_alpha': 0.0,
 'RandomForestClassifier__class_weight': 'balanced',
 'RandomForestClas

In [72]:
n_estimators=2

In [61]:
min_samples_leaf=2

In [73]:
n_estimators=4

## Asegúrate de poder ejecutar/acceder al servidor de mlflow

In [76]:
nombre = 'Julen'

In [None]:
mlflow.set_experiment('breast-cancer-bd15')
run_name = f'load_breast_cancer-n_estimators_{n_estimators}-min_samples_leaf_{min_samples_leaf}'
with mlflow.start_run(run_name=run_name):
    mlflow.log_metric('Accuracy Train', accuracy_train)
    mlflow.log_metric('ACcuracy Test', 1.0)
    mlflow.log_param('Mi nombre', nombre)
    mlflow.sklearn.log_model


In [63]:
model_name = 'breast-cancer-type-1'

In [64]:
model = mlflow.pyfunc.load_model(f'models:/{model_name}/Production')

  latest = client.get_latest_versions(name, None if stage is None else [stage])


In [65]:
model

mlflow.pyfunc.loaded_model:
  artifact_path: clf
  flavor: mlflow.sklearn
  run_id: 557e6b8e65c84034ae8e39f27f9cfc83

In [66]:
model.predict(x_test)

array([0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0,
       0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0,
       1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0,
       1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0,
       1, 1, 1])

In [52]:
model.predict(x_test)

array([0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0,
       0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1,
       1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0,
       1, 1, 1])

In [41]:
loaded_model.predict(x_test)

array([0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0,
       0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1,
       1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0,
       1, 1, 1])

In [79]:
import funciones 

In [80]:
funciones.suma(2,3)

5

In [None]:
import pandas as pd
import numpy as np
import mlflow
import mlflow.sklearn

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import accuracy_score

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

df = pd.DataFrame(cancer['data'], columns=cancer['feature_names'])

df['target'] = cancer['target']
df.head()

df.describe()

df.columns

train, test = train_test_split(df, test_size=0.2)

test_target = test['target']
test[['target']].to_csv('test-target.csv', index=False)
del test['target']
test.to_csv('test.csv', index=False)

features = [x for x in list(train.columns) if x != 'target']
x_raw = train[features]
y_raw = train['target']



x_train, x_test, y_train, y_test = train_test_split(x_raw, y_raw,
                                                            test_size=.20,
                                                            random_state=123,
                                                            stratify=y_raw)

clf = RandomForestClassifier(n_estimators=100,
                            min_samples_leaf=2,
                            class_weight='balanced',
                            random_state=123)

preprocessor = Pipeline(steps=[('scaler', StandardScaler())])

model = Pipeline(steps=[('preprocessor', preprocessor),
                           ('RandomForestClassifier', clf)])

model.fit(x_train, y_train)
accuracy_train = model.score(x_train, y_train)
accuracy_train

model.score(x_test, y_test)

mlflow.set_experiment("breast-cancer-ia3")
with mlflow.start_run(run_name="KC-IA3-all-in"):
    mlflow.log_metric("m1", 1.0)
    mlflow.log_param("n_estimators", 12)
    mlflow.log_metric("accuracy_train", 0.89)
    mlflow.sklearn.log_model(model, "clf")

# Registro y Despliegue de Modelo con MLflow

En estas líneas de código, se lleva a cabo el registro y despliegue de un modelo utilizando MLflow. Aquí se presenta una descripción breve de las operaciones realizadas:

1. **Configuración del Servidor MLflow:**
   - Se inicia el servidor MLflow con la configuración del backend y el directorio de artefactos definido en un archivo Docker Compose o desde la terminal. Esto permite gestionar los experimentos y modelos de manera centralizada.

2. **Configuración del Experimento:**
   - Se establece la URI de seguimiento y el nombre del experimento con `mlflow.set_tracking_uri` y `mlflow.set_experiment`, respectivamente.

3. **Registro del Modelo y Métricas:**
   - Se inicia una ejecución de MLflow con `mlflow.start_run()` y se registra la métrica 'accuracy_train' y el modelo entrenado usando `mlflow.log_metric` y `mlflow.sklearn.log_model`.

4. **Registro del Modelo en el Registro de Modelos:**
   - Se registra el modelo en el Registro de Modelos de MLflow utilizando `mlflow.register_model`.

5. **Gestión de Versiones y Despliegue:**
   - Se obtiene la información sobre las versiones del modelo y se realiza la transición de versiones y etapas utilizando funciones específicas de la API de MLflow.
   - Se espera a que la transición a la etapa de "Staging" se complete antes de actualizar la descripción del modelo con `client.update_model_version`.

En resumen, estas líneas de código representan el proceso de registro, gestión de versiones y despliegue de un modelo en MLflow, permitiendo un seguimiento y control eficientes del ciclo de vida del modelo.


# Despliegue y Predicciones con el Modelo MLflow

En estas líneas de código, se realiza el despliegue del modelo registrado en MLflow y se hacen predicciones utilizando el modelo desplegado. A continuación, se presenta una breve descripción de las operaciones realizadas:

1. **Carga del Modelo Desplegado:**
   - Se carga el modelo desplegado desde el Registro de Modelos de MLflow utilizando `mlflow.pyfunc.load_model`.

2. **Realización de Predicciones:**
   - Se utiliza el modelo cargado para realizar predicciones sobre el conjunto de prueba (`test[features]`), generando probabilidades predichas.

3. **Despliegue del Modelo con MLflow:**
   - Se especifica la URI del modelo y se inicia un servidor MLflow para el despliegue del modelo utilizando `mlflow models serve`.

4. **Realización de Predicciones a través de la API:**
   - Se utiliza la API REST del modelo desplegado para realizar predicciones sobre un conjunto de datos de prueba (`test.csv`) a través de una solicitud HTTP con `curl`.

5. **Procesamiento de las Respuestas de la API:**
   - Se procesan las respuestas de la API, que contienen probabilidades predichas, convirtiéndolas en una lista de objetivos binarios.

En resumen, estas líneas de código representan el proceso de carga, despliegue y predicciones utilizando un modelo previamente registrado en MLflow, permitiendo el acceso a las predicciones a través de una API REST.
