# MLflow

MLflow es una plataforma de código abierto diseñada para gestionar el ciclo de vida completo de proyectos de aprendizaje automático (ML). Proporciona herramientas para la experimentación, la reproducción de modelos, el seguimiento de parámetros y métricas, así como la implementación y la gestión de modelos en diferentes entornos.

## Componentes Principales

1. **Tracking:** Permite realizar un seguimiento de experimentos y comparar los resultados de diferentes modelos. Registra parámetros, métricas y archivos de registro durante el entrenamiento de modelos.

2. **Projects:** Ofrece una estructura para organizar código, datos y configuraciones en proyectos de aprendizaje automático. Facilita la reproducción de experimentos y la colaboración en equipos.

3. **Models:** Proporciona un formato estándar para empaquetar modelos de aprendizaje automático, independientemente del marco de trabajo utilizado. Esto facilita la implementación y la integración de modelos en diferentes entornos.

4. **Registry:** Permite gestionar y organizar versiones de modelos, facilitando la colaboración entre equipos y el seguimiento de cambios en los modelos.

## Funcionamiento

MLflow es compatible con varios marcos de trabajo de aprendizaje automático, como TensorFlow, PyTorch, Scikit-Learn y otros. Puedes utilizar MLflow en tu entorno de desarrollo local o en la nube. Además, es compatible con múltiples lenguajes de programación, como Python, R y Java.

En resumen, MLflow proporciona una plataforma integral que simplifica el desarrollo, seguimiento y despliegue de modelos de aprendizaje automático, mejorando la reproducibilidad y la colaboración en proyectos de análisis de datos.


## Importamos las librerias necesarias para ejecutar el notebook

# Análisis de Datos con Scikit-Learn

En este código, se realiza un análisis de datos utilizando el conjunto de datos de cáncer de mama proporcionado por Scikit-Learn. Aquí hay una breve descripción de las operaciones realizadas:

1. **Carga del Conjunto de Datos:**
   - Se carga el conjunto de datos de cáncer de mama utilizando la función `load_breast_cancer` de Scikit-Learn.

2. **Creación de un DataFrame:**
   - Se crea un DataFrame utilizando los datos del conjunto de datos, asignando las características a las columnas y la variable objetivo ('target') a una columna adicional.

3. **Visualización de los Primeros Registros:**
   - Se muestra una vista previa de los primeros registros del DataFrame para obtener una comprensión inicial de los datos.

4. **Dimensiones del DataFrame:**
   - Se imprime la forma del DataFrame para conocer el número de filas y columnas en los datos.

5. **Estadísticas Descriptivas:**
   - Se proporcionan estadísticas descriptivas del DataFrame, incluyendo conteos, medias, desviaciones estándar, mínimos y máximos.

6. **Nombres de Columnas:**
   - Se muestran los nombres de las columnas presentes en el DataFrame.

Este código sirve como punto de partida para explorar y comprender el conjunto de datos de cáncer de mama, y para realizar análisis estadísticos básicos sobre sus características y variable objetivo.


# Entrenamiento de un Modelo con Scikit-Learn

En estas líneas de código, se lleva a cabo el proceso de entrenamiento de un modelo de clasificación utilizando Scikit-Learn. Aquí se presenta una descripción resumida de las operaciones realizadas:

1. **División del Conjunto de Datos:**
   - El conjunto de datos original se divide en conjuntos de entrenamiento (train) y prueba (test) utilizando la función `train_test_split`.

2. **Preparación del Conjunto de Prueba:**
   - Se extrae la variable objetivo del conjunto de prueba y se guarda en un archivo CSV llamado 'test-target.csv'. Luego, se elimina la variable objetivo del conjunto de prueba y se guarda en otro archivo CSV llamado 'test.csv'.

3. **División del Conjunto de Entrenamiento:**
   - El conjunto de entrenamiento se divide en subconjuntos de entrenamiento y prueba utilizando la función `train_test_split` nuevamente.

4. **Configuración del Modelo:**
   - Se configura un modelo de clasificación utilizando el algoritmo Random Forest Classifier con parámetros específicos.

5. **Preprocesamiento y Entrenamiento del Modelo:**
   - Se utiliza un preprocesador que incluye un escalador estándar (StandardScaler) dentro de una tubería (Pipeline).
   - El modelo (Random Forest Classifier) se incluye también en una tubería.
   - La tubería completa se entrena con el conjunto de entrenamiento.

En resumen, estas líneas de código representan el proceso de preparación de datos, configuración y entrenamiento de un modelo de clasificación utilizando Random Forest en Scikit-Learn.


# Evaluación del Modelo y Obtención de Parámetros

En este bloque de código, se evalúa el modelo previamente entrenado y se obtienen algunos detalles sobre su rendimiento y configuración. A continuación, se presenta una breve descripción de las líneas de código:

1. **Evaluación del Rendimiento en el Conjunto de Entrenamiento:**
   - Se calcula la precisión del modelo en el conjunto de entrenamiento utilizando la función `score` y se almacena en la variable `accuracy_train`.
   - La precisión en el conjunto de entrenamiento se imprime para evaluar cómo se desempeña el modelo en los datos utilizados para el entrenamiento.

2. **Evaluación del Rendimiento en el Conjunto de Prueba:**
   - Se calcula la precisión del modelo en el conjunto de prueba utilizando la función `score`. La precisión en el conjunto de prueba se imprime para evaluar cómo generaliza el modelo en datos no vistos.

3. **Obtención de Parámetros del Modelo:**
   - Se obtienen los parámetros del modelo utilizando la función `get_params`. Esto proporciona información detallada sobre la configuración del modelo.

En resumen, estas líneas de código se centran en evaluar la precisión del modelo en los conjuntos de entrenamiento y prueba, así como en obtener información detallada sobre los parámetros del modelo.
## Revisar algunas métricas del modelo

## Asegúrate de poder ejecutar/acceder al servidor de mlflow

# Registro y Despliegue de Modelo con MLflow

En estas líneas de código, se lleva a cabo el registro y despliegue de un modelo utilizando MLflow. Aquí se presenta una descripción breve de las operaciones realizadas:

1. **Configuración del Servidor MLflow:**
   - Se inicia el servidor MLflow con la configuración del backend y el directorio de artefactos definido en un archivo Docker Compose o desde la terminal. Esto permite gestionar los experimentos y modelos de manera centralizada.

2. **Configuración del Experimento:**
   - Se establece la URI de seguimiento y el nombre del experimento con `mlflow.set_tracking_uri` y `mlflow.set_experiment`, respectivamente.

3. **Registro del Modelo y Métricas:**
   - Se inicia una ejecución de MLflow con `mlflow.start_run()` y se registra la métrica 'accuracy_train' y el modelo entrenado usando `mlflow.log_metric` y `mlflow.sklearn.log_model`.

4. **Registro del Modelo en el Registro de Modelos:**
   - Se registra el modelo en el Registro de Modelos de MLflow utilizando `mlflow.register_model`.

5. **Gestión de Versiones y Despliegue:**
   - Se obtiene la información sobre las versiones del modelo y se realiza la transición de versiones y etapas utilizando funciones específicas de la API de MLflow.
   - Se espera a que la transición a la etapa de "Staging" se complete antes de actualizar la descripción del modelo con `client.update_model_version`.

En resumen, estas líneas de código representan el proceso de registro, gestión de versiones y despliegue de un modelo en MLflow, permitiendo un seguimiento y control eficientes del ciclo de vida del modelo.


# Despliegue y Predicciones con el Modelo MLflow

En estas líneas de código, se realiza el despliegue del modelo registrado en MLflow y se hacen predicciones utilizando el modelo desplegado. A continuación, se presenta una breve descripción de las operaciones realizadas:

1. **Carga del Modelo Desplegado:**
   - Se carga el modelo desplegado desde el Registro de Modelos de MLflow utilizando `mlflow.pyfunc.load_model`.

2. **Realización de Predicciones:**
   - Se utiliza el modelo cargado para realizar predicciones sobre el conjunto de prueba (`test[features]`), generando probabilidades predichas.

3. **Despliegue del Modelo con MLflow:**
   - Se especifica la URI del modelo y se inicia un servidor MLflow para el despliegue del modelo utilizando `mlflow models serve`.

4. **Realización de Predicciones a través de la API:**
   - Se utiliza la API REST del modelo desplegado para realizar predicciones sobre un conjunto de datos de prueba (`test.csv`) a través de una solicitud HTTP con `curl`.

5. **Procesamiento de las Respuestas de la API:**
   - Se procesan las respuestas de la API, que contienen probabilidades predichas, convirtiéndolas en una lista de objetivos binarios.

En resumen, estas líneas de código representan el proceso de carga, despliegue y predicciones utilizando un modelo previamente registrado en MLflow, permitiendo el acceso a las predicciones a través de una API REST.
