# MLflow

MLflow es una plataforma de código abierto diseñada para gestionar el ciclo de vida completo de proyectos de aprendizaje automático (ML). Proporciona herramientas para la experimentación, la reproducción de modelos, el seguimiento de parámetros y métricas, así como la implementación y la gestión de modelos en diferentes entornos.

## Componentes Principales

1. **Tracking:** Permite realizar un seguimiento de experimentos y comparar los resultados de diferentes modelos. Registra parámetros, métricas y archivos de registro durante el entrenamiento de modelos.

2. **Projects:** Ofrece una estructura para organizar código, datos y configuraciones en proyectos de aprendizaje automático. Facilita la reproducción de experimentos y la colaboración en equipos.

3. **Models:** Proporciona un formato estándar para empaquetar modelos de aprendizaje automático, independientemente del marco de trabajo utilizado. Esto facilita la implementación y la integración de modelos en diferentes entornos.

4. **Registry:** Permite gestionar y organizar versiones de modelos, facilitando la colaboración entre equipos y el seguimiento de cambios en los modelos.

## Funcionamiento

MLflow es compatible con varios marcos de trabajo de aprendizaje automático, como TensorFlow, PyTorch, Scikit-Learn y otros. Puedes utilizar MLflow en tu entorno de desarrollo local o en la nube. Además, es compatible con múltiples lenguajes de programación, como Python, R y Java.

En resumen, MLflow proporciona una plataforma integral que simplifica el desarrollo, seguimiento y despliegue de modelos de aprendizaje automático, mejorando la reproducibilidad y la colaboración en proyectos de análisis de datos.


## Importamos las librerias necesarias para ejecutar el notebook

In [1]:
import pandas as pd
import numpy as np
import mlflow
import mlflow.sklearn

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import accuracy_score

from sklearn.datasets import load_breast_cancer 

# Análisis de Datos con Scikit-Learn

En este código, se realiza un análisis de datos utilizando el conjunto de datos de cáncer de mama proporcionado por Scikit-Learn. Aquí hay una breve descripción de las operaciones realizadas:

1. **Carga del Conjunto de Datos:**
   - Se carga el conjunto de datos de cáncer de mama utilizando la función `load_breast_cancer` de Scikit-Learn.

2. **Creación de un DataFrame:**
   - Se crea un DataFrame utilizando los datos del conjunto de datos, asignando las características a las columnas y la variable objetivo ('target') a una columna adicional.

3. **Visualización de los Primeros Registros:**
   - Se muestra una vista previa de los primeros registros del DataFrame para obtener una comprensión inicial de los datos.

4. **Dimensiones del DataFrame:**
   - Se imprime la forma del DataFrame para conocer el número de filas y columnas en los datos.

5. **Estadísticas Descriptivas:**
   - Se proporcionan estadísticas descriptivas del DataFrame, incluyendo conteos, medias, desviaciones estándar, mínimos y máximos.

6. **Nombres de Columnas:**
   - Se muestran los nombres de las columnas presentes en el DataFrame.

Este código sirve como punto de partida para explorar y comprender el conjunto de datos de cáncer de mama, y para realizar análisis estadísticos básicos sobre sus características y variable objetivo.


In [2]:
cancer = load_breast_cancer()

In [3]:
df = pd.DataFrame(cancer['data'], columns=cancer['feature_names'])

In [4]:
df["target"] = cancer["target"]

In [5]:
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


# Entrenamiento de un Modelo con Scikit-Learn

En estas líneas de código, se lleva a cabo el proceso de entrenamiento de un modelo de clasificación utilizando Scikit-Learn. Aquí se presenta una descripción resumida de las operaciones realizadas:

1. **División del Conjunto de Datos:**
   - El conjunto de datos original se divide en conjuntos de entrenamiento (train) y prueba (test) utilizando la función `train_test_split`.

2. **Preparación del Conjunto de Prueba:**
   - Se extrae la variable objetivo del conjunto de prueba y se guarda en un archivo CSV llamado 'test-target.csv'. Luego, se elimina la variable objetivo del conjunto de prueba y se guarda en otro archivo CSV llamado 'test.csv'.

3. **División del Conjunto de Entrenamiento:**
   - El conjunto de entrenamiento se divide en subconjuntos de entrenamiento y prueba utilizando la función `train_test_split` nuevamente.

4. **Configuración del Modelo:**
   - Se configura un modelo de clasificación utilizando el algoritmo Random Forest Classifier con parámetros específicos.

5. **Preprocesamiento y Entrenamiento del Modelo:**
   - Se utiliza un preprocesador que incluye un escalador estándar (StandardScaler) dentro de una tubería (Pipeline).
   - El modelo (Random Forest Classifier) se incluye también en una tubería.
   - La tubería completa se entrena con el conjunto de entrenamiento.

En resumen, estas líneas de código representan el proceso de preparación de datos, configuración y entrenamiento de un modelo de clasificación utilizando Random Forest en Scikit-Learn.


In [6]:
df.columns

Index(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error', 'fractal dimension error',
       'worst radius', 'worst texture', 'worst perimeter', 'worst area',
       'worst smoothness', 'worst compactness', 'worst concavity',
       'worst concave points', 'worst symmetry', 'worst fractal dimension',
       'target'],
      dtype='object')

In [7]:
train, test = train_test_split(df, test_size=0.2)

In [8]:
test_target = test['target']



In [9]:
test.to_csv("test.csv", index=False)

In [10]:
features = [x for x in list(train.columns) if x != 'target']


In [11]:
x_raw = train[features]
y_raw = train['target']

In [12]:
x_train, x_test, y_train, y_test = train_test_split(x_raw, y_raw, 
                                                    test_size=.20, 
                                                    random_state=123, 
                                                    stratify=y_raw)

In [13]:
clf = RandomForestClassifier(n_estimators=2, 
                             min_samples_leaf=2, 
                             class_weight='balanced', 
                             random_state=10)

preprocessor = Pipeline(steps=[('scaler', StandardScaler())])

model = Pipeline(steps=[('preprocessor', preprocessor), ('RandomForestClassifier', clf)])

model.fit(x_train, y_train)

accuracy_train = model.score(x_train, y_train)

accuracy_test = model.score(x_test, y_test)

In [14]:
preprocessor = Pipeline(steps=[('scaler', StandardScaler())])

model = Pipeline(steps=[('preprocessor', preprocessor), ('RandomForestClassifier', clf)])

In [15]:
model.fit(x_train, y_train)

In [16]:
accuracy_train = model.score(x_train, y_train)

In [17]:
accuracy_train

0.978021978021978

In [18]:
accuracy_test = model.score(x_test, y_test)

In [19]:
model.get_params()

{'memory': None,
 'steps': [('preprocessor', Pipeline(steps=[('scaler', StandardScaler())])),
  ('RandomForestClassifier',
   RandomForestClassifier(class_weight='balanced', min_samples_leaf=2,
                          n_estimators=2, random_state=10))],
 'transform_input': None,
 'verbose': False,
 'preprocessor': Pipeline(steps=[('scaler', StandardScaler())]),
 'RandomForestClassifier': RandomForestClassifier(class_weight='balanced', min_samples_leaf=2,
                        n_estimators=2, random_state=10),
 'preprocessor__memory': None,
 'preprocessor__steps': [('scaler', StandardScaler())],
 'preprocessor__transform_input': None,
 'preprocessor__verbose': False,
 'preprocessor__scaler': StandardScaler(),
 'preprocessor__scaler__copy': True,
 'preprocessor__scaler__with_mean': True,
 'preprocessor__scaler__with_std': True,
 'RandomForestClassifier__bootstrap': True,
 'RandomForestClassifier__ccp_alpha': 0.0,
 'RandomForestClassifier__class_weight': 'balanced',
 'RandomForestClas

In [20]:
import mlflow

In [23]:
mlflow.set_experiment('Cancer Classifier with Acuracy BD14')
with mlflow.start_run(run_name = 'First training with random state 2'): 
    mlflow.log_metric('accuracy_train', accuracy_train)
    mlflow.log_param('random_state', 10)
    mlflow.log_metric('accuracy_test', '0.1')
    mlflow.sklearn.log_model(model, 'clf')



In [27]:
import pandas as pd
import numpy as np
import mlflow
import time
import mlflow.sklearn
import subprocess
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import accuracy_score

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
df = pd.DataFrame(cancer['data'], columns=cancer['feature_names'])
df['target'] = cancer['target']

# Split data into train and test sets
train, test = train_test_split(df, test_size=0.2)
test_target = test['target']
test[['target']].to_csv('test-target.csv', index=False)
del test['target']
test.to_csv('test.csv', index=False)

features = [x for x in list(train.columns) if x != 'target']
x_raw = train[features]
y_raw = train['target']
x_train, x_test, y_train, y_test = train_test_split(x_raw, y_raw,
                                                    test_size=.20,
                                                    random_state=123,
                                                    stratify=y_raw)

n_estimators = [0,2,10,20,30,50]


mlflow.set_experiment('Prueba desde script')
for i in n_estimators:
  with mlflow.start_run(run_name=f'N_estimador{n_estimators[i]}') as run:
    clf = RandomForestClassifier(n_estimators=i,
                                min_samples_leaf=2,
                                class_weight='balanced',
                                random_state=123)

    preprocessor = Pipeline(steps=[('scaler', StandardScaler())])

    model = Pipeline(steps=[('preprocessor', preprocessor),
                              ('RandomForestClassifier', clf)])
    model.fit(x_train, y_train)
    accuracy_train = model.score(x_train, y_train)
    model.score(x_test, y_test)

    mlflow.log_metric('accuraty_train', accuracy_train)
    mlflow.log_param('n_stimators', i)
    mlflow.sklearn.log_model(model, 'clf-modellll')


InvalidParameterError: The 'n_estimators' parameter of RandomForestClassifier must be an int in the range [1, inf). Got 0 instead.

In [None]:
x_test

In [None]:
import mlflow
logged_model = 'runs:/b0e4f19012584f048eb89b79950983a0/clf'

# Load model as a PyFuncModel.
loaded_model = mlflow.pyfunc.load_model(logged_model)

# Predict on a Pandas DataFrame.
import pandas as pd
loaded_model.predict(x_test)

In [None]:
import mlflow.pyfunc
import pandas as pd

# Configure MLflow tracking URI if necessary
mlflow.set_tracking_uri("http://127.0.0.1:5000")

In [None]:
model_name = "clf-model"
model = mlflow.pyfunc.load_model(f"models:/{model_name}/4")

Automatizamos el proceso en Traning Scripts

Script con argumentos como parametros de entrada 

In [2]:
from fpdf import FPDF
from datetime import datetime

class PDF(FPDF):
    def header(self):
        self.set_font('Arial', 'B', 12)
        self.cell(0, 10, 'FACTURA', 0, 1, 'C')
        self.cell(0, 10, f'Fecha: {datetime.now().strftime("%d/%m/%Y")}', 0, 1, 'C')  # Add the date below "FACTURA"

    def footer(self):
        self.set_y(-15)
        self.set_font('Arial', 'I', 8)
        self.cell(0, 10, f'Página {self.page_no()}', 0, 0, 'C')

def generar_factura():
    datos_empresa = {
        'nombre': 'Keepcoding España, S.L.U.',
        'direccion': 'C/ Mendez Álvaro, Nº 20\n28045, Madrid (Madrid)',
        'cif': 'CIF: B87639951'
    }

    datos_instructor = {
        'nombre': 'Julen Barriga Valles',
        'direccion': 'Calle Panades Numero 8, Piso 9 Puerta 1, Leganes',
        'dni_cif': "DNI/CIF 44574299T",
        'numero_cuenta': 'ES0420955045801068492973',
        'numero_factura': '2025-00001'  # Número de factura agregado
    }

    concepto = 'Modulo Despliegue de Algoritmos'  # Concepto agregado
    horas_trabajo = 8
    precio_hora = 70
    total = horas_trabajo * precio_hora

    irpf = 0.15
    retencion_irpf = total * irpf
    total_con_retencion = total - retencion_irpf

    pdf = PDF()
    pdf.add_page()

    pdf.set_font('Arial', 'B', 12)
    pdf.cell(0, 10, 'Nuestros Datos:', 0, 1)
    pdf.set_font('Arial', '', 12)
    pdf.multi_cell(0, 10, datos_empresa['nombre'] + '\n' + datos_empresa['direccion'] + '\n' + datos_empresa['cif'])

    pdf.ln(10)

    pdf.set_font('Arial', 'B', 12)
    pdf.cell(0, 10, 'Datos del Instructor:', 0, 1)
    pdf.set_font('Arial', '', 12)
    pdf.multi_cell(0, 10, datos_instructor['nombre'] + '\n' + datos_instructor['direccion'] + '\n' + datos_instructor['dni_cif'] + '\n' + 'Número de cuenta: ' + datos_instructor['numero_cuenta'] + '\n' + 'Número de factura: ' + datos_instructor['numero_factura'])  # Agregado número de factura

    pdf.ln(10)

    pdf.set_font('Arial', 'B', 12)
    pdf.cell(100, 10, 'Concepto', 1)
    pdf.cell(30, 10, 'Precio Unitario', 1)
    pdf.cell(30, 10, 'Cantidad', 1)
    pdf.cell(30, 10, 'Total', 1)
    pdf.ln()

    pdf.set_font('Arial', '', 12)
    pdf.cell(100, 10, concepto, 1)  # Agregado concepto
    pdf.cell(30, 10, str(precio_hora), 1)
    pdf.cell(30, 10, str(horas_trabajo), 1)
    pdf.cell(30, 10, str(total), 1)
    pdf.ln()

    pdf.cell(160, 10, 'Subtotal:', 1)
    pdf.cell(30, 10, str(total), 1)
    pdf.ln()

    pdf.cell(160, 10, f'Retención de IRPF ({irpf * 100}%):', 1)
    pdf.cell(30, 10, str(retencion_irpf), 1)
    pdf.ln()

    pdf.cell(160, 10, 'Total:', 1)
    pdf.cell(30, 10, str(total_con_retencion), 1)
    pdf.ln()

    pdf_output = 'factura.pdf'
    pdf.output(pdf_output)

if __name__ == '__main__':
    generar_factura()


In [None]:
pip install fpdf