![logo](images/logo_mds.png)

# Proceso Analítico de Negocio

El esquema de un proceso analítico se ha trabajado en la sesión 3 del máster. En ella se hizo un recorrido básico del proceso que debe seguirse desde que empezamos un proyecto de análisis de datos hasta que obtenemos el resultado.

A lo largo del máster, este proceso se ha ido repasando en diferentes sesiones y se ha ido profundizando en qué significa analizar.

De cara a la elaboración del trabajo final de máster, se realiza un repaso de los diferentes pasos que debemos dar para llevar a cabo un proceso analítico con éxito.

## Pre-Análisis

Esta fase incluye la preparación del proceso de análisis, el objetivo es familiarizarnos con los datos de los que disponemos:

1. Qué empresa queremos analizar
    1. A qué se dedica
    1. Cuántos empleados tiene
    1. En qué países opera
    1. ...
1. ¿Cómo trabaja?
    1. Proyectos
    1. Centros de venta
    1. Soporte
    1. ...
1. Con qué datos contamos
    1. Facturación
    1. Contabilidad
    1. Personas
    1. ...
1. Qué aspecto tienen los datos
    1. Análisis de datos Exploratorio (EDA) utilizando python o PowerBI
    1. Visualizaciones básicas de datos en cuánto a histogramas, cuartiles,...
    
## Planteamiento de hipótesis

Aunque a veces es difícil poder plantear hipótesis en este punto del análisis, es conveniente empezar a realizar algunas preguntas que querramos contrastar después.

La naturaleza de las hipótesis que planteamos debe ser acorde al tipo de datos que tenemos, si tenemos datos históricos las hipótesis deberán poder validarse hacia el histórico, si vamos a estar trabajando con esta empresa en el futuro podemos plantear la creacion de experimentos A/B a realizar en vivo.

Algunas hipótesis que pueden plantearse en este punto son:
1. La venta varía en función de la tienda
1. Podemos predecir las unidades que venderemos
1. Existen correlaciones en la venta de productos
1. Es posible reducir el coste reorganizando los departamentos
1. Hay productos / clientes mejores que otros


Las hipótesis planteadas deberían encaminar el tipo de análisis que vamos a realizar:
1. La venta varía en función de la tienda y queremos saber por qué => regresión
1. La venta varía en función de la tienda y queremos saber cuál es mejor => clasificación
1. Podemos predecir... => series temporales
1. Existen correlaciones... => clasificación / clusterización
1. Es posible reducir ... => simulación / optimización
1. Hay ... mejores que otros => Scoring / rankings

## Selección del modelo

Una vez hemos realizado algunas hipótesis deberíamos tener hasta cierto punto claro a qué tipo de análisis nos encaminamos; es decir, cuál será nuestro modelo analítico principal.

1. Seleccionar el tipo de modelo a aplicar
1. Preparar nuestro juego de datos para utilizarlo como entrada
1. Determinar el algoritmo más adecuado para nuestro problema particular
1. Determinar los parámetros a utilizar


## Preparación de datos

La selección del modelo analítico inicial implica la necesidad de realizar determinadas transformaciones en los datos. Las más habituales son:
1. Regresión / Clasificación / Clusterización
    1. One-Hot encoding o similares (categóricas a binarias)
    1. Codificaciones ordinales (categórica a ordinal)
    1. Bucketización (conversión de variable continua a categórica / discreta)
    1. Reducción de la dimensionalidad
    1. Normalización / estandarización
    1. Tratamiento de nulos
1. Series temporales
    1. Tratamiento de valores nulos
    1. Etiquetado de serie temporal (adición de eventos,...)
1. Simulación
    1. Obtención de distribuciones base
    1. Hipótesis de funcionamiento del sistema
1. Optimización
    1. Definición de restricciones
    
En ocasiones, para llegar a nuestro modelo final es necesario crear otros previos, por ejemplo, un modelo de scoring que sirva como parámetro de entrada (o salida) para un modelo de regresión.

También, en función de si nuestro objetivo es supervisado o no supervisado, será necesario clasificar de forma manual parte de la muestra (si no lo está).

## Evaluación del modelo

Evaluar la calidad del modelo en función del tipo:
1. Regresión => ajuste
1. Series temporales => predicción / error y tipos de errores
1. Clasificación => precisión / error y tipos de errores 
1. Clusterización => cohesión interna de los clústers, ¿podemos crear vocabulario en función de los clústers?
1. Optimización => cumplimiento de las restricciones, viabilidad
1. Simulación => viabilidad de la solución, profundizar en aspectos de la simulación

En todos los modelos:
1. Sesgos
1. ¿Mejoras posibles?
1. Validación estadística de los resultados (p-valor, por ejemplo).

## Obtención de conclusiones

Una vez se ha aplicado el modelo debemos utilizarlo para obtener conclusiones en términos de negocio.

Esta parte es fundamental en la elaboración de un análisis, si no somos capaces de convertir nuestros resultados en acciones de negocio entonces el análisis no ha servido para nada (a nivel empresa).

## Visualización de resultados

Además de las conclusiones de negocio a las que se haya llegado es importante que tengamos algún medio visual que sintetice parte de los resultados totales. 

Puede tratarse de una aplicación tipo cuadro de mando en PowerBI o una infografía, ...

## Sesgos

1. **Selección**: cuando escogemos una fuente de datos nos ligamos a ella, ¿qué podemos estar dejándonos fuera al seleccionar esta fuente?
1. **Auto-selección**: comentarios en páginas web, valoraciones, los pone quien quiere, muchas veces con propósitos de visibilidad propia.
1. **Observador**: Utilizamos nuestro conocimiento previo para escoger fuentes sin realizar una búsqueda exhaustiva (suponer que todo el mundo utiliza la plataforma X sin comprobar...)
1. **Supervivencia**: La información de la que disponemos ha pasado por filtros previos que no controlamos y no sabemos cuántos datos se han perdido por el camino (comentarios moderados...)
1. **Cognitivo**: Tendencia a infravalorar datos porque no coinciden con nuestras ideas preconcebidas (otros sesgos similares son confirmación y creencia).

## Modelo de referencia: Domino's Data Science Life Cycle

![dominos](images/dominos.png)

# Racionalizando el análisis

A lo largo del máster se han visto diferentes técnicas con ejemplos muy dirigidos en los que tratábamos de obtener un resultado particular.

Por ello, en general, no se ha prestado demasiada atención a la organización completa del trabajo y a cómo estructurar nuestro código para realizar un análisis más largo.

Cuando lo que queremos es conseguir tener un trabajo en producción debemos ser muy cuidadosos con nuestros cuadernos para evitar tener un código inmanejable, algunas recomendaciones generales:
1. Utilizar las celdas de texto para explicar qué queremos hacer
1. Separar nuestro cuaderno claramente en bloques (lectura de datos, preparación de datos, análisis, evaluación, visualización,...)
1. Separar parte del código, si es posible a ficheros python independientes
1. Utilizar pipelines
1. Seguir un proceso adecuado de registro de ejecuciones, sobre todo en la fase de establecimiento de los parámetros de los modelos

Algunos de estos puntos requieren de nuestra experiencia pero, para otros, podemos ayuarnos en librerías específicas.


## Separar código a ficheros independientes

Python no exige que todo nuestro código esté en nuestro cuaderno.

Igual que leemos librerías como *pandas*, podemos leer ficheros propios que contengan las partes de nuestro análisis que sean menos propensas al cambio (inicialización de variables, importación de librerías,...)

A continuación mostraremos un ejemplo que importa un fichero "test_importacion.py" a nuestro cuaderno, el contenido de este fichero es el siguiente:

> def duplicar(numero):
>     return numero * 2



In [1]:
# Fijaos que no ponemos la extensión del fichero
import test_importar

print(test_importar.duplicar(10))

20


Si queremos evitar estar repitiendo el nombre de la librería podemos utilizar (no recomendado):

In [2]:
from test_importar import *

print(duplicar(10))

20


## Utilizar pipelines 

Un pipeline de análisis realiza la labor de director de orquesta asegurándose de que todos los pasos del análisis se ejecutan en el orden correcto.

Utilizaremos el fichero *CasoDelicia.xlsx* que conocemos bien del primer trimestre del curso:


In [3]:
import pandas as pd

df = pd.read_excel('./CasoDelicia.xlsx')

mapeo = {
    'Pedido': 'PEDIDO_ID',
    'Año': 'FY_ID',
    'Producto': 'PRODUCTO_ID',
    'Zona': 'ZONA_ID',
    'Cliente_ID': 'CLIENTE_ID',
    'Tns': 'TNS',
    'Ingresos (€)': 'EUR'
}

df.rename(mapper=mapeo, axis=1, inplace=True)

df['EUR_TON'] = df['EUR'] / df['TNS']

df.groupby(by='PRODUCTO_ID')['EUR_TON'].mean()

PRODUCTO_ID
Algas       612.297909
Belleza    3266.108127
Setas       723.221134
Name: EUR_TON, dtype: float64

Para convertir este código en un pipeline tenemos primero que crear funciones.

Estas funciones deben aceptar y devolver el mismo tipo de datos

In [7]:
import pandas as pd

def leer_datos():
    df = pd.read_excel('./CasoDelicia.xlsx')
    return df

def renombrar_columnas(df):
    mapeo = {
        'Pedido': 'PEDIDO_ID',
        'Año': 'FY_ID',
        'Producto': 'PRODUCTO_ID',
        'Zona': 'ZONA_ID',
        'Cliente_ID': 'CLIENTE_ID',
        'Tns': 'TNS',
        'Ingresos (€)': 'EUR'
    }

    return df.rename(mapper=mapeo, axis=1)

def calcular_eur_ton(df):
    df['EUR_TON'] = df['EUR'] / df['TNS']
    return df

def agregar(df, nivel_agregacion = 'PRODUCTO_ID', columnas_agregadas=['EUR_TON'], funciones=['mean']):
    group = df.groupby(by = nivel_agregacion)[columnas_agregadas].agg(funciones)
    return group




paso_1 = leer_datos()
paso_2 = renombrar_columnas(paso_1)
paso_3 = calcular_eur_ton(paso_2)
paso_4 = agregar(paso_3)

paso_4


Unnamed: 0_level_0,EUR_TON
Unnamed: 0_level_1,mean
PRODUCTO_ID,Unnamed: 1_level_2
Algas,612.297909
Belleza,3266.108127
Setas,723.221134


En modo pipeline tendríamos el siguiente código:

In [5]:
def ejecutar_pipeline(pipeline):
    df = pipeline[0]()
    for proceso in pipeline[1:]:
        df = proceso(df)
    return df


pipeline = [
    leer_datos,
    renombrar_columnas,
    calcular_eur_ton,
    agregar
]

df = ejecutar_pipeline(pipeline)

df

Unnamed: 0_level_0,EUR_TON
Unnamed: 0_level_1,mean
PRODUCTO_ID,Unnamed: 1_level_2
Algas,612.297909
Belleza,3266.108127
Setas,723.221134


Aunque este proceso puede parecer mucho más complejo que el anterior, en realidad hemos ganado en flexibilidad ya que, con este nuevo método intercambiar pasos en el procesado de datos o añadir nuevas etapas es trivial.

Como "bonus" este proceso facilitaría pasar esas funciones a un fichero .py que importásemos y dejar en nuestro cuaderno únicamente la ejecución del pipeline.



## ColumnTransformer sklearn

En sesiones anteriores, utilizamos, con **sklearn** codificadores sobre las columnas de nuestros dataframes; utilizar estos codificadores tenía una sintaxis muy repetitiva.

Esta sintaxis sigue el mismo patrón para que podamos utilizar los transformadores de sklearn de una forma más limpia, a través de un pipeline llamadao "ColumnTransformer".
 
Para ver cómo funciona recuperamos un ejemplo de clasificación con estudiantes de matemáticas:
 

In [1]:
import sklearn 
sklearn.__version__

'0.24.2'

In [4]:
# Importación y configuración de librerías
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler, Normalizer

# Leemos el CSV (está separado con ;)
df = pd.read_csv('./student-mat.csv', sep=';')

# Vamos a realizar las siguientes transformaciones:
# OneHotEncoder: school, sex, address, famsize, Mjob, Fjob, reason, Medu, Fedu, guardian, ...

ct = ColumnTransformer([
    ('school_ohe_', OneHotEncoder(), ['school']),
    ('sex_ohe_', OneHotEncoder(), ['sex']),
    ('address_ohe_', OneHotEncoder(), ['address']),
    ('famsize_ohe_', OneHotEncoder(), ['famsize']),
    ('Mjob_ohe_', OneHotEncoder(), ['Mjob']),
    ('Fjob_ohe_', OneHotEncoder(), ['Fjob']),
    ('reason_ohe_', OneHotEncoder(), ['reason']),
    ('Medu_ohe_', OneHotEncoder(), ['Medu']),
    ('Fedu_ohe_', OneHotEncoder(), ['Fedu']),
    ('guardian_ohe_', OneHotEncoder(), ['guardian']),
    ('schoolsup_ohe', OneHotEncoder(), ['schoolsup']),
    ('famsup_ohe', OneHotEncoder(), ['famsup']),
    ('paid_ohe', OneHotEncoder(), ['paid']),
    ('activities_ohe', OneHotEncoder(), ['activities']),
    ('nursery_ohe', OneHotEncoder(), ['nursery']),
    ('higher_ohe', OneHotEncoder(), ['higher']),
    ('internet_ohe', OneHotEncoder(), ['internet']),
    ('romantic_ohe', OneHotEncoder(), ['romantic']),
    ('Pstatus_ohe', OneHotEncoder(), ['Pstatus'])
    
], remainder='passthrough')
    
df = pd.DataFrame(ct.fit_transform(df), columns = ct.get_feature_names())




In [5]:
pd.options.display.max_columns = 999
df


Unnamed: 0,school_ohe___x0_GP,school_ohe___x0_MS,sex_ohe___x0_F,sex_ohe___x0_M,address_ohe___x0_R,address_ohe___x0_U,famsize_ohe___x0_GT3,famsize_ohe___x0_LE3,Mjob_ohe___x0_at_home,Mjob_ohe___x0_health,Mjob_ohe___x0_other,Mjob_ohe___x0_services,Mjob_ohe___x0_teacher,Fjob_ohe___x0_at_home,Fjob_ohe___x0_health,Fjob_ohe___x0_other,Fjob_ohe___x0_services,Fjob_ohe___x0_teacher,reason_ohe___x0_course,reason_ohe___x0_home,reason_ohe___x0_other,reason_ohe___x0_reputation,Medu_ohe___x0_0,Medu_ohe___x0_1,Medu_ohe___x0_2,Medu_ohe___x0_3,Medu_ohe___x0_4,Fedu_ohe___x0_0,Fedu_ohe___x0_1,Fedu_ohe___x0_2,Fedu_ohe___x0_3,Fedu_ohe___x0_4,guardian_ohe___x0_father,guardian_ohe___x0_mother,guardian_ohe___x0_other,schoolsup_ohe__x0_no,schoolsup_ohe__x0_yes,famsup_ohe__x0_no,famsup_ohe__x0_yes,paid_ohe__x0_no,paid_ohe__x0_yes,activities_ohe__x0_no,activities_ohe__x0_yes,nursery_ohe__x0_no,nursery_ohe__x0_yes,higher_ohe__x0_no,higher_ohe__x0_yes,internet_ohe__x0_no,internet_ohe__x0_yes,romantic_ohe__x0_no,romantic_ohe__x0_yes,Pstatus_ohe__x0_A,Pstatus_ohe__x0_T,age,traveltime,studytime,failures,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,1.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,18.0,2.0,2.0,0.0,4.0,3.0,4.0,1.0,1.0,3.0,6.0,5.0,6.0,6.0
1,1.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,17.0,1.0,2.0,0.0,5.0,3.0,3.0,1.0,1.0,3.0,4.0,5.0,5.0,6.0
2,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,15.0,1.0,2.0,3.0,4.0,3.0,2.0,2.0,3.0,3.0,10.0,7.0,8.0,10.0
3,1.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,15.0,1.0,3.0,0.0,3.0,2.0,2.0,1.0,1.0,5.0,2.0,15.0,14.0,15.0
4,1.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0,16.0,1.0,2.0,0.0,4.0,3.0,2.0,1.0,2.0,5.0,4.0,6.0,10.0,10.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,20.0,1.0,2.0,2.0,5.0,5.0,4.0,4.0,5.0,4.0,11.0,9.0,9.0,9.0
391,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,17.0,2.0,1.0,0.0,2.0,4.0,5.0,3.0,4.0,2.0,3.0,14.0,16.0,16.0
392,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0,21.0,1.0,1.0,3.0,5.0,5.0,3.0,3.0,3.0,3.0,3.0,10.0,8.0,7.0
393,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,18.0,3.0,1.0,0.0,4.0,4.0,1.0,3.0,4.0,5.0,0.0,11.0,12.0,10.0


## Sklearn Pipeline

Además del transformador de columnas sklearn tiene otro pipeline que permite aplicar transformaciones que cumplan dos condiciones:
1. Todas las transformaciones pueden aplicar el método fit
1. Todas las transformaciones menos la última pueden aplicar el método transform

De esta forma vemos que lo que hace el Pipeline es aplicar una serie de transformaciones y un estimador final.

Su ventaja principal es que aplica todas las transformaciones y permite pasar un conjunto de entrenamiento y uno de test y realiza todos los pasos de forma automática, siguiendo con el ejemplo:


In [9]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

pasos = [
    #('normalizar', MinMaxScaler()),
    #('reducir', PCA()),
    ('regresor', LinearRegression())
        ]

X = df.drop(columns=['G3']).copy()
y = df['G3'].copy()

pipe = Pipeline(pasos)

X_train, X_test, y_train, y_test = train_test_split(X, y)

pipe.fit(X_train, y_train)

pipe.score(X_test, y_test)

0.7840837945598074

Al igual que en nuestro pipeline que se utilizó de ejemplo para el tratamiento de un df la ventaja debe verse desde el punto de vista de la claridad a la hora de organizar y leer el código y no porque sea necesariamente más corto escribirlo.

# MLflow

Otra utilidad que podemos utilizar para mejorar la calidad de nuestro proceso analítico es mlflow.

Los objetivos de MLflow son:
* Realizar el seguimiento de ejecuciones de proyectos de machine learning
* Definir proyectos de Machine Learning y ejecutarlos con diferentes parámetros de entrada
* Distribuir modelos de ML en una variedad de plataformas
* Proporcionar un repositorio central para trabajar de forma colaborativa con proyectos de ML

Podemos ver que lo que MLflow ofrece va mucho más allá de lo que necesitamos en el máster. En cualquier caso, se trata de una librería muy popular y está integrada, por ejemplo, con DataBricks en la plataforma Azure.

Para instalar mlflow debemos utilizar **pip** (de momento no selleva bien con conda)

> pip install mlflow

Una vez está instalada podemos utilizarlo en nuestras ejecuciones. En este cuaderno veremos únicamente la utilización de MLflow para el seguimiento de ejecuciones de procesos analíticos.

Para comprobar su funcionamiento recuperaremos un ejemplo de clasificación con SVM que vimos en las clases de segmentación.

En este ejemplo tratábamos de buscar el kernel y parámetros que nos den el mejor resultado para nuestros datos:

In [10]:
from sklearn.svm import SVC
from sklearn import metrics
from sklearn.datasets import load_iris

kernels = ['rbf', 'poly',  'sigmoid']

d = load_iris()

x = d.data
y = d.target
    
for k in kernels:
    for C in [0.25, 0.5, 0.75, 1,1.5, 2]:
        for gamma in ['auto', 'scale']:
            svc = SVC(kernel = k, C=C, gamma=gamma)
            svc.fit(x, y)
            print(f'Kernel: {k}, C:{C}, gamma:{gamma}, acc: {int(metrics.accuracy_score(y, svc.predict(x)) * 10000)/100}')

Kernel: rbf, C:0.25, gamma:auto, acc: 96.66
Kernel: rbf, C:0.25, gamma:scale, acc: 96.0
Kernel: rbf, C:0.5, gamma:auto, acc: 97.33
Kernel: rbf, C:0.5, gamma:scale, acc: 96.0
Kernel: rbf, C:0.75, gamma:auto, acc: 98.66
Kernel: rbf, C:0.75, gamma:scale, acc: 97.33
Kernel: rbf, C:1, gamma:auto, acc: 98.66
Kernel: rbf, C:1, gamma:scale, acc: 97.33
Kernel: rbf, C:1.5, gamma:auto, acc: 98.66
Kernel: rbf, C:1.5, gamma:scale, acc: 98.0
Kernel: rbf, C:2, gamma:auto, acc: 99.33
Kernel: rbf, C:2, gamma:scale, acc: 98.66
Kernel: poly, C:0.25, gamma:auto, acc: 98.0
Kernel: poly, C:0.25, gamma:scale, acc: 98.0
Kernel: poly, C:0.5, gamma:auto, acc: 98.0
Kernel: poly, C:0.5, gamma:scale, acc: 97.33
Kernel: poly, C:0.75, gamma:auto, acc: 98.0
Kernel: poly, C:0.75, gamma:scale, acc: 98.0
Kernel: poly, C:1, gamma:auto, acc: 98.0
Kernel: poly, C:1, gamma:scale, acc: 97.33
Kernel: poly, C:1.5, gamma:auto, acc: 98.0
Kernel: poly, C:1.5, gamma:scale, acc: 98.66
Kernel: poly, C:2, gamma:auto, acc: 98.66
Kerne

Antes de empezar es importante señalar que MLflow tiene múltiples modos de trabajo (con base de datos, con servidores de tracking,...), nosotros nos quedaremos con la versión estándar que guarda los datos en una carpeta donde está nuestro código y nos permite acceder a ellos mediante un navegador:

In [1]:
from sklearn.svm import SVC
from sklearn import metrics
from sklearn.datasets import load_iris
import mlflow

kernels = ['rbf', 'poly',  'sigmoid']

d = load_iris()

x = d.data
y = d.target
    
    
for k in kernels:
    for C in [0.25, 0.5, 0.75, 1,1.5, 2]:
        for gamma in ['auto', 'scale']:
            mlflow.start_run()
            mlflow.log_param('k', k)
            mlflow.log_param('C', C)
            mlflow.log_param('gamma', gamma)
            
            svc = SVC(kernel = k, C=C, gamma=gamma)
            
            svc.fit(x, y)
            
            mlflow.log_metric('score', metrics.accuracy_score(y, svc.predict(x)))
            
            mlflow.end_run()

Una vez hemos ejecutado el proceso podemos ver los resultados mediante el navegador, para ello tenemos que hacer un paso previo:
> En la ventana del explorador de windows buscamos todos los ficheros "desktop.ini" que existan en nuestra carpeta mlruns y los borramos

Una vez están borrados, abrimos una línea de comandos y ejecutamos:

> mlflow ui

Eso inicia un servidor web en el que podemos consultar las ejecuciones que hemos logueado accediendo a la página:

[web mlflow ui](http://localhost:5000)

Las ejecuciones tienen el siguiente aspecto:

![ejecuciones](images/ejecuciones_mlflow.png)

Podemos filtrar y comparar las ejecuciones, por ejemplo para los kernels poly y rbf:
![filtro](images/mlflow_filtro.png)

Y, al pulsar en comparar, obtenemos:

![score](images/mlflow_score.png)