# Unidad 1 - 04 Trabajo Práctico: Flujo de trabajo en ML

El primer TP consistirá en seguir la notebook, no habrá mucho para resolver pero sí para aprender.

## 1. Herramientas de trabajo

### 1. 1 Scikit-learn

En este TP implementaremos la herramienta scikit-learn, a la cual accederemos a través de Python. Esta herramienta permite hacer muchos cálculos con una simple función. La estructura de scikit-learn está, al igual que el lenguaje Python, orientada a objetos (https://es.wikipedia.org/wiki/Programación_orientada_a_objetos).

Scikit-learn es muy popular pues tiene ya incorporadas funciones muy útiles y sólo hay que importarlas. No se precisa escribir códio para definir conceptos matemáticos o estadísticos, ya está hecho por nosotrxs y está testeado y documentado exhaustivamente (https://www.researchgate.net/publication/51969319_Scikit-learn_Machine_Learning_in_Python).


### 1.2 Datasets

Usaremos los siguientes datasets:

- California housing dataset

MÁS INFO EN https://www.kaggle.com/datasets/camnugent/california-housing-prices

- Ames housing dataset

MÁS INFO EN https://www.kaggle.com/datasets/marcopale/housing

- Boston housing dataset

NO lo usaremos por razones éticas que, entre otra bibliografía, pueden leerse en la descripción cuando corre el siguiente código:

from sklearn.datasets import load_boston

boston  = load_boston()


## 2. Flujo de trabajo

Habrá que ir siguiendo los pasos, para ir incorporando el flujo de trabajo.

### 2.1 PASO 1: obener los datos

Cabe aclarar que los datos que se obtienen de fuentes del mundo real no están "limpios", en el sentido de que no están preparados para el análisis. Por suerte, los datos que ya vienen incluidos en paquetes como el de scikit-learn, ya están preparados para su uso inmediato.

Este paso es, en general, muy tedioso, lleva mucho esfuerzo y muchas horas. Se calcula que lleva, desde la obtención de los datos hasta la limpieza de los mismos, el 80% del tiempo en el flujo de trabajo. Como no es la parte que nos interese, este paso para nostrxs será muy simple.

In [1]:
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()

### 2.2 PASO 2: crear las variables características (features) y objetivo (target)

En este paso guardaremos las características (features) y objetivos (target) en distintas variables para que el código sea más comprensible y luego podamos pasar rápidamente a las funciones que las utilizan separadamente.

Para esto usaremos el paquete de pandas para Python, que guarda datos de filas y columnas en un objeto llamado DataFrame.

Cuando trabajamos con datos guardados en un DataFrame (algo parecido a una matriz), es útil nombrar las columnas.

In [2]:
import pandas as pd
features = pd.DataFrame(
    data = housing.data,
    columns = housing.feature_names)
target = housing.target

### 2.3 PASO 3: descomponer el dataset en entrenamiento y testeo

Separamos el dataset en dos partes: entrenamiento y testeo. Scikit-learn tiene una función que lo hace, pues es un procedimiento bastante común. Esta función se llama train_test_split.

Hemos elegido para este caso usar 80% de los datos para entrenar (¿dónde aparece esta elección en el código?).

La función train_test_split devuelve una cuaterna ordenada consistente de: características de entrenamiento (training features), características de testeo (test features), objetivos de entrenamiento (training targets) y objetivos de testeo (test targets).


In [3]:
from sklearn.model_selection import train_test_split
(X_training, X_test, y_training, y_test ) = train_test_split(features, target, train_size = 0.8)

### 2.4 PASO 4: crear y entrenar un modelo a partir del dataset de entrenamiento

A partir de los datos, creamos y entrenamos nuestro modelo.

Esta parte es iterativa, en este caso la haremos simple y automatizada.

Para ir aprendiendo un poco más sobre scikit-learn, veremos lo siguiente: scikit-learn se basa en la noción de Pipeline, que no tiene una traducción adecuada (literalmente significa "tubería"), pero que se utiliza en la arquitectura de programas para referirse al recurso de tareas conectadas secuencialmente (o en paralelo) para el procesamiento de los datos. Es decir, son cadenas de funciones compuestas a través de las cales pasan datos de una a la siguiente.

En nuestro caso, la pipeline tendrá sólo dos pasos, pero tengamos en cuenta que pueden tener muchos.

La primera función en el pipeline es SelectKBest, con k=5. Esta función elige las 5 características (features) del training dataset que son más útiles para predecir el target, y por defecto usa la F-estadística usada en análisis de varianza (aunque se pueden especificar otras medidas).

La segunda función en el pipeline toma esas 5 features crea un modelo lineal.

Una pipeline que culmina entrenando (fitting) un modelo se llama un estimador (estimator) en la jerga de scikit-learn, en contraste con una pipeline que meramente modifica los datos, y se llama transformador (transformer).

El siguiente código entrena elmodelo sólo con los datos de entrenamiento y guarda el resultado en una variable llamada fit_model.


In [4]:
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest
from sklearn.linear_model import LinearRegression
estimator = Pipeline([('select', SelectKBest(k=5)),('model',LinearRegression())])
fit_model = estimator.fit(X=X_training, y=y_training)

### 2.5 PASO 5: evaluar el modelo

En este paso evaluamos el modelo aplicándolo al dataset de testeo.

En este caso el concepto estadístico usado es MSE (error medio al cuadrado, "mean squared error") y ya está definido en scikit-learn. Y como queremos su raíz, elevamos a la 1/2.

In [5]:
predictions = fit_model.predict(X=X_test)
from sklearn.metrics import mean_squared_error
print(mean_squared_error(y_test, predictions)**0.5)

0.7427563699204726


### 3. EJERCITACIÓN

A continuación proponemos ejercicios para familiarizarnos con buscar, seleccionar, implementar, etc. Tenemos todo a nuestro alcance, hay que aprender a elegir qué buscar, dónde buscarlo, cómo usarlo, etc.

1) Interpretar las salidas "prediction" y el valor que da el error.

2) Realizar el flujo de trabajo para el AMES housing dataset. Observar que hay que buscar en la documentación para cargarlo desde scikit-learn.

3) Dado que en el pipeline sólo hicimos dos pasos, extenderlo a un modelo más complejo agregando pasos. Para esto puede agregarse, por ejemplo, un paso que utilice SVM para transformar una o más variables. Investigar cuál podría ser otra función posible para agregar al pipeline, e implementarlo.


---


Estas notebooks corresponden a la asignatura electiva para la Licenciatura en Matemática del Departamento de Matemática de la Escuela de Cs. Exactas y Naturales, de la Facultad de Cs. Exactas, Ingenieria y Agrimensura (FCEIA) de la Universidad Nacional de Rosario, Argentina. Año 2023.

Fueron confeccionadas a tal fin por las docentes investigadoras de la FCEIA Isolda Cardoso y Jorgelina Walpen. Este trabajo de análisis, estudio, recopilación, traducción, armado, pruebas y errores, nos ha llevado mucho tiempo. Cuando hay tanta información disponible es complicado extraer lo que, al menos para nosotras, es relevante. Hay muchísimos otros recursos y tutoriales, nosotras armamos este.

Si estas notebooks son reproducidas, solicitamos citar la fuente.

Dejamos nuestras páginas laborales y repositorios de GitHub. Seguramente en un futuro las pondremos a disposición en el Repositorio Hipermedial de la UNR.

Isolda: Te dejo mi página laboral https://www.fceia.unr.edu.ar/~isolda/ y mi GitHub https://github.com/IsoldaEugenia. Sentite libre de contactarme.

Jorgelina: https://www.fceia.unr.edu.ar/~walpen/ y  https://github.com/JorWalpen