 <img src="images/logo_anzen_.png" alt="Drawing" style="width:1000px;"/>

# Pipelines  y   Workflow de un proyecto



## Motivación

La mayoría de los proyectos de ciencia de datos tienen el mismo conjunto de tareas:

1. __ETL__ : extraer datos de su fuente, transformarlos y luego cargarlos en una base de datos. Recuerde, ETL son las siglas de Extract , Transform and Load .
2. __Datos de preprocesamiento__: esto puede incluir imputar valores perdidos y elegir los conjuntos de entrenamiento y prueba.
3. __Crear características__ : vuelva a combinar y enriquezca los datos para crear características que ayuden al trabajo de modelado.
4. __Entrenar modelos__ : puede probar diferentes algoritmos, funciones, etc.
5. __Evalúe el rendimiento en el conjunto de pruebas__: utilizando una métrica adecuada (por ejemplo, $Precision$, $Recall$, $AUC$), examine el rendimiento de su modelo "fuera de la muestra".
6. Piense en cosas nuevas para probar. Repita los pasos 1 a 4 según corresponda.

Si el código base no está estructurado y tiene un nombre adecuado, es posible que tenga dificultades para recordar los detalles de cada paso una vez que haya creado algunos modelos. ¿Qué funciones usaste para cada uno? ¿Qué entrenamiento y pruebas se dividen? ¿Qué hiperparámetros?

Su código también puede estar desordenado. ¿Sobrescribiste el código del modelo anterior? Quizás copió, pegó y editó código de un modelo anterior. ¿Todavía puedes leer lo que hay allí? Puede convertirse rápidamente en una mezcolanza que requiere heroísmo para descifrar.

En esta sesión, presentaremos un flujo de trabajo que puede evitar (o al menos reducir) estos problemas.

## Data pipelines

Es útil estructurar los datos en varias capas. En las bases de datos, una capa se expresa como esquema. En la mayoría de los demás formatos, se expresan mediante una estructura de directorio.

### Raw
Los datos que recibimos de los _partners_ y _external sources_ es el _Raw_. Los datos brutos son inmutables. Citando del popular _framework_ para creación de _pipelines_  __Data Science Cookiecutter__ :

''' Don't ever edit your raw data, especially not manually, and especially not in Excel. Don't overwrite your raw data. Don't save multiple versions of the raw data. Treat the data (and its format) as immutable. The code you write should move the raw data through a pipeline to your final analysis. You shouldn't have to run all of the steps every time you want to make a new figure (see Analysis is a DAG), but anyone should be able to reproduce the final products with only the code in src and the data in data/raw. '''

### Capa intermedia
Si los datos sin procesar son desordenados, es recomendable crear una capa intermedia que consista en copias ordenadas de los datos sin procesar. Las situaciones típicas en las que esto es útil son:

Los datos se reciben en varios tipos de archivos diferentes
Los campos de datos no están escritos (por ejemplo, archivos csv, excel) o están mal escritos (fechas como cadenas, formatos de fecha inconsistentes)
Los nombres de las columnas no son claros, tienen espacios, caracteres especiales o no hay nombres de columna.
Las transformaciones de crudo a intermedio deben limitarse para solucionar los problemas mencionados anteriormente. No debemos combinar diferentes conjuntos de datos ni crear campos calculados. Esto está reservado para la siguiente capa.

Los formatos de almacenamiento típicos para la capa intermedia son una base de datos (por ejemplo postgres) o archivos parquet.


### Preprocesado
Para realizar el trabajo de modelado, los datos de entrada deben combinarse y enriquecerse, por ejemplo, creando características. Los conjuntos de datos que se crean en este proceso se almacenan en la capa procesada. A veces puede resultar útil dividir esta capa en un modelo de datos de dominio, una capa de entidades y una capa maestra, pero la capa exacta dependerá del contexto del proyecto.


### Modelos

Los datos procesados se utilizan para entrenar modelos predictivos, modelos explicativos, motores de recomendación y algoritmos de optimización. Los modelos entrenados se almacenan en la capa del modelo. A diferencia de las capas anteriores, los modelos generalmente se almacenan pickleporque no están en formato tabular.

### Salida del modelo
Las métricas de rendimiento del modelo, la información de selección del modelo y las predicciones se mantienen en la capa de salida del modelo.

### Reporting

Los informes se pueden realizar en todo el proceso. Por ejemplo, puede haber informes de calidad de datos sobre las entradas, análisis de distribución de los datos procesados, predicciones, explicaciones, recomendaciones que se brindan al usuario y evaluación y seguimiento del desempeño. Si se construye un front-end, accederá a la capa de informes para mostrar información a los usuarios y desarrolladores. Por ejemplo, un tablero de _Tableau_, _power BI_, un cuaderno _jupyter_ o un resultado de _Excel_ se leerán desde la capa de informes. En consecuencia, el formato de los datos en la capa de informes se ajustará al front-end de su elección.



<img src="images/data_pipeline.png" width="90%">

# Configuración 

El repositorio de código reflejará la canalización de datos creando la estructura de carpetas correspondiente para los archivos de Python.

Además, hay muchos otros archivos que deben almacenarse y administrarse. La comunidad ha llegado a una configuración estándar de los directorios del proyecto que también seguiremos.

Estructura de directorios:

├── LICENSE
├── README.md          <- The top-level README for developers using this project.
├── conf
│   ├── base           <- Space for shared configurations like parameters
│   └── local          <- Space for local configurations, usually credentials
│
├── data
│   ├── 01_raw         <- Imutable input data
│   ├── 02_intermediate<- Cleaned version of raw
│   ├── 03_processed   <- The data used for modelling
│   ├── 04_models      <- trained models
│   ├── 05_model_output<- model output
│   └── 06_reporting   <- Reports and input to frontend
│
├── docs               <- Space for Sphinx documentation
│
├── notebooks          <- Jupyter notebooks. Naming convention is date YYYYMMDD (for ordering),
│                         the creator's initials, and a short '-' delimited description, e.g.
│                         '20190601-jqp-initial-data-exploration'.
│
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
│
├── results            <- Intermediate analysis as HTML, PDF, LaTeX, etc.
│
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with 'pip freeze > requirements.txt'
│
├── .gitignore         <- Avoids uploading data, credentials, outputs, system files etc
│
└── src                <- Source code for use in this project.
    ├── __init__.py    <- Makes src a Python module
    │
    ├── d00_utils      <- Functions used across the project
    │   └── remove_accents.py
    │
    ├── d01_data       <- Scripts to reading and writing data etc
    │   └── load_data.py
    │
    ├── d02_intermediate<- Scripts to transform data from raw to intermediate
    │   └── create_int_payment_data.py
    │
    ├── d03_processing <- Scripts to turn intermediate data into modelling input
    │   └── create_master_table.py
    │
    ├── d04_modelling  <- Scripts to train models and then use trained models to make
    │   │                 predictions
    │   └── train_model.py
    │
    ├── d05_model_evaluation<- Scripts that analyse model performance and model selection
    │   └── calculate_performance_metrics.py
    │    
    ├── d06_reporting  <- Scripts to produce reporting tables
    │   └── create_rpt_payment_summary.py
    │
    └── d07_visualisation<- Scripts to create frequently used plots
        └── visualise_patient_journey.py

## Flujo de trabajo y experimentación


El flujo de trabajo típico para desarrollar código es el siguiente:

+ Código de prototipo en un cuaderno jupyter
+ Mueva el código a una función que toma datos y parámetros como entradas y devuelve los datos procesados ​​o el modelo entrenado como salida.
+ Pruebe la función en el cuaderno jupyter
+ Mueva la función a la carpeta src
+ Importar la función en el cuaderno jupyter
+ Prueba que la función está funcionando

Las funciones se pueden importar a un cuaderno de la siguiente manera. Primero le decimos al portátil dónde están las funciones

In [8]:
import os
import sys
src_dir = os.path.join(os.getcwd(), '..', 'src')
sys.path.append(src_dir)

Luego indicamos qué funciones importar

In [10]:
# from d00_utils.my_fun import my_fun

## Code pipeline

El código que produce las diferentes capas de la canalización de datos debe abstraerse en funciones.

Una canalización de código es un conjunto de código que maneja todas las tareas computacionales que su proyecto necesita de principio a fin. La canalización más simple es un conjunto de funciones encadenadas.

Por ejemplo,

In [12]:
#int_data = create_int_data(raw_data)
#pro_drug_features = create_pro_drug_features(int_data)
#pro_patient_features = create_pro_patient_features(int_data)
#pro_master_table = create_pro_master_table(pro_drug_features, pro_patient_features)
#model = train_model(pro_master_table)
#rpt_report = produce_report(model)

Este es un ejemplo muy esquemático. Normalmente, cada paso se divide en varios subconjuntos que crean canalizaciones para cada capa de la canalización de datos. La canalización de un extremo a otro es entonces la concatenación de las subcadenas.

### Ejemplo 1

A continuación, se muestra un ejemplo sencillo de una canalización que utiliza `scikit-learnel` utilizando el conjunto de datos de _Boston_:


<img src="images/boston_pipeline.png" width="100%">

puedes leer la guia completa de `Pipelines` para `scikit-learnel` : https://scikit-learn.org/stable/modules/compose.html#pipeline

Esta canalización tiene dos pasos. El primero, denominado "preprocesamiento", prepara los datos para el modelado mediante la creación de divisiones de entrenamiento y prueba. El segundo, que se denomina "modelos, predicciones y métricas", utiliza los datos preprocesados ​​para entrenar modelos, hacer predicciones e imprimir $ R ^ 2 $ en el conjunto de prueba. La tubería toma entradas (por ejemplo, datos, proporciones de entrenamiento / prueba y tipos de modelos) en un extremo y produce salidas ( precisión ) en el otro extremo.

Obviamente, este análisis está incompleto, pero el proceso es un buen comienzo. Debido a que usamos el mismo código y datos, podemos ejecutar la canalización de principio a fin y obtener los mismos resultados. Y debido a que dividimos la canalización en funciones, podemos identificar dónde falla la canalización y mejorar la canalización una función a la vez. (Cada función solo necesita usar las mismas entradas y salidas que antes).

También tenga en cuenta la función y los bucles en la segunda parte de la canalización. Somos algo agnósticos sobre los métodos que usamos. Si funciona, ¡genial! Esta estructura nos permite recorrer muchos tipos de modelos utilizando los mismos datos preprocesados ​​y las mismas predicciones y métricas. Facilita la adición de nuevos métodos y la comparación de resultados, y nos ayuda a centrarnos en otras partes del proceso, como la generación de funciones.