# **Ciencia de Datos e Inteligencia Artificial para la industria del software**

# *Curso MLOps*

## **Edición 2023**

# Machine Learning Operations (MLOps) - Modulo 1

## *Introducción y preparación del entorno*

## Descripción general del curso

Los **Jupyter Notebooks** ofrecen un entorno cómodo e interactivo para la experimentación, la creación de prototipos y la exploración de datos en proyectos de aprendizaje automático. Sin embargo, cuando se trata de **código a nivel de producción, escalabilidad, colaboración y reproducibilidad, a menudo se recomienda la transición a entornos de desarrollo y flujos de trabajo más robustos.**

<div style="text-align:center;">
    <img src="https://miro.medium.com/v2/resize:fit:300/0*LRL_icO9Ee-2bZTx.png" style="width:200px; height:200px;">
</div>

Algunas de las **desventajas** de trabajar con Jupyter Notebooks son:

* **Falta de escalabilidad:** Los Jupyter Notebooks no son ideales para manejar **grandes conjuntos de datos o tareas computacionalmente intensivas**. Como los cuadernos se ejecutan en un único **núcleo (kernel)**, pueden tener problemas con las limitaciones de **memoria** y los tiempos de ejecución lentos para modelos complejos de aprendizaje automático o grandes conjuntos de datos.

* **Problemas de control de versiones:** Los Jupyter Notebooks **no están diseñados para una integración** perfecta con sistemas de control de versiones como Git. Esto puede dificultar el seguimiento de los cambios, la colaboración con los miembros del equipo o la reversión a versiones anteriores del código.

* **Problemas de reproducibilidad y automatización**: Aunque los Jupyter Notebooks permiten entremezclar código con narraciones y visualizaciones, esto puede dificultar la **reproducción de experimentos**. Para reproducir los resultados de un cuaderno puede ser necesario ejecutar manualmente cada celda en el **orden correcto**, lo que puede dar lugar a errores o incoherencias.

* **Falta de modularidad del código:** Los cuadernos a menudo fomentan un estilo de codificación lineal y exploratorio, que puede conducir a un **código desorganizado e imposible de mantener**. Extraer funciones modulares y reutilizar el código se hace más difícil, ya que los fragmentos de código tienden a estar dispersos por todo el cuaderno.

* **Complejidades de depuración:** La depuración de código en Jupyter Notebooks puede ser **más difícil** en comparación con los editores de código tradicionales. Los errores pueden no mostrarse inmediatamente, lo que hace más difícil identificar y solucionar los problemas, especialmente cuando se trata de complejos flujos de trabajo de aprendizaje automático.

* **Riesgos de seguridad:** Compartir Jupyter Notebooks puede plantear riesgos de seguridad, ya que pueden contener información sensible como **claves API o tokens de acceso**. Si no se toman precauciones, existe el riesgo potencial de exponer datos confidenciales al compartir cuadernos.

* **Falta de optimización del rendimiento:** Los Jupyter Notebooks **no proporcionan herramientas extensas de perfilado y optimización**. Optimizar el rendimiento del código puede requerir pasos y herramientas adicionales fuera del entorno del cuaderno.

<div style="text-align:center;">
    <img src="https://miro.medium.com/v2/resize:fit:828/format:webp/1*fPujKXjpQafMw8UM4AQVYw.png" style="width:500px; height:400px;">
</div>

No solo lo digo yo, tambien lo dice Alexander Mueller en su post [5 reasons why jupyter notebooks suck](https://towardsdatascience.com/5-reasons-why-jupyter-notebooks-suck-4dc201e27086) y Facundo Santiago [Jupyter Notebooks are the devil: Not really!](https://santiagof.medium.com/jupyter-notebooks-are-the-devil-not-really-8196307582e9), entre muchos otros. 

Este curso tiene por objetivo abordar las deficiencias anteriores, mediante la enseñanza de aspectos prácticos de la **producción de servicios de ML** - desde la formación y la experimentación hasta el despliegue del modelo.

#### Origen del Jupyter Notebook

<div style="text-align:center;">
    <img src="https://authorea.com/users/3/articles/6316/master/file/figures/galileo/galileozoom2.png" style="width:600px; height:300px;">
</div>

* Este es un chunk traducido de un texto de Galileo Galilei, el Sidereus Nuncius o el primer cuaderno jupyter.

En el Sidereus Nuncius Galileo anota sus observaciones de las lunas de Júpiter, que le llevaron a la conclusión de que la Tierra orbita alrededor del Sol. Las notas de Galileo incluyen datos (sus dibujos), metadatos (tiempo, meteorología, propiedades del telescopio) y texto en forma de métodos, análisis y conclusiones. Y de eso tratan los cuadernos jupter actuales. Compartir un trabajo científico basado en datos, reuniéndolo todo en un solo documento:

* datos y metadatos 
* código aplicado a los datos 
* texto 
* visualización de los datos

> En esta historia se encuentra basada la creación de los Jupyter Notebooks. 

## Conjunto de datos

El conjunto de datos con el que trabajaremos es uno público de la [Comisión de Taxis y Limusinas de la Ciudad de Nueva York (TLC)](https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page). A lo largo de este curso, haremos referencia a este conjunto de datos para construir, entrenar, experimentar, implementar y monitorear (un proceso conocido colectivamente como **MLOps**) un modelo de regresión lineal que predice la **duración de un viaje en taxi**.

<div style="text-align:center;">
    <img src="https://s.abcnews.com/images/Business/nyc-taxis-gty-rc-200220_hpMain_16x9_992.jpg?w=992" style="width:500px; height:400px;">
</div>

## 1.1 ¿Qué es MLOps?

MLOps, abreviatura de **Operaciones de Aprendizaje Automático (*Machine Learning Operations*)**, se refiere a las **prácticas, metodologías y herramientas** utilizadas para **simplificar y operacionalizar el ciclo de vida de los modelos de aprendizaje automático (ML)**. Su objetivo es cerrar la brecha entre los científicos de datos, quienes desarrollan y entrenan modelos, y los entornos de producción, donde se implementan y mantienen los modelos.

Tradicionalmente, el **desarrollo y la implementación** de modelos de ML se han tratado como **etapas separadas**, lo que conlleva **desafíos** al pasar de la **experimentación a la producción**. MLOps busca **abordar estos desafíos** introduciendo un conjunto de mejores prácticas para la gestión de flujos de trabajo de ML, la colaboración y la automatización.

<div style="text-align:center;">
    <img src="https://it-nova.co/wp-content/uploads/mlops-og.png" style="width:500px; height:400px;">
</div>

Componentes clave y conceptos asociados con MLOps:

* **Control de versiones:** **Aplicar sistemas de control de versiones** (por ejemplo, **Git**) a modelos de ML, código y datos, lo que permite realizar un **seguimiento fácil de los cambios y garantizar la reproducibilidad.**

* **Automatización y orquestación:** Utilizar herramientas de **automatización** para simplificar **tareas repetitivas**, como la preprocesamiento de datos, el entrenamiento del modelo, la evaluación y la implementación. Los marcos de orquestación, como Kubeflow o Apache Airflow, ayudan a gestionar flujos de trabajo complejos (**Prefect**).

* **Integración Continua y Despliegue Continuo (CI/CD):** **Adaptar los principios de CI/CD del desarrollo de software al ML**, lo que permite actualizaciones y despliegues frecuentes y automatizados de modelos.

* **Gestión de infraestructura y entorno:** Utilizar herramientas como **Docker** y Kubernetes para contenerizar modelos de ML y gestionar entornos escalables y reproducibles en diferentes etapas, desde el **desarrollo hasta la producción.**

* **Monitoreo y gestión de modelos:** Implementar soluciones de **monitoreo para hacer un seguimiento del rendimiento del modelo, detectar anomalías y garantizar que los modelos sigan siendo efectivos con el tiempo.** Esto incluye registrar métricas relevantes y volver a entrenar modelos cuando sea necesario.

* **Colaboración y reproducibilidad:** Establecer **buenas prácticas** para compartir código, datos y resultados de experimentos, lo que permite la colaboración entre científicos de datos y garantiza la reproducibilidad de los flujos de trabajo de ML.

* **Gobierno y cumplimiento:** Abordar **consideraciones éticas y legales**, como la privacidad de los datos, la mitigación de sesgos y el cumplimiento normativo, a lo largo del ciclo de vida del ML.

Al adoptar prácticas de MLOps, las organizaciones pueden mejorar la eficiencia, escalabilidad y confiabilidad de sus implementaciones de ML. Promueve un enfoque sistemático para **gestionar modelos de ML**, acelera el tiempo de llegada al mercado y facilita la colaboración entre diferentes partes interesadas involucradas en el desarrollo e implementación de ML.

![](https://github.com/boisalai/mlops-zoomcamp-2023/raw/main/images/mlops-loop-en.jpg)

## 1.2 Preparación del Entorno

### Paso 1

Descarga e instala un IDE. Los siguientes son los [editores o entornos de desarrollo (IDE)](https://realpython.com/lessons/ides-vs-code-editors/) más populares para Python:

- [Vim/NeoVim con *fisa-vim-config*](https://vim.fisadev.com/).
- [Emacs con Python mode](https://www.emacswiki.org/emacs/PythonProgrammingInEmacs).
- [Sublime Text](https://www.sublimetext.com/).
- [Atom](https://atom.io/).
- [VisualStudio Code](https://code.visualstudio.com/) (hay que instalar extensiones para cada lenguaje).
- [PyCharm](https://www.jetbrains.com/pycharm/) (IDE).
- [Geany](https://www.geany.org/).
- [Spyder](https://www.spyder-ide.org/) (IDE).

**Yo recomiendo Visual Studio Code**

<div style="text-align:center;">
    <img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRjSdAo5fR-0VpJLOnfGf-dZhaEZHfnfwml6mDAPMakqv0xvjwcrLl1x3--1pKsB3hUBXY&usqp=CAU" style="width:300px; height:200px;">
</div>

### Paso 2

Descarga e instala el comando wget

[Descargar wget](https://eternallybored.org/misc/wget/)

Para determinar la versión de Windows:

- Versión: x86, x64 o ARM64: Ir a Información del sistema > Resumen del sistema > Tipo de sistema.

* Descarga Wget en Windows

Para instalar y configurar wget en Windows:

1. Descarga wget para Windows e instala el paquete.
2. Copia el archivo wget.exe en la carpeta C:\Windows\System32 de tu sistema.
3. Abre el símbolo del sistema (cmd.exe) y ejecuta "wget" para comprobar si está instalado.

[Más información](https://www.jcchouinard.com/wget/)

<div style="text-align:center;">
    <img src="https://www.booleanworld.com/wp-content/uploads/2018/06/wget-cover-300x256@2x.png?ezimgfmt=ngcb20/notWebP" style="width:200px; height:200px;">
</div>

### Paso 3

- [Descargar Git](https://git-scm.com/download)

- [Crear una cuenta en GitHub](GitHub.com)

- Conectar tu cuenta de GitHub a tu cuenta de Git.

[Sigue este tutorial](https://www.freecodecamp.org/news/introduction-to-git-and-github/)

<div style="text-align:center;">
    <img src="https://www.freecodecamp.org/news/content/images/size/w1000/2022/07/git-github.png" style="width:300px; height:200px;">
</div>

### Paso 4

Descarga e instala la distribución Anaconda de Python

[Pagina alternativa para realizar la descarga](https://www.anaconda.com/download)

```bash
wget https://repo.anaconda.com/archive/Anaconda3-2023.07-2-Windows-x86_64.exe
```

### Paso 5

Instala las extensiones de VScode para Python y Jupyter Notebook.

[Siga las instrucciones para instalar el soporte de Jupyter Notebook en Visual Studio Code](https://towardsdatascience.com/installing-jupyter-notebook-support-in-visual-studio-code-91887d644c5d)

[Instrucciones alternativas](https://saturncloud.io/blog/how-to-work-with-jupyter-notebook-in-visual-studio-code/#:~:text=The%20first%20step%20to%20working,from%20the%20list%20of%20results.)

### Paso 6

Crea un nuevo entorno conda llamado "mlops2023".

Para crear un nuevo entorno conda llamado "mlops2023" con Python 3.10, ejecuta el siguiente comando:

```bash
conda update -n base -c defaults conda
```

```bash
conda create -n mlops2023 python=3.9.7
```

<div style="text-align:center;">
    <img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcR4tU8X0-BuBGB7Hnx_UhxYyLthmW1_y0moHUp8gYdpNkMdJt0FkXuMQX-GigaUzoSVQlI&usqp=CAU" style="width:500px; height:400px;">
</div>

### Paso 7

Clona el repositorio de GitHub donde se encuentra subido el material del curso.

Para clonar un repositorio de GitHub, utiliza el siguiente comando en tu línea de comandos:

```bash
git clone https://github.com/martinnnuez/Curso-MLOps-2023.git
```

### Paso 8

Instala las dependencias especificadas en el archivo `requirements.txt`:

Así se crea un requirements.txt:

*pip list --format=freeze > requirements.txt*

```bash
conda activate mlops2023
pip install -r requirements.txt
```

Si no tienes instalado pip, debes instalarlo: 

```bash
conda install pip
```

```bash
conda install -c anaconda pip
```

[Más información](https://datumorphism.leima.is/til/programming/python/python-anaconda-install-requirements/)

[Como instalar pip](https://www.geeksforgeeks.org/how-to-install-pip-on-windows/)

**En caso de no poder como consecuencia de alguna problematica relacionada a pip, probar:**

```bash
conda activate mlops2023
conda install -c anaconda pandas seaborn matplotlib scikit-learn mlflow xgboost pathlib scipy httpx flask requests
```

```bash
conda config --add channels conda-forge
conda config --set channel_priority strict

conda install prefect
```

```bash
conda install hyperopt
```

```bash
conda install -c trentonoliphant datetime
```

Si alguno de los anteriores canales no funciona, deberas instalarlos utilizando pip. 

```bash
pip install prefect hyperopt datetime pyarrow fastparquet  
```

Tambien podrías instalar todo con pip: 

```bash
pip install anaconda pandas seaborn matplotlib scikit-learn mlflow xgboost pathlib scipy httpx flask requests prefect hyperopt datetime pyarrow fastparquet  
```

**Librerias necesarias:**
* pandas 
* seaborn 
* matplotlib
* scikit-learn
* mlflow
* xgboost
* hyperopt
* datetime
* pathlib
* scipy
* prefect
* httpx
* flask
* requests
* pyarrow 
* fastparquet  

Si surge este error: 

Running cells with 'mlops2023' requires the ipykernel package.
Run the following command to install 'ipykernel' into the Python environment. 
Command: 'conda install -n mlops2023 ipykernel --update-deps --force-reinstall'

Podrias solucionarlo con:
 

```bash
pip install ipython ipykernel
```