<img src = "https://drive.google.com/uc?export=view&id=10mKgunAZowpvpttdYdjoDeCM2RSMGXer" alt = "Encabezado MLDS" width = "100%">  </img>

# **Taller 2: Herramientas y utilidades**
---

En este notebook evaluaremos los conceptos aprendidos sobre herramientas y utilidades.

Ejecute las siguientes celdas para conectarse a UNCode:

In [6]:
!pip install dvc dvc-gdrive
!pip install mlflow
!apt install tree git

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tree is already the newest version (2.0.2-1).
git is already the newest version (1:2.34.1-1ubuntu1.10).
0 upgraded, 0 newly installed, 0 to remove and 45 not upgraded.


Ejecute la siguiente celda para instalar algunas librerías y configurar el servidor de `mlflow`.

Importamos las librerías necesarias:

In [7]:
# Librerías de utilidad para manipulación y visualización de datos.
!pip install -U scikit-learn
import os
import mlflow
import pandas as pd
import subprocess
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from IPython import get_ipython
from IPython.display import display

# Ignorar warnings.
import warnings
warnings.filterwarnings('ignore')



In [8]:
# Versiones de las librerías usadas.
import sklearn
import dvc
!python --version
print('MLflow', mlflow.__version__)
print('Scikit-learn', sklearn.__version__)
print('DVC', dvc.__version__)

Python 3.10.12
MLflow 2.12.1
Scikit-learn 1.4.2
DVC 3.50.1


Esta actividad se realizó con las siguientes versiones:
*  Python 3.10.11
*  MLflow 2.1.0
*  Scikit-learn 1.2.2
*  DVC 2.56.0

In [9]:
!pip install rlxcrypt
!wget --no-cache -O session.pye -q https://raw.githubusercontent.com/JuezUN/INGInious/master/external%20libs/session.pye



In [5]:
import rlxcrypt
import session

grader = session.LoginSequence("MAPEDDACML-GroupMLDS-6-2024-1@eb637dc7-1b91-41eb-ab55-8a3e3918889e")

Please enter your password: ··········


> **La tarea es incremental, por lo tanto es recomendable resolver los puntos en orden**

## **1. Inicialización del Repositorio**
---

En este punto debe inicializar un repositorio de `git`. Ejecute la siguiente celda rellenando la información para identificarse:

In [10]:
!git config --global user.email "jssaavedraa@unal.edu.co"
!git config --global user.name "Serebas12"
!git config --global init.defaultBranch master

Una vez realizado el *login*, usted deberá realizar los siguientes pasos:

1. Crear una carpeta llamada `myrepo`.
2. Moverse dentro de la carpeta creada.
3. Inicializar el repositorio con `git`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>

* Recuerde que con `mkdir` puede crear carpetas.
</details>

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>

* El comando `%cd` es necesario para movimientos dentro de linux.
</details>

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 3</b></font>
</summary>

* Recuerde que dentro de un terminal, el comando `git` le permite realizar cualquier operación con un repositorio.
</details>

In [None]:
#TEST_CELL
"""
    Descomente esta celda si lo requiere
    Este comando borrará el directorio myrepo
    si existe en el directorio actual
"""
# ![ -d myrepo ] && rm -rf myrepo

In [11]:
# INGRESE SU CÓDIGO AQUÍ
!mkdir 'myrepo'
%cd 'myrepo'
!git init

/content/myrepo
Initialized empty Git repository in /content/myrepo/.git/


Use las siguientes celdas para probar su solución:

In [12]:
#TEST_CELL
!pwd | awk -F '/' '{print $NF}'

myrepo


**Salida esperada**

En este caso debería obtener el nombre del repositorio:

```python
❱ !pwd | awk -F '/' '{print $NF}'
myrepo
```

In [13]:
#TEST_CELL
!git status

On branch master

No commits yet

nothing to commit (create/copy files and use "git add" to track)


**Salida esperada**

En este caso se valida que estemos dentro de un repositorio de `git`.

```python
❱ !git status
On branch main

No commits yet

nothing to commit (create/copy files and use "git add" to track)
```

#### **Evaluar código**

> **Esta celda debe ser ejecutada obligatoriamente antes de evaluar el ejercicio**

In [14]:
result = subprocess.run(['pwd'], stdout=subprocess.PIPE)
current_directory = result.stdout.decode('utf-8').strip().split('/')[-1]

In [15]:
grader.run_test("Test 1_1", globals())

Test 1_1


## **2. Versionamiento de Datos**
---
En este caso utilizaremos un conjunto de datos que contiene información sobre la edad y la estatura de niños. El conjunto de datos lo encuentra en la siguiente URL:

> [https://raw.githubusercontent.com/mindlab-unal/mlds6-datasets/main/u2/children_age.parquet](https://raw.githubusercontent.com/mindlab-unal/mlds6-datasets/main/u2/children_age.parquet)

### **2.1. Inicialización de DVC**
---

En este punto deberá:

1. Crear una carpeta con el nombre `data`.
2. Inicializar el repositorio de `dvc`.

In [None]:
#TEST_CELL
"""
    Descomente esta celda si lo requiere
    Este comando borrará el directorio data
    si existe en el directorio actual
"""
# ![ -d data ] && rm -rf data

In [16]:
# INGRESE SU CÓDIGO AQUÍ
!mkdir 'data'
!dvc init

Initialized DVC repository.

You can now commit the changes to git.

+---------------------------------------------------------------------+
|                                                                     |
|        DVC has enabled anonymous aggregate usage analytics.         |
|     Read the analytics documentation (and how to opt-out) here:     |
|             <https://dvc.org/doc/user-guide/analytics>              |
|                                                                     |
+---------------------------------------------------------------------+

What's next?
------------
- Check out the documentation: <https://dvc.org/doc>
- Get help and share ideas: <https://dvc.org/chat>
- Star us on GitHub: <https://github.com/iterative/dvc>


Use las siguientes celdas para probar su solución:

In [17]:
#TEST_CELL
import subprocess
!ls -a

.  ..  data  .dvc  .dvcignore  .git


**Salida esperada**

En este caso debería obtener los archivos dentro del repositorio:

```python
❱ !ls -a
.  ..  data  .dvc  .dvcignore  .git
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Recuerde que con `mkdir` puede crear carpetas.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* Recuerde que dentro de un terminal, el comando `dvc` le permite realizar cualquier operación con los datos.

#### **Evaluar código**

> **Esta celda debe ser ejecutada obligatoriamente antes de evaluar el ejercicio**

In [18]:
dvc_comm = subprocess.check_output(['ls', '-a'])
dvc_directory = dvc_comm.decode('utf-8').splitlines()

In [19]:
grader.run_test("Test 2_1", globals())

Test 2_1


### **2.2. Descarga del Conjunto de Datos**
---

En este punto deberá:

1. Descargar el conjunto de datos, el cual contiene información sobre la edad de niños y niñas y sus alturas.
<center><img src = "https://drive.google.com/uc?export=view&id=19eSPuglYKDOvH0DemEJaPCfTTwSAfUpF" alt = "Encabezado MLDS" width = "80%">  </img></center>
2. Registrarlo con `dvc`.
3. Crear un commit en `git` con el siguiente mensaje: `Versión inicial del conjunto de datos`

In [23]:
# INGRESE SU CÓDIGO AQUÍ
!wget https://raw.githubusercontent.com/mindlab-unal/mlds6-datasets/main/u2/children_age.parquet -O children_age.parquet
!dvc add children_age.parquet
!git commit -m "Versión inicial del conjunto de datos"

--2024-05-05 21:38:28--  https://raw.githubusercontent.com/mindlab-unal/mlds6-datasets/main/u2/children_age.parquet
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 20838 (20K) [application/octet-stream]
Saving to: ‘children_age.parquet’


2024-05-05 21:38:28 (3.18 MB/s) - ‘children_age.parquet’ saved [20838/20838]

[?25l⠋ Checking graph
Adding...:   0% 0/1 [00:00<?, ?file/s{'info': ''}]
!
          |0.00 [00:00,     ?file/s]
                                    
!
  0% |          |0/? [00:00<?,    ?files/s]
                                           
Adding children_age.parquet to cache:   0% 0/1 [00:00<?, ?file/s]
Adding children_age.parquet to cache:   0% 0/1 [00:00<?, ?file/s{'info': ''}]
                                                                   

Use las siguientes celdas para probar su solución:

In [31]:
#TEST_CELL
import subprocess
!ls -a data/

.  ..  children_age.parquet  children_age.parquet.dvc  .gitignore


**Salida esperada**

En este caso debería obtener los archivos dentro de la carpeta de datos.

```python
❱ !ls -a data/
.  ..  children_age.parquet  children_age.parquet.dvc  .gitignore
```

In [26]:
#TEST_CELL
!git log -1 --pretty=format:%s

Versión inicial del conjunto de datos

**Salida esperada**

En este caso obtendrá el mensaje del último commit:

```python
❱ !git log -1 --pretty=format:%s
Versión inicial del conjunto de datos
```

Cargamos el conjunto de datos:

In [32]:
#TEST_CELL
data = pd.read_parquet("data/children_age.parquet")
display(data.head())

Unnamed: 0,age,height
0,7.5033,91.379984
1,6.561946,111.510033
2,7.555379,116.724103
3,12.900155,146.281398
4,10.618378,144.644949


<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Recuerde que puede descargar archivos con el comando `wget`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* Recuerde que desde un terminal puede usar el comando `dvc` para interactuar con la herramienta.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 3</b></font>
</summary>


* Puede usar el comando `git add -A` para mover todos los archivos al area de preparación.

#### **Evaluar código**

> **Esta celda debe ser ejecutada obligatoriamente antes de evaluar el ejercicio**

In [33]:
data_directory = subprocess.check_output(['ls', '-a', 'data/'])
s_data_directory_dvc = data_directory.decode('utf-8').splitlines()

In [34]:
grader.run_test("Test 2_2", globals())

Test 2_2


## **3. Modelamiento**
---

En este punto deberá entrenar un modelo de regresión sobre los datos y versionar el modelo con `mlflow`.

Para esto, iniciamos el servidor de `mlflow`:

In [35]:
command = """
mlflow server \
        --backend-store-uri sqlite:///tracking.db \
        --default-artifact-root file:mlruns \
        -p 5000 &
"""
get_ipython().system_raw(command)

Instalamos `ngrok`:

In [36]:
!pip install pyngrok

Collecting pyngrok
  Downloading pyngrok-7.1.6-py3-none-any.whl (22 kB)
Installing collected packages: pyngrok
Successfully installed pyngrok-7.1.6


Debe reemplazar el token en la siguiente variable:

In [37]:
token = "2g3elaQlzc0qSVIqOJWR4rApSoT_2TSiaCTXVnsD2LzY2LLYk" # Agregue el token dentro de las comillas
os.environ["NGROK_TOKEN"] = token

Nos autenticamos en ngrok:

In [38]:
!ngrok authtoken $NGROK_TOKEN

Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml


Ahora, lanzamos la conexión con ngrok:

In [39]:
from pyngrok import ngrok
ngrok.connect(5000, "http")

<NgrokTunnel: "https://61ca-35-236-156-49.ngrok-free.app" -> "http://localhost:5000">

Especificamos que MLFlow debe usar el servidor que estamos manejando.

In [40]:
mlflow.set_tracking_uri("http://localhost:5000")

### **3.1. Creación del Experimento**
---

Cree un experimento con el nombre `children` y con una ruta para artefactos ubicada en la carpeta `mlruns`. Esto debe quedar almacenado en la variable `exp_id`:

In [41]:
# INGRESE SU CÓDIGO AQUÍ
try:
    exp_id = mlflow.create_experiment(name="children", artifact_location="mlruns/")
except:
    print("Revise que el código sea correcto, el experimento únicamente se puede crear una vez (evite correr el código varias veces)")

Use las siguientes celdas para probar su solución:

In [42]:
#TEST_CELL
experiment = mlflow.get_experiment_by_name("children")
print(experiment.name)
print(experiment.artifact_location.split("/")[-1])

children
mlruns


**Salida esperada**

Este caso obtiene el nombre del experimento y la ruta de los artefactos:

```python
❱ print(experiment.name)
children

❱ print(experiment.artifact_location.split("/")[-1])
mlruns
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Un experimento se crea con la función `create_experiment` de `mlflow`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* El experimento lo debe crear una única vez, no pueden haber nombres repetidos.

#### **Evaluar código**

In [43]:
grader.run_test("Test 3_1", globals())

Test 3_1


### **3.2. Entrenamiento del modelo**
---

Implemente una función que permita entrenar un modelo de regresión lineal en `sklearn` para predecir la estatura (`height`) en función de la edad de un niño (`age`). Esta función deberá retornar el modelo entrenado y el valor del $r^2$.

Para esto tiene que implementar la función `linear_reg` la cual toma como entrada los datos y retorna el modelo y la métrica.

**Parametros**

- `df`: conjunto de datos como un `pd.DataFrame`.

**Retorna**

- `model`: modelo entrenado.
- `score`: $r^2$.

In [63]:
# FUNCIÓN CALIFICADA linear_reg:
def linear_reg(df):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    from sklearn.linear_model import LinearRegression
    from sklearn.metrics import r2_score

    model = LinearRegression()
    model.fit(df.age.values.reshape(-1,1), df.height.values.reshape(-1,1))
    predic= model.predict(df.age.values.reshape(-1,1))
    score =  r2_score(df.height.values.reshape(-1,1) , predic)
    return model, score
    ### FIN DEL CÓDIGO ###

Use las siguientes celdas para probar su solución:

In [64]:
#TEST_CELL
model, score = linear_reg(data)
print(model.coef_)
print(model.intercept_)
print(score)

[[7.99838893]]
[50.08623866]
0.9431512177265906


**Salida esperada**

En este caso debería obtener los parámetros del modelo y la métrica de desempeño:

```python
❱ print(model.coef_)
[7.99838893]

❱ print(model.intercept_)
50.08623865698938

❱ print(score)
0.9431512177265906
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Recuerde que un modelo de regresión lineal en `sklearn` se usa con la clase `LinearRegression`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* Recuerde que puede evaluar el $r^2$ en modelos de regresión con el método `score`.

#### **Evaluar código**

In [65]:
grader.run_test("Test 3_2", globals())

Test 3_2


### **3.3. Ejecución en mlflow**
---

En este punto deberá crear una ejecución donde registre el modelo y la métrica obtenida. Para esto deberá crear una ejecución con el nombre `linear` dado el experimento correspondiente.

Debe implementar la función `mlflow_run`, la cual toma como entrada los datos y un experimento; esta debe registrar el modelo bajo el nombre `model` y la métrica bajo el nombre de `score`.

**Parámetros**
---

- `df`: conjunto de datos como un `pd.DataFrame`.
- `exp`: experimento de `mlflow`.

**Retorna**
---

- `run`: ejecución de `mlflow`.

In [83]:
# FUNCIÓN CALIFICADA mlflow_run:
def mlflow_run(df, exp):
    ### ESCRIBA SU CÓDIGO AQUÍ ###

    run = mlflow.start_run(
      experiment_id = exp,
      run_name="linear"
      )

    model, score = linear_reg(df)

    mlflow.log_metrics({
        "score": score
        })

    mlflow.sklearn.log_model(model, "model")

    mlflow.end_run()

    return run
    ### FIN DEL CÓDIGO ###

Use las siguientes celdas para probar su solución:

In [80]:
#TEST_CELL
run = mlflow_run(data, experiment.experiment_id)
print(run.info.run_name)



linear


**Salida esperada**

Esta prueba permite obtener el nombre de la ejecución:

```python
❱ print(run.info.run_name)
linear
```

In [81]:
#TEST_CELL
run = mlflow_run(data, experiment.experiment_id)
path = run.info.artifact_uri
print(os.listdir(path))

['model']


**Salida esperada**

Esta prueba permite obtener el artefacto del modelo entrenado.

```python
❱ print(os.listdir(path))
['model']
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Puede crear una ejecución con la función `mlflow.start_run`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* Recuerde usar la función `end_run` antes de terminar la ejecución.

#### **Evaluar código**

In [86]:
grader.run_test("Test 3_3", globals())

Test 3_3


# **Evaluación**

In [87]:
grader.submit_task(globals())

Test 1_1
Test 2_1
Test 2_2
Test 3_1
Test 3_2
Test 3_3


# **Recursos Adicionales**
---

- _Fuente de los íconos_
    - Freepik. Niños dibujados a mano de regreso a la escuela [AI]. https://www.freepik.es/vector-gratis/ninos-dibujados-mano-regreso-escuela_8925986.htm
    - Freepik. Set de personajes de estilo kawaii [AI]. https://www.freepik.es/vector-gratis/set-personajes-estilo-kawaii_4280240.htm
    - Freepik. Colección de jóvenes [AI]. https://www.freepik.es/vector-gratis/coleccion-jovenes_7035486.htm
    - Freepik. Conjunto de banners horizontales planos de hierba verde [JPG]. https://www.freepik.es/vector-gratis/conjunto-banners-horizontales-planos-hierba-verde_2875612.htm
    - Freepik. Niños de regreso a la escuela en diseño plano [AI]. https://www.freepik.es/vector-gratis/ninos-regreso-escuela-diseno-plano_9158409.htm

# **Créditos**
---

* **Profesor:** [Jorge E. Camargo, PhD](https://dis.unal.edu.co/~jecamargom/).

* **Asistentes docentes:** [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
  - [Rosa Alejandra Superlano Esquibel](https://www.linkedin.com/in/alejandra-superlano-02b74313a/).
  - [Mario Andrés Rodríguez Triana](mailto:mrodrigueztr@unal.edu.co).

* **Coordinador de virtualización:** [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*