<a href="https://colab.research.google.com/github/nferrucho/NPL/blob/main/curso3/ciclo1/M6U1_Taller_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src = "https://drive.google.com/uc?export=view&id=1li4ahmMhPo2cEUVqQKRDA9ahHp2py4Xb" alt = "Encabezado MLDS" width = "100%">  </img>

# **Taller 1: Metodologías de *Machine Learning***
---

En este notebook evaluaremos los conceptos aprendidos sobre metodologías de *machine learning*.

Ejecute las siguientes celdas para conectarse a UNCode:

In [None]:
!pip install rlxcrypt

In [None]:
!wget --no-cache -O session.pye -q https://raw.githubusercontent.com/JuezUN/INGInious/master/external%20libs/session.pye

In [None]:
import rlxcrypt
import session

grader = session.LoginSequence("MAPEDDACML-GroupMLDS-6-2024-2@ca999324-7b21-4051-9203-11d1c2e5204d")

Ejecute la siguiente celda para importar y configurar las librerías usadas :

In [None]:
# Librerías de utilidad para manipulación y visualización de datos.
!pip install -U scikit-learn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display

# Ignorar warnings.
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Versiones de las librerías usadas.
import sklearn
!python --version
print('Scikit-learn', sklearn.__version__)

Esta actividad se realizó con las siguientes versiones:
*  Python 3.10.11
*  Scikit-learn 1.2.2

## **Cargar los datos**
---
En este caso utilizaremos el conjunto de datos [Mobile Phone Price](https://www.kaggle.com/datasets/rkiattisak/mobile-phone-price), el cual contiene distintas características de celulares con el fin de estimar su precio.

<center><img src = "https://drive.google.com/uc?export=view&id=14TyKQ8y9hrCvcPtmmU3leF5kt3uwvKUj" alt = "Encabezado MLDS" width = "100%">  </img></center>

Este conjunto cuenta con las siguientes columnas:

- `Brand`: marca del celular.
- `Storage`: capacidad de almacenamiento.
- `RAM `: cantidad de memoria RAM.
- `Screen Size (inches)` tamaño de la pantalla.
- `Battery Capacity (mAh)`: capacidad de la memoria.
- `Price ($)`: precio.

Comenzamos cargándolo:

In [None]:
data = pd.read_parquet("https://raw.githubusercontent.com/mindlab-unal/mlds6-datasets/main/u1/cellphone.parquet")

La idea de este taller es entrenar un modelo para predicción de precios de celular siguiendo la metodología CRISP-DM.

In [None]:
display(data.columns)

**Salida esperada**

```python
Index(['Brand', 'Storage ', 'RAM ', 'Screen Size (inches)',
       'Battery Capacity (mAh)', 'Price ($)'],
      dtype='object')
```

Tenemos entonces las 6 columnas con las cuales vamos a trabajar.

> **La tarea es incremental, por lo tanto es recomendable resolver los puntos en orden**

## **1. Entendimiento del Negocio**
---

El entendimiento del negocio es fundamental al desarrollar un modelo de predicción de precios de celulares basado en sus características técnicas. En primer lugar, es importante comprender el mercado de celulares y cómo los precios pueden verse afectados por factores como la demanda, la oferta, la competencia y las tendencias de la industria. También es importante conocer los distintos tipos de clientes que compran teléfonos móviles y qué características son más importantes para cada uno de ellos. Por ejemplo, algunos clientes pueden priorizar la calidad de la cámara, mientras que otros pueden estar más interesados en la duración de la batería.

Una vez que se comprende el negocio, se puede comenzar a identificar las variables relevantes para el modelo. Estas variables pueden incluir características técnicas como la memoria RAM, la capacidad de almacenamiento, el tamaño de la pantalla y la velocidad del procesador. También es posible que se deban considerar variables más amplias, como la marca y el modelo del teléfono, así como factores externos como el momento del lanzamiento del modelo y las tendencias del mercado.

Es importante tener en cuenta que las variables seleccionadas para el modelo deben ser fácilmente medibles y cuantificables. Por ejemplo, el tamaño de la pantalla se puede medir en pulgadas, mientras que la marca del teléfono se puede codificar como una variable binaria. Además, es fundamental asegurarse de que las variables seleccionadas no estén altamente correlacionadas entre sí, ya que esto podría afectar negativamente la precisión del modelo.

Una vez que se han seleccionado las variables relevantes, es importante analizar la relación entre ellas y el precio del teléfono. Esto se puede hacer utilizando técnicas de análisis de correlación y regresión. El objetivo de este análisis es determinar cuáles variables tienen la mayor influencia en el precio del teléfono y cómo se relacionan entre sí. Esto permitirá construir un modelo preciso y robusto que pueda predecir con precisión el precio de un teléfono dado su conjunto de características técnicas.

## **2. Entendimiento de los Datos**
---
En este punto desarrollaremos distintas actividades para entender un poco más el conjunto de datos.

### **2.1. Variables Endogenas y Exogenas**
---

En este punto debe seleccionar y separar las variables de acuerdo a la función que van a tener dentro del modelo. Recuerde que:

- **Variable endogena**: variable estimada por el modelo.
- **Variable exogena**: variables independientes o características

Debe implementar la funcion `endog_exog`, la cual debe seleccionar las variables correspondientes de acuerdo al objetivo del negocio.

**Parámetros**:

- `df`: `pd.DataFrame` con el dataset.

**Retorna**

- `endog`: `pd.Series` con la variable endogena.
- `exog`: `pd.DataFrame` con las variables exógenas.

In [None]:
# FUNCIÓN CALIFICADA endog_exog:
def endog_exog(df):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    endog, exog = ..., ...
    return endog, exog
    ### FIN DEL CÓDIGO ###

Use las siguientes celdas para probar su solución:

In [None]:
#TEST_CELL
endog, exog = endog_exog(data)
display(endog.shape)

**Salida esperada**:

```python
❱ display(endog.shape)
(407,)
```

In [None]:
#TEST_CELL
display(exog.shape)

**Salida esperada**:

```python
❱ display(exog.shape)
(407, 5)
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Puede volver a leer el texto de la sección Entendimiento del negocio para identificar las variables correspondientes.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* Recuerde que únicamente hay una variable endogena.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 3</b></font>
</summary>


* Valide que el tipo de la variable endogena sea un pd.Series y no un pd.DataFrame.

#### **Evaluar código**

In [None]:
grader.run_test("Test 2_1", globals())

### **2.2. Distribución de Variables**
---

En este punto debe calcular los conteos de los valores que hay en una columna específica del conjunto de datos. Con esto buscamos identificar si hay datos que deban ser tratados y tipos de columnas (numéricas y categóricas).

Para esto deberá implementar la función `desc_var`, la cual debe tomar una columna del conjunto de datos y sacar los conteos de sus valores únicos.

**Parámetros**:

- `df`: `pd.DataFrame` con el conjunto de datos.
- `col`: columna a seleccionar.

**Retorna**

- `counts`: `pd.Series` con los conteos de los valores únicos en la columna correspondiente.

In [None]:
# FUNCIÓN CALIFICADA desc_var:
def desc_var(df, col):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    counts = ...
    return counts
    ### FIN DEL CÓDIGO ###

Use las siguientes celdas para probar su solución:

In [None]:
#TEST_CELL
counts = desc_var(data, "Price ($)")
display(counts)

**Salida esperada**:

En este caso debería obtener los conteos de la variable precio:

```python
❱ display(counts)
$149     18
$199     15
$279     15
$299     14
699      13
         ..
$309      1
$389      1
259       1
$109      1
1049      1
Name: Price ($), Length: 89, dtype: int64
```

In [None]:
#TEST_CELL
counts = desc_var(data, "Brand")
display(counts)

**Salida esperada**:

En este caso debería obtener los conteos de la variable marca:

```python
❱ display(counts)
Samsung       79
Xiaomi        67
Oppo          56
Realme        43
Vivo          35
Apple         30
Nokia         28
Motorola      23
OnePlus       15
Huawei        12
Google         7
Asus           4
LG             3
Blackberry     3
Sony           1
CAT            1
Name: Brand, dtype: int64
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Recuerde que puede seleccionar una columna del `DataFrame` utilizando indexación, es decir, `df[col]`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* En `pandas` puede calcular conteos con el método `value_counts`.

#### **Evaluar código**

In [None]:
grader.run_test("Test 2_2", globals())

## **3. Preparación de los Datos**
---

En este punto nos enfocaremos en el preprocesamiento y la limpieza tanto de las variables endogenas como las exogenas.

### **3.1. Preprocesamiento de la Variable Endogena**
---

En este punto debe limpiar la variable endogena, para ello, debe extraer únicamente los valores numéricos de la misma (contiene mezclas de caracteres y números).

Para ello, debe implementar la función `prep_endog` la cual toma como entrada la variable endogena cruda y debe retornarla sin caracteres y con un tipo `float`.

**Parámetros**

- `endog`: `pd.Series` con la variable endogena.

**Retorna**

- `endog_p`: `pd.Series` con la variable endogena preprocesada.

In [None]:
# FUNCIÓN CALIFICADA endog_exog:
def prep_endog(endog):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    endog_p = ...
    return endog_p
    ### FIN DEL CÓDIGO ###

Use las siguientes celdas para probar su solución:

In [None]:
#TEST_CELL
endog_p = prep_endog(endog)
display(endog_p)

**Salida esperada**:

```python
❱ display(endog_prep)
0       999.0
1      1199.0
2       899.0
3       279.0
4       799.0
        ...
402    1049.0
403     349.0
404    1099.0
405     429.0
406     649.0
Name: Price ($), Length: 407, dtype: float64
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Puede eliminar los elementos que no son números por medio de una expresión regular.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* Puede utilizar la librería `re` de _Python_ o los métodos de substitución de strings en `pandas`.

#### **Evaluar código**

In [None]:
grader.run_test("Test 3_1", globals())

### **3.2. Preprocesamiento de las Variables Exogenas**
---

En este punto debe limpiar las variables exogenas, para ello debe seguir los siguientes pasos:

- Debe convertir la variable marca (categórica) en una codificación one-hot (variables dummy).
- Debe eliminar valores que no sean números de variables que contengan mezclas de letras y números. Algo equivalente a la limpieza de la variable endógena.
- Debe retornar un arreglo de `numpy` de tipo `float` con el resultado.

Para esto, debe implementar la función `prep_exog`, la cual toma como entrada un `DataFrame` con las variables exogenas y debe retornar un `np.array` con las variables preprocesadas.

**Parámetros**

- `exog`: `pd.DataFrame` con las variables exogenas.

**Retorna**

- `exog_p`: `np.array` con las variables exogenas preprocesadas.

In [None]:
# FUNCIÓN CALIFICADA endog_exog:
from sklearn.preprocessing import OneHotEncoder
def prep_exog(exog):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    exog_p = ...
    return exog_p
    ### FIN DEL CÓDIGO ###

Use las siguientes celdas para probar su solución:

In [None]:
#TEST_CELL
exog_p = prep_exog(exog)
display(exog_p.shape)

**Salida esperada**:

```python
❱ display(exog_p.shape)
(407, 20)
```

In [None]:
#TEST_CELL
exog_p = prep_exog(exog)
display(exog_p.mean())

**Salida esperada**:

```python
❱ display(exog_p.mean())
240.64162162162165
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Puede utilizar la clase `OneHotEncoder` para obtener las variables dummies para la variable categórica.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* La columna que contiene la duración de la batería ya es numérica, así que esta no debe modificarla.

#### **Evaluar código**

In [None]:
grader.run_test("Test 3_2", globals())

## **4. Modelamiento**
---

En este punto entrenaremos un modelo para el problema.

### **4.1. Validación Cruzada**
---

En este punto deberá dividir el conjunto de datos en las particiones de entrenamiento y prueba.

Para ello deberá implementar la función `cross_val` la cual deberá dividir las variables exogenas y endogenas en entrenamiento y prueba en dependencia de una proporción de la partición y una semilla de números aleatorios.

**Parámetros**

- `exog`: variables exogenas.
- `endog`: variables endogenas.
- `p`: proporcion de datos de prueba.
- `random_state`: semilla de números aleatorios.

**Retorna**

- `exog_train`: variables exogenas de entrenamiento.
- `exog_test`: variables exogenas de prueba.
- `endog_train`: variable endogena de entrenamiento.
- `endog_test`: variable endogena de prueba.

In [None]:
# FUNCIÓN CALIFICADA cross_val:
from sklearn.model_selection import train_test_split
def cross_val(exog, endog, p, random_state):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    exog_train = ...
    exog_test = ...
    endog_train = ...
    endog_test = ...
    return exog_train, exog_test, endog_train, endog_test
    ### FIN DEL CÓDIGO ###

Use las siguientes celdas para probar su solución:

In [None]:
#TEST_CELL
exog_train, exog_test, endog_train, endog_test = cross_val(
        exog_p, endog_p, 0.3, 0
        )
display(exog_train.shape)
display(exog_test.shape)
display(endog_test.shape)
display(endog_train.shape)

**Salida esperada**:

```python
❱ display(exog_train.shape)
(284, 20)

❱ display(exog_test.shape)
(123, 20)

❱ display(endog_test.shape)
(123,)

❱ display(endog_train.shape)
(284,)
```

In [None]:
#TEST_CELL
exog_train, exog_test, endog_train, endog_test = cross_val(
        exog_p, endog_p, 0.3, 0
        )
display(endog_train.mean())
display(endog_test.mean())

**Salida esperada**:

En este caso debería obtener el promedio de las variables endogenas en cada partición.

```python
❱ display(endog_train.mean())
413.1232394366197

❱ display(endog_test.mean())
397.2113821138211
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Puede eliminar los elementos que no son números por medio de una expresión regular.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* Puede utilizar la librería `re` de _Python_ o los métodos de substitución de strings en `pandas`.

#### **Evaluar código**

In [None]:
grader.run_test("Test 4_1", globals())

### **4.2. Modelo de Regresión**
---

En este punto deberá implementar un modelo de regresión lineal para estimar la variable endogena a partir de las variables exogenas.

Para esto debe implementar la función `regression` la cual toma como entrada las variables endogenas y exogenas de entrenamiento y debe retornar un modelo de regresión lineal entrenado.

**Parámetros**

- `exog_train`: variables exogenas de entrenamiento.
- `endog_train`: variables endogenas de entrenamiento.

**Retorna**

- `model`: modelo de regresión lineal entrenado.

In [None]:
# FUNCIÓN CALIFICADA regression:
from sklearn.linear_model import LinearRegression
def regression(exog_train, endog_train):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    model = ...
    return model
    ### FIN DEL CÓDIGO ###

Use las siguientes celdas para probar su solución:

In [None]:
#TEST_CELL
model = regression(exog_train, endog_train)
print(model.coef_.mean())

**Salida esperada**:

En este caso debería obtener el promedio de los parámetros del modelo.

```python
❱ print(model.coef_.mean())
21.956117370855814
```

In [None]:
#TEST_CELL
model = regression(exog_train, endog_train)
print(model.intercept_)

**Salida esperada**:

En este caso debería obtener el intercepto del modelo.

```python
❱ print(model.intercept_)
-2009.9467842481895
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Puede usar la clase `LinearRegression` de `sklearn` para entrenar el modelo.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* Valide que su modelo esté entrenado, es decir, que esté usando el método `fit`.

#### **Evaluar código**

In [None]:
grader.run_test("Test 4_2", globals())

## **5. Evaluación**
---

En este punto debe evaluar el desempeño del modelo en términos de métricas clásicas para regresión como $r^2$, error cuadrático medio y error absoluto medio.

Para esto, debe implementar la función `evaluate` la cual toma como entrada un modelo entrenado, las variables exogenas y endogenas de prueba. Debe retornar las tres métricas en el mismo orden en el que se mencionan.

**Parámetros**

- `model`: modelo entrenado.
- `exog_test`: variables exogenas de prueba.
- `endog_test`: variables endogenas de prueba.

**Retorna**

- `r2`: coeficiente de determinación.
- `mse`: error cuadrático medio.
- `mae`: error absoluto medio.

In [None]:
# FUNCIÓN CALIFICADA evaluate:
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
def evaluate(model, exog_test, endog_test):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    r2 = ...
    mse = ...
    mae = ...
    return r2, mse, mae
    ### FIN DEL CÓDIGO ###

Use las siguientes celdas para probar su solución:

In [None]:
#TEST_CELL
r2, mse, mae = evaluate(model, exog_test, endog_test)
print(r2)
print(mse)
print(mae)

**Salida esperada**:
En este caso debería obtener las métricas del modelo.

```python
❱ print(r2)
0.692024176584816

❱ print(mse)
25160.88989779909

❱ print(mae)
110.49360513638557
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 1</b></font>
</summary>


* Puede usar las métricas `r2_score`, `mean_squared_error`, `mean_absolute_error` de `sklearn`.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pista 2</b></font>
</summary>


* Recuerde obtener las predicciones usando el método `predict` del modelo.

#### **Evaluar código**

In [None]:
grader.run_test("Test 5_1", globals())

# **Evaluación**

In [None]:
grader.submit_task(globals())

# **Recursos Adicionales**
---

- _Fuente de los íconos_
    - Apple iPhone 13 Pro [PNG]. https://micelu.co/wp-content/uploads/2022/12/13-pro-azul.png
    - Vivo V21 5G [PNG]. https://n9.cl/6qt9jf
    - Samsung S21 Lite [PNG]. https://images.samsung.com/is/image/samsung/p6pim/sg/galaxy-s21/gallery/sg-galaxy-s21-5g-g991-sm-g991bzigxsp-358773254
    - Xiaomi Mi 11 Lite [PNG]. https://cdnx.jumpseller.com/tiquemobile/image/30784585/resize/540/540?1673385052

# **Créditos**
---

* **Profesor:** [Jorge E. Camargo, PhD](https://dis.unal.edu.co/~jecamargom/).

* **Asistentes docentes:** [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
  - [Rosa Alejandra Superlano Esquibel](https://www.linkedin.com/in/alejandra-superlano-02b74313a/).
  - [Mario Andrés Rodríguez Triana](mailto:mrodrigueztr@unal.edu.co).

* **Coordinador de virtualización:** [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*