# Práctico 3: Aprendizaje Supervisado

## Mentoría *Sesgos Cognitivos en Razonamientos Lógicos*

**Fecha de entrega:** 11/09


Aplicaremos algoritmos de regresión de aprendizaje supervisado para predecir los índices de creencias en razonamientos lógicos y así detectar posibles sesgos.

- Comenzaremos utilizando un modelo base (baseline model) como referencia para comparar con otros modelos en la resolución de nuestro problema.

- Realizaremos optimización de hiperpárametros utilizando técnicas como grid search y random search.

- Seleccionaremos métricas de error como MAE, MSE y RMSE, para evaluar nuestros modelos

- Opcionalmente, veremos cómo transformar nuestro problema de regresión en un problema de clasificación binaria

<br></br>


------------------------------------------------------------------------------------------------------------------------

## 1. Selección de características y división en conjunto de entrenamiento y conjunto de prueba

In [None]:
# Carga dataset

### 1.1. Indicar qué características se utilizaran durante el entrenamiento



In [None]:
# Columnas (características de interés)

### 1.2. Utilizar esta sección para llevar a cabo cualquier acción que consideren necesaria para pasar a la división y el posterior entrenamiento

**Nota**: Recuerden insertar comentarios en el código indicando las acciones que llevan a cabo con su justificación

### 1.3. Dividir en conjunto de entrenamiento y prueba

In [None]:
# Dividir en train y test

## 2. Modelo base

En cada proyecto, es útil crear un modelo de referencia que implemente un algoritmo muy simple. Esto nos permite comparar nuestros resultados posteriores con el modelo base y ver si estamos mejorando.

### 2.1.  Crear un modelo que siempre devuelva el índice de creencia promedio.

**Ayuda:** scikit-learn cuenta con la clase [DummyRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyRegressor.html) que es muy útil para esta tarea.

In [None]:
# Instanciar modelo y obtener predicciones

### 2.2 Evaluación

Una vez que hemos entrenado nuestro modelo base y obtenido predicciones para nuestro conjunto de test, es hora de que evaluamos su performance. Para la evaluación usaremos el [error absoluto medio](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html) (MAE por sus siglas en inglés).

Adicionalmente, van a tener que elegir otra métrica de error y justificar su elección.

In [None]:
mae_mod_base = None

# Seleccione una métrica adicional para la evaluación

Antes de pasar a la siguiente sección vamos a llevar a cabo un pequeño test para ver que nuestro modelo base no sobrepase el valor máximo para el MAE que fijamos en $0.24$

In [None]:
# no modificar esta celda

def check_mae(mae):
    if mae <= 0.24:
        print(f"MAE:{mae}")
    else:
        raise ValueError(f'El MAE es de {mae}, necesitan un MAE menor o igual que 0.24. Revisen las características seleccionadas')


In [None]:
check_mae(mae_mod_base)

## 2. Experimentos

### 2.1. Probando diferentes estimadores

Utilice tres estimadores diferentes para la predicción del índice de creencia, obtenga las predicciones y realice la evaluación

**Nota:** Pueden probar la cantidad de modelos que deseen, pero aquí en la notebook deben registrar sólo tres.


In [None]:
# Primer estimador

estimador_1 = None

# train
#TODO

# predicciones
#TODO

# evaluación
mae_est_1 = None

# evaluación con métrica adicional
#TODO

In [None]:
# Segundo estimador

estimador_2 = None

# train
#TODO

# predicciones
#TODO

# evaluación
mae_est_2 = None

# evaluación con métrica adicional
#TODO

In [None]:
# Tercer estimador

estimador_3 = None

# train
#TODO

# predicciones
#TODO

# evaluación
mae_est_3 = None

# evaluación con métrica adicional
#TODO

### 2.2. Optimización de hiperparámetros

Seleccione un estimador de los utilizados en el punto anterior y lleve a cabo una optimización de hiperparámetros utilizando  [Grid Search](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) o [Random Search](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html).

Registre las mejores métricas alcanzadas y los valores de los hiperparámetros utilizados.

In [None]:
#TODO

In [None]:
estimador_opt = None

# train
#TODO

# predicciones
#TODO

# evaluación
mae_est_opt = None

# evaluación con métrica adicional
#TODO

In [None]:
check_mae(mae_est_opt)

## 3. Ingeniería de características y re-entrenamiento del modelo

Como ya habrán podido observar a lo largo de la diplomatura, mucho de los procesos en ciencia de datos son iterativos. Cuando entrenamos modelos, esto implica agregar y eliminar características, modificar el escalado y la codificación, y otros tipos de acciones que nos permitan mejorar la performance de nuestro modelo.

Aquí están algunas acciones que pueden llevar a cabo para mejorar el rendimiento del modelo:
<br></br>
- Agregar nuevas características a los datos. Esto puede ayudar al modelo a aprender más sobre los datos y a hacer mejores predicciones.

- Eliminar características irrelevantes de los datos. Esto puede ayudar al modelo a evitar el sobreajuste y a mejorar su generalización.

- Modificar el escalado de los datos. Esto puede ayudar al modelo a aprender más rápido y a hacer mejores predicciones.

- Modificar la codificación de los datos. Esto puede ayudar al modelo a entender mejor los datos y a hacer mejores predicciones.


<br></br>
Una vez que hayan realizado alguna/s de estas acciones, deben reentrenar el modelo utilizado en el punto anterior.

Finalmente, recuerden registrar las métricas de error, esto les ayudará a determinar si con estas acciones han mejorado el rendimiento del modelo.

### 3.1. Evaluación

Atendiendo a lo realizado hasta ahora, responda las siguientes preguntas:
- ¿Observan diferencias en el rendimiento del modelo base con el que empezaron y el de los diferentes modelos entrenados posteriormente?

- ¿Hubo diferencias en el rendimiento del modelo con parámetros optimizados antes y después de trabajar con las características?¿Por qué considera que sucede esto?

## 4. (Opcional) Replanteando nuestro problema

A lo largo de esta actividad hemos abordado el problema de predecir el índice de creencia. Este índice es muy útil para observar la polarización en las respuestas y analizar aspectos más sútiles de la problemática.

Sin embargo, podríamos simplemente querer predecir si tienen lugar o no dichos sesgos, sin importar su grado, con lo cual podríamos replantear nuestro problema como un problema de clasificación binaria. En este tipo de problemas, el objetivo es predecir si una instancia pertenece a una clase o a otra. En nuestro caso, las dos clases son "presencia de sesgos" y "ausencia de sesgos".


Para hacer esto, podemos modificar nuestra columna con la variable objetivo. Los valores positivos se reemplazarán con la etiqueta $1$, que indicarán la presencia de sesgos. Mientras que, los valores iguales o menores que $0$ se reemplazarán con la etiqueta $0$, que indicarán la ausencia de sesgos.

Como ejercicio opcional, los invitamos a que entrenen un modelo que emplee algoritmos de clasificación para predecir la ausencia o presencia de sesgos de creencia.

## 5. Informe

Elaboren un breve informe de lo realizado durante esta actividad práctica reseñando aspectos salientes, dificultades encontradas, etc.