# Práctico 2: Análisis Exploratorio y Curación de Datos

## Mentoría *Sesgos Cognitivos en Razonamientos Lógicos*

**Fecha de entrega:** 17/07

Profundizaremos en lo trabajado anteriormente y prepararemos nuestros datos para aplicar algoritmos de aprendizaje automático en el próximo práctico.

- Pondremos nuestros datos en un único dataset.

- Trabajaremos en la imputación de valores faltantes, conversión de datos categóricos, etc.

- Una actividad destacada será la creación de una columna llamada "índice de creencia", que será nuestra variable a predecir en el siguiente práctico ☺

<br></br>


------------------------------------------------------------------------------------------------------------------------

## 1. Curación I

In [None]:
# importación de librerías
import pandas as pd

In [None]:
# carga de dataset

df1 = None # primer estudio
df2 = None # segundo estudio

### 1.1. Selección de columnas relevantes

Eliminen las columnas que no son relevantes para nuestro problema.

*Opcional*: conservar columnas `Edad` y/o `Género`

### 1.2. Imputación de valores

**(a)** En el práctico anterior, observamos que en nuestro segundo conjunto de datos había participantes que no tenían cargadas las 8 filas correspondientes a la resolución grupal. Sin embargo, esos datos pueden ser inferidos utilizando para ello la columna `Grupo`.

Completen los registros faltantes correspondientes a la `Resolución Grupal` en el segundo conjunto de datos de modo que contemos con 24 filas para cada participante.

**(b)** (Opcional) Si se conservaron las columnas `Edad` y/o `Género`, realicen la imputación de los valores faltantes en ambos conjuntos de datos. Tengan en cuenta los valores que pueden ser inferidos (cuando sí poseemos los datos de participantes) y aquellos que efectivamente son faltantes (no hay datos cargados en ninguna fila). Para el último caso, indiquen la técnica que utilizaron.

**(c)** (Opcional) Como ya observaron en el segundo práctico, en nuestro primer dataset los valores de la columna `grupo` son del tipo *object*, mas puntualmente, tipo *string*. Para el caso de participantes que realizaron la resolución individual este campo contiene un espacio vacío.

Reemplacen este valor por el string `0` y luego convierta a valores numéricos.

**(d)** Notemos con respecto a la columna `Modalidad` que el valor *Resolución Grupal* aparece en ambos conjuntos de datos. Sin embargo, en el segundo dataset la resolución grupal de la tarea tiene lugar después de una resolución individual, por lo cual convendría distinguirlas.

Modifiquen los datos en el segundo dataset asignando nuevos valores a las celdas donde encontramos el valor *Resolución Grupal*.

### 1.3. Creación de columnas

Hasta el momento hemos completado ambos conjuntos de datos, de modo que contamos con toda la información relativa a la resolución de la tarea para cada participante.

Ahora bien, cada resolución consiste en la evaluación de 8 argumentos, para poder extraer información y -posteriormente- predecir la presencia de sesgos de creencia necesitamos que nuestros datos se encuentren en un formato más conveniente.

Con ese objetivo deberán crear nuevas columnas para cada argumento y sus propiedades.

Tomando el primer argumento, su validez, aceptación y corrección de la respuesta, (y si conservamos género y edad) las nuevas columnas tendrán un aspecto de este tipo:  

In [None]:
ds1 = {'Participante': [1, 2, 3, 4, 5],
        'Edad': [18, 23, 20, 25, 20],
        'Género': ['M', 'F', 'F', 'F', 'F'],
        'Modalidad': ['Resolución Individual', 'Resolución Individual', 'Resolución Individual', 'Resolución Individual', 'Resolución Individual'
],
         'val_s_1': ['V', 'V', 'V', 'V', 'V'],
         'acept_s_1': [1, 1, 1, 1, 1],
         'corr_s_1': [1, 1, 1, 1, 1 ]
}

ds2 = {'Participante': [240, 240, 240, 241, 241],
        'Edad': [19, 19, 19, 19, 19],
        'Género': ['F', 'F', 'F', 'F', 'F'],
        'Modalidad': ['Resolución Individual Pre', 'Resolución Individual Post', 'Resolución Grupal_ws', 'Resolución Individual Pre', 'Resolución Individual Post'
],
         'val_s_1': ['V', 'V', 'V', 'V', 'V'],
         'acept_s_1': [1, 1, 1, 0, 1],
         'corr_s_1': [1, 1, 1, 0, 1 ]
}

In [None]:
print('Primer dataset con agregado de columnas correspondientes al primer argumento:')
pd.DataFrame.from_dict(ds1)

Primer dataset con agregado de columnas correspondientes al primer argumento


Unnamed: 0,Participante,Edad,Género,Modalidad,val_s_1,acept_s_1,corr_s_1
0,1,18,M,Resolución Individual,V,1,1
1,2,23,F,Resolución Individual,V,1,1
2,3,20,F,Resolución Individual,V,1,1
3,4,25,F,Resolución Individual,V,1,1
4,5,20,F,Resolución Individual,V,1,1


In [None]:
print('Segundo dataset con agregado de columnas correspondientes al primer argumento:')
pd.DataFrame.from_dict(ds2)

Segundo dataset con agregado de columnas correspondientes al primer argumento:


Unnamed: 0,Participante,Edad,Género,Modalidad,val_s_1,acept_s_1,corr_s_1
0,240,19,F,Resolución Individual Pre,V,1,1
1,240,19,F,Resolución Individual Post,V,1,1
2,240,19,F,Resolución Grupal_ws,V,1,1
3,241,19,F,Resolución Individual Pre,V,0,0
4,241,19,F,Resolución Individual Post,V,1,1


### 1.4. Combinando nuestros datos

Nos encontramos en condiciones de unificar nuestros datos.

Combinen los dos conjuntos en un único dataset (recuerden verificar que ambos tengan las mismas columnas).

In [None]:
merged_df= None

## 2. Creando nuestra variable objetivo

Nuestro propósito es estudiar y predecir la presencia de sesgos de creencia en razonamientos lógicos. Estos sesgos son definidos, recordemos, como la tendencia sistemática a evaluar la validez lógica de un argumento en función de la credibilidad de su conclusión. Es decir, la inclinación aceptar aquellos argumentos con conclusiones creíbles y a rechazar aquellos con conclusiones increíbles, sin importar la forma lógica de los argumentos en sí.

En el práctico anterior analizamos la correlación entre las propiedades de los argumentos (validez, creencia, validez+creencia) y la aceptación de los argumentos, así como también, con la corrección de las respuestas. Estos análisis nos permitieron ir diagnosticando la presencia de sesgos.

En esta segunda actividad práctica, presentaremos una métrica que nos ayudará a determinar de manera más precisa la presencia de sesgos de creencia.
Esta métrica es el ***índice de creencia*** y se calcula, tomando la resolución de la tarea (evaluación de los argumentos) de la siguiente manera:
<br></br>

$$indice\:de\:creencia =  (suma\:aceptación\:VC + suma\:aceptación\:IC) - (suma\:aceptación\:VI + suma\:aceptación\:II)$$
<br></br>
Esta fórmula da cuenta del efecto de la creencia, cuanto mayor es el índice, mayor es el sesgo de creencia.

### 2.1. Crear una nueva columna llamada `indice_creencia` usando la fórmula provista arriba

**Ayuda**:
- En el nuevo conjunto de datos que hemos creado (`merged_df`) cada fila contiene los datos relativos a la evaluación de los 8 argumentos, a diferencia de la estructura anterior, donde los resultados estaban distribuidos en múltiples filas.
- La nueva columna será el resultado de la aplicación de un función que utilice valores contenidos en algunas columnas creadas en el ejercicio *1.3*.

### 2.2. Normalización
Teniendo en cuenta que la tarea consiste en la evaluación de ocho argumentos con 2 de cada tipo. Esto es, dos argumentos válidos creíbles (VC), dos inválidos increíbles (IC), dos válidos increíbles (VI) y dos inválidos increíbles (II):

**(a)** ¿Cuál es el valor máximo que puede alcanzar nuestro *indice de creencia*?

**(b)** ¿y el mínimo?

**(c)** A partir *(a)* y *(b)*, creen una nueva columna, llamada `indice_creencia_norm`, realizando un normalización lineal de modo tal que sus valores se encuentren ahora en el rango $[-1,1]$. De esta manera, los valores positivos indicarán la presencia de sesgos de creencia, mientras que valores negativos, su ausencia.  

## 3. Exploración

Ahora que contamos con una columna con el índice de creencia, realicen una análisis exploratorio de datos. Pueden utilizar como guía las siguientes preguntas e incluir cualquier otra que les surga durante la exploración:

- ¿Cómo es la distribución de los valores del índice de creencia?

- ¿Tiene incidencia la modalidad de resolución en la aparición de sesgos?

- Si conservaron las columnas de `Edad` y `Género`, ¿afectan la edad y género de lxs participantes a la presencia de sesgos?

- ¿Son similares los resultados hallados utilizando la columna `indice_creencia_norm` con los obtenidos en la primera actividad práctica?

- ¿Resulta de utilidad para el análisis de los datos esta última columna añadida?

Pueden también utilizar gráficas que permitan ilustrar y comparar resultados.

## 4. Curación II


Hemos realizado una transformación en la estructura original de nuestros datos, lo cual nos ha permitido analizar otros aspectos de los mismos. Sin embargo, aún existen varias columnas con valores de tipo categórico. Como han aprendido en las clases teóricas, podemos realizar análisis de datos categóricos, pero no podremos aplicar algoritmos de aprendizaje automático para predecir la variable objetivo que hemos creado (índice de creencia).

En esta etapa, llevaremos a cabo un último tratamiento de los datos con el objetivo de prepararlos para la aplicación de algoritmos de aprendizaje automático.

### 4.1. Eliminar las columnas no relevantes al problema

(Opcional) sólo aplicable si aún quedan columnas irrelevantes

### 4.2. Codificación de variables categóricas

Codifiquen las variables categóricas y eliminen las columnas originales

### 4.3. Datos curados

Guardar el dataframe con los datos transformados en un nuevo archivo .csv : `datos_preprocesados_grupo_1.csv` ó `datos_preprocesados_grupo_2.csv`, según corresponda

## 5. Conclusiones


Elaboren un breve informe de lo realizado durante esta actividad práctica reseñando aspectos salientes, dificultades encontradas, etc.

---------------------------------------------------------------------------------------------------------------------------------------------------------


# ¡Felicitaciones! Han completado la primera parte de nuestra mentoría y ya tenemos nuestros datos listos para aplicar algoritmos de aprendizaje automático ☺