# Práctico 2: Análisis Exploratorio y Curación de Datos 

## Mentoría *Sesgos Cognitivos en Razonamientos Lógicos*

**Fecha de entrega:** 17/07

Profundizaremos en lo trabajado anteriormente y prepararemos nuestros datos para aplicar algoritmos de aprendizaje automático en el próximo práctico.

- Pondremos nuestros datos en un único dataset.

- Trabajaremos en la imputación de valores faltantes, conversión de datos categóricos, etc.

- Una actividad destacada será la creación de una columna llamada "índice de creencia", que será nuestra variable a predecir en el siguiente práctico ☺

<br></br>


------------------------------------------------------------------------------------------------------------------------

## 1. Curación I

In [1]:
# importación de librerías
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# carga de dataset 

df1 = pd.read_csv('https://raw.githubusercontent.com/Erika-Ortiz/sesgos_diplodatos/main/dataset1_raw.csv') # primer estudio
df2 = pd.read_csv('https://raw.githubusercontent.com/Erika-Ortiz/sesgos_diplodatos/main/dataset2_raw.csv') # segundo estudio

In [3]:
df1.head()

Unnamed: 0,num,Participante,Lugar_admin,Modalidad,Edad,Género,Grupo,Validez,Creencia,ValidezxCreencia,Silogismo,Aceptación,Correctas
0,1,1,Biología UNC 1°,Resolución Individual,18,M,,V,C,VC,1,1,1
1,2,1,Biología UNC 1°,Resolución Individual,18,M,,V,I,VI,2,1,1
2,3,1,Biología UNC 1°,Resolución Individual,18,M,,I,C,IC,3,0,1
3,4,1,Biología UNC 1°,Resolución Individual,18,M,,I,I,II,4,0,1
4,5,1,Biología UNC 1°,Resolución Individual,18,M,,V,C,VC,5,1,1


In [4]:
df2.head()

Unnamed: 0,num,Participante,Lugar_admin,Modalidad,Edad,Género,Grupo,Validez,Creencia,ValidezxCreencia,Silogismo,Aceptación,Correctas
0,1913,240,Lógica y Epistemología UCC 2°,Resolución Individual Pre,19.0,F,27,V,C,VC,1,1,1
1,1914,240,Lógica y Epistemología UCC 2°,Resolución Individual Pre,,,27,V,I,VI,2,0,0
2,1915,240,Lógica y Epistemología UCC 2°,Resolución Individual Pre,,,27,I,C,IC,3,0,1
3,1916,240,Lógica y Epistemología UCC 2°,Resolución Individual Pre,,,27,I,I,II,4,0,1
4,1917,240,Lógica y Epistemología UCC 2°,Resolución Individual Pre,,,27,V,C,VC,5,1,1


### 1.1. Selección de columnas relevantes

Eliminen las columnas que no son relevantes para nuestro problema. 

*Opcional*: conservar columnas `Edad` y/o `Género`

In [5]:
# Columnas no relevantes para nuestro problema, son las mismas en ambos datasets 

irrel_col = ['num', 'Lugar_admin', 'Edad', 'Género']

# Copia y drop de columnas primer dataset 
df1_rel = df1.copy()
df1_rel.drop(columns=irrel_col, inplace=True) #uso inplace porque ya realice una copia 

# Copia y drop de columnas segundo dataset 
df2_rel = df2.copy()
df2_rel.drop(columns=irrel_col, inplace=True) #uso inplace porque ya realice una copia 

In [6]:
df1_rel

Unnamed: 0,Participante,Modalidad,Grupo,Validez,Creencia,ValidezxCreencia,Silogismo,Aceptación,Correctas
0,1,Resolución Individual,,V,C,VC,1,1,1
1,1,Resolución Individual,,V,I,VI,2,1,1
2,1,Resolución Individual,,I,C,IC,3,0,1
3,1,Resolución Individual,,I,I,II,4,0,1
4,1,Resolución Individual,,V,C,VC,5,1,1
...,...,...,...,...,...,...,...,...,...
1907,239,Resolución Grupal,26,I,I,II,4,0,1
1908,239,Resolución Grupal,26,V,C,VC,5,1,1
1909,239,Resolución Grupal,26,V,I,VI,6,0,0
1910,239,Resolución Grupal,26,I,C,IC,7,1,0


In [7]:
df2_rel.head(20)

Unnamed: 0,Participante,Modalidad,Grupo,Validez,Creencia,ValidezxCreencia,Silogismo,Aceptación,Correctas
0,240,Resolución Individual Pre,27,V,C,VC,1,1,1
1,240,Resolución Individual Pre,27,V,I,VI,2,0,0
2,240,Resolución Individual Pre,27,I,C,IC,3,0,1
3,240,Resolución Individual Pre,27,I,I,II,4,0,1
4,240,Resolución Individual Pre,27,V,C,VC,5,1,1
5,240,Resolución Individual Pre,27,V,I,VI,6,0,0
6,240,Resolución Individual Pre,27,I,C,IC,7,1,0
7,240,Resolución Individual Pre,27,I,I,II,8,0,1
8,240,Resolución Individual Post,27,V,C,VC,1,1,1
9,240,Resolución Individual Post,27,V,I,VI,2,1,1


### 1.2. Imputación de valores 

**(a)** En el práctico anterior, observamos que en nuestro segundo conjunto de datos había participantes que no tenían cargadas las 8 filas correspondientes a la resolución grupal. Sin embargo, esos datos pueden ser inferidos utilizando para ello la columna `Grupo`. 

Completen los registros faltantes correspondientes a la `Resolución Grupal` en el segundo conjunto de datos de modo que contemos con 24 filas para cada participante.

### Primera estrategia sin utilizar una función 

``` python
part = df2_rel['Participante'].unique() # participantes en nuestro dataset a completar

df_all_groups = pd.DataFrame()

for x in part: 
    if sum(df2_rel['Participante']==x)!=24: # identifica los participantes con registros incompletos

        y = np.array(df2_rel['Grupo'].loc[df2_rel['Participante']==x])[0] # obtiene el número de grupo del participante con registro incompleto
        
        df = pd.DataFrame() # crea dataframe vacío para cargar los registros grupales

        df['Participante'] = np.repeat(x, 8) # crea la columna "Participante" para los nuevos registros
        df['Modalidad'] = np.repeat('Resolución Grupal', 8) # Crea la columna "Modalidad" para los nuevos registros
        df['Grupo'] = np.repeat(y, 8) # crea la columna "Grupo" con el número de grupo que obtuvo previamente
        
        df_data_group = df2_rel[(df2_rel['Grupo']==y) & (df2_rel['Modalidad']=='Resolución Grupal')][['Validez', 'Creencia', 'ValidezxCreencia', 'Silogismo', 'Aceptación', 'Correctas']].copy().reset_index(drop=True) # Copia los registros que nos faltaban
        df = pd.concat([df, df_data_group], axis=1) # unimos las columnas de los nuevos registros
        df_all_groups = pd.concat([df_all_groups, df]) 

complete_dataset = pd.concat([df2_rel, df_all_groups])
```





------------------------------------------------------------------------------------
Podemos también usar funciones, teniendo en cuenta que en el futuro pueden agregarse mayor cantidad de muestras

### Segunda estrategia: codeamos una función 

Reemplazamos aquí el valor de nuestro dataset `df2_rel` por `dataset` que es el argumento de nuestra función 

```python
def complete_group(dataset):
    """Completa los registros de resolución de los participantes y devuelve un nuevo dataset con los registros completos
    Arg: 
    dataset: pandas DataFrame
    returns:
    pandas DataFrame"""

    part = dataset['Participante'].unique() # participantes en nuestro dataset a completar

    df_all_groups = pd.DataFrame()

    for x in part: 
        if sum(dataset['Participante']==x)!=24: # identifica los participantes con registros incompletos

            y = np.array(dataset['Grupo'].loc[dataset['Participante']==x])[0] # obtiene el número de grupo del participante con registro incompleto
        
            df = pd.DataFrame() # crea dataframe vacío para cargar los registros grupales

            df['Participante'] = np.repeat(x, 8) # crea la columna "Participante" para los nuevos registros
            df['Modalidad'] = np.repeat('Resolución Grupal', 8) # Crea la columna "Modalidad" para los nuevos registros
            df['Grupo'] = np.repeat(y, 8) # crea la columna "Grupo" con el número de grupo que obtuvo previamente
        
            df_data_group = dataset[(dataset['Grupo']==y) & (dataset['Modalidad']=='Resolución Grupal')][['Validez', 'Creencia', 'ValidezxCreencia', 'Silogismo', 'Aceptación', 'Correctas']].copy().reset_index(drop=True) # Copia los registros que nos faltaban
            df = pd.concat([df, df_data_group], axis=1) # unimos las columnas de los nuevos registros
            df_all_groups = pd.concat([df_all_groups, df]) 

    complete_dataset = pd.concat([dataset, df_all_groups])
    return complete_dataset
```



----------------------------------------------------------------------------------------------------
Esta función la codemos en el archivo `utils.py` que luego podemos importar cuando deseemos usarla:

In [8]:
# importamos nuestra función
from utils import complete_group

In [9]:
# llamamos a la función 
nuevo_ds = complete_group(df2_rel) 

In [10]:
# Miramos el dataset generado
nuevo_ds

Unnamed: 0,Participante,Modalidad,Grupo,Validez,Creencia,ValidezxCreencia,Silogismo,Aceptación,Correctas
0,240,Resolución Individual Pre,27,V,C,VC,1,1,1
1,240,Resolución Individual Pre,27,V,I,VI,2,0,0
2,240,Resolución Individual Pre,27,I,C,IC,3,0,1
3,240,Resolución Individual Pre,27,I,I,II,4,0,1
4,240,Resolución Individual Pre,27,V,C,VC,5,1,1
...,...,...,...,...,...,...,...,...,...
3,353,Resolución Grupal,50,I,I,II,4,0,1
4,353,Resolución Grupal,50,V,C,VC,5,1,1
5,353,Resolución Grupal,50,V,I,VI,6,1,1
6,353,Resolución Grupal,50,I,C,IC,7,1,0


Notemos que aplicando nuestra función `complete_group` a nuestro dataset con registros incompletos obtenemos un nuevo conjunto de datos ya con todos los registros, sin preocuparnos por el tamaño del mismo ni valores específicos de registros. 

Nuestro segundo conjunto de datos cuenta así con las 2760 filas, con 24 registros de resolución para cada participante

-------------------------------------------------------------------------------------------------------------------

Los invito a modificar la función `complete_group` para que los datos estén ordenados de acuerdo al número de participante. Recuerden ajustar también los índices ;) 