<a href="https://colab.research.google.com/github/PabloDiosquez/Laboratorio_de_Datos_UBA/blob/main/Clase_2_cuarta_parte_cargando_los_dataframes_de_experimentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

En los notebooks anteriores aprendimos sobre cómo crear dataframes y usarlos para limpiar nuestros datos, entre otras cosas.

Ahora vamos a ver cómo crear un dataframe a partir de un archivo csv. Para eso, vamos a usar tres ejemplos que representan experimentos realizados en El Gato y la Caja (coronadélicos, vacunación y OCEAN).

Empezamos por los datos de personalidad (OCEAN).



In [None]:
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')

filename = '/content/drive/My Drive/LaboDatos2022/ocean_safe.csv' 

df = pd.read_csv(filename)

Mounted at /content/drive


Es importante familiarizarnos con pd.read_csv. Otras opciones útiles incluyen ignorar el header (es decir, si los nombres de las columnas no están en el csv), o bien cargar el dataframe de a pedazos (si resultase demasiado grande para la memoria de la computadora en la que estamos trabajando).

Las columnas importantes del dataframe de OCEAN son las siguientes:

1_extraversion,	1_agreeableness,	1_conscientiousness,	1_neuroticism,	1_openness, 2_edad,	2_genero, hash

Las primeras cinco corresponden a las cinco dimensiones de personalidad del modelo OCEAN. Luego tenemos edad, género (codificado en 1 y 2) y un código identificatorio hasheado específicamente para estos tres conjuntos de datos, de forma tal de preservar la anonimidad de los sujetos.

Seleccionemos estas columnas.

In [None]:
columnas = list(df.columns[44:49]) + list(df.columns[54:56]) + ['hash']
df_ocean = df[columnas]
print(df_ocean)

        1_extraversion  1_agreeableness  1_conscientiousness  1_neuroticism  \
0                   27               31                   31             37   
1                   16               37                   26             31   
2                   23               33                   38             22   
3                   20               25                   25             20   
4                   22               34                   24             35   
...                ...              ...                  ...            ...   
169304              21               35                   44             13   
169305              32               30                   36             12   
169306              20               37                   30             13   
169307              28               39                   36             18   
169308              14               33                   39             14   

        1_openness  2_edad  2_genero               

Ahora vamos a cargar el dataframe de actitudes sobre vacunación.

In [None]:
filename = '/content/drive/My Drive/LaboDatos2021/vacunas_safe.csv' 

df = pd.read_csv(filename)

De momento no vamos a investigar la intervención central al experimento, sino que simplemente vamos a seleccionar un subconjunto de columnas que tienen que ver con la actitud previa y con algunas variables generales que pueden ser de relevancia.

Las columnas que seleccionamos son:

0_vacunaAplicada,	0_preTeDarias,	0_preEfectiva,	0_preEfectosAdversos,
0_vacunaUtilFrenar,	0_riesgoPropio,	0_riesgoConvive,	0_posturaVacunas, hash

Estas variables indican si ya se aplicó la vacuna o no (-999 en ese caso), del 1 al 100 el acuerdo con darse la vacuna, con considerar la vacuna efectiva, con la preocupación sobre efectos adversos, y del 1 a 100 si la persona considera que la vacuna es útil para frenar el contagio, si está la persona es o no grupo de riesgo, si la persona tiene o no a alguien de su círculo inmediato en grupo de riesgo, y cual es la postura general frente a vacunas. Y, por supuesto, el código identificatorio hasheado.

In [None]:
columnas = list(df.columns[4:8]) + list(df.columns[19:22]) + ['hash']
df_vacunas = df[columnas]
print(df_vacunas)

      0_vacunaAplicada  0_preTeDarias  0_preEfectiva  0_preEfectosAdversos  \
0                 -999             99             99                     2   
1                 -999            100             74                    49   
2                 -999             98             94                    10   
3                 -999             76             88                     0   
4                 -999            100             84                    20   
...                ...            ...            ...                   ...   
6699              -999              0             83                    11   
6700              -999            100            100                    24   
6701              -999            100            100                    23   
6702              -999            100             98                    35   
6703              -999            100             89                     2   

      0_vacunaUtilFrenar  0_riesgoPropio  0_riesgoConvive      

Ahora vamos a querer unir los dos dataset en uno solo. Nos interesa un merge con opción "inner" para que solo aparezcan los participantes que hicieron ambos experimentos. 

Ahora mergeamos. Notamos que tenemos que indicarle las columnas que van a usarse como llave para el merge. En este caso, indicamos que usamos la columna hash - ver documentación)

In [None]:
df_combinado = pd.merge(df_vacunas,df_ocean,how='inner',on='hash')
print(df_combinado) 


Empty DataFrame
Columns: [0_vacunaAplicada, 0_preTeDarias, 0_preEfectiva, 0_preEfectosAdversos, 0_vacunaUtilFrenar, 0_riesgoPropio, 0_riesgoConvive, hash, 1_extraversion, 1_agreeableness, 1_conscientiousness, 1_neuroticism, 1_openness, 2_edad, 2_genero]
Index: []


Pareciera que no hay hashs en comun. Podemos verificarlo transformando en conjuntos ambas columnas de hash y computando la interseccion

In [None]:
set(df_ocean['hash']).intersection(df_vacunas['hash'])

set()

Al parecer no hay interseccion... por qué es?



In [None]:
print(type(df_vacunas['hash'][0]))
print(type(df_ocean['hash'][0]))

<class 'numpy.int64'>
<class 'numpy.int64'>


In [None]:
filename = '/content/drive/My Drive/LaboDatos2021/coronadelicos_safe.csv' 

df_coronadelicos = pd.read_csv(filename)
set(df_ocean['hash']).intersection(df_coronadelicos['hash'])

{5498301562650198024,
 6203500024233459721,
 4034267240867201034,
 5760512876450152459,
 3946761008377495561,
 -5395135413126889453,
 -8339193315612262379,
 -943769504539181037,
 -7954861081784975337,
 -656612558661058531,
 -6478983409417420762,
 -3188434302660116443,
 -6409784781460537302,
 -5745474164207615948,
 2993734385302700082,
 764094584406966325,
 -3646269027110125512,
 1590959190192357432,
 -1394878147361931207,
 -959953904149430214,
 -5007668031972704194,
 -6570491714572484539,
 -8089942078717883,
 -2445370344889352121,
 -2689428202368270264,
 -6401310032889020342,
 -4831640843987681201,
 -6990941517629980586,
 -1759116273033543596,
 -8750986069445377962,
 -5209369013706162084,
 4242255522882912350,
 2925532328508358756,
 2709543938824372327,
 -6604686985552363412,
 5219797402631438442,
 8491405041491050603,
 -8560662991428779918,
 1747503209795879038,
 -7956130727610154878,
 3935092655537160325,
 -1276564652002377589,
 738021016769069196,
 9013417351659618442,
 -35891759083

Vemos que hay interseccion. Ahora si, probemos mergearlos.

In [None]:
df_combinado = pd.merge(df_coronadelicos,df_ocean,how='inner',on='hash')
print(df_combinado.columns)
print(df_combinado)

Index(['0_religiosidad', '0_frecuencia_practicas_religiosas',
       '0_cambio_frecuencia_practicas_religiosas', '0_frecuencia_meditacion',
       '0_cambio_frecuencia_meditacion', '0_antencion_previa', '0_internacion',
       '0_tomando_medicacion', '1_psicodelicos_consumidos',
       '2_cuantas_veces_consumio',
       ...
       '13_login_disclaimer_fork', 'timestamp', 'hash', '1_extraversion',
       '1_agreeableness', '1_conscientiousness', '1_neuroticism', '1_openness',
       '2_edad', '2_genero'],
      dtype='object', length=144)
      0_religiosidad  0_frecuencia_practicas_religiosas  ...  2_edad  2_genero
0                  0                                  5  ...      21         2
1                  2                                  5  ...      41         2
2                  0                                  5  ...      23         1
3                  7                                  5  ...      31         1
4                  9                                  5  ... 

Exito!