# Análisis de datos con pandas

In [1]:
import pandas as pd
import numpy as np

In [4]:
# activación de la cx prefrontal al escoger un helado
experimento = {
    "sujeto" : ["S01", "S02", "S03", "S02", "S01", "S01", "S02"],
    "sabor" : ["choco", "piñon", "queso", "chango", "choco", "queso", "angel"],
    "precio" : [45, 105, 30, 60, 85, 45, 120],
    "tamaño" : ["m", "g", "ch", "ch", "g", "m", "g"]
}

In [5]:
experimento

{'sujeto': ['S01', 'S02', 'S03', 'S02', 'S01', 'S01', 'S02'],
 'sabor': ['choco', 'piñon', 'queso', 'chango', 'choco', 'queso', 'angel'],
 'precio': [45, 105, 30, 60, 85, 45, 120],
 'tamaño': ['m', 'g', 'ch', 'ch', 'g', 'm', 'g']}

In [7]:
df = pd.DataFrame(experimento)
df

Unnamed: 0,sujeto,sabor,precio,tamaño
0,S01,choco,45,m
1,S02,piñon,105,g
2,S03,queso,30,ch
3,S02,chango,60,ch
4,S01,choco,85,g
5,S01,queso,45,m
6,S02,angel,120,g


In [8]:
df["activación"] = [True, True, False, False, True, True, False]

In [9]:
df

Unnamed: 0,sujeto,sabor,precio,tamaño,activación
0,S01,choco,45,m,True
1,S02,piñon,105,g,True
2,S03,queso,30,ch,False
3,S02,chango,60,ch,False
4,S01,choco,85,g,True
5,S01,queso,45,m,True
6,S02,angel,120,g,False


## agrupamiento de los datos 

In [11]:
# para seleccionar la columna sujeto
df["sujeto"], df.sujeto 

(0    S01
 1    S02
 2    S03
 3    S02
 4    S01
 5    S01
 6    S02
 Name: sujeto, dtype: object,
 0    S01
 1    S02
 2    S03
 3    S02
 4    S01
 5    S01
 6    S02
 Name: sujeto, dtype: object)

In [12]:
# filtrado del dataframe
df[df["precio"] > 100 ]

Unnamed: 0,sujeto,sabor,precio,tamaño,activación
1,S02,piñon,105,g,True
6,S02,angel,120,g,False


In [13]:
# filtrado para seleccionar a S01
df[df["sujeto"] == "S01"]

Unnamed: 0,sujeto,sabor,precio,tamaño,activación
0,S01,choco,45,m,True
4,S01,choco,85,g,True
5,S01,queso,45,m,True


In [14]:
# filtrado para seleccionar a S02
df[df["sujeto"] == "S02"]

Unnamed: 0,sujeto,sabor,precio,tamaño,activación
1,S02,piñon,105,g,True
3,S02,chango,60,ch,False
6,S02,angel,120,g,False


In [15]:
# filtrado para seleccionar a S03
df[df["sujeto"] == "S03"]

Unnamed: 0,sujeto,sabor,precio,tamaño,activación
2,S03,queso,30,ch,False


#### Para hacerlo de forma más automática --> .groupby

In [16]:
df.groupby(by = "sujeto")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x120dbda90>

In [17]:
df_por_sujeto = df.groupby(by = "sujeto")
df_por_sujeto.describe() # --> descripción estadística de nuestro dataframe

Unnamed: 0_level_0,precio,precio,precio,precio,precio,precio,precio,precio
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
sujeto,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
S01,3.0,58.333333,23.094011,45.0,45.0,45.0,65.0,85.0
S02,3.0,95.0,31.22499,60.0,82.5,105.0,112.5,120.0
S03,1.0,30.0,,30.0,30.0,30.0,30.0,30.0


In [19]:
df_por_sujeto.describe(include = "all") # variables tanto numéricas como las no numéricas

Unnamed: 0_level_0,sabor,sabor,sabor,sabor,sabor,sabor,sabor,sabor,sabor,sabor,...,activación,activación,activación,activación,activación,activación,activación,activación,activación,activación
Unnamed: 0_level_1,count,unique,top,freq,mean,std,min,25%,50%,75%,...,unique,top,freq,mean,std,min,25%,50%,75%,max
sujeto,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
S01,3,2,choco,2,,,,,,,...,1,True,3,,,,,,,
S02,3,3,piñon,1,,,,,,,...,2,False,2,,,,,,,
S03,1,1,queso,1,,,,,,,...,1,False,1,,,,,,,


In [21]:
df.describe(include = "all")

Unnamed: 0,sujeto,sabor,precio,tamaño,activación
count,7,7,7.0,7,7
unique,3,5,,3,2
top,S01,choco,,g,True
freq,3,2,,3,4
mean,,,70.0,,
std,,,33.91165,,
min,,,30.0,,
25%,,,45.0,,
50%,,,60.0,,
75%,,,95.0,,


### Actividad
- crear un dataframe de 200 filas con las columnas: tipos_sujetos, generos, condicion, region, neurotransmisor
- estas columnas deben tener una distribución uniforme.
- Agregar una columna llamada "precisión" que tenga una distribución normal con mu = 0.92 y sigma = 0.08
- Este dataset pretende simular los resultados de un estudio en el que se miden variables cognitivas y fisiológicas en diferentes regiones cerebrales, sujetos y condiciones experimentales.

- generar un histograma de cuantos datos por sujeto se tienen
- mostrar en un histograma la proporción de neurotransmisor


In [28]:
tipos_sujetos = ["S" + str(i).zfill(2) for i in range(4)]
generos = ["M", "F"]
condicion = ["control", "experimental"]
region = ["hipocampo", "cx prefrontal", "amígdala"]
neurotransmisor = ["dopamina", "serotonina"]

In [42]:
tipos_sujetos = ["S" + str(i).zfill(2) for i in range(4)]

longitud = 200
enteros = np.random.randint(0, 4, size = longitud)
sujetos = ["S" + str(i).zfill(2) for i in enteros]
sujetos

['S02',
 'S02',
 'S02',
 'S02',
 'S02',
 'S03',
 'S01',
 'S01',
 'S00',
 'S02',
 'S02',
 'S01',
 'S02',
 'S01',
 'S02',
 'S01',
 'S01',
 'S00',
 'S00',
 'S02',
 'S00',
 'S01',
 'S03',
 'S01',
 'S00',
 'S01',
 'S03',
 'S02',
 'S02',
 'S03',
 'S01',
 'S03',
 'S00',
 'S02',
 'S03',
 'S01',
 'S01',
 'S02',
 'S01',
 'S03',
 'S03',
 'S01',
 'S03',
 'S02',
 'S02',
 'S01',
 'S00',
 'S00',
 'S00',
 'S01',
 'S00',
 'S00',
 'S02',
 'S01',
 'S02',
 'S02',
 'S00',
 'S01',
 'S01',
 'S00',
 'S02',
 'S02',
 'S03',
 'S03',
 'S02',
 'S02',
 'S00',
 'S01',
 'S03',
 'S01',
 'S01',
 'S03',
 'S00',
 'S00',
 'S01',
 'S00',
 'S00',
 'S02',
 'S00',
 'S01',
 'S02',
 'S02',
 'S02',
 'S01',
 'S01',
 'S00',
 'S00',
 'S02',
 'S03',
 'S03',
 'S03',
 'S00',
 'S01',
 'S01',
 'S00',
 'S00',
 'S03',
 'S00',
 'S00',
 'S01',
 'S03',
 'S00',
 'S03',
 'S00',
 'S00',
 'S02',
 'S02',
 'S02',
 'S02',
 'S00',
 'S03',
 'S03',
 'S00',
 'S00',
 'S01',
 'S02',
 'S01',
 'S00',
 'S01',
 'S00',
 'S02',
 'S00',
 'S00',
 'S01',
 'S00',


In [46]:
ops_sujetos = np.random.randint(len(tipos_sujetos), size = longitud)
sujetos2 = [tipos_sujetos[i] for i in ops_sujetos]
sujetos2

['S01',
 'S01',
 'S00',
 'S00',
 'S03',
 'S03',
 'S02',
 'S02',
 'S01',
 'S00',
 'S01',
 'S03',
 'S03',
 'S01',
 'S00',
 'S02',
 'S01',
 'S01',
 'S00',
 'S03',
 'S03',
 'S00',
 'S02',
 'S03',
 'S02',
 'S01',
 'S03',
 'S03',
 'S01',
 'S00',
 'S01',
 'S02',
 'S01',
 'S00',
 'S02',
 'S01',
 'S01',
 'S03',
 'S03',
 'S03',
 'S03',
 'S01',
 'S03',
 'S01',
 'S00',
 'S00',
 'S01',
 'S03',
 'S03',
 'S00',
 'S00',
 'S01',
 'S03',
 'S00',
 'S03',
 'S02',
 'S00',
 'S01',
 'S02',
 'S02',
 'S03',
 'S01',
 'S01',
 'S01',
 'S01',
 'S03',
 'S01',
 'S01',
 'S02',
 'S00',
 'S00',
 'S00',
 'S02',
 'S01',
 'S01',
 'S03',
 'S00',
 'S00',
 'S00',
 'S02',
 'S03',
 'S03',
 'S00',
 'S03',
 'S02',
 'S02',
 'S03',
 'S03',
 'S03',
 'S02',
 'S03',
 'S02',
 'S01',
 'S01',
 'S03',
 'S00',
 'S01',
 'S00',
 'S01',
 'S01',
 'S00',
 'S02',
 'S01',
 'S00',
 'S02',
 'S01',
 'S00',
 'S03',
 'S00',
 'S03',
 'S00',
 'S01',
 'S02',
 'S03',
 'S01',
 'S02',
 'S02',
 'S03',
 'S00',
 'S01',
 'S02',
 'S03',
 'S02',
 'S00',
 'S00',


In [49]:
ops_generos = np.random.randint(len(generos), size = longitud)
gen = []
for x in ops_generos:
    if x == 0:
        gen.append("M")
    else: 
        gen.append("F")

gen

['M',
 'F',
 'F',
 'M',
 'M',
 'F',
 'M',
 'F',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'F',
 'M',
 'M',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'M',
 'M',
 'F',
 'M',
 'F',
 'M',
 'F',
 'F',
 'M',
 'M',
 'M',
 'M',
 'F',
 'M',
 'M',
 'M',
 'M',
 'F',
 'F',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'M',
 'M',
 'M',
 'F',
 'M',
 'F',
 'M',
 'M',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'M',
 'F',
 'M',
 'M',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'M',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'M',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'M',
 'F',
 'M',
 'F',
 'M',
 'F',
 'F',
 'M'

In [50]:
ops_gens = np.random.randint(len(generos), size = longitud)
generos2 = [generos[i] for i in ops_gens]
generos2

['F',
 'M',
 'M',
 'M',
 'M',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'M',
 'M',
 'F',
 'F',
 'M',
 'M',
 'F',
 'M',
 'F',
 'F',
 'M',
 'M',
 'M',
 'M',
 'M',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'M',
 'M',
 'M',
 'M',
 'M',
 'M',
 'F',
 'M',
 'F',
 'M',
 'M',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'M',
 'M',
 'M',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'F',
 'M',
 'M',
 'M',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'M',
 'F',
 'M',
 'M',
 'M',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'M',
 'M',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'M',
 'F',
 'M',
 'M',
 'M',
 'M',
 'M',
 'F',
 'F',
 'M',
 'M',
 'F'

In [51]:
ops_cond = np.random.randint(len(condicion), size = longitud)
condicion2 = [condicion[i] for i in ops_cond]
condicion2

['control',
 'experimental',
 'experimental',
 'control',
 'control',
 'experimental',
 'control',
 'experimental',
 'experimental',
 'experimental',
 'control',
 'control',
 'experimental',
 'control',
 'experimental',
 'control',
 'experimental',
 'control',
 'experimental',
 'control',
 'control',
 'experimental',
 'experimental',
 'control',
 'control',
 'control',
 'control',
 'control',
 'experimental',
 'experimental',
 'experimental',
 'control',
 'control',
 'control',
 'control',
 'experimental',
 'control',
 'control',
 'control',
 'experimental',
 'control',
 'control',
 'control',
 'control',
 'control',
 'control',
 'control',
 'control',
 'experimental',
 'control',
 'control',
 'control',
 'control',
 'experimental',
 'control',
 'control',
 'control',
 'experimental',
 'experimental',
 'experimental',
 'control',
 'control',
 'control',
 'control',
 'control',
 'control',
 'control',
 'experimental',
 'experimental',
 'control',
 'experimental',
 'experimental',
 'cont

In [52]:
ops_region = np.random.randint(len(region), size = longitud)
region2 = [region[i] for i in ops_region]
region2

['hipocampo',
 'cx prefrontal',
 'cx prefrontal',
 'cx prefrontal',
 'hipocampo',
 'amígdala',
 'amígdala',
 'amígdala',
 'amígdala',
 'amígdala',
 'cx prefrontal',
 'amígdala',
 'cx prefrontal',
 'hipocampo',
 'amígdala',
 'amígdala',
 'cx prefrontal',
 'cx prefrontal',
 'hipocampo',
 'cx prefrontal',
 'cx prefrontal',
 'amígdala',
 'cx prefrontal',
 'amígdala',
 'cx prefrontal',
 'cx prefrontal',
 'cx prefrontal',
 'amígdala',
 'amígdala',
 'hipocampo',
 'amígdala',
 'amígdala',
 'amígdala',
 'amígdala',
 'cx prefrontal',
 'cx prefrontal',
 'amígdala',
 'hipocampo',
 'hipocampo',
 'hipocampo',
 'cx prefrontal',
 'cx prefrontal',
 'amígdala',
 'cx prefrontal',
 'hipocampo',
 'hipocampo',
 'hipocampo',
 'amígdala',
 'amígdala',
 'hipocampo',
 'amígdala',
 'amígdala',
 'cx prefrontal',
 'cx prefrontal',
 'hipocampo',
 'amígdala',
 'hipocampo',
 'cx prefrontal',
 'cx prefrontal',
 'amígdala',
 'cx prefrontal',
 'hipocampo',
 'hipocampo',
 'cx prefrontal',
 'hipocampo',
 'hipocampo',
 'am

In [53]:
ops_nt = np.random.randint(len(neurotransmisor), size = longitud)
nt2 = [neurotransmisor[i] for i in ops_nt]
nt2

['dopamina',
 'serotonina',
 'serotonina',
 'dopamina',
 'serotonina',
 'serotonina',
 'serotonina',
 'dopamina',
 'serotonina',
 'serotonina',
 'serotonina',
 'dopamina',
 'dopamina',
 'dopamina',
 'dopamina',
 'dopamina',
 'serotonina',
 'serotonina',
 'dopamina',
 'serotonina',
 'dopamina',
 'dopamina',
 'dopamina',
 'dopamina',
 'serotonina',
 'serotonina',
 'serotonina',
 'serotonina',
 'serotonina',
 'dopamina',
 'dopamina',
 'serotonina',
 'serotonina',
 'serotonina',
 'serotonina',
 'serotonina',
 'dopamina',
 'serotonina',
 'dopamina',
 'serotonina',
 'dopamina',
 'dopamina',
 'serotonina',
 'dopamina',
 'serotonina',
 'serotonina',
 'dopamina',
 'dopamina',
 'dopamina',
 'dopamina',
 'dopamina',
 'dopamina',
 'serotonina',
 'dopamina',
 'dopamina',
 'serotonina',
 'dopamina',
 'serotonina',
 'serotonina',
 'dopamina',
 'dopamina',
 'dopamina',
 'dopamina',
 'serotonina',
 'serotonina',
 'dopamina',
 'serotonina',
 'dopamina',
 'dopamina',
 'serotonina',
 'serotonina',
 'serot

- crear un dataframe de 200 filas con las columnas: tipos_sujetos, generos, condicion, region, neurotransmisor
- estas columnas deben tener una distribución uniforme.
- Agregar una columna llamada "precisión" que tenga una distribución normal con mu = 0.92 y sigma = 0.08
- Este dataset pretende simular los resultados de un estudio en el que se miden variables cognitivas y fisiológicas en diferentes regiones cerebrales, sujetos y condiciones experimentales.

- generar un histograma de cuantos datos por sujeto se tienen
- mostrar en un histograma la proporción de neurotransmisor


In [55]:
datos = {
    "Tipos sujetos" : [sujetos2],
    "Generos" : [generos2],
    "Condicion" : [condicion2],
    "Region" : [region2],
    "Neurotransmisor" : [nt2]
}

datos

{'Tipos sujetos': [['S01',
   'S01',
   'S00',
   'S00',
   'S03',
   'S03',
   'S02',
   'S02',
   'S01',
   'S00',
   'S01',
   'S03',
   'S03',
   'S01',
   'S00',
   'S02',
   'S01',
   'S01',
   'S00',
   'S03',
   'S03',
   'S00',
   'S02',
   'S03',
   'S02',
   'S01',
   'S03',
   'S03',
   'S01',
   'S00',
   'S01',
   'S02',
   'S01',
   'S00',
   'S02',
   'S01',
   'S01',
   'S03',
   'S03',
   'S03',
   'S03',
   'S01',
   'S03',
   'S01',
   'S00',
   'S00',
   'S01',
   'S03',
   'S03',
   'S00',
   'S00',
   'S01',
   'S03',
   'S00',
   'S03',
   'S02',
   'S00',
   'S01',
   'S02',
   'S02',
   'S03',
   'S01',
   'S01',
   'S01',
   'S01',
   'S03',
   'S01',
   'S01',
   'S02',
   'S00',
   'S00',
   'S00',
   'S02',
   'S01',
   'S01',
   'S03',
   'S00',
   'S00',
   'S00',
   'S02',
   'S03',
   'S03',
   'S00',
   'S03',
   'S02',
   'S02',
   'S03',
   'S03',
   'S03',
   'S02',
   'S03',
   'S02',
   'S01',
   'S01',
   'S03',
   'S00',
   'S01',
   'S00',
   

In [None]:
variables = [sujeto, genero, condicion, region, neuro] 
data 

["sujeto", "genero", "condicion", "region", "neuro"] 

In [57]:
df_datos = pd.DataFrame(datos)
df_datos

Unnamed: 0,Tipos sujetos,Generos,Condicion,Region,Neurotransmisor
0,"[S01, S01, S00, S00, S03, S03, S02, S02, S01, ...","[F, M, M, M, M, F, M, M, F, F, M, M, F, F, F, ...","[control, experimental, experimental, control,...","[hipocampo, cx prefrontal, cx prefrontal, cx p...","[dopamina, serotonina, serotonina, dopamina, s..."
