# Dividiendo datos con "keys" aleatorias

In [41]:
import pandas as pd
import numpy as np


In [42]:
df = pd.DataFrame({
    "key" : ["A","B",'C','A','B','C'],
    'value1' : range(6),
    'value2' : np.random.randint(0, 100, 6)
})

df

Unnamed: 0,key,value1,value2
0,A,0,87
1,B,1,24
2,C,2,98
3,A,3,99
4,B,4,7
5,C,5,38


In [43]:
L=[0,0,0,1,1,1]
df.groupby(L).sum()

Unnamed: 0,key,value1,value2
0,ABC,3,209
1,ABC,12,144


In [44]:
# tambien se puede hacer con columnas, en lugar del nombre de la columna
df.groupby(df['key']).sum()

Unnamed: 0_level_0,value1,value2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,186
B,5,31
C,7,136


In [45]:
# cambiando columna para que se vuelva el indice, practicamente se hace un copy
df2 = df.set_index('key')
df2

Unnamed: 0_level_0,value1,value2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,87
B,1,24
C,2,98
A,3,99
B,4,7
C,5,38


In [46]:
# para acceder a un solo dato se tiene que hacer de la siguiente forma
df2[1:2] = [2,2]
df2

Unnamed: 0_level_0,value1,value2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,87
B,2,2
C,2,98
A,3,99
B,4,7
C,5,38


In [47]:
df  # no se altero el indice original

Unnamed: 0,key,value1,value2
0,A,0,87
1,B,1,24
2,C,2,98
3,A,3,99
4,B,4,7
5,C,5,38


In [48]:
# otra prueba
df3 = df
df3[1:2] = ["A",2,20]
df3




Unnamed: 0,key,value1,value2
0,A,0,87
1,A,2,20
2,C,2,98
3,A,3,99
4,B,4,7
5,C,5,38


In [49]:
# si se altero el original
df

Unnamed: 0,key,value1,value2
0,A,0,87
1,A,2,20
2,C,2,98
3,A,3,99
4,B,4,7
5,C,5,38


In [50]:
# haciendo mapeado para agrupar distintos "niveles"
mapping = {
    'A' : 'vocal',
    'B' : 'consonante',
    'C' : 'consonante'
}

In [51]:
# realizando dicho mapping, es necesario hacer de la columna el indice
df2.groupby(mapping).sum()

Unnamed: 0_level_0,value1,value2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
consonante,13,145
vocal,3,186


In [52]:
# modificando las columnas con el gropuby, se puede pasar una lista y esta aplicara a cada funcion
df2.groupby(str.lower).sum()



Unnamed: 0_level_0,value1,value2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3,186
b,6,9
c,7,136


In [53]:
# por dos o más factores
df2.groupby([str.lower, mapping]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key,key,Unnamed: 2_level_1,Unnamed: 3_level_1
a,vocal,3,186
b,consonante,6,9
c,consonante,7,136


In [54]:
# por dos o más factores, en otro orden
df2.groupby([mapping, 'key']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key,key,Unnamed: 2_level_1,Unnamed: 3_level_1
consonante,B,6,9
consonante,C,7,136
vocal,A,3,186


In [55]:
# ejemplo con mas factores

df3 = pd.DataFrame({
    "key" : ["A","B",'C','A','B','C'],
    "key2" : [0,0,0,1,1,1],
    'value1' : range(6),
    'value2' : np.random.randint(0, 100, 6)
})

df3



Unnamed: 0,key,key2,value1,value2
0,A,0,0,39
1,B,0,1,9
2,C,0,2,48
3,A,1,3,47
4,B,1,4,45
5,C,1,5,28


In [56]:
df3.groupby(['key', 'key2']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0,0,39
A,1,3,47
B,0,1,9
B,1,4,45
C,0,2,48
C,1,5,28


In [57]:
#otro orden
df3.groupby([ 'key2', 'key']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key2,key,Unnamed: 2_level_1,Unnamed: 3_level_1
0,A,0,39
0,B,1,9
0,C,2,48
1,A,3,47
1,B,4,45
1,C,5,28
