<h3>Pandas III</h3>

GroupBy

- Método que irá trabalhar em 3 etapas:
    - Split: Agrupar
    - Apply: Aplicar um determinado tratamento
    - Reduce: Reduzir (reagrupar)

- Não cria um novo dataframe, apenas manipula a visualização, para garantir uma eficiência computacional maior

Também pode-se aplicar métodos dentro de um groupBy:

- first: seleciona o primeiro elemento de cada um dos grupos
- get_group: seleciona todos os elementos de um dado grupo
- groups: retorna um dicionário, onde temos as chaves os grupos e os valores como os índices dos determinados grupos

In [2]:
import pandas as pd

# se quiser, pode-se buscar a base de dados online também! Apenas inserindo a URL
df = pd.read_csv('tips.csv')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [5]:
df_sex = df.groupby('sex')

df_sex.first()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,16.99,1.01,No,Sun,Dinner,2
Male,10.34,1.66,No,Sun,Dinner,3


In [10]:
df_sex.get_group('Female').head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
11,35.26,5.0,Female,No,Sun,Dinner,4
14,14.83,3.02,Female,No,Sun,Dinner,2
16,10.33,1.67,Female,No,Sun,Dinner,3


In [14]:
print(df_sex.groups.items())


dict_items([('Female', Int64Index([  0,   4,  11,  14,  16,  18,  21,  22,  29,  32,  33,  37,  51,
             52,  57,  66,  67,  71,  72,  73,  74,  82,  85,  92,  93,  94,
            100, 101, 102, 103, 104, 109, 111, 114, 115, 117, 118, 119, 121,
            124, 125, 127, 128, 131, 132, 133, 134, 135, 136, 137, 139, 140,
            143, 144, 145, 146, 147, 155, 157, 158, 162, 164, 168, 169, 178,
            186, 188, 191, 197, 198, 201, 202, 203, 205, 209, 213, 214, 215,
            219, 221, 223, 225, 226, 229, 238, 240, 243],
           dtype='int64')), ('Male', Int64Index([  1,   2,   3,   5,   6,   7,   8,   9,  10,  12,
            ...
            231, 232, 233, 234, 235, 236, 237, 239, 241, 242],
           dtype='int64', length=157))])


Podemos demonstrar os primeiros elementos de algum dos grupos, de acordo aos seus índices

In [17]:
print(df_sex.groups['Female'][0:5])

Int64Index([0, 4, 11, 14, 16], dtype='int64')


Também pode-se agrupar os itens de acordo a uma informação externa

- usar uma lista para determinar os elementos de um determinado conjunto

In [19]:
import numpy as np

In [21]:
# Construindo DataFrame a partir de um dicionário
df = pd.DataFrame({'key1': ['a','a','b','b','a'],
                  'key2': ['one','two','one','two','one'], 
                  'data1': np.random.uniform(low=0,high=1,size=5),
                  'data2': np.random.uniform(low=0,high=1,size=5)})
print(df)

# criando uma lista de 0 e 1 com o mesmo número de linhas do DataFrame
ls = [i for i in np.random.randint(0,2,df.shape[0])]

#lista criada
print(ls) 

  key1 key2     data1     data2
0    a  one  0.007472  0.711312
1    a  two  0.893185  0.143869
2    b  one  0.659202  0.860615
3    b  two  0.429978  0.985054
4    a  one  0.308138  0.850885
[0, 1, 1, 0, 1]


In [26]:
gbylist = df.groupby(ls)

print('Elementos do grupo 0:',gbylist.get_group(0))
print('\nElementos do grupo 1:',gbylist.get_group(1))

Elementos do grupo 0:   key1 key2     data1     data2
0    a  one  0.007472  0.711312
3    b  two  0.429978  0.985054

Elementos do grupo 1:   key1 key2     data1     data2
1    a  two  0.893185  0.143869
2    b  one  0.659202  0.860615
4    a  one  0.308138  0.850885


Pode-se também efetuar o groupby utilizando múltiplos elementos

- Nesse caso, teremos gerados os parâmetros: 
    - groupname: nome do grupo e seus elementos
    - group: elementos pertencentes ao grupo

In [27]:
# Construindo DataFrame a partir de um dicionário
df = pd.DataFrame({'key1': ['a','a','b','b','a','a','b','a'],
                  'key2': ['one','two','one','two','one','two','two','one'], 
                  'data1': np.random.uniform(low=0,high=1,size=8),
                  'data2': np.random.uniform(low=0,high=1,size=8)})

print(df)

  key1 key2     data1     data2
0    a  one  0.697963  0.564158
1    a  two  0.449797  0.129090
2    b  one  0.508446  0.628486
3    b  two  0.070598  0.092521
4    a  one  0.801396  0.643906
5    a  two  0.160798  0.328090
6    b  two  0.156221  0.193677
7    a  one  0.664719  0.096991


In [31]:
dfh = df.groupby(['key1','key2'])

for groupname, group in dfh:
    print('Nome do grupo {}\n'.format(groupname), group)
    print('\n')

Nome do grupo ('a', 'one')
   key1 key2     data1     data2
0    a  one  0.697963  0.564158
4    a  one  0.801396  0.643906
7    a  one  0.664719  0.096991


Nome do grupo ('a', 'two')
   key1 key2     data1    data2
1    a  two  0.449797  0.12909
5    a  two  0.160798  0.32809


Nome do grupo ('b', 'one')
   key1 key2     data1     data2
2    b  one  0.508446  0.628486


Nome do grupo ('b', 'two')
   key1 key2     data1     data2
3    b  two  0.070598  0.092521
6    b  two  0.156221  0.193677




GroupBy usando funções

In [32]:
# constuindo DataFrame com rótulos de linhas e colunas
dfp = pd.DataFrame(data=np.random.randint(low=0, high=10, size=(6,5)),
               columns=['a','b','c','d','e'], 
               index=['Joe','Michel','Steve','Wes','Jim','Travis'])
print(dfp)

        a  b  c  d  e
Joe     5  8  8  2  2
Michel  0  3  7  4  2
Steve   7  9  6  1  4
Wes     4  7  8  6  2
Jim     2  3  0  6  6
Travis  5  6  9  3  6


In [36]:
agrupamento_tamanho_nome = dfp.groupby(lambda x: len(x))

for groupname, group in agrupamento_tamanho_nome:
    print('Agrupamento: {} letras'.format(groupname))
    print('\n',group,'\n')

Agrupamento: 3 letras

      a  b  c  d  e
Joe  5  8  8  2  2
Wes  4  7  8  6  2
Jim  2  3  0  6  6 

Agrupamento: 5 letras

        a  b  c  d  e
Steve  7  9  6  1  4 

Agrupamento: 6 letras

         a  b  c  d  e
Michel  0  3  7  4  2
Travis  5  6  9  3  6 



<h3>Transformações e Agregações</h3>

- Agregação: combinam várias linhas em um único valor.
    - ex: média, soma, mediana, etc
    - aplicar vários métodos ao mesmo tempo utilizando o método 'agg' -> aggregate

- Filtragem: apenas um subconjunto que responde aos critérios estabelecidos

- Transformação: transforma os elementos de um dataframe e retorna um novo dataframe

In [40]:
df = pd.read_csv('tips.csv')

# aqui, filtramos pelo gênero (masc/femi), selecionamos o máximo valor da coluna de gorjeta 'tip'
gorjeta_maxima = df.groupby(['sex'])['tip'].max()

print('Gorjeta Máxima\n')
print(gorjeta_maxima)

Gorjeta Máxima

sex
Female     6.5
Male      10.0
Name: tip, dtype: float64


Agregando os dados com múltiplos métodos

In [42]:
media_desvpad_gorjeta = round(df.groupby(['sex'])['tip'].agg(['mean','std']),2)

print('Média e Desvio Padrão')
print(media_desvpad_gorjeta)

Média e Desvio Padrão
        mean   std
sex               
Female  2.83  1.16
Male    3.09  1.49


O método **reset_index** irá reordenar os índices das linhas de acordo a valores especificados ou, caso nada seja explicitado, usará como índices números inteiros

In [43]:
media_desvpad_gorjeta = media_desvpad_gorjeta.reset_index()

print('Média e Desvio Padrão')
print(media_desvpad_gorjeta)

Média e Desvio Padrão
      sex  mean   std
0  Female  2.83  1.16
1    Male  3.09  1.49


Pode-se utilizar os métodos de agregação de modo ainda mais específico, utilizando um dicionário com as colunas onde um determinado método irá ser aplicado (key) e o método a ser executado (value)

In [46]:
df.head()

dfm = df.groupby(['sex']).agg({ 'tip': 'mean',
                                'total_bill': 'max',
                                'day': lambda x : x.mode()})

print('\n')
print(dfm.head())



             tip  total_bill   day
sex                               
Female  2.833448       44.30  Thur
Male    3.089618       50.81   Sat


Pode-se também renomear a coluna onde se deseja realizar a agregação, utilizando a entrada dos argumentos especificando tuplas em estilo (coluna_alvo, operacao_agregacao)

In [51]:
agregacao_com_renomeio = df.groupby(['sex']).agg(   mean_tip=('tip','mean'),
                                                    max_bill=('total_bill','max'),
                                                    most_freq_day=('day',lambda x:x.mode()))

print('Agregação com renomeio de colunas\n')
print(agregacao_com_renomeio)

Agregação com renomeio de colunas

        mean_tip  max_bill most_freq_day
sex                                     
Female  2.833448     44.30          Thur
Male    3.089618     50.81           Sat


<h3>Métodos de Filtragem</h3>


In [64]:
# Construindo DataFrame a partir de um dicionário
df = pd.DataFrame({'key1': ['a','c','b','c','a','a','b','a','c','b'],
                  'data0': np.random.uniform(low=0,high=1,size=10),
                  'data1': np.random.uniform(low=0,high=1,size=10),
                  'data2': np.random.uniform(low=0,high=1,size=10)})

print("DataFrame\n")
print(df)

DataFrame

  key1     data0     data1     data2
0    a  0.423292  0.767815  0.849463
1    c  0.327677  0.615919  0.760452
2    b  0.985021  0.769609  0.714696
3    c  0.868019  0.685085  0.089287
4    a  0.074275  0.421211  0.472310
5    a  0.372726  0.161554  0.097766
6    b  0.856767  0.163908  0.508189
7    a  0.506655  0.961478  0.419237
8    c  0.427813  0.172816  0.192571
9    b  0.078311  0.365671  0.069379


In [60]:
data1_mean = round(df['data1'].mean(),2)

print("Média da coluna 'data1':", data1_mean)

Média da coluna 'data1': 0.44


In [67]:
media_colunas = df.groupby('key1').mean()

print('Média de cada grupo\n')
print(media_colunas)

Média de cada grupo

         data0     data1     data2
key1                              
a     0.344237  0.578014  0.459694
b     0.640033  0.433063  0.430755
c     0.541170  0.491274  0.347437


In [69]:
media_data2_maior_media_data1 = df.groupby('key1').filter(lambda x: x['data2'].mean() > data1_mean)

print(media_data2_maior_media_data1)

  key1     data0     data1     data2
0    a  0.423292  0.767815  0.849463
4    a  0.074275  0.421211  0.472310
5    a  0.372726  0.161554  0.097766
7    a  0.506655  0.961478  0.419237


<h3>Métodos de Transformação</h3>

- método transform

In [70]:
# Construindo DataFrame a partir de um dicionário
df = pd.DataFrame({'key1': ['a','c','b','c','a','a','b','a','c','b'],
                  'data0': np.random.uniform(low=0,high=1,size=10),
                  'data1': np.random.uniform(low=0,high=1,size=10),
                  'data2': np.random.uniform(low=0,high=1,size=10)})

print(df)

  key1     data0     data1     data2
0    a  0.298361  0.990721  0.985355
1    c  0.776389  0.819263  0.186074
2    b  0.827215  0.100741  0.280756
3    c  0.250447  0.955738  0.456253
4    a  0.075205  0.598018  0.795631
5    a  0.985638  0.646465  0.002764
6    b  0.710115  0.894345  0.525289
7    a  0.526766  0.249090  0.555633
8    c  0.619166  0.006552  0.411125
9    b  0.010008  0.137959  0.154341


In [72]:
media_grupos = df.groupby('key1').mean()

         data0     data1     data2
key1                              
a     0.471493  0.621074  0.584846
b     0.515779  0.377682  0.320129
c     0.548667  0.593851  0.351151


In [74]:
df[['d1','d2','d3']] = df.groupby('key1').transform(lambda x:x-x.mean())

print(df)

  key1     data0     data1     data2        d1        d2        d3
0    a  0.298361  0.990721  0.985355 -0.173131  0.369647  0.400509
1    c  0.776389  0.819263  0.186074  0.227722  0.225412 -0.165077
2    b  0.827215  0.100741  0.280756  0.311436 -0.276941 -0.039373
3    c  0.250447  0.955738  0.456253 -0.298220  0.361887  0.105102
4    a  0.075205  0.598018  0.795631 -0.396287 -0.023055  0.210785
5    a  0.985638  0.646465  0.002764  0.514146  0.025391 -0.582082
6    b  0.710115  0.894345  0.525289  0.194335  0.516664  0.205161
7    a  0.526766  0.249090  0.555633  0.055273 -0.371983 -0.029213
8    c  0.619166  0.006552  0.411125  0.070499 -0.587299  0.059975
9    b  0.010008  0.137959  0.154341 -0.505771 -0.239723 -0.165788


Método **apply**

O mais versátil dos métodos de transformação

In [75]:
dif_max_min = df.groupby('key1').apply(lambda x: x.max() - x.min())

print(dif_max_min)

         data0     data1     data2        d1        d2        d3
key1                                                            
a     0.910433  0.741630  0.982591  0.910433  0.741630  0.982591
b     0.817207  0.793605  0.370949  0.817207  0.793605  0.370949
c     0.525942  0.949186  0.270179  0.525942  0.949186  0.270179


Retornando os resultados das menores diferenças para cada grupo

In [82]:
max_min = df.groupby('key1').apply(lambda x: (x.max()-x.min()).sort_values()[0])

print(max_min)

key1
a    0.741630
b    0.370949
c    0.270179
dtype: float64


MapReduce da Apache

- serve do mesmo modo que o groupby do pandas, mas serve de modo mais otimizado a grandes volumes de dados