# GroupBy

Podemos usar o método `groupby` para agrupar dados de uma `Series` ou `DataFrame` de acordo com seus valores, e depois computar dados ou filtrar seu conteúdo baseando-se no conteúdo de cada grupo.

In [1]:
import numpy as np
import pandas as pd

Antes de começar, vamos carregar um `DataFrame` contendo o valor da taxa SELIC anualizada, dia a dia, a partir de junho de 1986.

In [2]:
# fonte: http://dados.gov.br/dataset/1178-taxa-de-juros-selic-anualizada-base-252,
# modificado para servir melhor ao exemplo
df = pd.read_csv('bcdata.sgs.1178.csv',
                 sep=';',
                 decimal=',')

In [3]:
df.head()

Unnamed: 0,ano,mes,dia,valor
0,1986,6,4,17.8
1,1986,6,5,18.5
2,1986,6,6,18.31
3,1986,6,9,18.76
4,1986,6,10,18.4


In [4]:
df.tail()

Unnamed: 0,ano,mes,dia,valor
8237,2019,4,18,6.4
8238,2019,4,22,6.4
8239,2019,4,23,6.4
8240,2019,4,24,6.4
8241,2019,4,25,6.4


O próximo passo é agrupar os valores por ano:

In [5]:
agrupado_ano = df.groupby('ano')

Para obtermos todos os valores de um grupo, podemos usar o método `get_group` e passar como parâmetro o nome do grupo desejado:

In [6]:
agrupado_ano.get_group(2017).head()

Unnamed: 0,ano,mes,dia,valor
7664,2017,1,2,13.65
7665,2017,1,3,13.65
7666,2017,1,4,13.65
7667,2017,1,5,13.65
7668,2017,1,6,13.65


Também podemos agrupar pelo valor de mais de uma coluna:

In [7]:
agrupado_ano_mes = df.groupby(['ano', 'mes'])

Neste caso, como o identificador de cada grupo são dois valores (ano e mês), devemos passá-los como uma tupla para `get_group`:

In [8]:
agrupado_ano_mes.get_group((2017, 4)).head()

Unnamed: 0,ano,mes,dia,valor
7727,2017,4,3,12.15
7728,2017,4,4,12.15
7729,2017,4,5,12.15
7730,2017,4,6,12.15
7731,2017,4,7,12.15


Também podemos obter todos os grupos usando a propriedade `groups`. Note que o resultado nada mais é do que um dicionário em que a chave é o identificador do grupo (uma tupla (ano, mês), neste caso) e o valor é a relação dos índices das linhas que pertencem ao grupo:

In [9]:
agrupado_ano_mes.groups

{(1986,
  6): Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18], dtype='int64'),
 (1986,
  7): Int64Index([19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
             36, 37, 38, 39, 40, 41],
            dtype='int64'),
 (1986,
  8): Int64Index([42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58,
             59, 60, 61, 62],
            dtype='int64'),
 (1986,
  9): Int64Index([63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79,
             80, 81, 82, 83, 84],
            dtype='int64'),
 (1986,
  10): Int64Index([ 85,  86,  87,  88,  89,  90,  91,  92,  93,  94,  95,  96,  97,
              98,  99, 100, 101, 102, 103, 104, 105, 106, 107],
            dtype='int64'),
 (1986,
  11): Int64Index([108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120,
             121, 122, 123, 124, 125, 126, 127],
            dtype='int64'),
 (1986,
  12): Int64Index([128, 129, 130, 131, 132, 133, 134, 135, 136

Assim sendo, é muito simples percorrermos todos os grupos e seus valores:

In [10]:
for name, group in agrupado_ano_mes:
    print("Nome do Grupo:", name)
    print(group)
    print()

Nome do Grupo: (1986, 6)
     ano  mes  dia  valor
0   1986    6    4  17.80
1   1986    6    5  18.50
2   1986    6    6  18.31
3   1986    6    9  18.76
4   1986    6   10  18.40
5   1986    6   11  18.31
6   1986    6   12  18.26
7   1986    6   13  18.14
8   1986    6   16  18.24
9   1986    6   17  18.16
10  1986    6   18  18.18
11  1986    6   19  18.14
12  1986    6   20  18.10
13  1986    6   23  18.12
14  1986    6   24  18.10
15  1986    6   25  18.24
16  1986    6   26  18.21
17  1986    6   27  18.18
18  1986    6   30  18.27

Nome do Grupo: (1986, 7)
     ano  mes  dia  valor
19  1986    7    1  18.28
20  1986    7    2  18.77
21  1986    7    3  20.48
22  1986    7    4  23.31
23  1986    7    7  23.35
24  1986    7    8  23.30
25  1986    7    9  23.69
26  1986    7   10  23.91
27  1986    7   11  23.92
28  1986    7   14  23.93
29  1986    7   15  23.80
30  1986    7   16  23.83
31  1986    7   17  23.83
32  1986    7   18  23.88
33  1986    7   21  23.89
34  1986    7

       ano  mes  dia    valor
1142  1991    1    2   843.60
1143  1991    1    3   890.28
1144  1991    1    4   727.96
1145  1991    1    7   634.35
1146  1991    1    8   773.29
1147  1991    1    9   831.11
1148  1991    1   10   704.83
1149  1991    1   11   540.51
1150  1991    1   14   850.70
1151  1991    1   15   774.74
1152  1991    1   16   722.46
1153  1991    1   17  1184.84
1154  1991    1   18   997.02
1155  1991    1   21   663.68
1156  1991    1   22   644.20
1157  1991    1   23   603.79
1158  1991    1   24   685.62
1159  1991    1   25   816.50
1160  1991    1   28   741.86
1161  1991    1   29   789.44
1162  1991    1   30   976.22
1163  1991    1   31  1329.11

Nome do Grupo: (1991, 2)
       ano  mes  dia   valor
1164  1991    2    4  120.53
1165  1991    2    5  118.15
1166  1991    2    6  113.45
1167  1991    2    7  116.33
1168  1991    2    8  121.83
1169  1991    2   13  121.83
1170  1991    2   14  121.83
1171  1991    2   15  198.32
1172  1991    2   18  2

       ano  mes  dia  valor
2600  1996   11    1  25.23
2601  1996   11    4  25.23
2602  1996   11    5  25.55
2603  1996   11    6  25.45
2604  1996   11    7  25.45
2605  1996   11    8  25.66
2606  1996   11   11  25.76
2607  1996   11   12  25.66
2608  1996   11   13  25.13
2609  1996   11   14  25.23
2610  1996   11   18  25.34
2611  1996   11   19  25.13
2612  1996   11   20  25.23
2613  1996   11   21  25.02
2614  1996   11   22  25.23
2615  1996   11   25  25.13
2616  1996   11   26  25.02
2617  1996   11   27  24.82
2618  1996   11   28  25.02
2619  1996   11   29  25.13

Nome do Grupo: (1996, 12)
       ano  mes  dia  valor
2620  1996   12    2  23.56
2621  1996   12    3  23.15
2622  1996   12    4  23.25
2623  1996   12    5  23.46
2624  1996   12    6  23.56
2625  1996   12    9  23.46
2626  1996   12   10  23.67
2627  1996   12   11  23.67
2628  1996   12   12  23.77
2629  1996   12   13  23.77
2630  1996   12   16  23.88
2631  1996   12   17  24.08
2632  1996   12   18 

       ano  mes  dia  valor
4145  2003    1    2  24.90
4146  2003    1    3  24.90
4147  2003    1    6  24.90
4148  2003    1    7  24.90
4149  2003    1    8  24.90
4150  2003    1    9  24.90
4151  2003    1   10  24.90
4152  2003    1   13  24.90
4153  2003    1   14  24.90
4154  2003    1   15  24.90
4155  2003    1   16  24.90
4156  2003    1   17  24.90
4157  2003    1   20  24.90
4158  2003    1   21  24.90
4159  2003    1   22  24.90
4160  2003    1   23  25.40
4161  2003    1   24  25.40
4162  2003    1   27  25.40
4163  2003    1   28  25.40
4164  2003    1   29  25.40
4165  2003    1   30  25.39
4166  2003    1   31  25.38

Nome do Grupo: (2003, 2)
       ano  mes  dia  valor
4167  2003    2    3  25.38
4168  2003    2    4  25.40
4169  2003    2    5  25.39
4170  2003    2    6  25.38
4171  2003    2    7  25.37
4172  2003    2   10  25.36
4173  2003    2   11  25.35
4174  2003    2   12  25.34
4175  2003    2   13  25.32
4176  2003    2   14  25.33
4177  2003    2   17  

       ano  mes  dia  valor
5632  2008   12    1  13.65
5633  2008   12    2  13.66
5634  2008   12    3  13.66
5635  2008   12    4  13.66
5636  2008   12    5  13.66
5637  2008   12    8  13.66
5638  2008   12    9  13.66
5639  2008   12   10  13.66
5640  2008   12   11  13.66
5641  2008   12   12  13.66
5642  2008   12   15  13.66
5643  2008   12   16  13.66
5644  2008   12   17  13.66
5645  2008   12   18  13.66
5646  2008   12   19  13.66
5647  2008   12   22  13.66
5648  2008   12   23  13.66
5649  2008   12   24  13.66
5650  2008   12   26  13.66
5651  2008   12   29  13.66
5652  2008   12   30  13.66
5653  2008   12   31  13.67

Nome do Grupo: (2009, 1)
       ano  mes  dia  valor
5654  2009    1    2  13.67
5655  2009    1    5  13.66
5656  2009    1    6  13.66
5657  2009    1    7  13.66
5658  2009    1    8  13.66
5659  2009    1    9  13.66
5660  2009    1   12  13.66
5661  2009    1   13  13.66
5662  2009    1   14  13.66
5663  2009    1   15  13.66
5664  2009    1   16  

       ano  mes  dia  valor
7184  2015    2    2  12.15
7185  2015    2    3  12.15
7186  2015    2    4  12.15
7187  2015    2    5  12.15
7188  2015    2    6  12.15
7189  2015    2    9  12.15
7190  2015    2   10  12.15
7191  2015    2   11  12.15
7192  2015    2   12  12.15
7193  2015    2   13  12.15
7194  2015    2   18  12.15
7195  2015    2   19  12.15
7196  2015    2   20  12.15
7197  2015    2   23  12.15
7198  2015    2   24  12.15
7199  2015    2   25  12.15
7200  2015    2   26  12.15
7201  2015    2   27  12.15

Nome do Grupo: (2015, 3)
       ano  mes  dia  valor
7202  2015    3    2  12.15
7203  2015    3    3  12.15
7204  2015    3    4  12.15
7205  2015    3    5  12.65
7206  2015    3    6  12.65
7207  2015    3    9  12.65
7208  2015    3   10  12.65
7209  2015    3   11  12.65
7210  2015    3   12  12.65
7211  2015    3   13  12.65
7212  2015    3   16  12.65
7213  2015    3   17  12.65
7214  2015    3   18  12.65
7215  2015    3   19  12.65
7216  2015    3   20  

Qual o tamanho de cada grupo? No nosso caso, esse é o número de dias em cada mês para os quais foi publicado um valor de SELIC.

In [11]:
agrupado_ano_mes.size().head(15)

ano   mes
1986  6      19
      7      23
      8      21
      9      22
      10     23
      11     20
      12     22
1987  1      21
      2      20
      3      20
      4      19
      5      20
      6      21
      7      23
      8      21
dtype: int64

Também é possível calcular algumas medidas estatísticas básicas para cada grupo:

In [12]:
agrupado_ano_mes['valor'].describe().T

ano,1986,1986,1986,1986,1986,1986,1986,1987,1987,1987,...,2018,2018,2018,2018,2018,2018,2019,2019,2019,2019
mes,6,7,8,9,10,11,12,1,2,3,...,7,8,9,10,11,12,1,2,3,4
count,19.0,23.0,21.0,22.0,23.0,20.0,22.0,21.0,20.0,20.0,...,22.0,23.0,19.0,22.0,20.0,20.0,22.0,20.0,19.0,18.0
mean,18.232632,23.523478,35.685714,39.389091,23.656522,34.354,84.290909,255.158095,915.582,317.623,...,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4
std,0.190812,1.85596,6.049216,0.247539,1.627579,3.227915,11.330868,58.658482,325.858384,47.697889,...,1.818159e-15,1.81628e-15,9.125166e-16,1.818159e-15,9.112518e-16,9.112518e-16,1.818159e-15,9.112518e-16,9.125166e-16,9.139281e-16
min,17.8,18.28,25.13,39.07,18.29,32.2,65.07,115.56,298.37,174.63,...,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4
25%,18.14,23.52,32.04,39.19,23.95,32.61,80.7375,249.18,586.105,306.93,...,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4
50%,18.21,23.89,39.46,39.255,24.28,32.945,82.92,265.19,1154.32,322.74,...,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4
75%,18.29,24.825,39.78,39.6375,24.305,33.6175,85.58,320.45,1186.26,322.77,...,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4
max,18.76,25.08,39.88,39.78,25.46,42.43,115.56,321.78,1190.72,382.71,...,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4,6.4


Também é possível executar funções individuais:

In [13]:
agrupado_ano_mes.count().head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,dia,valor
ano,mes,Unnamed: 2_level_1,Unnamed: 3_level_1
1986,6,19,19
1986,7,23,23


Ou várias funções simultaneamente:

In [14]:
agrupado_ano['valor'].agg([min, max, np.mean, np.median, len]).head()

Unnamed: 0_level_0,min,max,mean,median,len
ano,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1986,17.8,115.56,37.26,32.445,150.0
1987,112.7,4348.96,494.501446,319.94,249.0
1988,424.74,6340.28,1284.388313,941.63,249.0
1989,218.96,115334.03,8464.100813,2584.435,246.0
1990,0.0,790799.15,43858.496169,386.625,248.0


Se quisermos métricas diferentes para as várias colunas, podemos passar um dicionário para o método `agg`:

In [15]:
agrupado_ano_mes.agg({'dia': np.size,
                      'valor': [np.min, np.max, np.mean]}).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,dia,valor,valor,valor
Unnamed: 0_level_1,Unnamed: 1_level_1,size,amin,amax,mean
ano,mes,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1986,6,19,17.8,18.76,18.232632
1986,7,23,18.28,25.08,23.523478
1986,8,21,25.13,39.88,35.685714
1986,9,22,39.07,39.78,39.389091
1986,10,23,18.29,25.46,23.656522
1986,11,20,32.2,42.43,34.354
1986,12,22,65.07,115.56,84.290909
1987,1,21,115.56,321.78,255.158095
1987,2,20,298.37,1190.72,915.582
1987,3,20,174.63,382.71,317.623


Também é possível utilizar funções que nós mesmos definimos para agregar valores:

In [16]:
def amplitude(grupo):
    """
    Calcula a diferença entre o máximo e o mínimo do grupo.
    O parâmetro grupo corresponderá a uma Serie com todas as 
    linhas de um Grupo.
    """
    return (grupo.max() - grupo.min())

In [17]:
agrupado_ano_mes.agg({'dia': np.size,
                      'valor': [np.min, np.max, np.mean, amplitude]}).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,dia,valor,valor,valor,valor
Unnamed: 0_level_1,Unnamed: 1_level_1,size,amin,amax,mean,amplitude
ano,mes,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1986,6,19,17.8,18.76,18.232632,0.96
1986,7,23,18.28,25.08,23.523478,6.8
1986,8,21,25.13,39.88,35.685714,14.75
1986,9,22,39.07,39.78,39.389091,0.71
1986,10,23,18.29,25.46,23.656522,7.17
1986,11,20,32.2,42.43,34.354,10.23
1986,12,22,65.07,115.56,84.290909,50.49
1987,1,21,115.56,321.78,255.158095,206.22
1987,2,20,298.37,1190.72,915.582,892.35
1987,3,20,174.63,382.71,317.623,208.08


### Suprindo falta de valores utilizando a média do grupo

Vamos criar uma cópia do nosso `DataFrame` e excluir os dados de todos os dias 15:

In [18]:
teste = df.copy()

In [19]:
teste.loc[teste['dia'] == 15, 'valor'] = np.nan

In [20]:
teste.tail(10)

Unnamed: 0,ano,mes,dia,valor
8232,2019,4,11,6.4
8233,2019,4,12,6.4
8234,2019,4,15,
8235,2019,4,16,6.4
8236,2019,4,17,6.4
8237,2019,4,18,6.4
8238,2019,4,22,6.4
8239,2019,4,23,6.4
8240,2019,4,24,6.4
8241,2019,4,25,6.4


Agora, preenchemos os valores que estão faltando (dia 15 em todos os meses) com a média do mês:

In [21]:
teste['valor_ajustado'] = teste.groupby(['ano', 'mes'])['valor'].transform(lambda g: g.fillna(g.mean()))

In [22]:
teste.loc[(teste['dia'] >= 13) & (teste['dia'] <= 16)].head(10)

Unnamed: 0,ano,mes,dia,valor,valor_ajustado
7,1986,6,13,18.14,18.14
8,1986,6,16,18.24,18.24
28,1986,7,14,23.93,23.93
29,1986,7,15,,23.510909
30,1986,7,16,23.83,23.83
50,1986,8,13,38.49,38.49
51,1986,8,14,38.59,38.59
52,1986,8,15,,35.497
73,1986,9,15,,39.398571
74,1986,9,16,39.19,39.19


### Funções de Janela

Funções de _janela_ também respeitam os grupos:

In [23]:
agrupado_ano_mes.rolling(4)['valor'].mean().head(30)

ano   mes    
1986  6    0         NaN
           1         NaN
           2         NaN
           3     18.3425
           4     18.4925
           5     18.4450
           6     18.4325
           7     18.2775
           8     18.2375
           9     18.2000
           10    18.1800
           11    18.1800
           12    18.1450
           13    18.1350
           14    18.1150
           15    18.1400
           16    18.1675
           17    18.1825
           18    18.2250
      7    19        NaN
           20        NaN
           21        NaN
           22    20.2100
           23    21.4775
           24    22.6100
           25    23.4125
           26    23.5625
           27    23.7050
           28    23.8625
           29    23.8900
Name: valor, dtype: float64

In [24]:
agrupado_ano_mes.expanding().sum().head(30)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ano,mes,dia,valor
ano,mes,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1986,6,0,1986.0,6.0,4.0,17.8
1986,6,1,3972.0,12.0,9.0,36.3
1986,6,2,5958.0,18.0,15.0,54.61
1986,6,3,7944.0,24.0,24.0,73.37
1986,6,4,9930.0,30.0,34.0,91.77
1986,6,5,11916.0,36.0,45.0,110.08
1986,6,6,13902.0,42.0,57.0,128.34
1986,6,7,15888.0,48.0,70.0,146.48
1986,6,8,17874.0,54.0,86.0,164.72
1986,6,9,19860.0,60.0,103.0,182.88


### Filtragem
Filtra todos os valores de todos os meses que tiveram SELIC média acima de 30%:

In [34]:
agrupado_ano_mes.filter(lambda g: g['valor'].mean() > 30)

Unnamed: 0,ano,mes,dia,valor
42,1986,8,1,25.13
43,1986,8,4,25.23
44,1986,8,5,25.34
45,1986,8,6,25.51
46,1986,8,7,26.60
47,1986,8,8,32.04
48,1986,8,11,37.91
49,1986,8,12,37.54
50,1986,8,13,38.49
51,1986,8,14,38.59


Conferindo: vejamos as médias mensais:

In [33]:
agrupado_ano_mes['valor'].mean()

ano   mes
1986  6        18.232632
      7        23.523478
      8        35.685714
      9        39.389091
      10       23.656522
      11       34.354000
      12       84.290909
1987  1       255.158095
      2       915.582000
      3       317.623000
      4       585.136842
      5      1812.113000
      6       766.890000
      7       155.155217
      8       155.414762
      9       153.568095
      10      199.620000
      11      366.168500
      12      366.876818
1988  1       626.285500
      2       841.051053
      3       482.425000
      4      1066.943158
      5       770.086500
      6       734.789091
      7      1478.245238
      8       855.009565
      9      1579.384762
      10     3174.510000
      11     1920.236667
                ...     
2016  11       13.900000
      12       13.650000
2017  1        13.172727
      2        12.816667
      3        12.150000
      4        11.594444
      5        11.150000
      6        10.150000
      7        

Agora, todos os dados dos mêses que tiveram menos que 18 dias úteis:

In [35]:
agrupado_ano_mes.filter(lambda g: len(g) < 18)

Unnamed: 0,ano,mes,dia,valor
1164,1991,2,4,120.53
1165,1991,2,5,118.15
1166,1991,2,6,113.45
1167,1991,2,7,116.33
1168,1991,2,8,121.83
1169,1991,2,13,121.83
1170,1991,2,14,121.83
1171,1991,2,15,198.32
1172,1991,2,18,248.51
1173,1991,2,19,232.02


Qual o valor da SELIC no quinto dia útil de cada mês? Basta pegarmos o quinto valor de cada grupo!

In [36]:
# .nth(0) seria o primeiro elemento
agrupado_ano_mes.nth(4).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,dia,valor
ano,mes,Unnamed: 2_level_1,Unnamed: 3_level_1
1986,6,10,18.4
1986,7,7,23.35
1986,8,7,26.6
1986,9,5,39.2
1986,10,7,23.51
1986,11,7,33.45
1986,12,5,74.24
1987,1,8,179.97
1987,2,6,596.18
1987,3,10,380.7


E no quinto dia e no último dia útil?

In [39]:
# .nth(0) seria o primeiro elemento
agrupado_ano_mes.nth([4, -1]).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,dia,valor
ano,mes,Unnamed: 2_level_1,Unnamed: 3_level_1
1986,6,10,18.4
1986,6,30,18.27
1986,7,7,23.35
1986,7,31,25.08
1986,8,7,26.6
1986,8,29,39.88
1986,9,5,39.2
1986,9,30,39.78
1986,10,7,23.51
1986,10,31,25.46


### Utilizando funções para agrupar

In [40]:
df.head()

Unnamed: 0,ano,mes,dia,valor
0,1986,6,4,17.8
1,1986,6,5,18.5
2,1986,6,6,18.31
3,1986,6,9,18.76
4,1986,6,10,18.4


In [42]:
def semestre(idx):
    """
    Retornoa 'primeiro' para o primeiro semestre, e
    'segundo' para o segundo.
    
    O parâmetro recebido é o índice do dataframe que
    está sendo agrupado
    """
    mes = df.loc[idx, 'mes']
    return 'primeiro' if mes <= 6 else 'segundo'

In [45]:
df.groupby(['ano', semestre]).size().head(10)

ano           
1986  primeiro     19
      segundo     131
1987  primeiro    121
      segundo     128
1988  primeiro    122
      segundo     127
1989  primeiro    121
      segundo     125
1990  primeiro    123
      segundo     125
dtype: int64