# Agrupamento

### Os métodos de agrupamento consistem em dividir um conjunto de dados baseados em um ou mais critérios, também chamados de chaves. O agrupamento gerado podem então ser usado para análises estatísticas de grupo.

## Bibliotecas

In [1]:
import pandas as pd
import numpy as np

### groupby([critérios de agrupamento])
#### O método mais comum para agrupamento de dados é o groupby. Esse método recebe como parâmetros as chaves que vão agrupar os dados.

In [2]:
df1 = pd.DataFrame({'data1': np.random.randn(5), 
                    'data2': np.random.normal(10, 4, size=5),
                    'chave1': [0, 1, 1, 0, 0],
                    'chave2': ['a', 'a', 'b', 'a', 'b']})

df1

Unnamed: 0,data1,data2,chave1,chave2
0,0.271696,6.580766,0,a
1,0.292757,10.623011,1,a
2,0.306635,7.952431,1,b
3,0.647462,-0.024227,0,a
4,0.480225,16.412569,0,b


In [3]:
# Criando um elemento agrupado.
grupo1 = df1.groupby(['chave1', 'chave2'])
grupo1

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f198bcdc750>

In [4]:
# Fazendo a média por grupos.
df2 = grupo1.mean()
pd.DataFrame(df2)

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
chave1,chave2,Unnamed: 2_level_1,Unnamed: 3_level_1
0,a,0.459579,3.278269
0,b,0.480225,16.412569
1,a,0.292757,10.623011
1,b,0.306635,7.952431


In [5]:
df3 = df2.unstack()
pd.DataFrame(df3)

Unnamed: 0_level_0,data1,data1,data2,data2
chave2,a,b,a,b
chave1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,0.459579,0.480225,3.278269,16.412569
1,0.292757,0.306635,10.623011,7.952431


In [6]:
# Agrupando por tipos no eixo das colunas.
df4 = df1.groupby(df1.dtypes, axis=1)

for chave, grupo in df4:
    print(chave)
    print(grupo)

int64
   chave1
0       0
1       1
2       1
3       0
4       0
float64
      data1      data2
0  0.271696   6.580766
1  0.292757  10.623011
2  0.306635   7.952431
3  0.647462  -0.024227
4  0.480225  16.412569
object
  chave2
0      a
1      a
2      b
3      a
4      b


In [7]:
df1.groupby(['chave1', 'chave2'])['data2'].mean()

chave1  chave2
0       a          3.278269
        b         16.412569
1       a         10.623011
        b          7.952431
Name: data2, dtype: float64

In [8]:
# Funções, Series, dicionários, listas e tuplas mapeiam e agrupam baseado no resultado do mapeamento.

df5 = pd.DataFrame(np.random.randn(5, 5), 
                      index=['SQL', 'HTML', 'PHP', 'PYTHON', 'CSS'], 
                      columns=['a', 'b', 'c', 'd', 'e'])

df5

Unnamed: 0,a,b,c,d,e
SQL,-0.363111,0.663725,1.718516,-2.084355,1.264812
HTML,1.835621,-0.592999,0.352199,1.071627,-1.535518
PHP,-0.699256,0.034983,-0.421703,-0.604612,0.284065
PYTHON,-1.806085,-0.945749,-1.419529,-1.654601,0.702258
CSS,-1.943218,1.690981,1.033176,-0.509614,-0.937739


In [9]:
mapeamento = {'a': 1, 'b': 0, 'c': 0, 'd': 1, 'e': 0}
df5.groupby(mapeamento, axis=1).sum()

Unnamed: 0,0,1
SQL,3.647054,-2.447466
HTML,-1.776318,2.907248
PHP,-0.102655,-1.303868
PYTHON,-1.66302,-3.460686
CSS,1.786419,-2.452832


In [10]:
lista_chaves = ['um', 'um', 'um', 'dois', 'dois']

# Mapeando as posições dos registros e agrupando por tamanho e posição.
grupo2 = df5.groupby([len, lista_chaves])

# Encontrando o valor mínimo por grupo em cada coluna.
df6 = grupo2.min()
df6

Unnamed: 0,Unnamed: 1,a,b,c,d,e
3,dois,-1.943218,1.690981,1.033176,-0.509614,-0.937739
3,um,-0.699256,0.034983,-0.421703,-2.084355,0.284065
4,um,1.835621,-0.592999,0.352199,1.071627,-1.535518
6,dois,-1.806085,-0.945749,-1.419529,-1.654601,0.702258


In [11]:
# Agrupando por nível.

colunas = pd.MultiIndex.from_arrays([['EUA', 'EUA', 'EUA', 'JP', 'JP'], 
                                     [1, 3, 5, 1, 3]], names=['País', 'Período'])

df7 = pd.DataFrame(np.random.randint(10, size=20).reshape(4, 5), columns = colunas)
df7.index.name = 'Índice'
df7

País,EUA,EUA,EUA,JP,JP
Período,1,3,5,1,3
Índice,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
0,8,8,7,3,7
1,4,4,8,4,5
2,3,0,8,7,3
3,9,9,1,5,6


In [12]:
# Agrupando pelo nível 'País' no eixo das colunas.
df7.groupby(level='País', axis=1).max()

País,EUA,JP
Índice,Unnamed: 1_level_1,Unnamed: 2_level_1
0,8,7
1,8,5
2,8,7
3,9,6


-------------------------------------------------------------------------------------------------------

### agg([funções])
#### Depois dos dados terem sido agrupados podemos aplicar inúmeras funções (padrões ou criadas pelo usuário) sobre todas as colunas que não levantam excessões. As funções devem ser capazes de receber uma Array de dados e retornar um valor escalar. Para melhorar a legibilidade podemos passar um alias às funções quando elas forem apresentadas no resultado final.

In [13]:
def intervalo_entre_os_extremos(arr):
    return arr.max() - arr.min()

df1

Unnamed: 0,data1,data2,chave1,chave2
0,0.271696,6.580766,0,a
1,0.292757,10.623011,1,a
2,0.306635,7.952431,1,b
3,0.647462,-0.024227,0,a
4,0.480225,16.412569,0,b


In [14]:
grupo3 = df1.groupby('chave1')
grupo3.agg(intervalo_entre_os_extremos)

Unnamed: 0_level_0,data1,data2
chave1,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.375765,16.436796
1,0.013878,2.670581


In [15]:
grupo3.describe()

Unnamed: 0_level_0,data1,data1,data1,data1,data1,data1,data1,data1,data2,data2,data2,data2,data2,data2,data2,data2
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
chave1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
0,3.0,0.466461,0.18826,0.271696,0.375961,0.480225,0.563844,0.647462,3.0,7.656369,8.271019,-0.024227,3.278269,6.580766,11.496667,16.412569
1,2.0,0.299696,0.009813,0.292757,0.296226,0.299696,0.303165,0.306635,2.0,9.287721,1.888386,7.952431,8.620076,9.287721,9.955366,10.623011


In [16]:
# Aplicando várias funções em várias colunas.

gorjetas = pd.read_csv('tips.csv')

gorjetas.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.5,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4


In [17]:
# Formatando gorjetas
# ------------------------------------------------------------------------------------------------------
gorjetas['day'].replace({'Sun': 'Dom', 'Fri': 'Sex', 'Sat': 'Sab', 'Thur': 'Qui'}, inplace=True)
gorjetas['smoker'].replace({'No': 'Não', 'Yes': 'Sim'}, inplace=True)
gorjetas['time'].replace({'Dinner': 'Janta', 'Lunch': 'Almoço'}, inplace=True)
gorjetas.rename(columns={'day': 'Dia', 
                         'smoker': 'Fumante', 
                         'size': 'Tamanho', 
                         'total_bill': 'Conta', 
                         'tip': 'Gorjeta', 
                         'time': 'Hora'}, inplace=True)
# ------------------------------------------------------------------------------------------------------

gorjetas.head()

Unnamed: 0,Conta,Gorjeta,Fumante,Dia,Hora,Tamanho
0,16.99,1.01,Não,Dom,Janta,2
1,10.34,1.66,Não,Dom,Janta,3
2,21.01,3.5,Não,Dom,Janta,3
3,23.68,3.31,Não,Dom,Janta,2
4,24.59,3.61,Não,Dom,Janta,4


In [18]:
# Criando a coluna de porcentagem de gorjetas em relação ao valor total da conta.
gorjetas['Gorjeta(%)'] = gorjetas['Gorjeta']/gorjetas['Conta']
gorjetas.head()

Unnamed: 0,Conta,Gorjeta,Fumante,Dia,Hora,Tamanho,Gorjeta(%)
0,16.99,1.01,Não,Dom,Janta,2,0.059447
1,10.34,1.66,Não,Dom,Janta,3,0.160542
2,21.01,3.5,Não,Dom,Janta,3,0.166587
3,23.68,3.31,Não,Dom,Janta,2,0.13978
4,24.59,3.61,Não,Dom,Janta,4,0.146808


In [19]:
grupo4 = gorjetas.groupby(['Dia', 'Fumante'])
# Fazendo a média da porcentagem de gorjetas por dia, com fumantes ou não.
grupo4['Gorjeta(%)'].agg('mean')

Dia  Fumante
Dom  Não        0.160113
     Sim        0.187250
Qui  Não        0.160298
     Sim        0.163863
Sab  Não        0.158048
     Sim        0.147906
Sex  Não        0.151650
     Sim        0.174783
Name: Gorjeta(%), dtype: float64

In [20]:
# Várias funções sobre a coluna 'Gorjeta(%)'.
grupo4['Gorjeta(%)'].agg([('Média', 'mean'), 
                             ('Desvio Padrão', 'std'), 
                             ('Intervalo', intervalo_entre_os_extremos)])

Unnamed: 0_level_0,Unnamed: 1_level_0,Média,Desvio Padrão,Intervalo
Dia,Fumante,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Dom,Não,0.160113,0.042347,0.193226
Dom,Sim,0.18725,0.154134,0.644685
Qui,Não,0.160298,0.038774,0.19335
Qui,Sim,0.163863,0.039389,0.15124
Sab,Não,0.158048,0.039767,0.235193
Sab,Sim,0.147906,0.061375,0.290095
Sex,Não,0.15165,0.028123,0.067349
Sex,Sim,0.174783,0.051293,0.159925


In [21]:
# Várias funções sobre diferentes colunas.
grupo4.agg({'Gorjeta(%)': [('Mínimo', 'min'), 
                             ('Máximo', 'max'), 
                             ('Média', 'mean'), 
                             ('Desvio Padrão', 'std')], 
              'Tamanho': [('Soma', 'sum')]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Gorjeta(%),Gorjeta(%),Gorjeta(%),Gorjeta(%),Tamanho
Unnamed: 0_level_1,Unnamed: 1_level_1,Mínimo,Máximo,Média,Desvio Padrão,Soma
Dia,Fumante,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Dom,Não,0.059447,0.252672,0.160113,0.042347,167
Dom,Sim,0.06566,0.710345,0.18725,0.154134,49
Qui,Não,0.072961,0.266312,0.160298,0.038774,112
Qui,Sim,0.090014,0.241255,0.163863,0.039389,40
Sab,Não,0.056797,0.29199,0.158048,0.039767,115
Sab,Sim,0.035638,0.325733,0.147906,0.061375,104
Sex,Não,0.120385,0.187735,0.15165,0.028123,9
Sex,Sim,0.103555,0.26348,0.174783,0.051293,31


-------------------------------------------------------------------------------------------------------

### apply([funções])
#### Parecido com agg(), mas é usado quando as funções aceitam mais argumentos.

In [22]:
def topo(df, column='Gorjeta(%)'):
    return df[column].max()

gorjetas.head()

Unnamed: 0,Conta,Gorjeta,Fumante,Dia,Hora,Tamanho,Gorjeta(%)
0,16.99,1.01,Não,Dom,Janta,2,0.059447
1,10.34,1.66,Não,Dom,Janta,3,0.160542
2,21.01,3.5,Não,Dom,Janta,3,0.166587
3,23.68,3.31,Não,Dom,Janta,2,0.13978
4,24.59,3.61,Não,Dom,Janta,4,0.146808


In [23]:
topo(gorjetas, 'Conta')

50.81

In [24]:
gorjetas['Conta'].idxmax()

170

In [25]:
gorjetas.loc[170].loc[['Conta', 'Dia']] # Prova real.

Conta    50.81
Dia        Sab
Name: 170, dtype: object

In [26]:
# Agrupando por 'Dia' e aplicando a função 'topo' sobre a coluna 'Conta'. Os valores retornados são os 
# valores máximos de 'Conta' por 'Dia'.
gorjetas.groupby('Dia').apply(topo, 'Conta')

Dia
Dom    48.17
Qui    43.11
Sab    50.81
Sex    40.17
dtype: float64

-------------------------------------------------------------------------------------------------------

### transform([funções])
#### Retorna uma array do mesmo tamanho que a instância agrupada. Os valores individuais, que foram agrupados, serão substituídos pelos resultados das funções de agregação.

In [27]:
df8 = pd.DataFrame({'chave': ['a', 'b', 'c'] * 4, 'valor': np.arange(12.)})
df8

Unnamed: 0,chave,valor
0,a,0.0
1,b,1.0
2,c,2.0
3,a,3.0
4,b,4.0
5,c,5.0
6,a,6.0
7,b,7.0
8,c,8.0
9,a,9.0


In [28]:
grupo5 = df8.groupby('chave')
grupo5.transform('mean')

Unnamed: 0,valor
0,4.5
1,5.5
2,6.5
3,4.5
4,5.5
5,6.5
6,4.5
7,5.5
8,6.5
9,4.5


In [29]:
s1 = pd.Series(np.arange(6))
s1

0    0
1    1
2    2
3    3
4    4
5    5
dtype: int64

In [30]:
s1 ** 2

0     0
1     1
2     4
3     9
4    16
5    25
dtype: int64

In [31]:
grupo5.transform(lambda s: s ** 2)

Unnamed: 0,valor
0,0.0
1,1.0
2,4.0
3,9.0
4,16.0
5,25.0
6,36.0
7,49.0
8,64.0
9,81.0


-------------------------------------------------------------------------------------------------------

### pivot_table(c, index=agg1, columns=agg2, aggfunc=func)
#### Funciona como groupby, criará um DataFrame com o dados da coluna c agrupados baseados nos índices agg1 e colunas agg2, com a função func aplicada.

In [32]:
df1

Unnamed: 0,data1,data2,chave1,chave2
0,0.271696,6.580766,0,a
1,0.292757,10.623011,1,a
2,0.306635,7.952431,1,b
3,0.647462,-0.024227,0,a
4,0.480225,16.412569,0,b


In [33]:
tabela_pivo = df1.pivot_table(['data1', 'data2'], index='chave1', columns='chave2', aggfunc='mean').stack()
tabela_pivo

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
chave1,chave2,Unnamed: 2_level_1,Unnamed: 3_level_1
0,a,0.459579,3.278269
0,b,0.480225,16.412569
1,a,0.292757,10.623011
1,b,0.306635,7.952431


-------------------------------------------------------------------------------------------------------

### size()
#### Retorna a quantidade de elementos em cada grupo.

In [34]:
df1

Unnamed: 0,data1,data2,chave1,chave2
0,0.271696,6.580766,0,a
1,0.292757,10.623011,1,a
2,0.306635,7.952431,1,b
3,0.647462,-0.024227,0,a
4,0.480225,16.412569,0,b


In [35]:
df1.groupby(['chave1', 'chave2']).size()

chave1  chave2
0       a         2
        b         1
1       a         1
        b         1
dtype: int64