## Aggregation: valores estatísticos
---

In [1]:
import pandas as pd
import numpy as np

*aggregation* são valores estatístico de um conjunto de dados, como média, mediana, soma de todos os valores, etc. Pandas trabalha com os mesmo aggragators do numpy:
np.funções()|operação
---|---|
std|desvio padrão|
var|variância|
median|mediana|
percentile|porcentagem|
any|or|
all|and|

para series, os aggragators retornam um valor único:

In [2]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
ser

0    0.374540
1    0.950714
2    0.731994
3    0.598658
4    0.156019
dtype: float64

In [3]:
ser.mean()

0.5623850983416314

In [4]:
ser.sum()

2.811925491708157

para datasets, por padrão, os aggregator retornam um valor para cada coluna:

In [5]:
df = pd.DataFrame({'A': rng.rand(5),'B': rng.rand(5)})
df

Unnamed: 0,A,B
0,0.155995,0.020584
1,0.058084,0.96991
2,0.866176,0.832443
3,0.601115,0.212339
4,0.708073,0.181825


In [6]:
df.mean()

A    0.477888
B    0.443420
dtype: float64

In [7]:
df.prod()

A    0.003340
B    0.000642
dtype: float64

especificando o eixo com `axis=`, é possível calcular para cada linha:

In [8]:
df.mean(axis=1)

0    0.088290
1    0.513997
2    0.849309
3    0.406727
4    0.444949
dtype: float64

In [9]:
df.prod(axis=1)

0    0.003211
1    0.056336
2    0.721042
3    0.127640
4    0.128745
dtype: float64

a função `describe()` apresenta os diversos resultados para aggregators para um dataset:

In [10]:
df.describe()

Unnamed: 0,A,B
count,5.0,5.0
mean,0.477888,0.44342
std,0.353125,0.426952
min,0.058084,0.020584
25%,0.155995,0.181825
50%,0.601115,0.212339
75%,0.708073,0.832443
max,0.866176,0.96991


In [11]:
ser.describe()

count    5.000000
mean     0.562385
std      0.308748
min      0.156019
25%      0.374540
50%      0.598658
75%      0.731994
max      0.950714
dtype: float64

outros aggregators próprios do pandas são:
pd.função()|operação
---|---|
count|total de itens
first|primeiro item
last|último item
mean|média
median|mediana
min|mínimo
max|máximo
std|desvio padrão
var|variância
mad|desvio médio absoluto

#### .groupby()
---

é uma forma de calcular os aggregates de um conjunto de informações através de um rótulo ou índice seguindo a ideia *split-apply-combine*:
1. o *split* involve a separação e o agrupamento de um dataframe dependendo do valor de uma chave passada pelo usuário;
2. o *apply* é a computação dos valores estatísticos;
3. o *combine* mescla os resultados e as apresentadas como um array.

In [12]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [13]:
dfg = df.groupby('key')
dfg

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f10012165c0>

observe que é necessário passar o nome da coluna a qual deseja-se os cálculos, e o retorno da função é um objeto, não o resultado final. Isto é interessante porque, apenas quando, de fato, for solicitado o aggregate, é que seu resultado é apresentado:

In [14]:
dfg.sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


In [15]:
dfg.prod()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,0
B,4
C,10


In [16]:
dfg.count()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,2
B,2
C,2


qualquer método de aggregation de pandas ou numpy é aceito pelo objeto `groupby`, bem como, qualquer operação suportada pelo series e dataframe.

inclusive, o objeto `groupby` pode receber indexing e slicing normalmente:

In [17]:
dfg_chave = dfg['key']
dfg_chave

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7f10012178b0>

e, da mesma forma, pode calcular os aggregators:

In [18]:
dfg_chave.sum()

key
A    AA
B    BB
C    CC
Name: key, dtype: object

objetos `groupby` também suportam iteração:

In [19]:
for i in dfg:
    print(i)

('A',   key  data
0   A     0
3   A     3)
('B',   key  data
1   B     1
4   B     4)
('C',   key  data
2   C     2
5   C     5)


é, inclusive, possível usar o describe junto do objeto `groupby`:

In [20]:
dfg.describe()

Unnamed: 0_level_0,data,data,data,data,data,data,data,data
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,2.0,1.5,2.12132,0.0,0.75,1.5,2.25,3.0
B,2.0,2.5,2.12132,1.0,1.75,2.5,3.25,4.0
C,2.0,3.5,2.12132,2.0,2.75,3.5,4.25,5.0


sendo, este quadro, referente somente à coluna passada como parâmetro ao ser criado o objeto `groupby`.

o objeto `groupby` tem ainda uma variedade de métodos disponíveis que confere uma maior flexibilidade no cálculo das estatísticos do conjunto de dados.

o método `.aggregate()` pode recebe uma string, uma função, ou uma lista, por exemplo, e calcula todos os aggregators de uma só vez:

In [21]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],'data1': range(6),'data2': rng.randint(0, 10, 6)},columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [22]:
dfg = df.groupby('key')
dfg.aggregate(['min', 'median', 'max'])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


observe que as strings passadas em `.aggregate()` foram usadas para calculá-las em cada coluna.

se desejar especificar uma operação diferente para cada coluna, use dicionários:

In [23]:
dfg.aggregate({'data1': 'min', 'data2':'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


é possível filtrar os resultados usando o método `.filter()`, que recebe uma função que apresente algum critério de filtragem:

In [24]:
filter_func = lambda x: x['data2'].std() > 4
dfg.filter(filter_func)

Unnamed: 0,key,data1,data2
1,B,1,0
2,C,2,3
4,B,4,7
5,C,5,9


o método `.transform()` faz alguma tranformação que o usuário deseja no objeto `groupby` original. também é necessário criar uma função separada para isso, que o método `.transform()` recebe como parâmetro:

In [25]:
double = lambda x: x + x
dfg.transform(double)

Unnamed: 0,data1,data2
0,0,10
1,2,0
2,4,6
3,6,6
4,8,14
5,10,18


o método `.apply()` também faz transformação, só que nos níveis mais do `groupby` original, não necessitando transformar todo o objeto:

In [26]:
coloquially = lambda x: x['data1'] + x['data2']**2
dfg.apply(coloquially)

key   
A    0    25
     3    12
B    1     1
     4    53
C    2    11
     5    86
dtype: int64

o mpetodo `.apply()` sempre retorna ou um objeto panda ou um valor numérico.

é importante observar que `.groupby()` recebe mais do que só o nome de uma coluna. este pode receber listas, arrays, series, indexings, etc., para criar um grupo.

In [27]:
lista = [0, 1, 0, 1, 2, 0]
outro = df.groupby(lista)
outro.sum()

Unnamed: 0,key,data1,data2
0,ACC,7,17
1,BA,4,3
2,B,4,7


o mesmo exemplo `df.groupby('key')` poderia ser feito `df.groupby(df['key'])`:

In [28]:
df.groupby(df['key'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f1001280700>

um dicionário pode ser usado para mapear os índices para, por exemplo, classificá-los:

In [29]:
df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
df2

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,0
C,2,3
A,3,3
B,4,7
C,5,9


In [30]:
df2.groupby(mapping).sum()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
consonant,12,19
vowel,3,8


na verdade, `.groupby()` pode receber qualquer função do python:

In [31]:
df2.groupby(str.lower).sum()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3,8
b,5,7
c,7,12


In [32]:
df2.groupby(str.lower).mean()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1.5,4.0
b,2.5,3.5
c,3.5,6.0


neste exemplo, observe que, como foi passado `str.lower` como parâmetro para `.groupby()`, tudo poderia ter sido escrito em litras minúsculas foi modificado. depois, como foi solicitado a soma e a média, foi calculado tais valores.

através de uma lista, é possível passar quantas funções desejar para `.groupby()`:

In [33]:
df2.groupby([str.lower, mapping]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key,key,Unnamed: 2_level_1,Unnamed: 3_level_1
a,vowel,1.5,4.0
b,consonant,2.5,3.5
c,consonant,3.5,6.0


sendo, desta forma, possível modificar o dataset inicial amplamente, sem modificar o dataset original.

#### pivot tables
---

um `pivot table` é similar ao `groupby`, com a diferença de ser multidimensional.

In [37]:
#este dataframe com as informações dos passageiros do titanic é da própria biblioteca SeaBorn. 

import seaborn as sb
titanic = sb.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


para ver, por exemplo, a média de sobrevivência dos passageiros por sexo, usando `groupby` seria:

In [38]:
titanic.groupby('sex')['survived'].mean()

sex
female    0.742038
male      0.188908
Name: survived, dtype: float64

supondo, ainda, por exemplo, que deseja-se saber a média de sobrevivência não só em relação ao sexo, mas também à classe. Usando `groupby` seria assim:

In [41]:
titanic.groupby(['sex', 'pclass'])['survived'].mean().unstack()

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


observe que é necessário usar o `.unstack()` para que o resultado apareça organizado em um dataframe, caso contrário:

In [42]:
titanic.groupby(['sex', 'pclass'])['survived'].mean()

sex     pclass
female  1         0.968085
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: survived, dtype: float64

por isso, sendo comum este tipo de operação, o pandas oferece o método `.pivot_table()`, logo:

In [43]:
titanic.pivot_table('survived', index='sex', columns='pclass')

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


o `.pivot_table()` deve sempre receber primeiro a informação que deseja-se, depois as linhas e, por fim, as colunas.

o `.pivot_table()` pode, ainda, receber e mostrar vários níveis. Usando, neste exemplo, a função `pd.cut()` que cria um intevalo de valores a depender das informações passadas a ele, pode-se ver a médias de sobrevivência de acordo com o sexo, classe e idade:

In [44]:
age = pd.cut(titanic['age'], [0, 18, 80])
titanic.pivot_table('survived', ['sex', age], 'pclass')

Unnamed: 0_level_0,pclass,1,2,3
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


neste exemplo, a variável `age` é um contêiner que tem todos os valores da series `age` do dataframe sobre os passageiros, que, ao receber a lista `[0, 18, 80]`, a função `pd.cut()` cria dois grupos de idade: um que vai de 0 a 18; e outro que vai de 18 a 80. Passando a lista `['sex', age]`, o contêiner `age` passa a ser visto como um subnível da series `sex`.

Também é possível fazer isto com as colunas, bastando passar uma lista na posição das colunas:

In [46]:
fare = pd.qcut(titanic['fare'], 2)
titanic.pivot_table('survived', ['sex', age], [fare, 'pclass'])

Unnamed: 0_level_0,fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,pclass,1,2,3,1,2,3
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 80]",,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 80]",0.0,0.098039,0.125,0.391304,0.030303,0.192308


Agora, observe que foi usada a função `pd.cut()`, nesta função não é necessário especificar o intervalo dos valores, apenas em quantas partes deseja-se dividir estas informações, neste exemplo, em duas partes. Assim, é possível ver a média de sobrevivência de acordo com a idade, o sexo, a classe e os custos da viagem.

Sempre observe que, na hierarquia, o valor passado primeiro na lista é o nível principal, e o segundo, o subnível.

`.pivot_table()` pode mostrar múltiplas informações, também,

In [49]:
titanic.pivot_table(['survived', 'fare'], index='sex', columns='pclass')

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
pclass,1,2,3,1,2,3
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,0.968085,0.921053,0.5
male,67.226127,19.741782,12.661633,0.368852,0.157407,0.135447


o valore mostrado por padrão pelo `.pivot_table()` é a média. usando o parâmetro `aggfunc=` pode-se escolher outros aggregators:

In [50]:
titanic.pivot_table('survived', index='sex', columns='pclass', aggfunc='sum')

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,91,70,72
male,45,17,47


ou, ainda, se for mostrar mais de uma informação, e para cada uma for um aggregator diferente, usando `aggfunc=` é possível especificar para cada uma através de um dicionário:

In [53]:
titanic.pivot_table(index='sex', columns='pclass', aggfunc={'survived':'count', 'fare':'median'})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
pclass,1,2,3,1,2,3
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,82.66455,22.0,12.475,94,76,144
male,41.2625,13.0,7.925,122,108,347


se precisar de contar o total no fim do dataframe, basta usar `margins=True`

In [55]:
titanic.pivot_table('survived', index='sex', columns='pclass', margins=True)

pclass,1,2,3,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


se desejar mudar o nome da coluna/linha `all`, use `margins_name=`

In [56]:
titanic.pivot_table('survived', index='sex', columns='pclass', margins=True, margins_name='Total')

pclass,1,2,3,Total
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
Total,0.62963,0.472826,0.242363,0.383838
