## Pivot Tables

Pivot tables são bem conhecidas com quem trabalha com softwares de planilhas como Excel. Pivot tables permitem sumarizar os dados através de agregações.  

Sintaxe:  

    DataFrame.pivot_table(data, values=None, index=None, columns=None,
                          aggfunc='mean', fill_value=None, margins=False,
                          dropna=True, margins_name='All')

![](Pivot-table2.png)
    
Mais Informações: http://pbpython.com/pandas-pivot-table-explained.html

In [1]:
# Importando os módulos
import numpy as np
import pandas as pd
import seaborn as sns

In [2]:
# Verificando os dados
titanic = sns.load_dataset('titanic') # Vamos utilizar o DataSet do Titanic, presente no pacote Seaborn
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [3]:
# Construindo um Pivot table que verifica o percentual de sobreviventes de acordo com o sexo
titanic.pivot_table('survived', index='sex')

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [4]:
# Abrindo os dados por colunas
titanic.pivot_table('survived', index='sex', columns='class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


**Pivot tables Multinível**  
Podemos agregar os dados por mais de um nível. No exemplo a seguir, além de agregarmos por sexo, fizemos uma categorização pela idade, utilizando a função pd.cut.

In [5]:
age = pd.cut(titanic['age'], [0, 28, 80])

titanic.pivot_table('survived', ['sex', age], 'class')

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 28]",0.931034,0.921053,0.520548
female,"(28, 80]",0.982143,0.916667,0.310345
male,"(0, 28]",0.565217,0.227273,0.16129
male,"(28, 80]",0.346154,0.090909,0.132653


**aggfunc**  
O argumento aggfunc agrega os valores de acordo com a nossa necessidade tais como ('sum', 'mean', 'count', 'min', 'max', etc.). Caso optemos por omitir esse argumento, por padrão o Pandas nos retornará a média (mean).

Outro ponto a ser notado é que omitimos o primeiro argumento refererente aos dados pois quando especificamos um mapeamento pela ``aggfunc`` isso será determinado automaticamente.

In [6]:
titanic.pivot_table(index='sex', columns='class',
                    aggfunc={'survived':'sum', 'age':'max'})

Unnamed: 0_level_0,age,age,age,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,63.0,57.0,63.0,91,70,72
male,80.0,70.0,74.0,45,17,47
