# GroupBy
## Sintaxe:  
#### **df.groupby(col_grupo)[col_exibida].função_agregadora()**

In [1]:
import pandas as pd
import numpy as np

Para este estudo usaremos alguns dados do Titanic

In [2]:
df = pd.read_csv('titanic_train.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Grupo Simples -- Coluna Simples

In [3]:
df.groupby('Sex')['Survived'].sum()

Sex
female    233
male      109
Name: Survived, dtype: int64

### Multiplas Colunas

In [4]:
df.groupby('Sex')[['Survived', 'Age']].sum()
# não faz sentido a coluna 'Age' ser agregada por soma...
# nos proximos exemplos resolveremos isto passando uma função própria para cada coluna

Unnamed: 0_level_0,Survived,Age
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,233,7286.0
male,109,13919.17


### Multiplos Grupos

In [5]:
df.groupby(['Sex', 'Pclass'])['Survived'].sum()

Sex     Pclass
female  1         91
        2         70
        3         72
male    1         45
        2         17
        3         47
Name: Survived, dtype: int64

Assim, a coluna grupo será o indice do novo conjunto de dados... o que não é muito bom.  

Para retornar a indexação numerica usa-se dentro do groupby : **as_index = False**

In [6]:
df.groupby(['Sex', 'Pclass'], as_index=False)['Survived'].sum()

Unnamed: 0,Sex,Pclass,Survived
0,female,1,91
1,female,2,70
2,female,3,72
3,male,1,45
4,male,2,17
5,male,3,47


### As funções agregadoras podem ser várias, dentre elas destaca-se:  
* .sum()
* .min()  
* .max()  
* .mean()  
* .count()  
* .median()

### Usando mais de uma função:  
* .agg(['função1', 'função2'...])  
Assim, passando uma lista com as funções, estas serão associadas às col_exibidas na ordem em que elas foram descritas.  
Isto é, cada col_exibida será submetida à todas as funções declaradas.


In [7]:
df.groupby('Sex')[['Survived', 'Age']].agg(['sum', 'median'])

Unnamed: 0_level_0,Survived,Survived,Age,Age
Unnamed: 0_level_1,sum,median,sum,median
Sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,233,1.0,7286.0,27.0
male,109,0.0,13919.17,29.0



### Podemos passar para o *.agg* um **dicionário** no qual a chave é a col_exibida e o valor é a função (ambos entre aspas):  
Neste caso não se deve colocar as col_exibidas logo apos o groupby. Elas já estarão especificadas no dicionário.

In [8]:
df.groupby('Sex').agg({'Survived':'sum', 'Age':'median'})

Unnamed: 0_level_0,Survived,Age
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,233,27.0
male,109,29.0
