## .groupby()

In [None]:
import pandas as pd 

BASE = "../datasets/Pokemon.csv"

df = pd.read_csv(BASE)

A instrução groupby tem propósito similar ao "GROUP BY" do SQL, ela agrupa um conjunto de dados em um único registro e assim como no SQL podemos usar as funções de agregação nestes registros agrupados, no caso abaixo estamos calculando a média do poder de ataque por tipo de Pokemon.

In [11]:
df.groupby("type1")["attack"].mean()

type1
Blastoise     83.000000
Bug           70.325301
Dark          83.520833
Dragon       107.024390
Electric      74.952381
Fairy         67.739130
Fighting     104.733333
Fire          86.507463
Flying        76.444444
Ghost         73.767442
Graass        50.000000
Grass         76.170213
Ground        93.952381
Ice           78.000000
Normal        75.128205
Poison        76.095238
Psychic       76.437500
Rock          92.033333
Steel         96.282051
Water         75.750000
Name: attack, dtype: float64

Podemos obter mais de uma coluna no retorno do nosso groupby, no caso abaixo estamos pegando a média do poder de ataque e defesa.

In [20]:
df.groupby("type1")[["attack", "defense"]].mean()

Unnamed: 0_level_0,attack,defense
type1,Unnamed: 1_level_1,Unnamed: 2_level_1
Blastoise,83.0,100.0
Bug,70.325301,71.518072
Dark,83.520833,67.166667
Dragon,107.02439,83.926829
Electric,74.952381,66.142857
Fairy,67.73913,70.73913
Fighting,104.733333,74.977778
Fire,86.507463,68.283582
Flying,76.444444,68.888889
Ghost,73.767442,79.488372


### Ordernando com o sort_values

No caso abaixo estamos ordernando pela coluna "attack"

df.groupby("type1")["attack"].mean().sort_values()

Podemos utilizar a argumento "ascending" para determinar que queremos uma ordenação inversa

In [28]:
df.groupby("type1")["attack"].mean().sort_values(ascending=False)

type1
Dragon       107.024390
Fighting     104.733333
Steel         96.282051
Ground        93.952381
Rock          92.033333
Fire          86.507463
Dark          83.520833
Blastoise     83.000000
Ice           78.000000
Flying        76.444444
Psychic       76.437500
Grass         76.170213
Poison        76.095238
Water         75.750000
Normal        75.128205
Electric      74.952381
Ghost         73.767442
Bug           70.325301
Fairy         67.739130
Graass        50.000000
Name: attack, dtype: float64

No cenário onde temos multiplas colunas podemos utilizar o "by" como o sort_values para determinar por qual coluna 
desejamos ordernar os registros.

In [30]:
df.groupby("type1")[["attack", "defense"]].mean().sort_values(by="attack")

Unnamed: 0_level_0,attack,defense
type1,Unnamed: 1_level_1,Unnamed: 2_level_1
Graass,50.0,90.0
Fairy,67.73913,70.73913
Bug,70.325301,71.518072
Ghost,73.767442,79.488372
Electric,74.952381,66.142857
Normal,75.128205,60.811966
Water,75.75,73.477941
Poison,76.095238,76.857143
Grass,76.170213,72.117021
Psychic,76.4375,72.5


### Agrupamento com duas colunas (criando subgrupos).

É possível criarmos subgrupos no retorno do nossa consulta com o groupby. Uma vez que passemos duas colunas para a função ela vai agrupar todos os registros pela primeira coluna e dentro do resultado vai agrupar novamente cada conjunto de registros pela segunda. No cenário abaixo temos todos os pokemons agrupados pelos seus tipos e dentre cada grupo de tipos temos a informação sobre pokemons legendários ou não dentro de cada grupo.

In [46]:
df.groupby(["type1", "legendary"])["attack"].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
type1,legendary,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Blastoise,False,1.0,83.0,,83.0,83.0,83.0,83.0,83.0
Bug,False,82.0,69.719512,37.02094,10.0,45.0,64.0,90.0,185.0
Bug,True,1.0,120.0,,120.0,120.0,120.0,120.0,120.0
Dark,False,43.0,80.534884,28.29803,28.0,60.0,85.0,93.5,150.0
Dark,True,5.0,109.2,20.388722,85.0,90.0,120.0,120.0,131.0
Dragon,False,26.0,98.769231,32.06906,50.0,75.0,92.5,120.0,170.0
Dragon,True,15.0,121.333333,29.968237,80.0,100.0,120.0,140.0,180.0
Electric,False,56.0,71.428571,23.486056,30.0,55.0,65.0,91.25,123.0
Electric,True,7.0,103.142857,12.075161,85.0,95.0,105.0,113.5,115.0
Fairy,False,20.0,56.35,22.193586,20.0,43.75,52.0,66.25,120.0


## Utilizando o .groupby() com o .describe()

Uma vez que nossos dados estejam agrupados por um determinado critérios, podemos utilizar o método .describe() do Pandas para visualizarmos algumas informações dos nossos registros agrupados.

No DataFrame abaixo estamos pedindo os detalhes dos dados de velocidade depois de ter agrupado nossos pokemons pelo tipo.

In [42]:
df.groupby("type1")["speed"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
type1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Blastoise,1.0,78.0,,78.0,78.0,78.0,78.0,78.0
Bug,83.0,63.421687,33.586481,5.0,38.0,60.0,85.0,160.0
Dark,48.0,76.9375,25.715635,20.0,60.0,71.5,98.25,125.0
Dragon,41.0,84.341463,24.146024,40.0,67.0,85.0,100.0,142.0
Electric,63.0,85.936508,31.961102,15.0,62.5,90.0,102.0,200.0
Fairy,23.0,59.73913,35.057378,15.0,34.5,52.0,73.5,148.0
Fighting,45.0,72.111111,28.724572,25.0,45.0,70.0,97.0,138.0
Fire,67.0,75.343284,25.450815,20.0,60.0,77.0,97.5,126.0
Flying,9.0,84.777778,26.952633,55.0,67.0,77.0,111.0,123.0
Ghost,43.0,64.139535,30.488547,15.0,39.0,56.0,87.5,130.0
