# Pandas Groupby

## O que é?

O groupby do pandas agrupa linhas de um DataFrame de acordo com os valores de uma ou mais colunas, permitindo depois aplicar operações de agregação, transformação ou filtragem sobre cada grupo.

A ideia é parecida com o GROUP BY do SQL.

### Exemplo

In [2]:
import pandas as pd

In [3]:
data = {
    'Categoria': ['A', 'A', 'B', 'B', 'C', 'A'],
    'Valor': [10, 20, 30, 40, 50, 60]
}

df = pd.DataFrame(data)

print(df)

  Categoria  Valor
0         A     10
1         A     20
2         B     30
3         B     40
4         C     50
5         A     60


## Etapas

- `Divisão (Split)`: os dados são divididos em grupos com base em
uma ou mais chaves (colunas ou expressões).

- `Aplicação (Apply)`: é aplicada uma função (soma, média,
contagem, ou até funções personalizadas) em cada grupo.

- `Combinação (Combine)`: os resultados são reunidos em um novo
DataFrame ou Series.

### Etapa 1: Divisão (split)

In [None]:
grupo = df.groupby('Categoria')

### Etapa 2: Aplicação (apply)

In [8]:
grupo['Valor'].sum()

Categoria
A    90
B    70
C    50
Name: Valor, dtype: int64

### Etapa 3: Combinação (combine)

Usando agg (agregate) para varias operações

In [13]:
df.groupby('Categoria')['Valor'].agg(['sum', 'mean', 'max'])

Unnamed: 0_level_0,sum,mean,max
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,90,30.0,60
B,70,35.0,40
C,50,50.0,50


### Exemplo

Usando um arquivo CSV chamado `países.csv` faça o upload desse arquivo no Jupyter Notebook.

In [9]:
# Carregando dados dos paises
df_paises = pd.read_csv('paises.csv', sep=';')
df_paises.head()

Unnamed: 0,Country,Region,Population,Area (sq. mi.),Pop. Density (per sq. mi.),Coastline (coast/area ratio),Net migration,Infant mortality (per 1000 births),GDP ($ per capita),Literacy (%),Phones (per 1000),Arable (%),Crops (%),Other (%),Climate,Birthrate,Deathrate,Agriculture,Industry,Service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,48.0,0.0,23.06,163.07,700,36.0,3.2,12.13,0.22,87.65,1.0,46.6,20.34,0.38,0.24,0.38
1,Albania,EASTERN EUROPE,3581655,28748,124.6,1.26,-4.93,21.52,4500,86.5,71.2,21.09,4.42,74.49,3.0,15.11,5.22,0.232,0.188,0.579
2,Algeria,NORTHERN AFRICA,32930091,2381740,13.8,0.04,-0.39,31.0,6000,70.0,78.1,3.22,0.25,96.53,1.0,17.14,4.61,0.101,0.6,0.298
3,American Samoa,OCEANIA,57794,199,290.4,58.29,-20.71,9.27,8000,97.0,259.5,10.0,15.0,75.0,2.0,22.46,3.27,0.0,0.0,0.0
4,Andorra,WESTERN EUROPE,71201,468,152.1,0.0,6.6,4.05,19000,100.0,497.2,2.22,0.0,97.78,3.0,8.71,6.25,0.0,0.0,0.0


In [10]:
# Agrupando os paises por regiao e mostrando as quantidades de cada regiao
group_region = df_paises.groupby('Region')
print(group_region.count()['Country'])

Region
ASIA (EX. NEAR EAST)                   28
BALTICS                                 3
C.W. OF IND. STATES                    12
EASTERN EUROPE                         12
LATIN AMER. & CARIB                    45
NEAR EAST                              16
NORTHERN AFRICA                         6
NORTHERN AMERICA                        5
OCEANIA                                21
SUB-SAHARAN AFRICA                     51
WESTERN EUROPE                         28
Name: Country, dtype: int64


In [11]:
# Agrupando os paises por regiao e a soma da população de cada região
print(group_region.sum()['Population'])

Region
ASIA (EX. NEAR EAST)                   3687982236
BALTICS                                   7184974
C.W. OF IND. STATES                     280081548
EASTERN EUROPE                          119914717
LATIN AMER. & CARIB                     561824599
NEAR EAST                               195068377
NORTHERN AFRICA                         161407133
NORTHERN AMERICA                        331672307
OCEANIA                                  33131662
SUB-SAHARAN AFRICA                      749437000
WESTERN EUROPE                          396339998
Name: Population, dtype: int64


In [12]:
# Agrupando os países por região e descrevendo estatísticas importantes
print(group_region.describe())

                                    Population                              \
                                         count          mean           std   
Region                                                                       
ASIA (EX. NEAR EAST)                      28.0  1.317137e+08  3.102610e+08   
BALTICS                                    3.0  2.394991e+06  1.135572e+06   
C.W. OF IND. STATES                       12.0  2.334013e+07  3.973450e+07   
EASTERN EUROPE                            12.0  9.992893e+06  1.054246e+07   
LATIN AMER. & CARIB                       45.0  1.248499e+07  3.235397e+07   
NEAR EAST                                 16.0  1.219177e+07  1.819645e+07   
NORTHERN AFRICA                            6.0  2.690119e+07  2.901349e+07   
NORTHERN AMERICA                           5.0  6.633446e+07  1.305404e+08   
OCEANIA                                   21.0  1.577698e+06  4.519602e+06   
SUB-SAHARAN AFRICA                        51.0  1.469484e+07  2.

# Criando métodos customizados

In [11]:
# retorna 90% do valor de x
def ten_percent(x):
    return x * 0.9

# Mostrando a taxa de mortalidade dos paises
death_rate = df_paises['Deathrate']

# Aplicando o método por meio da dunção aply()
# Diminuindo a taxa de mortalidade em dos paises em 10%
dethrate2 = df_paises['Deathrate'].apply(ten_percent)

# Concatenando as duas series
pd.concat([death_rate, dethrate2], axis=1)

Unnamed: 0,Deathrate,Deathrate.1
0,20.34,18.306
1,5.22,4.698
2,4.61,4.149
3,3.27,2.943
4,6.25,5.625
...,...,...
222,3.92,3.528
223,0.00,0.000
224,8.30,7.470
225,19.93,17.937
