# Pandas

## Agrupamentos

Quando estamos fazendo análises em um conjunto de dados, é muito útil saber alguns comportamentos separados por grupos. <br>Para isso, usamos a função groupby assoaciada a alguma função de agregação.

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = {
    'categoria': ['eletrônicos', 'eletrônicos', 'vestuário', 'vestuário', 'acessórios'],
    'valor_venda': [1000, 1500, 800, 1200, 500]
}
df_vendas = pd.DataFrame(data)
df_vendas

Unnamed: 0,categoria,valor_venda
0,eletrônicos,1000
1,eletrônicos,1500
2,vestuário,800
3,vestuário,1200
4,acessórios,500


In [3]:
df_vendas.groupby('categoria').sum()

Unnamed: 0_level_0,valor_venda
categoria,Unnamed: 1_level_1
acessórios,500
eletrônicos,2500
vestuário,2000


In [4]:
df_vendas.groupby('categoria').mean()

Unnamed: 0_level_0,valor_venda
categoria,Unnamed: 1_level_1
acessórios,500.0
eletrônicos,1250.0
vestuário,1000.0


Podemos realizar agrupamentos também em múltiplas colunas.

In [5]:
data = {
    'categoria': ['eletrônicos', 'eletrônicos', 'vestuário', 'vestuário', 'acessórios'],
    'mes': ['jan', 'jan', 'fev', 'fev', 'jan'],
    'valor_venda': [1000, 1500, 800, 1200, 500]
}

df_vendas = pd.DataFrame(data)
df_vendas

Unnamed: 0,categoria,mes,valor_venda
0,eletrônicos,jan,1000
1,eletrônicos,jan,1500
2,vestuário,fev,800
3,vestuário,fev,1200
4,acessórios,jan,500


In [6]:
df_vendas.groupby(['categoria', 'mes']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,valor_venda
categoria,mes,Unnamed: 2_level_1
acessórios,jan,500
eletrônicos,jan,2500
vestuário,fev,2000


In [7]:
df_vendas.groupby(['categoria', 'mes']).median()

Unnamed: 0_level_0,Unnamed: 1_level_0,valor_venda
categoria,mes,Unnamed: 2_level_1
acessórios,jan,500.0
eletrônicos,jan,1250.0
vestuário,fev,1000.0


In [8]:
df_vendas.groupby(['categoria', 'mes']).max()

Unnamed: 0_level_0,Unnamed: 1_level_0,valor_venda
categoria,mes,Unnamed: 2_level_1
acessórios,jan,500
eletrônicos,jan,1500
vestuário,fev,1200


In [9]:
df_vendas

Unnamed: 0,categoria,mes,valor_venda
0,eletrônicos,jan,1000
1,eletrônicos,jan,1500
2,vestuário,fev,800
3,vestuário,fev,1200
4,acessórios,jan,500


In [11]:
df_vendas.groupby('categoria').sum(numeric_only=True)

Unnamed: 0_level_0,valor_venda
categoria,Unnamed: 1_level_1
acessórios,500
eletrônicos,2500
vestuário,2000


In [12]:
data = {
    'categoria': ['eletrônicos', 'eletrônicos', 'vestuário', 'vestuário', 'acessórios'],
    'valor_venda': [1000, 1500, 800, 1200, 500],
    'valor_venda_com_desconto': [900, 1400, 700, 1100, 400]
}

df_vendas = pd.DataFrame(data)
df_vendas

Unnamed: 0,categoria,valor_venda,valor_venda_com_desconto
0,eletrônicos,1000,900
1,eletrônicos,1500,1400
2,vestuário,800,700
3,vestuário,1200,1100
4,acessórios,500,400


In [13]:
df_vendas.groupby('categoria').sum()

Unnamed: 0_level_0,valor_venda,valor_venda_com_desconto
categoria,Unnamed: 1_level_1,Unnamed: 2_level_1
acessórios,500,400
eletrônicos,2500,2300
vestuário,2000,1800


In [14]:
data = {
    'altura': [1.69, 1.50, 1.58, 1.69, 1.74, 1.73],
    'peso': [77.2, 68.0, 65.0, 85.0, 78.6, 69.2],
    'genero': [0.0, 0.0, 0.0, 1.0, 1.0, 1.0],
    'carioca': [1, 0, 1, 0, 1, 0]
}

df = pd.DataFrame(data)
df

Unnamed: 0,altura,peso,genero,carioca
0,1.69,77.2,0.0,1
1,1.5,68.0,0.0,0
2,1.58,65.0,0.0,1
3,1.69,85.0,1.0,0
4,1.74,78.6,1.0,1
5,1.73,69.2,1.0,0


In [15]:
df.describe()

Unnamed: 0,altura,peso,genero,carioca
count,6.0,6.0,6.0,6.0
mean,1.655,73.833333,0.5,0.5
std,0.094816,7.645565,0.547723,0.547723
min,1.5,65.0,0.0,0.0
25%,1.6075,68.3,0.0,0.0
50%,1.69,73.2,0.5,0.5
75%,1.72,78.25,1.0,1.0
max,1.74,85.0,1.0,1.0


In [16]:
df[['genero', 'altura', 'peso']].groupby('genero').mean()

Unnamed: 0_level_0,altura,peso
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,1.59,70.066667
1.0,1.72,77.6


In [17]:
df[['carioca', 'altura', 'peso']].groupby('carioca').mean()

Unnamed: 0_level_0,altura,peso
carioca,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1.64,74.066667
1,1.67,73.6


In [18]:
df.groupby(['genero', 'carioca']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,altura,peso
genero,carioca,Unnamed: 2_level_1,Unnamed: 3_level_1
0.0,0,1.5,68.0
0.0,1,1.635,71.1
1.0,0,1.71,77.1
1.0,1,1.74,78.6


In [19]:
df

Unnamed: 0,altura,peso,genero,carioca
0,1.69,77.2,0.0,1
1,1.5,68.0,0.0,0
2,1.58,65.0,0.0,1
3,1.69,85.0,1.0,0
4,1.74,78.6,1.0,1
5,1.73,69.2,1.0,0


In [22]:
df.pivot_table(index = 'genero', columns = 'carioca', values = 'peso', aggfunc = "mean")

carioca,0,1
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,68.0,71.1
1.0,77.1,78.6


In [23]:
df.pivot_table(index = 'genero', columns = 'carioca', values = 'altura', aggfunc = 'mean')

carioca,0,1
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,1.5,1.635
1.0,1.71,1.74


In [24]:
df

Unnamed: 0,altura,peso,genero,carioca
0,1.69,77.2,0.0,1
1,1.5,68.0,0.0,0
2,1.58,65.0,0.0,1
3,1.69,85.0,1.0,0
4,1.74,78.6,1.0,1
5,1.73,69.2,1.0,0


In [26]:
df.set_index(['genero', 'carioca'])

Unnamed: 0_level_0,Unnamed: 1_level_0,altura,peso
genero,carioca,Unnamed: 2_level_1,Unnamed: 3_level_1
0.0,1,1.69,77.2
0.0,0,1.5,68.0
0.0,1,1.58,65.0
1.0,0,1.69,85.0
1.0,1,1.74,78.6
1.0,0,1.73,69.2


In [25]:
dfg = df.groupby(['genero', 'carioca']).mean()
dfg

Unnamed: 0_level_0,Unnamed: 1_level_0,altura,peso
genero,carioca,Unnamed: 2_level_1,Unnamed: 3_level_1
0.0,0,1.5,68.0
0.0,1,1.635,71.1
1.0,0,1.71,77.1
1.0,1,1.74,78.6


In [27]:
dfg.unstack(level=0)

Unnamed: 0_level_0,altura,altura,peso,peso
genero,0.0,1.0,0.0,1.0
carioca,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,1.5,1.71,68.0,77.1
1,1.635,1.74,71.1,78.6


In [28]:
dfg2 = dfg.unstack(level=1)
dfg2

Unnamed: 0_level_0,altura,altura,peso,peso
carioca,0,1,0,1
genero,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0.0,1.5,1.635,68.0,71.1
1.0,1.71,1.74,77.1,78.6


In [29]:
dfg2 = dfg.unstack(level='carioca')
dfg2

Unnamed: 0_level_0,altura,altura,peso,peso
carioca,0,1,0,1
genero,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0.0,1.5,1.635,68.0,71.1
1.0,1.71,1.74,77.1,78.6


In [30]:
dfg2.columns

MultiIndex([('altura', 0),
            ('altura', 1),
            (  'peso', 0),
            (  'peso', 1)],
           names=[None, 'carioca'])

In [36]:
dfg2.index

Index([0.0, 1.0], dtype='float64', name='genero')

In [43]:
dfg2[('altura', 1)]

genero
0.0    1.635
1.0    1.740
Name: (altura, 1), dtype: float64