### Agrupamento de Dados em DataFrames com Group By

A função Pandas Groupby é uma função versátil e fácil de usar que ajuda a obter uma visão geral dos dados. Isso torna mais fácil explorar o conjunto de dados e revelar os relacionamentos entre as variáveis.

O código a seguir agrupará as linhas com base nas combinações Segmento/RegiaoNalor_Venda e nos dará a taxa média de vendas de cada grupo.

In [1]:
# Importando a biblioteca
import pandas as pd

In [2]:
# criando o dataframe e corrigindo os valores vazios
df = pd.read_csv("dados/dataset.csv")

df['Quantidade'] = df['Quantidade'].fillna(value=3.0)

In [3]:
# Exibindo a tabela
display(df)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.9600,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.9400,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.6200,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.3680,2.0
...,...,...,...,...,...,...,...,...,...,...,...
9989,CA-2014-110422,2014-01-21,TB-21400,Consumer,United States,South,FUR-FU-10001889,Furniture,Ultra Door Pull Handle,25.2480,3.0
9990,CA-2017-121258,2017-02-26,DB-13060,Consumer,United States,West,FUR-FU-10000747,Furniture,Tenex B1-RE Series Chair Mats for Low Pile Car...,91.9600,2.0
9991,CA-2017-121258,2017-02-26,DB-13060,Consumer,United States,West,TEC-PH-10003645,Technology,Aastra 57i VoIP phone,258.5760,2.0
9992,CA-2017-121258,2017-02-26,DB-13060,Consumer,United States,West,OFF-PA-10004041,Office Supplies,"It's Hot Message Books with Stickers, 2 3/4"" x 5""",29.6000,4.0


In [6]:
# Aplicando Groupy By
# É como SQL, você vai selecionar as colunas que deseja fazer o agrupamento, e no final vai
# selecionar alguma agregação (sum, mean, count, etc.).
df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda
Segmento,Regiao,Unnamed: 2_level_1
Consumer,Central,207.946728
Consumer,East,238.875539
Consumer,South,233.39018
Consumer,West,217.033955
Corporate,Central,234.763466
Corporate,East,228.516929
Corporate,South,238.992025
Corporate,West,235.265911
Home Office,Central,208.248046
Home Office,East,253.911805


Na instrução acima. primeiro filtramos os dados extraindo 3 colunas: ['Segmento', 'Regiao', 'Valor_Venda']. Na sequência, agrupamos por duas colunas: ['Segmento', 'Regiao']. E então calculamos a média para a coluna que ficou foram do group by. Nesse caso a coluna Sales.

O comportamento do group by com Pandas é o mesmo observado na Linguagem SOL.

### Agregação Múltipla com Group By

Vamos explorar mais a função groupby() pois temos diversas opções de sumarização dos dados de forma simples. No exemplo abaixo uniremos a função group by com a função agg() para realiza agregação múltipla.

In [None]:
# Aplicando o Group By
# O groupby com várias agregações estatísticas:

# mean → calcula a média.
# std → calcula o desvio padrão.
# count → conta quantos registros existem no grupo.

df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).agg(['mean','std','count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda,Valor_Venda,Valor_Venda
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count
Segmento,Regiao,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Consumer,Central,207.946728,587.906523,1212
Consumer,East,238.875539,633.371169,1469
Consumer,South,233.39018,559.346824,838
Consumer,West,217.033955,551.997547,1672
Corporate,Central,234.763466,818.947521,673
Corporate,East,228.516929,530.001654,877
Corporate,South,238.992025,586.176947,510
Corporate,West,235.265911,471.288764,960
Home Office,Central,208.248046,371.00918,438
Home Office,East,253.911805,722.777318,502


Na instrução acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento','Regiao', 'Valor_Venda']. Na sequência, agrupamos por duas colunas:['Segmento','Regiao']. E então agregamos os dados calculando a média, desvio padrão e contagem de elementos para a coluna que ficou fora do group by, nesse caso a coluna Valor_Venda.

A função agg() recebe como argumento uma lista de funções para agregação.