![title](imagens/M05-Pandas.jpg)

# Pandas - Noções básicas do pacote Pandas - Parte 4

# Groupby

O método groupby permite agrupar linhas de dados em conjunto e chamar funções agregadas

**4.1 Agrupamento de Dados**

O método groupby permite agrupar linhas de um DataFrame com base em valores específicos de uma ou mais colunas. É semelhante à cláusula GROUP BY em SQL.

**4.2 Sintaxe Básica**

A sintaxe geral é: `df.groupby('coluna')`.

Você pode agrupar por uma única coluna ou por várias colunas passando uma lista de colunas.

**4.3 Operações após o Agrupamento**

Após o agrupamento, você pode aplicar funções de agregação, como sum(), mean(), count(), etc. Essas funções resumem os dados dentro de cada grupo.


In [1]:
import pandas as pd
# Criação de um novo DataFrame a partir de um dicionário
data = {'Empresa':['pyPRO', 'Fatec', 'pyPRO', 'pyPRO', 'eDigital', 'Fatec'],
       'Classe':['Júnior','Júnior','Pleno','Pleno','Sênior','Sênior'],
       'Nome':['Jorge','Carlos','Roberta','Patrícia','Bruno','Vera'],
       'Venda':[200,120,340,124,243,350]}

In [2]:
df = pd.DataFrame(data)

In [3]:
df

Unnamed: 0,Empresa,Classe,Nome,Venda
0,pyPRO,Júnior,Jorge,200
1,Fatec,Júnior,Carlos,120
2,pyPRO,Pleno,Roberta,340
3,pyPRO,Pleno,Patrícia,124
4,eDigital,Sênior,Bruno,243
5,Fatec,Sênior,Vera,350


** Agora, você pode usar o método .group by () para agrupar as linhas em conjunto com base em um nome de coluna. Por exemplo, vamos agrupar com base na empresa. Isso criará um objeto DataFrameGroupBy:**

In [4]:
df.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001586368C690>

Você pode salvar este objeto como uma nova variável:

In [5]:
por_companhia = df.groupby("Empresa")

E, em seguida, chamar métodos agregados do objeto:

In [6]:
por_companhia.mean(numeric_only=True)

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
Fatec,235.0
eDigital,243.0
pyPRO,221.333333


In [7]:
df.groupby('Empresa').mean(numeric_only=True)

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
Fatec,235.0
eDigital,243.0
pyPRO,221.333333


Você também pode usar a função `agg()` (abreviação de "aggregate") como uma alternativa à função `mean()`. A função `agg()` permite especificar várias funções de agregação para aplicar a cada grupo. Por exemplo, para calcular a média e a soma das vendas para cada empresa, você pode fazer assim:

In [8]:
por_companhia.agg({'Venda': ['mean', 'sum']})

Unnamed: 0_level_0,Venda,Venda
Unnamed: 0_level_1,mean,sum
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2
Fatec,235.0,470
eDigital,243.0,243
pyPRO,221.333333,664


Mais exemplos de métodos agregados:

In [9]:
por_companhia.std(numeric_only=True)

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
Fatec,162.63456
eDigital,
pyPRO,109.568852


In [10]:
por_companhia.min(numeric_only=True)

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
Fatec,120
eDigital,243
pyPRO,124


In [11]:
por_companhia.max(numeric_only=True)

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
Fatec,350
eDigital,243
pyPRO,340


In [12]:
por_companhia.count()

Unnamed: 0_level_0,Classe,Nome,Venda
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fatec,2,2,2
eDigital,1,1,1
pyPRO,3,3,3


In [13]:
por_companhia.describe()

Unnamed: 0_level_0,Venda,Venda,Venda,Venda,Venda,Venda,Venda,Venda
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Fatec,2.0,235.0,162.63456,120.0,177.5,235.0,292.5,350.0
eDigital,1.0,243.0,,243.0,243.0,243.0,243.0,243.0
pyPRO,3.0,221.333333,109.568852,124.0,162.0,200.0,270.0,340.0


In [14]:
por_companhia.describe().transpose()

Unnamed: 0,Empresa,Fatec,eDigital,pyPRO
Venda,count,2.0,1.0,3.0
Venda,mean,235.0,243.0,221.333333
Venda,std,162.63456,,109.568852
Venda,min,120.0,243.0,124.0
Venda,25%,177.5,243.0,162.0
Venda,50%,235.0,243.0,200.0
Venda,75%,292.5,243.0,270.0
Venda,max,350.0,243.0,340.0


In [15]:
por_companhia.describe().transpose()['pyPRO']

Venda  count      3.000000
       mean     221.333333
       std      109.568852
       min      124.000000
       25%      162.000000
       50%      200.000000
       75%      270.000000
       max      340.000000
Name: pyPRO, dtype: float64

# FIM