# Groupby

O método groupby permite agrupar linhas de dados em conjunto e chamar funções agregadas

In [49]:
import pandas as pd

# Dicionário com os dados
dados = {
    'Empresa': ['GOOG', 'GOOG', 'MSFT', 'MSFT', 'FB', 'FB'],
    'Nome': ['Sam', 'Charlie', 'Amy', 'Vanessa', 'Carl', 'Sarah'],
    'Venda': [200.0, 120.0, 340.0, 124.0, 243.0, 350.0]
}

# Criando o DataFrame
df = pd.DataFrame(dados)


df

Unnamed: 0,Empresa,Nome,Venda
0,GOOG,Sam,200.0
1,GOOG,Charlie,120.0
2,MSFT,Amy,340.0
3,MSFT,Vanessa,124.0
4,FB,Carl,243.0
5,FB,Sarah,350.0


#### Usando groupby
** Agora, você pode usar o método `.group by()` para agrupar as linhas em conjunto com base em um nome de coluna. Por exemplo, vamos agrupar com base na empresa. Isso criará um objeto DataFrameGroupBy:**

In [52]:
df.drop('Nome', inplace= True, axis=1)
df


Unnamed: 0,Empresa,Venda
0,GOOG,200.0
1,GOOG,120.0
2,MSFT,340.0
3,MSFT,124.0
4,FB,243.0
5,FB,350.0


Você pode salvar este objeto como uma nova variável:

In [55]:
por_companhia = df.groupby("Empresa")

E, em seguida, chamar métodos agregados do objeto:

In [56]:
por_companhia.mean()

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


In [57]:
por_companhia.std()

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
FB,75.660426
GOOG,56.568542
MSFT,152.735065


In [58]:
# Dicionário com os dados
dados = {
    'Empresa': ['GOOG', 'GOOG', 'MSFT', 'MSFT', 'FB', 'FB'],
    'Nome': ['Sam', 'Charlie', 'Amy', 'Vanessa', 'Carl', 'Sarah'],
    'Venda': [200.0, 120.0, 340.0, 124.0, 243.0, 350.0]
}

# Criando o DataFrame
df = pd.DataFrame(dados)
por_companhia = df.groupby("Empresa")
por_companhia.min()

Unnamed: 0_level_0,Nome,Venda
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,Carl,243.0
GOOG,Charlie,120.0
MSFT,Amy,124.0


In [59]:
por_companhia.max()

Unnamed: 0_level_0,Nome,Venda
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,Sarah,350.0
GOOG,Sam,200.0
MSFT,Vanessa,340.0


Lembrando conceito de Quartil ... 

![image_1.png](attachment:image.png)

In [66]:
import pandas as pd
import plotly.express as px

# Criando o DataFrame
df = pd.DataFrame(dados)

# Criando o box plot com Plotly
fig = px.box(df, x='Empresa', y='Venda', title='Boxplot das Vendas por Empresa')

# Mostrando o gráfico
fig.show()


In [60]:
por_companhia.describe()

Unnamed: 0_level_0,Venda,Venda,Venda,Venda,Venda,Venda,Venda,Venda
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


In [67]:
por_companhia.describe().transpose()

Unnamed: 0,Empresa,FB,GOOG,MSFT
Venda,count,2.0,2.0,2.0
Venda,mean,296.5,160.0,232.0
Venda,std,75.660426,56.568542,152.735065
Venda,min,243.0,120.0,124.0
Venda,25%,269.75,140.0,178.0
Venda,50%,296.5,160.0,232.0
Venda,75%,323.25,180.0,286.0
Venda,max,350.0,200.0,340.0


In [68]:
por_companhia.describe().transpose()['GOOG']

Venda  count      2.000000
       mean     160.000000
       std       56.568542
       min      120.000000
       25%      140.000000
       50%      160.000000
       75%      180.000000
       max      200.000000
Name: GOOG, dtype: float64