# Introdução aos Pandas

## Módulo 4: Agregação (continuação)
- Usando `.groupby` e métodos de agregação
- Compreendendo o objeto `.groupby`
- Apresentando o método `.agg`
- Especificando a saída da coluna
- Agrupando por múltiplas colunas

In [None]:
# Importe pandas
import pandas as pd

# Leia nossos dados
df = pd.read_csv("https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/tips.csv", storage_options = {'User-Agent': 'Mozilla/5.0'})
df.head()

In [None]:
# Já trabalhamos com algumas funções de agregação
df.total_bill.median()

In [None]:
# Funções de agregação são executadas em colunas ou quadros de dados inteiros
df.mean(numeric_only=True)

In [None]:
df.tip.min(), df.tip.max()

In [None]:
# .describe também é uma função agregada, pois hospeda várias funções agregadas
df.tip.describe()

Mas o que fazemos quando precisamos de resultados agregados para cada valor em uma coluna categórica?

In [None]:
# É possível criar dataframes manualmente para cada categoria
# Mas isso pode se tornar tedioso com muitas categorias
# e com múltiplas colunas
# Especialmente se quisermos executar os mesmos métodos em cada dataframe
# etc...
thurs = df[df.day == "Thur"]
fri = df[df.day == "Fri"]
sat = df[df.day == "Sat"]
sun = df[df.day == "Sun"]

# Infelizmente não temos rótulos com esse método
thurs.total_bill.mean(), fri.total_bill.mean(), sat.total_bill.mean(), sun.total_bill.mean()

In [None]:
# Calculamos a partir do objeto groupby com métodos de agregação (.mean, .median, etc...)
# Calculamos a média da conta total para cada dia
# O "for each" significa que estamos agrupando pela coluna do dia
df.groupby("day").total_bill.mean()

In [None]:
# O objeto groupby é uma entidade composta, construída para acesso com funções de agregação
df.groupby("day")

In [None]:
# O objeto groupby não imprime resultados,
# Por baixo dos panos, é um objeto que contém múltiplas tuplas de dataframes para cada valor categórico possível.
# Recomenda-se evitar a decomposição de objetos groupby (esta célula serve para compartilhar contexto).
# É para isso que servem as funções de agregação!
a, b, c, d = df.groupby("day")
a

In [None]:
# Calculamos a partir do objeto groupby com métodos de agregação (.mean, .median, etc...)
# Calculamos a média da conta total para cada dia
# O "for each" significa que estamos agrupando pela coluna do dia
df.groupby("day").total_bill.mean()

In [None]:
# Considere o seguinte
# Obtemos a média para cada dia, em todas as colunas numéricas
# Observe que cada resultado do agrupamento redefine o significado de cada linha
df.groupby("day")[["total_bill", "tip", "size"]].mean()

In [None]:
# Também podemos agrupar por mais de uma coluna. Isso cria um múltiplo
# Sem especificar as colunas, veremos todas as colunas numéricas na saída
df.groupby(["day", "time"])[["total_bill", "tip", "size"]].mean()

In [None]:
# Também podemos agrupar por mais de uma coluna. Isso cria um múltiplo
# Podemos fornecer uma lista de colunas numéricas dentro dos colchetes que especificam colunas (formando colchetes duplos)
df.groupby(["day", "time"])[["total_bill", "tip"]].mean()

In [None]:
# Se precisarmos transformar a saída do groupby em seus próprios nomes de coluna, podemos usar .reset_index
df.groupby(["day", "time"])[["total_bill", "tip"]].mean().reset_index()

In [None]:
df.groupby("day")[["total_bill", "tip"]].mean()

In [None]:
# .describe também é uma função agregada
df.groupby("time").total_bill.describe()

In [None]:
# Usando o método .agg para especificar múltiplos
df.groupby("day").total_bill.agg(["mean", "std"])

In [None]:
# Usando o método .agg para especificar múltiplas
# Também podemos chamar .agg em múltiplas colunas numéricas
df.groupby("day")[["total_bill", "tip"]].agg(["mean", "std"])

In [None]:
# Como a saída é um dataframe, podemos transpô-lo, se isso facilitar a leitura
df.groupby("day")[["total_bill", "tip"]].agg(["mean", "std"]).T

## As formas de .groupby

| exemplo específico | forma geral |
| ---- | ---- |
|`df.groupby("day").mean()` | `df.groupby("coluna_categorica").aggregate_function()`     |
| `df.groupby("day").total_bill.mean()`     | `df.groupby("coluna_categorica").numeric_column.aggregate_function()`     |
| `df.groupby("day")["tip"].median()`     | `df.groupby("categoriaA")["coluna_numericaA"].aggregate_function()`     |
| `df.groupby("day")[["total_bill", "tip"]].min()`     | `df.groupby("categoriaA")[["coluna_numericaA", "coluna_numericaB"]].aggregate_function()`     |
| `df.groupby(["day", "time"]).mean()`     | `df.groupby(["categoriaA", "categoriaB").aggregate_function()` |
| `df.groupby("day").agg(["min", "median", "max"])`    | `df.groupby("categoria").agg(["min", "median", "max"])`     |
| `df.groupby("day")[["total_bill", "tip"]].agg(["min", "median", "max"])`    | `df.groupby("categoria")[["numericA", "numericB"]].agg(["min", "median", "max"])`     |

## Recurso Adicional
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html
- [Leitura adicional sobre o multiíndice sobre agrupamento por múltiplas colunas](https://pandas.pydata.org/docs/user_guide/advanced.html)

## Exercícios
- Use o conjunto de dados "mpg.csv" para criar um dataframe chamado `mpg`
- Agrupe por fabricante e obtenha a maior quilometragem `hwy` para cada fabricante
- Agrupe por fabricante e obtenha a quilometragem média `hwy` e `cty`
- Agrupe pelo número de cilindros e obtenha a cilindrada média de cada cilindro
- Agrupe pela classe do veículo e calcule a média e o desvio padrão da quilometragem `hwy`
- Qual classe de veículo tem o maior desvio padrão da quilometragem `hwy`?

In [None]:
# Use `pd.read_csv("", storage_options = {'User-Agent': 'Mozilla/5.0'})` e o conjunto de dados "https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/mpg.csv" para criar um dataframe chamado `mpg`

In [None]:
# Agrupar por fabricante e obter a maior quilometragem rodoviária para cada fabricante


In [None]:
# Agrupar pelo fabricante e obter a quilometragem média em rodovias e cidades


In [None]:
# Agrupe pelo número de cilindros e obtenha o deslocamento médio de cada cilindro


In [None]:
# Agrupe pela classe do veículo e calcule a média e o desvio padrão da quilometragem da rodovia


In [None]:
# Qual classe de veículo tem o maior desvio padrão de quilometragem em rodovias?
