# Introdução aos Pandas

## Módulo 4: Agregação
- Usando `.crosstab` para contabilizar a frequência de cada par de categorias
- Usando `.pivot_table` para calcular agregados de valores numéricos para cada par de categorias (o mesmo que uma tabela dinâmica de planilha)

In [None]:
# Importe pandas
import pandas as pd

# Leia alguns dados
df = pd.read_csv("https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/tips.csv", storage_options = {'User-Agent': 'Mozilla/5.0'})
df.head()

### O que é `.crosstab?`
- A tabela de tabulação cruzada calcula uma tabulação cruzada simples de dois (ou mais) fatores
- Calcula uma tabela de frequência de fatores
- Exemplo: contar quantas mesas almoçaram ou jantaram em cada dia?
- Exemplo: contar o número de mesas de fumantes, discriminadas por gênero?

In [None]:
# Digamos que precisamos obter todos os dias diferentes
df.day.unique()

In [None]:
# E todos os momentos diferentes
df.time.unique()

In [None]:
# Para contar o Thursday Lunch, precisamos desta operação de indexação composta
df[(df.day == "Thur") & (df.time == "Lunch")].shape[0]

In [None]:
# Para contar o Thrusday Dinner, precisamos desta operação de indexação composta
# Repita isso para cada combinação de dia/horário...
df[(df.day == "Thur") & (df.time == "Dinner")].shape[0]

In [None]:
# Para outra abordagem,
# poderíamos executar .time.value_counts() em cada dia individual
# Mas isso também seria tedioso
# Especialmente se os valores possíveis forem numerosos
df[df.day == "Thur"].time.value_counts()

In [None]:
# Crosstab para o resgate!
# Contagem de frequência de todos os dias em todos os horários
pd.crosstab(index=df.day, columns=df.time)

In [None]:
# Margins=True mostra os totais de linha/coluna
pd.crosstab(index=df.day, columns=df.time, margins=True)

In [None]:
# Normalize=True mostra porcentagens em vez de contagens brutas
pd.crosstab(index=df.day, columns=df.time, margins=True, normalize=True).round(2)

In [None]:
# Também podemos passar listas de séries para índices ou colunas
pd.crosstab(index=df.day, columns=[df.time, df.smoker])

## Usando tabelas dinâmicas para agregar mais do que conta
- Use `.pivot_table` para configurar pares de categorias e, em seguida, especifique a coluna a ser medida, em agregado, e sua(s) função(ões) de agregação.
- O método `.pivot_table` usa a média por padrão.
- Podemos especificar várias categorias no índice e nas colunas, mas os resultados podem ficar visualmente confusos.
- Exemplo: para cada par dia/horário, calcule a média `total_bill`
- Exemplo: para cada par dia/horário, obtenha a média `total_bill` e `tip`
- Exemplo: para cada par dia/horário, calcule a `tip` mínima, mediana e máxima.

In [None]:
# Sem especificar uma coluna "valores",
# pivot_table retorna a média numérica de colunas numéricas, divididas por par de categorias
pd.pivot_table(df, index="day", columns="time")

In [None]:
# Use o argumento de valores para especificar coluna(s) numérica(s)
pd.pivot_table(df, index="day", columns="time", values="total_bill")

In [None]:
# Use o argumento "values" para especificar quais colunas calcular
pd.pivot_table(df, index="day", columns="time", values=["total_bill", "tip"])

In [None]:
# Use o argumento aggfunc para substituir a função média padrão
pd.pivot_table(df, values="tip", aggfunc="median", index="day", columns="time")

In [None]:
# O argumento aggfunc pode receber uma lista de funções agregadas
pd.pivot_table(df, values="tip", aggfunc=["min", "median", "max"], index="day", columns="time")

## Recursos adicionais
- https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html
- https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html

## Exercícios
- Use a tabela de referência cruzada no dataframe `tips` para contar o número de tabelas de tamanhos diferentes para cada hora do dia. *Dica*: lembre-se de que `.size` é um atributo integrado aos objetos do Pandas.
- Use `df = pd.read_csv("", storage_options = {'User-Agent': 'Mozilla/5.0'})` e o arquivo `https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/mpg.csv` para criar um dataframe chamado `mpg`.
- Use `.crosstab` para contar o número de veículos para cada combinação de classe e sistema de transmissão. *Dica*: lembre-se de que `class` é uma palavra reservada em Python.
- Use `.crosstab` para contar o número de veículos para cada combinação de fabricante e sistema de transmissão.
- Use `.pivot_table` e `mpg` para calcular a quilometragem média na rodovia para cada combinação de classe de veículo e sistema de transmissão.
- Use `.pivot_table` e `mpg` para calcular a quilometragem média na cidade para cada combinação de fabricante e sistema de transmissão.

In [None]:
# Use a tabulação cruzada no dataframe de dicas para contar o número de tabelas de tamanhos diferentes para cada hora do dia.
# Dica: lembre-se de que .size é um atributo integrado aos objetos pandas.


In [None]:
# Use `pd.read_csv("", storage_options = {'User-Agent': 'Mozilla/5.0'})` e o arquivo `https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/mpg.csv` para criar um dataframe chamado `mpg`.


In [None]:
# Use .crosstab para contar o número de veículos para cada combinação de classe e sistema de transmissão.
# Dica: lembre-se de que "classe" é uma palavra reservada em Python.


In [None]:
# Use .crosstab para contar o número de veículos para cada combinação de fabricante e transmissão.


In [None]:
# Use .pivot_table e mpg para calcular a quilometragem média na rodovia para cada combinação de classe de veículo e transmissão.


In [None]:
# Use .pivot_table e mpg para calcular a quilometragem média na cidade para cada combinação de fabricante e transmissão.
