#**Criando tabulações com pivot_table**


###**Carregando os dados**

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/contagem_bicicletas.csv')

Neste conjunto de dados, temos informações sobre uma empresa que realiza o aluguel de bicicletas. O DataFrame contém registros detalhados, como o número de bicicletas alugadas por dia e horário, condições climáticas e informações sobre finais feriados e finais de semana:

In [None]:
df.head()

Unnamed: 0,data_hora,contagem,temperatura,sensacao_termica,umidade,velocidade_vento,clima,feriado,fim_de_semana,estacao
0,2015-01-04 00:00:00,182,3.0,2.0,93.0,6.0,Nublado,Não,Sim,Inverno
1,2015-01-04 01:00:00,138,2.75,2.25,93.0,5.0,Céu limpo,Não,Sim,Inverno
2,2015-01-04 02:00:00,134,2.5,2.5,96.5,0.0,Céu limpo,Não,Sim,Inverno
3,2015-01-04 03:00:00,72,2.0,2.0,100.0,0.0,Céu limpo,Não,Sim,Inverno
4,2015-01-04 04:00:00,47,2.0,2.0,93.0,6.5,Céu limpo,Não,Sim,Inverno


###**Utilizando o método pivot_table**

O método [pivot_table()](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html) permite agrupar e reorganizar os dados de maneira semelhante a uma tabela dinâmica. Embora chegue aos mesmos resultados do `groupby()` ele oferece vantagens adicionais que podem facilitar a análise, as quais vamos explorar ao longo deste curso.

Vamos começar criando uma tabela que mostre a média de bicicletas alugadas por tipo de clima. Para isso, precisamos especificar o dataframe que estamos utilizando, a coluna que contém os valores a serem analisados (neste caso, a coluna `contagem`), e a coluna que será usada como índice, que será a coluna `clima`. O `pivot_table()` calcula automaticamente a média, pois essa é a função de agregação padrão. Portanto, o único passo necessário é indicar essas informações, e o `pivot_table()` cuidará do restante:



In [None]:
pivot_clima = pd.pivot_table(df, values='contagem', index='clima')
pivot_clima

Unnamed: 0_level_0,contagem
clima,Unnamed: 1_level_1
Chuva com trovoadas,583.428571
Chuva leve,712.966371
Céu limpo,1162.088943
Neve,250.85
Nublado,1195.124472
Parcialmente nublado,1266.925791


Além da média, que é calculada por padrão, é possível personalizar as operações realizadas através do uso de diferentes métodos como a soma `sum()` para obter insights específicos:

In [None]:
pivot_clima = pd.pivot_table(df, values='contagem', index='clima', aggfunc='sum')
pivot_clima

Unnamed: 0_level_0,contagem
clima,Unnamed: 1_level_1
Chuva com trovoadas,8168
Chuva leve,1526461
Céu limpo,7146847
Neve,15051
Nublado,4243887
Parcialmente nublado,6965558


>👩‍💻***Dica da Val:*** Podemos ordenar os dados para tornar a análise mais clara e intuitiva, com uso do método `sort_values(ascending=False)`.

Também podemos criar uma tabela multi-index, adicionando mais de uma coluna ao `index`:

In [None]:
pivot_clima_estacao = pd.pivot_table(df, values='contagem', index=['estacao', 'clima'], aggfunc='mean')
pivot_clima_estacao

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem
estacao,clima,Unnamed: 2_level_1
Inverno,Chuva com trovoadas,228.0
Inverno,Chuva leve,542.968153
Inverno,Céu limpo,760.163115
Inverno,Neve,318.409091
Inverno,Nublado,971.990635
Inverno,Parcialmente nublado,908.79607
Outono,Chuva com trovoadas,242.0
Outono,Chuva leve,788.809249
Outono,Céu limpo,1130.973451
Outono,Neve,59.3


Se quisermos reorganizar a estrutura da tabela, o processo é bem simples. Podemos definir as colunas utilizando o parâmetro `columns`:

In [None]:
pivot_clima_estacao = pd.pivot_table(df, values='contagem', index=['estacao'], columns=['clima'], aggfunc='mean')
pivot_clima_estacao

clima,Chuva com trovoadas,Chuva leve,Céu limpo,Neve,Nublado,Parcialmente nublado
estacao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Inverno,228.0,542.968153,760.163115,318.409091,971.990635,908.79607
Outono,242.0,788.809249,1130.973451,59.3,1281.383778,1304.220484
Primavera,798.428571,677.873162,1144.472603,74.666667,1162.028607,1199.101483
Verão,421.8,905.16,1471.312843,,1393.618065,1688.683146


Para realizar múltiplas agregações, podemos usar o parâmetro `aggfunc` e especificar uma função de agregação diferente para cada coluna, através de um dicionário. No exemplo abaixo, estamos aplicando a soma para a coluna `contagem` e a média para as colunas `temperatura`, `sensação térmica` e `umidade`:

In [None]:
pivot_agregacoes = df.pivot_table(
    index=['estacao', 'clima'],
    values=['contagem', 'temperatura', 'sensacao_termica', 'umidade'],
    aggfunc={
        'contagem': 'sum',
        'temperatura': 'mean',
        'sensacao_termica': 'mean',
        'umidade': 'mean'
    }
)
pivot_agregacoes

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,sensacao_termica,temperatura,umidade
estacao,clima,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Inverno,Chuva com trovoadas,228,6.5,10.0,88.0
Inverno,Chuva leve,340984,7.188296,9.046576,83.73965
Inverno,Céu limpo,927399,3.811066,6.022336,76.006148
Inverno,Neve,14010,1.568182,4.375,87.829545
Inverno,Nublado,934083,7.008585,8.754422,78.369927
Inverno,Parcialmente nublado,1341383,5.933096,7.887873,76.405149
Outono,Chuva com trovoadas,242,18.5,18.5,91.0
Outono,Chuva leve,409392,12.222543,12.830443,84.075145
Outono,Céu limpo,1533600,11.516962,12.233776,74.282448
Outono,Neve,593,3.8,7.4,91.55


>
👩‍💻***Dica da Val:*** Após a agregação, podemos renomear as colunas para torná-las mais descritivas e intuitivas.

Com o `pivot_table()`, também podemos ativar a opção `margins=True`, que adiciona automaticamente uma linha e uma coluna ao final da tabela, exibindo os valores gerais para cada métrica. Dependendo da função de agregação utilizada, o comportamento será o seguinte: se for aplicada a média, ele calculará a média de todas as linhas e colunas; se for utilizada a soma, ele somará os valores; se for o valor mínimo, ele mostrará o menor valor de cada linha e coluna, e assim por diante. Esse recurso facilita a visualização dos totais e resumos das métricas na tabela.

No exemplo abaixo, como estamos utilizando a função de soma, ele somou os valores de todas as linhas e colunas.

Essa funcionalidade é útil para obter uma visão rápida do comportamento geral dos dados, sem precisar de cálculos adicionais.

Além disso, o `pivot_table()` oferece o parâmetro `fill_value`, que preenche os valores nulos (NaN) com um valor especificado, como 0, por exemplo, o que ajuda a evitar lacunas nos resultados:

In [None]:
pivot_table = df.pivot_table(
    index='estacao',
    columns='clima',
    values='contagem',
    aggfunc={'contagem': 'sum'},
    margins=True,
    margins_name='Total',
    fill_value=0
)
pivot_table

clima,Chuva com trovoadas,Chuva leve,Céu limpo,Neve,Nublado,Parcialmente nublado,Total
estacao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Inverno,228,340984,927399,14010,934083,1341383,3558087
Outono,242,409392,1533600,593,1295479,1833734,5073040
Primavera,5589,368763,2005116,448,934271,1536049,4850236
Verão,2109,407322,2680732,0,1080054,2254392,6424609
Total,8168,1526461,7146847,15051,4243887,6965558,19905972


Com isso, podemos concluir que o `pivot_table()` é bastante flexível, permitindo agrupar dados, aplicar funções de agregação e ainda adicionar totais gerais com o parâmetro margins. Além de lidar com valores nulos de forma simples.

