#**Criando tabula√ß√µes com groupby**


###**Carregando os dados**

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/contagem_bicicletas.csv')

Neste conjunto de dados, temos informa√ß√µes sobre uma empresa que realiza o aluguel de bicicletas. O DataFrame cont√©m registros detalhados, como o n√∫mero de bicicletas alugadas por dia e hor√°rio, condi√ß√µes clim√°ticas e informa√ß√µes sobre finais feriados e finais de semana:


In [None]:
df.head()

Unnamed: 0,data_hora,contagem,temperatura,sensacao_termica,umidade,velocidade_vento,clima,feriado,fim_de_semana,estacao
0,2015-01-04 00:00:00,182,3.0,2.0,93.0,6.0,Nublado,N√£o,Sim,Inverno
1,2015-01-04 01:00:00,138,2.75,2.25,93.0,5.0,C√©u limpo,N√£o,Sim,Inverno
2,2015-01-04 02:00:00,134,2.5,2.5,96.5,0.0,C√©u limpo,N√£o,Sim,Inverno
3,2015-01-04 03:00:00,72,2.0,2.0,100.0,0.0,C√©u limpo,N√£o,Sim,Inverno
4,2015-01-04 04:00:00,47,2.0,2.0,93.0,6.5,C√©u limpo,N√£o,Sim,Inverno


###**Utilizando o m√©todo groupby**

O m√©todo [`groupby()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) da biblioteca pandas √© fundamental quando precisamos agrupar os dados com base em uma ou mais colunas e calcular estat√≠sticas ou aplicar m√©todos espec√≠ficos a esses grupos.

Essa abordagem nos ajuda a organizar e resumir os dados de maneira eficiente, facilitando a an√°lise e a visualiza√ß√£o dos padr√µes que desejamos explorar.

Neste exemplo, agrupamos os dados baseados na coluna `clima `e usamos o m√©todo `describe()` para obter um resumo estat√≠stico da coluna `contagem`. Isso inclui estat√≠sticas descritivas como contagem, m√©dia, desvio padr√£o, m√≠nimo, m√°ximo, e os quartis, proporcionando uma vis√£o detalhada das caracter√≠sticas dos dados agrupados por clima:


In [None]:
estatisticas_clima = df.groupby('clima')['contagem'].describe()
estatisticas_clima

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
clima,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Chuva com trovoadas,14.0,583.428571,283.001689,150.0,302.0,620.5,765.0,1040.0
Chuva leve,2141.0,712.966371,764.879409,0.0,150.0,471.0,981.0,6585.0
C√©u limpo,6150.0,1162.088943,1187.218019,10.0,196.0,745.0,1767.0,7860.0
Neve,60.0,250.85,470.588878,15.0,38.25,88.0,192.0,2894.0
Nublado,3551.0,1195.124472,1014.745557,12.0,430.0,964.0,1673.5,5033.0
Parcialmente nublado,5498.0,1266.925791,1076.500198,14.0,373.0,1050.5,1805.75,7531.0


Tamb√©m temos a op√ß√£o de executar opera√ß√µes espec√≠ficas! Utilizando o m√©todo `groupby()`, podemos aplicar uma variedade de fun√ß√µes de agrega√ß√£o para resumir os dados de maneiras diferentes. Aqui est√£o as fun√ß√µes que podem ser usadas com `groupby()`:

- `count()` para realizar contagem
- `sum()` para soma
- `mean()` para a m√©dia
- `median()` para a mediana
- `min()` para o valor m√≠nimo
- `max()` para o valor m√°ximo
- `std()` para o desvio-padr√£o
- `var()` para a vari√¢ncia

A seguir, vamos aplicar a fun√ß√£o de soma `sum()`:

In [None]:
soma_clima = df.groupby('clima')['contagem'].sum()
soma_clima

Unnamed: 0_level_0,contagem
clima,Unnamed: 1_level_1
Chuva com trovoadas,8168
Chuva leve,1528869
C√©u limpo,7153545
Neve,15051
Nublado,4246904
Parcialmente nublado,6974570


Podemos ordenar os dados para tornar a an√°lise mais clara e intuitiva, com uso do m√©todo `sort_values(ascending=False)`:

In [None]:
soma_clima = df.groupby('clima')['contagem'].sum().sort_values(ascending=False)
soma_clima

Unnamed: 0_level_0,contagem
clima,Unnamed: 1_level_1
C√©u limpo,7146847
Parcialmente nublado,6965558
Nublado,4243887
Chuva leve,1526461
Neve,15051
Chuva com trovoadas,8168


Se quisermos realizar mais de um tipo de c√°lculo, como somar, calcular a m√©dia, o m√≠nimo e o m√°ximo, podemos usar o m√©todo `agg()`:


In [None]:
soma_clima = df.groupby('clima')['contagem'].agg(['sum', 'mean', 'min', 'max'])
soma_clima

Unnamed: 0_level_0,sum,mean,min,max
clima,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chuva com trovoadas,8168,583.428571,150,1040
Chuva leve,1526461,712.966371,0,6585
C√©u limpo,7146847,1162.088943,10,7860
Neve,15051,250.85,15,2894
Nublado,4243887,1195.124472,12,5033
Parcialmente nublado,6965558,1266.925791,14,7531


Al√©m disso, tamb√©m √© poss√≠vel agrupar os dados por mais de uma vari√°vel. No exemplo abaixo, estamos agrupando pelas colunas `estacao` e `clima`:

In [None]:
df_estacao_clima = df.groupby(['estacao', 'clima'])['contagem'].mean()
df_estacao_clima

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem
estacao,clima,Unnamed: 2_level_1
Inverno,Chuva com trovoadas,228.0
Inverno,Chuva leve,542.968153
Inverno,C√©u limpo,760.163115
Inverno,Neve,318.409091
Inverno,Nublado,971.990635
Inverno,Parcialmente nublado,908.79607
Outono,Chuva com trovoadas,242.0
Outono,Chuva leve,788.809249
Outono,C√©u limpo,1130.973451
Outono,Neve,59.3


>
üë©‚Äçüíª***Dica da Val:*** Caso voc√™ queira visualizar os resultados do agrupamento em formato de tabela, pode usar o m√©todo [`unstack()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html) para transformar o √≠ndice hier√°rquico em colunas:

In [None]:
df_estacao_clima_unstack = df_estacao_clima.unstack()
df_estacao_clima_unstack

clima,Chuva com trovoadas,Chuva leve,C√©u limpo,Neve,Nublado,Parcialmente nublado
estacao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Inverno,228.0,542.968153,760.163115,318.409091,971.990635,908.79607
Outono,242.0,788.809249,1130.973451,59.3,1281.383778,1304.220484
Primavera,798.428571,677.873162,1144.472603,74.666667,1162.028607,1199.101483
Ver√£o,421.8,905.16,1471.312843,,1393.618065,1688.683146


E se quisermos diferentes agrega√ß√µes em um agrupamento m√∫ltiplo?
Quando trabalhamos com v√°rias colunas, podemos aplicar diferentes fun√ß√µes de agrega√ß√£o a cada uma delas, criando um dicion√°rio que especifica as fun√ß√µes desejadas para cada coluna:

In [None]:
agregacoes = {
    'contagem': 'sum',
    'temperatura': 'mean',
    'sensacao_termica': 'mean',
    'umidade': 'mean'
}

df_agregacoes = df.groupby(['estacao', 'clima']).agg(agregacoes)
df_agregacoes

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,temperatura,sensacao_termica,umidade
estacao,clima,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Inverno,Chuva com trovoadas,228,10.0,6.5,88.0
Inverno,Chuva leve,340984,9.046576,7.188296,83.73965
Inverno,C√©u limpo,927399,6.022336,3.811066,76.006148
Inverno,Neve,14010,4.375,1.568182,87.829545
Inverno,Nublado,934083,8.754422,7.008585,78.369927
Inverno,Parcialmente nublado,1341383,7.887873,5.933096,76.405149
Outono,Chuva com trovoadas,242,18.5,18.5,91.0
Outono,Chuva leve,409392,12.830443,12.222543,84.075145
Outono,C√©u limpo,1533600,12.233776,11.516962,74.282448
Outono,Neve,593,7.4,3.8,91.55


>
üë©‚Äçüíª***Dica da Val:*** Ap√≥s a agrega√ß√£o, podemos renomear as colunas para torn√°-las mais descritivas e intuitivas.

Isso poderia ser feito da seguinte forma:
```python
df_agregacoes.rename(columns={
    'contagem': 'total_contagem',
    'temperatura': 'media_temperatura',
    'sensacao_termica': 'media_sensacao_termica',
    'umidade': 'media_umidade'
}, inplace=True)
```

Com o `groupby()` conseguimos realizar diversas an√°lises para extrair insights importantes sobre os dados.

Desde sumarizar informa√ß√µes, at√© combinar m√∫ltiplos c√°lculos em um agrupamento, essas t√©cnicas s√£o extremamente poderosas para an√°lises explorat√≥rias e para entender os padr√µes presentes no conjunto de dados.


