# Agrupamentos e Estatísticas de Mercado

In [132]:
import pandas as pd
import numpy as np

In [124]:
df = pd.read_csv("2004-2021.tsv", sep="\t")

### 1. Média por Produto: Agrupe os dados por PRODUTO e calcule a média global do PREÇO MÉDIO REVENDA para cada um.

In [9]:
df.groupby("PRODUTO")["PREÇO MÉDIO REVENDA"].mean()

PRODUTO
ETANOL HIDRATADO       2.444979
GASOLINA ADITIVADA     5.049475
GASOLINA COMUM         3.195409
GLP                   47.655054
GNV                    2.033289
OLEO DIESEL            3.711464
OLEO DIESEL S10        3.781366
ÓLEO DIESEL            2.422245
ÓLEO DIESEL S10        3.136145
Name: PREÇO MÉDIO REVENDA, dtype: float64

### 2. Mediana Nacional: Encontre o valor mediano do preço da Gasolina Comum em todo o território nacional.

In [11]:
df["PREÇO MÉDIO REVENDA"].median()

np.float64(2.899)

### 3. Liderança Regional: Agrupe por REGIÃO e descubra qual delas possui o maior preço médio para o "ETANOL HIDRATADO".

In [30]:
df[df["PRODUTO"] == "ETANOL HIDRATADO"].groupby("REGIÃO")["PREÇO MÉDIO REVENDA"].mean().sort_values(ascending=False)

REGIÃO
NORTE           2.655331
NORDESTE        2.451679
SUL             2.412379
SUDESTE         2.293122
CENTRO OESTE    2.245860
Name: PREÇO MÉDIO REVENDA, dtype: float64

### 4. Resumo por Estado: Crie uma tabela que mostre o preço máximo e o preço mínimo de revenda registrados para cada estado brasileiro.

In [40]:
df.groupby("ESTADO").agg({"PREÇO MÍNIMO REVENDA": "min", "PREÇO MÁXIMO REVENDA": "max"})

Unnamed: 0_level_0,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA
ESTADO,Unnamed: 1_level_1,Unnamed: 2_level_1
ACRE,1.38,115.0
ALAGOAS,1.05,85.0
AMAPA,1.4,108.0
AMAZONAS,1.19,105.0
BAHIA,0.999,95.0
CEARA,1.03,100.0
DISTRITO FEDERAL,0.97,95.0
ESPIRITO SANTO,0.84,110.0
GOIAS,0.87,110.0
MARANHAO,1.23,95.0


### 5. Pandemia (2020): Filtre o DataFrame para o ano de 2020 e calcule o preço médio de revenda por mês.

In [56]:
df["DATA INICIAL"] = pd.to_datetime(df["DATA INICIAL"])
df["DATA FINAL"] = pd.to_datetime(df["DATA FINAL"])

In [62]:
df_aux = df[(df["DATA INICIAL"].apply(lambda x: x.year) == 2020) & (df["DATA FINAL"].apply(lambda x: x.year) == 2020)]

In [69]:
df_aux["MES"] = df_aux["DATA INICIAL"].apply(lambda x: x.month)

In [85]:
result = df_aux.groupby("MES")[["PREÇO MÁXIMO REVENDA", "DATA INICIAL"]].mean()

In [86]:
pd.DataFrame(result)

Unnamed: 0_level_0,PREÇO MÁXIMO REVENDA,DATA INICIAL
MES,Unnamed: 1_level_1,Unnamed: 2_level_1
1,19.083666,2020-01-15 12:33:02.950819
2,19.187922,2020-02-12 11:01:41.157024
3,19.149734,2020-03-15 00:13:20.000000
4,18.901286,2020-04-15 12:24:59.504132
5,18.642434,2020-05-17 00:13:17.889182
6,18.722167,2020-06-17 11:51:40.165289
7,18.774714,2020-07-15 12:24:49.655172
8,18.900106,2020-08-09 00:00:00.000000
10,16.116756,2020-10-21 11:45:33.524355
11,16.633731,2020-11-14 23:25:24.027460


### 6. Volume de Pesquisa: Descubra qual estado teve a maior soma total de postos pesquisados em toda a história do dataset.

In [108]:
df_aux = pd.DataFrame(df.groupby("ESTADO")["NÚMERO DE POSTOS PESQUISADOS"].sum().sort_values(ascending=False))

In [109]:
df_aux = df_aux.iloc[0]

In [110]:
pd.DataFrame(df_aux)

Unnamed: 0,SAO PAULO
NÚMERO DE POSTOS PESQUISADOS,7279948


### 7. Combinação de Filtros: Agrupe por ESTADO e PRODUTO simultaneamente e calcule a média de preço.

In [112]:
pd.DataFrame(df.groupby(["ESTADO", "PRODUTO"])["PREÇO MÁXIMO REVENDA"].mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,PREÇO MÁXIMO REVENDA
ESTADO,PRODUTO,Unnamed: 2_level_1
ACRE,ETANOL HIDRATADO,3.267036
ACRE,GASOLINA ADITIVADA,5.812357
ACRE,GASOLINA COMUM,3.967945
ACRE,GLP,60.539764
ACRE,GNV,2.322000
...,...,...
TOCANTINS,GNV,2.979625
TOCANTINS,OLEO DIESEL,4.621034
TOCANTINS,OLEO DIESEL S10,4.745580
TOCANTINS,ÓLEO DIESEL,2.633890


### 8. Variação Crítica: Filtre registros onde o COEF DE VARIAÇÃO REVENDA é maior que 0.1 (indicando alta variação nos postos).

In [116]:
df[df["COEF DE VARIAÇÃO REVENDA"] > 0.1].head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062
8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,1.1,1.699,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077
9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,0.989,1.7,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096
16,2004-05-09,2004-05-15,NORTE,PARA,ETANOL HIDRATADO,104,R$/l,1.914,0.246,1.27,2.4,0.536,0.129,1.378,0.237,0.7564,1.8908,0.172
20,2004-05-09,2004-05-15,SUDESTE,ESPIRITO SANTO,ETANOL HIDRATADO,306,R$/l,1.148,0.116,0.89,1.49,0.267,0.101,0.881,0.095,0.6259,1.1381,0.108


### 9. Margem no Rio: Calcule a média da coluna MARGEM MÉDIA REVENDA especificamente para o estado do Rio de Janeiro.

In [133]:
df["MARGEM MÉDIA REVENDA"] = pd.to_numeric(df["MARGEM MÉDIA REVENDA"], errors="coerce").replace(-99999.0, np.nan)

In [137]:
df[df["ESTADO"] == "RIO DE JANEIRO"]["MARGEM MÉDIA REVENDA"].mean()

np.float64(2.407702077022934)

### 10. Classificação Binária: Crie uma coluna chamada "STATUS_PRECO" que contenha "ALTO" se o preço for maior que R$ 5,00 e "NORMAL" caso contrário.

In [138]:
df["STATUS"] = np.where(df["PREÇO MÁXIMO REVENDA"] > 5, "ALTO", "BAIXO") 

### 11. Histórico do GLP: Encontre a data exata em que o "GLP" registrou seu menor preço médio de revenda na história.

In [146]:
pd.DataFrame(df[df["PRODUTO"] == "GLP"][["DATA INICIAL", "DATA FINAL", "PREÇO MÉDIO REVENDA"]].min())

Unnamed: 0,0
DATA INICIAL,2004-05-09
DATA FINAL,2004-05-15
PREÇO MÉDIO REVENDA,28.026


### 12. Evolução do GNV: Agrupe por ano e conte quantos registros de "GNV" existem para cada ano.

### 13. Volatilidade no Norte: Calcule o desvio padrão dos preços de revenda apenas para a região "NORTE".

### 14. Gasolina Aditivada: Identifique qual estado possui o maior preço médio para a "GASOLINA ADITIVADA".

### 15. Top 3 Baratos: Identifique os 3 estados com o PREÇO MÉDIO REVENDA mais barato para o "ÓLEO DIESEL".

### 16. Tabela Cruzada (Pivot): Tente criar uma tabela que cruze as Regiões (nas linhas) com os Produtos (nas colunas), mostrando a média de preço.

### 17. Busca por Letra: Filtre o DataFrame para estados que começam com a letra "S" (ex: São Paulo, Sergipe...).

### 18. Comparação de Década: Calcule a média de preço da Gasolina Comum no ano de 2010 e compare visualmente com a média de 2020.

### 19. Amostras Robustas: Selecione registros onde o número de postos pesquisados seja maior que 500 e o produto seja "ETANOL HIDRATADO".

### 20. Exportação: Salve um novo arquivo CSV contendo apenas os dados filtrados do ano de 2021.