<a href="https://colab.research.google.com/github/0000danilo/Portf-lio-Python/blob/main/fuel_price_in_brazil_2001_2022.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exploração e análise de dados de crédito com Python

Esse notebook faz parte do meu desenvolvimento como Análista de Dados Python

## Os dados:
Os dados representam informações de combustíveis de um banco e contam com as seguintes colunas:

- DATE = data da venda
- PRODUCT = tipo do produto
- REGION = região
- STATE = estado
- CITY = cidade
- NUMBER OF FUEL STATIONS SEARCHE 
- UNIT OF MEASUREMENT	
- RESALE AVERAGE PRICE = preço medio de revenda
- RESALE STANDARD DEVIATION	
- RESALE MINIMUM PRICE	
- RESALE MAXIMUM PRICE	
- DISTRIBUTION AVERAGE PRICE
- DISTRIBUTION STANDARD DEVIATION
- DISTRIBUTION MINIMUM PRICE	
- DISTRIBUTION MAXIMUM PRICE

## Exploração de dados:
A primeira fase da análise é entender o que tem na nossa matéria prima. Vamos a exploração de dados:


### 1. Importando as bibliotecas e explorando os dados

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('Fuel_price_in_Brazil_2001_2022.csv', sep = ';')

In [None]:
df.head()

- Logo foi verificado que há colunas vazias e o proximo passo vai ser retirá-las 

In [None]:
# Selecionar as colunas não nomeadas para remover
remov_col = ['Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17', 'Unnamed: 18', 'Unnamed: 19']

# Remover as colunas usando o método drop()
df = df.drop(remov_col, axis = 1)


- Foi usado o metodo drop para retirar as colunas vazias

In [None]:
df.head(5)

### 2. Investigando as colunas e etendendo o conjunto de dados usando o head(), info() e shape

In [None]:
df.head()

In [None]:
df.info()

 - Foi verifiado os tipos das colunas, e ja foi chamando a atenção na coluna "DATE" que vai ser preciso fazer a conversão para "DATETIME"

In [None]:
df.shape

### 3. Analisando algumas entradas especificas da coluna DATE

In [None]:
type(df['DATE'][2])

### 4. Foi percebido que a coluna DATE  esta formatada como string. Utilizando o método pd.to_datetime(), converto a coluna para Timestamp / Datetime.

In [None]:
df['DATE'] = pd.to_datetime(df['DATE'])
type(df['DATE'][2])


In [None]:
df['YEAR'] = df['DATE'].dt.year

- foi criado uma nova coluna com a infomações ano para facilitar a análise em alguns pontos.

In [None]:
df.head(5)

### 5. Utilizando o value_counts(), listei todos os tipos de produtos contidos na base de dados.

In [None]:
df['PRODUCT'].value_counts()

- Irei analisar o produto 'ETANOL HIDRATADO'

In [None]:
df['RESALE AVERAGE PRICE'] = df['RESALE AVERAGE PRICE'].replace(',', '.', regex=True)
df['RESALE STANDARD DEVIATION'] = df['RESALE STANDARD DEVIATION'].replace(',', '.', regex=True)
df['RESALE MINIMUM PRICE'] = df['RESALE MINIMUM PRICE'].replace(',', '.', regex=True)



- Fazendo a substituição das virgulas por pontos para poder fazer a conversão de string para float logo em seguida.

In [None]:

df['RESALE AVERAGE PRICE'] = df['RESALE AVERAGE PRICE'].astype(float)
df['RESALE STANDARD DEVIATION'] = df['RESALE STANDARD DEVIATION'].astype(float)
df['RESALE MINIMUM PRICE'] = df['RESALE MINIMUM PRICE'].astype(float)

In [None]:
df.info()

- Feito a conversão, foi usado o info() para verificar se tudo saiu nos conformes

### 6. Filtrando o DataFrame para obter apenas dados do 'ETANOL HIDRATADO' e gravando em uma nova variavel.

In [None]:
df_filtro = df['PRODUCT'] == 'ETANOL HIDRATADO'
df2 = df[df_filtro]
df2.head()

In [None]:
df2.shape

- Olhando a primeira verificação do shape o resultado foi de 563420 linhas, e filtrando apenas para o produto "etanol hidratado"  Obtivermos a quantidade de 118712 linhas 

### 7. Qual o preço médio de revenda da ETANOL HIDRATADO em agosto de 2008?

In [None]:
df2[df2['DATE'] == '2008-08-01']['RESALE AVERAGE PRICE'].mean()

### 8. Qual o preço médio de revenda da etanol hidratado no ano de  2021 em São Paulo?

In [None]:
df2[(df2['DATE'].dt.strftime('%Y').str.contains('2021')) & (df2['STATE'] == 'SAO PAULO')]['RESALE AVERAGE PRICE'].mean()


- Foi usado o .dt.strftime('%Y').str.contains('2014') para fazer um filtro em 2014, o metodo "str.contains" não funciona em valores datetime


### 9. Em qual(quais) estado(s) o etanol hidratado ultrapassou a barreira dos R$ 4,00? E quando isso ocorreu?

In [None]:
df2[df2['RESALE AVERAGE PRICE'] > 4][['STATE', 'DATE', 'RESALE AVERAGE PRICE']].head(20)

### 10. Qual a média de preço por região em 2019?

In [None]:
df2['REGION'].unique()

In [None]:
df2[(df2['REGION'] == 'SUL') & (df2['DATE'].dt.strftime('%Y').str.contains('2019'))]['RESALE AVERAGE PRICE'].mean()

In [None]:
df2[(df2['REGION'] == 'CENTRO OESTE') & (df2['DATE'].dt.strftime('%Y').str.contains('2019'))]['RESALE AVERAGE PRICE'].mean()

In [None]:
df2[(df2['REGION'] == 'NORDESTE') & (df2['DATE'].dt.strftime('%Y').str.contains('2019'))]['RESALE AVERAGE PRICE'].mean()

In [None]:
df2[(df2['REGION'] == 'SUDESTE') & (df2['DATE'].dt.strftime('%Y').str.contains('2019'))]['RESALE AVERAGE PRICE'].mean()

In [None]:
df2[(df2['REGION'] == 'NORTE') & (df2['DATE'].dt.strftime('%Y').str.contains('2019'))]['RESALE AVERAGE PRICE'].mean()

![image-2.png](attachment:image-2.png)

- Analisando o gráfico podemos perceber que o Norte foi a região que teve o maior preço do etanol hidratado

### 11.  Uma tabela contendo a variação percentual ano a ano para o estado do Rio de Janeiro

In [None]:
# Filtrar o dataframe para selecionar apenas as observações referentes ao estado do Rio de Janeiro

df_rj = df2[df2['STATE'] == 'RIO DE JANEIRO']

- Agrupar os dados por ano e calcular a média dos preços médios de revenda para cada ano:

In [None]:
df_rj_grouped = df_rj.groupby('YEAR')['RESALE AVERAGE PRICE'].mean().reset_index()

- Calcular a variação percentual ano a ano a partir dos valores médios obtidos no passo anterior:

In [None]:
df_rj_grouped['VARIAÇÃO %'] = df_rj_grouped['RESALE AVERAGE PRICE'].pct_change() * 100


In [None]:
df_rj_grouped.head(22)

![image.png](attachment:image.png)

### 12. uma tabela contendo uma serie temporal com a diferença absoluta e percentual entre os valores mais baratos e caros. Apresente também ao lado os estados na qual os maiores e menores preços foram registrados.

In [None]:
df_max = df2.groupby('DATE').max()['RESALE AVERAGE PRICE']
df_min = df2.groupby('DATE').min()['RESALE AVERAGE PRICE']

In [None]:
idx_max = df2.groupby('DATE')['RESALE AVERAGE PRICE'].idxmax()
idx_min = df2.groupby('DATE')['RESALE AVERAGE PRICE'].idxmin()

In [None]:
df_diff = pd.DataFrame()

In [None]:
df_diff['max'] = df_max
df_diff['min'] = df_min

In [None]:
df_diff['STATE_MAX'] = df2.loc[idx_max, :]['STATE'].values
df_diff['STATE_MIN'] = df2.loc[idx_min, :]['STATE'].values

In [None]:
df_diff

In [None]:
df_diff['STATE_MAX'].value_counts()

In [None]:
df_diff['STATE_MIN'].value_counts()

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# Conclusão

Essas foram algumas análises do DataSet de Fuel.

A variação do preço médio do etanol hidratado ao longo de 22 anos, de 2001 a 2022. Inicialmente, o preço era de 1,068662 reais por litro e, em 2022, o preço atingiu o valor de 6,050255 reais por litro. Durante esse período, houve variações significativas no preço, com algumas quedas e altas expressivas, como em 2003, quando houve um aumento de 30,59% no preço médio, e em 2021, quando houve um aumento de 38,91%. No entanto, em alguns anos, o preço se manteve estável ou apresentou variações menores. Em 2007, houve uma queda de 9,23% no preço e, em 2012, houve uma pequena variação positiva de 0,99%. De forma geral, os dados indicam que o preço do etanol hidratado é bastante volátil e pode sofrer variações expressivas em curtos períodos de tempo. É importante destacar que a pandemia teve um grande impacto no mercado de combustíveis como um todo. O distanciamento social e as restrições de mobilidade afetaram significativamente a demanda por gasolina e etanol, o que pode ter afetado os preços do etanol hidratado nos últimos anos. Além disso, a volatilidade do mercado global de energia causada pela pandemia pode ter afetado os preços do etanol, assim como afetou os preços de outras commodities.