<a href="https://colab.research.google.com/github/alsantosad/PROJECT-ROCKET/blob/backstage/M4TRABALHO_EM_GRUPO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#***TRABALHO EM GRUPO***

##***CONTEXTO***
Você e a sua equipe foram escalados pela Agência Nacional de Petróleo e Gás
Natural e Biocombustíveis (ANP) para realizar uma análise exploratória
relacionada à série histórica de preço de venda da gasolina e do etanol.

A ANP é um centro de referência em dados e informações sobre a indústria de petróleo e gás natural no Brasil, que mantém o Banco de Dados de Exploração e
Produção (BDEP); divulga as estatísticas oficiais sobre reservas, refino e produção
de petróleo, gás e biocombustíveis no Brasil;
realiza e divulga pesquisas sobre
qualidade dos combustíveis e lubrificantes e sobre o comportamento dos preços
desses produtos; promove estudos sobre o potencial petrolífero e o
desenvolvimento do setor; entre outras atividades

Realizar a análise exploratória a partir das fontes de dados
disponíveis no portal gov.br.

Serão utilizados os arquivos
dos dois últimos meses do ano atual (Etanol Hidratado +
Gasolina C) contendo a série histórica dos preços da
gasolina e do etanol em todo o Brasil.


A análise deve responder às seguintes perguntas:
1. Como se comportaram o preço dos combustíveis durante os dois meses citados? Os valores do
etanol e da gasolina tiveram uma tendência de queda ou aumento?
2. Qual o preço médio da gasolina e do etanol nesses dois meses?
3. Quais os 5 estados com o preço médio da gasolina e do etanol mais caros?
4. Qual o preço médio da gasolina e do etanol por estado?
5. Qual o município que possui o menor preço para a gasolina e para o etanol?
6. Qual o município que possui o maior preço para a gasolina e para o etanol?
7. Qual a região que possui o maior valor médio da gasolina?
8. Qual a região que possui o menor valor médio do etanol?
9. Há alguma correlação entre o valor do combustível (gasolina e etanol) e a região onde ele é vendido?
10. Há alguma correlação entre o valor do combustível (gasolina e etanol) e a bandeira que vende ele?
Além disso, vocês deverão pensar em mais três perguntas que deverão ser respondidas por scripts.

##***Importando Bibliotecas***

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import OneHotEncoder

##***Analise Exploratória***

###***Leitura dos Datasets***

In [None]:
#Lendo os csv pelo link do site

# Primeiro arquivo referente ao mês 11
url1 = 'https://raw.githubusercontent.com/alsantosad/PROJECT-ROCKET/master/DADOS/precos-gasolina-etanol-11.csv'
df1 = pd.read_csv(url1,sep=';')

# Segundo arquivo referente ao mês 12
url2 = 'https://raw.githubusercontent.com/alsantosad/PROJECT-ROCKET/master/DADOS/precos-gasolina-etanol-12.csv'
df2 = pd.read_csv(url2,sep=';')

###***Visualizando os Datasets Separados***

In [None]:
#Visualizando os dados do data set
df1.head(2)

In [None]:
#Visualizando os dados do data set
df2.head(2)

In [None]:
#Visualizando numero de linhas e colunas dos 2 Datasets
print(df1.shape,df2.shape)

###***Juntando os Datasets com a Função (`concat()`)***

In [None]:
#Datasets juntos `df1, df2` e ignorando o index para melhor organização do Dataset
#Ignore index ajuda não dar erro
df = pd.concat([df1, df2],ignore_index=True)
df.head(2)

##***Limpeza dos Dados que vamos Trabalhar***

###***Visualizando as valores da coluna de varias formas***

In [None]:
#Visualizando as informações da coluna "Valor de Compra"
df['Valor de Compra'].info()

In [None]:
# Visualizando a descrição
df['Valor de Compra'].describe

In [None]:
# Visualizando os tipos de valores
df['Valor de Compra'].value_counts

In [None]:
#Visualizando os Tipos unicos de Valores na coluna
#Interessante, a função (.unique()) retorna um array
#A função (.unique) sem parentese retorna uma serie
#Diferentes metodos de visualização
df['Valor de Compra'].unique()

###***Corrigindo valores das colunas***

In [None]:
# Corrigindo valores em "Valor de Venda". Substituindo as (,)virgulas por (.)ponto.
df['Valor de Venda'] = df['Valor de Venda'].str.replace(',', '.').astype(float)

In [None]:
# Formatando a coluna Data da Coleta de str para DATE utilizando a função TO_DATETIME
df['Data da Coleta'] = pd.to_datetime(df['Data da Coleta'], format='%d/%m/%Y')
df

###***Limpeza dos Dados, Removendo colunas indesejadas***

In [None]:
#Removendo colunas que não serão uteis.
dfproc = df.drop(columns=['Valor de Compra','Nome da Rua','Numero Rua','Complemento','Cep','CNPJ da Revenda','Revenda'])
dfproc.head(2)

In [None]:
#Visualizando as informações da coluna, pois vamos trabalhar com ela.
dfproc['Valor de Venda'].info()

##***1. Como se comportaram o preço dos combustíveis durante os dois meses citados? Os valores do etanol e da gasolina tiveram uma tendência de queda ou diminuição?***

In [None]:
#Verificando se o média do Valor do Etanol está de acordo com o gráfico mostrado
dfproc[dfproc['Produto'] == 'ETANOL']['Valor de Venda'].mean

In [None]:
#Achando o Minimo e o Maximo do Valor de Venda do ETANOL
maior_valor_etanol = dfproc[dfproc['Produto'] == 'ETANOL']['Valor de Venda'].max()
menor_valor_etanol = dfproc[dfproc['Produto'] == 'ETANOL']['Valor de Venda'].min()
display(f'O maior valor do Etanol é {maior_valor_etanol}')
display(f'O menor valor do Etanol é {menor_valor_etanol}')

In [None]:
#Buscando o maior valor de Venda do Etanol (Verificando Outlier)
maior_valor_etanol = dfproc[(dfproc['Produto'] == 'ETANOL') & (dfproc['Valor de Venda'] == 6.6)]
maior_valor_etanol.head(4)

In [None]:
# Supondo que 'dados' é o DataFrame que contém seus dados
media_etanol = dfproc[dfproc['Produto'] == 'ETANOL']['Valor de Venda'].mean()

print(f'Média do valor de venda do Etanol: {media_etanol}')


In [None]:
# Agrupando por semana e tipo de combustível, e calculando a média dos preços de venda
comport = dfproc.groupby([pd.Grouper(key='Data da Coleta', freq='W'), 'Produto'])['Valor de Venda'].median().reset_index()
#Plotando o gráfico de linha
fig, ax = plt.subplots(figsize=(10, 6))
plt.xticks(rotation=45)
sns.lineplot(data=comport, x='Data da Coleta', y='Valor de Venda', hue='Produto', ax=ax)
plt.show()


In [None]:
comport = dfproc.groupby([pd.Grouper(key='Data da Coleta', freq='W'), 'Produto'])['Valor de Venda'].median()
comport

In [None]:
dfproc.head(2)

##***2. Qual o preço médio da gasolina e do etanol nesses dois meses?***

In [None]:
# Filtrar apenas as linhas relacionadas à gasolina
gasolina_df = dfproc[dfproc['Produto'] == 'GASOLINA']

# Filtrar apenas as linhas relacionadas ao etanol
etanol_df = dfproc[dfproc['Produto'] == 'ETANOL']

# Calcular o preço médio da gasolina
preco_medio_gasolina = gasolina_df['Valor de Venda'].mean()

# Calcular o preço médio do etanol
preco_medio_etanol = etanol_df['Valor de Venda'].mean()

# Dados para o gráfico
produtos = ['Gasolina', 'Etanol']
precos_medios = [preco_medio_gasolina, preco_medio_etanol]

# Criar o gráfico de barras
plt.bar(produtos, precos_medios, color=['orange', 'blue'])

# Adicionar rótulos e título ao gráfico
plt.xlabel('Produto')
plt.ylabel('Preço Médio (R$/litro)')
plt.title('Preço Médio da Gasolina e Etanol')

# Mostrar o gráfico
plt.show()


##***3. Quais os 5 estados com o preço médio da gasolina e do etanol mais caros?***

In [None]:
dfproc.head(3)

In [None]:
# Filtra apenas as linhas relacionadas à gasolina
gasolina_df = dfproc[dfproc['Produto'] == 'GASOLINA']

# Filtra apenas as linhas relacionadas ao etanol
etanol_df = dfproc[dfproc['Produto'] == 'ETANOL']

# Calcula o preço médio da gasolina para cada estado
media_gasolina_por_estado = gasolina_df.groupby('Estado - Sigla')['Valor de Venda'].mean()

# Calcula o preço médio do etanol para cada estado
media_etanol_por_estado = etanol_df.groupby('Estado - Sigla')['Valor de Venda'].mean()

# Obtém os 5 estados com os preços médios mais altos para a gasolina
top5_gasolina = media_gasolina_por_estado.nlargest(5)

# Obtém os 5 estados com os preços médios mais altos para o etanol
top5_etanol = media_etanol_por_estado.nlargest(5)

# Exibe os resultados
print('Top 5 Estados com Preço Médio mais Alto para Gasolina:')
print(top5_gasolina)

print('\nTop 5 Estados com Preço Médio mais Alto para Etanol:')
print(top5_etanol)


In [None]:
# Configuração do gráfico de barras para a gasolina
plt.figure(figsize=(10, 5))
plt.barh(top5_gasolina.index, top5_gasolina, color='orange', label='Gasolina')

# Configuração do gráfico de barras para o etanol
plt.barh(top5_etanol.index, top5_etanol, color='blue', label='Etanol')

# Adiciona rótulos e título ao gráfico
plt.xlabel('Preço Médio (R$/litro)')
plt.ylabel('Estado')
plt.title('Top 5 Estados com Preço Médio mais Alto para Gasolina e Etanol')
plt.legend()

# Mostra o gráfico
plt.show()


##***4. Qual o preço médio da gasolina e do etanol por estado?***

In [None]:
# Filtra apenas as linhas relacionadas à gasolina
gasolina_df = dfproc[dfproc['Produto'] == 'GASOLINA']

# Filtra apenas as linhas relacionadas ao etanol
etanol_df = dfproc[dfproc['Produto'] == 'ETANOL']

# Calcula o preço médio da gasolina para cada estado
media_gasolina_por_estado = gasolina_df.groupby('Estado - Sigla')['Valor de Venda'].mean()

# Calcula o preço médio do etanol para cada estado
media_etanol_por_estado = etanol_df.groupby('Estado - Sigla')['Valor de Venda'].mean()

print(f'A média do Preço da Gasolina por Estado é {media_gasolina_por_estado}')
print(f'A média do Preço do Etanol por Estado é {media_etanol_por_estado}')

In [None]:
# Juntando os dataframes para facilitar a visualização
df = pd.DataFrame({'Gasolina': media_gasolina_por_estado, 'Etanol': media_etanol_por_estado}).reset_index()

# Criando o gráfico de linhas usando seaborn com cores personalizadas
plt.figure(figsize=(10, 6))
sns.lineplot(data=df.melt('Estado - Sigla', var_name='Combustível', value_name='Preço Médio (R$/litro)'),
             x='Estado - Sigla', y='Preço Médio (R$/litro)', hue='Combustível', marker='o', palette={'Gasolina': 'orange', 'Etanol': 'blue'})
plt.title('Preço Médio da Gasolina e Etanol por Estado (com linha)')
plt.xlabel('Estado - Sigla')
plt.ylabel('Preço Médio (R$/litro)')

plt.show()

##***5. Qual o município que possui o menor preço para a gasolina e para o etanol?***

In [None]:
# Calcula o preço minimo da gasolina para cada estado
min_gasolina_por_municipio = gasolina_df.groupby('Municipio')['Valor de Venda'].min()
municipio_menor_gasolina = min_gasolina_por_municipio.sort_values().head(1)
df_municipio_menor_gasolina = pd.DataFrame(municipio_menor_gasolina)
df_municipio_menor_gasolina

In [None]:
# Calcula o preço minimo do etanol para cada municipio
min_etanol_por_municipio = etanol_df.groupby('Municipio')['Valor de Venda'].min()
municipio_menor_etanol = min_etanol_por_municipio.sort_values().head(1)
df_municipio_menor_etanol = pd.DataFrame(municipio_menor_etanol)
df_municipio_menor_etanol

##***6. Qual o município que possui o maior preço para a gasolina e para o etanol?***


In [None]:
# Calcula o preço maximo da gasolina para cada municipio
max_gasolina_por_municipio = gasolina_df.groupby('Municipio')['Valor de Venda'].max()
municipio_max_gasolina = max_gasolina_por_municipio.sort_values().head(1)
df_municipio_max_gasolina = pd.DataFrame(municipio_max_gasolina)
df_municipio_max_gasolina

In [None]:
# Calcula o preço maximo do etanol para cada estado
max_etanol_por_municipio = etanol_df.groupby('Municipio')['Valor de Venda'].max()
municipio_max_etanol = max_etanol_por_municipio.sort_values().head(1)
df_municipio_max_etanol=pd.DataFrame(municipio_max_etanol)
df_municipio_max_etanol

##***7. Qual a região que possui o maior valor médio da gasolina?***

In [None]:
media_gasolina_por_regiao = gasolina_df.groupby("Regiao - Sigla")['Valor de Venda'].mean()

regiao_maior_media_gasolina = media_gasolina_por_regiao.idxmax()
valor_maior_media_gasolina = media_gasolina_por_regiao.max()

print(f'A região com o maior valor médio de gasolina é {regiao_maior_media_gasolina} com média de {valor_maior_media_gasolina:.2f} R$/litro.')

regioes_ordenadas = media_gasolina_por_regiao.sort_values(ascending=False)

df_regiao_max_gasolina = pd.DataFrame(regioes_ordenadas)
df_regiao_max_gasolina

##***8.Qual a região que possui o menor valor médio do etanol?***

In [None]:
media_etanol_por_regiao = etanol_df.groupby("Regiao - Sigla")['Valor de Venda'].mean()

regiao_maior_media_etanol = media_etanol_por_regiao.idxmax()
valor_maior_media_etanol = media_etanol_por_regiao.max()

print(f'A região com o maior valor médio de Etanol é {regiao_maior_media_etanol} com média de {valor_maior_media_etanol:.2f} R$/litro.')

regioes_ordenadas = media_etanol_por_regiao.sort_values(ascending=False)

df_regiao_media_etanol = pd.DataFrame(regioes_ordenadas)
df_regiao_media_etanol

##***9. Há alguma correlação entre o valor do combustível (gasolina e etanol) e a região onde ele é vendido?***

In [None]:
# Criando um novo DataFrame com os valores mínimo, médio e máximo
df_summary = dfproc.groupby(['Regiao - Sigla', 'Produto'])['Valor de Venda'].agg(['min', 'mean', 'max']).reset_index()

# Renomeando as colunas
df_summary.columns = ['Regiao - Sigla', 'Produto', 'Preco minimo', 'Preco medio', 'Preco maximo']

# Aplicando o teste de correlação com o DataFrame normal
correlation_normal = df_summary[['Preco minimo', 'Preco medio', 'Preco maximo']].corr()

# Imprimindo os resultados
print("Correlation with normal DataFrame:")
print(correlation_normal)

Correlation with normal DataFrame:
              Preco minimo  Preco medio  Preco maximo
Preco minimo      1.000000     0.992888      0.765161
Preco medio       0.992888     1.000000      0.797306
Preco maximo      0.765161     0.797306      1.000000


In [None]:
# Codificando a coluna 'Regiao - Sigla' em variáveis binárias
one_hot = pd.get_dummies(dfproc['Regiao - Sigla'])

# Concatenando o novo DataFrame com o DataFrame original
df_encoded = pd.concat([dfproc, one_hot], axis=1)

# Calculando a correlação entre o valor do combustível e as novas variáveis de região
correlacoes = df_encoded.corr()['Valor de Venda']

# Selecionando apenas as correlações com as novas variáveis de região
correlacoes_regiao = correlacoes[one_hot.columns]

# Imprimindo as correlações
print(correlacoes_regiao)

# Criando um mapa de calor para visualizar as correlações
plt.figure(figsize=(10, 10))
sns.heatmap(correlacoes_regiao.to_frame(), cmap='coolwarm', annot=True)
plt.show()



##***10. Há alguma correlação entre o valor do combustível (gasolina e etanol) e a bandeira que vende ele?***

In [None]:
# Criando o codificador
encoder = OneHotEncoder(sparse=False)

# Transformando a coluna de bandeira em variáveis binárias
bandeira_encoded = encoder.fit_transform(dfproc[['Bandeira']])

# Criando um DataFrame com as novas variáveis
bandeira_df = pd.DataFrame(bandeira_encoded, columns=encoder.categories_[0])

# Concatenando o novo DataFrame com o DataFrame original
df_encoded = pd.concat([dfproc, bandeira_df], axis=1)

# Calculando a correlação entre o valor do combustível e as novas variáveis de bandeira
correlacoes = df_encoded.corr()['Valor de Venda']

# Imprimindo as correlações
print(correlacoes)

# Criando um mapa de calor para visualizar as correlações
plt.figure(figsize=(10, 10))
sns.heatmap(correlacoes.to_frame(), cmap='coolwarm', annot=True)
plt.show()






##***11. Qual a distribuição de bandeiras por região do país?***


In [None]:
# Contando o número de bandeiras em cada região
distribuicao_bandeiras = dfproc.groupby(['Regiao - Sigla', 'Bandeira']).size().reset_index(name='Contagem')

# Agrupando os dados por região e bandeira e contando o número de ocorrências
distribuicao_bandeiras = distribuicao_bandeiras.groupby(['Regiao - Sigla', 'Bandeira'])['Contagem'].sum().unstack(fill_value=0)

# Imprimindo a distribuição de bandeiras por região formatando-a
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(distribuicao_bandeiras)



##***12. Existe alguma relação entre a data do mês em que determinadas bandeiras são mais lucrativas?***

In [None]:
# Extraindo o mês da data da coleta
dfproc['Mes'] = dfproc['Data da Coleta'].dt.month

# Calculando a soma do valor de venda para cada bandeira em cada mês
lucro_por_mes = dfproc.groupby(['Mes', 'Bandeira'])['Valor de Venda'].sum().reset_index()

# Encontrando o mês de maior lucro para cada bandeira
mes_maior_lucro = lucro_por_mes.loc[lucro_por_mes.groupby('Bandeira')['Valor de Venda'].idxmax()]

# Removendo o índice numérico
mes_maior_lucro.set_index('Bandeira', inplace=True)

# Formatando a saída
mes_maior_lucro_styled = mes_maior_lucro.style.format({'Valor de Venda': 'R$ {:,.2f}'}).background_gradient(cmap='Blues')

# Imprimindo o mês de maior lucro para cada bandeira
display(mes_maior_lucro_styled)




##***13. Existe alguma bandeira exclusiva de alguns estados?***

In [None]:
# Para cada estado, percorrer lista de bandeira e arquivar e em dataframe


In [None]:
# Agrupando os dados por estado e bandeira
bandeiras_por_estado = dfproc.groupby(['Estado - Sigla', 'Bandeira']).size().reset_index(name='Contagem')

# Encontrando as bandeiras que aparecem apenas em um estado
bandeiras_exclusivas = bandeiras_por_estado['Bandeira'].value_counts()
bandeiras_exclusivas = bandeiras_exclusivas[bandeiras_exclusivas == 1]

# Imprimindo as bandeiras exclusivas de alguns estados
print("Bandeiras exclusivas de alguns estados:")
print(bandeiras_exclusivas)






In [None]:
# Agrupando os dados por estado e bandeira
bandeiras_por_estado = dfproc.groupby(['Estado - Sigla', 'Bandeira']).size().reset_index(name='Contagem')

# Encontrando as bandeiras que aparecem apenas em um estado
bandeiras_exclusivas = bandeiras_por_estado['Bandeira'].value_counts()
bandeiras_exclusivas = bandeiras_exclusivas[bandeiras_exclusivas == 1]

# Obtendo os estados correspondentes às bandeiras exclusivas
estados_bandeiras_exclusivas = bandeiras_por_estado[bandeiras_por_estado['Bandeira'].isin(bandeiras_exclusivas.index)]

# Removendo a coluna 'Contagem'
estados_bandeiras_exclusivas = estados_bandeiras_exclusivas.drop(columns='Contagem')

# Formatando a saída
estados_bandeiras_exclusivas_styled = estados_bandeiras_exclusivas.style.hide_index().set_properties(**{'background-color': 'lightblue', 'color': 'black'})

# Imprimindo as bandeiras exclusivas de alguns estados
display(estados_bandeiras_exclusivas_styled)

