-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

https://www.kaggle.com/datasets/zusmani/petrolgas-prices-worldwide

# Exploração dos dados

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('Petrol Dataset June 20 2022.csv', encoding='latin-1') # lendo o arquivo

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.columns # verificando todas as colunas

In [None]:
df = df.drop(columns=['#']) # excluindo a coluna de número de série

In [None]:
df.info()

In [None]:
df.describe() # análise estatística

In [None]:
df.isnull().sum() # soma de valores nulos

In [None]:
df.isna().sum() # porcentagem de valores faltantes

In [None]:
df.dtypes # tipos de dados

# Análise dos dados

In [None]:
df.loc[df['Daily Oil Consumption (Barrels)'] == df['Daily Oil Consumption (Barrels)'].max()] # maior consumidor diário de barrís de petrólio

In [None]:
df.loc[df['Daily Oil Consumption (Barrels)'] == df['Daily Oil Consumption (Barrels)'].min()] # menor consumidor diário de barrís de petrólio

In [None]:
df.loc[df['Country'] == 'Brazil'] # dados do brasil

In [None]:
df.loc[df['Price Per Liter (USD)'] == df['Price Per Liter (USD)'].max()] # petroleo mais caro em dolar americano

In [None]:
df.loc[df['Price Per Liter (USD)'] == df['Price Per Liter (USD)'].min()] # petroleo mais barato em dolar americano

In [None]:
df.nlargest(10, ['Daily Oil Consumption (Barrels)']) # top 10 consumidores

In [None]:
df.nlargest(10, ['Price Per Liter (USD)']) # top 10 maiores preços por litro

In [None]:
df.nsmallest(10, ['Price Per Liter (USD)']) # top 10 menores preços por litro

# Vizualização gráfica

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

plt.rcParams['figure.figsize'] = (10,7) # definindo tamanho 'default' para os plots

### CONSUMO

Neste gráfico buscaremos os maiores consumidores diários de barrís de petróleo (top 10).

In [None]:
higher_custumer = df.nlargest(10, ['Daily Oil Consumption (Barrels)']) # separando dataset para maiores consumidores
plt.style.use('ggplot') # estilo do gráfico
higher_custumer.plot(x='Country', y = "Daily Oil Consumption (Barrels)", kind='bar', legend=False, color='b', alpha=0.75, fontsize=11) # plot
plt.ticklabel_format(style='plain', axis='y') # configurando para que o eixo y não fique com notação científica
plt.title('Maiores consumidores diários de barris de petróleo', fontsize=17, fontfamily='serif') # título, fonte
plt.xlabel('Países', fontsize=12) # título do eixo x
plt.ylabel('Barris de petróleo') # título do eixo y
plt.grid(True) # linha do gráfico
plt.tight_layout() # refinação do gráfico
plt.show()

Já neste outro gráfico, os menores consumidores.

In [None]:
smallest_custumer = df.nsmallest(10, ['Daily Oil Consumption (Barrels)']) # separando dataset para menores consumidores
plt.style.use('ggplot') # estilo do gráfico
smallest_custumer.plot(x='Country', y = "Daily Oil Consumption (Barrels)", kind='bar', legend=False, color='b', alpha=0.75, fontsize=11)
plt.ticklabel_format(style='plain', axis='y') # configurando para que o eixo y não fique com notação científica
plt.title('Menores consumidores diários de barris de petróleo', fontsize=17, fontfamily='serif') # título, font 
plt.xlabel('Países', fontsize=12) # título do eixo x
plt.ylabel('Barris de petróleo') # título do eixo y
plt.grid(True) # linha do gráfico
plt.tight_layout() # refinação do gráfico
plt.show()

### PREÇOS (POR LITRO)

Quais são os 10 países que possuem o petróleo mais caro (por litro)?

In [None]:
biggest_price_L = df.nlargest(10, ['Price Per Liter (USD)']) # separando dataset para maiores preços
plt.style.use('ggplot') # estilo do gráfico
biggest_price_L.plot(x='Country', y = "Price Per Liter (USD)", kind='bar', legend=False, color='b', alpha=0.75, fontsize=11)
plt.ticklabel_format(style='plain', axis='y') # configurando para que o eixo y não fique com notação científica
plt.title('Países com o petróleo (por litro) mais caro', fontsize=17, fontfamily='serif') # título, font
plt.xlabel('Países', fontsize=12) # título do eixo x
plt.ylabel('USD') # título do eixo y
plt.grid(True) # linha do gráfico
plt.tight_layout() # refinação do gráfico
plt.show()

E quais são os menores preços (por litro)?

In [None]:
lowest_price_L = df.nsmallest(10, ['Price Per Liter (USD)']) # separando dataset para menores preços
plt.style.use('ggplot') # estilo do gráfico
lowest_price_L.plot(x='Country', y = "Price Per Liter (USD)", kind='bar', legend=False, color='b', alpha=0.75, fontsize=11)
plt.ticklabel_format(style='plain', axis='y') # configurando para que o eixo y não fique com notação científica
plt.title('Países com petróleo (por litro) mais baratos', fontsize=17, fontfamily='serif') # título, font 
plt.xlabel('Países', fontsize=12) # título do eixo x
plt.ylabel('USD') # título do eixo y
plt.grid(True) # linha do gráfico
plt.tight_layout() # refinação do gráfico
plt.show()

Lembrando que os valores estão convertidos em dolar! Mas também podemos observar esses mesmos gráficos com a devida conversão para reais (R$).

obs: a conversão será feita com o valor do dolar no momento em que fiz este script.

In [None]:
df['Price Per Liter (R$)'] = df['Price Per Liter (USD)'] * 5.32 # nova coluna convertendo para real (R$)

In [None]:
df[['Country', 'Price Per Liter (USD)', 'Price Per Liter (R$)']]

In [None]:
rs_bL = df.nlargest(10, ['Price Per Liter (R$)']) # separando dataset para maiores preços
plt.style.use('ggplot') # estilo do gráfico
rs_bL.plot(x='Country', y = "Price Per Liter (R$)", kind='bar', legend=False, color='b', alpha=0.75, fontsize=11)
plt.ticklabel_format(style='plain', axis='y') # configurando para que o eixo y não fique com notação científica
plt.title('Países com o petróleo (por litro) mais caro', fontsize=17, fontfamily='serif') # título, font
plt.xlabel('Países', fontsize=12) # título do eixo x
plt.ylabel('R$') # título do eixo y
plt.grid(True) # linha do gráfico
plt.tight_layout() # refinação do gráfico
plt.show()

In [None]:
rs_sL = df.nsmallest(10, ['Price Per Liter (R$)']) # separando dataset para menores preços
plt.style.use('ggplot') # estilo do gráfico
rs_sL.plot(x='Country', y = "Price Per Liter (USD)", kind='bar', legend=False, color='b', alpha=0.75, fontsize=11)
plt.ticklabel_format(style='plain', axis='y') # configurando para que o eixo y não fique com notação científica
plt.title('Países com petróleo (por litro) mais barato', fontsize=17, fontfamily='serif') # título, font 
plt.xlabel('Países', fontsize=12) # título do eixo x
plt.ylabel('R$') # título do eixo y
plt.grid(True) # linha do gráfico
plt.tight_layout() # refinação do gráfico
plt.show()

### RELAÇÃO PREÇO X CONSUMO ANUAL PER CAPITA

In [None]:
colors = px.colors.qualitative.swatches() # visualizando cores do plotly
colors.show() # mostrando cores

In [None]:
figure = px.scatter(x=df['Price Per Liter (USD)'], y=df['Yearly Gallons Per Capita'], # eixos
                 labels={'y': 'Galões anuais per capita', 'x': 'Preço por litro (USD)'}, # títulos (x e y)
                 color_discrete_sequence = px.colors.qualitative.T10, # escolha da cor
                 template='ggplot2') # tema
figure.update_layout(title= {'text' : 'Preço x Consumo anual per capita'}) # título do gráfico
figure.show()

In [None]:
figure = px.scatter(x=df['Price Per Liter (R$)'], y=df['Yearly Gallons Per Capita'], # eixos
                 labels={'y': 'Galões anuais per capita', 'x': 'Preço por litro (R$)'}, # títulos (x e y)
                 color_discrete_sequence = px.colors.qualitative.T10, # escolha da cor
                 template='ggplot2') # tema
figure.update_layout(title= {'text' : 'Preço x Consumo anual per capita'}) # título do gráfico
figure.show()

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------