# Bibliotecas

In [None]:
import os
import glob
import shutil
import psycopg2
import pandas as pd
from google.colab import drive

# Arquivos do projeto


In [None]:
# Área de trabalho do projeto
drive.mount('/content/drive')
workspace_path = '/content/drive/MyDrive/Workspace'

Mounted at /content/drive


In [None]:
# Caminho para os arquivos dos dados
data_path = f'{workspace_path}/fiap/pos-tech/data-analytics/fase-4/dados'
data_path += '/analise-de-negocios/dados'

In [None]:
# Pasta temporária
temp_path = 'tmp'
os.makedirs(temp_path, exist_ok=True)

In [None]:
# Copiando os arquivos do backup do banco de dados
for part_file in glob.glob(f'{data_path}/anp_dump.tar.gz.part-*'):
    shutil.copy(part_file, temp_path)

In [None]:
# Remontando o arquivo de backup no formato .tar.gz
!cat tmp/anp_dump.tar.gz.part-* > tmp/anp_dump.tar.gz

In [None]:
# Descompactando o arquivo de backup do banco de dados
!tar -xzvf tmp/anp_dump.tar.gz

tmp/anp_dump.backup


# PostgreSQL

In [None]:
# Instalação
!apt-get install -y postgresql

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following additional packages will be installed:
  libcommon-sense-perl libjson-perl libjson-xs-perl libtypes-serialiser-perl logrotate netbase
  postgresql-14 postgresql-client-14 postgresql-client-common postgresql-common ssl-cert sysstat
Suggested packages:
  bsd-mailx | mailx postgresql-doc postgresql-doc-14 isag
The following NEW packages will be installed:
  libcommon-sense-perl libjson-perl libjson-xs-perl libtypes-serialiser-perl logrotate netbase
  postgresql postgresql-14 postgresql-client-14 postgresql-client-common postgresql-common ssl-cert
  sysstat
0 upgraded, 13 newly installed, 0 to remove and 49 not upgraded.
Need to get 18.4 MB of archives.
After this operation, 51.6 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy-updates/main amd64 logrotate amd64 3.19.0-1ubuntu1.1 [54.3 kB]
Get:2 http://archive.ubuntu.com/ubuntu jammy/main amd6

In [None]:
# Iniciando o serviço
!service postgresql start

 * Starting PostgreSQL 14 database server
   ...done.


In [None]:
# Configurando o usuário postgres
!sudo -u postgres psql -c "ALTER USER postgres PASSWORD 'postgres';"

ALTER ROLE


In [None]:
# Criando o banco de dados
!sudo -u postgres psql -c "CREATE DATABASE anp;"

CREATE DATABASE


In [None]:
# Restaurando os dados para o PostgreSQL
!PGPASSWORD=postgres pg_restore -U postgres -d anp -h localhost -v tmp/anp_dump.backup

pg_restore: connecting to database for restore
pg_restore: creating TABLE "public.preco_combustivel"
pg_restore: processing data for table "public.preco_combustivel"


# Explorando os dados

In [None]:
# Conexão com o PostgreSQL
conn = psycopg2.connect(
    host='localhost',
    port='5432',
    database='anp',
    user='postgres',
    password='postgres'
)

In [None]:
# Carregando os dados do PostgreSQL em um dataframe Pandas
df = pd.io.sql.read_sql_query("""
  SELECT  regiao_sigla      AS regiao
          , estado_sigla    AS estado
          , municipio
          , bandeira
          , produto
          , valor_de_venda  AS valor_venda
          , data_da_coleta  AS data_coleta
  FROM    public.preco_combustivel
""", conn)

  df = pd.io.sql.read_sql_query("""


In [None]:
# Ajustando a coluna data_da_coleta
df['data_coleta'] = pd.to_datetime(df['data_coleta'], format='%Y-%m-%d')

# Separando ano e mês
df['ano'] = df['data_coleta'].dt.year
df['mes'] = df['data_coleta'].dt.month

In [None]:
# Informações do dataframe
display(df.head())
print('\nLinhas e colunas:', df.shape, '\n')
display(df.info())
print('\nRegistros nulos:')
display(df.isnull().sum())
print('\nEstatística básica:')
display(df.describe().round(2))

Unnamed: 0,regiao,estado,municipio,bandeira,produto,valor_venda,data_coleta,ano,mes
0,N,AC,RIO BRANCO,VIBRA ENERGIA,GASOLINA,6.99,2022-01-03,2022,1
1,N,AC,RIO BRANCO,VIBRA ENERGIA,ETANOL,5.99,2022-01-03,2022,1
2,N,AC,RIO BRANCO,VIBRA ENERGIA,DIESEL,6.09,2022-01-03,2022,1
3,N,AC,RIO BRANCO,VIBRA ENERGIA,GASOLINA ADITIVADA,7.05,2022-01-03,2022,1
4,N,AC,RIO BRANCO,VIBRA ENERGIA,DIESEL S10,6.12,2022-01-03,2022,1



Linhas e colunas: (4401370, 9) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4401370 entries, 0 to 4401369
Data columns (total 9 columns):
 #   Column       Dtype         
---  ------       -----         
 0   regiao       object        
 1   estado       object        
 2   municipio    object        
 3   bandeira     object        
 4   produto      object        
 5   valor_venda  float64       
 6   data_coleta  datetime64[ns]
 7   ano          int32         
 8   mes          int32         
dtypes: datetime64[ns](1), float64(1), int32(2), object(5)
memory usage: 268.6+ MB


None


Registros nulos:


Unnamed: 0,0
regiao,0
estado,0
municipio,0
bandeira,0
produto,0
valor_venda,0
data_coleta,0
ano,0
mes,0



Estatística básica:


Unnamed: 0,valor_venda,data_coleta,ano,mes
count,4401370.0,4401370,4401370.0,4401370.0
mean,4.48,2020-05-29 04:40:07.617628672,2019.93,6.27
min,1.76,2018-01-01 00:00:00,2018.0,1.0
25%,3.52,2019-02-18 00:00:00,2019.0,3.0
50%,4.19,2020-03-25 00:00:00,2020.0,6.0
75%,5.2,2021-10-20 00:00:00,2021.0,9.0
max,9.65,2022-12-30 00:00:00,2022.0,12.0
std,1.3,,1.45,3.38


In [None]:
print('Produtos comercializados:')
print(sorted(df.produto.unique()))

Produtos comercializados:
['DIESEL', 'DIESEL S10', 'ETANOL', 'GASOLINA', 'GASOLINA ADITIVADA', 'GNV']


In [None]:
print('Período dos dados (anos):')
print(sorted(df.ano.unique()))

Período dos dados (anos):
[2018, 2019, 2020, 2021, 2022]


In [None]:
print('Análise dos produtos por ano:')
df[['ano', 'produto', 'valor_venda']].groupby(['produto', 'ano']) \
                                     .agg(['mean', 'min', 'max']) \
                                     .round(2)

Análise dos produtos por ano:


Unnamed: 0_level_0,Unnamed: 1_level_0,valor_venda,valor_venda,valor_venda
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,min,max
produto,ano,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
DIESEL,2018,3.5,2.8,5.2
DIESEL,2019,3.6,2.87,4.99
DIESEL,2020,3.42,2.45,5.09
DIESEL,2021,4.69,3.1,6.99
DIESEL,2022,6.63,3.14,9.0
DIESEL S10,2018,3.59,2.84,5.3
DIESEL S10,2019,3.69,2.79,5.09
DIESEL S10,2020,3.51,2.46,5.38
DIESEL S10,2021,4.74,2.8,6.96
DIESEL S10,2022,6.73,3.59,9.65


In [None]:
print('Análise da quantidade de bandeiras:')
df[['ano', 'bandeira', 'produto']].groupby(['ano', 'produto']) \
                                  .bandeira.nunique()

Análise da quantidade de bandeiras:


Unnamed: 0_level_0,Unnamed: 1_level_0,bandeira
ano,produto,Unnamed: 2_level_1
2018,DIESEL,64
2018,DIESEL S10,66
2018,ETANOL,66
2018,GASOLINA,66
2018,GNV,24
2019,DIESEL,59
2019,DIESEL S10,61
2019,ETANOL,63
2019,GASOLINA,64
2019,GNV,22
