In [27]:
%pip install sqlalchemy
%pip install pymysql

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [28]:
import pandas as pd
import pymysql

from sqlalchemy import create_engine

## Realizando a leitura dos dados base (Processo de Ingestão dos Dados)

In [29]:
df_bandeiras = pd.read_csv('./data/bandeiras.csv', delimiter=";", header=0)
df_estados = pd.read_csv('./data/estados.csv', delimiter=";", header=0)
df_produtos = pd.read_csv('./data/produtos.csv', delimiter=";", header=0)
df_regioes = pd.read_csv('./data/regioes.csv', delimiter=";", header=0)
df_dados = pd.read_csv('./data/precos-gasolina-etanol-03-2023.csv', delimiter=";", header=0)

#Preparação dos dados
df_dados_com_dominios = (
    pd.merge(df_dados, df_bandeiras, on=['bandeira', 'bandeira'], how='inner')
      .merge(df_estados, on='estado', how='inner')
      .merge(df_produtos, on='produto', how='inner')
      .merge(df_regioes, on='regiao', how='inner')
)

df_dados_com_dominios = df_dados_com_dominios[['id_regiao', 'id_estado', 'id_produto', 'datacoleta', 'valorvenda', 'valorcompra', 'unidade', 'id_bandeira']]

# Utilizando o Pandas com Bancos de Dados

Tópicos:

- Lendos dados de uma tabela
- Filtrando colunas
- Realizando Joins
- Unindo tabelas (UNION)
- Mergeando Tabelas (JOINS)

## Criando nossa Conexão com o Banco de Dados

In [30]:
mysql_connection = create_engine("mysql+pymysql://root:1234@mysql_db/anp").connect()

# Gravando Dados no Banco de Dados

Consideremos que realizamos a ingestão dos dados acima e agora precisamos presistí-los em nosso banco de dados, para isso utilizaremos a estratégia abaixo

Método que devemos utilizar: [pandas_df].to_sql

Principais Parametros:
  - name [Obrigatorio] : Nome da tabela
  - schema [Opcional]: Schema do banco de dados
  - con [Obrigatorio] : Conexão com o banco de dados
  - index [Optional default true]: Quando TRUE o indice do dataframe é gravado no banco de dados, quando FALSE o índice não é incluido
  - if_exists [Opcional com valor padrão fail]: Pode assumir os valores (fail (falha quando a tabela existir, replace (sobrescreve a tabela), append (apenas adiciona os dados a tabela)

Mais detalhes podem ser encontrados em: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html

In [34]:
#Gravando os dados de bandeiras no banco de dados
df_bandeiras.to_sql(name="tb_bandeiras", schema="anp", con=mysql_connection, index=False, if_exists='replace')

#Gravando os dados de estados no banco de dados
df_estados.to_sql(name="tb_estados", con=mysql_connection, index=False, if_exists='replace')

#Gravando os dados de produtos no banco de dados
df_produtos.to_sql(name="tb_produtos", con=mysql_connection, index=False, if_exists='replace')

#Gravando os dados de regioes no banco de dados
df_regioes.to_sql(name="tb_regioes", con=mysql_connection, index=False, if_exists='replace')

#Gravando os dados de precoes de gasolina no banco de dados
df_dados_com_dominios.to_sql(name="tb_precos_gasolina", con=mysql_connection, index=False, if_exists='replace')

Unnamed: 0,avg(valorvenda)
0,4.521172


# Consultando nossos dados

Método/Função que devemos utilizar: Método que devemos utilizar: [pandas_df].read_sql

Principais Parametros:
- sql [Obrigatorio] - Nome da tabela ou comando SQL
- con [Obrigatorio] : Conexão com o banco de dados
- columns [Opcional default None]: Quando especificamos o nome da tabela no campo sql, podemos usar este parametro pra especificar quais colunas desejamos 

In [39]:
#Realizamos a leitura dos dados especificando um comando SQL que será executado diretamente no BD
#Resultado Utilizando o read_sql especificando uma query

df_dados_db = pd.read_sql(sql="SELECT * FROM tb_precos_gasolina", con=mysql_connection)
df_bandeiras_db = pd.read_sql(sql="SELECT * FROM tb_bandeiras", con=mysql_connection)
df_estados_db = pd.read_sql(sql="SELECT * FROM tb_estados", con=mysql_connection)
df_produtos_db = pd.read_sql(sql="SELECT * FROM tb_produtos", con=mysql_connection)
df_regioes_db = pd.read_sql(sql="SELECT * FROM tb_regioes", con=mysql_connection)


#Realizando o merge dos dataframes utilizando o pandas Merge
df_join = (
    pd.merge(df_dados_db, df_bandeiras_db, on='id_bandeira', how='inner')
      .merge(df_estados_db, on='id_estado', how='inner')
      .merge(df_produtos_db, on='id_produto', how='inner')
      .merge(df_regioes_db, on='id_regiao', how='inner')
)

display(df_join)

Unnamed: 0,id_regiao,id_estado,id_produto,datacoleta,valorvenda,valorcompra,unidade,id_bandeira,bandeira,estado,produto,regiao,descricao
0,1,1,1,01/03/2023,529,,R$ / litro,4,SABBÁ,AC,GASOLINA,N,Norte
1,1,1,1,08/03/2023,595,,R$ / litro,4,SABBÁ,AC,GASOLINA,N,Norte
2,1,1,1,15/03/2023,595,,R$ / litro,4,SABBÁ,AC,GASOLINA,N,Norte
3,1,1,1,22/03/2023,595,,R$ / litro,4,SABBÁ,AC,GASOLINA,N,Norte
4,1,1,1,29/03/2023,595,,R$ / litro,4,SABBÁ,AC,GASOLINA,N,Norte
...,...,...,...,...,...,...,...,...,...,...,...,...,...
37662,5,24,3,07/03/2023,476,,R$ / litro,26,MAXSUL,SC,ETANOL,S,Sul
37663,5,24,3,07/03/2023,469,,R$ / litro,26,MAXSUL,SC,ETANOL,S,Sul
37664,5,24,3,14/03/2023,469,,R$ / litro,26,MAXSUL,SC,ETANOL,S,Sul
37665,5,24,3,20/03/2023,469,,R$ / litro,26,MAXSUL,SC,ETANOL,S,Sul


In [38]:
#Podemos também realizar a leitura dos dados já unificados

query = """
      SELECT *
        FROM tb_precos_gasolina
  INNER JOIN tb_bandeiras ON tb_precos_gasolina.id_bandeira = tb_bandeiras.id_bandeira
  INNER JOIN tb_estados ON tb_precos_gasolina.id_estado = tb_estados.id_estado
  INNER JOIN tb_produtos ON tb_precos_gasolina.id_produto = tb_produtos.id_produto
  INNER JOIN tb_regioes ON tb_precos_gasolina.id_regiao = tb_regioes.id_regiao
"""

df_joined_sql = pd.read_sql(sql=query, con=mysql_connection)

display(df_joined_sql)

Unnamed: 0,id_regiao,id_estado,id_produto,datacoleta,valorvenda,valorcompra,unidade,id_bandeira,bandeira,estado,produto,regiao,descricao
0,2,10,1,30/03/2023,563,,R$ / litro,2,IPIRANGA,MA,GASOLINA,NE,Nordeste
1,2,10,1,30/03/2023,535,,R$ / litro,2,IPIRANGA,MA,GASOLINA,NE,Nordeste
2,2,10,1,29/03/2023,509,,R$ / litro,2,IPIRANGA,MA,GASOLINA,NE,Nordeste
3,2,10,1,29/03/2023,529,,R$ / litro,2,IPIRANGA,MA,GASOLINA,NE,Nordeste
4,2,10,1,29/03/2023,529,,R$ / litro,2,IPIRANGA,MA,GASOLINA,NE,Nordeste
...,...,...,...,...,...,...,...,...,...,...,...,...,...
37662,5,18,1,14/03/2023,574,,R$ / litro,23,RODOIL,PR,GASOLINA,S,Sul
37663,5,18,1,14/03/2023,587,,R$ / litro,23,RODOIL,PR,GASOLINA,S,Sul
37664,5,18,1,13/03/2023,555,,R$ / litro,23,RODOIL,PR,GASOLINA,S,Sul
37665,5,18,1,07/03/2023,587,,R$ / litro,23,RODOIL,PR,GASOLINA,S,Sul
