## Boas práticas para tratamento de dados

### **Camadas Especializadas**
   - **Camada Bronze**
   
      Raw Ingestion

   - **Camada Silver**

      Filtered, Cleaned and Enhanced

   - **Camada Gold**
   
      Business-level aggregates

### **Bibliotecas**

   - **ipython-sql**
   
   É utilizada para interagir com banco de dados sql.

   - **SQLAlchemy**

   É utilizada para mapeamento objeto-relacional (ORM) e manipulação de banco de dados relacionais.
   Permite mapear classes Python para tabelas de um BD relacional.
   Documentation: https://www.sqlalchemy.org/

   - **Psycopg2**

   É utilizada para contectar e interagir com BDs PostgreSQL.
   Documentation: https://www.psycopg.org/docs/

In [None]:
# Biblioteca "Ipython-SQL"
# Instalação
%pip install ipython-sql

# carrega a extensão ipython-sql
%load_ext sql

In [None]:
# Biblioteca SQLAlchemy

%pip install sqlalchemy

In [None]:
# Biblioteca Psycopg2 
%pip install psycopg2

In [2]:
%load_ext sql
from sqlalchemy import create_engine, text as sql_text
import pandas as pd
import datetime

In [3]:
# Configuração de conexão com o Postgree
# Format = postgresql://username:password@hostname/dbname
%sql postgresql://postgres:1234@localhost/postgres

In [4]:
# Engine para os comandos

# create_engine é uma função fornecida pela biblioteca SQLAlchemy que cria um objeto de conexão com o BD
engine = create_engine('postgresql://postgres:1234@localhost/postgres')


In [12]:
# Apartir desse momento conseguimos escrever em sql
# %%sql é um "comando mágico" específico do ipython-sql. Esse comando indica que a célula do notebook contém código SQL a ser executado no banco de dados que foi configurado usando o ipython-sql.

%%sql
SELECT *
FROM first_table

SyntaxError: invalid syntax (2317897425.py, line 5)

In [13]:
# Comando SQL com o Pandas
query = """
SELECT *
FROM first_table
"""

# Ler dados de uma fonte SQL e carrega-los em um DataFrame do Pandas.
# sql_text = transforma a string 'query' em um objeto SQL.
# con=engine.connect() = é a conexão com o banco de dados.

df = pd.read_sql(sql=sql_text(query), con=engine.connect())

print(df)

Empty DataFrame
Columns: []
Index: []


### Part.2 - Cria um dataframe Pandas e armazena no Banco de dados

In [17]:
dados = {'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15],
         'Idade': [30, 18, 67, 45, 19, 21, 25, 36, 46, 59, 72, 25, 37, 14, 59],
         'Local': ['Manaus', 'Fortaleza', 'Fortaleza', 'Sao Paulo', 'Sao Paulo', 'Belo Horizonte', 'Curitiba', 'Goiania', 'Manaus', 'Goiania', 'Belo Horizonte', 'Vitoria', 'Curitiba', 'Maceio', 'Rio de Janeiro']}

base_dados = pd.DataFrame(dados)
base_dados['load_date'] = datetime.datetime.now()
base_dados

Unnamed: 0,ID,Idade,Local,load_date
0,1,30,Manaus,2023-10-08 10:51:17.752419
1,2,18,Fortaleza,2023-10-08 10:51:17.752419
2,3,67,Fortaleza,2023-10-08 10:51:17.752419
3,4,45,Sao Paulo,2023-10-08 10:51:17.752419
4,5,19,Sao Paulo,2023-10-08 10:51:17.752419
5,6,21,Belo Horizonte,2023-10-08 10:51:17.752419
6,7,25,Curitiba,2023-10-08 10:51:17.752419
7,8,36,Goiania,2023-10-08 10:51:17.752419
8,9,46,Manaus,2023-10-08 10:51:17.752419
9,10,59,Goiania,2023-10-08 10:51:17.752419


In [18]:

# 'to_sql' = permite escrever dados do DataFrame em uma tabela do BD
# 'base_usuarios' = é o nome da tabela
# 'engine' = informações de conexão
# 'index=False' = controla se o índice do DataFrame deve se ser escrito.
base_dados.to_sql('base_usuarios', engine, if_exists='replace', index=False)

15

### Criando novos dados e inserindo no Banco de Dados

In [19]:
# Criar novos dados a partir de um DataFrame Pandas e insere na tabela criada

dados = {'ID': [16, 17],
         'Idade': [29, 72],
         'Local': ['Belo Horizonte', 'Fortaleza']
         }

novos_dados = pd.DataFrame(dados)
novos_dados['load_date'] = datetime.datetime.now()
novos_dados

Unnamed: 0,ID,Idade,Local,load_date
0,16,29,Belo Horizonte,2023-10-08 10:51:24.048103
1,17,72,Fortaleza,2023-10-08 10:51:24.048103


In [20]:
# insere as informações do DataFrame novo_dados na tabela 'base_usuarios' do banco de dados.
novos_dados.to_sql('base_usuarios', engine, if_exists='append', index=False)

2