### Objetivo fazer o ETL da BASE DE DADOS - DIRTYSHOP

#### EXTRACT

##### Instalação de Bibliotecas:

In [68]:
# %pip install -q sqlalchemy sqlalchemy_utils pandas openpyxl
%pip install -q psycopg2

Note: you may need to restart the kernel to use updated packages.


##### Importando bibliotecas:

In [36]:
import pandas as pd
import psycopg2
from sqlalchemy import create_engine
from sqlalchemy_utils import create_database, database_exists ;
import warnings;

warnings.filterwarnings('ignore')

##### Extraindo dados de Excel e Tendo um primeiro contato com os Dados:

In [None]:
try:   
    df_dirty = pd.read_excel('dados/dirtyshop.xlsx', sheet_name="DIRTYSHOPCSV")
    print('Excel importado com sucesso!\n\nInformações inicias dos dados:\n\nHead:')
    display(df_dirty.head(10))
    print('\nInfo:\n')
    df_dirty.info()
    print('\nIsnull:\n')
    display(df_dirty.isnull().sum())
except Exception as e:
    print(f'Erro: {e}')

Excel importado com sucesso!

Informações inicias dos dados:

Head:


Unnamed: 0,CLIENTE,STATUS,IDADE,UNIFED,RESID,TMPRSD,FONE,ECIV,INSTRU,RNDTOT,RST
0,CLI_0001,mau,44.0,MG,PROP,5.0,1,CAS,SEC,6040,sim
1,CLI_0002,bom,46.0,MG,ALUG,12.0,1,CAS,SUP,6986,sim
2,CLI_0003,bom,56.0,MG,PROP,12.0,1,CAS,SUP,8797,sim
3,CLI_0004,bom,31.0,RJ,ALUG,4.0,1,CAS,SEC,4968,sim
4,CLI_0005,bom,46.0,RJ,PROP,8.0,1,CAS,,7430,sim
5,CLI_0006,bom,43.0,RJ,ALUG,1.0,0,CAS,PRIM,7185,sim
6,CLI_0007,bom,26.0,SC,PROP,1.0,1,CAS,SEC,5652,sim
7,CLI_0008,mau,60.0,RJ,ALUG,0.0,1,VIUVO,,8760,sim
8,CLI_0009,bom,39.0,RJ,PROP,10.0,1,CAS,,6699,nao
9,CLI_0010,bom,59.0,SC,PROP,12.0,1,CAS,,7425,sim



Info:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2800 entries, 0 to 2799
Data columns (total 11 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CLIENTE  2800 non-null   object 
 1   STATUS   2800 non-null   object 
 2   IDADE    2797 non-null   float64
 3   UNIFED   2800 non-null   object 
 4   RESID    2692 non-null   object 
 5   TMPRSD   2795 non-null   float64
 6   FONE     2800 non-null   int64  
 7   ECIV     2800 non-null   object 
 8   INSTRU   2062 non-null   object 
 9   RNDTOT   2800 non-null   int64  
 10  RST      2800 non-null   object 
dtypes: float64(2), int64(2), object(7)
memory usage: 240.8+ KB

Isnull:



CLIENTE      0
STATUS       0
IDADE        3
UNIFED       0
RESID      108
TMPRSD       5
FONE         0
ECIV         0
INSTRU     738
RNDTOT       0
RST          0
dtype: int64

#### TRANSFORM

##### Padronizando coluna ECIV:

In [38]:
# Mudando nome de ECIV para Estado_Civil:
df_dirty = df_dirty.rename(columns={'ECIV':'ESTADO_CIVIL','UNIFED':'ESTADO','TMPRSD':'TEMP_RESID_ANO_COMPLET','RNDTOT':'RENDA_TOTAL','RESID':'RESIDENCIA'})
print('\nMudança de nome ECIV realizada com sucesso!')


Mudança de nome ECIV realizada com sucesso!


In [39]:
# Verificando os tipos de estado civil:
print('\nVerificando Categorias de Estado Civil:')
df_dirty.groupby(['ESTADO_CIVIL']).size()


Verificando Categorias de Estado Civil:


ESTADO_CIVIL
CAS       1758
CASAD        1
DIVORC     251
NI          40
OUTROS       6
SOLT       657
VIUVO       87
dtype: int64

In [40]:
# Corrigindo nomenclaturas de Estado_civil:
df_dirty['ESTADO_CIVIL'] = df_dirty['ESTADO_CIVIL'].replace({'CAS':'CASADO','CASAD':'CASADO','DIVORC':'DIVORCIADO','SOLT':'SOLTEIRO'})
print('\nCorrigido nomenclaturas de ESTADO_CIVIL!\n')
df_dirty.groupby(['ESTADO_CIVIL']).size()


Corrigido nomenclaturas de ESTADO_CIVIL!



ESTADO_CIVIL
CASADO        1759
DIVORCIADO     251
NI              40
OUTROS           6
SOLTEIRO       657
VIUVO           87
dtype: int64

In [43]:
df_dirty.isnull().sum()

CLIENTE                   0
STATUS                    0
IDADE                     0
ESTADO                    0
RESIDENCIA                0
TEMP_RESID_ANO_COMPLET    0
FONE                      0
ESTADO_CIVIL              0
INSTRU                    0
RENDA_TOTAL               0
RST                       0
dtype: int64

In [42]:
#Transformando celulas vazias em "Não Informado" 

print('Transformando celulas vazias em "Não Informado" :\n')
df_dirty['INSTRU'].fillna('Não Informado', inplace=True)
df_dirty['RESIDENCIA'].fillna('Não Informado', inplace=True)
df_dirty['IDADE'].fillna(0, inplace=True)
df_dirty['TEMP_RESID_ANO_COMPLET'].fillna(0, inplace=True)
print('\nTransformação realizada com sucesso!')

Transformando celulas vazias em "Não Informado" :


Transformação realizada com sucesso!


In [44]:
#SELECIONANDO COLUNAS DE DATAFRAME:
lista_colunas = [
'CLIENTE',
'STATUS',
'IDADE',
'ESTADO',
'RESIDENCIA',
'TEMP_RESID_ANO_COMPLET',
'ESTADO_CIVIL',
'INSTRU',
'RENDA_TOTAL',
'RST']

print(f'\nColunas selecionadas:\n {lista_colunas}')

#Pegando as informações de df_dirty, nas colunas escolhidas:
df_dirty_selecionado = df_dirty[lista_colunas]

print(f'\nCinco primeiras linhas da base de dados df_dirty_selecionado:\n')
df_dirty_selecionado.head()


Colunas selecionadas:
 ['CLIENTE', 'STATUS', 'IDADE', 'ESTADO', 'RESIDENCIA', 'TEMP_RESID_ANO_COMPLET', 'ESTADO_CIVIL', 'INSTRU', 'RENDA_TOTAL', 'RST']

Cinco primeiras linhas da base de dados df_dirty_selecionado:



Unnamed: 0,CLIENTE,STATUS,IDADE,ESTADO,RESIDENCIA,TEMP_RESID_ANO_COMPLET,ESTADO_CIVIL,INSTRU,RENDA_TOTAL,RST
0,CLI_0001,mau,44.0,MG,PROP,5.0,CASADO,SEC,6040,sim
1,CLI_0002,bom,46.0,MG,ALUG,12.0,CASADO,SUP,6986,sim
2,CLI_0003,bom,56.0,MG,PROP,12.0,CASADO,SUP,8797,sim
3,CLI_0004,bom,31.0,RJ,ALUG,4.0,CASADO,SEC,4968,sim
4,CLI_0005,bom,46.0,RJ,PROP,8.0,CASADO,Não Informado,7430,sim


In [45]:
# Converte a IDADE para int
df_dirty_selecionado['IDADE'] = df_dirty_selecionado['IDADE'].astype(int)

df_dirty_selecionado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2800 entries, 0 to 2799
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   CLIENTE                 2800 non-null   object 
 1   STATUS                  2800 non-null   object 
 2   IDADE                   2800 non-null   int64  
 3   ESTADO                  2800 non-null   object 
 4   RESIDENCIA              2800 non-null   object 
 5   TEMP_RESID_ANO_COMPLET  2800 non-null   float64
 6   ESTADO_CIVIL            2800 non-null   object 
 7   INSTRU                  2800 non-null   object 
 8   RENDA_TOTAL             2800 non-null   int64  
 9   RST                     2800 non-null   object 
dtypes: float64(1), int64(2), object(7)
memory usage: 218.9+ KB


In [46]:
#Salvando em um arquivo CSV
df_dirty_selecionado.to_csv('arquivo_tratado_dirtyshop.csv', encoding='utf-8', index=False, sep=',')

### LOAD:

In [53]:
# Criando a conexão com o banco PostgreSQL
print("\nIniciando a etapa de Carregamento para o PostgreSQL...\n")

# credenciais do banco de dados
db_user = 'postgres'
db_password = '1234' 
db_host = 'localhost'
db_port = '5432'
db_name = 'db_dirtyshop'

# Criar uma engine de conexão
# engine_str = f"postgresql+psycopg2://{db_name}:{db_password}@{db_host}:{db_port}/{db_name}"
engine_server = create_engine(f"postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}")
print(engine_server)


Iniciando a etapa de Carregamento para o PostgreSQL...

Engine(postgresql://postgres:***@localhost:5432/db_dirtyshop)


In [None]:
# criando um banco de dados
# create_database(engine_server.url)

In [54]:
#conexão com o banco de dados
try:
    db_connection = psycopg2.connect(host=db_host,database=db_name,user=db_user,password=db_password)
    db_connection.autocommit = True
    cursor = db_connection.cursor()
except Exception as e:
    print('Erro:',{e})

In [55]:
#Criando tabele datasus no banco de dados:
tb_name = 'dirtyshop'
cursor.execute(f'CREATE TABLE public.{tb_name}( "ID" serial primary key, "CLIENTE" VARCHAR, "STATUS" VARCHAR, "IDADE" INT, "ESTADO" varchar, "RESIDENCIA" varchar, "TEMP_RESID_ANO_COMPLET" varchar, "ESTADO_CIVIL" varchar, "INSTRU" varchar, "RENDA_TOTAL" int,"RST" varchar)')
db_connection.commit()
cursor.execute('SELECT * FROM public.dirtyshop;') 
cursor.fetchall()
print(f'Tabela Criada com sucesso:{tb_name}')

Tabela Criada com sucesso:dirtyshop


In [49]:
# Carregando o arquivo CSV de volta para um DataFrame
df_dirtyshop_final = pd.read_csv('arquivo_tratado_dirtyshop.csv', encoding='utf-8',sep=',')

In [56]:
# 3. Usando o to_sql para inserir os dados
try:
    df_dirtyshop_final.to_sql(
        tb_name,         # Nome da tabela no banco de dados
        con=engine_server, # Conexão com o banco de dados
        schema='public',   # Esquema (geralmente 'public')
        if_exists='append', # 'append': adiciona novas linhas; 'replace': recria a tabela; 'fail': gera erro se a tabela existir
        index=False        # Não escreve o índice do DataFrame como uma coluna
    )
    print("Dados inseridos com sucesso na tabela dirtyshop usando to_sql!")
except Exception as e:
    print(f"Erro ao inserir dados com to_sql: {e}")
finally:
    # Fechando a conexão
    engine_server.dispose()

Dados inseridos com sucesso na tabela dirtyshop usando to_sql!


In [57]:
try:
    cur = db_connection.cursor() 
    # 2. Executar a consulta com a formatação
    query = """
    SELECT *
    FROM
        dirtyshop;
    """
    cur.execute(query)

    # 3. Recuperar os resultados (opcional, dependendo do que você quer fazer)
        # Exemplo: Imprimir as 5 primeiras linhas
    resultados = cur.fetchall()
    for i, row in enumerate(resultados):
        if i >= 5:
            break
        print(row)

except Exception as e:
    print(f"Ocorreu um erro: {e}")

finally:
    # 4. Fechar a conexão
    if db_connection:
        cur.close()
        db_connection.close()
        print("Conexão com o PostgreSQL fechada.")

(1, 'CLI_0001', 'mau', 44, 'MG', 'PROP', '5.0', 'CASADO', 'SEC', 6040, 'sim')
(2, 'CLI_0002', 'bom', 46, 'MG', 'ALUG', '12.0', 'CASADO', 'SUP', 6986, 'sim')
(3, 'CLI_0003', 'bom', 56, 'MG', 'PROP', '12.0', 'CASADO', 'SUP', 8797, 'sim')
(4, 'CLI_0004', 'bom', 31, 'RJ', 'ALUG', '4.0', 'CASADO', 'SEC', 4968, 'sim')
(5, 'CLI_0005', 'bom', 46, 'RJ', 'PROP', '8.0', 'CASADO', 'Não Informado', 7430, 'sim')
Conexão com o PostgreSQL fechada.
