# Notebook 01 - Importa√ß√£o e Limpeza de Dados

#### Inicialmente, iremos importar o dataset .csv para um dataframe Pandas e depois salvar os dados no banco de dados PostgreSQL, para simular um cen√°rio realista de bancos, os quais guardam os dados de seus clientes em bancos de dados relacionais.

1. Importa√ß√£o das bibliotecas necess√°rias e leitura do dataset .csv em um dataframe Pandas.

In [68]:
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine

data = pd.read_csv('../data/german_credit_data.csv')
data.head()


Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,0,67,male,2,own,,little,1169,6,radio/TV,good
1,1,22,female,2,own,little,moderate,5951,48,radio/TV,bad
2,2,49,male,1,own,little,,2096,12,education,good
3,3,45,male,2,free,little,little,7882,42,furniture/equipment,good
4,4,53,male,2,free,little,little,4870,24,car,bad


In [69]:
print(data.columns)

Index(['Unnamed: 0', 'Age', 'Sex', 'Job', 'Housing', 'Saving accounts',
       'Checking account', 'Credit amount', 'Duration', 'Purpose', 'Risk'],
      dtype='object')


2. Criamos uma fun√ß√£o para estimar o sal√°rio anual com base no n√≠vel do trabalho (Job Level) e aplicamos essa fun√ß√£o para criar uma nova coluna no dataframe.

In [70]:
import numpy as np

def estimar_salario(job_level):
    if job_level == 0:
        return np.random.uniform(15000, 22000) # R$ anual
    elif job_level == 1:
        return np.random.uniform(25000, 40000)
    elif job_level == 2:
        return np.random.uniform(45000, 80000)
    elif job_level == 3:
        return np.random.uniform(90000, 180000)
    else:
        return np.random.uniform(30000, 50000)

In [71]:
data['salario_anual'] = data['Job'].apply(estimar_salario) # Aplicar a fun√ß√£o estimar_salario numa coluna nova 'salario_anual' usando 'Job' como refer√™ncia
data['salario_anual'] = data['salario_anual'].round(2) # Arredonda para 2 casas decimais para deixar semelhante ao dinheiro real

data = data.drop(columns=['Unnamed: 0', 'Job'], axis=1) # Remove colunas desnecess√°rias

dicionario = { # Cria um dicion√°rio para poder renomear as colunas com base no nome das colunas das tabelas do banco de dados
    'Age': 'idade',
    'Sex': 'sexo',
    'Housing': 'situacao_moradia',
    'Saving accounts': 'status_poupanca',
    'Checking account': 'status_conta_corrente',
    'Credit amount': 'valor_emprestimo',
    'Duration': 'prazo_meses',
    'Purpose': 'finalidade_emprestimo',
    'Risk': 'status_inadimplencia'
}

data = data.rename(columns=dicionario) # Renomeia as colunas do dataframe

data['status_inadimplencia'] = data['status_inadimplencia'].map({'good': 0, 'bad': 1}) # converte valores good e bad para 0 e 1
data.head(10)

Unnamed: 0,idade,sexo,situacao_moradia,status_poupanca,status_conta_corrente,valor_emprestimo,prazo_meses,finalidade_emprestimo,status_inadimplencia,salario_anual
0,67,male,own,,little,1169,6,radio/TV,0,46281.64
1,22,female,own,little,moderate,5951,48,radio/TV,1,56886.66
2,49,male,own,little,,2096,12,education,0,36356.54
3,45,male,free,little,little,7882,42,furniture/equipment,0,72999.24
4,53,male,free,little,little,4870,24,car,1,56517.81
5,35,male,free,,,9055,36,education,0,29579.25
6,53,male,own,quite rich,,2835,24,furniture/equipment,0,69989.37
7,35,male,rent,little,moderate,6948,36,car,0,98879.62
8,61,male,own,rich,,3059,12,radio/TV,0,26033.42
9,28,male,own,little,moderate,5234,30,car,1,139507.77


3. Assim como foi feito para a coluna de sal√°rio anual, iremos mudar as colunas status_poupan√ßa e status_conta_corrente para valores num√©ricos. Para come√ßar, precisamos tratar os valores nulos nessas colunas.

In [72]:
data['status_conta_corrente'] = data['status_conta_corrente'].fillna('unknown') # preenche valores nulos com 'unknown' para evitar erros na convers√£o
data['status_poupanca'] = data['status_poupanca'].fillna('unknown') # preenche valores nulos com 'unknown' para evitar erros na convers√£o

4. Em seguida, definimos as fun√ß√µes para estimar os valores das contas corrente e poupan√ßa com base nos n√≠veis categ√≥ricos.

In [73]:
data['status_conta_corrente'] = data['status_conta_corrente'].map({'little': 0, 'moderate': 1, 'rich': 2, 'quite rich': 3}) # repete o processo feito para o sal√°rio anual
data['status_poupanca'] = data['status_poupanca'].map({'little': 0, 'moderate': 1, 'rich': 2, 'quite rich': 3})

def estimar_conta_corrente(conta_corrente):
    if conta_corrente == 0:
        return np.random.uniform(25000, 40000)
    elif conta_corrente == 1:
        return np.random.uniform(45000, 80000)
    elif conta_corrente == 2:
        return np.random.uniform(90000, 180000)
    elif conta_corrente == 3:
        return np.random.uniform(100001, 1000000)
    else:
        return 0 # retorna None por enquanto

def estimar_conta_poupanca(conta_poupanca):
    if conta_poupanca == 0:
        return np.random.uniform(1, 1000)
    elif conta_poupanca == 1:
        return np.random.uniform(1001, 10000)
    elif conta_poupanca == 2:
        return np.random.uniform(10001, 100000)
    elif conta_poupanca == 3:
        return np.random.uniform(100001, 1000000)
    else:
        return 0

5. Aplicando a fun√ß√£o nas colunas

In [74]:
data['status_conta_corrente'] = data['status_conta_corrente'].apply(estimar_conta_corrente).round(2)
data['status_poupanca'] = data['status_poupanca'].apply(estimar_conta_poupanca).round(2)

6. Renomeando as colunas para refletir os novos valores

In [75]:
dicionario_colunas = {
    'status_conta_corrente': 'valor_conta_corrente',
    'status_poupanca': 'valor_conta_poupanca'
}

data = data.rename(columns=dicionario_colunas)

data.head(10)

Unnamed: 0,idade,sexo,situacao_moradia,valor_conta_poupanca,valor_conta_corrente,valor_emprestimo,prazo_meses,finalidade_emprestimo,status_inadimplencia,salario_anual
0,67,male,own,0.0,27164.52,1169,6,radio/TV,0,46281.64
1,22,female,own,613.78,48999.87,5951,48,radio/TV,1,56886.66
2,49,male,own,52.37,0.0,2096,12,education,0,36356.54
3,45,male,free,982.68,37072.32,7882,42,furniture/equipment,0,72999.24
4,53,male,free,305.36,33075.0,4870,24,car,1,56517.81
5,35,male,free,0.0,0.0,9055,36,education,0,29579.25
6,53,male,own,117699.55,0.0,2835,24,furniture/equipment,0,69989.37
7,35,male,rent,328.72,45413.27,6948,36,car,0,98879.62
8,61,male,own,89884.2,0.0,3059,12,radio/TV,0,26033.42
9,28,male,own,868.28,76816.96,5234,30,car,1,139507.77


7. Por fim, salvamos o dataframe limpo no banco de dados PostgreSQL. Para isso, criamos uma engine de conex√£o, usamos a fun√ß√£o `to-sql` e depois testamos a inser√ß√£o lendo algumas linhas da tabela.

In [76]:
from sqlalchemy import create_engine

engine = create_engine('postgresql://admin_credito:senha_secreta_123@localhost:5432/db_risco_credito')

print('Engine criada com √™xito!')

Engine criada com √™xito!


In [77]:
data.to_sql('clientes', engine, if_exists='append', index=False)

print('Dados inseridos com √™xito no banco de dados!')

Dados inseridos com √™xito no banco de dados!


In [78]:
df_teste = pd.read_sql('SELECT * FROM clientes LIMIT 5;', engine)
print(df_teste)

   idade    sexo situacao_moradia  valor_conta_poupanca  valor_conta_corrente  \
0     67    male              own                  0.00              27164.52   
1     22  female              own                613.78              48999.87   
2     49    male              own                 52.37                  0.00   
3     45    male             free                982.68              37072.32   
4     53    male             free                305.36              33075.00   

   valor_emprestimo  prazo_meses finalidade_emprestimo  status_inadimplencia  \
0              1169            6              radio/TV                     0   
1              5951           48              radio/TV                     1   
2              2096           12             education                     0   
3              7882           42   furniture/equipment                     0   
4              4870           24                   car                     1   

   salario_anual  
0       46281

8. Linkando as duas tabelas SQL e fazendo migra√ß√£o de dados

In [90]:
from sqlalchemy import text

with engine.connect() as conn:
    # 1. Adiciona a coluna como um serial (auto-incremento)
    conn.execute(text("ALTER TABLE clientes ADD COLUMN cliente_id SERIAL PRIMARY KEY;"))
    conn.commit()

print("Coluna cliente_id restaurada com sucesso!")



Coluna cliente_id restaurada com sucesso!


In [91]:
with engine.connect() as conn:
    result = conn.execute(text("SELECT * FROM clientes LIMIT 0"))
    print(result.keys())

RMKeyView(['idade', 'sexo', 'situacao_moradia', 'valor_conta_poupanca', 'valor_conta_corrente', 'valor_emprestimo', 'prazo_meses', 'finalidade_emprestimo', 'status_inadimplencia', 'salario_anual', 'cliente_id'])


In [92]:
df_clientes_db = pd.read_sql('SELECT cliente_id, idade, sexo FROM clientes;', engine)

In [94]:
data['cliente_id'] = df_clientes_db['cliente_id']

In [95]:
df_operacoes = data[['cliente_id', 'valor_emprestimo', 'prazo_meses', 'finalidade_emprestimo']].copy()

df_operacoes.head()

Unnamed: 0,cliente_id,valor_emprestimo,prazo_meses,finalidade_emprestimo
0,1,1169,6,radio/TV
1,2,5951,48,radio/TV
2,3,2096,12,education
3,4,7882,42,furniture/equipment
4,5,4870,24,car


9. Migrar para a tabela opera√ß√µes no banco de dados

In [96]:
df_operacoes.to_sql('operacoes_credito', con=engine, if_exists='append', index=False)

print("Migra√ß√£o feita com sucesso!")

Migra√ß√£o feita com sucesso!


10. Ajuste na estrutura das tabelas

In [98]:
from sqlalchemy import text

with engine.connect() as conn:
    # Ajustando para num√©rico (numeric) para aceitar os valores gerados pelo numpy
    conn.execute(text("ALTER TABLE clientes ALTER COLUMN valor_conta_poupanca TYPE numeric(12,2) USING valor_conta_poupanca::numeric;"))
    conn.execute(text("ALTER TABLE clientes ALTER COLUMN valor_conta_corrente TYPE numeric(12,2) USING valor_conta_corrente::numeric;"))
    conn.commit()
print("Tipos de dados atualizados!")

Tipos de dados atualizados!


In [99]:
data = data.rename(columns={
    'valor_poupanca': 'valor_conta_poupanca', # Ajuste conforme necess√°rio
    'salario_anual': 'salario_anual'
})

In [101]:
# 1. Enviar Clientes (usamos replace para limpar qualquer erro de estrutura anterior)
colunas_clientes = [
    'cliente_id', 'idade', 'sexo', 'situacao_moradia',
    'valor_conta_poupanca', 'valor_conta_corrente', 'salario_anual'
]
data[colunas_clientes].to_sql('clientes', con=engine, if_exists='replace', index=False)

# 2. Enviar Opera√ß√µes (usamos append para adicionar √† tabela de opera√ß√µes)
colunas_operacoes = [
    'cliente_id', 'valor_emprestimo', 'prazo_meses', 'finalidade_emprestimo', 'status_inadimplencia'
]
data[colunas_operacoes].to_sql('operacoes_credito', con=engine, if_exists='replace', index=False)

print("Fase 1 conclu√≠da com sucesso! üöÄ")

Fase 1 conclu√≠da com sucesso! üöÄ


11. Testes de verifica√ß√£o

In [102]:
# Perguntando ao SQL quantas linhas existem em cada tabela
contagem_clientes = pd.read_sql('SELECT COUNT(*) as total FROM clientes', con=engine).iloc[0]['total']
contagem_operacoes = pd.read_sql('SELECT COUNT(*) as total FROM operacoes_credito', con=engine).iloc[0]['total']

print(f"Total no Pandas: {len(data)}")
print(f"Total na Tabela Clientes (SQL): {contagem_clientes}")
print(f"Total na Tabela Opera√ß√µes (SQL): {contagem_operacoes}")

Total no Pandas: 1000
Total na Tabela Clientes (SQL): 1000
Total na Tabela Opera√ß√µes (SQL): 1000


In [103]:
soma_pandas = data['salario_anual'].sum()
soma_sql = pd.read_sql('SELECT SUM(salario_anual) FROM clientes', con=engine).iloc[0,0]

print(f"Soma Sal√°rios (Pandas): {soma_pandas:.2f}")
print(f"Soma Sal√°rios (SQL): {soma_sql:.2f}")

Soma Sal√°rios (Pandas): 66017833.54
Soma Sal√°rios (SQL): 66017833.54


In [104]:
query_validacao = """
SELECT
    c.cliente_id,
    c.sexo,
    c.valor_conta_poupanca,
    o.valor_emprestimo,
    o.status_inadimplencia
FROM clientes c
JOIN operacoes_credito o ON c.cliente_id = o.cliente_id
LIMIT 5;
"""
df_validacao = pd.read_sql(query_validacao, con=engine)
display(df_validacao)

Unnamed: 0,cliente_id,sexo,valor_conta_poupanca,valor_emprestimo,status_inadimplencia
0,1,male,0.0,1169,0
1,2,female,613.78,5951,1
2,3,male,52.37,2096,0
3,4,male,982.68,7882,0
4,5,male,305.36,4870,1


In [105]:
# Verificando a estrutura real da tabela clientes no dicion√°rio de dados do Postgres
query_schema = """
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'clientes';
"""
print(pd.read_sql(query_schema, con=engine))

            column_name         data_type
0            cliente_id            bigint
1                 idade            bigint
2                  sexo              text
3      situacao_moradia              text
4  valor_conta_poupanca  double precision
5  valor_conta_corrente  double precision
6         salario_anual  double precision


In [106]:
# Verificando a estrutura real da tabela clientes no dicion√°rio de dados do Postgres
query_schema = """
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'operacoes_credito';
"""
print(pd.read_sql(query_schema, con=engine))

             column_name data_type
0             cliente_id    bigint
1       valor_emprestimo    bigint
2            prazo_meses    bigint
3  finalidade_emprestimo      text
4   status_inadimplencia    bigint
