In [40]:
import pandas as pd
from sqlalchemy import create_engine

In [41]:
# Conexão com o banco sql
engine = create_engine('postgresql+psycopg2://postgres:1234@localhost/credito')

In [42]:
# Verificando as tabelas
query = """
    SELECT table_name
    FROM information_schema.tables
    WHERE table_schema = 'public'
"""

tabelas = pd.read_sql(query, engine)
tabelas

Unnamed: 0,table_name
0,CLIENTES
1,CREDITO
2,EMPREGO
3,ESTADOCIVIL
4,FIADOR
5,HABITACAO
6,HISTORICO_CREDITO
7,INVESTIMENTOS
8,OUTROSFINANC
9,PROFISSAO


In [43]:
# Verificando a estrutura da tabela crédito
query_credito = """
    SELECT * FROM public."CREDITO"
"""
credito_df = pd.read_sql(query_credito, engine)
credito_df.head()

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status
0,2,48,2,1,5951,2,3.0,2,1,3,2.0,22,3,1.0,1,4,1,0,0,0
1,3,12,1,2,2096,2,4.0,2,4,3,3.0,49,3,1.0,1,3,2,0,0,1
2,4,42,2,3,7882,2,4.0,2,4,4,4.0,45,3,2.0,1,4,2,0,0,1
3,5,24,3,4,4870,2,3.0,3,4,3,4.0,53,3,2.0,2,4,2,0,0,0
4,6,36,2,2,9055,1,3.0,2,4,3,4.0,35,3,2.0,1,3,2,1,0,1


In [44]:
credito_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   IDCREDITO             1000 non-null   int64  
 1   Duracao               1000 non-null   int64  
 2   HistoricoCredito      1000 non-null   int64  
 3   Proposito             1000 non-null   int64  
 4   Valor                 1000 non-null   int64  
 5   Investimentos         1000 non-null   int64  
 6   Emprego               990 non-null    float64
 7   TempoParcelamento     1000 non-null   int64  
 8   EstadoCivil           1000 non-null   int64  
 9   FiadorTerceiros       1000 non-null   int64  
 10  ResidenciaDesde       993 non-null    float64
 11  Idade                 1000 non-null   int64  
 12  OutrosFinanciamentos  1000 non-null   int64  
 13  Habitacao             991 non-null    float64
 14  EmprestimoExistente   1000 non-null   int64  
 15  Profissao             

In [45]:
credito_df['HistoricoCredito'].value_counts().sort_index()

HistoricoCredito
0     11
1    289
2    526
3     86
4     40
5     48
Name: count, dtype: int64

In [46]:
credito_df['Profissao'].value_counts().sort_index()

Profissao
1      147
2       22
3      197
4      625
999      9
Name: count, dtype: int64

In [47]:
credito_df.isnull().sum()

IDCREDITO                0
Duracao                  0
HistoricoCredito         0
Proposito                0
Valor                    0
Investimentos            0
Emprego                 10
TempoParcelamento        0
EstadoCivil              0
FiadorTerceiros          0
ResidenciaDesde          7
Idade                    0
OutrosFinanciamentos     0
Habitacao                9
EmprestimoExistente      0
Profissao                0
Dependentes              0
SocioEmpresa             0
Estrangeiro              0
Status                   0
dtype: int64

In [48]:
# Tratamento dos dados
credito_df = credito_df.drop('IDCREDITO', axis = 1)

In [49]:
credito_df['Emprego'].mode()

0    3.0
Name: Emprego, dtype: float64

In [50]:
credito_df['Emprego'] = credito_df['Emprego'].fillna(credito_df['Emprego'].mode()[0])

In [51]:
credito_df['ResidenciaDesde'].mode()

0    4.0
Name: ResidenciaDesde, dtype: float64

In [52]:
credito_df['ResidenciaDesde'] = credito_df['ResidenciaDesde'].fillna(credito_df['ResidenciaDesde'].mode()[0])

In [53]:
credito_df['Habitacao'].mode()

0    1.0
Name: Habitacao, dtype: float64

In [54]:
credito_df['Habitacao'] = credito_df['Habitacao'].fillna(credito_df['Habitacao'].mode()[0])

In [55]:
credito_df.isnull().sum()

Duracao                 0
HistoricoCredito        0
Proposito               0
Valor                   0
Investimentos           0
Emprego                 0
TempoParcelamento       0
EstadoCivil             0
FiadorTerceiros         0
ResidenciaDesde         0
Idade                   0
OutrosFinanciamentos    0
Habitacao               0
EmprestimoExistente     0
Profissao               0
Dependentes             0
SocioEmpresa            0
Estrangeiro             0
Status                  0
dtype: int64

In [56]:
credito_df['HistoricoCredito'].mode()

0    2
Name: HistoricoCredito, dtype: int64

In [57]:
credito_df.loc[credito_df['HistoricoCredito'] == 0, 'HistoricoCredito'] = credito_df['HistoricoCredito'].mode()[0]

In [58]:
credito_df['Profissao'].mode()

0    4
Name: Profissao, dtype: int64

In [59]:
credito_df.loc[credito_df['Profissao'] == 999, 'Profissao'] = credito_df['Profissao'].mode()[0]

In [60]:
credito_df['Emprego'] = credito_df['Emprego'].astype('int64')
credito_df['ResidenciaDesde'] = credito_df['ResidenciaDesde'].astype('int64')
credito_df['Habitacao'] = credito_df['Habitacao'].astype('int64')

In [61]:
credito_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype
---  ------                --------------  -----
 0   Duracao               1000 non-null   int64
 1   HistoricoCredito      1000 non-null   int64
 2   Proposito             1000 non-null   int64
 3   Valor                 1000 non-null   int64
 4   Investimentos         1000 non-null   int64
 5   Emprego               1000 non-null   int64
 6   TempoParcelamento     1000 non-null   int64
 7   EstadoCivil           1000 non-null   int64
 8   FiadorTerceiros       1000 non-null   int64
 9   ResidenciaDesde       1000 non-null   int64
 10  Idade                 1000 non-null   int64
 11  OutrosFinanciamentos  1000 non-null   int64
 12  Habitacao             1000 non-null   int64
 13  EmprestimoExistente   1000 non-null   int64
 14  Profissao             1000 non-null   int64
 15  Dependentes           1000 non-null   int64
 16  SocioEm

In [64]:
credito_df.to_parquet('datasets/credito.parquet', index=False)