In [1]:
import pandas as pd

In [4]:
df_transacoes_bancaria=pd.read_csv('transacoes_bancaria.csv')
df_Churn_banco=pd.read_csv('Churn_banco.csv')
df_credito_risco=pd.read_csv('credito_risco.csv')

In [6]:
df_transacoes_bancaria.columns

Index(['ATM Name', 'Transaction Date', 'No Of Withdrawals',
       'No Of XYZ Card Withdrawals', 'No Of Other Card Withdrawals',
       'Total amount Withdrawn', 'Amount withdrawn XYZ Card',
       'Amount withdrawn Other Card', 'Weekday', 'Festival Religion',
       'Working Day', 'Holiday Sequence'],
      dtype='object')

In [7]:
# Criando o dicion√°rio de tradu√ß√£o
dicionario_traducao = {
    'ATM Name': 'nome_atm',
    'Transaction Date': 'data_transacao',
    'No Of Withdrawals': 'qtd_total_levantamentos',
    'No Of XYZ Card Withdrawals': 'qtd_levantamentos_cartao_xyz',
    'No Of Other Card Withdrawals': 'qtd_levantamentos_outros_cartoes',
    'Total amount Withdrawn': 'valor_total_levantado',
    'Amount withdrawn XYZ Card': 'valor_levantado_cartao_xyz',
    'Amount withdrawn Other Card': 'valor_levantado_outros_cartoes',
    'Weekday': 'dia_semana',
    'Festival Religion': 'evento_religioso',
    'Working Day': 'dia_util',
    'Holiday Sequence': 'sequencia_feriado'
}

# Aplicando ao DataFrame
df_transacoes_bancaria = df_transacoes_bancaria.rename(columns=dicionario_traducao)

In [8]:
# Verificando se ficou tudo certo
print(df_transacoes_bancaria.columns)

Index(['nome_atm', 'data_transacao', 'qtd_total_levantamentos',
       'qtd_levantamentos_cartao_xyz', 'qtd_levantamentos_outros_cartoes',
       'valor_total_levantado', 'valor_levantado_cartao_xyz',
       'valor_levantado_outros_cartoes', 'dia_semana', 'evento_religioso',
       'dia_util', 'sequencia_feriado'],
      dtype='object')


In [9]:
df_transacoes_bancaria.isna().sum()

nome_atm                            0
data_transacao                      0
qtd_total_levantamentos             0
qtd_levantamentos_cartao_xyz        0
qtd_levantamentos_outros_cartoes    0
valor_total_levantado               0
valor_levantado_cartao_xyz          0
valor_levantado_outros_cartoes      0
dia_semana                          0
evento_religioso                    0
dia_util                            0
sequencia_feriado                   0
dtype: int64

In [10]:
df_transacoes_bancaria.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11589 entries, 0 to 11588
Data columns (total 12 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   nome_atm                          11589 non-null  object
 1   data_transacao                    11589 non-null  object
 2   qtd_total_levantamentos           11589 non-null  int64 
 3   qtd_levantamentos_cartao_xyz      11589 non-null  int64 
 4   qtd_levantamentos_outros_cartoes  11589 non-null  int64 
 5   valor_total_levantado             11589 non-null  int64 
 6   valor_levantado_cartao_xyz        11589 non-null  int64 
 7   valor_levantado_outros_cartoes    11589 non-null  int64 
 8   dia_semana                        11589 non-null  object
 9   evento_religioso                  11589 non-null  object
 10  dia_util                          11589 non-null  object
 11  sequencia_feriado                 11589 non-null  object
dtypes: int64(6), objec

In [None]:
#  identificar onde est√° o erro
try:
    pd.to_datetime(df_transacoes_bancaria['data_transacao'], dayfirst=True)
    print("Sucesso na convers√£o!")
except Exception as e:
    print("O valor que est√° a causar o erro √©:")
    print(str(e))

O valor que est√° a causar o erro √©:
time data "13-01-2011" doesn't match format "%d/%m/%Y", at position 12. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.


In [14]:
# O 'mixed' permite que o Pandas aceite tanto 13-01-2011 quanto 13/01/2011
df_transacoes_bancaria['data_transacao'] = pd.to_datetime(
    df_transacoes_bancaria['data_transacao'], 
    dayfirst=True, 
    format='mixed'
)

# Vamos conferir se agora o Dtype mudou e se os nulos continuam a ZERO
print("--- Verifica√ß√£o Final de Integridade ---")
print(f"Tipo da coluna: {df_transacoes_bancaria['data_transacao'].dtype}")
print(f"Total de nulos: {df_transacoes_bancaria['data_transacao'].isnull().sum()}")

--- Verifica√ß√£o Final de Integridade ---
Tipo da coluna: datetime64[ns]
Total de nulos: 0


In [15]:
# Removemos espa√ßos em branco extras que podem existir nas colunas de texto
colunas_texto = ['nome_atm', 'dia_semana', 'evento_religioso', 'dia_util', 'sequencia_feriado']
for col in colunas_texto:
    df_transacoes_bancaria[col] = df_transacoes_bancaria[col].astype(str).str.strip()

In [17]:
# 5. VERIFICA√á√ÉO FINAL
print("--- Script de Limpeza Executado com Sucesso ---")
print(f"Total de Linhas: {len(df_transacoes_bancaria)}")
print(f"Valores Nulos na Data: {df_transacoes_bancaria['data_transacao'].isnull().sum()}")
print(f"Tipo da coluna Data: {df_transacoes_bancaria['data_transacao'].dtype}")

--- Script de Limpeza Executado com Sucesso ---
Total de Linhas: 11589
Valores Nulos na Data: 0
Tipo da coluna Data: datetime64[ns]


In [20]:
# Criar uma coluna de ID do Cliente (de 1 a 1000) distribu√≠dos pelas 11589 linhas
# Usamos apenas o Pandas, sem precisar de importar o numpy (np)
df_transacoes_bancaria['id_cliente'] = (df_transacoes_bancaria.index % 1000) + 1

# Verificar se a coluna foi criada com sucesso no final da tabela
print("--- Coluna id_cliente inserida ---")
print(df_transacoes_bancaria[['id_cliente']].head())

--- Coluna id_cliente inserida ---
   id_cliente
0           1
1           2
2           3
3           4
4           5


In [None]:
#   Tabela de Cr√©dito e Risco
# Mostrar as cincos primeiras linhas 
df_credito_risco.head()

Unnamed: 0,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length
0,22,59000,RENT,123.0,PERSONAL,D,35000,16.02,1,0.59,Y,3
1,21,9600,OWN,5.0,EDUCATION,B,1000,11.14,0,0.1,N,2
2,25,9600,MORTGAGE,1.0,MEDICAL,C,5500,12.87,1,0.57,N,3
3,23,65500,RENT,4.0,MEDICAL,C,35000,15.23,1,0.53,N,2
4,24,54400,RENT,8.0,MEDICAL,C,35000,14.27,1,0.55,Y,4


In [23]:
df_credito_risco.columns

Index(['person_age', 'person_income', 'person_home_ownership',
       'person_emp_length', 'loan_intent', 'loan_grade', 'loan_amnt',
       'loan_int_rate', 'loan_status', 'loan_percent_income',
       'cb_person_default_on_file', 'cb_person_cred_hist_length'],
      dtype='object')

In [24]:
# Criando o dicion√°rio de tradu√ß√£o para a tabela de cr√©dito
traducao_credito = {
    'person_age': 'idade_cliente',
    'person_income': 'rendimento_anual',
    'person_home_ownership': 'tipo_habitacao',
    'person_emp_length': 'tempo_emprego_anos',
    'loan_intent': 'objetivo_emprestimo',
    'loan_grade': 'classificacao_risco',
    'loan_amnt': 'valor_emprestimo',
    'loan_int_rate': 'taxa_juros_emprestimo',
    'loan_status': 'status_emprestimo',
    'loan_percent_income': 'percentual_comprometimento_renda',
    'cb_person_default_on_file': 'historico_inadimplencia',
    'cb_person_cred_hist_length': 'tempo_historico_credito'
}

# Aplicando a tradu√ß√£o
df_credito_risco = df_credito_risco.rename(columns=traducao_credito)



In [25]:
# Verificando como ficou
print("--- Colunas de Cr√©dito Traduzidas ---")
print(df_credito_risco.columns)

--- Colunas de Cr√©dito Traduzidas ---
Index(['idade_cliente', 'rendimento_anual', 'tipo_habitacao',
       'tempo_emprego_anos', 'objetivo_emprestimo', 'classificacao_risco',
       'valor_emprestimo', 'taxa_juros_emprestimo', 'status_emprestimo',
       'percentual_comprometimento_renda', 'historico_inadimplencia',
       'tempo_historico_credito'],
      dtype='object')


In [28]:
df_credito_risco.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32581 entries, 0 to 32580
Data columns (total 12 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   idade_cliente                     32581 non-null  int64  
 1   rendimento_anual                  32581 non-null  int64  
 2   tipo_habitacao                    32581 non-null  object 
 3   tempo_emprego_anos                31686 non-null  float64
 4   objetivo_emprestimo               32581 non-null  object 
 5   classificacao_risco               32581 non-null  object 
 6   valor_emprestimo                  32581 non-null  int64  
 7   taxa_juros_emprestimo             29465 non-null  float64
 8   status_emprestimo                 32581 non-null  int64  
 9   percentual_comprometimento_renda  32581 non-null  float64
 10  historico_inadimplencia           32581 non-null  object 
 11  tempo_historico_credito           32581 non-null  int64  
dtypes: f

In [26]:
df_credito_risco.isna().sum()

idade_cliente                          0
rendimento_anual                       0
tipo_habitacao                         0
tempo_emprego_anos                   895
objetivo_emprestimo                    0
classificacao_risco                    0
valor_emprestimo                       0
taxa_juros_emprestimo               3116
status_emprestimo                      0
percentual_comprometimento_renda       0
historico_inadimplencia                0
tempo_historico_credito                0
dtype: int64

In [29]:
# Tratar Tempo de Emprego (Substituir nulos por 0)
df_credito_risco['tempo_emprego_anos'] = df_credito_risco['tempo_emprego_anos'].fillna(0)

In [30]:
# ratar Taxa de Juros (Substituir nulos pela mediana da coluna)
mediana_juros = df_credito_risco['taxa_juros_emprestimo'].median()
df_credito_risco['taxa_juros_emprestimo'] = df_credito_risco['taxa_juros_emprestimo'].fillna(mediana_juros)

In [31]:
#  Inserir o id_cliente para ligar com a tabela de transa√ß√µes
# Como esta tabela tem 32.581 linhas, vamos criar IDs que batam com os das transa√ß√µes
df_credito_risco.insert(0, 'id_cliente', (df_credito_risco.index % 1000) + 1)

In [32]:
# 4. Verifica√ß√£o Final
print("--- Verifica√ß√£o ap√≥s Limpeza Rija ---")
print(df_credito_risco.isnull().sum())

--- Verifica√ß√£o ap√≥s Limpeza Rija ---
id_cliente                          0
idade_cliente                       0
rendimento_anual                    0
tipo_habitacao                      0
tempo_emprego_anos                  0
objetivo_emprestimo                 0
classificacao_risco                 0
valor_emprestimo                    0
taxa_juros_emprestimo               0
status_emprestimo                   0
percentual_comprometimento_renda    0
historico_inadimplencia             0
tempo_historico_credito             0
dtype: int64


In [33]:
#Analise da tabela churn banco
# Mostrar as primeiras cincos linhas
df_Churn_banco.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [34]:
df_Churn_banco.columns

Index(['RowNumber', 'CustomerId', 'Surname', 'CreditScore', 'Geography',
       'Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard',
       'IsActiveMember', 'EstimatedSalary', 'Exited'],
      dtype='object')

In [38]:
traducao_churn = {
    'RowNumber': 'numero_linha',
    'CustomerId': 'id_cliente_original',
    'Surname': 'sobrenome',
    'CreditScore': 'pontuacao_credito',
    'Geography': 'pais_residencia',
    'Gender': 'genero',
    'Age': 'idade',
    'Tenure': 'fidelidade_anos',
    'Balance': 'saldo_bancario',
    'NumOfProducts': 'qtd_produtos',
    'HasCrCard': 'tem_cartao_credito',
    'IsActiveMember': 'membro_ativo',
    'EstimatedSalary': 'salario_estimado',
    'Exited': 'cliente_saiu'
}

# Aplicando a tradu√ß√£o no teu DataFrame correto
df_Churn_banco = df_Churn_banco.rename(columns=traducao_churn)

In [39]:
# Verifica√ß√£o de Nulos e Tipos
print("--- Info da Tabela Churn ---")
df_Churn_banco.info()

print("\n--- Verifica√ß√£o de Nulos ---")
print(df_Churn_banco.isnull().sum())

--- Info da Tabela Churn ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   numero_linha         10000 non-null  int64  
 1   id_cliente_original  10000 non-null  int64  
 2   sobrenome            10000 non-null  object 
 3   pontuacao_credito    10000 non-null  int64  
 4   pais_residencia      10000 non-null  object 
 5   genero               10000 non-null  object 
 6   idade                10000 non-null  int64  
 7   fidelidade_anos      10000 non-null  int64  
 8   saldo_bancario       10000 non-null  float64
 9   qtd_produtos         10000 non-null  int64  
 10  tem_cartao_credito   10000 non-null  int64  
 11  membro_ativo         10000 non-null  int64  
 12  salario_estimado     10000 non-null  float64
 13  cliente_saiu         10000 non-null  int64  
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB



In [None]:
# Inserir o nosso id_cliente para ligar ao ecossistema (0 a 999)
# Como esta tabela tem exatamente 10.000 linhas, cada ID aparecer√° 10 vezes.
df_Churn_banco.insert(0, 'id_cliente', (df_Churn_banco.index % 1000) + 1)

In [None]:
# Remover colunas que n√£o vamos usar no Banco de Dados
colunas_para_sair = ['numero_linha', 'id_cliente_original', 'sobrenome']
df_Churn_banco = df_Churn_banco.drop(columns=colunas_para_sair)

In [None]:
#  Verifica√ß√£o final
print("--- Tabela Churn Pronta e Conectada ---")
print(df_Churn_banco.head())

--- Tabela Churn Pronta e Conectada ---
   id_cliente  pontuacao_credito pais_residencia  genero  idade  \
0           1                619          France  Female     42   
1           2                608           Spain  Female     41   
2           3                502          France  Female     42   
3           4                699          France  Female     39   
4           5                850           Spain  Female     43   

   fidelidade_anos  saldo_bancario  qtd_produtos  tem_cartao_credito  \
0                2            0.00             1                   1   
1                1        83807.86             1                   0   
2                8       159660.80             3                   1   
3                1            0.00             2                   0   
4                2       125510.82             1                   1   

   membro_ativo  salario_estimado  cliente_saiu  
0             1         101348.88             1  
1             1         

In [44]:
# Guardando as vers√µes limpas e profissionais
df_transacoes_bancaria.to_csv('f_transacoes_limpa.csv', index=False)
df_credito_risco.to_csv('f_credito_risco_limpa.csv', index=False)
df_Churn_banco.to_csv('d_clientes_churn_limpa.csv', index=False)

print("‚úÖ Ficheiros exportados com sucesso! Est√£o prontos para o PostgreSQL.")

‚úÖ Ficheiros exportados com sucesso! Est√£o prontos para o PostgreSQL.


In [45]:
from sqlalchemy import create_engine

# 1. Configura√ß√µes de Acesso
USUARIO = "postgres"
SENHA = 12345 # Substitui aqui pela tua senha 12345 ou a real
HOST = "localhost"
PORTA = "5432"
NOME_BANCO = "db_gestao_bancaria_africa"

# 2. Criar a Conex√£o (Motor)
# Nota: Garante que criaste o banco 'db_gestao_bancaria_africa' no pgAdmin antes!
engine = create_engine(f'postgresql://{USUARIO}:{SENHA}@{HOST}:{PORTA}/{NOME_BANCO}')

print(f"--- Iniciando a Carga para o Banco de Dados: {NOME_BANCO} ---")

--- Iniciando a Carga para o Banco de Dados: db_gestao_bancaria_africa ---


In [46]:
try:
    # 3. Enviar a Tabela de Transa√ß√µes (Fato)
    df_transacoes_bancaria.to_sql('f_transacoes', engine, if_exists='replace', index=False)
    print("‚úÖ Tabela 'f_transacoes' carregada!")

    # 4. Enviar a Tabela de Cr√©dito (Fato/Dimens√£o)
    df_credito_risco.to_sql('f_credito_risco', engine, if_exists='replace', index=False)
    print("‚úÖ Tabela 'f_credito_risco' carregada!")

    # 5. Enviar a Tabela de Churn/Clientes (Dimens√£o)
    df_Churn_banco.to_sql('d_clientes_churn', engine, if_exists='replace', index=False)
    print("‚úÖ Tabela 'd_clientes_churn' carregada!")

    print("\nüöÄ PARAB√âNS! O teu ecossistema de dados est√° agora no PostgreSQL.")

except Exception as e:
    print(f"‚ùå Erro ao conectar ou carregar: {e}")

‚úÖ Tabela 'f_transacoes' carregada!
‚úÖ Tabela 'f_credito_risco' carregada!
‚úÖ Tabela 'd_clientes_churn' carregada!

üöÄ PARAB√âNS! O teu ecossistema de dados est√° agora no PostgreSQL.
