In [30]:
from sqlalchemy import create_engine
import pandas as pd
import numpy as np

In [31]:
# Função para carregar e tratar os dados com codificação utf-8 e substituição de caracteres inválidos
def load_data(file_path):
    return pd.read_csv(file_path, encoding='utf-8')

# Função para remover caracteres problemáticos
def remove_invalid_chars(df):
    for col in df.select_dtypes(include=['object']).columns:
        df[col] = df[col].apply(lambda x: x.encode('utf-8', 'ignore').decode('utf-8', 'ignore') if isinstance(x, str) else x)
    return df

# Carregar os dados dos arquivos CSV
agencias = remove_invalid_chars(load_data('agencias.csv'))
clientes = remove_invalid_chars(load_data('clientes.csv'))
colaboradores = remove_invalid_chars(load_data('colaboradores.csv'))
contas = remove_invalid_chars(load_data('contas.csv'))
propostas_credito = remove_invalid_chars(load_data('propostas_credito.csv'))
transacoes = remove_invalid_chars(load_data('transacoes.csv'))
colaborador_agencia = remove_invalid_chars(load_data('colaborador_agencia.csv'))

# Converter tipos de dados
agencias['data_abertura'] = pd.to_datetime(agencias['data_abertura'], errors='coerce')
clientes['data_inclusao'] = pd.to_datetime(clientes['data_inclusao'], errors='coerce')
clientes['data_nascimento'] = pd.to_datetime(clientes['data_nascimento'], errors='coerce')
colaboradores['data_nascimento'] = pd.to_datetime(colaboradores['data_nascimento'], errors='coerce')
contas['data_abertura'] = pd.to_datetime(contas['data_abertura'], errors='coerce')
contas['data_ultimo_lancamento'] = pd.to_datetime(contas['data_ultimo_lancamento'], errors='coerce')
propostas_credito['data_entrada_proposta'] = pd.to_datetime(propostas_credito['data_entrada_proposta'], errors='coerce', utc=True)
transacoes['data_transacao'] = pd.to_datetime(transacoes['data_transacao'], errors='coerce', utc=True)


In [32]:
# Função para limpeza de dados
def clean_data(df):
    df.drop_duplicates(inplace=True)
    df.fillna(0, inplace=True)
    return df

# Limpar os dados
agencias = clean_data(agencias)
clientes = clean_data(clientes)
colaboradores = clean_data(colaboradores)
contas = clean_data(contas)
propostas_credito = clean_data(propostas_credito)
transacoes = clean_data(transacoes)
colaborador_agencia = clean_data(colaborador_agencia)

# Converter tipos de dados
agencias['data_abertura'] = pd.to_datetime(agencias['data_abertura'], errors='coerce')
clientes['data_inclusao'] = pd.to_datetime(clientes['data_inclusao'], errors='coerce')
clientes['data_nascimento'] = pd.to_datetime(clientes['data_nascimento'], errors='coerce')
colaboradores['data_nascimento'] = pd.to_datetime(colaboradores['data_nascimento'], errors='coerce')
contas['data_abertura'] = pd.to_datetime(contas['data_abertura'], errors='coerce')
contas['data_ultimo_lancamento'] = pd.to_datetime(contas['data_ultimo_lancamento'], errors='coerce')
propostas_credito['data_entrada_proposta'] = pd.to_datetime(propostas_credito['data_entrada_proposta'], errors='coerce', utc=True)
transacoes['data_transacao'] = pd.to_datetime(transacoes['data_transacao'], errors='coerce', utc=True)


In [33]:
# Configurar a conexão com o banco de dados
engine = create_engine('postgresql://denisddv:123456@localhost:5432/banvic')

# Inserir os dados nas tabelas
agencias.to_sql('agencias', engine, if_exists='replace', index=False)
clientes.to_sql('clientes', engine, if_exists='replace', index=False)
colaboradores.to_sql('colaboradores', engine, if_exists='replace', index=False)
contas.to_sql('contas', engine, if_exists='replace', index=False)
propostas_credito.to_sql('propostas_credito', engine, if_exists='replace', index=False)
transacoes.to_sql('transacoes', engine, if_exists='replace', index=False)
colaborador_agencia.to_sql('colaborador_agencia', engine, if_exists='replace', index=False)


100

In [34]:
def create_date_dimension(dataframe, date_column, end='2024-12-31'):
    start = dataframe[date_column].min()
    if pd.isnull(start):
        raise ValueError("A coluna de data contém valores NaT ou nulos. Verifique seus dados.")
    
     # Garantir que ambas as datas tenham o mesmo fuso horário
    start = start.tz_convert('UTC')
    end = pd.Timestamp(end).tz_localize('UTC')
        
    df = pd.DataFrame({"date": pd.date_range(start=start, end=end)})
    df['date_key'] = df['date'].dt.strftime('%Y%m%d').astype(int)
    df['full_date'] = df['date'].dt.date
    df['day_of_week'] = df['date'].dt.day_name()
    df['month_name'] = df['date'].dt.month_name()
    df['month_number'] = df['date'].dt.month
    df['year'] = df['date'].dt.year
    df['quarter'] = df['date'].dt.quarter
    df['week_of_year'] = df['date'].dt.isocalendar().week
    df['is_weekend'] = (df['date'].dt.dayofweek > 4).astype(int)
    df['is_holiday'] = np.where(df['date'].isin([pd.Timestamp(year=y, month=1, day=1) for y in range(df['year'].min(), df['year'].max()+1)]), 1, 0)
    df.drop('date', axis=1, inplace=True)
    
    return df

# Criar a dimensão de datas usando a data mínima de 'transacoes'
dim_dates = create_date_dimension(transacoes, 'data_transacao')



In [35]:
dim_dates.to_sql('dim_dates', engine, if_exists='replace', index=False)

741

In [37]:
# Inserir os dados na tabela fato_transacoes
transacoes.to_sql('fato_transacoes', engine, if_exists='replace', index=False)

# Inserir os dados na tabela fato_propostas_credito
propostas_credito.to_sql('fato_propostas_credito', engine, if_exists='replace', index=False)



1000

In [None]:
# Calcular volume de transações por dia da semana
#  SELECT 
#     TO_CHAR(data_transacao, 'Day') AS day_of_week, 
#      COUNT(cod_transacao) AS volume_transacoes
#  FROM 
#      fato_transacoes
#  GROUP BY 
#      TO_CHAR(data_transacao, 'Day')
#  ORDER BY 
#      volume_transacoes DESC;


![image.png](attachment:image.png)

In [None]:
# # Calcular valor movimentado por dia da semana com arredondamento
# SELECT 
#     TO_CHAR(data_transacao, 'Day') AS day_of_week, 
#     ROUND(SUM(valor_transacao)::NUMERIC, 2) AS valor_transacoes
# FROM 
#     fato_transacoes
# GROUP BY 
#     TO_CHAR(data_transacao, 'Day')
# ORDER BY 
#     valor_transacoes DESC;

![image.png](attachment:image.png)

In [None]:
# # Calcular valores movimentados no início e fim do mês com arredondamento
# SELECT 
#     CASE 
#         WHEN EXTRACT(DAY FROM data_transacao) <= 15 THEN 'Inicio do Mes'
#         ELSE 'Final do Mes'
#     END AS periodo, 
#     ROUND(SUM(valor_transacao)::NUMERIC, 2) AS valor_total_transacoes,
#     ROUND(AVG(valor_transacao)::NUMERIC, 2) AS valor_medio_transacoes
# FROM 
#     fato_transacoes
# GROUP BY 
#     CASE 
#         WHEN EXTRACT(DAY FROM data_transacao) <= 15 THEN 'Inicio do Mes'
#         ELSE 'Final do Mes'
#     END
# ORDER BY 
#     valor_total_transacoes DESC;



![image.png](attachment:image.png)