In [5]:
from sqlalchemy import create_engine
import pandas as pd
import numpy as np

In [17]:
# Função para carregar e tratar os dados com codificação utf-8 e substituição de caracteres inválidos
def load_data(file_path):
    return pd.read_csv(file_path, encoding='utf-8')

# Função para remover caracteres problemáticos
def remove_invalid_chars(df):
    for col in df.select_dtypes(include=['object']).columns:
        df[col] = df[col].apply(lambda x: x.encode('utf-8', 'ignore').decode('utf-8', 'ignore') if isinstance(x, str) else x)
    return df

def ajustar_data_hora(df):
    for coluna in df.columns:
        if pd.api.types.is_datetime64_any_dtype(df[coluna]):
            df[coluna] = df[coluna].dt.strftime('%Y-%m-%d %H:%M:%S')
    return df


# Carregar os dados dos arquivos CSV
agencias = remove_invalid_chars(load_data('agencias.csv'))
clientes = remove_invalid_chars(load_data('clientes.csv'))
colaboradores = remove_invalid_chars(load_data('colaboradores.csv'))
contas = remove_invalid_chars(load_data('contas.csv'))
propostas_credito = remove_invalid_chars(load_data('propostas_credito.csv'))
transacoes = remove_invalid_chars(load_data('transacoes.csv'))
colaborador_agencia = remove_invalid_chars(load_data('colaborador_agencia.csv'))

# Truncar a coluna data_transacao até a hora, removendo o resto dos caracteres
transacoes['data_transacao'] = transacoes['data_transacao'].str.slice(0, 19)
propostas_credito['data_entrada_proposta'] = propostas_credito['data_entrada_proposta'].str.slice(0, 19)

# Converter tipos de dados
agencias['data_abertura'] = pd.to_datetime(agencias['data_abertura'], errors='coerce')
clientes['data_inclusao'] = pd.to_datetime(clientes['data_inclusao'], errors='coerce')
clientes['data_nascimento'] = pd.to_datetime(clientes['data_nascimento'], errors='coerce')
colaboradores['data_nascimento'] = pd.to_datetime(colaboradores['data_nascimento'], errors='coerce')
contas['data_abertura'] = pd.to_datetime(contas['data_abertura'], errors='coerce')
contas['data_ultimo_lancamento'] = pd.to_datetime(contas['data_ultimo_lancamento'], errors='coerce')
propostas_credito['data_entrada_proposta'] = pd.to_datetime(propostas_credito['data_entrada_proposta'], errors='coerce')

# Ajustar colunas de data e hora
agencias = ajustar_data_hora(agencias)
clientes = ajustar_data_hora(clientes)
colaborador_agencia = ajustar_data_hora(colaborador_agencia)
colaboradores = ajustar_data_hora(colaboradores)
contas = ajustar_data_hora(contas)
propostas_credito = ajustar_data_hora(propostas_credito)
transacoes = ajustar_data_hora(transacoes)



Unnamed: 0,cod_proposta,cod_cliente,cod_colaborador,data_entrada_proposta,taxa_juros_mensal,valor_proposta,valor_financiamento,valor_entrada,valor_prestacao,quantidade_parcelas,carencia,status_proposta
0,116,338,1,2014-05-30 18:43:12,0.0194,36199.950355,50032.03,13832.079645,1045.219825,58,0,Enviada
1,715,45,1,2021-06-17 13:09:32,0.0131,12897.538285,19848.55,6951.011715,232.124685,100,1,Enviada
2,755,494,1,2021-08-10 04:24:02,0.0203,122236.312551,187154.36,64918.047449,3673.518951,56,0,Enviada
3,953,381,1,2011-02-23 07:57:58,0.0167,47784.649757,59530.61,11745.960243,955.041560,109,3,Enviada
4,1046,176,1,2010-11-15 16:03:28,0.0211,178393.038243,214294.19,35901.151757,10219.659415,22,4,Enviada
...,...,...,...,...,...,...,...,...,...,...,...,...
1995,1758,176,99,2010-01-10 08:12:47,0.0133,96404.111608,184043.36,87639.248392,1673.386037,110,6,Validação documentos
1996,582,241,100,2019-02-25 05:03:22,0.0151,61292.834593,82684.29,21391.455407,2219.574245,36,2,Validação documentos
1997,970,106,100,2011-06-05 04:13:16,0.0225,100371.681790,152272.50,51900.818210,3482.000980,47,2,Validação documentos
1998,1361,814,100,2020-07-25 20:50:30,0.0227,45431.892941,74490.36,29058.467059,1326.031489,67,5,Validação documentos


In [18]:
# Função para limpeza de dados
def clean_data(df):
    df.drop_duplicates(inplace=True)
    df.fillna(0, inplace=True)
    return df

# Limpar os dados
agencias = clean_data(agencias)
clientes = clean_data(clientes)
colaboradores = clean_data(colaboradores)
contas = clean_data(contas)
propostas_credito = clean_data(propostas_credito)
transacoes = clean_data(transacoes)
colaborador_agencia = clean_data(colaborador_agencia)


# Configurar a conexão com o banco de dados
engine = create_engine('postgresql://denisddv:123456@localhost:5432/banvic')

# Inserir os dados nas tabelas
agencias.to_sql('agencias', engine, if_exists='replace', index=False)
clientes.to_sql('clientes', engine, if_exists='replace', index=False)
colaboradores.to_sql('colaboradores', engine, if_exists='replace', index=False)
contas.to_sql('contas', engine, if_exists='replace', index=False)
propostas_credito.to_sql('propostas_credito', engine, if_exists='replace', index=False)
transacoes.to_sql('transacoes', engine, if_exists='replace', index=False)
colaborador_agencia.to_sql('colaborador_agencia', engine, if_exists='replace', index=False)


100

In [19]:
# Função para criar a dimensão de datas
def create_date_dimension(dataframe, date_column, end='2024-12-31'):
    dataframe[date_column] = pd.to_datetime(dataframe[date_column], errors='coerce')
    start = dataframe[date_column].min()
    
    if pd.isnull(start):
        raise ValueError("A coluna de data contém valores NaT ou nulos. Verifique seus dados.")
    
    # Garantir que ambas as datas tenham o mesmo fuso horário
    if start.tzinfo is None:
        start = start.tz_localize('UTC')
    else:
        start = start.tz_convert('UTC')
    
    end = pd.Timestamp(end)
    if end.tzinfo is None:
        end = end.tz_localize('UTC')
        
    df = pd.DataFrame({"date": pd.date_range(start=start, end=end)})
    df['date_key'] = df['date'].dt.strftime('%Y%m%d').astype(int)
    df['full_date'] = df['date'].dt.date
    df['day_of_week'] = df['date'].dt.day_name()
    df['month_name'] = df['date'].dt.month_name()
    df['month_number'] = df['date'].dt.month
    df['year'] = df['date'].dt.year
    df['quarter'] = df['date'].dt.quarter
    df['week_of_year'] = df['date'].dt.isocalendar().week
    df['is_weekend'] = (df['date'].dt.dayofweek > 4).astype(int)
    df['is_holiday'] = np.where(df['date'].isin([pd.Timestamp(year=y, month=1, day=1).tz_localize('UTC') for y in range(df['year'].min(), df['year'].max()+1)]), 1, 0)
    df.drop('date', axis=1, inplace=True)
    
    return df

# Criar a dimensão de datas usando a data mínima de 'transacoes'
dim_dates = create_date_dimension(transacoes, 'data_transacao')


dim_dates.to_sql('dim_dates', engine, if_exists='replace', index=False)
# Inserir os dados na tabela fato_transacoes
transacoes.to_sql('fato_transacoes', engine, if_exists='replace', index=False)

# Inserir os dados na tabela fato_propostas_credito
propostas_credito.to_sql('fato_propostas_credito', engine, if_exists='replace', index=False)



1000

In [None]:
# Calcular volume de transações por dia da semana
#  SELECT 
#     TO_CHAR(data_transacao, 'Day') AS day_of_week, 
#      COUNT(cod_transacao) AS volume_transacoes
#  FROM 
#      fato_transacoes
#  GROUP BY 
#      TO_CHAR(data_transacao, 'Day')
#  ORDER BY 
#      volume_transacoes DESC;


![image.png](attachment:image.png)

In [None]:
# # Calcular valor movimentado por dia da semana com arredondamento
# SELECT 
#     TO_CHAR(data_transacao, 'Day') AS day_of_week, 
#     ROUND(SUM(valor_transacao)::NUMERIC, 2) AS valor_transacoes
# FROM 
#     fato_transacoes
# GROUP BY 
#     TO_CHAR(data_transacao, 'Day')
# ORDER BY 
#     valor_transacoes DESC;

![image-2.png](attachment:image-2.png)

In [None]:
# # Calcular valores movimentados no início e fim do mês com arredondamento
# SELECT 
#     CASE 
#         WHEN EXTRACT(DAY FROM data_transacao) <= 15 THEN 'Inicio do Mes'
#         ELSE 'Final do Mes'
#     END AS periodo, 
#     ROUND(SUM(valor_transacao)::NUMERIC, 2) AS valor_total_transacoes,
#     ROUND(AVG(valor_transacao)::NUMERIC, 2) AS valor_medio_transacoes
# FROM 
#     fato_transacoes
# GROUP BY 
#     CASE 
#         WHEN EXTRACT(DAY FROM data_transacao) <= 15 THEN 'Inicio do Mes'
#         ELSE 'Final do Mes'
#     END
# ORDER BY 
#     valor_total_transacoes DESC;



![image-2.png](attachment:image-2.png)