# **PROJETO: SANTANDER DEV WEEK - PIPELINE ETL**

## **ANALISTA: LUIZ**
## **TECNOLOGIAS: PYTHON, PANDAS**


### Projeto simples de ETL para testar os conhecimentos de dados adquiridos no curso da DIO em parceria com o Santander.

# 1. Importando bibliotecas e criando massa de dados para ser usada no projteto.

In [1]:
# Importando bibliotecas
import pandas as pd
import random

In [12]:
# Gerando dados para usar no projeto

# Criando a função gerar_base_de_dados
def gerar_base_de_dados():
    """
    Simula a extração de um banco de dados legado, criando 100 perfis de clientes
    com dados de nome, saldo, limite atual, score de crédito e perfil de risco.
    """
    nomes = ["Luiz", "Antonio", "Luci", "Yasmin", "Maria", "Ana", "Bruno", "Carla", "Diego", "Fernanda", "Gabriel", "Joaquim", "Jovelina","Helena", "Igor"]
    sobrenomes = [ "Leocadio", "Ribeiro", "Marques", "Guedes", "Borges", "Silva", "Santos", "Oliveira", "Souza", "Pereira", "Costa", "Rodrigues", "Almeida"]
    perfis = ["Conservador", "Moderado", "Arrojado"]

    dados_bancarios = []
    for i in range(1, 101):
        cliente_id = i
        nome_completo = f"{random.choice(nomes)} {random.choice(sobrenomes)}"
        saldo = round(random.uniform(100.0, 10000.0), 2)
        limite_atual = round(saldo * 0.2, 2)
        score = random.randint(100, 1000)
        perfil = random.choice(perfis)

        dados_bancarios.append([cliente_id, nome_completo, saldo, limite_atual, score, perfil])

    # Criando o DataFrame
    df = pd.DataFrame(dados_bancarios, columns=['ID', 'Nome', 'Saldo', 'Limite_Atual', 'Score', 'Perfil'])

    # Salvando o arquivo de entrada para o pipeline ETL
    df.to_csv('santander_users.csv', index=False)
    print("✅ Arquivo 'santander_users.csv' com 100 registros gerado com sucesso!")

if __name__ == "__main__":
    gerar_base_de_dados()

✅ Arquivo 'santander_users.csv' com 100 registros gerado com sucesso!


# 2. Extração (Extract)

In [13]:
def extract_data(caminho_arquivo):
    """
    Realiza a leitura do arquivo CSV.
    """
    print(f"Buscando dados em: {caminho_arquivo}...")
    return pd.read_csv(caminho_arquivo)

# Executando a extração
df_clientes = extract_data('santander_users.csv')
print(f"Extração concluída. Total de registros: {len(df_clientes)}")

Buscando dados em: santander_users.csv...
Extração concluída. Total de registros: 100


# 3. Transformação (Transform)

In [14]:
def transform_data(df):
    """
    Aplica lógica de crédito e gera mensagens de marketing personalizadas.
    """
    mensagens = []
    novos_limites = []

    for index, cliente in df.iterrows():
        # 1. Lógica de Crédito: Aumentar limite baseado no Score
        if cliente['Score'] >= 700:
            novo_limite = round(cliente['Saldo'] * 0.50, 2) # 50% do saldo
        elif 500 <= cliente['Score'] < 700:
            novo_limite = round(cliente['Saldo'] * 0.30, 2) # 30% do saldo
        else:
            novo_limite = round(cliente['Saldo'] * 0.10, 2) # 10% do saldo
        novos_limites.append(novo_limite)

        # 2. Lógica de Investimento: Recomendação baseada no Perfil
        if cliente['Perfil'] == "Conservador":
            produto = "Tesouro Selic"
        elif cliente['Perfil'] == "Moderado":
            produto = "Fundo de Renda Fixa"
        else:
            produto = "Carteira de Ações e ETFs"

        # 3. Montagem da Mensagem final (Simulando IA de Marketing)
        msg = f"Olá {cliente['Nome']}, seu Score {cliente['Score']} liberou um limite de R${novo_limite}. Recomendamos o produto: {produto}."
        mensagens.append(msg)

    # Inserindo novos dados no DataFrame original
    df['Novo_Limite'] = novos_limites
    df['Mensagem_Marketing'] = mensagens
    return df

# Executando a transformação
df_processado = transform_data(df_clientes)
print("Transformação concluída com sucesso!")

Transformação concluída com sucesso!


# 4. Carregamento (Load)

In [16]:
def load_data(df, nome_arquivo):
    """
    Exporta o resultado final para um novo arquivo CSV.
    """
    df.to_csv(nome_arquivo, index=False)
    print(f"Dados salvos com sucesso em: {nome_arquivo}")

# Executando o carregamento final
load_data(df_processado, 'santander_final_data.csv')

# Exibindo os 5 primeiros resultados para conferência
print("\n--- Amostra do Resultado Final ---")
print(df_processado[['Nome', 'Score', 'Novo_Limite', 'Mensagem_Marketing']].head())

Dados salvos com sucesso em: santander_final_data.csv

--- Amostra do Resultado Final ---
              Nome  Score  Novo_Limite  \
0     Diego Borges    975       886.94   
1   Helena Marques    797      4187.93   
2   Fernanda Costa    438       735.94   
3  Carla Rodrigues    532       222.35   
4    Bruno Marques    256       176.25   

                                  Mensagem_Marketing  
0  Olá Diego Borges, seu Score 975 liberou um lim...  
1  Olá Helena Marques, seu Score 797 liberou um l...  
2  Olá Fernanda Costa, seu Score 438 liberou um l...  
3  Olá Carla Rodrigues, seu Score 532 liberou um ...  
4  Olá Bruno Marques, seu Score 256 liberou um li...  
