# ‚öôÔ∏è Pipeline ETL: Customer Churn
**Objetivo:** Extrair os dados brutos, realizar a limpeza e padroniza√ß√£o, salvar um checkpoint local e carregar os dados no PostgreSQL.

In [None]:
# IMPORTA√á√ïES E CONFIGURA√á√ïES DE AMBIENTE
import os
import pandas as pd
from sqlalchemy import create_engine
from dotenv import load_dotenv, find_dotenv
from pathlib import Path

caminho_env = find_dotenv()
load_dotenv(caminho_env)
pasta_raiz = Path(caminho_env).parent

caminho_csv = pasta_raiz / 'data' / 'raw' / 'WA_Fn-UseC_-Telco-Customer-Churn.csv'
caminho_processed = pasta_raiz / 'data' / 'processed' / 'cleaned_telco_churn.csv'

DB_USER = os.getenv('DB_USER')
DB_PASSWORD = os.getenv('DB_PASSWORD')
DB_HOST = os.getenv('DB_HOST')
DB_PORT = os.getenv('DB_PORT')
DB_NAME = os.getenv('DB_NAME')

print("‚úÖ Ambiente configurado com sucesso!")

---
### 1. Extra√ß√£o
Leitura do arquivo CSV original da pasta `raw`.

In [None]:
try:
    df_clientes = pd.read_csv(caminho_csv)
    print("‚úÖ Passo 1: Dados originais lidos com sucesso!")
except FileNotFoundError:
    print(f"‚ùå Erro: Arquivo n√£o encontrado no caminho: {caminho_csv}")
    raise

---
### 2. Transforma√ß√£o 
Padroniza√ß√£o do nome das colunas (snake_case), tipagem de dados financeiros e tratamento de valores nulos.

In [None]:
df_clientes.columns = [
    'customer_id', 'gender', 'senior_citizen', 'partner', 'dependents',
    'tenure', 'phone_service', 'multiple_lines', 'internet_service',
    'online_security', 'online_backup', 'device_protection', 'tech_support',
    'streaming_tv', 'streaming_movies', 'contract', 'paperless_billing',
    'payment_method', 'monthly_charges', 'total_charges', 'churn'
]

df_clientes['total_charges'] = pd.to_numeric(df_clientes['total_charges'], errors='coerce')
df_clientes['total_charges'] = df_clientes['total_charges'].fillna(0)

print("‚úÖ Passo 2: Dados limpos e padronizados!")

---
### 3. Checkpoint F√≠sico (Save Processed)
Salvamento dos dados limpos em um novo arquivo CSV. Isso garante que usu√°rios sem acesso ao Banco de Dados possam consumir os dados tratados (Op√ß√£o B do README).

In [None]:
# Salvando o arquivo localmente ANTES de tentar conectar no banco
df_clientes.to_csv(caminho_processed, index=False)
print(f"‚úÖ Passo 3: Checkpoint salvo! Arquivo f√≠sico gerado em: {caminho_processed}")

---
### 4. Carga de Dados (Load)
Conex√£o com o PostgreSQL e inje√ß√£o dos dados na tabela `raw_customers`.

In [None]:
print("‚è≥ Passo 4: Conectando e enviando dados para o PostgreSQL...")

db_url = f'postgresql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}'
engine = create_engine(db_url)

try:
    # O if_exists='append' injeta os dados respeitando a nossa estrutura DDL
    df_clientes.to_sql('raw_customers', engine, if_exists='append', index=False)
    print("üöÄ SUCESSO! Banco de dados populado com os dados limpos.")
except Exception as erro:
    print(f"‚ùå Erro ao inserir no banco: {erro}")
    print("üí° Dica: Verifique se a tabela 'raw_customers' foi criada via DBeaver e se os dados j√° n√£o foram inseridos antes.")