# Notebook 02 - TRANSFORMA√á√ÉO DE DADOS
# Pipeline de Big Data - An√°lise de Churn Telecom
# Equipe: [NOMES DOS MEMBROS]

## üéØ Objetivo
Este notebook implementa a etapa de **Transforma√ß√£o** do pipeline de Big Data, convertendo dados brutos (Bronze) em dados limpos e estruturados (Silver).

## üìã Etapas:
1. Carregamento dos dados brutos
2. Limpeza e valida√ß√£o
3. Engenharia de features
4. Normaliza√ß√£o e padroniza√ß√£o
5. Salvamento na camada Silver


In [None]:
# ============================================================
# ETAPA 1: CONFIGURA√á√ÉO DO AMBIENTE
# ============================================================

import pandas as pd
import numpy as np
from datetime import datetime
import os
import warnings
warnings.filterwarnings('ignore')

# Bibliotecas para an√°lise
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar visualiza√ß√µes
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("‚úÖ Ambiente configurado com sucesso!")
print(f"üìÖ Data/Hora: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")


In [None]:
# ============================================================
# ETAPA 2: CARREGAMENTO DOS DADOS BRUTOS (BRONZE)
# ============================================================

print("\n" + "="*60)
print("üì• CARREGANDO DADOS DA CAMADA BRONZE")
print("="*60)

# Carregar dados brutos
caminho_bronze = 'dados/bronze/telco_churn_raw.csv'

if os.path.exists(caminho_bronze):
    df_bronze = pd.read_csv(caminho_bronze)
    print(f"‚úÖ Dados carregados com sucesso!")
    print(f"   üìä Registros: {len(df_bronze):,}")
    print(f"   üìã Colunas: {df_bronze.shape[1]}")
else:
    raise FileNotFoundError(f"‚ùå Arquivo n√£o encontrado: {caminho_bronze}")

# Criar c√≥pia para transforma√ß√£o
df_silver = df_bronze.copy()
print(f"\nüîÑ C√≥pia criada para transforma√ß√£o")
print(f"   üìä Registros na c√≥pia: {len(df_silver):,}")


In [None]:
# ============================================================
# ETAPA 3: LIMPEZA E VALIDA√á√ÉO DOS DADOS
# ============================================================

print("\n" + "="*60)
print("üßπ LIMPEZA E VALIDA√á√ÉO DOS DADOS")
print("="*60)

# 1. Verificar e tratar valores ausentes
print("\n1Ô∏è‚É£ Tratamento de valores ausentes:")
missing_before = df_silver.isnull().sum().sum()
print(f"   Valores ausentes antes: {missing_before}")

# Verificar TotalCharges (pode ter valores vazios)
if 'TotalCharges' in df_silver.columns:
    # Converter TotalCharges para num√©rico, tratando espa√ßos vazios
    df_silver['TotalCharges'] = pd.to_numeric(df_silver['TotalCharges'], errors='coerce')
    
    # Preencher valores ausentes com 0 (clientes novos)
    df_silver['TotalCharges'].fillna(0, inplace=True)
    print(f"   ‚úÖ TotalCharges convertido e valores ausentes tratados")

missing_after = df_silver.isnull().sum().sum()
print(f"   Valores ausentes depois: {missing_after}")

# 2. Verificar duplicatas
print("\n2Ô∏è‚É£ Verifica√ß√£o de duplicatas:")
duplicatas = df_silver.duplicated(subset='customerID').sum()
print(f"   Duplicatas encontradas: {duplicatas}")
if duplicatas > 0:
    df_silver = df_silver.drop_duplicates(subset='customerID')
    print(f"   ‚úÖ Duplicatas removidas")

print(f"\n‚úÖ Limpeza conclu√≠da!")
print(f"   üìä Registros finais: {len(df_silver):,}")


In [None]:
# ============================================================
# ETAPA 4: ENGENHARIA DE FEATURES
# ============================================================

print("\n" + "="*60)
print("‚öôÔ∏è ENGENHARIA DE FEATURES")
print("="*60)

# 1. Codifica√ß√£o da vari√°vel alvo
print("\n1Ô∏è‚É£ Codifica√ß√£o da vari√°vel alvo:")
df_silver['Churn_numeric'] = (df_silver['Churn'] == 'Yes').astype(int)
print(f"   ‚úÖ Churn convertido para num√©rico (0/1)")
print(f"   üìä Distribui√ß√£o: {df_silver['Churn_numeric'].value_counts().to_dict()}")

# 2. Cria√ß√£o de features categ√≥ricas
print("\n2Ô∏è‚É£ Cria√ß√£o de features categ√≥ricas:")

# Codificar vari√°veis categ√≥ricas bin√°rias
binary_columns = ['gender', 'Partner', 'Dependents', 'PhoneService', 'PaperlessBilling']
for col in binary_columns:
    if col in df_silver.columns:
        df_silver[f'{col}_encoded'] = (df_silver[col] == 'Yes').astype(int)
        print(f"   ‚úÖ {col} codificado")

# Codificar InternetService
if 'InternetService' in df_silver.columns:
    internet_mapping = {'No': 0, 'DSL': 1, 'Fiber optic': 2}
    df_silver['InternetService_encoded'] = df_silver['InternetService'].map(internet_mapping)
    print(f"   ‚úÖ InternetService codificado")

# Codificar Contract
if 'Contract' in df_silver.columns:
    contract_mapping = {'Month-to-month': 0, 'One year': 1, 'Two year': 2}
    df_silver['Contract_encoded'] = df_silver['Contract'].map(contract_mapping)
    print(f"   ‚úÖ Contract codificado")

# 3. Cria√ß√£o de features num√©ricas derivadas
print("\n3Ô∏è‚É£ Cria√ß√£o de features num√©ricas:")

# Feature: Total de servi√ßos contratados
service_columns = ['PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity',
                  'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies']

df_silver['TotalServices'] = 0
for col in service_columns:
    if col in df_silver.columns:
        df_silver['TotalServices'] += (df_silver[col] == 'Yes').astype(int)

print(f"   ‚úÖ TotalServices criado")
print(f"   üìä Range: {df_silver['TotalServices'].min()} a {df_silver['TotalServices'].max()} servi√ßos")

# Feature: Valor m√©dio por m√™s de perman√™ncia
df_silver['AvgMonthlyCharges'] = df_silver['TotalCharges'] / (df_silver['tenure'] + 1)
print(f"   ‚úÖ AvgMonthlyCharges criado")

# Feature: Cliente novo (tenure <= 1)
df_silver['IsNewCustomer'] = (df_silver['tenure'] <= 1).astype(int)
print(f"   ‚úÖ IsNewCustomer criado")

# Feature: Cliente de longo prazo (tenure >= 36)
df_silver['IsLongTermCustomer'] = (df_silver['tenure'] >= 36).astype(int)
print(f"   ‚úÖ IsLongTermCustomer criado")

print(f"\n‚úÖ Engenharia de features conclu√≠da!")
print(f"   üìä Total de colunas: {df_silver.shape[1]}")


In [None]:
# ============================================================
# ETAPA 5: SALVAMENTO NA CAMADA SILVER
# ============================================================

print("\n" + "="*60)
print("üíæ SALVAMENTO NA CAMADA SILVER")
print("="*60)

# Adicionar metadados de transforma√ß√£o
df_silver['data_transformacao'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
df_silver['versao_transformacao'] = '1.0'

# Salvar em CSV
caminho_silver_csv = 'dados/silver/telco_churn_transformed.csv'
df_silver.to_csv(caminho_silver_csv, index=False)
print(f"‚úÖ Dados salvos em CSV: {caminho_silver_csv}")

# Salvar em Parquet (mais eficiente)
try:
    import pyarrow as pa
    import pyarrow.parquet as pq
    
    caminho_silver_parquet = 'dados/silver/telco_churn_transformed.parquet'
    df_silver.to_parquet(caminho_silver_parquet, index=False)
    print(f"‚úÖ Dados salvos em Parquet: {caminho_silver_parquet}")
    
    # Comparar tamanhos
    size_csv = os.path.getsize(caminho_silver_csv) / 1024**2
    size_parquet = os.path.getsize(caminho_silver_parquet) / 1024**2
    compression_ratio = (1 - size_parquet/size_csv) * 100
    
    print(f"\nüìä Compara√ß√£o de tamanhos:")
    print(f"   - CSV: {size_csv:.2f} MB")
    print(f"   - Parquet: {size_parquet:.2f} MB")
    print(f"   - Compress√£o: {compression_ratio:.1f}%")
    
except ImportError:
    print("‚ö†Ô∏è PyArrow n√£o dispon√≠vel. Apenas CSV salvo.")

# Criar relat√≥rio de transforma√ß√£o
new_features = [col for col in df_silver.columns if col not in df_bronze.columns]
relatorio_transformacao = f"""
RELAT√ìRIO DE TRANSFORMA√á√ÉO DE DADOS
Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
==========================================
Fonte: dados/bronze/telco_churn_raw.csv
Registros processados: {len(df_silver):,}
Colunas finais: {df_silver.shape[1]}
Features criadas: {len(new_features)}
Valores ausentes: {df_silver.isnull().sum().sum()}
Taxa de Churn: {(df_silver['Churn_numeric']==1).mean()*100:.2f}%
==========================================
Features criadas:
{chr(10).join([f'- {feature}' for feature in new_features])}
==========================================
"""

with open('dados/silver/relatorio_transformacao.txt', 'w', encoding='utf-8') as f:
    f.write(relatorio_transformacao)

print(f"\nüìÑ Relat√≥rio de transforma√ß√£o salvo em: dados/silver/relatorio_transformacao.txt")

print(f"\n" + "="*60)
print("‚úÖ TRANSFORMA√á√ÉO COMPLETA - Dados prontos para an√°lise!")
print("="*60)

print(f"\nüéØ Pr√≥ximos passos:")
print(f"   - Execute o notebook de an√°lise (03_analise_visualizacao.ipynb)")
print(f"   - Os dados transformados est√£o na camada Silver!")
