In [None]:
# Notebook 01 - INGEST√ÉO DE DADOS
# Pipeline de Big Data - An√°lise de Churn Telecom
# Equipe: [NOMES DOS MEMBROS]

# ============================================================
# ETAPA 1: CONFIGURA√á√ÉO DO AMBIENTE
# ============================================================

import pandas as pd
import numpy as np
from datetime import datetime
import os
import warnings
warnings.filterwarnings('ignore')

# Criar estrutura de pastas (Arquitetura Medallion)
pastas = ['../dados/bronze', '../dados/silver', '../dados/gold']
for pasta in pastas:
    os.makedirs(pasta, exist_ok=True)

print("‚úÖ Estrutura de pastas criada:")
print("   - dados/bronze  ‚Üí Dados brutos")
print("   - dados/silver  ‚Üí Dados transformados")
print("   - dados/gold    ‚Üí Dados prontos para an√°lise")



In [None]:
# ============================================================
# ETAPA 2: INGEST√ÉO DE DADOS (DATA INGESTION)
# ============================================================

print("\n" + "="*60)
print("üîÑ INICIANDO INGEST√ÉO DE DADOS")
print("="*60)

# Imports adicionais para download
import os
import urllib.request

# Fun√ß√£o inteligente para obter dataset
def obter_dataset():
    """
    Obt√©m o dataset usando m√∫ltiplos m√©todos:
    1. Verifica se j√° existe localmente
    2. Tenta download autom√°tico do GitHub
    3. Solicita caminho manual do arquivo
    """

    # M√©todo 1: Verificar se arquivo j√° existe
    arquivos_possiveis = [
        'telco_churn.csv',
        'Telco-Customer-Churn.csv',
        'Telco_customer_churn.csv'
    ]

    for arquivo in arquivos_possiveis:
        if os.path.exists(arquivo):
            print(f"‚úÖ Arquivo encontrado: {arquivo}")
            return arquivo

    # M√©todo 2: Tentar download autom√°tico
    print("üì• Arquivo n√£o encontrado. Tentando download autom√°tico...\n")

    try:
        print("‚¨áÔ∏è Baixando dataset do GitHub...")
        url = "https://raw.githubusercontent.com/IBM/telco-customer-churn-on-icp4d/master/data/Telco-Customer-Churn.csv"
        nome_arquivo = 'telco_churn.csv'

        urllib.request.urlretrieve(url, nome_arquivo)

        # Verificar se download funcionou
        if os.path.exists(nome_arquivo) and os.path.getsize(nome_arquivo) > 1000:
            print("‚úÖ Download conclu√≠do com sucesso!")
            return nome_arquivo
        else:
            raise Exception("Arquivo baixado est√° vazio ou corrompido")

    except Exception as e:
        print(f"‚ö†Ô∏è Download autom√°tico falhou: {e}\n")

    # M√©todo 3: Solicitar caminho manual
    print("üì§ Por favor, forne√ßa o caminho completo do arquivo:")
    print("   Telco_customer_churn.csv")
    print("   (Digite o caminho completo do arquivo)\n")

    caminho_arquivo = input("Caminho do arquivo: ").strip()
    
    if os.path.exists(caminho_arquivo):
        print(f"\n‚úÖ Arquivo encontrado: {caminho_arquivo}")
        return caminho_arquivo
    else:
        raise FileNotFoundError("‚ùå Arquivo n√£o encontrado no caminho fornecido!")

# Executar fun√ß√£o para obter dataset
nome_arquivo = obter_dataset()

# Ler dados brutos
print(f"\nüìñ Lendo arquivo: {nome_arquivo}")
df_bronze = pd.read_csv(nome_arquivo)

# Adicionar metadados de ingest√£o
df_bronze['data_ingestao'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
df_bronze['fonte'] = 'Kaggle_TelcoChurn'

# Salvar na camada Bronze (dados brutos)
caminho_bronze = '../dados/bronze/telco_churn_raw.csv'
df_bronze.to_csv(caminho_bronze, index=False)

print(f"\n‚úÖ Dados ingeridos com sucesso!")
print(f"   üìä Total de registros: {len(df_bronze):,}")
print(f"   üìÅ Arquivo salvo em: {caminho_bronze}")


In [None]:


# ============================================================
# ETAPA 3: EXPLORA√á√ÉO INICIAL DOS DADOS
# ============================================================

print("\n" + "="*60)
print("üîç AN√ÅLISE EXPLORAT√ìRIA INICIAL")
print("="*60)

print(f"\nüìê Dimens√µes do dataset: {df_bronze.shape}")
print(f"   - Linhas: {df_bronze.shape[0]:,}")
print(f"   - Colunas: {df_bronze.shape[1]}")

print("\nüìã Primeiras 5 linhas:")
print(df_bronze.head())

print("\nüìä Informa√ß√µes dos tipos de dados:")
print(df_bronze.info())

print("\nüî¢ Estat√≠sticas descritivas:")
print(df_bronze.describe())

print("\n‚ùì Valores ausentes por coluna:")
missing = df_bronze.isnull().sum()
if missing.sum() > 0:
    print(missing[missing > 0])
else:
    print("   ‚úÖ Nenhum valor ausente encontrado!")

print("\nüìà Distribui√ß√£o da vari√°vel alvo (Churn):")
print(df_bronze['Churn'].value_counts())
print(f"\n   Taxa de Churn: {(df_bronze['Churn']=='Yes').mean()*100:.2f}%")



In [None]:

# ============================================================
# ETAPA 4: VALIDA√á√ïES DE QUALIDADE
# ============================================================

print("\n" + "="*60)
print("‚úîÔ∏è VALIDA√á√ïES DE QUALIDADE DOS DADOS")
print("="*60)

# Verificar duplicatas
duplicatas = df_bronze.duplicated(subset='customerID').sum()
print(f"\nüîç Duplicatas encontradas: {duplicatas}")

# Verificar consist√™ncia de valores
print("\nüìä Valores √∫nicos em colunas categ√≥ricas:")
colunas_categoricas = ['gender', 'Partner', 'Dependents', 'PhoneService',
                       'InternetService', 'Contract', 'PaperlessBilling', 'Churn']
for col in colunas_categoricas:
    if col in df_bronze.columns:
        print(f"   - {col}: {df_bronze[col].unique()}")

# Verificar range de valores num√©ricos
print("\nüìè Range de valores num√©ricos:")
print(f"   - tenure: {df_bronze['tenure'].min()} a {df_bronze['tenure'].max()} meses")
print(f"   - MonthlyCharges: R$ {df_bronze['MonthlyCharges'].min():.2f} a R$ {df_bronze['MonthlyCharges'].max():.2f}")

print("\n" + "="*60)
print("‚úÖ INGEST√ÉO COMPLETA - Dados prontos para transforma√ß√£o!")
print("="*60)

# Salvar relat√≥rio de ingest√£o
relatorio = f"""
RELAT√ìRIO DE INGEST√ÉO DE DADOS
Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
==========================================
Fonte: {nome_arquivo}
Registros ingeridos: {len(df_bronze):,}
Colunas: {df_bronze.shape[1]}
Duplicatas: {duplicatas}
Taxa de Churn: {(df_bronze['Churn']=='Yes').mean()*100:.2f}%
==========================================
"""

with open('../dados/bronze/relatorio_ingestao.txt', 'w') as f:
    f.write(relatorio)

print("\nüìÑ Relat√≥rio de ingest√£o salvo em: dados/bronze/relatorio_ingestao.txt")

In [None]:
# ============================================================
# ETAPA 5: SALVAR ARQUIVOS FINAIS
# ============================================================

print("\n" + "="*60)
print("üíæ SALVANDO ARQUIVOS FINAIS")
print("="*60)

# Os arquivos j√° foram salvos durante o processo:
print("‚úÖ Arquivos salvos com sucesso:")
print(f"   üìä Dados brutos: dados/bronze/telco_churn_raw.csv")
print(f"   üìÑ Relat√≥rio: dados/bronze/relatorio_ingestao.txt")

print("\nüéØ Pr√≥ximos passos:")
print("   - Execute o notebook de transforma√ß√£o (02_transformacao.ipynb)")
print("   - Os dados est√£o prontos para an√°lise!")