In [None]:
# Notebook 01 - INGEST√ÉO DE DADOS

# ETAPA 1: CONFIGURA√á√ÉO DO AMBIENTE

import pandas as pd
import numpy as np
from datetime import datetime
import os
import warnings
warnings.filterwarnings('ignore')

pastas = ['../dados/bronze', '../dados/silver', '../dados/gold']
for pasta in pastas:
    os.makedirs(pasta, exist_ok=True)

print("Estrutura de pastas criada:")
print("   - dados/bronze  ‚Üí Dados brutos")
print("   - dados/silver  ‚Üí Dados transformados")
print("   - dados/gold    ‚Üí Dados prontos para an√°lise")



In [None]:
# ETAPA 2: INGEST√ÉO DE DADOS (DATA INGESTION)

print("\n" + "="*60)
print("INICIANDO INGEST√ÉO DE DADOS")
print("="*60)

import os
import urllib.request

def obter_dataset():
    """
    Obt√©m o dataset usando m√∫ltiplos m√©todos:
    1. Verifica se j√° existe localmente
    2. Tenta download autom√°tico do GitHub
    3. Solicita caminho manual do arquivo
    """

    arquivos_possiveis = [
        'telco_churn.csv',
        'Telco-Customer-Churn.csv',
        'Telco_customer_churn.csv'
    ]

    for arquivo in arquivos_possiveis:
        if os.path.exists(arquivo):
            print(f"Arquivo encontrado: {arquivo}")
            return arquivo

    print("Arquivo n√£o encontrado. Tentando download autom√°tico...\n")

    try:
        print("‚¨áBaixando dataset do GitHub...")
        url = "https://raw.githubusercontent.com/IBM/telco-customer-churn-on-icp4d/master/data/Telco-Customer-Churn.csv"
        nome_arquivo = 'telco_churn.csv'

        urllib.request.urlretrieve(url, nome_arquivo)

        if os.path.exists(nome_arquivo) and os.path.getsize(nome_arquivo) > 1000:
            print("Download conclu√≠do com sucesso!")
            return nome_arquivo
        else:
            raise Exception("Arquivo baixado est√° vazio ou corrompido")

    except Exception as e:
        print(f"Download autom√°tico falhou: {e}\n")

    print("Por favor, forne√ßa o caminho completo do arquivo:")
    print("   Telco_customer_churn.csv")
    print("   (Digite o caminho completo do arquivo)\n")

    caminho_arquivo = input("Caminho do arquivo: ").strip()
    
    if os.path.exists(caminho_arquivo):
        print(f"\nArquivo encontrado: {caminho_arquivo}")
        return caminho_arquivo
    else:
        raise FileNotFoundError("Arquivo n√£o encontrado no caminho fornecido!")

nome_arquivo = obter_dataset()

print(f"\nLendo arquivo: {nome_arquivo}")
df_bronze = pd.read_csv(nome_arquivo)

df_bronze['data_ingestao'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
df_bronze['fonte'] = 'Kaggle_TelcoChurn'

caminho_bronze = '../dados/bronze/telco_churn_raw.csv'
df_bronze.to_csv(caminho_bronze, index=False)

print(f"\nDados ingeridos com sucesso!")
print(f"   Total de registros: {len(df_bronze):,}")
print(f"   Arquivo salvo em: {caminho_bronze}")


In [None]:
# ETAPA 3: EXPLORA√á√ÉO INICIAL DOS DADOS

print("\n" + "="*60)
print("AN√ÅLISE EXPLORAT√ìRIA INICIAL")
print("="*60)

print(f"\nDimens√µes do dataset: {df_bronze.shape}")
print(f"   - Linhas: {df_bronze.shape[0]:,}")
print(f"   - Colunas: {df_bronze.shape[1]}")

print("\nPrimeiras 5 linhas:")
print(df_bronze.head())

print("\nInforma√ß√µes dos tipos de dados:")
print(df_bronze.info())

print("\nEstat√≠sticas descritivas:")
print(df_bronze.describe())

print("\nValores ausentes por coluna:")
missing = df_bronze.isnull().sum()
if missing.sum() > 0:
    print(missing[missing > 0])
else:
    print("Nenhum valor ausente encontrado!")

print("\nDistribui√ß√£o da vari√°vel alvo (Churn):")
print(df_bronze['Churn'].value_counts())
print(f"\n   Taxa de Churn: {(df_bronze['Churn']=='Yes').mean()*100:.2f}%")



In [None]:

# ETAPA 4: VALIDA√á√ïES DE QUALIDADE

print("\n" + "="*60)
print("VALIDA√á√ïES DE QUALIDADE DOS DADOS")
print("="*60)

duplicatas = df_bronze.duplicated(subset='customerID').sum()
print(f"\nDuplicatas encontradas: {duplicatas}")

print("\nValores √∫nicos em colunas categ√≥ricas:")
colunas_categoricas = ['gender', 'Partner', 'Dependents', 'PhoneService',
                       'InternetService', 'Contract', 'PaperlessBilling', 'Churn']
for col in colunas_categoricas:
    if col in df_bronze.columns:
        print(f"   - {col}: {df_bronze[col].unique()}")

print("\nüìè Range de valores num√©ricos:")
print(f"   - tenure: {df_bronze['tenure'].min()} a {df_bronze['tenure'].max()} meses")
print(f"   - MonthlyCharges: R$ {df_bronze['MonthlyCharges'].min():.2f} a R$ {df_bronze['MonthlyCharges'].max():.2f}")

print("\n" + "="*60)
print("INGEST√ÉO COMPLETA - Dados prontos para transforma√ß√£o!")
print("="*60)

relatorio = f"""
RELAT√ìRIO DE INGEST√ÉO DE DADOS
Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
==========================================
Fonte: {nome_arquivo}
Registros ingeridos: {len(df_bronze):,}
Colunas: {df_bronze.shape[1]}
Duplicatas: {duplicatas}
Taxa de Churn: {(df_bronze['Churn']=='Yes').mean()*100:.2f}%
==========================================
"""

with open('../dados/bronze/relatorio_ingestao.txt', 'w') as f:
    f.write(relatorio)

print("\nRelat√≥rio de ingest√£o salvo em: dados/bronze/relatorio_ingestao.txt")

In [None]:
# ETAPA 5: SALVAR ARQUIVOS FINAIS

print("\n" + "="*60)
print("SALVANDO ARQUIVOS FINAIS")
print("="*60)

print("‚úÖ Arquivos salvos com sucesso:")
print(f"Dados brutos: dados/bronze/telco_churn_raw.csv")
print(f"Relat√≥rio: dados/bronze/relatorio_ingestao.txt")

print("\nPr√≥ximos passos:")
print("   - Execute o notebook de transforma√ß√£o (02_transformacao.ipynb)")
print("   - Os dados est√£o prontos para an√°lise!")