In [7]:
# Notebook 01 - INGEST√ÉO DE DADOS
# Pipeline de Big Data - An√°lise de Churn Telecom
# Equipe: [NOMES DOS MEMBROS]

# ============================================================
# ETAPA 1: CONFIGURA√á√ÉO DO AMBIENTE
# ============================================================

import pandas as pd
import numpy as np
from datetime import datetime
import os
from google.colab import files
import warnings
warnings.filterwarnings('ignore')

# Criar estrutura de pastas (Arquitetura Medallion)
pastas = ['/content/dados/bronze', '/content/dados/silver', '/content/dados/gold']
for pasta in pastas:
    os.makedirs(pasta, exist_ok=True)

print("‚úÖ Estrutura de pastas criada:")
print("   - /dados/bronze  ‚Üí Dados brutos")
print("   - /dados/silver  ‚Üí Dados transformados")
print("   - /dados/gold    ‚Üí Dados prontos para an√°lise")



‚úÖ Estrutura de pastas criada:
   - /dados/bronze  ‚Üí Dados brutos
   - /dados/silver  ‚Üí Dados transformados
   - /dados/gold    ‚Üí Dados prontos para an√°lise


In [8]:
# ============================================================
# ETAPA 2: INGEST√ÉO DE DADOS (DATA INGESTION)
# ============================================================

print("\n" + "="*60)
print("üîÑ INICIANDO INGEST√ÉO DE DADOS")
print("="*60)

# Imports adicionais para download
import os
import urllib.request

# Fun√ß√£o inteligente para obter dataset
def obter_dataset():
    """
    Obt√©m o dataset usando m√∫ltiplos m√©todos:
    1. Verifica se j√° existe localmente
    2. Tenta download autom√°tico do GitHub
    3. Solicita upload manual
    """

    # M√©todo 1: Verificar se arquivo j√° existe
    arquivos_possiveis = [
        'telco_churn.csv',
        'Telco-Customer-Churn.csv',
        'WA_Fn-UseC_-Telco-Customer-Churn.csv'
    ]

    for arquivo in arquivos_possiveis:
        if os.path.exists(arquivo):
            print(f"‚úÖ Arquivo encontrado: {arquivo}")
            return arquivo

    # M√©todo 2: Tentar download autom√°tico
    print("üì• Arquivo n√£o encontrado. Tentando download autom√°tico...\n")

    try:
        print("‚¨áÔ∏è Baixando dataset do GitHub...")
        url = "https://raw.githubusercontent.com/IBM/telco-customer-churn-on-icp4d/master/data/Telco-Customer-Churn.csv"
        nome_arquivo = 'telco_churn.csv'

        urllib.request.urlretrieve(url, nome_arquivo)

        # Verificar se download funcionou
        if os.path.exists(nome_arquivo) and os.path.getsize(nome_arquivo) > 1000:
            print("‚úÖ Download conclu√≠do com sucesso!")
            return nome_arquivo
        else:
            raise Exception("Arquivo baixado est√° vazio ou corrompido")

    except Exception as e:
        print(f"‚ö†Ô∏è Download autom√°tico falhou: {e}\n")

    # M√©todo 3: Upload manual
    print("üì§ Por favor, fa√ßa upload do arquivo:")
    print("   WA_Fn-UseC_-Telco-Customer-Churn.csv")
    print("   (Clique no bot√£o abaixo)\n")

    uploaded = files.upload()

    if uploaded:
        nome_arquivo = list(uploaded.keys())[0]
        print(f"\n‚úÖ Arquivo recebido: {nome_arquivo}")
        return nome_arquivo
    else:
        raise FileNotFoundError("‚ùå Nenhum arquivo foi carregado!")

# Executar fun√ß√£o para obter dataset
nome_arquivo = obter_dataset()

# Ler dados brutos
print(f"\nüìñ Lendo arquivo: {nome_arquivo}")
df_bronze = pd.read_csv(nome_arquivo)

# Adicionar metadados de ingest√£o
df_bronze['data_ingestao'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
df_bronze['fonte'] = 'Kaggle_TelcoChurn'

# Salvar na camada Bronze (dados brutos)
caminho_bronze = '/content/dados/bronze/telco_churn_raw.csv'
df_bronze.to_csv(caminho_bronze, index=False)

print(f"\n‚úÖ Dados ingeridos com sucesso!")
print(f"   üìä Total de registros: {len(df_bronze):,}")
print(f"   üìÅ Arquivo salvo em: {caminho_bronze}")



üîÑ INICIANDO INGEST√ÉO DE DADOS
‚úÖ Arquivo encontrado: telco_churn.csv

üìñ Lendo arquivo: telco_churn.csv

‚úÖ Dados ingeridos com sucesso!
   üìä Total de registros: 7,043
   üìÅ Arquivo salvo em: /content/dados/bronze/telco_churn_raw.csv


In [9]:


# ============================================================
# ETAPA 3: EXPLORA√á√ÉO INICIAL DOS DADOS
# ============================================================

print("\n" + "="*60)
print("üîç AN√ÅLISE EXPLORAT√ìRIA INICIAL")
print("="*60)

print(f"\nüìê Dimens√µes do dataset: {df_bronze.shape}")
print(f"   - Linhas: {df_bronze.shape[0]:,}")
print(f"   - Colunas: {df_bronze.shape[1]}")

print("\nüìã Primeiras 5 linhas:")
print(df_bronze.head())

print("\nüìä Informa√ß√µes dos tipos de dados:")
print(df_bronze.info())

print("\nüî¢ Estat√≠sticas descritivas:")
print(df_bronze.describe())

print("\n‚ùì Valores ausentes por coluna:")
missing = df_bronze.isnull().sum()
if missing.sum() > 0:
    print(missing[missing > 0])
else:
    print("   ‚úÖ Nenhum valor ausente encontrado!")

print("\nüìà Distribui√ß√£o da vari√°vel alvo (Churn):")
print(df_bronze['Churn'].value_counts())
print(f"\n   Taxa de Churn: {(df_bronze['Churn']=='Yes').mean()*100:.2f}%")




üîç AN√ÅLISE EXPLORAT√ìRIA INICIAL

üìê Dimens√µes do dataset: (7043, 23)
   - Linhas: 7,043
   - Colunas: 23

üìã Primeiras 5 linhas:
   customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
0  7590-VHVEG  Female              0     Yes         No       1           No   
1  5575-GNVDE    Male              0      No         No      34          Yes   
2  3668-QPYBK    Male              0      No         No       2          Yes   
3  7795-CFOCW    Male              0      No         No      45           No   
4  9237-HQITU  Female              0      No         No       2          Yes   

      MultipleLines InternetService OnlineSecurity  ... StreamingTV  \
0  No phone service             DSL             No  ...          No   
1                No             DSL            Yes  ...          No   
2                No             DSL            Yes  ...          No   
3  No phone service             DSL            Yes  ...          No   
4                No     F

In [10]:

# ============================================================
# ETAPA 4: VALIDA√á√ïES DE QUALIDADE
# ============================================================

print("\n" + "="*60)
print("‚úîÔ∏è VALIDA√á√ïES DE QUALIDADE DOS DADOS")
print("="*60)

# Verificar duplicatas
duplicatas = df_bronze.duplicated(subset='customerID').sum()
print(f"\nüîç Duplicatas encontradas: {duplicatas}")

# Verificar consist√™ncia de valores
print("\nüìä Valores √∫nicos em colunas categ√≥ricas:")
colunas_categoricas = ['gender', 'Partner', 'Dependents', 'PhoneService',
                       'InternetService', 'Contract', 'PaperlessBilling', 'Churn']
for col in colunas_categoricas:
    if col in df_bronze.columns:
        print(f"   - {col}: {df_bronze[col].unique()}")

# Verificar range de valores num√©ricos
print("\nüìè Range de valores num√©ricos:")
print(f"   - tenure: {df_bronze['tenure'].min()} a {df_bronze['tenure'].max()} meses")
print(f"   - MonthlyCharges: R$ {df_bronze['MonthlyCharges'].min():.2f} a R$ {df_bronze['MonthlyCharges'].max():.2f}")

print("\n" + "="*60)
print("‚úÖ INGEST√ÉO COMPLETA - Dados prontos para transforma√ß√£o!")
print("="*60)

# Salvar relat√≥rio de ingest√£o
relatorio = f"""
RELAT√ìRIO DE INGEST√ÉO DE DADOS
Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
==========================================
Fonte: {nome_arquivo}
Registros ingeridos: {len(df_bronze):,}
Colunas: {df_bronze.shape[1]}
Duplicatas: {duplicatas}
Taxa de Churn: {(df_bronze['Churn']=='Yes').mean()*100:.2f}%
==========================================
"""

with open('/content/dados/bronze/relatorio_ingestao.txt', 'w') as f:
    f.write(relatorio)

print("\nüìÑ Relat√≥rio de ingest√£o salvo em: /content/dados/bronze/relatorio_ingestao.txt")


‚úîÔ∏è VALIDA√á√ïES DE QUALIDADE DOS DADOS

üîç Duplicatas encontradas: 0

üìä Valores √∫nicos em colunas categ√≥ricas:
   - gender: ['Female' 'Male']
   - Partner: ['Yes' 'No']
   - Dependents: ['No' 'Yes']
   - PhoneService: ['No' 'Yes']
   - InternetService: ['DSL' 'Fiber optic' 'No']
   - Contract: ['Month-to-month' 'One year' 'Two year']
   - PaperlessBilling: ['Yes' 'No']
   - Churn: ['No' 'Yes']

üìè Range de valores num√©ricos:
   - tenure: 0 a 72 meses
   - MonthlyCharges: R$ 18.25 a R$ 118.75

‚úÖ INGEST√ÉO COMPLETA - Dados prontos para transforma√ß√£o!

üìÑ Relat√≥rio de ingest√£o salvo em: /content/dados/bronze/relatorio_ingestao.txt


In [11]:
# Adicionar no final do notebook:
from google.colab import files
files.download('/content/dados/bronze/telco_churn_raw.csv')
files.download('/content/dados/bronze/relatorio_ingestao.txt')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>