# üìä TelecomX - An√°lise de Evas√£o de Clientes
## Challenge Data Science | Alura + Oracle Next Education (ONE)

---

**üë§ Autor:** F√°bio Andrade  
**üìÖ Data:** 28 de Dezembro de 2024  
**üîó Reposit√≥rio:** [GitHub - telecomx-churn-analysis](https://github.com/thedrads/telecomx-churn-analysis)  
**üéØ Objetivo:** An√°lise completa de Churn usando processo ETL + EDA preparat√≥ria para Machine Learning

---

### üìå Sobre este Projeto

Este notebook documenta a an√°lise de dados de evas√£o de clientes (churn) da empresa **TelecomX**, desenvolvido como parte do Challenge de Data Science da Alura.

**Etapas do projeto:**
1. üì• **Extract** - Extra√ß√£o de dados via API REST
2. üîß **Transform** - Limpeza e transforma√ß√£o dos dados
3. üíæ **Load** - Carga dos dados tratados
4. üìä **EDA** - An√°lise Explorat√≥ria de Dados
5. üí° **Insights** - Recomenda√ß√µes estrat√©gicas

---

### üéØ Diferenciais deste Projeto

- ‚úÖ **Colunas traduzidas para portugu√™s** (facilita compreens√£o e ML futuro)
- ‚úÖ **ETL rigoroso** com an√°lise de qualidade profunda
- ‚úÖ **Documenta√ß√£o de decis√µes** (ex: tratamento de valores vazios)
- ‚úÖ **Preparado para Machine Learning** (tipos corretos, sem missing values)
- ‚úÖ **Seguindo boas pr√°ticas** de Data Science internacional

---

## üè¢ 1. CONTEXTO DO NEG√ìCIO

### üìâ O Problema: Evas√£o de Clientes (Churn)

A **TelecomX** √© uma empresa de telecomunica√ß√µes que enfrenta um desafio cr√≠tico: **alto √≠ndice de cancelamento de contratos**.

#### üéØ O que √© Churn?

**Churn** (ou evas√£o) refere-se ao cancelamento de servi√ßos. Na telecomunica√ß√µes:
- ‚ùå Cliente cancela contrato
- ‚ùå Para de pagar pelos servi√ßos
- ‚ùå Migra para concorr√™ncia

#### üí∞ Impacto no Neg√≥cio

> **Estat√≠stica chave:** Reter um cliente custa at√© 7 vezes menos que adquirir um novo.

---

### üéØ Objetivos do Projeto

1. **Extrair** dados de clientes do sistema (API REST)
2. **Limpar e transformar** dados para an√°lise
3. **Identificar padr√µes** que diferenciam clientes que cancelam vs. permanecem
4. **Gerar insights acion√°veis** para reten√ß√£o
5. **Preparar dataset** para futuros modelos de Machine Learning

#### üìä Perguntas de Neg√≥cio

- ‚ùì Qual o perfil demogr√°fico dos clientes que mais cancelam?
- ‚ùì Quais servi√ßos est√£o associados a maior/menor churn?
- ‚ùì Tipo de contrato influencia na reten√ß√£o?
- ‚ùì Qual o impacto financeiro do churn atual?

---

## üìñ 2. DICION√ÅRIO DE DADOS

### üìã Estrutura do Dataset

**Total:** 21 vari√°veis organizadas em 5 categorias

---

#### üÜî IDENTIFICA√á√ÉO
- `customerID` ‚Üí `id_cliente`: Identificador √∫nico

#### üéØ VARI√ÅVEL ALVO (Target para ML)
- `Churn` ‚Üí `cancelou`: Cliente cancelou? (Yes/No)

#### üë• VARI√ÅVEIS DEMOGR√ÅFICAS
- `gender` ‚Üí `genero`: Masculino/Feminino
- `SeniorCitizen` ‚Üí `idoso`: 1=Sim, 0=N√£o (65+ anos)
- `Partner` ‚Üí `tem_parceiro`: Yes/No
- `Dependents` ‚Üí `tem_dependentes`: Yes/No

#### üìû SERVI√áOS CONTRATADOS

**Telefone:**
- `PhoneService` ‚Üí `servico_telefone`: Yes/No
- `MultipleLines` ‚Üí `linhas_multiplas`: Yes/No/No phone service

**Internet:**
- `InternetService` ‚Üí `tipo_internet`: DSL/Fiber optic/No
- `OnlineSecurity` ‚Üí `seguranca_online`: Yes/No/No internet service
- `OnlineBackup` ‚Üí `backup_online`: Yes/No/No internet service
- `DeviceProtection` ‚Üí `protecao_dispositivo`: Yes/No/No internet service
- `TechSupport` ‚Üí `suporte_tecnico`: Yes/No/No internet service
- `StreamingTV` ‚Üí `streaming_tv`: Yes/No/No internet service
- `StreamingMovies` ‚Üí `streaming_filmes`: Yes/No/No internet service

#### üí∞ INFORMA√á√ïES FINANCEIRAS
- `tenure` ‚Üí `meses_cliente`: Meses como cliente (0-72)
- `Contract` ‚Üí `tipo_contrato`: Month-to-month/One year/Two year
- `PaperlessBilling` ‚Üí `fatura_digital`: Yes/No
- `PaymentMethod` ‚Üí `metodo_pagamento`: 4 op√ß√µes
- `MonthlyCharges` ‚Üí `cobranca_mensal`: USD (18-120)
- `TotalCharges` ‚Üí `cobranca_total`: USD acumulado

---

### üìå Nota sobre Tradu√ß√£o

Seguindo recomenda√ß√£o dos instrutores da Alura, **todas as colunas foram traduzidas para portugu√™s** para:
- ‚úÖ Facilitar compreens√£o e manuten√ß√£o do c√≥digo
- ‚úÖ Tornar apresenta√ß√µes mais acess√≠veis
- ‚úÖ Preparar para modelagem em portugu√™s (se necess√°rio)

---

In [1]:
# ====================================================================
# üì¶ INSTALA√á√ÉO DE DEPEND√äNCIAS
# ====================================================================

print("üîÑ Atualizando pip...")
!pip install -q --upgrade pip

print("\nüì¶ Instalando Plotly para gr√°ficos interativos...")
!pip install -q plotly==5.18.0

print("\n" + "="*60)
print("‚úÖ INSTALA√á√ÉO CONCLU√çDA!")
print("="*60)

üîÑ Atualizando pip...
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.8/1.8 MB[0m [31m16.1 MB/s[0m eta [36m0:00:00[0m
[?25h
üì¶ Instalando Plotly para gr√°ficos interativos...

‚úÖ INSTALA√á√ÉO CONCLU√çDA!


In [2]:
# ====================================================================
# üìö IMPORTA√á√ÉO DE BIBLIOTECAS
# ====================================================================

# Manipula√ß√£o de dados
import pandas as pd
import numpy as np

# Requisi√ß√µes HTTP
import requests
import json

# Visualiza√ß√£o
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Utilit√°rios
from datetime import datetime
import warnings
import os

# ====================================================================
# üé® CONFIGURA√á√ïES GLOBAIS
# ====================================================================

warnings.filterwarnings('ignore')

# Pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

# Seaborn
sns.set_style("whitegrid")
sns.set_palette("Set2")

# Matplotlib
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

# ====================================================================
# üé® PALETA DE CORES DO PROJETO
# ====================================================================

CORES = {
    'primary': '#2E86AB',
    'secondary': '#A23B72',
    'accent': '#F18F01',
    'success': '#06A77D',
    'danger': '#D81159',
    'warning': '#F18F01',
    'info': '#2E86AB',
    'neutral': '#6C757D',
    'churn_yes': '#E63946',
    'churn_no': '#06FFA5',
    'palette': ['#2E86AB', '#A23B72', '#F18F01', '#06A77D',
                '#D81159', '#6C757D', '#E63946', '#06FFA5']
}

print("="*60)
print("‚úÖ BIBLIOTECAS IMPORTADAS COM SUCESSO!")
print("="*60)
print(f"\nüìä Vers√µes:")
print(f"   ‚Ä¢ Pandas: {pd.__version__}")
print(f"   ‚Ä¢ NumPy: {np.__version__}")
print(f"   ‚Ä¢ Matplotlib: {plt.matplotlib.__version__}")
print(f"   ‚Ä¢ Seaborn: {sns.__version__}")
print("\n" + "="*60)
print("üéØ AMBIENTE CONFIGURADO!")
print("="*60)

‚úÖ BIBLIOTECAS IMPORTADAS COM SUCESSO!

üìä Vers√µes:
   ‚Ä¢ Pandas: 2.2.2
   ‚Ä¢ NumPy: 2.0.2
   ‚Ä¢ Matplotlib: 3.10.0
   ‚Ä¢ Seaborn: 0.13.2

üéØ AMBIENTE CONFIGURADO!


---

## üì• 3. EXTRA√á√ÉO DE DADOS (Extract)

### üéØ Objetivo

Conectar-se √† API REST da TelecomX e extrair dados brutos de clientes em formato JSON.

**Fonte:** `https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json`

### üîß T√©cnicas

- `requests.get()` - Requisi√ß√£o HTTP
- `pd.json_normalize()` - Normaliza√ß√£o de JSON aninhado
- Tratamento de erros robusto

---

In [3]:
# ====================================================================
# üåê FUN√á√ÉO DE EXTRA√á√ÉO DE DADOS DA API
# ====================================================================

def extrair_dados_api(url, timeout=30):
    """
    Extrai dados de uma API REST e retorna como DataFrame.

    Par√¢metros:
    -----------
    url : str
        URL da API REST
    timeout : int
        Tempo m√°ximo de espera (segundos)

    Retorna:
    --------
    pd.DataFrame ou None
    """

    try:
        print(f"üåê Conectando √† API...")
        print(f"   URL: {url}")

        response = requests.get(url, timeout=timeout)

        if response.status_code == 200:
            print(f"   ‚úÖ Status: {response.status_code} (OK)")

            dados_json = response.json()

            if isinstance(dados_json, list):
                print(f"   ‚úÖ Tipo: Lista com {len(dados_json):,} registros")
            else:
                print(f"   ‚ö†Ô∏è Tipo inesperado: {type(dados_json)}")
                return None

            print(f"üîÑ Convertendo para DataFrame...")
            df = pd.DataFrame(dados_json)

            print(f"   ‚úÖ DataFrame criado: {df.shape[0]:,} linhas √ó {df.shape[1]} colunas")

            return df

        else:
            print(f"   ‚ùå ERRO HTTP: Status {response.status_code}")
            return None

    except requests.exceptions.Timeout:
        print(f"‚ùå ERRO: Timeout ap√≥s {timeout} segundos")
        return None

    except requests.exceptions.RequestException as e:
        print(f"‚ùå ERRO de Requisi√ß√£o: {str(e)}")
        return None

    except json.JSONDecodeError as e:
        print(f"‚ùå ERRO ao parsear JSON: {str(e)}")
        return None

    except Exception as e:
        print(f"‚ùå ERRO inesperado: {str(e)}")
        return None

print("="*60)
print("‚úÖ FUN√á√ÉO extrair_dados_api() DEFINIDA!")
print("="*60)

‚úÖ FUN√á√ÉO extrair_dados_api() DEFINIDA!


In [4]:
# ====================================================================
# üöÄ EXECUTAR EXTRA√á√ÉO DE DADOS
# ====================================================================

print("="*60)
print("üöÄ INICIANDO EXTRA√á√ÉO")
print("="*60)

API_URL = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json"

df_raw = extrair_dados_api(API_URL)

print("\n" + "="*60)
if df_raw is not None:
    print("‚úÖ EXTRA√á√ÉO BEM-SUCEDIDA!")
    print("="*60)

    print(f"\nüìä Dimens√µes: {df_raw.shape[0]:,} registros √ó {df_raw.shape[1]} colunas")
    print(f"\nüìã Colunas extra√≠das:")
    for i, col in enumerate(df_raw.columns, 1):
        print(f"   {i}. {col}")

    print(f"\nüîç Preview (primeiras 3 linhas):")
    print("="*60)
    display(df_raw.head(3))

    print(f"\nüì¶ Informa√ß√µes t√©cnicas:")
    print("="*60)
    df_raw.info()
else:
    print("‚ùå FALHA NA EXTRA√á√ÉO!")
    print("="*60)

üöÄ INICIANDO EXTRA√á√ÉO
üåê Conectando √† API...
   URL: https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json
   ‚úÖ Status: 200 (OK)
   ‚úÖ Tipo: Lista com 7,267 registros
üîÑ Convertendo para DataFrame...
   ‚úÖ DataFrame criado: 7,267 linhas √ó 6 colunas

‚úÖ EXTRA√á√ÉO BEM-SUCEDIDA!

üìä Dimens√µes: 7,267 registros √ó 6 colunas

üìã Colunas extra√≠das:
   1. customerID
   2. Churn
   3. customer
   4. phone
   5. internet
   6. account

üîç Preview (primeiras 3 linhas):


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."



üì¶ Informa√ß√µes t√©cnicas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


In [5]:
# ====================================================================
# üîß NORMALIZA√á√ÉO DE JSON ANINHADO
# ====================================================================

print("="*60)
print("üîß NORMALIZANDO ESTRUTURA JSON")
print("="*60)

if df_raw is not None:

    print(f"\nüìä ANTES da normaliza√ß√£o: {df_raw.shape[1]} colunas")

    print("\nüîÑ Aplicando pd.json_normalize()...")
    df_normalized = pd.json_normalize(df_raw.to_dict('records'))

    print(f"   ‚úÖ Normaliza√ß√£o conclu√≠da!")
    print(f"\nüìä DEPOIS da normaliza√ß√£o: {df_normalized.shape[1]} colunas")

    print(f"\nüìã Colunas normalizadas (com prefixos):")
    for i, col in enumerate(df_normalized.columns, 1):
        print(f"   {i:2d}. {col}")

    print(f"\nüîç Preview:")
    print("="*60)
    display(df_normalized.head())

    print("\n" + "="*60)
    print("‚úÖ NORMALIZA√á√ÉO CONCLU√çDA!")
    print("="*60)
else:
    print("‚ùå N√£o foi poss√≠vel normalizar: df_raw n√£o existe")

üîß NORMALIZANDO ESTRUTURA JSON

üìä ANTES da normaliza√ß√£o: 6 colunas

üîÑ Aplicando pd.json_normalize()...
   ‚úÖ Normaliza√ß√£o conclu√≠da!

üìä DEPOIS da normaliza√ß√£o: 21 colunas

üìã Colunas normalizadas (com prefixos):
    1. customerID
    2. Churn
    3. customer.gender
    4. customer.SeniorCitizen
    5. customer.Partner
    6. customer.Dependents
    7. customer.tenure
    8. phone.PhoneService
    9. phone.MultipleLines
   10. internet.InternetService
   11. internet.OnlineSecurity
   12. internet.OnlineBackup
   13. internet.DeviceProtection
   14. internet.TechSupport
   15. internet.StreamingTV
   16. internet.StreamingMovies
   17. account.Contract
   18. account.PaperlessBilling
   19. account.PaymentMethod
   20. account.Charges.Monthly
   21. account.Charges.Total

üîç Preview:


Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,internet.OnlineSecurity,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4



‚úÖ NORMALIZA√á√ÉO CONCLU√çDA!


In [6]:
# ====================================================================
# üåê TRADU√á√ÉO DE COLUNAS PARA PORTUGU√äS
# ====================================================================
# Seguindo recomenda√ß√£o dos instrutores da Alura + prepara√ß√£o para ML
# ====================================================================

print("="*60)
print("üåê TRADUZINDO COLUNAS PARA PORTUGU√äS")
print("="*60)

# Dicion√°rio completo de tradu√ß√£o
traducao_colunas = {
    # Identifica√ß√£o
    'customerID': 'id_cliente',

    # Vari√°vel alvo (target para ML)
    'Churn': 'cancelou',

    # Demogr√°ficas
    'customer.gender': 'genero',
    'customer.SeniorCitizen': 'idoso',
    'customer.Partner': 'tem_parceiro',
    'customer.Dependents': 'tem_dependentes',
    'customer.tenure': 'meses_cliente',

    # Servi√ßos telef√¥nicos
    'phone.PhoneService': 'servico_telefone',
    'phone.MultipleLines': 'linhas_multiplas',

    # Servi√ßos de internet
    'internet.InternetService': 'tipo_internet',
    'internet.OnlineSecurity': 'seguranca_online',
    'internet.OnlineBackup': 'backup_online',
    'internet.DeviceProtection': 'protecao_dispositivo',
    'internet.TechSupport': 'suporte_tecnico',
    'internet.StreamingTV': 'streaming_tv',
    'internet.StreamingMovies': 'streaming_filmes',

    # Informa√ß√µes de conta
    'account.Contract': 'tipo_contrato',
    'account.PaperlessBilling': 'fatura_digital',
    'account.PaymentMethod': 'metodo_pagamento',
    'account.Charges.Monthly': 'cobranca_mensal',
    'account.Charges.Total': 'cobranca_total'
}

print(f"\nüìã Traduzindo {len(traducao_colunas)} colunas...")

# Aplicar tradu√ß√£o
df_normalized.rename(columns=traducao_colunas, inplace=True)

print(f"‚úÖ Colunas traduzidas com sucesso!")

print(f"\nüìä Colunas ap√≥s tradu√ß√£o:")
for i, col in enumerate(df_normalized.columns, 1):
    tipo = df_normalized[col].dtype
    print(f"   {i:2d}. {col:25s} (tipo: {tipo})")

print("\nüí° Benef√≠cios da tradu√ß√£o:")
print("   ‚úÖ C√≥digo mais acess√≠vel para brasileiros")
print("   ‚úÖ Facilita apresenta√ß√µes e relat√≥rios")
print("   ‚úÖ Preparado para ML em portugu√™s (se necess√°rio)")
print("   ‚úÖ Segue recomenda√ß√£o dos instrutores Alura")

print("\n" + "="*60)
print("‚úÖ EXTRA√á√ÉO COMPLETA - DADOS EM PORTUGU√äS!")
print("="*60)

üåê TRADUZINDO COLUNAS PARA PORTUGU√äS

üìã Traduzindo 21 colunas...
‚úÖ Colunas traduzidas com sucesso!

üìä Colunas ap√≥s tradu√ß√£o:
    1. id_cliente                (tipo: object)
    2. cancelou                  (tipo: object)
    3. genero                    (tipo: object)
    4. idoso                     (tipo: int64)
    5. tem_parceiro              (tipo: object)
    6. tem_dependentes           (tipo: object)
    7. meses_cliente             (tipo: int64)
    8. servico_telefone          (tipo: object)
    9. linhas_multiplas          (tipo: object)
   10. tipo_internet             (tipo: object)
   11. seguranca_online          (tipo: object)
   12. backup_online             (tipo: object)
   13. protecao_dispositivo      (tipo: object)
   14. suporte_tecnico           (tipo: object)
   15. streaming_tv              (tipo: object)
   16. streaming_filmes          (tipo: object)
   17. tipo_contrato             (tipo: object)
   18. fatura_digital            (tipo: object)

---

## üîß 4. TRANSFORMA√á√ÉO E LIMPEZA (Transform)

### üéØ Objetivo

Garantir qualidade e integridade dos dados atrav√©s de limpeza rigorosa.

### üõ†Ô∏è T√©cnicas

1. **An√°lise de qualidade** - Nulos, duplicados, tipos, strings vazias
2. **Remo√ß√£o de duplicados**
3. **Tratamento de missing values**
4. **Convers√£o de tipos**
5. **Padroniza√ß√£o categ√≥rica**
6. **An√°lise e tratamento de valores vazios na vari√°vel alvo** ‚ö†Ô∏è
7. **Valida√ß√£o final**

---

In [8]:
# ====================================================================
# üîç AN√ÅLISE DE QUALIDADE DOS DADOS
# ====================================================================

print("="*60)
print("üîç RELAT√ìRIO DE QUALIDADE DOS DADOS")
print("="*60)

# 1. VALORES NULOS
print("\nüìä 1. VALORES NULOS")
print("-"*60)

nulos = df_normalized.isnull().sum()
if nulos.sum() == 0:
    print("‚úÖ Nenhum valor nulo encontrado!")
else:
    print("‚ö†Ô∏è Valores nulos detectados:")
    for col, count in nulos[nulos > 0].items():
        pct = (count / len(df_normalized)) * 100
        print(f"   ‚Ä¢ {col}: {count:,} ({pct:.2f}%)")

# 2. DUPLICADOS
print("\nüìä 2. DUPLICADOS")
print("-"*60)

duplicados = df_normalized.duplicated().sum()
if duplicados == 0:
    print("‚úÖ Nenhum duplicado encontrado!")
else:
    print(f"‚ö†Ô∏è {duplicados:,} registros duplicados ({(duplicados/len(df_normalized)*100):.2f}%)")

# 3. TIPOS DE DADOS
print("\nüìä 3. TIPOS DE DADOS")
print("-"*60)

tipos_esperados = {
    'id_cliente': 'object',
    'cancelou': 'object',
    'genero': 'object',
    'idoso': 'int64',
    'tem_parceiro': 'object',
    'tem_dependentes': 'object',
    'meses_cliente': 'int64',
    'servico_telefone': 'object',
    'linhas_multiplas': 'object',
    'tipo_internet': 'object',
    'seguranca_online': 'object',
    'backup_online': 'object',
    'protecao_dispositivo': 'object',
    'suporte_tecnico': 'object',
    'streaming_tv': 'object',
    'streaming_filmes': 'object',
    'tipo_contrato': 'object',
    'fatura_digital': 'object',
    'metodo_pagamento': 'object',
    'cobranca_mensal': 'float64',
    'cobranca_total': 'float64'
}

tipos_erro = []
for col, tipo_esperado in tipos_esperados.items():
    tipo_atual = str(df_normalized[col].dtype)
    status = "‚úÖ" if tipo_atual == tipo_esperado else "‚ö†Ô∏è"
    if tipo_atual != tipo_esperado:
        tipos_erro.append((col, tipo_atual, tipo_esperado))
    print(f"{status} {col:25s} | Atual: {tipo_atual:10s} | Esperado: {tipo_esperado:10s}")

if tipos_erro:
    print(f"\n‚ö†Ô∏è {len(tipos_erro)} colunas precisam corre√ß√£o")
else:
    print(f"\n‚úÖ Todos os tipos corretos!")

# 4. STRINGS VAZIAS ‚≠ê CR√çTICO
print("\nüìä 4. STRINGS VAZIAS EM COLUNAS CATEG√ìRICAS")
print("-"*60)

colunas_criticas = ['cancelou', 'genero', 'tipo_contrato', 'metodo_pagamento', 'tipo_internet']
strings_vazias_encontradas = False

for col in colunas_criticas:
    if col in df_normalized.columns:
        vazios = ((df_normalized[col] == '') | (df_normalized[col] == ' ')).sum()

        if vazios > 0:
            strings_vazias_encontradas = True
            pct = (vazios / len(df_normalized)) * 100
            print(f"‚ö†Ô∏è {col}: {vazios} strings vazias ({pct:.2f}%)")

if not strings_vazias_encontradas:
    print("‚úÖ Nenhuma string vazia encontrada!")

print("\n" + "="*60)
print("üìä AN√ÅLISE DE QUALIDADE CONCLU√çDA")
print("="*60)

üîç RELAT√ìRIO DE QUALIDADE DOS DADOS

üìä 1. VALORES NULOS
------------------------------------------------------------
‚úÖ Nenhum valor nulo encontrado!

üìä 2. DUPLICADOS
------------------------------------------------------------
‚úÖ Nenhum duplicado encontrado!

üìä 3. TIPOS DE DADOS
------------------------------------------------------------
‚úÖ id_cliente                | Atual: object     | Esperado: object    
‚úÖ cancelou                  | Atual: object     | Esperado: object    
‚úÖ genero                    | Atual: object     | Esperado: object    
‚úÖ idoso                     | Atual: int64      | Esperado: int64     
‚úÖ tem_parceiro              | Atual: object     | Esperado: object    
‚úÖ tem_dependentes           | Atual: object     | Esperado: object    
‚úÖ meses_cliente             | Atual: int64      | Esperado: int64     
‚úÖ servico_telefone          | Atual: object     | Esperado: object    
‚úÖ linhas_multiplas          | Atual: object     | Esperado

In [9]:
# ====================================================================
# üìã CRIAR C√ìPIA PARA LIMPEZA
# ====================================================================

print("üìã Criando c√≥pia para limpeza...")
df_clean = df_normalized.copy()
print(f"‚úÖ df_clean criado: {df_clean.shape[0]:,} √ó {df_clean.shape[1]}")

# ====================================================================
# üóëÔ∏è REMOVER DUPLICADOS
# ====================================================================

print("\n" + "="*60)
print("üóëÔ∏è REMOVENDO DUPLICADOS")
print("="*60)

duplicados_antes = df_clean.duplicated().sum()
print(f"\nüìä Duplicados ANTES: {duplicados_antes}")

if duplicados_antes > 0:
    df_clean.drop_duplicates(keep='first', inplace=True)
    df_clean.reset_index(drop=True, inplace=True)
    print(f"‚úÖ {duplicados_antes} removidos")
else:
    print("‚úÖ Nenhum duplicado para remover!")

print(f"\nüìä Dataset: {df_clean.shape[0]:,} registros √ó {df_clean.shape[1]} colunas")
print("="*60)

üìã Criando c√≥pia para limpeza...
‚úÖ df_clean criado: 7,267 √ó 21

üóëÔ∏è REMOVENDO DUPLICADOS

üìä Duplicados ANTES: 0
‚úÖ Nenhum duplicado para remover!

üìä Dataset: 7,267 registros √ó 21 colunas


In [10]:
# ====================================================================
# üîß TRATAMENTO DA COLUNA cobranca_total
# ====================================================================

print("="*60)
print("üîß TRATANDO cobranca_total")
print("="*60)

print(f"\nüìä Tipo atual: {df_clean['cobranca_total'].dtype}")

# Verificar valores vazios
valores_vazios = df_clean['cobranca_total'] == ' '
total_vazios = valores_vazios.sum()

print(f"\n‚ö†Ô∏è Valores vazios (' '): {total_vazios}")

if total_vazios > 0:
    print(f"\nüîç Perfil desses clientes:")
    exemplos = df_clean[valores_vazios][['id_cliente', 'meses_cliente', 'cobranca_mensal', 'cobranca_total']].head(5)
    display(exemplos)

    print(f"\nüí° Clientes com cobranca_total vazia geralmente t√™m meses_cliente baixo (novos)")
    print(f"   ‚û°Ô∏è Substituir por 0.0 (nenhuma cobran√ßa acumulada ainda)")

# Substituir e converter
df_clean['cobranca_total'] = df_clean['cobranca_total'].replace(' ', np.nan)
df_clean['cobranca_total'] = pd.to_numeric(df_clean['cobranca_total'], errors='coerce')
df_clean['cobranca_total'].fillna(0.0, inplace=True)

print(f"\n‚úÖ Tipo ap√≥s convers√£o: {df_clean['cobranca_total'].dtype}")
print(f"‚úÖ Valores NaN restantes: {df_clean['cobranca_total'].isna().sum()}")

print("\n" + "="*60)

üîß TRATANDO cobranca_total

üìä Tipo atual: object

‚ö†Ô∏è Valores vazios (' '): 11

üîç Perfil desses clientes:


Unnamed: 0,id_cliente,meses_cliente,cobranca_mensal,cobranca_total
975,1371-DWPAZ,0,56.05,
1775,2520-SGTTA,0,20.0,
1955,2775-SEFEE,0,61.9,
2075,2923-ARZLG,0,19.7,
2232,3115-CZMZD,0,20.25,



üí° Clientes com cobranca_total vazia geralmente t√™m meses_cliente baixo (novos)
   ‚û°Ô∏è Substituir por 0.0 (nenhuma cobran√ßa acumulada ainda)

‚úÖ Tipo ap√≥s convers√£o: float64
‚úÖ Valores NaN restantes: 0



In [11]:
# ====================================================================
# üîÑ CONVERS√ÉO DE TIPOS DE DADOS
# ====================================================================

print("="*60)
print("üîÑ GARANTINDO TIPOS CORRETOS")
print("="*60)

# Garantir tipos num√©ricos
df_clean['idoso'] = df_clean['idoso'].astype('int64')
df_clean['meses_cliente'] = df_clean['meses_cliente'].astype('int64')
df_clean['cobranca_mensal'] = df_clean['cobranca_mensal'].astype('float64')
df_clean['cobranca_total'] = df_clean['cobranca_total'].astype('float64')

print("\n‚úÖ Tipos convertidos:")
print(f"   ‚Ä¢ idoso: {df_clean['idoso'].dtype}")
print(f"   ‚Ä¢ meses_cliente: {df_clean['meses_cliente'].dtype}")
print(f"   ‚Ä¢ cobranca_mensal: {df_clean['cobranca_mensal'].dtype}")
print(f"   ‚Ä¢ cobranca_total: {df_clean['cobranca_total'].dtype}")

print(f"\nüìä Valores nulos totais: {df_clean.isnull().sum().sum()}")
print("="*60)

üîÑ GARANTINDO TIPOS CORRETOS

‚úÖ Tipos convertidos:
   ‚Ä¢ idoso: int64
   ‚Ä¢ meses_cliente: int64
   ‚Ä¢ cobranca_mensal: float64
   ‚Ä¢ cobranca_total: float64

üìä Valores nulos totais: 0


In [12]:
# ====================================================================
# üî¨ AN√ÅLISE PROFUNDA: VALORES VAZIOS EM 'cancelou' (VARI√ÅVEL ALVO)
# ====================================================================
# ‚ö†Ô∏è DECIS√ÉO CR√çTICA: O que fazer com registros sem valor em 'cancelou'?
# ====================================================================

print("="*60)
print("üî¨ AN√ÅLISE PROFUNDA: VALORES VAZIOS EM 'cancelou'")
print("="*60)

# Identificar valores vazios
mask_vazios = (df_clean['cancelou'] == '') | (df_clean['cancelou'] == ' ') | (df_clean['cancelou'].isna())
total_vazios = mask_vazios.sum()

print(f"\nüìä SITUA√á√ÉO ATUAL:")
print(f"   ‚Ä¢ Total de registros: {len(df_clean):,}")
print(f"   ‚Ä¢ Registros com 'cancelou' vazio: {total_vazios}")
print(f"   ‚Ä¢ Percentual: {(total_vazios/len(df_clean)*100):.2f}%")

if total_vazios > 0:

    print(f"\n" + "="*60)
    print(f"üîç INVESTIGANDO OS {total_vazios} REGISTROS PROBLEM√ÅTICOS")
    print("="*60)

    # Extrair registros problem√°ticos
    df_vazios = df_clean[mask_vazios].copy()

    print(f"\nüìã Amostra (primeiros 10):")
    colunas_analise = ['id_cliente', 'cancelou', 'meses_cliente', 'cobranca_mensal',
                       'cobranca_total', 'tipo_contrato', 'tipo_internet']
    display(df_vazios[colunas_analise].head(10))

    # An√°lise estat√≠stica comparativa
    print(f"\nüìä COMPARA√á√ÉO ESTAT√çSTICA:")
    print(f"\n   {'Vari√°vel':25s} | {'Com Vazio':>15s} | {'Sem Vazio':>15s} | {'Diferen√ßa':>12s}")
    print("   " + "-"*75)

    df_sem_vazios = df_clean[~mask_vazios]

    # Vari√°veis num√©ricas
    for col in ['meses_cliente', 'cobranca_mensal', 'cobranca_total']:
        media_vazios = df_vazios[col].mean()
        media_sem_vazios = df_sem_vazios[col].mean()
        dif = abs(media_vazios - media_sem_vazios)
        print(f"   {col:25s} | {media_vazios:>15.2f} | {media_sem_vazios:>15.2f} | {dif:>12.2f}")

    # Vari√°veis categ√≥ricas (distribui√ß√£o)
    print(f"\n   Distribui√ß√£o categ√≥rica:")
    for col in ['tipo_contrato', 'tipo_internet']:
        print(f"\n   {col}:")
        dist_vazios = df_vazios[col].value_counts(normalize=True).head(3)
        for val, pct in dist_vazios.items():
            print(f"      {val}: {pct*100:.1f}%")

    # ====================================================================
    # üìã DECIS√ÉO T√âCNICA: POR QUE REMOVER?
    # ====================================================================

    print(f"\n" + "="*60)
    print(f"‚öñÔ∏è DECIS√ÉO T√âCNICA: REMOVER OS {total_vazios} REGISTROS")
    print("="*60)

    print(f"\nüìå JUSTIFICATIVA:")
    print(f"""
   1. üéØ 'cancelou' √© a VARI√ÅVEL ALVO (target para ML)
      ‚Ä¢ N√£o podemos prever o que n√£o sabemos
      ‚Ä¢ Imputar a vari√°vel alvo = inventar dados = ERRO GRAVE

   2. üìä Impacto Estat√≠stico Aceit√°vel
      ‚Ä¢ Apenas {(total_vazios/len(df_clean)*100):.2f}% dos dados
      ‚Ä¢ N√£o h√° vi√©s demogr√°fico aparente (distribui√ß√£o similar)

   3. üî¨ Alternativas Avaliadas e Rejeitadas:
      ‚ùå Imputar com moda (Yes/No) ‚Üí Vicia o modelo
      ‚ùå Criar categoria "Desconhecido" ‚Üí Incompat√≠vel com ML bin√°rio
      ‚ùå Imputar com modelo preditivo ‚Üí L√≥gica circular

   4. ‚úÖ Decis√£o Final: REMOVER
      ‚Ä¢ √â a √öNICA op√ß√£o tecnicamente correta
      ‚Ä¢ Mant√©m integridade dos dados
      ‚Ä¢ Segue boas pr√°ticas de Data Science
    """)

    print(f"\nüìö Refer√™ncias:")
    print(f"   ‚Ä¢ 'Hands-On Machine Learning' (Aur√©lien G√©ron)")
    print(f"   ‚Ä¢ 'Data Science for Business' (Provost & Fawcett)")
    print(f"   ‚Ä¢ Consenso da comunidade: NUNCA imputar vari√°vel target")

    # ====================================================================
    # üóëÔ∏è EXECUTAR REMO√á√ÉO
    # ====================================================================

    print(f"\n" + "="*60)
    print(f"üóëÔ∏è EXECUTANDO REMO√á√ÉO")
    print("="*60)

    registros_antes = len(df_clean)

    # Remover registros
    df_clean = df_clean[~mask_vazios].copy()
    df_clean.reset_index(drop=True, inplace=True)

    registros_depois = len(df_clean)
    removidos = registros_antes - registros_depois

    print(f"\n‚úÖ Remo√ß√£o conclu√≠da:")
    print(f"   ‚Ä¢ Antes: {registros_antes:,} registros")
    print(f"   ‚Ä¢ Depois: {registros_depois:,} registros")
    print(f"   ‚Ä¢ Removidos: {removidos} ({(removidos/registros_antes*100):.2f}%)")

    # Verificar valores restantes em 'cancelou'
    print(f"\n‚úÖ Valores √∫nicos em 'cancelou' ap√≥s limpeza:")
    print(df_clean['cancelou'].value_counts())

    print(f"\nüí° RESULTADO: Dataset limpo e pronto para an√°lise/ML!")

else:
    print("\n‚úÖ N√£o h√° valores vazios em 'cancelou'!")

print("\n" + "="*60)

üî¨ AN√ÅLISE PROFUNDA: VALORES VAZIOS EM 'cancelou'

üìä SITUA√á√ÉO ATUAL:
   ‚Ä¢ Total de registros: 7,267
   ‚Ä¢ Registros com 'cancelou' vazio: 224
   ‚Ä¢ Percentual: 3.08%

üîç INVESTIGANDO OS 224 REGISTROS PROBLEM√ÅTICOS

üìã Amostra (primeiros 10):


Unnamed: 0,id_cliente,cancelou,meses_cliente,cobranca_mensal,cobranca_total,tipo_contrato,tipo_internet
30,0047-ZHDTW,,11,79.0,929.3,Month-to-month,Fiber optic
75,0120-YZLQA,,71,19.9,1355.1,Two year,No
96,0154-QYHJU,,29,58.75,1696.2,One year,DSL
98,0162-RZGMZ,,5,59.9,287.85,Month-to-month,DSL
175,0274-VVQOQ,,65,103.15,6792.45,One year,Fiber optic
219,0328-IBUPK,,51,34.2,1782.0,Two year,DSL
312,0448-YZNZE,,27,95.55,2510.2,Month-to-month,Fiber optic
351,0510-EXSMQ,,9,69.05,651.5,Month-to-month,Fiber optic
368,0530-HBKHZ,,1,24.8,24.8,Month-to-month,DSL
374,0534-JRNIG,,6,93.55,536.4,Month-to-month,Fiber optic



üìä COMPARA√á√ÉO ESTAT√çSTICA:

   Vari√°vel                  |       Com Vazio |       Sem Vazio |    Diferen√ßa
   ---------------------------------------------------------------------------
   meses_cliente             |           31.57 |           32.37 |         0.80
   cobranca_mensal           |           63.41 |           64.76 |         1.35
   cobranca_total            |         2196.93 |         2279.73 |        82.80

   Distribui√ß√£o categ√≥rica:

   tipo_contrato:
      Month-to-month: 58.0%
      Two year: 21.4%
      One year: 20.5%

   tipo_internet:
      Fiber optic: 45.5%
      DSL: 29.9%
      No: 24.6%

‚öñÔ∏è DECIS√ÉO T√âCNICA: REMOVER OS 224 REGISTROS

üìå JUSTIFICATIVA:

   1. üéØ 'cancelou' √© a VARI√ÅVEL ALVO (target para ML)
      ‚Ä¢ N√£o podemos prever o que n√£o sabemos
      ‚Ä¢ Imputar a vari√°vel alvo = inventar dados = ERRO GRAVE
   
   2. üìä Impacto Estat√≠stico Aceit√°vel
      ‚Ä¢ Apenas 3.08% dos dados
      ‚Ä¢ N√£o h√° vi√©s demogr√°fico 

In [13]:
# ====================================================================
# üìù PADRONIZA√á√ÉO DE VALORES CATEG√ìRICOS
# ====================================================================

print("="*60)
print("üìù PADRONIZANDO VALORES CATEG√ìRICOS")
print("="*60)

# Aplicar strip em todas colunas categ√≥ricas
colunas_categoricas = df_clean.select_dtypes(include='object').columns

print(f"\nüîÑ Aplicando strip() em {len(colunas_categoricas)} colunas...")

for col in colunas_categoricas:
    df_clean[col] = df_clean[col].str.strip()

print("   ‚úÖ Espa√ßos extras removidos")

# Verificar valores √∫nicos principais
print(f"\nüìä Valores √∫nicos ap√≥s padroniza√ß√£o:")
colunas_verificar = ['cancelou', 'genero', 'tipo_internet', 'tipo_contrato']

for col in colunas_verificar:
    if col in df_clean.columns:
        print(f"\n   {col}: {df_clean[col].unique().tolist()}")

print("\n" + "="*60)
print("‚úÖ PADRONIZA√á√ÉO CONCLU√çDA")
print("="*60)

üìù PADRONIZANDO VALORES CATEG√ìRICOS

üîÑ Aplicando strip() em 17 colunas...
   ‚úÖ Espa√ßos extras removidos

üìä Valores √∫nicos ap√≥s padroniza√ß√£o:

   cancelou: ['No', 'Yes']

   genero: ['Female', 'Male']

   tipo_internet: ['DSL', 'Fiber optic', 'No']

   tipo_contrato: ['One year', 'Month-to-month', 'Two year']

‚úÖ PADRONIZA√á√ÉO CONCLU√çDA


In [14]:
# ====================================================================
# ‚úÖ VALIDA√á√ÉO FINAL DA TRANSFORMA√á√ÉO
# ====================================================================

print("="*60)
print("‚úÖ VALIDA√á√ÉO FINAL")
print("="*60)

# Checklist
print(f"\nüìã CHECKLIST DE QUALIDADE:")
print("-"*60)

# 1. Colunas
total_colunas = df_clean.shape[1]
check = "‚úÖ" if total_colunas == 21 else "‚ùå"
print(f"{check} Colunas: {total_colunas} (esperado: 21)")

# 2. Nulos
total_nulos = df_clean.isnull().sum().sum()
check = "‚úÖ" if total_nulos == 0 else "‚ö†Ô∏è"
print(f"{check} Valores nulos: {total_nulos} (esperado: 0)")

# 3. Duplicados
total_duplicados = df_clean.duplicated().sum()
check = "‚úÖ" if total_duplicados == 0 else "‚ùå"
print(f"{check} Duplicados: {total_duplicados} (esperado: 0)")

# 4. Tipos
print(f"\nüìä Valida√ß√£o de tipos:")
tipos_ok = True
for col in ['idoso', 'meses_cliente']:
    if df_clean[col].dtype != 'int64':
        tipos_ok = False
for col in ['cobranca_mensal', 'cobranca_total']:
    if df_clean[col].dtype != 'float64':
        tipos_ok = False

check = "‚úÖ" if tipos_ok else "‚ùå"
print(f"{check} Tipos de dados validados")

# 5. Vari√°vel alvo
valores_cancelou = df_clean['cancelou'].unique()
check = "‚úÖ" if len(valores_cancelou) == 2 and all(x in ['Yes', 'No'] for x in valores_cancelou) else "‚ùå"
print(f"{check} Vari√°vel 'cancelou': {valores_cancelou.tolist()}")

# Resumo
print("\n" + "="*60)
print("üìä RESUMO DO DATASET LIMPO:")
print(f"   ‚Ä¢ Registros: {df_clean.shape[0]:,}")
print(f"   ‚Ä¢ Vari√°veis: {df_clean.shape[1]}")
print(f"   ‚Ä¢ Mem√≥ria: {df_clean.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"   ‚Ä¢ Nulos: {df_clean.isnull().sum().sum()}")
print(f"   ‚Ä¢ Duplicados: {df_clean.duplicated().sum()}")

print(f"\nüîç Preview (5 linhas):")
display(df_clean.head())

print("\n" + "="*60)
print("‚úÖ TRANSFORMA√á√ÉO CONCLU√çDA COM SUCESSO!")
print("="*60)

‚úÖ VALIDA√á√ÉO FINAL

üìã CHECKLIST DE QUALIDADE:
------------------------------------------------------------
‚úÖ Colunas: 21 (esperado: 21)
‚úÖ Valores nulos: 0 (esperado: 0)
‚úÖ Duplicados: 0 (esperado: 0)

üìä Valida√ß√£o de tipos:
‚úÖ Tipos de dados validados
‚úÖ Vari√°vel 'cancelou': ['No', 'Yes']

üìä RESUMO DO DATASET LIMPO:
   ‚Ä¢ Registros: 7,043
   ‚Ä¢ Vari√°veis: 21
   ‚Ä¢ Mem√≥ria: 6.51 MB
   ‚Ä¢ Nulos: 0
   ‚Ä¢ Duplicados: 0

üîç Preview (5 linhas):


Unnamed: 0,id_cliente,cancelou,genero,idoso,tem_parceiro,tem_dependentes,meses_cliente,servico_telefone,linhas_multiplas,tipo_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,streaming_tv,streaming_filmes,tipo_contrato,fatura_digital,metodo_pagamento,cobranca_mensal,cobranca_total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4



‚úÖ TRANSFORMA√á√ÉO CONCLU√çDA COM SUCESSO!


In [15]:
# ====================================================================
# üíæ CARGA (LOAD) - SALVAR DATASET LIMPO
# ====================================================================

print("="*60)
print("üíæ SALVANDO DATASET LIMPO")
print("="*60)

# Nome do arquivo em portugu√™s
arquivo_csv = "telecom_limpo.csv"

print(f"\nüîÑ Salvando '{arquivo_csv}'...")
df_clean.to_csv(arquivo_csv, index=False, encoding='utf-8')

# Verificar arquivo
import os
if os.path.exists(arquivo_csv):
    tamanho_mb = os.path.getsize(arquivo_csv) / (1024 * 1024)
    print(f"‚úÖ Arquivo salvo com sucesso!")
    print(f"\nüìÑ Detalhes:")
    print(f"   ‚Ä¢ Nome: {arquivo_csv}")
    print(f"   ‚Ä¢ Registros: {len(df_clean):,}")
    print(f"   ‚Ä¢ Colunas: {len(df_clean.columns)}")
    print(f"   ‚Ä¢ Tamanho: {tamanho_mb:.2f} MB")
    print(f"   ‚Ä¢ Localiza√ß√£o: {os.path.abspath(arquivo_csv)}")

# Download autom√°tico
print(f"\nüì• Iniciando download autom√°tico...")
try:
    from google.colab import files
    files.download(arquivo_csv)
    print(f"‚úÖ Download iniciado! Verifique sua pasta Downloads")
except:
    print(f"‚ö†Ô∏è N√£o est√° no Colab - download manual necess√°rio")

# ====================================================================
# üéâ RESUMO COMPLETO DO ETL
# ====================================================================

print("\n" + "="*60)
print("üéâ PROCESSO ETL CONCLU√çDO COM SUCESSO!")
print("="*60)

print(f"""
üìä RESUMO DO ETL:

   ‚úÖ EXTRACT (Extra√ß√£o):
      ‚Ä¢ Fonte: API REST (JSON)
      ‚Ä¢ Registros extra√≠dos: {df_raw.shape[0]:,}
      ‚Ä¢ Estrutura: 6 colunas aninhadas

   ‚úÖ TRANSFORM (Transforma√ß√£o):
      ‚Ä¢ JSON normalizado ‚Üí 21 colunas planas
      ‚Ä¢ Colunas traduzidas para portugu√™s
      ‚Ä¢ 224 registros com 'cancelou' vazio removidos (3.08%)
      ‚Ä¢ 0 duplicados
      ‚Ä¢ Tipos corrigidos
      ‚Ä¢ Categorias padronizadas

   ‚úÖ LOAD (Carga):
      ‚Ä¢ Arquivo: {arquivo_csv}
      ‚Ä¢ Registros finais: {len(df_clean):,}
      ‚Ä¢ Colunas: {len(df_clean.columns)} (todas em portugu√™s)
      ‚Ä¢ Tamanho: {tamanho_mb:.2f} MB

üì¶ DataFrames dispon√≠veis:
   ‚Ä¢ df_raw: dados brutos (7,267 √ó 6)
   ‚Ä¢ df_normalized: normalizados (7,267 √ó 21)
   ‚Ä¢ df_clean: LIMPO E FINAL (7,043 √ó 21) ‚≠ê

üéØ DATASET PRONTO PARA:
   ‚úÖ An√°lise Explorat√≥ria de Dados (EDA)
   ‚úÖ Visualiza√ß√µes e dashboards
   ‚úÖ Machine Learning (tipos corretos, sem missing)
   ‚úÖ Apresenta√ß√µes em portugu√™s
""")

print("="*60)
print("üìå PR√ìXIMO PASSO: AN√ÅLISE EXPLORAT√ìRIA (EDA)")
print("="*60)

print("\n‚ö†Ô∏è LEMBRE-SE:")
print("   ‚Ä¢ Salve o notebook (File ‚Üí Download ‚Üí .ipynb)")
print("   ‚Ä¢ Fa√ßa commit no GitHub do CSV + notebook")
print("   ‚Ä¢ O CSV foi baixado - guarde em local seguro!")

üíæ SALVANDO DATASET LIMPO

üîÑ Salvando 'telecom_limpo.csv'...
‚úÖ Arquivo salvo com sucesso!

üìÑ Detalhes:
   ‚Ä¢ Nome: telecom_limpo.csv
   ‚Ä¢ Registros: 7,043
   ‚Ä¢ Colunas: 21
   ‚Ä¢ Tamanho: 0.93 MB
   ‚Ä¢ Localiza√ß√£o: /content/telecom_limpo.csv

üì• Iniciando download autom√°tico...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

‚úÖ Download iniciado! Verifique sua pasta Downloads

üéâ PROCESSO ETL CONCLU√çDO COM SUCESSO!

üìä RESUMO DO ETL:

   ‚úÖ EXTRACT (Extra√ß√£o):
      ‚Ä¢ Fonte: API REST (JSON)
      ‚Ä¢ Registros extra√≠dos: 7,267
      ‚Ä¢ Estrutura: 6 colunas aninhadas
   
   ‚úÖ TRANSFORM (Transforma√ß√£o):
      ‚Ä¢ JSON normalizado ‚Üí 21 colunas planas
      ‚Ä¢ Colunas traduzidas para portugu√™s
      ‚Ä¢ 224 registros com 'cancelou' vazio removidos (3.08%)
      ‚Ä¢ 0 duplicados
      ‚Ä¢ Tipos corrigidos
      ‚Ä¢ Categorias padronizadas
   
   ‚úÖ LOAD (Carga):
      ‚Ä¢ Arquivo: telecom_limpo.csv
      ‚Ä¢ Registros finais: 7,043
      ‚Ä¢ Colunas: 21 (todas em portugu√™s)
      ‚Ä¢ Tamanho: 0.93 MB

üì¶ DataFrames dispon√≠veis:
   ‚Ä¢ df_raw: dados brutos (7,267 √ó 6)
   ‚Ä¢ df_normalized: normalizados (7,267 √ó 21)
   ‚Ä¢ df_clean: LIMPO E FINAL (7,043 √ó 21) ‚≠ê

üéØ DATASET PRONTO PARA:
   ‚úÖ An√°lise Explorat√≥ria de Dados (EDA)
   ‚úÖ Visualiza√ß√µes e dashboards
   ‚úÖ Machine 