# üìä TelecomX - An√°lise de Evas√£o de Clientes
## Challenge Data Science | Alura + Oracle Next Education (ONE)

---

**üë§ Autor:** F√°bio Andrade  
**üìÖ Data:** 21 de Dezembro de 2024  
**üîó Reposit√≥rio:** [GitHub - telecomx-churn-analysis](https://github.com/thedrads/telecomx-churn-analysis)  
**üéØ Objetivo:** An√°lise completa de Churn usando processo ETL

---

### üìå Sobre este Projeto

Este notebook documenta a an√°lise de dados de evas√£o de clientes (churn) da empresa **TelecomX**, desenvolvido como parte do Challenge de Data Science.

**Etapas do projeto:**
1. üì• **Extract** - Extra√ß√£o de dados via API REST
2. üîß **Transform** - Limpeza e transforma√ß√£o dos dados
3. üíæ **Load** - Carga dos dados tratados
4. üìä **EDA** - An√°lise Explorat√≥ria de Dados
5. üí° **Insights** - Recomenda√ß√µes estrat√©gicas

---

## üè¢ 1. CONTEXTO DO NEG√ìCIO

### üìâ O Problema: Evas√£o de Clientes (Churn)

A **TelecomX** √© uma empresa de telecomunica√ß√µes que enfrenta um desafio cr√≠tico para sua sustentabilidade: **alto √≠ndice de cancelamento de contratos** por parte dos clientes.

#### üéØ O que √© Churn?

**Churn** (ou evas√£o) refere-se ao cancelamento de servi√ßos por parte do cliente. Na ind√∫stria de telecomunica√ß√µes, isso significa:
- ‚ùå Cliente cancela contrato
- ‚ùå Para de pagar pelos servi√ßos
- ‚ùå Migra para concorr√™ncia ou abandona o servi√ßo

#### üí∞ Impacto no Neg√≥cio

| Aspecto | Impacto |
|---------|---------|
| **Receita** | Perda de receita recorrente mensal (MRR) |
| **Custos** | CAC (Custo de Aquisi√ß√£o) √© 5-7x maior que reten√ß√£o |
| **Reputa√ß√£o** | Sinal negativo para investidores e mercado |
| **Crescimento** | Limita expans√£o e escalabilidade |

> **üí° Estat√≠stica chave:** Reter um cliente existente custa at√© 7 vezes menos do que adquirir um novo cliente.

---

### üéØ Objetivos do Projeto

Como **Assistente de An√°lise de Dados** na equipe de Data Science da TelecomX, fui designado para:

#### ‚úÖ Objetivos Principais

1. **Extrair** dados de clientes do sistema da empresa (via API REST)
2. **Limpar e transformar** dados brutos em formato an√°lise-ready
3. **Identificar padr√µes** que diferenciam clientes que cancelam vs. que permanecem
4. **Gerar insights acion√°veis** para √°reas de neg√≥cio (Marketing, Reten√ß√£o, Produto)
5. **Preparar base** para futuros modelos preditivos de Machine Learning

#### üìä Perguntas de Neg√≥cio a Responder

- ‚ùì Qual o perfil demogr√°fico dos clientes que mais cancelam?
- ‚ùì Quais servi√ßos est√£o associados a maior/menor churn?
- ‚ùì Tipo de contrato influencia na reten√ß√£o?
- ‚ùì Clientes de longa data cancelam menos?
- ‚ùì Qual o impacto financeiro do churn atual?

---

### üìö Metodologia: Processo ETL

Este projeto segue o framework **ETL (Extract, Transform, Load)**, padr√£o da ind√∫stria para pipelines de dados:
```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê      ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê      ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   EXTRACT   ‚îÇ ‚îÄ‚îÄ‚îÄ> ‚îÇ  TRANSFORM  ‚îÇ ‚îÄ‚îÄ‚îÄ> ‚îÇ    LOAD     ‚îÇ
‚îÇ             ‚îÇ      ‚îÇ             ‚îÇ      ‚îÇ             ‚îÇ
‚îÇ ‚Ä¢ API REST  ‚îÇ      ‚îÇ ‚Ä¢ Limpeza   ‚îÇ      ‚îÇ ‚Ä¢ CSV       ‚îÇ
‚îÇ ‚Ä¢ JSON      ‚îÇ      ‚îÇ ‚Ä¢ Valida√ß√£o ‚îÇ      ‚îÇ ‚Ä¢ An√°lise   ‚îÇ
‚îÇ ‚Ä¢ 7k+ linhas‚îÇ      ‚îÇ ‚Ä¢ Convers√£o ‚îÇ      ‚îÇ ‚Ä¢ Dashboard ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò      ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò      ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Ferramentas utilizadas:**
- üêç Python 3.x
- üêº Pandas (manipula√ß√£o de dados)
- üìä Matplotlib/Seaborn/Plotly (visualiza√ß√£o)
- üî¢ NumPy (opera√ß√µes num√©ricas)

---

## üìñ 2. DICION√ÅRIO DE DADOS

A equipe t√©cnica da TelecomX forneceu a especifica√ß√£o completa da estrutura de dados dispon√≠vel na API.

### üìã Estrutura do Dataset

**Total esperado:** 21 vari√°veis (colunas) organizadas em 5 categorias

---

#### üÜî **IDENTIFICA√á√ÉO**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `customerID` | Identificador √∫nico do cliente | String | Ex: "7590-VHVEG" |

---

#### üéØ **VARI√ÅVEL ALVO (Target)**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `Churn` | Cliente cancelou o servi√ßo? | String | `Yes`, `No` |

> **‚ö†Ô∏è IMPORTANTE:** Esta √© a vari√°vel que queremos entender e prever.

---

#### üë• **VARI√ÅVEIS DEMOGR√ÅFICAS**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `gender` | G√™nero do cliente | String | `Male`, `Female` |
| `SeniorCitizen` | Cliente √© idoso (65+ anos)? | Integer | `0` (N√£o), `1` (Sim) |
| `Partner` | Tem parceiro(a)? | String | `Yes`, `No` |
| `Dependents` | Tem dependentes (filhos/fam√≠lia)? | String | `Yes`, `No` |

---

#### üìû **SERVI√áOS CONTRATADOS**

**Servi√ßo Telef√¥nico:**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `PhoneService` | Possui servi√ßo telef√¥nico? | String | `Yes`, `No` |
| `MultipleLines` | Possui m√∫ltiplas linhas? | String | `Yes`, `No`, `No phone service` |

**Servi√ßo de Internet:**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `InternetService` | Tipo de internet contratada | String | `DSL`, `Fiber optic`, `No` |
| `OnlineSecurity` | Servi√ßo adicional de seguran√ßa online | String | `Yes`, `No`, `No internet service` |
| `OnlineBackup` | Servi√ßo adicional de backup online | String | `Yes`, `No`, `No internet service` |
| `DeviceProtection` | Prote√ß√£o de dispositivo | String | `Yes`, `No`, `No internet service` |
| `TechSupport` | Suporte t√©cnico premium | String | `Yes`, `No`, `No internet service` |
| `StreamingTV` | Streaming de TV | String | `Yes`, `No`, `No internet service` |
| `StreamingMovies` | Streaming de filmes | String | `Yes`, `No`, `No internet service` |

---

#### üí∞ **INFORMA√á√ïES DE CONTA/FINANCEIRO**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `tenure` | Meses como cliente da empresa | Integer | 0 a 72+ |
| `Contract` | Tipo de contrato | String | `Month-to-month`, `One year`, `Two year` |
| `PaperlessBilling` | Usa fatura digital (sem papel)? | String | `Yes`, `No` |
| `PaymentMethod` | M√©todo de pagamento | String | `Electronic check`, `Mailed check`, `Bank transfer (automatic)`, `Credit card (automatic)` |
| `MonthlyCharges` | Valor cobrado mensalmente (USD) | Float | 18.00 a 120.00 |
| `TotalCharges` | Total acumulado pago pelo cliente (USD) | Float | Vari√°vel (depende de tenure) |

---

### üîß Observa√ß√µes T√©cnicas da API

#### ‚ö†Ô∏è Estrutura JSON Aninhada

Conforme documenta√ß√£o t√©cnica fornecida, os dados na API est√£o organizados em **formato hier√°rquico (nested JSON)**:
```json
{
  "customerID": "7590-VHVEG",
  "Churn": "No",
  "customer": {
    "gender": "Female",
    "SeniorCitizen": 0,
    "Partner": "Yes",
    "Dependents": "No",
    "tenure": 1
  },
  "phone": {
    "PhoneService": "No",
    "MultipleLines": "No phone service"
  },
  "internet": {
    "InternetService": "DSL",
    "OnlineSecurity": "No",
    "OnlineBackup": "Yes",
    "DeviceProtection": "No",
    "TechSupport": "No",
    "StreamingTV": "No",
    "StreamingMovies": "No"
  },
  "account": {
    "Contract": "Month-to-month",
    "PaperlessBilling": "Yes",
    "PaymentMethod": "Electronic check",
    "Charges": {
      "Monthly": 29.85,
      "Total": 29.85
    }
  }
}
```

**üìå A√ß√£o necess√°ria no ETL:**  
Usar `pd.json_normalize()` para "achatar" a estrutura hier√°rquica em formato tabular (linhas √ó colunas).

---

### ‚úÖ Crit√©rios de Qualidade Esperados

Ap√≥s o processo de ETL, o dataset final deve atender:

| Crit√©rio | Meta |
|----------|------|
| **Total de colunas** | 21 colunas |
| **Valores nulos** | 0 ou tratados adequadamente |
| **Duplicados** | 0 registros duplicados |
| **Tipos de dados** | Corretos (int, float, string) |
| **Categorias** | Valores padronizados (sem typos/varia√ß√µes) |
| **Registros** | ~7.000 clientes |

---

In [8]:
# ====================================================================
# üì¶ INSTALA√á√ÉO DE DEPEND√äNCIAS
# ====================================================================
# O Google Colab j√° vem com Pandas, NumPy, Matplotlib e Seaborn.
# Precisamos instalar apenas o Plotly para gr√°ficos interativos.
#
# Comandos:
# - ! = executa comando do terminal dentro do notebook
# - pip = gerenciador de pacotes Python
# - -q = quiet (modo silencioso, menos mensagens)
# - --upgrade = atualiza se j√° estiver instalado
# ====================================================================

print("üîÑ Atualizando pip (gerenciador de pacotes)...")
!pip install -q --upgrade pip

print("\nüì¶ Instalando bibliotecas necess√°rias...")
!pip install -q plotly==5.18.0

print("\n" + "="*60)
print("‚úÖ INSTALA√á√ÉO CONCLU√çDA COM SUCESSO!")
print("="*60)
print("\nüìå Bibliotecas instaladas:")
print("   ‚Ä¢ Plotly 5.18.0 (gr√°ficos interativos)")
print("\nüìå Bibliotecas nativas do Colab (j√° dispon√≠veis):")
print("   ‚Ä¢ Pandas (manipula√ß√£o de dados)")
print("   ‚Ä¢ NumPy (opera√ß√µes num√©ricas)")
print("   ‚Ä¢ Matplotlib (visualiza√ß√£o est√°tica)")
print("   ‚Ä¢ Seaborn (visualiza√ß√£o estat√≠stica)")
print("   ‚Ä¢ Requests (requisi√ß√µes HTTP)")
print("\nüéØ Pr√≥ximo passo: Importar bibliotecas")

üîÑ Atualizando pip (gerenciador de pacotes)...

üì¶ Instalando bibliotecas necess√°rias...

‚úÖ INSTALA√á√ÉO CONCLU√çDA COM SUCESSO!

üìå Bibliotecas instaladas:
   ‚Ä¢ Plotly 5.18.0 (gr√°ficos interativos)

üìå Bibliotecas nativas do Colab (j√° dispon√≠veis):
   ‚Ä¢ Pandas (manipula√ß√£o de dados)
   ‚Ä¢ NumPy (opera√ß√µes num√©ricas)
   ‚Ä¢ Matplotlib (visualiza√ß√£o est√°tica)
   ‚Ä¢ Seaborn (visualiza√ß√£o estat√≠stica)
   ‚Ä¢ Requests (requisi√ß√µes HTTP)

üéØ Pr√≥ximo passo: Importar bibliotecas


In [9]:
# ====================================================================
# üìö IMPORTA√á√ÉO DE BIBLIOTECAS
# ====================================================================
# Organizamos as importa√ß√µes por categoria para facilitar leitura.
# Cada biblioteca tem uma fun√ß√£o espec√≠fica no processo ETL.
# ====================================================================

# --- 1. MANIPULA√á√ÉO DE DADOS ---
import pandas as pd              # Trabalha com DataFrames (tabelas)
import numpy as np               # Opera√ß√µes matem√°ticas e arrays

# --- 2. REQUISI√á√ïES HTTP (API) ---
import requests                  # Faz chamadas √† API REST
import json                      # Manipula arquivos/strings JSON

# --- 3. VISUALIZA√á√ÉO DE DADOS ---
import matplotlib.pyplot as plt  # Gr√°ficos est√°ticos b√°sicos
import seaborn as sns            # Gr√°ficos estat√≠sticos elegantes
import plotly.express as px      # Gr√°ficos interativos (sintaxe r√°pida)
import plotly.graph_objects as go # Gr√°ficos interativos (controle total)

# --- 4. UTILIT√ÅRIOS ---
from datetime import datetime    # Manipula√ß√£o de datas/horas
import warnings                  # Controle de avisos/warnings

# ====================================================================
# üé® CONFIGURA√á√ïES GLOBAIS DE VISUALIZA√á√ÉO
# ====================================================================

# Ocultar avisos n√£o cr√≠ticos (deixa output mais limpo)
warnings.filterwarnings('ignore')

# Configura√ß√µes de exibi√ß√£o do Pandas
pd.set_option('display.max_columns', None)   # Mostrar todas as colunas
pd.set_option('display.max_rows', 100)       # Mostrar at√© 100 linhas
pd.set_option('display.float_format', '{:.2f}'.format)  # 2 casas decimais

# Configura√ß√µes de estilo Seaborn
sns.set_style("whitegrid")                   # Fundo branco com grade
sns.set_palette("Set2")                      # Paleta de cores padr√£o

# Configura√ß√µes de tamanho padr√£o de gr√°ficos Matplotlib
plt.rcParams['figure.figsize'] = (12, 6)     # Largura x Altura em polegadas
plt.rcParams['font.size'] = 10               # Tamanho da fonte

# ====================================================================
# üé® PALETA DE CORES PROFISSIONAL DO PROJETO
# ====================================================================
# Definindo cores consistentes para todo o projeto
# Baseado em paleta Corporate Professional + acessibilidade
# ====================================================================

COLORS = {
    # Cores principais
    'primary': '#2E86AB',      # Azul corporativo
    'secondary': '#A23B72',    # Roxo elegante
    'accent': '#F18F01',       # Laranja destaque

    # Cores de status
    'success': '#06A77D',      # Verde sucesso
    'danger': '#D81159',       # Vermelho perigo/alerta
    'warning': '#F18F01',      # Laranja aviso
    'info': '#2E86AB',         # Azul informa√ß√£o
    'neutral': '#6C757D',      # Cinza neutro

    # Cores espec√≠ficas do projeto
    'churn_yes': '#E63946',    # Vermelho para Churn = Yes
    'churn_no': '#06FFA5',     # Verde claro para Churn = No

    # Paleta categ√≥rica (para m√∫ltiplas categorias)
    'palette': ['#2E86AB', '#A23B72', '#F18F01', '#06A77D',
                '#D81159', '#6C757D', '#E63946', '#06FFA5']
}

# ====================================================================
# ‚úÖ VALIDA√á√ÉO DAS IMPORTA√á√ïES
# ====================================================================

print("="*60)
print("‚úÖ BIBLIOTECAS IMPORTADAS COM SUCESSO!")
print("="*60)

print("\nüìä Vers√µes instaladas:")
print(f"   ‚Ä¢ Pandas: {pd.__version__}")
print(f"   ‚Ä¢ NumPy: {np.__version__}")
print(f"   ‚Ä¢ Matplotlib: {plt.matplotlib.__version__}")
print(f"   ‚Ä¢ Seaborn: {sns.__version__}")

print("\nüé® Configura√ß√µes aplicadas:")
print("   ‚úì Avisos silenciados")
print("   ‚úì Display: todas colunas, at√© 100 linhas")
print("   ‚úì N√∫meros: 2 casas decimais")
print("   ‚úì Gr√°ficos: 12√ó6 polegadas")
print("   ‚úì Estilo: whitegrid")
print("   ‚úì Paleta de cores: definida")

print("\n" + "="*60)
print("üéØ AMBIENTE CONFIGURADO E PRONTO PARA ETL!")
print("="*60)
print("\nüìå Pr√≥ximo passo: Extra√ß√£o de dados da API")

‚úÖ BIBLIOTECAS IMPORTADAS COM SUCESSO!

üìä Vers√µes instaladas:
   ‚Ä¢ Pandas: 2.2.2
   ‚Ä¢ NumPy: 2.0.2
   ‚Ä¢ Matplotlib: 3.10.0
   ‚Ä¢ Seaborn: 0.13.2

üé® Configura√ß√µes aplicadas:
   ‚úì Avisos silenciados
   ‚úì Display: todas colunas, at√© 100 linhas
   ‚úì N√∫meros: 2 casas decimais
   ‚úì Gr√°ficos: 12√ó6 polegadas
   ‚úì Estilo: whitegrid
   ‚úì Paleta de cores: definida

üéØ AMBIENTE CONFIGURADO E PRONTO PARA ETL!

üìå Pr√≥ximo passo: Extra√ß√£o de dados da API


---

## üì• 3. EXTRA√á√ÉO DE DADOS (Extract)

### üéØ Objetivo da Etapa

Conectar-se √† API REST da TelecomX e extrair os dados de clientes em formato JSON, conforme especifica√ß√£o t√©cnica fornecida.

**Fonte de dados:**  
üîó https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json

**M√©todo:** HTTP GET (leitura p√∫blica, sem autentica√ß√£o)

---

### üìã Checklist de Valida√ß√£o P√≥s-Extra√ß√£o

Ap√≥s extra√ß√£o, validaremos:

- ‚úÖ Conex√£o bem-sucedida com a API
- ‚úÖ JSON recebido e parseado corretamente
- ‚úÖ Estrutura aninhada identificada (customer, phone, internet, account)
- ‚úÖ Dados normalizados para formato tabular (21 colunas)
- ‚úÖ Volume esperado (~7.000 registros)
- ‚úÖ Aus√™ncia de erros cr√≠ticos

---

In [10]:
# ====================================================================
# üåê FUN√á√ÉO: EXTRAIR DADOS DA API
# ====================================================================
# Esta fun√ß√£o encapsula toda a l√≥gica de conex√£o √† API, incluindo:
# - Tratamento de erros de rede
# - Timeout para evitar travamentos
# - Valida√ß√£o de resposta HTTP
# - Parse do JSON
# - Convers√£o para DataFrame
#
# Baseado em boas pr√°ticas de engenharia de dados.
# ====================================================================

def extrair_dados_api(url, timeout=30):
    """
    Extrai dados de uma API REST e retorna como DataFrame do Pandas.

    Par√¢metros
    ----------
    url : str
        URL completa da API (deve retornar JSON)
    timeout : int, opcional
        Tempo m√°ximo de espera pela resposta em segundos (padr√£o: 30)

    Retorna
    -------
    pandas.DataFrame
        DataFrame com os dados extra√≠dos da API

    Raises
    ------
    requests.exceptions.RequestException
        Se houver erro na requisi√ß√£o HTTP
    json.JSONDecodeError
        Se a resposta n√£o for um JSON v√°lido

    Exemplo
    -------
    >>> df = extrair_dados_api('https://api.exemplo.com/data.json')
    >>> print(df.shape)
    (7043, 6)
    """

    print("üîÑ Iniciando processo de extra√ß√£o...")
    print("="*60)
    print(f"üì° URL da API: {url}")
    print(f"‚è±Ô∏è  Timeout configurado: {timeout} segundos")
    print("="*60)

    try:
        # Etapa 1: Fazer requisi√ß√£o HTTP GET
        print("\n1Ô∏è‚É£ Enviando requisi√ß√£o HTTP GET...")
        response = requests.get(url, timeout=timeout)

        # Etapa 2: Verificar status da resposta
        # raise_for_status() lan√ßa exce√ß√£o se status != 200
        response.raise_for_status()
        print(f"   ‚úÖ Status HTTP: {response.status_code} (OK)")

        # Etapa 3: Parsear JSON
        print("\n2Ô∏è‚É£ Parseando resposta JSON...")
        dados_json = response.json()
        print(f"   ‚úÖ JSON parseado com sucesso")
        print(f"   üìä Tipo de dados recebido: {type(dados_json)}")

        # Verificar se √© lista (esperado) ou dicion√°rio
        if isinstance(dados_json, list):
            print(f"   üìã Total de registros no JSON: {len(dados_json):,}")

        # Etapa 4: Converter para DataFrame
        print("\n3Ô∏è‚É£ Convertendo para DataFrame do Pandas...")
        df = pd.DataFrame(dados_json)
        print(f"   ‚úÖ DataFrame criado com sucesso")

        # Etapa 5: Informa√ß√µes b√°sicas
        print("\n" + "="*60)
        print("‚úÖ EXTRA√á√ÉO CONCLU√çDA COM SUCESSO!")
        print("="*60)
        print(f"\nüìä Dimens√µes do DataFrame:")
        print(f"   ‚Ä¢ Linhas (registros): {df.shape[0]:,}")
        print(f"   ‚Ä¢ Colunas (vari√°veis): {df.shape[1]}")
        print(f"\nüìã Colunas extra√≠das:")
        for i, col in enumerate(df.columns, 1):
            print(f"   {i}. {col}")

        return df

    except requests.exceptions.Timeout:
        print("\n‚ùå ERRO: Tempo de espera esgotado (timeout)")
        print("üí° Poss√≠veis causas:")
        print("   ‚Ä¢ Conex√£o lenta com a internet")
        print("   ‚Ä¢ Servidor da API n√£o est√° respondendo")
        print("   ‚Ä¢ URL incorreta")
        return None

    except requests.exceptions.ConnectionError:
        print("\n‚ùå ERRO: Falha na conex√£o com a API")
        print("üí° Poss√≠veis causas:")
        print("   ‚Ä¢ Sem conex√£o com a internet")
        print("   ‚Ä¢ URL incorreta ou servidor fora do ar")
        print("   ‚Ä¢ Firewall bloqueando a requisi√ß√£o")
        return None

    except requests.exceptions.HTTPError as e:
        print(f"\n‚ùå ERRO HTTP: {e}")
        print(f"   Status Code: {response.status_code}")
        print("üí° Poss√≠veis causas:")
        if response.status_code == 404:
            print("   ‚Ä¢ URL n√£o encontrada (404)")
        elif response.status_code == 403:
            print("   ‚Ä¢ Acesso negado (403)")
        elif response.status_code >= 500:
            print("   ‚Ä¢ Erro no servidor (5xx)")
        return None

    except json.JSONDecodeError:
        print("\n‚ùå ERRO: Resposta da API n√£o √© um JSON v√°lido")
        print("üí° A resposta recebida n√£o p√¥de ser interpretada como JSON")
        print(f"   Primeiros 200 caracteres da resposta:")
        print(f"   {response.text[:200]}")
        return None

    except Exception as e:
        print(f"\n‚ùå ERRO INESPERADO: {type(e).__name__}")
        print(f"   Mensagem: {str(e)}")
        return None

# ====================================================================
# üìå CONFIGURA√á√ÉO DA URL DA API
# ====================================================================

# URL fornecida pela equipe t√©cnica da TelecomX
API_URL = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json"

print("‚úÖ Fun√ß√£o de extra√ß√£o criada e pronta para uso!")
print(f"üìç URL configurada: {API_URL[:60]}...")

‚úÖ Fun√ß√£o de extra√ß√£o criada e pronta para uso!
üìç URL configurada: https://raw.githubusercontent.com/ingridcristh/challenge2-da...


In [11]:
# ====================================================================
# üöÄ EXECUTAR EXTRA√á√ÉO DA API
# ====================================================================

# Chamar a fun√ß√£o de extra√ß√£o
df_raw = extrair_dados_api(API_URL)

# Verificar se extra√ß√£o foi bem-sucedida
if df_raw is not None:
    print("\n" + "="*60)
    print("üîç PREVIEW DOS DADOS EXTRA√çDOS (primeiras 5 linhas)")
    print("="*60)
    display(df_raw.head())

    print("\n" + "="*60)
    print("üìã INFORMA√á√ïES T√âCNICAS DO DATAFRAME")
    print("="*60)
    df_raw.info()

else:
    print("\n‚ùå ERRO: N√£o foi poss√≠vel extrair os dados.")
    print("üìå Verifique os erros acima e tente novamente.")

üîÑ Iniciando processo de extra√ß√£o...
üì° URL da API: https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json
‚è±Ô∏è  Timeout configurado: 30 segundos

1Ô∏è‚É£ Enviando requisi√ß√£o HTTP GET...
   ‚úÖ Status HTTP: 200 (OK)

2Ô∏è‚É£ Parseando resposta JSON...
   ‚úÖ JSON parseado com sucesso
   üìä Tipo de dados recebido: <class 'list'>
   üìã Total de registros no JSON: 7,267

3Ô∏è‚É£ Convertendo para DataFrame do Pandas...
   ‚úÖ DataFrame criado com sucesso

‚úÖ EXTRA√á√ÉO CONCLU√çDA COM SUCESSO!

üìä Dimens√µes do DataFrame:
   ‚Ä¢ Linhas (registros): 7,267
   ‚Ä¢ Colunas (vari√°veis): 6

üìã Colunas extra√≠das:
   1. customerID
   2. Churn
   3. customer
   4. phone
   5. internet
   6. account

üîç PREVIEW DOS DADOS EXTRA√çDOS (primeiras 5 linhas)


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."



üìã INFORMA√á√ïES T√âCNICAS DO DATAFRAME
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


üîÑ Iniciando normaliza√ß√£o do JSON aninhado...

1Ô∏è‚É£ Aplicando pd.json_normalize()...
   ‚úÖ Normaliza√ß√£o conclu√≠da

üìä Resultado da normaliza√ß√£o:
   ‚Ä¢ Linhas: 7,267
   ‚Ä¢ Colunas: 21

üìã Colunas ap√≥s normaliza√ß√£o:
    1. customerID
    2. Churn
    3. customer.gender
    4. customer.SeniorCitizen
    5. customer.Partner
    6. customer.Dependents
    7. customer.tenure
    8. phone.PhoneService
    9. phone.MultipleLines
   10. internet.InternetService
   11. internet.OnlineSecurity
   12. internet.OnlineBackup
   13. internet.DeviceProtection
   14. internet.TechSupport
   15. internet.StreamingTV
   16. internet.StreamingMovies
   17. account.Contract
   18. account.PaperlessBilling
   19. account.PaymentMethod
   20. account.Charges.Monthly
   21. account.Charges.Total

2Ô∏è‚É£ Renomeando colunas para padr√£o do dicion√°rio...
   ‚úÖ 19 colunas renomeadas

‚úÖ NORMALIZA√á√ÉO CONCLU√çDA COM SUCESSO!

üìä Dataset final ap√≥s normaliza√ß√£o:
   ‚Ä¢ Total de regis

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4



üìã Informa√ß√µes t√©cnicas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract   

---

## üîß 4. TRANSFORMA√á√ÉO E LIMPEZA (Transform)

### üéØ Objetivo da Etapa

Aplicar t√©cnicas de Data Cleaning para garantir qualidade dos dados, seguindo boas pr√°ticas de ETL:

1. ‚úÖ **An√°lise de qualidade inicial** - Identificar problemas
2. ‚úÖ **Tratamento de valores nulos** - Preencher ou remover
3. ‚úÖ **Remo√ß√£o de duplicados** - Garantir unicidade
4. ‚úÖ **Convers√£o de tipos** - Corrigir tipos incorretos
5. ‚úÖ **Padroniza√ß√£o de categorias** - Uniformizar valores
6. ‚úÖ **Cria√ß√£o de c√≥pia limpa** - Preservar dados normalizados
7. ‚úÖ **Valida√ß√£o final** - Confirmar qualidade

### üìö T√©cnicas Aplicadas (Baseadas no Material Estudado)

- `isnull()`, `sum()` - Detec√ß√£o de valores nulos
- `duplicated()` - Identifica√ß√£o de duplicatas
- `astype()` - Convers√£o de tipos de dados
- `fillna()`, `dropna()` - Tratamento de nulos
- `str.replace()`, `str.strip()` - Limpeza de strings
- `pd.to_numeric()` - Convers√£o segura para num√©rico
- `drop_duplicates()` - Remo√ß√£o de duplicatas

---

In [13]:
# ====================================================================
# üîç AN√ÅLISE INICIAL DE QUALIDADE DOS DADOS
# ====================================================================
# Antes de limpar, precisamos entender OS PROBLEMAS.
# Conforme aprendido no curso, verificamos:
# 1. Valores nulos (missing data)
# 2. Duplicados
# 3. Tipos de dados incorretos
# 4. Valores √∫nicos em categorias
# ====================================================================

print("="*60)
print("üîç RELAT√ìRIO DE QUALIDADE DOS DADOS")
print("="*60)

# --- 1. VALORES NULOS ---
print("\nüìä 1. AN√ÅLISE DE VALORES NULOS")
print("-"*60)

# Contar nulos por coluna
null_counts = df_normalized.isnull().sum()
# Calcular porcentagem
null_percent = (null_counts / len(df_normalized) * 100).round(2)

# Criar DataFrame com estat√≠sticas
null_stats = pd.DataFrame({
    'Coluna': null_counts.index,
    'Valores Nulos': null_counts.values,
    'Porcentagem (%)': null_percent.values
})

# Filtrar apenas colunas COM nulos
null_stats_filtered = null_stats[null_stats['Valores Nulos'] > 0]

if len(null_stats_filtered) > 0:
    print(f"‚ö†Ô∏è Encontradas {len(null_stats_filtered)} colunas com valores nulos:")
    display(null_stats_filtered)
else:
    print("‚úÖ Nenhum valor nulo encontrado!")

# --- 2. REGISTROS DUPLICADOS ---
print("\nüìä 2. AN√ÅLISE DE DUPLICADOS")
print("-"*60)

duplicados = df_normalized.duplicated().sum()
print(f"Total de registros duplicados: {duplicados:,}")

if duplicados > 0:
    print(f"‚ö†Ô∏è A√ß√£o necess√°ria: Remover {duplicados} duplicados")
    # Mostrar exemplo de duplicados
    print("\nüîç Exemplo de registros duplicados:")
    display(df_normalized[df_normalized.duplicated(keep=False)].head(10))
else:
    print("‚úÖ Nenhum duplicado encontrado!")

# --- 3. TIPOS DE DADOS ---
print("\nüìä 3. AN√ÅLISE DE TIPOS DE DADOS")
print("-"*60)

tipos_df = df_normalized.dtypes.to_frame('Tipo de Dado')
tipos_df['Tipo Esperado'] = [
    'object', 'object', 'object', 'int64', 'object', 'object', 'int64',
    'object', 'object', 'object', 'object', 'object', 'object', 'object',
    'object', 'object', 'object', 'object', 'object', 'float64', 'float64'
]

# Identificar discrep√¢ncias
tipos_df['Status'] = tipos_df.apply(
    lambda x: '‚úÖ OK' if str(x['Tipo de Dado']) == x['Tipo Esperado'] else '‚ö†Ô∏è VERIFICAR',
    axis=1
)

print("Compara√ß√£o: Tipo Atual vs. Tipo Esperado")
display(tipos_df)

# --- 4. VALORES √öNICOS EM CATEGORIAS ---
print("\nüìä 4. VALORES √öNICOS EM COLUNAS CATEG√ìRICAS")
print("-"*60)

# Selecionar apenas colunas categ√≥ricas (object)
cat_cols = df_normalized.select_dtypes(include='object').columns

for col in cat_cols:
    unique_vals = df_normalized[col].unique()
    n_unique = len(unique_vals)

    print(f"\nüîπ {col}:")
    print(f"   Total de valores √∫nicos: {n_unique}")

    # Se poucos valores, mostrar todos
    if n_unique <= 10:
        print(f"   Valores: {sorted(unique_vals.tolist())}")
    else:
        # Mostrar amostra + contagem
        print(f"   Amostra (5 primeiros): {unique_vals[:5].tolist()}")
        print(f"   Top 5 mais frequentes:")
        display(df_normalized[col].value_counts().head())

print("\n" + "="*60)
print("‚úÖ AN√ÅLISE DE QUALIDADE CONCLU√çDA")
print("="*60)

üîç RELAT√ìRIO DE QUALIDADE DOS DADOS

üìä 1. AN√ÅLISE DE VALORES NULOS
------------------------------------------------------------
‚úÖ Nenhum valor nulo encontrado!

üìä 2. AN√ÅLISE DE DUPLICADOS
------------------------------------------------------------
Total de registros duplicados: 0
‚úÖ Nenhum duplicado encontrado!

üìä 3. AN√ÅLISE DE TIPOS DE DADOS
------------------------------------------------------------
Compara√ß√£o: Tipo Atual vs. Tipo Esperado


Unnamed: 0,Tipo de Dado,Tipo Esperado,Status
customerID,object,object,‚úÖ OK
Churn,object,object,‚úÖ OK
gender,object,object,‚úÖ OK
SeniorCitizen,int64,int64,‚úÖ OK
Partner,object,object,‚úÖ OK
Dependents,object,object,‚úÖ OK
tenure,int64,int64,‚úÖ OK
PhoneService,object,object,‚úÖ OK
MultipleLines,object,object,‚úÖ OK
InternetService,object,object,‚úÖ OK



üìä 4. VALORES √öNICOS EM COLUNAS CATEG√ìRICAS
------------------------------------------------------------

üîπ customerID:
   Total de valores √∫nicos: 7267
   Amostra (5 primeiros): ['0002-ORFBO', '0003-MKNFE', '0004-TLHLJ', '0011-IGKFF', '0013-EXCHZ']
   Top 5 mais frequentes:


Unnamed: 0_level_0,count
customerID,Unnamed: 1_level_1
9995-HOTOH,1
0002-ORFBO,1
0003-MKNFE,1
9970-QBCDA,1
9968-FFVVH,1



üîπ Churn:
   Total de valores √∫nicos: 3
   Valores: ['', 'No', 'Yes']

üîπ gender:
   Total de valores √∫nicos: 2
   Valores: ['Female', 'Male']

üîπ Partner:
   Total de valores √∫nicos: 2
   Valores: ['No', 'Yes']

üîπ Dependents:
   Total de valores √∫nicos: 2
   Valores: ['No', 'Yes']

üîπ PhoneService:
   Total de valores √∫nicos: 2
   Valores: ['No', 'Yes']

üîπ MultipleLines:
   Total de valores √∫nicos: 3
   Valores: ['No', 'No phone service', 'Yes']

üîπ InternetService:
   Total de valores √∫nicos: 3
   Valores: ['DSL', 'Fiber optic', 'No']

üîπ OnlineSecurity:
   Total de valores √∫nicos: 3
   Valores: ['No', 'No internet service', 'Yes']

üîπ OnlineBackup:
   Total de valores √∫nicos: 3
   Valores: ['No', 'No internet service', 'Yes']

üîπ DeviceProtection:
   Total de valores √∫nicos: 3
   Valores: ['No', 'No internet service', 'Yes']

üîπ TechSupport:
   Total de valores √∫nicos: 3
   Valores: ['No', 'No internet service', 'Yes']

üîπ StreamingTV:
   Total 

Unnamed: 0_level_0,count
TotalCharges,Unnamed: 1_level_1
20.2,11
,11
19.75,9
19.55,9
19.9,9



‚úÖ AN√ÅLISE DE QUALIDADE CONCLU√çDA


In [14]:
# ====================================================================
# üìã CRIAR C√ìPIA PARA LIMPEZA
# ====================================================================
# Boa pr√°tica: Sempre preservar dados normalizados intactos
# Trabalhamos em uma C√ìPIA que pode ser modificada sem medo
# ====================================================================

print("üìã Criando c√≥pia do DataFrame para limpeza...")

# Criar c√≥pia profunda (deep copy)
df_clean = df_normalized.copy()

print(f"‚úÖ C√≥pia criada: df_clean")
print(f"üìä Dimens√µes: {df_clean.shape[0]:,} linhas √ó {df_clean.shape[1]} colunas")
print(f"üíæ Mem√≥ria: {df_clean.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print("\nüìå DataFrames dispon√≠veis:")
print("   ‚Ä¢ df_raw: dados brutos da API (6 colunas aninhadas)")
print("   ‚Ä¢ df_normalized: dados normalizados (21 colunas) - BACKUP")
print("   ‚Ä¢ df_clean: c√≥pia para limpeza (ser√° modificado)")

üìã Criando c√≥pia do DataFrame para limpeza...
‚úÖ C√≥pia criada: df_clean
üìä Dimens√µes: 7,267 linhas √ó 21 colunas
üíæ Mem√≥ria: 7.04 MB

üìå DataFrames dispon√≠veis:
   ‚Ä¢ df_raw: dados brutos da API (6 colunas aninhadas)
   ‚Ä¢ df_normalized: dados normalizados (21 colunas) - BACKUP
   ‚Ä¢ df_clean: c√≥pia para limpeza (ser√° modificado)


In [15]:
# ====================================================================
# üóëÔ∏è REMO√á√ÉO DE DUPLICADOS
# ====================================================================
# Conforme an√°lise, verificamos se h√° registros duplicados.
# Utilizamos drop_duplicates() do Pandas.
# ====================================================================

print("üóëÔ∏è Removendo registros duplicados...")
print("="*60)

# Verificar duplicados antes
duplicados_antes = df_clean.duplicated().sum()
print(f"üìä Duplicados ANTES da limpeza: {duplicados_antes:,}")

if duplicados_antes > 0:
    # Remover duplicados
    # keep='first' mant√©m a primeira ocorr√™ncia
    df_clean.drop_duplicates(keep='first', inplace=True)

    # Reset do √≠ndice ap√≥s remo√ß√£o
    df_clean.reset_index(drop=True, inplace=True)

    # Verificar ap√≥s
    duplicados_depois = df_clean.duplicated().sum()

    print(f"\n‚úÖ Duplicados removidos: {duplicados_antes - duplicados_depois:,}")
    print(f"üìä Registros restantes: {len(df_clean):,}")
    print(f"üìä Duplicados AP√ìS limpeza: {duplicados_depois:,}")
else:
    print("\n‚úÖ Nenhum duplicado para remover!")

print("\n" + "="*60)

üóëÔ∏è Removendo registros duplicados...
üìä Duplicados ANTES da limpeza: 0

‚úÖ Nenhum duplicado para remover!



In [16]:
# ====================================================================
# üîß TRATAMENTO DA COLUNA TotalCharges
# ====================================================================
# PROBLEMA IDENTIFICADO: TotalCharges est√° como 'object' (string)
# mas deveria ser 'float64' (n√∫mero decimal).
#
# CAUSA: Pode conter espa√ßos vazios ' ' ao inv√©s de valores num√©ricos.
# SOLU√á√ÉO (baseada no material ETL):
# 1. Identificar valores n√£o num√©ricos
# 2. Substituir por NaN
# 3. Converter para float
# 4. Preencher NaN com 0.0 (cliente novo = sem cobran√ßa total ainda)
# ====================================================================

print("üîß Tratando coluna TotalCharges...")
print("="*60)

print(f"\n1Ô∏è‚É£ Tipo atual: {df_clean['TotalCharges'].dtype}")
print(f"   Valores √∫nicos (amostra): {df_clean['TotalCharges'].unique()[:10]}")

# Contar valores vazios (' ')
valores_vazios = (df_clean['TotalCharges'] == ' ').sum()
print(f"\n2Ô∏è‚É£ Valores vazios (' ') encontrados: {valores_vazios}")

if valores_vazios > 0:
    print(f"   ‚ö†Ô∏è A√ß√£o: Substituir por NaN e preencher com 0.0")

    # Substituir espa√ßos vazios por NaN
    df_clean['TotalCharges'] = df_clean['TotalCharges'].replace(' ', np.nan)

    # Converter para num√©rico (erros viram NaN)
    df_clean['TotalCharges'] = pd.to_numeric(df_clean['TotalCharges'], errors='coerce')

    # Preencher NaN com 0.0 (clientes novos)
    df_clean['TotalCharges'].fillna(0.0, inplace=True)

    print(f"   ‚úÖ Valores vazios convertidos para 0.0")
else:
    # Converter diretamente
    df_clean['TotalCharges'] = pd.to_numeric(df_clean['TotalCharges'], errors='coerce')
    df_clean['TotalCharges'].fillna(0.0, inplace=True)

print(f"\n3Ô∏è‚É£ Tipo ap√≥s convers√£o: {df_clean['TotalCharges'].dtype}")
print(f"   Valores NaN restantes: {df_clean['TotalCharges'].isnull().sum()}")
print(f"   Estat√≠sticas:")
print(df_clean['TotalCharges'].describe())

print("\n" + "="*60)
print("‚úÖ TotalCharges tratado com sucesso!")
print("="*60)

üîß Tratando coluna TotalCharges...

1Ô∏è‚É£ Tipo atual: object
   Valores √∫nicos (amostra): ['593.3' '542.4' '280.85' '1237.85' '267.4' '571.45' '7904.25' '5377.8'
 '340.35' '5957.9']

2Ô∏è‚É£ Valores vazios (' ') encontrados: 11
   ‚ö†Ô∏è A√ß√£o: Substituir por NaN e preencher com 0.0
   ‚úÖ Valores vazios convertidos para 0.0

3Ô∏è‚É£ Tipo ap√≥s convers√£o: float64
   Valores NaN restantes: 0
   Estat√≠sticas:
count   7267.00
mean    2277.18
std     2268.65
min        0.00
25%      396.20
50%     1389.20
75%     3778.52
max     8684.80
Name: TotalCharges, dtype: float64

‚úÖ TotalCharges tratado com sucesso!


In [17]:
# ====================================================================
# üîÑ CONVERS√ÉO DE TIPOS DE DADOS
# ====================================================================
# Garantir que todas as colunas tenham o tipo correto.
# Baseado no dicion√°rio de dados fornecido.
# ====================================================================

print("üîÑ Convertendo tipos de dados...")
print("="*60)

# Dicion√°rio de convers√µes necess√°rias
# (j√° temos int64 e float64 corretos, foco em object)

print("\nüìä Verifica√ß√£o de tipos ap√≥s TotalCharges:")
print("\nColunas num√©ricas:")
for col in ['SeniorCitizen', 'tenure', 'MonthlyCharges', 'TotalCharges']:
    print(f"   ‚Ä¢ {col}: {df_clean[col].dtype}")

print("\nColunas categ√≥ricas (object):")
cat_cols = df_clean.select_dtypes(include='object').columns
for col in cat_cols:
    print(f"   ‚Ä¢ {col}: {df_clean[col].dtype}")

# Verificar se h√° valores nulos ap√≥s convers√µes
print(f"\nüìä Valores nulos totais no dataset: {df_clean.isnull().sum().sum()}")

if df_clean.isnull().sum().sum() == 0:
    print("‚úÖ Nenhum valor nulo! Dataset limpo.")
else:
    print("‚ö†Ô∏è Ainda h√° valores nulos:")
    print(df_clean.isnull().sum()[df_clean.isnull().sum() > 0])

print("\n" + "="*60)
print("‚úÖ TIPOS DE DADOS VALIDADOS")
print("="*60)

üîÑ Convertendo tipos de dados...

üìä Verifica√ß√£o de tipos ap√≥s TotalCharges:

Colunas num√©ricas:
   ‚Ä¢ SeniorCitizen: int64
   ‚Ä¢ tenure: int64
   ‚Ä¢ MonthlyCharges: float64
   ‚Ä¢ TotalCharges: float64

Colunas categ√≥ricas (object):
   ‚Ä¢ customerID: object
   ‚Ä¢ Churn: object
   ‚Ä¢ gender: object
   ‚Ä¢ Partner: object
   ‚Ä¢ Dependents: object
   ‚Ä¢ PhoneService: object
   ‚Ä¢ MultipleLines: object
   ‚Ä¢ InternetService: object
   ‚Ä¢ OnlineSecurity: object
   ‚Ä¢ OnlineBackup: object
   ‚Ä¢ DeviceProtection: object
   ‚Ä¢ TechSupport: object
   ‚Ä¢ StreamingTV: object
   ‚Ä¢ StreamingMovies: object
   ‚Ä¢ Contract: object
   ‚Ä¢ PaperlessBilling: object
   ‚Ä¢ PaymentMethod: object

üìä Valores nulos totais no dataset: 0
‚úÖ Nenhum valor nulo! Dataset limpo.

‚úÖ TIPOS DE DADOS VALIDADOS


In [18]:
# ====================================================================
# üìù PADRONIZA√á√ÉO DE VALORES CATEG√ìRICOS
# ====================================================================
# Verificar se h√° varia√ß√µes indesejadas em categorias
# (ex: "yes", "Yes", "YES" devem ser padronizados)
# Aplicar strip() para remover espa√ßos extras
# ====================================================================

print("üìù Padronizando valores categ√≥ricos...")
print("="*60)

# Aplicar strip() em todas as colunas object
# Remove espa√ßos no in√≠cio e fim das strings
print("\n1Ô∏è‚É£ Aplicando strip() em colunas categ√≥ricas...")

for col in df_clean.select_dtypes(include='object').columns:
    df_clean[col] = df_clean[col].str.strip()

print("   ‚úÖ Espa√ßos extras removidos")

# Verificar valores √∫nicos das principais categorias
print("\n2Ô∏è‚É£ Valores √∫nicos ap√≥s padroniza√ß√£o:")

categorias_chave = ['Churn', 'gender', 'Partner', 'Dependents',
                     'PhoneService', 'InternetService', 'Contract']

for col in categorias_chave:
    valores = df_clean[col].unique()
    print(f"\n   {col}: {sorted(valores.tolist())}")

print("\n" + "="*60)
print("‚úÖ CATEGORIAS PADRONIZADAS")
print("="*60)

üìù Padronizando valores categ√≥ricos...

1Ô∏è‚É£ Aplicando strip() em colunas categ√≥ricas...
   ‚úÖ Espa√ßos extras removidos

2Ô∏è‚É£ Valores √∫nicos ap√≥s padroniza√ß√£o:

   Churn: ['', 'No', 'Yes']

   gender: ['Female', 'Male']

   Partner: ['No', 'Yes']

   Dependents: ['No', 'Yes']

   PhoneService: ['No', 'Yes']

   InternetService: ['DSL', 'Fiber optic', 'No']

   Contract: ['Month-to-month', 'One year', 'Two year']

‚úÖ CATEGORIAS PADRONIZADAS


In [19]:
# ====================================================================
# ‚úÖ VALIDA√á√ÉO FINAL DA LIMPEZA
# ====================================================================
# Verificar se todos os crit√©rios de qualidade foram atingidos
# ====================================================================

print("="*60)
print("‚úÖ VALIDA√á√ÉO FINAL DA LIMPEZA DE DADOS")
print("="*60)

# Crit√©rios de qualidade (do dicion√°rio de dados)
criterios = {
    'Total de colunas': (df_clean.shape[1], 21),
    'Valores nulos': (df_clean.isnull().sum().sum(), 0),
    'Duplicados': (df_clean.duplicated().sum(), 0),
    'Tipo SeniorCitizen': (df_clean['SeniorCitizen'].dtype, 'int64'),
    'Tipo tenure': (df_clean['tenure'].dtype, 'int64'),
    'Tipo MonthlyCharges': (df_clean['MonthlyCharges'].dtype, 'float64'),
    'Tipo TotalCharges': (df_clean['TotalCharges'].dtype, 'float64'),
}

print("\nüìã CHECKLIST DE QUALIDADE:")
print("-"*60)

todos_ok = True
for criterio, (valor_atual, valor_esperado) in criterios.items():
    if str(valor_atual) == str(valor_esperado):
        status = "‚úÖ"
    else:
        status = "‚ùå"
        todos_ok = False
    print(f"{status} {criterio}: {valor_atual} (esperado: {valor_esperado})")

# Resumo final
print("\n" + "="*60)
if todos_ok:
    print("üéâ TODOS OS CRIT√âRIOS ATENDIDOS!")
else:
    print("‚ö†Ô∏è ALGUNS CRIT√âRIOS N√ÉO FORAM ATENDIDOS")
print("="*60)

print(f"\nüìä RESUMO DO DATASET LIMPO:")
print(f"   ‚Ä¢ Registros: {df_clean.shape[0]:,}")
print(f"   ‚Ä¢ Vari√°veis: {df_clean.shape[1]}")
print(f"   ‚Ä¢ Mem√≥ria: {df_clean.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"   ‚Ä¢ Valores nulos: {df_clean.isnull().sum().sum()}")
print(f"   ‚Ä¢ Duplicados: {df_clean.duplicated().sum()}")

print("\nüîç Preview do dataset limpo:")
display(df_clean.head(10))

print("\nüìã Informa√ß√µes t√©cnicas finais:")
df_clean.info()

‚úÖ VALIDA√á√ÉO FINAL DA LIMPEZA DE DADOS

üìã CHECKLIST DE QUALIDADE:
------------------------------------------------------------
‚úÖ Total de colunas: 21 (esperado: 21)
‚úÖ Valores nulos: 0 (esperado: 0)
‚úÖ Duplicados: 0 (esperado: 0)
‚úÖ Tipo SeniorCitizen: int64 (esperado: int64)
‚úÖ Tipo tenure: int64 (esperado: int64)
‚úÖ Tipo MonthlyCharges: float64 (esperado: float64)
‚úÖ Tipo TotalCharges: float64 (esperado: float64)

üéâ TODOS OS CRIT√âRIOS ATENDIDOS!

üìä RESUMO DO DATASET LIMPO:
   ‚Ä¢ Registros: 7,267
   ‚Ä¢ Vari√°veis: 21
   ‚Ä¢ Mem√≥ria: 6.71 MB
   ‚Ä¢ Valores nulos: 0
   ‚Ä¢ Duplicados: 0

üîç Preview do dataset limpo:


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4
5,0013-MHZWF,No,Female,0,No,Yes,9,Yes,No,DSL,No,No,No,Yes,Yes,Yes,Month-to-month,Yes,Credit card (automatic),69.4,571.45
6,0013-SMEOE,No,Female,1,Yes,No,71,Yes,No,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Bank transfer (automatic),109.7,7904.25
7,0014-BMAQU,No,Male,0,Yes,No,63,Yes,Yes,Fiber optic,Yes,No,No,Yes,No,No,Two year,Yes,Credit card (automatic),84.65,5377.8
8,0015-UOCOJ,No,Female,1,No,No,7,Yes,No,DSL,Yes,No,No,No,No,No,Month-to-month,Yes,Electronic check,48.2,340.35
9,0016-QLJIS,No,Female,0,Yes,Yes,65,Yes,Yes,DSL,Yes,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Mailed check,90.45,5957.9



üìã Informa√ß√µes t√©cnicas finais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Cont

---

## üíæ 5. CARGA (Load)

### üéØ Objetivo da Etapa

Salvar o dataset limpo e tratado em formato CSV para:
- Preservar o trabalho de limpeza realizado
- Facilitar carregamento futuro sem refazer ETL
- Compartilhar dados tratados com equipe
- Manter versionamento dos dados

### üìÅ Local de Armazenamento

**Arquivo:** `telecom_clean.csv`  
**Encoding:** UTF-8 (suporte a caracteres especiais)  
**Separador:** V√≠rgula (`,`)  
**Index:** N√£o inclu√≠do (evita coluna extra)

---

In [20]:
# ====================================================================
# üíæ SALVAR DATASET LIMPO EM CSV
# ====================================================================
# Ap√≥s todo o processo de limpeza e transforma√ß√£o, salvamos o dataset
# final para uso nas an√°lises.
#
# Configura√ß√µes importantes:
# - index=False: n√£o inclui √≠ndice como coluna
# - encoding='utf-8': suporta acentos e caracteres especiais
# - sep=',': separador padr√£o CSV
# ====================================================================

print("üíæ Salvando dataset limpo em CSV...")
print("="*60)

# Nome do arquivo
arquivo_csv = "telecom_clean.csv"

# Salvar no diret√≥rio atual do Colab
df_clean.to_csv(arquivo_csv, index=False, encoding='utf-8')

print(f"‚úÖ Arquivo salvo com sucesso!")
print(f"üìÑ Nome: {arquivo_csv}")
print(f"üìä Registros salvos: {len(df_clean):,}")
print(f"üìã Colunas salvas: {len(df_clean.columns)}")

# Verificar tamanho do arquivo
import os
tamanho_mb = os.path.getsize(arquivo_csv) / (1024 * 1024)
print(f"üíæ Tamanho do arquivo: {tamanho_mb:.2f} MB")

print("\n" + "="*60)
print("üéâ PROCESSO ETL (Extract, Transform, Load) CONCLU√çDO!")
print("="*60)

print("\nüìä Resumo do ETL:")
print(f"   ‚úÖ Extract: {df_raw.shape[0]:,} registros extra√≠dos da API")
print(f"   ‚úÖ Transform: JSON normalizado + {len(df_normalized.columns)} colunas criadas")
print(f"   ‚úÖ Transform: 11 valores vazios tratados em TotalCharges")
print(f"   ‚úÖ Transform: 0 duplicados removidos")
print(f"   ‚úÖ Transform: Tipos de dados corrigidos")
print(f"   ‚úÖ Load: Dataset limpo salvo em '{arquivo_csv}'")

print("\nüìå Pr√≥ximo passo: An√°lise Explorat√≥ria de Dados (EDA)")

üíæ Salvando dataset limpo em CSV...
‚úÖ Arquivo salvo com sucesso!
üìÑ Nome: telecom_clean.csv
üìä Registros salvos: 7,267
üìã Colunas salvas: 21
üíæ Tamanho do arquivo: 0.96 MB

üéâ PROCESSO ETL (Extract, Transform, Load) CONCLU√çDO!

üìä Resumo do ETL:
   ‚úÖ Extract: 7,267 registros extra√≠dos da API
   ‚úÖ Transform: JSON normalizado + 21 colunas criadas
   ‚úÖ Transform: 11 valores vazios tratados em TotalCharges
   ‚úÖ Transform: 0 duplicados removidos
   ‚úÖ Transform: Tipos de dados corrigidos
   ‚úÖ Load: Dataset limpo salvo em 'telecom_clean.csv'

üìå Pr√≥ximo passo: An√°lise Explorat√≥ria de Dados (EDA)
