  # üìä TelecomX - An√°lise de Evas√£o de Clientes
## Challenge Data Science | Alura + Oracle Next Education (ONE)

---

**üë§ Autor:** F√°bio Andrade  
**üìÖ Data:** 22 de Dezembro de 2024  
**üîó Reposit√≥rio:** [GitHub - telecomx-churn-analysis](https://github.com/thedrads/telecomx-churn-analysis)  
**üéØ Objetivo:** An√°lise completa de Churn usando processo ETL

---

### üìå Sobre este Projeto

Este notebook documenta a an√°lise de dados de evas√£o de clientes (churn) da empresa **TelecomX**, desenvolvido como parte do Challenge de Data Science.

**Etapas do projeto:**
1. üì• **Extract** - Extra√ß√£o de dados via API REST
2. üîß **Transform** - Limpeza e transforma√ß√£o dos dados
3. üíæ **Load** - Carga dos dados tratados
4. üìä **EDA** - An√°lise Explorat√≥ria de Dados
5. üí° **Insights** - Recomenda√ß√µes estrat√©gicas

---

## üè¢ 1. CONTEXTO DO NEG√ìCIO

### üìâ O Problema: Evas√£o de Clientes (Churn)

A **TelecomX** √© uma empresa de telecomunica√ß√µes que enfrenta um desafio cr√≠tico para sua sustentabilidade: **alto √≠ndice de cancelamento de contratos** por parte dos clientes.

#### üéØ O que √© Churn?

**Churn** (ou evas√£o) refere-se ao cancelamento de servi√ßos por parte do cliente. Na ind√∫stria de telecomunica√ß√µes, isso significa:
- ‚ùå Cliente cancela contrato
- ‚ùå Para de pagar pelos servi√ßos
- ‚ùå Migra para concorr√™ncia ou abandona o servi√ßo

#### üí∞ Impacto no Neg√≥cio

| Aspecto | Impacto |
|---------|---------|
| **Receita** | Perda de receita recorrente mensal (MRR) |
| **Custos** | CAC (Custo de Aquisi√ß√£o) √© 5-7x maior que reten√ß√£o |
| **Reputa√ß√£o** | Sinal negativo para investidores e mercado |
| **Crescimento** | Limita expans√£o e escalabilidade |

> **üí° Estat√≠stica chave:** Reter um cliente existente custa at√© 7 vezes menos do que adquirir um novo cliente.

---

### üéØ Objetivos do Projeto

Como **Assistente de An√°lise de Dados** na equipe de Data Science da TelecomX, fui designado para:

#### ‚úÖ Objetivos Principais

1. **Extrair** dados de clientes do sistema da empresa (via API REST)
2. **Limpar e transformar** dados brutos em formato an√°lise-ready
3. **Identificar padr√µes** que diferenciam clientes que cancelam vs. que permanecem
4. **Gerar insights acion√°veis** para √°reas de neg√≥cio (Marketing, Reten√ß√£o, Produto)
5. **Preparar base** para futuros modelos preditivos de Machine Learning

#### üìä Perguntas de Neg√≥cio a Responder

- ‚ùì Qual o perfil demogr√°fico dos clientes que mais cancelam?
- ‚ùì Quais servi√ßos est√£o associados a maior/menor churn?
- ‚ùì Tipo de contrato influencia na reten√ß√£o?
- ‚ùì Clientes de longa data cancelam menos?
- ‚ùì Qual o impacto financeiro do churn atual?

---

### üìö Metodologia: Processo ETL

Este projeto segue o framework **ETL (Extract, Transform, Load)**, padr√£o da ind√∫stria para pipelines de dados:
```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê      ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê      ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   EXTRACT   ‚îÇ ‚îÄ‚îÄ‚îÄ> ‚îÇ  TRANSFORM  ‚îÇ ‚îÄ‚îÄ‚îÄ> ‚îÇ    LOAD     ‚îÇ
‚îÇ             ‚îÇ      ‚îÇ             ‚îÇ      ‚îÇ             ‚îÇ
‚îÇ ‚Ä¢ API REST  ‚îÇ      ‚îÇ ‚Ä¢ Limpeza   ‚îÇ      ‚îÇ ‚Ä¢ CSV       ‚îÇ
‚îÇ ‚Ä¢ JSON      ‚îÇ      ‚îÇ ‚Ä¢ Valida√ß√£o ‚îÇ      ‚îÇ ‚Ä¢ An√°lise   ‚îÇ
‚îÇ ‚Ä¢ 7k+ linhas‚îÇ      ‚îÇ ‚Ä¢ Convers√£o ‚îÇ      ‚îÇ ‚Ä¢ Dashboard ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò      ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò      ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Ferramentas utilizadas:**
- üêç Python 3.x
- üêº Pandas (manipula√ß√£o de dados)
- üìä Matplotlib/Seaborn/Plotly (visualiza√ß√£o)
- üî¢ NumPy (opera√ß√µes num√©ricas)

---

## üìñ 2. DICION√ÅRIO DE DADOS

A equipe t√©cnica da TelecomX forneceu a especifica√ß√£o completa da estrutura de dados dispon√≠vel na API.

### üìã Estrutura do Dataset

**Total esperado:** 21 vari√°veis (colunas) organizadas em 5 categorias

---

#### üÜî **IDENTIFICA√á√ÉO**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `customerID` | Identificador √∫nico do cliente | String | Ex: "7590-VHVEG" |

---

#### üéØ **VARI√ÅVEL ALVO (Target)**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `Churn` | Cliente cancelou o servi√ßo? | String | `Yes`, `No` |

> **‚ö†Ô∏è IMPORTANTE:** Esta √© a vari√°vel que queremos entender e prever.

---

#### üë• **VARI√ÅVEIS DEMOGR√ÅFICAS**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `gender` | G√™nero do cliente | String | `Male`, `Female` |
| `SeniorCitizen` | Cliente √© idoso (65+ anos)? | Integer | `0` (N√£o), `1` (Sim) |
| `Partner` | Tem parceiro(a)? | String | `Yes`, `No` |
| `Dependents` | Tem dependentes (filhos/fam√≠lia)? | String | `Yes`, `No` |

---

#### üìû **SERVI√áOS CONTRATADOS**

**Servi√ßo Telef√¥nico:**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `PhoneService` | Possui servi√ßo telef√¥nico? | String | `Yes`, `No` |
| `MultipleLines` | Possui m√∫ltiplas linhas? | String | `Yes`, `No`, `No phone service` |

**Servi√ßo de Internet:**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `InternetService` | Tipo de internet contratada | String | `DSL`, `Fiber optic`, `No` |
| `OnlineSecurity` | Servi√ßo adicional de seguran√ßa online | String | `Yes`, `No`, `No internet service` |
| `OnlineBackup` | Servi√ßo adicional de backup online | String | `Yes`, `No`, `No internet service` |
| `DeviceProtection` | Prote√ß√£o de dispositivo | String | `Yes`, `No`, `No internet service` |
| `TechSupport` | Suporte t√©cnico premium | String | `Yes`, `No`, `No internet service` |
| `StreamingTV` | Streaming de TV | String | `Yes`, `No`, `No internet service` |
| `StreamingMovies` | Streaming de filmes | String | `Yes`, `No`, `No internet service` |

---

#### üí∞ **INFORMA√á√ïES DE CONTA/FINANCEIRO**

| Coluna | Descri√ß√£o | Tipo | Valores Poss√≠veis |
|--------|-----------|------|-------------------|
| `tenure` | Meses como cliente da empresa | Integer | 0 a 72+ |
| `Contract` | Tipo de contrato | String | `Month-to-month`, `One year`, `Two year` |
| `PaperlessBilling` | Usa fatura digital (sem papel)? | String | `Yes`, `No` |
| `PaymentMethod` | M√©todo de pagamento | String | `Electronic check`, `Mailed check`, `Bank transfer (automatic)`, `Credit card (automatic)` |
| `MonthlyCharges` | Valor cobrado mensalmente (USD) | Float | 18.00 a 120.00 |
| `TotalCharges` | Total acumulado pago pelo cliente (USD) | Float | Vari√°vel (depende de tenure) |

---

### üîß Observa√ß√µes T√©cnicas da API

#### ‚ö†Ô∏è Estrutura JSON Aninhada

Conforme documenta√ß√£o t√©cnica fornecida, os dados na API est√£o organizados em **formato hier√°rquico (nested JSON)**:
```json
{
  "customerID": "7590-VHVEG",
  "Churn": "No",
  "customer": {
    "gender": "Female",
    "SeniorCitizen": 0,
    "Partner": "Yes",
    "Dependents": "No",
    "tenure": 1
  },
  "phone": {
    "PhoneService": "No",
    "MultipleLines": "No phone service"
  },
  "internet": {
    "InternetService": "DSL",
    "OnlineSecurity": "No",
    "OnlineBackup": "Yes",
    "DeviceProtection": "No",
    "TechSupport": "No",
    "StreamingTV": "No",
    "StreamingMovies": "No"
  },
  "account": {
    "Contract": "Month-to-month",
    "PaperlessBilling": "Yes",
    "PaymentMethod": "Electronic check",
    "Charges": {
      "Monthly": 29.85,
      "Total": 29.85
    }
  }
}
```

**üìå A√ß√£o necess√°ria no ETL:**  
Usar `pd.json_normalize()` para "achatar" a estrutura hier√°rquica em formato tabular (linhas √ó colunas).

---

### ‚úÖ Crit√©rios de Qualidade Esperados

Ap√≥s o processo de ETL, o dataset final deve atender:

| Crit√©rio | Meta |
|----------|------|
| **Total de colunas** | 21 colunas |
| **Valores nulos** | 0 ou tratados adequadamente |
| **Duplicados** | 0 registros duplicados |
| **Tipos de dados** | Corretos (int, float, string) |
| **Categorias** | Valores padronizados (sem typos/varia√ß√µes) |
| **Registros** | ~7.000 clientes |

---

In [2]:
# ====================================================================
# üì¶ INSTALA√á√ÉO DE DEPEND√äNCIAS
# ====================================================================
# O Google Colab j√° vem com Pandas, NumPy, Matplotlib e Seaborn.
# Precisamos instalar apenas o Plotly para gr√°ficos interativos.
#
# Comandos:
# - ! = executa comando do terminal dentro do notebook
# - pip = gerenciador de pacotes Python
# - -q = quiet (modo silencioso, menos mensagens)
# - --upgrade = atualiza se j√° estiver instalado
# ====================================================================

print("üîÑ Atualizando pip (gerenciador de pacotes)...")
!pip install -q --upgrade pip

print("\nüì¶ Instalando bibliotecas necess√°rias...")
!pip install -q plotly==5.18.0

print("\n" + "="*60)
print("‚úÖ INSTALA√á√ÉO CONCLU√çDA COM SUCESSO!")
print("="*60)
print("\nüìå Bibliotecas instaladas:")
print("   ‚Ä¢ Plotly 5.18.0 (gr√°ficos interativos)")
print("\nüìå Bibliotecas nativas do Colab (j√° dispon√≠veis):")
print("   ‚Ä¢ Pandas (manipula√ß√£o de dados)")
print("   ‚Ä¢ NumPy (opera√ß√µes num√©ricas)")
print("   ‚Ä¢ Matplotlib (visualiza√ß√£o est√°tica)")
print("   ‚Ä¢ Seaborn (visualiza√ß√£o estat√≠stica)")
print("   ‚Ä¢ Requests (requisi√ß√µes HTTP)")
print("\nüéØ Pr√≥ximo passo: Importar bibliotecas")

üîÑ Atualizando pip (gerenciador de pacotes)...
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.8/1.8 MB[0m [31m11.6 MB/s[0m eta [36m0:00:00[0m
[?25h
üì¶ Instalando bibliotecas necess√°rias...

‚úÖ INSTALA√á√ÉO CONCLU√çDA COM SUCESSO!

üìå Bibliotecas instaladas:
   ‚Ä¢ Plotly 5.18.0 (gr√°ficos interativos)

üìå Bibliotecas nativas do Colab (j√° dispon√≠veis):
   ‚Ä¢ Pandas (manipula√ß√£o de dados)
   ‚Ä¢ NumPy (opera√ß√µes num√©ricas)
   ‚Ä¢ Matplotlib (visualiza√ß√£o est√°tica)
   ‚Ä¢ Seaborn (visualiza√ß√£o estat√≠stica)
   ‚Ä¢ Requests (requisi√ß√µes HTTP)

üéØ Pr√≥ximo passo: Importar bibliotecas


In [3]:
# ====================================================================
# üìö IMPORTA√á√ÉO DE BIBLIOTECAS
# ====================================================================
# Organizamos as importa√ß√µes por categoria para facilitar leitura.
# Cada biblioteca tem uma fun√ß√£o espec√≠fica no processo ETL.
# ====================================================================

# --- 1. MANIPULA√á√ÉO DE DADOS ---
import pandas as pd              # Trabalha com DataFrames (tabelas)
import numpy as np               # Opera√ß√µes matem√°ticas e arrays

# --- 2. REQUISI√á√ïES HTTP (API) ---
import requests                  # Faz chamadas √† API REST
import json                      # Manipula arquivos/strings JSON

# --- 3. VISUALIZA√á√ÉO DE DADOS ---
import matplotlib.pyplot as plt  # Gr√°ficos est√°ticos b√°sicos
import seaborn as sns            # Gr√°ficos estat√≠sticos elegantes
import plotly.express as px      # Gr√°ficos interativos (sintaxe r√°pida)
import plotly.graph_objects as go # Gr√°ficos interativos (controle total)

# --- 4. UTILIT√ÅRIOS ---
from datetime import datetime    # Manipula√ß√£o de datas/horas
import warnings                  # Controle de avisos/warnings

# ====================================================================
# üé® CONFIGURA√á√ïES GLOBAIS DE VISUALIZA√á√ÉO
# ====================================================================

# Ocultar avisos n√£o cr√≠ticos (deixa output mais limpo)
warnings.filterwarnings('ignore')

# Configura√ß√µes de exibi√ß√£o do Pandas
pd.set_option('display.max_columns', None)   # Mostrar todas as colunas
pd.set_option('display.max_rows', 100)       # Mostrar at√© 100 linhas
pd.set_option('display.float_format', '{:.2f}'.format)  # 2 casas decimais

# Configura√ß√µes de estilo Seaborn
sns.set_style("whitegrid")                   # Fundo branco com grade
sns.set_palette("Set2")                      # Paleta de cores padr√£o

# Configura√ß√µes de tamanho padr√£o de gr√°ficos Matplotlib
plt.rcParams['figure.figsize'] = (12, 6)     # Largura x Altura em polegadas
plt.rcParams['font.size'] = 10               # Tamanho da fonte

# ====================================================================
# üé® PALETA DE CORES PROFISSIONAL DO PROJETO
# ====================================================================
# Definindo cores consistentes para todo o projeto
# Baseado em paleta Corporate Professional + acessibilidade
# ====================================================================

COLORS = {
    # Cores principais
    'primary': '#2E86AB',      # Azul corporativo
    'secondary': '#A23B72',    # Roxo elegante
    'accent': '#F18F01',       # Laranja destaque

    # Cores de status
    'success': '#06A77D',      # Verde sucesso
    'danger': '#D81159',       # Vermelho perigo/alerta
    'warning': '#F18F01',      # Laranja aviso
    'info': '#2E86AB',         # Azul informa√ß√£o
    'neutral': '#6C757D',      # Cinza neutro

    # Cores espec√≠ficas do projeto
    'churn_yes': '#E63946',    # Vermelho para Churn = Yes
    'churn_no': '#06FFA5',     # Verde claro para Churn = No

    # Paleta categ√≥rica (para m√∫ltiplas categorias)
    'palette': ['#2E86AB', '#A23B72', '#F18F01', '#06A77D',
                '#D81159', '#6C757D', '#E63946', '#06FFA5']
}

# ====================================================================
# ‚úÖ VALIDA√á√ÉO DAS IMPORTA√á√ïES
# ====================================================================

print("="*60)
print("‚úÖ BIBLIOTECAS IMPORTADAS COM SUCESSO!")
print("="*60)

print("\nüìä Vers√µes instaladas:")
print(f"   ‚Ä¢ Pandas: {pd.__version__}")
print(f"   ‚Ä¢ NumPy: {np.__version__}")
print(f"   ‚Ä¢ Matplotlib: {plt.matplotlib.__version__}")
print(f"   ‚Ä¢ Seaborn: {sns.__version__}")

print("\nüé® Configura√ß√µes aplicadas:")
print("   ‚úì Avisos silenciados")
print("   ‚úì Display: todas colunas, at√© 100 linhas")
print("   ‚úì N√∫meros: 2 casas decimais")
print("   ‚úì Gr√°ficos: 12√ó6 polegadas")
print("   ‚úì Estilo: whitegrid")
print("   ‚úì Paleta de cores: definida")

print("\n" + "="*60)
print("üéØ AMBIENTE CONFIGURADO E PRONTO PARA ETL!")
print("="*60)
print("\nüìå Pr√≥ximo passo: Extra√ß√£o de dados da API")

‚úÖ BIBLIOTECAS IMPORTADAS COM SUCESSO!

üìä Vers√µes instaladas:
   ‚Ä¢ Pandas: 2.2.2
   ‚Ä¢ NumPy: 2.0.2
   ‚Ä¢ Matplotlib: 3.10.0
   ‚Ä¢ Seaborn: 0.13.2

üé® Configura√ß√µes aplicadas:
   ‚úì Avisos silenciados
   ‚úì Display: todas colunas, at√© 100 linhas
   ‚úì N√∫meros: 2 casas decimais
   ‚úì Gr√°ficos: 12√ó6 polegadas
   ‚úì Estilo: whitegrid
   ‚úì Paleta de cores: definida

üéØ AMBIENTE CONFIGURADO E PRONTO PARA ETL!

üìå Pr√≥ximo passo: Extra√ß√£o de dados da API


---

## üì• 3. EXTRA√á√ÉO DE DADOS (Extract)

### üéØ Objetivo da Etapa

Conectar-se √† API REST da TelecomX e extrair os dados brutos de clientes em formato JSON.

**Fonte de dados:**  
üåê API URL: `https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json`

### ‚úÖ Checklist de Valida√ß√£o da Extra√ß√£o

- [ ] Conex√£o com API bem-sucedida (status 200)
- [ ] JSON parseado sem erros
- [ ] DataFrame criado com estrutura aninhada (6 colunas)
- [ ] Aproximadamente 7.267 registros extra√≠dos
- [ ] Nenhum erro de timeout ou falha de rede

### üîß T√©cnicas Utilizadas

- `requests.get()` - Requisi√ß√£o HTTP GET √† API
- `response.json()` - Parse de string JSON para dict Python
- `pd.DataFrame()` - Convers√£o de lista de dicts para DataFrame
- `pd.json_normalize()` - "Achatamento" de estrutura hier√°rquica
- Tratamento de erros com try/except

---

In [4]:
# ====================================================================
# üåê FUN√á√ÉO DE EXTRA√á√ÉO DE DADOS DA API
# ====================================================================
# Desenvolvemos uma fun√ß√£o reutiliz√°vel que:
# 1. Faz requisi√ß√£o HTTP GET √† API
# 2. Valida status da resposta (200 = sucesso)
# 3. Faz parse do JSON retornado
# 4. Converte para DataFrame do Pandas
# 5. Retorna DataFrame ou None em caso de erro
#
# Benef√≠cios de usar uma fun√ß√£o:
# - C√≥digo organizado e reutiliz√°vel
# - Tratamento de erros centralizado
# - F√°cil de testar e manter
# - Seguir boas pr√°ticas de engenharia de software
# ====================================================================

def extrair_dados_api(url, timeout=30):
    """
    Extrai dados de uma API REST e retorna como DataFrame.

    Par√¢metros:
    -----------
    url : str
        URL completa da API REST
    timeout : int
        Tempo m√°ximo de espera pela resposta (segundos)

    Retorna:
    --------
    pd.DataFrame ou None
        DataFrame com os dados extra√≠dos, ou None se houver erro
    """

    try:
        print(f"üåê Conectando √† API...")
        print(f"   URL: {url}")

        # Fazer requisi√ß√£o GET com timeout
        response = requests.get(url, timeout=timeout)

        # Verificar status HTTP (200 = OK)
        if response.status_code == 200:
            print(f"   ‚úÖ Status: {response.status_code} (OK)")

            # Parse do JSON
            print(f"üì¶ Parseando JSON...")
            dados_json = response.json()

            # Verificar se √© uma lista
            if isinstance(dados_json, list):
                print(f"   ‚úÖ Tipo: Lista com {len(dados_json):,} registros")
            else:
                print(f"   ‚ö†Ô∏è Tipo inesperado: {type(dados_json)}")
                return None

            # Converter para DataFrame
            print(f"üîÑ Convertendo para DataFrame...")
            df = pd.DataFrame(dados_json)

            print(f"   ‚úÖ DataFrame criado: {df.shape[0]:,} linhas √ó {df.shape[1]} colunas")

            return df

        else:
            print(f"   ‚ùå ERRO HTTP: Status {response.status_code}")
            print(f"   Mensagem: {response.text[:200]}")
            return None

    except requests.exceptions.Timeout:
        print(f"‚ùå ERRO: Timeout ap√≥s {timeout} segundos")
        print(f"   A API n√£o respondeu a tempo. Tente novamente.")
        return None

    except requests.exceptions.RequestException as e:
        print(f"‚ùå ERRO de Requisi√ß√£o: {str(e)}")
        return None

    except json.JSONDecodeError as e:
        print(f"‚ùå ERRO ao parsear JSON: {str(e)}")
        return None

    except Exception as e:
        print(f"‚ùå ERRO inesperado: {str(e)}")
        return None

print("="*60)
print("‚úÖ FUN√á√ÉO extrair_dados_api() DEFINIDA COM SUCESSO!")
print("="*60)
print("\nüìå Pr√≥ximo passo: Executar a extra√ß√£o")

‚úÖ FUN√á√ÉO extrair_dados_api() DEFINIDA COM SUCESSO!

üìå Pr√≥ximo passo: Executar a extra√ß√£o


In [5]:
# ====================================================================
# üöÄ EXECUTAR EXTRA√á√ÉO DE DADOS
# ====================================================================

print("="*60)
print("üöÄ INICIANDO EXTRA√á√ÉO DE DADOS")
print("="*60)

# URL da API fornecida no desafio
API_URL = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json"

# Executar fun√ß√£o de extra√ß√£o
df_raw = extrair_dados_api(API_URL)

# Validar resultado
print("\n" + "="*60)
if df_raw is not None:
    print("‚úÖ EXTRA√á√ÉO BEM-SUCEDIDA!")
    print("="*60)

    print(f"\nüìä Dimens√µes do dataset bruto:")
    print(f"   ‚Ä¢ Registros (linhas): {df_raw.shape[0]:,}")
    print(f"   ‚Ä¢ Vari√°veis (colunas): {df_raw.shape[1]}")

    print(f"\nüìã Colunas extra√≠das:")
    for i, col in enumerate(df_raw.columns, 1):
        print(f"   {i}. {col}")

    print(f"\nüîç Preview dos dados (primeiras 3 linhas):")
    print("="*60)
    display(df_raw.head(3))

    print(f"\nüì¶ Informa√ß√µes t√©cnicas do DataFrame:")
    print("="*60)
    df_raw.info()

else:
    print("‚ùå FALHA NA EXTRA√á√ÉO!")
    print("="*60)
    print("‚ö†Ô∏è Verifique:")
    print("   1. Conex√£o com internet")
    print("   2. URL da API est√° correta")
    print("   3. API est√° dispon√≠vel")

üöÄ INICIANDO EXTRA√á√ÉO DE DADOS
üåê Conectando √† API...
   URL: https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json
   ‚úÖ Status: 200 (OK)
üì¶ Parseando JSON...
   ‚úÖ Tipo: Lista com 7,267 registros
üîÑ Convertendo para DataFrame...
   ‚úÖ DataFrame criado: 7,267 linhas √ó 6 colunas

‚úÖ EXTRA√á√ÉO BEM-SUCEDIDA!

üìä Dimens√µes do dataset bruto:
   ‚Ä¢ Registros (linhas): 7,267
   ‚Ä¢ Vari√°veis (colunas): 6

üìã Colunas extra√≠das:
   1. customerID
   2. Churn
   3. customer
   4. phone
   5. internet
   6. account

üîç Preview dos dados (primeiras 3 linhas):


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."



üì¶ Informa√ß√µes t√©cnicas do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


In [6]:
# ====================================================================
# üîß NORMALIZA√á√ÉO DE ESTRUTURA JSON ANINHADA
# ====================================================================
# O dataset extra√≠do tem estrutura hier√°rquica (nested):
# - Colunas 'customer', 'phone', 'internet', 'account' s√£o dicion√°rios
# - Precisamos "achatar" (flatten) para formato tabular
#
# T√©cnica: pd.json_normalize()
# - Converte dicion√°rios aninhados em colunas planas
# - Cria nomes de colunas com prefixo (ex: customer.gender)
# ====================================================================

print("="*60)
print("üîß NORMALIZANDO ESTRUTURA JSON")
print("="*60)

if df_raw is not None:

    print("\nüìä Estrutura ANTES da normaliza√ß√£o:")
    print(f"   Colunas: {df_raw.shape[1]}")
    print(f"   Registros: {df_raw.shape[0]:,}")

    # Aplicar json_normalize para achatar estrutura
    print("\nüîÑ Aplicando pd.json_normalize()...")
    df_normalized = pd.json_normalize(df_raw.to_dict('records'))

    print(f"   ‚úÖ Normaliza√ß√£o conclu√≠da!")

    print("\nüìä Estrutura DEPOIS da normaliza√ß√£o:")
    print(f"   Colunas: {df_normalized.shape[1]}")
    print(f"   Registros: {df_normalized.shape[0]:,}")

    # Renomear colunas para remover prefixos
    print("\nüìù Renomeando colunas (removendo prefixos)...")

    colunas_renomeadas = {
        'customer.gender': 'gender',
        'customer.SeniorCitizen': 'SeniorCitizen',
        'customer.Partner': 'Partner',
        'customer.Dependents': 'Dependents',
        'customer.tenure': 'tenure',
        'phone.PhoneService': 'PhoneService',
        'phone.MultipleLines': 'MultipleLines',
        'internet.InternetService': 'InternetService',
        'internet.OnlineSecurity': 'OnlineSecurity',
        'internet.OnlineBackup': 'OnlineBackup',
        'internet.DeviceProtection': 'DeviceProtection',
        'internet.TechSupport': 'TechSupport',
        'internet.StreamingTV': 'StreamingTV',
        'internet.StreamingMovies': 'StreamingMovies',
        'account.Contract': 'Contract',
        'account.PaperlessBilling': 'PaperlessBilling',
        'account.PaymentMethod': 'PaymentMethod',
        'account.Charges.Monthly': 'MonthlyCharges',
        'account.Charges.Total': 'TotalCharges'
    }

    df_normalized.rename(columns=colunas_renomeadas, inplace=True)

    print(f"   ‚úÖ {len(colunas_renomeadas)} colunas renomeadas")

    print("\nüìã Colunas finais ap√≥s normaliza√ß√£o:")
    print("="*60)
    for i, col in enumerate(df_normalized.columns, 1):
        tipo = df_normalized[col].dtype
        print(f"   {i:2d}. {col:20s} (tipo: {tipo})")

    print("\nüîç Preview do dataset normalizado (primeiras 5 linhas):")
    print("="*60)
    display(df_normalized.head())

    print("\n" + "="*60)
    print("‚úÖ EXTRA√á√ÉO COMPLETA - DADOS PRONTOS PARA TRANSFORMA√á√ÉO!")
    print("="*60)
    print(f"\nüì¶ Resultado:")
    print(f"   ‚Ä¢ df_raw: dataset bruto ({df_raw.shape[0]:,} √ó {df_raw.shape[1]})")
    print(f"   ‚Ä¢ df_normalized: dataset normalizado ({df_normalized.shape[0]:,} √ó {df_normalized.shape[1]})")
    print(f"\nüéØ Pr√≥ximo passo: Transforma√ß√£o e Limpeza de Dados")

else:
    print("‚ùå N√£o foi poss√≠vel normalizar: df_raw n√£o existe")

üîß NORMALIZANDO ESTRUTURA JSON

üìä Estrutura ANTES da normaliza√ß√£o:
   Colunas: 6
   Registros: 7,267

üîÑ Aplicando pd.json_normalize()...
   ‚úÖ Normaliza√ß√£o conclu√≠da!

üìä Estrutura DEPOIS da normaliza√ß√£o:
   Colunas: 21
   Registros: 7,267

üìù Renomeando colunas (removendo prefixos)...
   ‚úÖ 19 colunas renomeadas

üìã Colunas finais ap√≥s normaliza√ß√£o:
    1. customerID           (tipo: object)
    2. Churn                (tipo: object)
    3. gender               (tipo: object)
    4. SeniorCitizen        (tipo: int64)
    5. Partner              (tipo: object)
    6. Dependents           (tipo: object)
    7. tenure               (tipo: int64)
    8. PhoneService         (tipo: object)
    9. MultipleLines        (tipo: object)
   10. InternetService      (tipo: object)
   11. OnlineSecurity       (tipo: object)
   12. OnlineBackup         (tipo: object)
   13. DeviceProtection     (tipo: object)
   14. TechSupport          (tipo: object)
   15. StreamingTV   

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4



‚úÖ EXTRA√á√ÉO COMPLETA - DADOS PRONTOS PARA TRANSFORMA√á√ÉO!

üì¶ Resultado:
   ‚Ä¢ df_raw: dataset bruto (7,267 √ó 6)
   ‚Ä¢ df_normalized: dataset normalizado (7,267 √ó 21)

üéØ Pr√≥ximo passo: Transforma√ß√£o e Limpeza de Dados
