# Problema de NegÃ³cio - Churn em TelecomunicaÃ§Ãµes

Este notebook ajuda a **entender o problema** antes de codar, definindo objetivos, mÃ©tricas de sucesso e hipÃ³teses.  
Use-o como guia de entrevistas com stakeholders.

## Contexto do NegÃ³cio
- **Objetivo**: reduzir *churn* (cancelamento de clientes) por meio de aÃ§Ãµes proativas.
- **Impacto**: cada cliente retido mantÃ©m receita recorrente (ARPU) e reduz custo de aquisiÃ§Ã£o de novos clientes (CAC).
- **DefiniÃ§Ã£o de churn**: cliente que encerra o contrato no perÃ­odo de referÃªncia (ex.: prÃ³ximo ciclo).

Operadoras perdem receita quando clientes cancelam o serviÃ§o (*churn*).  
Agir antes do cancelamento (retenÃ§Ã£o proativa) Ã© mais barato do que adquirir novos clientes.

**Objetivo:** priorizar clientes com maior risco de churn para aÃ§Ãµes de retenÃ§Ã£o (desconto, upgrade, bÃ´nus), maximizando receita preservada dado um orÃ§amento/capacidade operacional.

### DecisÃµes-chave
- **Janela de previsÃ£o**: risco de churn no prÃ³ximo ciclo (ex.: 30 dias).  
- **PopulaÃ§Ã£o-alvo**: clientes ativos, fora de perÃ­odo de carÃªncia.  
- **EstratÃ©gia operacional**: acionar o *top-k%* da lista ordenada pela probabilidade de churn (k definido por orÃ§amento/capacidade).  
- **MÃ©tricas tÃ©cnicas**: ROC-AUC, PR-AUC, Recall, Precision, Lift.  
- **MÃ©tricas de negÃ³cio**: clientes salvos, receita preservada, ROI.  

---

## ROI (Retorno sobre o Investimento)

O cÃ¡lculo do ROI pode ser feito de forma simples e direta:

1. **Receita salva**  
   Quantos clientes o modelo ajudou a reter Ã— valor mÃ©dio mensal por cliente (ARPU).  

   $$
   \text{Receita Salva} = \text{Clientes Salvos} \times ARPU
   $$

   - **Clientes salvos**: nÃºmero de clientes que teriam cancelado, mas permaneceram apÃ³s a aÃ§Ã£o de retenÃ§Ã£o.  
   - **ARPU** (*Average Revenue Per User*): receita mÃ©dia por cliente, por mÃªs.  

2. **Custo da aÃ§Ã£o**  
   Quantos clientes foram abordados Ã— custo mÃ©dio da aÃ§Ã£o de retenÃ§Ã£o.  

   $$
   \text{Custo} = \text{Clientes Abordados} \times Custo_{aÃ§Ã£o}
   $$

   - **Clientes abordados**: total de clientes que receberam a aÃ§Ã£o (todos os previstos pelo modelo).  
   - **Custo da aÃ§Ã£o**: valor gasto por cliente (ex.: desconto de R\$20, ligaÃ§Ã£o do call center, bÃ´nus).  

3. **ROI**  
   A relaÃ§Ã£o entre o ganho lÃ­quido e o custo:  

   $$
   ROI = \frac{\text{Receita Salva} - \text{Custo}}{\text{Custo}}
   $$

   - Se ROI > 0 â†’ o projeto gera retorno positivo.  
   - Se ROI = 0 â†’ retorno neutro (custo igual Ã  receita preservada).  
   - Se ROI < 0 â†’ prejuÃ­zo (custos superam a receita salva).  

---

## Exemplo rÃ¡pido

- ARPU = **R\$ 100/mÃªs**  
- Modelo sinalizou **1.000 clientes** â†’ todos abordados  
- Desses, **200 foram realmente salvos** com a aÃ§Ã£o  
- Custo da aÃ§Ã£o = **R\$ 20 por cliente**  

**CÃ¡lculo:**
- Receita salva = 200 Ã— 100 = **R\$ 20.000**  
- Custo = 1.000 Ã— 20 = **R\$ 20.000**  
- ROI = (20.000 â€“ 20.000) / 20.000 = **0 (empate)**  

Se o custo fosse menor (R\$ 10), o ROI seria positivo.  

---

## Riscos & Ã‰tica
- Evitar vieses (ex.: idade, renda) e documentar justificativas de uso.  
- Minimizar dados sensÃ­veis; cumprir LGPD; explicar decisÃµes quando possÃ­vel.  

---

## Perguntas de Descoberta (para stakeholders)
1. Como a empresa define churn hoje (regras, datas, rÃ³tulo)?  
2. Qual o ARPU e a margem mÃ©dia por segmento? Existem produtos/planos com ARPU muito diferentes?  
3. Quais aÃ§Ãµes de retenÃ§Ã£o existem, seus custos e limites operacionais?  
4. Qual $k\%$ (ou orÃ§amento) mensal Ã© viÃ¡vel para abordagem?  
5. HÃ¡ restriÃ§Ãµes (jurÃ­dicas, regulatÃ³rias) de uso de variÃ¡veis?  
6. Como serÃ¡ feita a integraÃ§Ã£o (CRM, discador, helpdesk) e o monitoramento pÃ³s-deploy?  

---

## MÃ©tricas de Sucesso
- **TÃ©cnicas**: ROC-AUC, PR-AUC, Recall, Lift.  
- **De negÃ³cio**: clientes retidos, receita preservada, ROI lÃ­quido.  


# Sobre os Dados

## ðŸ“Š DescriÃ§Ã£o do Dataset â€” Telco Customer Churn

O **Telco Customer Churn Dataset** contÃ©m informaÃ§Ãµes de clientes de uma empresa de telecomunicaÃ§Ãµes.  
O objetivo Ã© prever se um cliente irÃ¡ **cancelar o serviÃ§o (Churn = Yes/No)** com base em variÃ¡veis demogrÃ¡ficas, contratuais e de consumo de serviÃ§os.

### ðŸ”‘ Estrutura dos Dados
- **Total de registros**: 7.043 clientes  
- **Total de variÃ¡veis**: 21

### ðŸ“‚ VariÃ¡veis disponÃ­veis

**InformaÃ§Ãµes demogrÃ¡ficas**
- `customerID` â†’ Identificador Ãºnico do cliente
- `gender` â†’ GÃªnero (Male/Female)
- `SeniorCitizen` â†’ Indica se Ã© idoso (1 = Sim, 0 = NÃ£o)
- `Partner` â†’ Possui parceiro(a) (Yes/No)
- `Dependents` â†’ Possui dependentes (Yes/No)

**InformaÃ§Ãµes de permanÃªncia**
- `tenure` â†’ Meses como cliente

**ServiÃ§os contratados**
- `PhoneService` â†’ ServiÃ§o de telefonia (Yes/No)
- `MultipleLines` â†’ Mais de uma linha telefÃ´nica (Yes/No/No phone service)
- `InternetService` â†’ Tipo de internet (DSL, Fiber optic, No)
- `OnlineSecurity` â†’ ServiÃ§o de seguranÃ§a online (Yes/No/No internet service)
- `OnlineBackup` â†’ Backup online (Yes/No/No internet service)
- `DeviceProtection` â†’ ProteÃ§Ã£o de dispositivo (Yes/No/No internet service)
- `TechSupport` â†’ Suporte tÃ©cnico (Yes/No/No internet service)
- `StreamingTV` â†’ TV por streaming (Yes/No/No internet service)
- `StreamingMovies` â†’ Filmes por streaming (Yes/No/No internet service)

**Contrato e cobranÃ§a**
- `Contract` â†’ Tipo de contrato (Month-to-month, One year, Two year)
- `PaperlessBilling` â†’ Fatura digital (Yes/No)
- `PaymentMethod` â†’ MÃ©todo de pagamento (EletrÃ´nico, Cheque, CartÃ£o etc.)
- `MonthlyCharges` â†’ Valor mensal cobrado
- `TotalCharges` â†’ Valor total cobrado

**VariÃ¡vel alvo**
- `Churn` â†’ Cliente cancelou o serviÃ§o? (Yes/No)

---

### ðŸŽ¯ Objetivo do problema
Construir anÃ¡lises e modelos preditivos para identificar clientes com **alto risco de churn**, auxiliando a empresa em estratÃ©gias de retenÃ§Ã£o e tomada de decisÃ£o.


| Campo              | DescriÃ§Ã£o                      |          Tipo (bruto) | Papel                  | Exemplo            | ObservaÃ§Ãµes / Uso de NegÃ³cio                            |
| ------------------ | ------------------------------ | --------------------: | ---------------------- | ------------------ | ------------------------------------------------------- |
| `customerID`       | Identificador Ãºnico do cliente |                string | ID (excluir do modelo) | `7590-VHVEG`       | Usado para *join*/rastreamento; nÃ£o Ã© feature.          |
| `gender`           | GÃªnero do titular              |            categÃ³rico | Feature                | `Female`/`Male`    | Normalmente pouco preditivo; avaliar importÃ¢ncia.       |
| `SeniorCitizen`    | Se Ã© idoso (1/0)               |        numÃ©rico (0/1) | Feature                | `1`                | Converter para categÃ³rico `Yes/No`; atenÃ§Ã£o a vieses.   |
| `Partner`          | Possui cÃ´njuge/companheiro     |            categÃ³rico | Feature                | `Yes`              | Proxy de estabilidade/uso conjunto.                     |
| `Dependents`       | Possui dependentes             |            categÃ³rico | Feature                | `No`               | Pode correlacionar com fidelidade/planos famÃ­lia.       |
| `tenure`           | Meses de relacionamento        |              numÃ©rico | Feature                | `5`                | Forte indicador de risco: churn cai com maior tenure.   |
| `PhoneService`     | Possui telefonia               |            categÃ³rico | Feature                | `Yes`              | Sinaliza pacote de serviÃ§os.                            |
| `MultipleLines`    | MÃºltiplas linhas de telefonia  |            categÃ³rico | Feature                | `No phone service` | Tratar `No phone service` como categoria.               |
| `InternetService`  | Tipo de internet               |            categÃ³rico | Feature                | `Fiber optic`      | Fibra costuma ter dinÃ¢mica de churn distinta.           |
| `OnlineSecurity`   | ServiÃ§o de seguranÃ§a online    |            categÃ³rico | Feature                | `No`               | ServiÃ§os adicionais indicam engajamento.                |
| `OnlineBackup`     | Backup online                  |            categÃ³rico | Feature                | `Yes`              | idem.                                                   |
| `DeviceProtection` | ProteÃ§Ã£o de dispositivo        |            categÃ³rico | Feature                | `No`               | idem.                                                   |
| `TechSupport`      | Suporte tÃ©cnico                |            categÃ³rico | Feature                | `No`               | InsatisfaÃ§Ã£o com suporte pode elevar churn.             |
| `StreamingTV`      | Streaming de TV                |            categÃ³rico | Feature                | `Yes`              | Itens de entretenimento aumentam *stickiness*.          |
| `StreamingMovies`  | Streaming de filmes            |            categÃ³rico | Feature                | `No`               | idem.                                                   |
| `Contract`         | Tipo de contrato               |            categÃ³rico | Feature                | `Month-to-month`   | **Muito preditivo**; mensal tende a maior churn.        |
| `PaperlessBilling` | Fatura eletrÃ´nica              |            categÃ³rico | Feature                | `Yes`              | Pode correlacionar com perfil digital e experiÃªncia.    |
| `PaymentMethod`    | MÃ©todo de pagamento            |            categÃ³rico | Feature                | `Electronic check` | Cheque eletrÃ´nico costuma associar a maior churn.       |
| `MonthlyCharges`   | CobranÃ§a mensal (R\$)          |              numÃ©rico | Feature                | `70.35`            | Normalizar; olhar relaÃ§Ã£o nÃ£o linear com churn.         |
| `TotalCharges`     | CobranÃ§a total acumulada       | numÃ©rico (string/num) | Feature                | `1397.47`          | Converter p/ float; imputar vazios iniciais (tenure=0). |
| `Churn`            | Cancelou o serviÃ§o?            |   categÃ³rico (Yes/No) | **Alvo**               | `Yes`              | Converter para binÃ¡rio (1/0); estratificar split.       |


In [2]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("blastchar/telco-customer-churn")

print("Path to dataset files:", path)

Path to dataset files: /kaggle/input/telco-customer-churn


In [3]:
import pandas as pd

df = pd.read_csv('/kaggle/input/telco-customer-churn/WA_Fn-UseC_-Telco-Customer-Churn.csv')
df.shape

(7043, 21)

### Vamos olhar os dados, conhecer os dados, explorar os dados

In [4]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [7]:
df.InternetService.unique()

array(['DSL', 'Fiber optic', 'No'], dtype=object)

In [8]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive
