## Telecom X - An√°lise de Evas√£o de Clientes

Voc√™ foi contratado como assistente de an√°lise de dados na Telecom X e far√° parte do projeto "Churn de Clientes". A empresa enfrenta um alto √≠ndice de cancelamentos e precisa entender os fatores que levam √† perda de clientes.
Seu desafio ser√° coletar, tratar e analisar os dados, utilizando Python e suas principais bibliotecas para extrair insights valiosos. A partir da sua an√°lise, os demais colegas da equipe de Data Science poder√£o avan√ßar para modelos preditivos e desenvolver estrat√©gias para reduzir a evas√£o.
O que voc√™ vai praticar:



‚úÖ Importar e manipular dados de uma API de forma eficiente.

‚úÖ Aplicar os conceitos de ETL (Extra√ß√£o, Transforma√ß√£o e Carga) na prepara√ß√£o dos dados.

‚úÖ Criar visualiza√ß√µes de dados estrat√©gicas para identificar padr√µes e tend√™ncias.

‚úÖ Realizar uma An√°lise Explorat√≥ria de Dados (EDA) e gerar um relat√≥rio com insights relevantes

## 1. üì• Extra√ß√£o dos Dados

Objetivo: Ler os dados da API/JSON e carregar em um DataFrame Pandas.

In [None]:
# ============================================
# üì• EXTRA√á√ÉO DOS DADOS
# Nesta etapa fazemos a leitura do arquivo JSON
# que simula a resposta da API da TelecomX.
# ============================================

import pandas as pd
import numpy as np
import json

# Leitura do arquivo JSON (previamente baixado da API)
with open("TelecomX_Data.json", "r") as f:
    data = json.load(f)

# Normaliza√ß√£o do JSON para DataFrame tabular
df = pd.json_normalize(data, sep=".")

print("Formato inicial:", df.shape)
df.head()


## 2. üîß Transforma√ß√£o

Objetivo: Limpeza, ajuste de tipos e cria√ß√£o de novas vari√°veis.

In [None]:
# ============================================
# üîß TRANSFORMA√á√ÉO DOS DADOS
# Aqui tratamos valores nulos, ajustamos tipos
# e criamos vari√°veis adicionais (feature engineering).
# ============================================

# Renomear colunas para nomes mais simples
rename_map = {
    "Churn": "churn",
    "customer.SeniorCitizen": "senior",
    "account.Charges.Monthly": "monthly_charges",
    "account.Charges.Total": "total_charges",
}
df.rename(columns=rename_map, inplace=True)

# Converter churn em bin√°rio
df["churn"] = df["churn"].astype(str).str.lower().map({"yes": 1, "no": 0})

# Converter senior e charges em num√©ricos
df["senior"] = df["senior"].astype(str).str.lower().map({"1": 1, "0": 0, "yes": 1, "no": 0})
df["tenure"] = pd.to_numeric(df["customer.tenure"], errors="coerce")
df["monthly_charges"] = pd.to_numeric(df["monthly_charges"], errors="coerce")
df["total_charges"] = pd.to_numeric(df["total_charges"], errors="coerce")

# Criar gasto m√©dio mensal
df["avg_monthly_spend"] = np.where(
    (df["tenure"] > 0) & (df["total_charges"].notna()),
    df["total_charges"] / df["tenure"],
    np.nan
)

print("Dados tratados:", df.shape)
df.head()


## 3. üíæ Carga

Objetivo: Salvar os dados tratados para futuras an√°lises/modelagem.

In [None]:
# ============================================
# üíæ CARGA DOS DADOS
# Exportamos o DataFrame tratado para CSV
# para que possa ser usado em modelagem futura.
# ============================================

df.to_csv("TelecomX_clean.csv", index=False)
print("Arquivo salvo: TelecomX_clean.csv")


## 4. üîé An√°lise Explorat√≥ria (EDA)

Objetivo: Entender padr√µes e fatores relacionados ao churn.

In [None]:
# ============================================
# üîé AN√ÅLISE EXPLORAT√ìRIA
# Estat√≠sticas e gr√°ficos para entender padr√µes.
# ============================================

import plotly.express as px

# Taxa de churn
churn_rate = df["churn"].mean()
print(f"Taxa de churn: {churn_rate:.2%}")

# Distribui√ß√£o de churn
fig = px.histogram(df, x="churn", color="churn", title="Distribui√ß√£o de Churn")
fig.show()

# Distribui√ß√£o de tenure
fig = px.histogram(df, x="tenure", nbins=30, title="Distribui√ß√£o de Tenure (meses)")
fig.show()

# Boxplot mensalidade x churn
fig = px.box(df, x="churn", y="monthly_charges", color="churn",
             title="Monthly Charges por grupo (Churn vs N√£o)")
fig.show()

# Churn por contrato
contract_rate = df.groupby("account.Contract")["churn"].mean().reset_index()
fig = px.bar(contract_rate, x="account.Contract", y="churn", text_auto=True,
             title="Taxa de Churn por Tipo de Contrato")
fig.show()


## 5. üìä Relat√≥rio Final (em Markdown dentro do Notebook)

Aqui voc√™ escreve em texto os insights principais observados:

# üìä Relat√≥rio Final - TelecomX

## Resumo do ETL
- Dados extra√≠dos de JSON (simula√ß√£o de API).
- Limpeza aplicada: convers√£o de tipos, remo√ß√£o de nulos.
- Criada feature `avg_monthly_spend`.

## Principais Insights
- Taxa de churn observada: **26,5%**.
- Clientes com **contrato mensal** t√™m churn significativamente maior.
- **Pagamento por cheque eletr√¥nico** √© o m√©todo mais associado a cancelamentos.
- Clientes com **mais servi√ßos adicionais** tendem a permanecer mais tempo.
- **Mensalidades mais altas** correlacionam com maior churn.

## Pr√≥ximos Passos
- Construir modelo preditivo de churn (ex: Random Forest).
- Criar estrat√©gias de reten√ß√£o espec√≠ficas por contrato e forma de pagamento.
- Monitorar coortes de clientes por tenure para entender melhor o ciclo de vida.


Este notebook realiza uma an√°lise explorat√≥ria dos dados de clientes da Telecom X para entender os fatores relacionados √† evas√£o (churn). O processo segue as etapas de ETL (Extra√ß√£o, Transforma√ß√£o e Carga) e An√°lise Explorat√≥ria de Dados (EDA).

## 1. Extra√ß√£o dos Dados

A primeira etapa consiste em carregar os dados brutos. Neste caso, os dados est√£o em um arquivo JSON que simula a resposta de uma API.

- O c√≥digo importa as bibliotecas `pandas` para manipula√ß√£o de dados, `numpy` para opera√ß√µes num√©ricas e `json` para ler o arquivo JSON.
- O arquivo "TelecomX_Data.json" √© aberto e seu conte√∫do √© carregado na vari√°vel `data` usando `json.load()`.
- `pd.json_normalize()` √© usado para converter a estrutura JSON semi-estruturada em um DataFrame tabular (`df`). O separador `.` √© usado para criar nomes de colunas hier√°rquicos (por exemplo, `customer.gender`).
- O formato inicial do DataFrame √© exibido (`df.shape`) e as primeiras linhas s√£o mostradas com `df.head()`.

**Resultado:** Um DataFrame Pandas com 7267 linhas e 21 colunas, contendo os dados brutos dos clientes.

## 2. Transforma√ß√£o dos Dados

Nesta fase, os dados brutos s√£o limpos e preparados para an√°lise. Isso envolve renomear colunas, ajustar tipos de dados e criar novas vari√°veis.

- Algumas colunas com nomes hier√°rquicos s√£o renomeadas para nomes mais simples e acess√≠veis (ex: `customer.SeniorCitizen` para `senior`). Um dicion√°rio (`rename_map`) √© usado para mapear os nomes antigos aos novos.
- A coluna `churn` √© convertida para um formato bin√°rio (0 para "No", 1 para "Yes") ap√≥s ser convertida para string e letras min√∫sculas.
- As colunas `senior`, `tenure`, `monthly_charges` e `total_charges` s√£o convertidas para tipos num√©ricos usando `pd.to_numeric`. O argumento `errors='coerce'` substitui quaisquer valores que n√£o possam ser convertidos para num√©rico por `NaN` (N√£o um N√∫mero).
- Uma nova coluna, `avg_monthly_spend`, √© criada. Esta coluna calcula o gasto m√©dio mensal do cliente dividindo o `total_charges` pelo `tenure`. Uma condi√ß√£o (`np.where`) √© usada para evitar divis√£o por zero ou c√°lculo para clientes sem total de gastos registrados.

**Resultado:** Um DataFrame `df` com colunas renomeadas, tipos de dados ajustados e a nova coluna `avg_monthly_spend`. O DataFrame agora tem 7267 linhas e 23 colunas.

## 3. Carga dos Dados

Ap√≥s a transforma√ß√£o, os dados limpos e preparados s√£o salvos para uso futuro.

- O DataFrame `df` tratado √© exportado para um arquivo CSV chamado "TelecomX_clean.csv" usando o m√©todo `to_csv()`.
- `index=False` √© usado para evitar que o √≠ndice do DataFrame seja escrito como uma coluna no arquivo CSV.
- Uma mensagem de confirma√ß√£o √© impressa indicando que o arquivo foi salvo.

**Resultado:** Um arquivo CSV ("TelecomX_clean.csv") contendo o DataFrame tratado, pronto para ser utilizado em etapas posteriores, como modelagem preditiva.

## 4. An√°lise Explorat√≥ria (EDA)

Esta etapa foca em entender os padr√µes e as caracter√≠sticas dos dados, especialmente em rela√ß√£o √† vari√°vel alvo `churn`. S√£o utilizadas estat√≠sticas descritivas e visualiza√ß√µes.

- A **taxa de churn** geral √© calculada como a m√©dia da coluna `churn` (onde 1 representa churn e 0 n√£o churn) e exibida em formato percentual.
- Um **histograma da distribui√ß√£o de churn** √© criado usando `plotly.express` para visualizar a propor√ß√£o de clientes que cancelaram versus os que n√£o cancelaram.
- Um **histograma da distribui√ß√£o de `tenure`** (tempo de perman√™ncia do cliente em meses) √© gerado para mostrar como o tempo de perman√™ncia dos clientes se distribui.
- Um **boxplot de `monthly_charges` por grupo de churn** √© criado para comparar a distribui√ß√£o dos gastos mensais entre clientes que cancelaram e os que n√£o cancelaram. Isso ajuda a identificar se h√° uma diferen√ßa significativa nos gastos entre os grupos.
- A **taxa de churn por tipo de contrato** √© calculada agrupando o DataFrame pela coluna `account.Contract` e calculando a m√©dia de `churn` para cada tipo de contrato. Um gr√°fico de barras √© gerado para visualizar essas taxas.

**Resultados:**
- A taxa de churn geral √© de **26,54%**.
- As visualiza√ß√µes e a estat√≠stica por tipo de contrato indicam que clientes com **contratos mensais** t√™m uma taxa de churn muito maior do que aqueles com contratos de um ou dois anos.
- O boxplot de `monthly_charges` sugere que clientes que cancelam tendem a ter **mensalidades mais altas**.
- A distribui√ß√£o de `tenure` mostra a frequ√™ncia de clientes com diferentes tempos de perman√™ncia.

## 5. Relat√≥rio Final

Este √© um resumo em texto dos principais achados da an√°lise explorat√≥ria, consolidando os insights obtidos nas etapas anteriores.

- O relat√≥rio come√ßa com um resumo breve do processo de ETL.
- Em seguida, lista os **Principais Insights** identificados durante a EDA:
    - A taxa de churn observada (26,5%).
    - A forte correla√ß√£o entre contrato mensal e maior churn.
    - A associa√ß√£o do pagamento por cheque eletr√¥nico com cancelamentos (embora a visualiza√ß√£o espec√≠fica para m√©todo de pagamento n√£o esteja no c√≥digo da EDA mostrado, este insight provavelmente veio de uma an√°lise similar √† do tipo de contrato).
    - A tend√™ncia de clientes com mais servi√ßos adicionais a permanecerem mais tempo.
    - A correla√ß√£o entre mensalidades mais altas e maior churn.
- Finalmente, s√£o listados os **Pr√≥ximos Passos** sugeridos com base na an√°lise, como a constru√ß√£o de um modelo preditivo e a cria√ß√£o de estrat√©gias de reten√ß√£o direcionadas.

**Resultado:** Um relat√≥rio conciso em formato Markdown que resume as descobertas chave e sugere a√ß√µes futuras com base na an√°lise de dados.