# An√°lise de Evas√£o de Clientes - Telecom X

## üìñ Contexto

Neste projeto, nosso objetivo √© realizar uma an√°lise explorat√≥ria detalhada sobre os dados de uma empresa de telecomunica√ß√µes fict√≠cia, a Telecom X. O foco principal √© identificar os fatores que mais contribuem para a evas√£o de clientes, conhecida como **Churn**. Compreender os motivos que levam os clientes a cancelar seus servi√ßos √© crucial para desenvolver estrat√©gias de reten√ß√£o eficazes e melhorar a satisfa√ß√£o geral.

## üìå Extra√ß√£o
A primeira etapa do nosso processo de an√°lise consiste na extra√ß√£o dos dados. Nesta fase, carregamos as bibliotecas necess√°rias para manipula√ß√£o e visualiza√ß√£o de dados e importamos as informa√ß√µes do arquivo `TelecomX_Data.json` para o nosso ambiente de trabalho. A extra√ß√£o correta √© fundamental para garantir que temos a mat√©ria-prima necess√°ria para as pr√≥ximas etapas de transforma√ß√£o e an√°lise.

In [1]:
import pandas as pd
import numpy as np
import json
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8')
sns.set_palette('Set2')

with open('TelecomX_Data.json', 'r') as file:
    data = json.load(file)

## üîß Transforma√ß√£o
Com os dados extra√≠dos, a pr√≥xima etapa √© a **transforma√ß√£o**. O arquivo JSON original possui uma estrutura aninhada, o que dificulta a an√°lise direta. Para resolver isso, criamos uma fun√ß√£o para achatar os dados, transformando-os em um formato tabular (linhas e colunas) e armazenando-os em um DataFrame do Pandas.

Al√©m disso, realizamos as seguintes transforma√ß√µes e limpezas:
- Convers√£o das colunas `TotalCharges` e `MonthlyCharges` para o tipo num√©rico, tratando valores n√£o num√©ricos.
- Ajuste da coluna `SeniorCitizen` para o tipo inteiro.
- Padroniza√ß√£o dos valores da coluna `Churn`, substituindo valores vazios por 'No'.
- Cria√ß√£o de uma coluna bin√°ria `Churn_Binary` (1 para 'Yes', 0 para 'No') para facilitar c√°lculos e an√°lises futuras.

In [2]:
def flatten_customer_data(customer_record):
    flattened = {}
    
    flattened['customerID'] = customer_record.get('customerID', '')
    flattened['Churn'] = customer_record.get('Churn', '')
    
    customer_info = customer_record.get('customer', {})
    for key, value in customer_info.items():
        flattened[key] = value
    
    phone_info = customer_record.get('phone', {})
    for key, value in phone_info.items():
        flattened[key] = value
    
    internet_info = customer_record.get('internet', {})
    for key, value in internet_info.items():
        flattened[key] = value
    
    account_info = customer_record.get('account', {})
    for key, value in account_info.items():
        if key == 'Charges':
            charges = value
            flattened['MonthlyCharges'] = charges.get('Monthly', 0)
            flattened['TotalCharges'] = charges.get('Total', '0')
        else:
            flattened[key] = value
    
    return flattened

flattened_data = [flatten_customer_data(record) for record in data]
df = pd.DataFrame(flattened_data)

df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df['MonthlyCharges'] = pd.to_numeric(df['MonthlyCharges'], errors='coerce')
df['SeniorCitizen'] = df['SeniorCitizen'].astype(int)

df['Churn'] = df['Churn'].replace('', 'No')
df['Churn_Binary'] = df['Churn'].map({'Yes': 1, 'No': 0})

# Lidando com valores ausentes
df['TotalCharges'].fillna(df['TotalCharges'].median(), inplace=True)

print(f'Shape do DataFrame: {df.shape}')
print(f'\nColunas dispon√≠veis:')
print(df.columns.tolist())
print(f'\nPrimeiras linhas:')
df.head()

Shape do DataFrame: (7267, 22)

Colunas dispon√≠veis:
['customerID', 'Churn', 'gender', 'SeniorCitizen', 'Partner', 'Dependents', 'tenure', 'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn_Binary']

Primeiras linhas:


## üìä Carga e An√°lise Explorat√≥ria (EDA)
Nesta se√ß√£o, iniciamos a **An√°lise Explorat√≥ria de Dados (EDA)**. O objetivo √© obter uma compreens√£o inicial do conjunto de dados, verificando sua estrutura, tipos de dados, estat√≠sticas descritivas e a presen√ßa de valores ausentes. Esta √© uma etapa essencial para guiar nossas an√°lises futuras e a constru√ß√£o de visualiza√ß√µes relevantes.

In [3]:
print('=== AN√ÅLISE EXPLORAT√ìRIA DE DADOS ===')
print(f'\nInforma√ß√µes gerais do dataset:')
df.info()

=== AN√ÅLISE EXPLORAT√ìRIA DE DADOS ===

Informa√ß√µes gerais do dataset:
<class 'pandas.core.frame.DataFrame'>
...

In [4]:
print(f'\nEstat√≠sticas descritivas:')
df.describe()

### An√°lise da Vari√°vel Alvo: Churn
O primeiro passo da nossa an√°lise √© entender a distribui√ß√£o da nossa vari√°vel alvo, o `Churn`. Os gr√°ficos abaixo mostram a propor√ß√£o de clientes que evadiram em compara√ß√£o com os que permaneceram.

**Insights:**
- A taxa de churn geral √© de aproximadamente **25.72%**. Isso significa que cerca de um em cada quatro clientes cancelou seu servi√ßo.
- A maioria dos clientes (**74.28%**) permaneceu na base, mas a taxa de evas√£o √© significativa e justifica uma investiga√ß√£o mais aprofundada para identificar suas causas.

In [5]:
print(f"\nDistribui√ß√£o da Evas√£o (Churn):\n{df['Churn'].value_counts()}\n")
churn_rate = (df['Churn'].value_counts(normalize=True)['Yes'] * 100)
print(f'Taxa de Evas√£o (Churn): {churn_rate:.2f}%\n')

fig = px.pie(df, names='Churn', title='Distribui√ß√£o de Evas√£o (Churn) - Interativo', hole=0.3)
fig.show()

### An√°lise Demogr√°fica vs. Churn
A seguir, analisamos a rela√ß√£o entre as caracter√≠sticas demogr√°ficas dos clientes (g√™nero, se s√£o idosos, se possuem parceiro(a) e se possuem dependentes) e a taxa de churn.

**Insights:**
- **G√™nero**: A taxa de churn √© muito semelhante entre homens e mulheres, sugerindo que o g√™nero n√£o √© um fator determinante para a evas√£o.
- **Idosos (SeniorCitizen)**: Clientes idosos apresentam uma taxa de churn consideravelmente maior (**40.3%**) em compara√ß√£o com clientes n√£o idosos (**22.9%**). Isso pode indicar que os produtos ou servi√ßos n√£o est√£o atendendo bem a este grupo ou que eles s√£o mais sens√≠veis a pre√ßo.
- **Parceiro(a) (Partner)**: Clientes sem parceiro(a) t√™m uma taxa de evas√£o maior (**32.0%**) do que os que possuem (**19.0%**). Relacionamentos podem ser um fator de estabilidade.
- **Dependentes (Dependents)**: De forma semelhante, clientes sem dependentes tendem a evadir mais (**30.3%**) do que aqueles que os possuem (**14.9%**). A presen√ßa de dependentes parece ser um forte fator de reten√ß√£o.

In [6]:
demographic_features = ['gender', 'SeniorCitizen', 'Partner', 'Dependents']
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('An√°lise Demogr√°fica vs. Churn', fontsize=20)
axes = axes.ravel()

for i, col in enumerate(demographic_features):
    churn_by_col = df.groupby(col)['Churn'].value_counts(normalize=True).unstack()
    churn_by_col.plot(kind='pie', y='Yes', ax=axes[i], autopct='%1.1f%%', legend=False, 
                        title=f'Churn por {col}', textprops={'fontsize': 12})
    axes[i].set_ylabel('')

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

### An√°lise de Faturamento e Tempo de Contrato (Tenure) vs. Churn
Analisamos agora as vari√°veis cont√≠nuas: `tenure` (tempo em meses que o cliente permanece na empresa), `MonthlyCharges` (cobran√ßas mensais) e `TotalCharges` (cobran√ßas totais). Os histogramas mostram a distribui√ß√£o desses valores para clientes que evadiram (Churn=Yes) e os que n√£o evadiram (Churn=No).

**Insights:**
- **Perman√™ncia (Tenure)**: O gr√°fico de `tenure` mostra claramente que clientes com **pouco tempo de contrato** (baixa perman√™ncia) t√™m uma taxa de churn muito mais alta. A evas√£o √© significativamente maior nos primeiros meses de servi√ßo, diminuindo drasticamente √† medida que o cliente permanece mais tempo na empresa.
- **Cobran√ßas Mensais (MonthlyCharges)**: Clientes com **cobran√ßas mensais mais altas** tendem a evadir mais. H√° uma concentra√ß√£o de churn na faixa de R$70 a R$100, indicando que este pode ser um ponto de pre√ßo sens√≠vel.
- **Cobran√ßas Totais (TotalCharges)**: Clientes com **baixas cobran√ßas totais** t√™m maior probabilidade de churn. Isso est√° diretamente relacionado ao `tenure`, j√° que clientes novos (baixo tenure) naturalmente ter√£o um total de cobran√ßas menor.

In [7]:
fig_tenure = px.histogram(df, x='tenure', color='Churn', title='Distribui√ß√£o de Perman√™ncia (Tenure) por Status de Evas√£o (Churn)', barmode='overlay', nbins=30)
fig_tenure.show()

fig_monthly = px.histogram(df, x='MonthlyCharges', color='Churn', title='Distribui√ß√£o de Cobran√ßas Mensais por Status de Evas√£o (Churn)', barmode='overlay', nbins=30)
fig_monthly.show()

fig_total = px.histogram(df, x='TotalCharges', color='Churn', title='Distribui√ß√£o de Cobran√ßas Totais por Status de Evas√£o (Churn)', barmode='overlay', nbins=30)
fig_total.show()

### An√°lise de Servi√ßos e Contrato vs. Taxa de Churn
Por fim, investigamos como diferentes tipos de servi√ßos e contratos se relacionam com a taxa de churn. Estes gr√°ficos de barras mostram o percentual de evas√£o para cada categoria das vari√°veis selecionadas.

**Insights:**
- **Servi√ßo de Internet (InternetService)**: Clientes com servi√ßo de **Fibra √ìptica** t√™m a maior taxa de churn (**40.6%**), quase o dobro da taxa de clientes com DSL (**18.4%**). Isso pode sinalizar problemas de qualidade, instabilidade ou uma percep√ß√£o de custo-benef√≠cio ruim para o servi√ßo de fibra.
- **Contrato (Contract)**: Este √© um dos fatores mais impactantes. Clientes com contrato **M√™s a M√™s (Month-to-month)** apresentam uma taxa de churn alt√≠ssima de **41.3%**. Em contraste, contratos de **Um Ano (10.9%)** e **Dois Anos (2.8%)** t√™m taxas de evas√£o drasticamente menores, evidenciando que contratos de longo prazo s√£o uma poderosa ferramenta de reten√ß√£o.
- **Forma de Pagamento (PaymentMethod)**: Clientes que utilizam **cheque eletr√¥nico (Electronic check)** como forma de pagamento t√™m a taxa de churn mais elevada (**43.8%**). Clientes com pagamentos autom√°ticos (transfer√™ncia banc√°ria ou cart√£o de cr√©dito) apresentam taxas muito menores, sugerindo que a conveni√™ncia e a automa√ß√£o do pagamento contribuem para a reten√ß√£o.

In [8]:
categorical_features = ['gender', 'SeniorCitizen', 'Partner', 'Dependents', 'PhoneService', 'InternetService', 'Contract', 'PaymentMethod']

fig = make_subplots(rows=4, cols=2, subplot_titles=categorical_features, vertical_spacing=0.1)

for i, col in enumerate(categorical_features):
    row = i // 2 + 1
    col_pos = i % 2 + 1
    churn_rate_by_cat = df.groupby(col)['Churn_Binary'].mean().reset_index()
    churn_rate_by_cat['Churn_Rate_%'] = churn_rate_by_cat['Churn_Binary'] * 100
    
    fig.add_trace(go.Bar(x=churn_rate_by_cat[col], y=churn_rate_by_cat['Churn_Rate_%'], name=col), row=row, col=col_pos)

fig.update_layout(height=1200, title_text="Taxa de Churn (%) por Vari√°vel Categ√≥rica", showlegend=False)
fig.show()

# üìú Relat√≥rio Final da An√°lise de Evas√£o da Telecom X

## 1. Introdu√ß√£o

Este relat√≥rio apresenta uma an√°lise detalhada sobre a evas√£o de clientes (Churn) na empresa Telecom X. O principal objetivo foi identificar os perfis de clientes com maior probabilidade de cancelamento e os fatores que mais influenciam essa decis√£o. A an√°lise foi realizada com base no arquivo de dados `TelecomX_Data.json` e as conclus√µes aqui apresentadas podem servir como base para a cria√ß√£o de estrat√©gias focadas na reten√ß√£o de clientes.

## 2. Passos da An√°lise

O processo de an√°lise foi dividido nas seguintes etapas:

#### a. Extra√ß√£o e Transforma√ß√£o dos Dados
Os dados foram extra√≠dos de um arquivo JSON com estrutura aninhada. Foi necess√°rio aplicar um processo de transforma√ß√£o para "achatar" os dados em um formato tabular, adequado para an√°lise. Durante esta fase, tamb√©m foram realizadas as seguintes limpezas e prepara√ß√µes:
- Convers√£o de colunas de cobran√ßa para formato num√©rico.
- Tratamento de 11 registros com valores ausentes na coluna `TotalCharges`, substituindo-os pela mediana da coluna para n√£o impactar a distribui√ß√£o.
- Padroniza√ß√£o e cria√ß√£o da vari√°vel alvo `Churn_Binary`.

#### b. An√°lise Explorat√≥ria e Visualiza√ß√£o
Com os dados limpos e estruturados, iniciamos a an√°lise explorat√≥ria para entender as caracter√≠sticas dos clientes e como elas se relacionam com o churn. A taxa geral de churn identificada foi de **25.72%**.

As principais visualiza√ß√µes criadas para extrair insights foram:
- **Gr√°ficos de Pizza e Barras**: Para analisar a taxa de churn em rela√ß√£o a vari√°veis demogr√°ficas e de servi√ßos.
- **Histogramas**: Para observar a distribui√ß√£o de vari√°veis cont√≠nuas (tempo de contrato, cobran√ßa mensal e total) entre clientes que evadiram e os que permaneceram.

## 3. Insights e Conclus√µes

A an√°lise revelou padr√µes claros e fatores de risco associados √† evas√£o de clientes:

**Perfil do Cliente com Alto Risco de Churn:**
- **Clientes Novos**: A taxa de churn √© alt√≠ssima nos primeiros meses. Clientes com baixo `tenure` s√£o os mais propensos a cancelar.
- **Clientes com Contrato M√™s a M√™s**: Este tipo de contrato apresenta uma taxa de evas√£o de **41.3%**, sendo o principal indicador de risco.
- **Clientes com Internet de Fibra √ìptica**: Surpreendentemente, este servi√ßo possui uma taxa de churn de **40.6%**, sugerindo poss√≠veis problemas de qualidade, pre√ßo ou concorr√™ncia.
- **Clientes com Cobran√ßas Mensais Elevadas**: A evas√£o aumenta significativamente para clientes na faixa de R$70-R$100 mensais.
- **Forma de Pagamento por Cheque Eletr√¥nico**: Esta forma de pagamento est√° associada a uma taxa de churn de **43.8%**, muito superior a m√©todos autom√°ticos.
- **Clientes Idosos e Sem Dependentes**: Idosos e clientes sem parceiro(a) ou dependentes tamb√©m mostraram uma maior propens√£o √† evas√£o.

**Fatores de Reten√ß√£o (Baixo Risco de Churn):**
- **Contratos de Longo Prazo**: Contratos de 1 ou 2 anos s√£o extremamente eficazes na reten√ß√£o, com taxas de churn de apenas **10.9%** e **2.8%**, respectivamente.
- **Clientes Antigos**: Quanto maior o `tenure`, menor a chance de churn.
- **Pagamentos Autom√°ticos**: Clientes que utilizam d√©bito autom√°tico ou cart√£o de cr√©dito t√™m taxas de evas√£o muito menores.
- **Clientes com Dependentes**: A presen√ßa de dependentes √© um forte indicador de reten√ß√£o (**14.9%** de churn).

## 4. Recomenda√ß√µes e Pr√≥ximos Passos

Com base nos insights gerados, recomendamos as seguintes a√ß√µes:

1.  **Estrat√©gias para Contratos de Longo Prazo**: Criar campanhas e oferecer incentivos (descontos, benef√≠cios exclusivos) para que clientes com contrato m√™s a m√™s migrem para planos anuais ou bianuais.
2.  **Investigar o Servi√ßo de Fibra √ìptica**: Realizar uma an√°lise de causa-raiz para entender por que a taxa de churn √© t√£o alta neste servi√ßo. Pode envolver pesquisas de satisfa√ß√£o, an√°lise t√©cnica da infraestrutura e compara√ß√£o de pre√ßos com concorrentes.
3.  **Aten√ß√£o aos Clientes Novos**: Implementar um programa de *onboarding* e acompanhamento pr√≥ximo nos primeiros meses para garantir que o cliente perceba o valor do servi√ßo e tenha uma boa experi√™ncia inicial.
4.  **Incentivar Pagamentos Autom√°ticos**: Oferecer pequenos descontos ou benef√≠cios para clientes que aderirem ao pagamento autom√°tico, reduzindo o atrito no processo de pagamento e o risco de cancelamento por inadimpl√™ncia ou esquecimento.
5.  **A√ß√µes de Reten√ß√£o Preditiva**: Como pr√≥ximo passo, recomendamos o desenvolvimento de um **modelo de machine learning** para prever a probabilidade de churn de cada cliente individualmente. Isso permitiria √† Telecom X agir de forma proativa, direcionando ofertas de reten√ß√£o personalizadas para os clientes com maior risco de evas√£o antes que eles decidam cancelar.