Telecom X - An√°lise de Evas√£o de Clientes
Voc√™ foi contratado como assistente de an√°lise de dados na Telecom X e far√° parte do projeto "Churn de Clientes". A empresa enfrenta um alto √≠ndice de cancelamentos e precisa entender os fatores que levam √† perda de clientes.

Seu desafio ser√° coletar, tratar e analisar os dados, utilizando Python e suas principais bibliotecas para extrair insights valiosos. A partir da sua an√°lise, os demais colegas da  equipe de Data Science poder√° avan√ßar para modelos preditivos e desenvolver estrat√©gias para reduzir a evas√£o.

O que voc√™ vai praticar:

‚úÖ Importar e manipular dados de uma API de forma eficiente.

‚úÖ Aplicar os conceitos de ETL (Extra√ß√£o, Transforma√ß√£o e Carga) na prepara√ß√£o dos dados.

‚úÖ Criar visualiza√ß√µes de dados estrat√©gicas para identificar padr√µes e tend√™ncias.

‚úÖ Realizar uma An√°lise Explorat√≥ria de Dados (EDA) e gerar um relat√≥rio com insights relevantes.

Dicion√°rio de dados

**customerID:** n√∫mero de identifica√ß√£o √∫nico de cada cliente

**Churn:** se o cliente deixou ou n√£o a empresa

**gender:** g√™nero (masculino e feminino)

**SeniorCitizen:** informa√ß√£o sobre um cliente ter ou n√£o idade igual ou maior que 65 anos

**Partner:** se o cliente possui ou n√£o um parceiro ou parceira

**Dependents:** se o cliente possui ou n√£o dependentes

**tenure:** meses de contrato do cliente

**PhoneService:** assinatura de servi√ßo telef√¥nico

**MultipleLines:** assisnatura de mais de uma linha de telefone

**InternetService:** assinatura de um provedor internet

**OnlineSecurity:** assinatura adicional de seguran√ßa online

**OnlineBackup:** assinatura adicional de backup online

**DeviceProtection:** assinatura adicional de prote√ß√£o no dispositivo

**TechSupport:** assinatura adicional de suporte t√©cnico, menos tempo de espera

**StreamingTV:** assinatura de TV a cabo

**StreamingMovies:** assinatura de streaming de filmes

**Contract:** tipo de contrato

**PaperlessBilling:** se o cliente prefere receber online a fatura

**PaymentMethod:** forma de pagamento

**Charges.Monthly:** total de todos os servi√ßos do cliente por m√™s

**Charges.Total:** total gasto pelo cliente


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import seaborn as sns
import plotly.express as px
import plotly.subplots as sp
import plotly.graph_objects as go


# **Extra√ß√£o de dados do GitHub** (**E**TL)

In [None]:
url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json'
df = pd.read_json(url)

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
#Normalizando o arquivo Json

registros = df.to_dict(orient='records') # convertendo todas as linhas em listas de dicion√°rios:

df_flat = pd.json_normalize(registros)

df_flat.head(10)

Como a fun√ß√£o que normaliza arquivos json s√≥ aceita dicion√°rios ou listas de dicionarios, criamos uma variavel registros que √© a convers√£o do o nosso dataframe em uma lista dicionarios orientado pelas linhas do Df, assim podemos aplicar a fun√ß√£o de normaliza√ß√£o em todo o dataframe direto sem ter que normalizar coluna a coluna.

# **Transforma√ß√£o dos dados** (E**T**L)

### **Conhecendo nosso dataset!**

In [None]:
type(df_flat) # Confirmando a cria√ß√£o do nosso Dataframe

In [None]:
df_flat.shape #Verificando o n√∫mero de linhas e colunas

In [None]:
df_flat.columns #Verificando o nome das colunas

Podemos ver que agora temos um Dataframe com todas colunas condizentes com as vari√°veis passadas para a gente no inicio do projeto dentro do dicion√°rio. Para uma an√°lise de evas√£o de clientes, as colunas mais interressantes parecem ser: meses de contratos, gastos mensais, gasto total, tipo de contrato, forma de pagamento, sevi√ßos no geral e dentre outros.

In [None]:
df_flat.info()

Em uma primeira vista, ap√≥s a normaliza√ß√£o, podemos ver que temos um total de 21 colunas e 7267 linhas ou entradas. Dentro das colunas, n√£o temos nenhum valor nulo e podemos confirmar isso posteriormente com alguns m√©todos.
Algumas variaveis est√£o com tipagem objeto e talvez seja preciso formatar

### **Verificando inconsist√™ncias!**

In [None]:
#Checando valores ausentes (Null)
missing_counts = df_flat.isnull().sum()
print("Nulos por coluna:\n", missing_counts)


Bom como j√° haviamos tido uma pr√©via com o m√©todo info, n√£o temos valores ausentes dentro das nossas colunas.

In [None]:
#Verificando se h√° linhas duplicadas considerando todas as colunas
num_duplicated = df_flat.duplicated().sum()
print(f"Total de linhas 100% duplicadas: {num_duplicated}")

### **Verificando a tipagem de dados**


In [None]:
print("Tipos de dados (dtypes):\n")
print(df_flat.dtypes)

Olhando primeiro para as vari√°veis num√©ricas, aparetemente a unica que precisamos tratar √© a Charges.Total que precisa ser formatada para float64

In [None]:
# N√£o podemos converter diretamente uma string para um float. Primeiro precisamos converter a string para um valor num√©rico
df_flat['account.Charges.Total'] = pd.to_numeric(df_flat['account.Charges.Total'], errors='coerce')

df_flat['account.Charges.Total'].isnull().sum()

Ap√≥s a convers√£o da string em num√©rico ficamos com 11 valores que resultaram NaN que precisam ser tratados.

In [None]:
# Preenchendo os valores nulos por zero
df_flat['account.Charges.Total'] = df_flat['account.Charges.Total'].fillna(0)
df_flat['account.Charges.Total'] = df_flat['account.Charges.Total'].astype(np.float64)
print(df_flat['account.Charges.Total'].dtype)

In [None]:
df_flat.info()

Agora todos os dados j√° est√£o com os tipos corretos e n√£o temos valores nulos

### **Vamos melhorar os nomes das nossas colunas para ficar mais facil de trabalhar**

In [None]:
df_flat.columns = df_flat.columns.str.strip().str.lower().str.replace('.','_')

In [None]:
colunas_traduzidas = {
    'customerid': 'id_cliente',
    'churn': 'evasao',
    'customer_gender': 'genero',
    'customer_seniorcitizen': 'cliente_idoso',
    'customer_partner': 'possui_parceiro',
    'customer_dependents': 'possui_dependentes',
    'customer_tenure': 'tempo_contrato_meses',
    'phone_phoneservice': 'servico_telefonico',
    'phone_multiplelines': 'multiplas_linhas',
    'internet_internetservice': 'tipo_internet',
    'internet_onlinesecurity': 'seguranca_online',
    'internet_onlinebackup': 'backup_online',
    'internet_deviceprotection': 'protecao_dispositivo',
    'internet_techsupport': 'suporte_tecnico',
    'internet_streamingtv': 'streaming_tv',
    'internet_streamingmovies': 'streaming_filmes',
    'account_contract': 'tipo_contrato',
    'account_paperlessbilling': 'fatura_online',
    'account_paymentmethod': 'forma_pagamento',
    'account_charges_monthly': 'gastos_mensais',
    'account_charges_total': 'gastos_totais'
}


df_flat.rename(columns=colunas_traduzidas, inplace=True)

df_flat.head(15)

### **Removendo registros que podem atrapalhar as an√°lises futuras**


Primeiramente, vamos ver quais valores existem dentro de cada coluna do nosso DataFrame

In [None]:
for i in df_flat.select_dtypes(include='object').columns:
    print(f"{i}: {df_flat[i].unique()}")

Bom, podemos ver que na primeira coluna existem valores vazios e precisamos arrumar isso.

Al√©m disso, √© possivel perceber que existem muito valores do tipo booleano (Sim ou n√£o) e seria interressante nos certificamos que todos esses valores seguem um padr√£o.


In [None]:
for i in df_flat.select_dtypes(include='number').columns:
    print(f"{i}: {df_flat[i].unique()}")

Olhando agora para valores num√©ricos ja conseguimos confirmar certos problemas. Primeiramente, a coluna idosos √© bin√°ria, ou seja, semanticamente representa sim e n√£o assim como valores do tipo objeto. Entretanto √© interessante que a gente realize uma padroniza√ß√£o dos nossos dados.

Para as demais colunas o unico valor que chama a aten√ß√£o √© que existem 0 meses para o tempo de contrato e isso n√£o necessariamente √© um erro, pois existem clientes que podem ter abertos as suas contas recentemente e ainda n√£o contabilizou 1 m√™s. Contudo, contar esses clientes nos dados podem gerar problemas futuros, principalmente se precisarmos utilizar algum modelo de ML

In [None]:
#Verificando quais linhas possuem tempo de contrato igual a zero
df_flat.query('tempo_contrato_meses == 0')

Temos ent√£o 11 clientes que possuem tempo de contrato igual a 0 e o interressante √© que s√£o os mesmo clientes que anteriomente ficaram com o tempo de contrato igual a NaN. Enfim, como estamos querendo analisar a evas√£o de clientes e n√£o a entrada de novos clientes, eu vou remover essas 11 linhas do Df e assim garantir que isso n√£o cause problemas futuramente.    

In [None]:
#Removendo os valores
df_flat = df_flat[df_flat['tempo_contrato_meses'] != 0].copy()
df_flat.query('tempo_contrato_meses == 0')

In [None]:
df_flat.query('gastos_totais == 0')

Vamos agora ver os dados que est√£o em branco na evas√£o de clientes.

In [None]:
df_flat.query("evasao == '' ")

In [None]:
#Removendo dados em branco
df_flat = df_flat[df_flat['evasao'] != ''].copy()
df_flat.query("evasao == '' ")

In [None]:
# Padroniza√ß√£o do dataframe, trocando string que indicam que um servi√ßo n√£o ocorre para No
colunas_internet = [
    'seguranca_online',
    'backup_online',
    'protecao_dispositivo',
    'suporte_tecnico',
    'streaming_tv',
    'streaming_filmes'
]

for col in colunas_internet:
    if col in df_flat.columns:
        df_flat[col] = df_flat[col].replace({'No internet service': 'No'})

if 'multiplas_linhas' in df_flat.columns:
    df_flat['multiplas_linhas'] = df_flat['multiplas_linhas'].replace({'No phone service': 'No'})

for col in colunas_internet + ['multiplas_linhas']:
    if col in df_flat.columns:
        print(f"{col}: {df_flat[col].unique()}")

In [None]:
# Padronizando as variveis booleanas

colunas_binarias = [
    'evasao', 'possui_parceiro', 'possui_dependentes', 'servico_telefonico',
    'multiplas_linhas', 'seguranca_online', 'backup_online',
    'protecao_dispositivo', 'suporte_tecnico', 'streaming_tv',
    'streaming_filmes', 'fatura_online'
]

# Converte 'Yes' para 1 e 'No' para 0
df_flat[colunas_binarias] = df_flat[colunas_binarias].replace({'Yes': 1, 'No': 0})

# Converte explicitamente as colunas para o tipo int64
for col in colunas_binarias:
    df_flat[col] = df_flat[col].astype('int64')

# Verifique os tipos de dados ap√≥s a convers√£o
print(df_flat[colunas_binarias].dtypes)

In [None]:
df_flat

Vamos fazer uma rapida verifica√ß√£o do nosso DataFrame limpo e transformado

In [None]:
for i in df_flat.select_dtypes(include='object').columns:
    print(f"{i}: {df_flat[i].unique()}")

In [None]:
for i in df_flat.select_dtypes(include='number').columns:
    print(f"{i}: {df_flat[i].unique()}")

In [None]:
df_flat.info()

In [None]:
df_clean = df_flat

### **Criando a coluna de contas Diarias**

In [None]:
df_clean

In [None]:
df_clean['contas_diarias'] = df_clean['gastos_mensais'] / 30
df_clean['contas_diarias'] = df_clean['contas_diarias'].round(2)
df_clean[['gastos_mensais','contas_diarias']].head(15)

Conseguimos criar uma coluna que informa o valor das contas di√°rias de cada cliente com base nos gastos mensais

In [None]:
df_clean.info()

# **Carregamento e an√°lise** ET**L**


In [None]:
df_clean.describe()

Vamos para as principais pondera√ß√µes com base na an√°lise descritiva dos dados.

Temos que todos os dados num√©ricos est√£o com as mesmas contagens. Pelo fato de estarmos trabalhando com dados bin√°rios os valores m√≠nimos e m√°ximos n√£o ter√£o muito significado para gente, assim como os quartis. Por√©m podemos levantar algumas observa√ß√µes com base na m√©dia e o desvio padr√£o.  

- Primeiramente, a m√©dia de **evas√£o de clientes** da Telecom X √© de 26.57% e o desvio padr√£o de 44.17%

- Os valores de m√©dia para os **gastos mensais** s√£o de aproximadamente R\$ 64,80 reais e o desvio padr√£o de R\$ 30,08 reais.

- J√° para os **gastos totais** temos uma m√©dia de R\$ 2.283,30 reais e desvio padr√£o de R\$2.226,77 reais.

- Para as **contas di√°rias** a m√©dia ficou entre R\$ 2,15 reais e um desvio padr√£o de R$ 1,00 real

- O **tempo de contrato** m√©dio em meses √© de 32 e o desvio padr√£o de 24 meses. Com minimo de 1 m√™s e m√°ximo de 72 meses

Com isso e os demais dados podemos fazer um resumo do comportamento dos dados e buscar padr√µes:


‚úÖ Perfil Geral dos Clientes

Clientes evadidos: 26,6%.

Idosos: apenas 16,2% dos clientes. A maioria s√£o jovens ent√£o

Com parceiro(a): ~48%.

Com dependentes: ~30%.

‚è≥ Tempo de Contrato

M√©dia: 32 meses.

25% dos clientes t√™m menos de 9 meses de contrato.

Isso faz pensar que existe uma alta evas√£o no in√≠cio do v√≠nculo. Ainda antes de fechar 1 ano.

‚òéÔ∏è Servi√ßos adicionais

Menos da metade dos clientes usa servi√ßos como:

Seguran√ßa online (28%)

Backup online (34%)

Streaming (38%)

Clientes com mais servi√ßos podem ser mais fi√©is. Isso porque dependem da Telecom X para diversas necessidades e trocar esses servi√ßos todos de uma m√™s √© algo mais complicado.

üí∞ Gastos

Mensais: m√©dia de R$ 64,80.

Totais: variam muito, at√© R$ 8.684.

Contas di√°rias: m√©dia de R$ 2,15 ‚Äî √∫til para normalizar an√°lise de gastos.

üßæ Fatura Online

59% preferem fatura online ‚Äî Confirma o fato de grande parte do publico tem um perfil mais jovem.

## **Gr√°ficos para visualizar a distribui√ß√£o de evas√£o dos clientes**

In [None]:
evasao_clientes = df_clean.evasao.value_counts()
evasao_clientes_norm = df_clean.evasao.value_counts(normalize=True).round(4)*100

In [None]:
# Adicionando as cores
VERMELHO_1,	VERMELHO_2,	VERMELHO_3 = "#e23155",	"#cc2c4e", "#b32742"
AZUL_1,	AZUL_2,	AZUL_3 = "#203f75",	"#1c3867", "#19325b"
BRANCO,	CINZA_1, CINZA_2, CINZA_3, CINZA_4,	CINZA_5 = "#ffffff", "#ebebeb",	"#d9d9d9", "#cccccc", "#555655", "#231f20"
AQUA_1,	AQUA_2,	AQUA_3 = "#addcd4",	"#9fccc5", "#96bfb9"

### **Distribui√ß√£o das evas√µes**

In [None]:
# Observando a distribui√ß√£o da evas√£o de clientes

labels = ['Clientes mantidos', 'Clientes perdidos']

fig, axes = plt.subplots(1, 2, figsize=(13, 8))

# GR√ÅFICO DE BARRAS
axes[0].bar(labels, evasao_clientes, color=[AQUA_2,VERMELHO_1])
axes[0].set_facecolor(CINZA_1)

# Anota√ß√µes nos topos das barras
for i, v in enumerate(evasao_clientes):
    axes[0].text(i, v + 1, str(v), ha='center', va='bottom', color=AZUL_1, fontsize=12)

axes[0].set_title('Distribui√ß√£o em quantidade dos clientes perdidos pela Telecom X',
                  fontsize=14, color=CINZA_5)
axes[0].tick_params(axis='x', labelsize=12, colors=AZUL_1)
axes[0].set_yticks([])
axes[0].set_xlabel('', fontsize=12, color=AZUL_1)


for spine in ['top', 'right', 'left']:
    axes[0].spines[spine].set_visible(False)

axes[0].grid(False)

# GR√ÅFICO DE PIZZA

axes[1].pie(evasao_clientes_norm, autopct='%1.1f%%', startangle=90, colors=[AQUA_2,VERMELHO_1])
axes[1].set_title('Propor√ß√£o de Evas√£o de Clientes', fontsize=16, color=CINZA_5)
axes[1].axis('equal')

plt.tight_layout()
plt.show()

### **Avaliando valores num√©ricos junto a evas√£o de clientes**

In [None]:
# Gr√°fico 1: Boxplot da evas√£o vs tempo de contrato
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Boxplot
sns.boxplot(ax=axes[0], x='evasao', y='tempo_contrato_meses', data=df_clean, palette=[AQUA_3, VERMELHO_1])
axes[0].set_facecolor(CINZA_1)
axes[0].set_title('Tempo de Contrato vs Evas√£o', loc = 'left' , fontsize=14)
axes[0].set_xlabel('Evas√£o (0 = N√£o, 1 = Sim)', fontsize=12)
axes[0].set_ylabel('Tempo de Contrato (meses)', fontsize=12)
axes[0].grid(True)

for spine in ['top', 'right']:
    axes[0].spines[spine].set_visible(False)

# Gr√°fico 2: Histogramas sobrepostos com KDE
sns.histplot(ax=axes[1], data=df_clean[df_clean['evasao'] == 0], x='tempo_contrato_meses', color=AQUA_3, label='Clientes mantidos', kde=True, bins=30)
sns.histplot(ax=axes[1], data=df_clean[df_clean['evasao'] == 1], x='tempo_contrato_meses', color=VERMELHO_1, label='Clientes perdidos', kde=True, bins=30)

axes[1].set_facecolor(CINZA_1)
axes[1].set_title('Distribui√ß√£o do Tempo de Contrato por Evas√£o', loc='left', fontsize=14)
axes[1].set_xlabel('Tempo de Contrato (meses)', fontsize=12)
axes[1].set_ylabel('Frequ√™ncia', fontsize=12)

for spine in ['top', 'right']:
    axes[1].spines[spine].set_visible(False)

axes[1].legend()

plt.tight_layout()
plt.show()

In [None]:
# Criando uma c√≥pia do dataframe com evasao como string
df_plot = df_flat.copy()
df_plot['evasao'] = df_plot['evasao'].map({0: 'Clientes mantidos', 1: 'Clientes perdidos'})

variaveis = ['gastos_mensais', 'gastos_totais', 'contas_diarias']
titulos = ['Gastos Mensais', 'Gastos Totais', 'Contas Di√°rias']

# Subplots
fig = sp.make_subplots(rows=1, cols=3, subplot_titles=titulos)

# Mapeamento de cor
mapa_cores = {
    'Clientes mantidos': AQUA_3,
    'Clientes perdidos': VERMELHO_1
}

# Adiciona cada scatter
for i, var in enumerate(variaveis):
    scatter = px.scatter(
        df_plot,
        x='tempo_contrato_meses',
        y=var,
        color='evasao',
        color_discrete_map=mapa_cores,
        opacity=0.5,
        labels={
            'evasao': 'Evas√£o',
            'tempo_contrato_meses': 'Tempo de Contrato (meses)',
            var: titulos[i]
        }
    )
    show_legend = (i == 1)
    for trace in scatter.data:
        trace.showlegend = show_legend
        fig.add_trace(trace, row=1, col=i+1)

# Layout final
fig.update_layout(
    title='Rela√ß√£o entre Tempo de Contrato e Vari√°veis Financeiras',
    showlegend=True,
    legend_title='Evas√£o',
    height=500,
    xaxis2=dict(
        title='Tempo de Contrato (meses)',
        title_standoff=40
    ),
    yaxis_title='Vari√°veis Financeiras',
    template='plotly_white'
)

fig.show()

### **Avaliando valores categ√≥ricos junto a evas√£o de clientes**

### Evas√£o por g√™nero

In [None]:
taxa_por_genero = df_flat.groupby('genero')['evasao'].mean()

plt.figure(figsize=(6,4))
plt.bar(taxa_por_genero.index, taxa_por_genero.values, color=[AQUA_2, VERMELHO_1])
plt.title('Taxa de evas√£o por G√™nero', fontsize=14, color=CINZA_5, loc='left')
plt.ylabel('Propor√ß√£o de Evas√£o', fontsize=12, color=CINZA_5)
plt.ylim(0, taxa_por_genero.max() + 0.1)
for i, v in enumerate(taxa_por_genero.values):
    plt.text(i, v + 0.01, f"{v:.2f}", ha='center', color=CINZA_5)
ax = plt.gca()
ax.spines[['top','right']].set_visible(False)
plt.show()

## Evas√£o por tipo de contrato

In [None]:
taxa_por_contrato = df_flat.groupby('tipo_contrato')['evasao'].mean().sort_values()

plt.figure(figsize=(10,6))
plt.bar(taxa_por_contrato.index, taxa_por_contrato.values, color=AZUL_1)
plt.title('Taxa de evas√£o por Tipo de Contrato', fontsize=14, color=CINZA_5, loc='left')
plt.ylabel('Propor√ß√£o de Evas√£o', fontsize=12, color=CINZA_5)
plt.xticks(rotation=30)
for i, v in enumerate(taxa_por_contrato.values):
    plt.text(i, v + 0.01, f"{v:.2f}", ha='center')
ax = plt.gca()
ax.spines[['top','right']].set_visible(False)
plt.tight_layout()
plt.show()

## Evas√£o por forma de pagamento

In [None]:
taxa_por_pagamento = df_flat.groupby('forma_pagamento')['evasao'].mean().sort_values()

plt.figure(figsize=(12,6))
plt.barh(taxa_por_pagamento.index, taxa_por_pagamento.values, color=[AQUA_1, AQUA_1, AQUA_1, VERMELHO_1])
plt.title('Taxa de evas√£o por Forma de Pagamento', fontsize=14, color=CINZA_5, loc ='left')
plt.xlabel('Propor√ß√£o de Evas√£o', fontsize=12, color=CINZA_5)
for i, v in enumerate(taxa_por_pagamento.values):
    plt.text(v + 0.005, i, f"{v:.2f}", va='center')
ax = plt.gca()
ax.spines[['top','right']].set_visible(False)
plt.tight_layout()
plt.show()

## **Distribui√ß√£o de evas√£o por tipo de contrato**

In [None]:
ct = pd.crosstab(df_flat['tipo_contrato'], df_flat['evasao'], normalize='index')

ct.plot.bar(stacked=True, color=[AQUA_2, VERMELHO_1], figsize=(13,9))
plt.title('Distribui√ß√£o de Evas√£o (%) por Tipo de Contrato', fontsize=14, color=CINZA_5, loc='left')
plt.ylabel('Propor√ß√£o', fontsize=12)
plt.tick_params(axis='x', labelrotation = 45)
plt.gca().spines[['top','right']].set_visible(False)
plt.legend(['Ficaram','Perderam'], title='Status', loc='upper right')

plt.show()


## **Evas√£o por tipo de internet**

In [None]:
taxa_por_internet = df_flat.groupby('tipo_internet')['evasao'].mean().sort_values()

plt.figure(figsize=(10,6))
plt.bar(taxa_por_internet.index, taxa_por_internet.values, color=AQUA_3)
plt.title('Taxa de evas√£o por Tipo de Internet', fontsize=14, color=CINZA_5, loc='left')
plt.ylabel('Propor√ß√£o de Evas√£o', fontsize=12, color=CINZA_5)
plt.xticks(rotation=30)
for i, v in enumerate(taxa_por_internet.values):
    plt.text(i, v + 0.01, f"{v:.2f}", ha='center')
ax = plt.gca()
ax.spines[['top','right']].set_visible(False)
plt.tight_layout()
plt.show()

## **Evas√£o por fatura**

In [None]:
taxa_por_fatura = df_flat.groupby('fatura_online')['evasao'].mean().sort_index()

plt.figure(figsize=(10,8))
plt.bar(taxa_por_fatura.index.map({0:'Papel',1:'Online'}), taxa_por_fatura.values, color=AZUL_3)
plt.title('Taxa de evas√£o por Fatura Online', fontsize=14, color=CINZA_5, loc='left')
plt.ylabel('Propor√ß√£o de Evas√£o', fontsize=12, color=CINZA_5)
for i, v in enumerate(taxa_por_fatura.values):
    plt.text(i, v + 0.01, f"{v:.2f}", ha='center')
ax = plt.gca()
ax.spines[['top','right']].set_visible(False)
plt.tight_layout()
plt.show()

## **Evas√£o por servi√ßos**

In [None]:
service_columns = [
    'servico_telefonico', 'multiplas_linhas', 'seguranca_online',
    'backup_online', 'protecao_dispositivo', 'suporte_tecnico',
    'streaming_tv', 'streaming_filmes'
]


taxa_por_servico = df_flat[service_columns + ['evasao']].groupby(service_columns).mean()['evasao']

taxa_ativos = {}
for serv in service_columns:
    taxa_ativos[serv] = df_flat.loc[df_flat[serv] == 1, 'evasao'].mean()

#Plot
fig, ax = plt.subplots(figsize=(10, 6))
serv_names = [s.replace('_', ' ').title() for s in service_columns]
valores = [taxa_ativos[s] for s in service_columns]

ax.bar(serv_names, valores, color=AQUA_3)
ax.set_title('Taxa de Evas√£o por Servi√ßo Ativo', fontsize=14, color=CINZA_5, loc='left')
ax.set_ylabel('Propor√ß√£o de Evas√£o', fontsize=12, color=CINZA_5)


ax.set_xticklabels(serv_names, rotation=45, ha='right', color=CINZA_5)
ax.set_xticks(serv_names)


for i, v in enumerate(valores):
    ax.text(i, v + 0.01, f"{v:.2f}", ha='center', color=CINZA_5)

for spine in ['top', 'right']:
    ax.spines[spine].set_visible(False)

plt.tight_layout()
plt.show()


In [None]:
df_clean[service_columns].sum()

# ATIVIDADE EXTRA CORRELADA√á√ÉO DE DADOS

In [None]:
service_columns = [
    'servico_telefonico', 'multiplas_linhas', 'seguranca_online',
    'backup_online', 'protecao_dispositivo', 'suporte_tecnico',
    'streaming_tv', 'streaming_filmes'
]

num_cols = ['evasao', 'tempo_contrato_meses', 'gastos_mensais',
            'gastos_totais', 'contas_diarias'] + service_columns

corr_df = df_flat[num_cols].corr()

plt.figure(figsize=(12,8))
sns.heatmap(corr_df, annot=True, fmt=".2f", cmap="Blues", vmin=-1, vmax=1,
            cbar_kws={'label': 'Coeficiente de Correla√ß√£o'})
plt.title("Matriz de Correla√ß√£o com Vari√°veis de Servi√ßos Individuais", color=CINZA_5)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(6,4))
sns.boxplot(x='evasao', y='contas_diarias', data=df_flat,
            palette=[AQUA_2, VERMELHO_1])
plt.title("Contas Di√°rias x Evas√£o", color=CINZA_5)
plt.xlabel("Evas√£o (0 = Ficou, 1 = Saiu)")
plt.ylabel("Contas Di√°rias")
plt.show()

In [None]:
plt.figure(figsize=(6,4))
sns.violinplot(x='evasao', y='contas_diarias', data=df_flat,
               palette=[AQUA_2, VERMELHO_1])
plt.title("Distribui√ß√£o de Contas Di√°rias por Evas√£o", color=CINZA_5)
plt.xlabel("Evas√£o (0 = Ficou, 1 = Saiu)")
plt.ylabel("Contas Di√°rias")
plt.show()

# Relat√≥rio Final

## **Projeto Telecom X: An√°lise de Evas√£o de Clientes (Churn)**

---

### 1. **Introdu√ß√£o**

A evas√£o de clientes (churn) √© sempre um grande desafio para operadoras de telecomunica√ß√µes. Nesta an√°lise, recebemos a demanda de exploramos dados de mais de 7 000 clientes da Telecom X para entender quem est√° cancelando sua conta, quando e por qu√™. Nosso objetivo √© identificar padr√µes de comportamento e fatores de risco que permitam √† lideran√ßa tomar decis√µes estrat√©gicas de reten√ß√£o, reduzindo a perda de receita e fortalecendo o relacionamento com o cliente.

---

### 2. **Limpeza e Tratamento de Dados**

- Importa√ß√£o e flattening

    - Lemos o JSON bruto via pd.read_json e ‚Äúachamos‚Äù todas as colunas aninhadas com pd.json_normalize.

- Renomea√ß√£o de colunas

    - Padronizamos nomes para snake_case e traduzimos para o portugu√™s (por exemplo, customerid ‚Üí id_cliente, Churn ‚Üí evasao, InternetService ‚Üí tipo_internet etc.).

- Convers√£o de tipos e tratamento de ausentes

    - Transformamos gastos_mensais, gastos_totais e tempo_contrato_meses em num√©ricos, corrigimos strings inv√°lidas, como NaN, e preenchemos zeros onde fazia sentido.

    - Identificamos e removemos duplicatas e padronizamos respostas como ‚ÄúNo internet service‚Äù ‚Üí ‚ÄúNo‚Äù.

- Padroniza√ß√£o de valores Bin√°rios para inteiros

    - Substitu√≠mos todos os ‚ÄúYes‚Äù/‚ÄúNo‚Äù por 1/0 nas colunas de servi√ßos e prefer√™ncias, garantindo int64.

- Cria√ß√£o de novas m√©tricas

    - contas_diarias = gastos_totais / tempo_contrato_meses

    - num_services = soma dos 8 servi√ßos extras (telefone, m√∫ltiplas linhas, seguran√ßa online, backup, prote√ß√£o de dispositivo, suporte t√©cnico, streaming de TV e filmes).

---

### 3. **An√°lise Explorat√≥ria de Dados**

    3.1 Perfil Geral

- Taxa de churn: 26,6% dos clientes cancelaram.

- Tempo de contrato: mediana de 29 meses; 25% dos clientes t√™m at√© 9 meses de v√≠nculo.

- Gastos mensais: m√©dia de R\$ 64,80; contas di√°rias m√©dia de R\$ 2,15.

      3.2 Principais an√°lises bivariadas

- Contrato vs. Evas√£o
    - Month-to-month: 42,7% de churn

    - One-year: 11,3%

    - Two-year: 2,9%

- Tempo de Contrato
    - Boxplot e histogramas mostram que clientes que realizam a evas√£o de contranto concentram-se em v√≠nculos muito curtos (majoritariamente abaixo de 12 meses).

- Gastos vs. Evas√£o
    - Scatter plots de tempo √ó gastos mensais, totais e contas di√°rias indicam que churners t√™m maior concentra√ß√£o em baixos valores di√°rios e mensais.

- Servi√ßos Extras
    - Taxas de churn entre clientes em cada servi√ßo:

    - Suporte T√©cnico: 42,2%

    - Seguran√ßa Online: 41,8%

    - Streaming TV e Filmes: ~40%

- Demografia e Pagamentos
    - Idosos: 41,7% churn

    - Cheque Eletr√¥nico: 45,3% churn

    - Fatura sem papel: 33,8% churn

    - Sem parceiro ou sem dependentes: ~32% churn

          3.3 Correla√ß√£o de Vari√°veis Num√©ricas

- Matriz de correla√ß√£o mostra rela√ß√µes moderadas entre churn e:

    - Tempo de contrato

    - Servi√ßos

    - Contas di√°rias

---

### 4. **Conclus√µes e Insights**

- Risco elevado nos primeiros meses: quase metade dos cancelamentos ocorre dentro dos 12 meses iniciais.

- Contratos longos reduzem churn: planos de 1‚Äì2 anos apresentam evas√£o muito menor que o plano mensal.

- Pacotes de servi√ßos fidelizam: clientes com mais servi√ßos extras t√™m menor churn.

- Qualidade de Fibra √ìptica: apesar da alta demanda, apresenta churn alto ‚Äî precisa de investiga√ß√£o para identificar se o servi√ßo est√° entregando uma boa qualidade para os clientes.  

- M√©todo de pagamento e perfil: cheque eletr√¥nico e clientes idosos est√£o em maior risco.

---

### 5. **Recomenda√ß√µes**

- Programa de acompanhamento nos primeiros 12 meses, com ofertas de trial de servi√ßos extras.

- Incentivos Contratuais para fazer com que o clientes contrate periodos maiores

- Descontos e benef√≠cios para migra√ß√£o de Month-to-month para contratos anuais logo no in√≠cio.

- Otimiza√ß√£o de Servi√ßos

- Auditoria de performance da Fibra √ìptica e buscar escutar os clientes com formul√°rios de satisfa√ß√£o ou ainda registros com o motivo do cancelamento.

- Promo√ß√£o de pacotes combinados (suporte + seguran√ßa + backup) com valor agregado. No geral, clientes que contratam mais servi√ßos de uma mesma empresa, tendem a n√£o querer cancelar o vinculo, pois √© mais complicado migrar para outras plataformas.

- Aprimoramento de Pagamentos

- Revis√£o da experi√™ncia de cheque eletr√¥nico e incentivos ao uso de m√©todos autom√°ticos.

- A√ß√µes espec√≠ficas para idosos, solteiros e sem dependentes, com canais de suporte dedicados. Buscando inserir o idoso dentro dos programas de beneficio da empresa e assim demonstrando que a empresa preza uma servi√ßo atensioso aos seus clientes.

- Clientes solteiros e sem dependentes √© a parte mais dif√≠cel de evitar evas√£o, pois provavelmente o perfil desses clientes √© baseado em pessoas jovens, sem moradia fixa, que est√£o construindo a vida, ou seja, muitas mudan√ßas acontecendo que podem levar a evas√£o de contrato.  

---

### **Pr√≥ximos Passos**

- Desenvolver modelo de ML para entender melhor o comportamento dos dados.

- Coletar dados de linha do tempo (datas de contrato e churn), hist√≥rico de atendimento e NPS.

- Monitorar indicadores em dashboards semanais para avaliar o impacto das a√ß√µes.Buscar realizar pesquisas de satisfa√ß√£o e registras sempre os motivos do cancelamento, assim como, qual servi√ßo foi cancelado que gerou a evas√£o desse cliente.

- Com essas iniciativas, a Telecom X ter√° ideias s√≥lidas para reduzir seu churn com base nos dados, dessa forma, elevando a satisfa√ß√£o dos clientes e maximizando o valor de vida √∫til de cada contrato.