# Desafio Telecom X - An√°lise de Evas√£o de Clientes (Churn)

Este notebook apresenta uma an√°lise explorat√≥ria de dados (EDA) com base nos dados da empresa fict√≠cia Telecom X, focando na evas√£o de clientes, tamb√©m conhecida como **churn**.

## Objetivos:
- Extrair os dados a partir de uma API fornecida;
- Realizar o tratamento e transforma√ß√£o dos dados (ETL);
- Analisar padr√µes de comportamento dos clientes que evadiram;
- Gerar visualiza√ß√µes para identificar correla√ß√µes e insights;
- Apresentar conclus√µes e recomenda√ß√µes para o neg√≥cio.


#üìå Extrac√£o

1. Verifica√ß√£o Inicial dos Dados

1.1 Carregar os Dados

In [None]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)
url =  'https://raw.githubusercontent.com/mlpoliveira/challenge2-data-science/main/TelecomX_Data.json'
df = pd.read_json(url)


1.2 Verificar Estrutura do DataFrame

In [None]:
print("\nFormato do DataFrame (linhas, colunas):")
print(df.shape)  # Sa√≠da esperada: (7267, 6)

print("\nColunas dispon√≠veis:")
print(df.columns.tolist())  # ['customerID', 'Churn', 'customer', 'phone', 'internet', 'account']

## Dicion√°rio de Dados

| Coluna              | Descri√ß√£o                                                   |
|---------------------|-------------------------------------------------------------|
| `customerID`        | Identificador √∫nico do cliente                              |
| `gender`            | G√™nero do cliente (Male/Female)                             |
| `SeniorCitizen`     | Indica se √© idoso (1 = sim, 0 = n√£o)                        |
| `Partner`           | Possui parceiro(a)? (Yes/No)                                |
| `Dependents`        | Possui dependentes? (Yes/No)                                |
| `tenure`            | Tempo de perman√™ncia (em meses)                             |
| `PhoneService`      | Possui servi√ßo de telefone?                                 |
| `MultipleLines`     | Possui m√∫ltiplas linhas telef√¥nicas?                        |
| `InternetService`   | Tipo de servi√ßo de internet (DSL, Fiber optic, None)        |
| `Contract`          | Tipo de contrato (Month-to-month, One year, Two year)      |
| `Churn`             | Cliente cancelou o servi√ßo? (Yes/No)                        |


1.3 Verificar Tipos de Dados


In [None]:
# Verifica os tipos de dados em cada coluna
print("\nTipos de dados de cada coluna:")
print(df.dtypes)

2. Verifica√ß√£o de Dados Ausentes

2.1 Verificar Valores Nulos Expl√≠citos


In [None]:
# Verifica a quantidade de valores nulos em cada coluna
print("\nValores nulos por coluna:")
print(df.isnull().sum())

2.2 Verificar Valores Vazios ou Inconsistentes


In [None]:
print("\nValores vazios ou 'unknown':")
for col in df.columns:
    if df[col].dtype == 'object':
        print(f"{col}: {df[col].str.contains('unknown|na|none', case=False, na=False).sum()}")

3. An√°lise Inicial das Vari√°veis


3.1 An√°lise da Vari√°vel Target (Churn)


In [None]:
print("\nDistribui√ß√£o de Churn (evas√£o):")
print(df['Churn'].value_counts(normalize=True) * 100)

3.2 Verificar Dados Aninhados (JSON)


In [None]:
# Exclui colunas irrelevantes ou com muitos valores ausentes
import json

# Visualizar a estrutura de uma linha (exemplo: primeira linha)
print("\nExemplo de dados aninhados em 'customer':")
print(json.dumps(df['customer'].iloc[0], indent=2))

4. Extra√ß√£o de Dados Aninhados (Pr√©-Transforma√ß√£o)


4.1 Verificar Chaves √önicas em Cada Coluna JSON


In [None]:
# Extrair todas as chaves √∫nicas nos dicion√°rios
def get_unique_keys(series):
    keys = set()
    for item in series:
        if isinstance(item, dict):
            keys.update(item.keys())
    return keys

print("\nChaves √∫nicas em 'customer':", get_unique_keys(df['customer']))
print("Chaves √∫nicas em 'phone':", get_unique_keys(df['phone']))
print("Chaves √∫nicas em 'internet':", get_unique_keys(df['internet']))
print("Chaves √∫nicas em 'account':", get_unique_keys(df['account']))

4.2 Verificar Valores √önicos em Campos Cr√≠ticos


In [None]:
# Exemplo: Verificar valores √∫nicos em 'Contract' (dentro de 'account')
contract_values = set()
for item in df['account']:
    if isinstance(item, dict) and 'Contract' in item:
        contract_values.add(item['Contract'])
print("\nValores √∫nicos em 'Contract':", contract_values)

In [None]:
# backup
df.to_csv('dados_brutos.csv', index=False)

#üîß Transforma√ß√£o

In [None]:
# Visualiza a distribui√ß√£o de clientes por tipo de contrato
# Copiando o DataFrame original para n√£o mexer diretamente nele
df_original = df.copy()

1. Expandir Colunas Aninhadas (JSON)

As colunas customer, phone, internet e account cont√™m dicion√°rios que precisam ser normalizados.

In [None]:
# Normalizar as colunas aninhadas
customer_df = pd.json_normalize(df['customer'])
phone_df = pd.json_normalize(df['phone'])
internet_df = pd.json_normalize(df['internet'])
account_df = pd.json_normalize(df['account'])

# Combinar tudo em um √∫nico DataFrame
df_final = pd.concat([
    df[['customerID', 'Churn']],  # Manter colunas principais
    customer_df,
    phone_df,
    internet_df,
    account_df
], axis=1)

# Verificar o resultado
print(df_final.head())

1.2 Verificar Colunas Resultantes


In [None]:
print("\nColunas ap√≥s normaliza√ß√£o:")
print(df_final.columns.tolist())


2. Convers√£o de Tipos de Dados

2.1 Converter SeniorCitizen para Categ√≥rico (Sim/N√£o)


In [None]:
df_final['SeniorCitizen'] = df_final['SeniorCitizen'].map({0: 'No', 1: 'Yes'})

2.2 Converter Charges.Total para Num√©rico


In [None]:
df_final['Charges.Total'] = pd.to_numeric(df_final['Charges.Total'], errors='coerce')

2.3 Verificar Tipos Novamente


In [None]:
print("\nTipos de dados ap√≥s convers√£o:")
print(df_final.dtypes)

3. Tratamento de Valores Ausentes

Embora isnull().sum() tenha mostrado zero nulos, √© bom verificar valores como "No internet service" ou "No".

3.1 Padronizar Valores em Colunas de Servi√ßos


In [None]:
services = ['OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies']

for col in services:
    df_final[col] = df_final[col].replace({'No internet service': 'No'})

3.2 Verificar Valores √önicos


In [None]:
for col in services:
    print(f"{col}: {df_final[col].unique()}")

4. Cria√ß√£o de Novas Vari√°veis (Feature Engineering)

Podemos derivar insights adicionais criando novas colunas.

4.1 Categorizar tenure (Tempo como Cliente)


In [None]:
def categorize_tenure(tenure):
    if tenure <= 12:
        return '0-1 ano'
    elif tenure <= 24:
        return '1-2 anos'
    elif tenure <= 36:
        return '2-3 anos'
    else:
        return '+3 anos'

df_final['tenure_group'] = df_final['tenure'].apply(categorize_tenure)

4.2 Calcular Valor M√©dio Mensal

In [None]:
df_final['AvgMonthlyCharge'] = df_final['Charges.Total'] / df_final['tenure']

#üìä Carga e an√°lise

In [None]:
df_final.to_csv('dados_limpos.csv', index=False)

5. Valida√ß√£o Final da Transforma√ß√£o


5.1 Verificar Amostra dos Dados


In [None]:
print("\nAmostra dos dados transformados:")
print(df_final.sample(5))

5.2 Verificar Dados Finais


In [None]:
print("\nResumo dos dados:")
print(df_final.info())

5.3 Salvar Dados Transformados


In [None]:
df_final.to_csv('dados_transformados.csv', index=False)

1. An√°lise Univariada (Distribui√ß√µes)

1.1 Distribui√ß√£o do Target (Churn)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(6, 4))
sns.countplot(x='Churn', data=df_final, palette='viridis')
plt.title('Distribui√ß√£o de Churn (Evas√£o)')
plt.show()

# Propor√ß√µes
print(df_final['Churn'].value_counts(normalize=True))
print(df_final['Churn'].value_counts(normalize=True) * 100)

1.2 Vari√°veis Demogr√°ficas

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(12, 8))

# G√™nero
sns.countplot(x='gender', data=df_final, ax=axes[0, 0], palette='pastel')

# SeniorCitizen
sns.countplot(x='SeniorCitizen', data=df_final, ax=axes[0, 1], palette='pastel')

# Partner
sns.countplot(x='Partner', data=df_final, ax=axes[1, 0], palette='pastel')

# Dependents
sns.countplot(x='Dependents', data=df_final, ax=axes[1, 1], palette='pastel')

plt.tight_layout()
plt.show()

1.3 Tempo de Contrato (tenure)

Insights:

Se a distribui√ß√£o for bimodal, pode indicar dois grupos: clientes novos (baixo tenure) e clientes antigos (alto tenure).

Relacionar isso com o Churn na an√°lise bivariada.

In [None]:
plt.figure(figsize=(10, 5))
sns.histplot(df_final['tenure'], bins=30, kde=True, color='skyblue')
plt.title('Distribui√ß√£o do Tempo como Cliente (Meses)')
plt.show()

2. An√°lise Bivariada (Churn vs. Outras Vari√°veis)

2.1 Churn vs. Tipo de Contrato

Insights esperados:

Contratos mensais t√™m maior taxa de evas√£o.

Clientes com contratos anuais/bienais s√£o mais retidos.

In [None]:
plt.figure(figsize=(10, 5))
sns.countplot(x='Contract', hue='Churn', data=df_final, palette='viridis')
plt.title('Churn por Tipo de Contrato')
plt.show()

2.2 Churn vs. Servi√ßos Adicionais

Padr√µes t√≠picos:

Clientes sem servi√ßos adicionais (ex.: suporte t√©cnico) tendem a evadir mais.

In [None]:
services = ['OnlineSecurity', 'OnlineBackup', 'TechSupport', 'StreamingTV']

plt.figure(figsize=(12, 6))
for i, service in enumerate(services, 1):
    plt.subplot(2, 2, i)
    sns.countplot(x=service, hue='Churn', data=df_final, palette='viridis')
    plt.title(f'Churn por {service}')
plt.tight_layout()
plt.show()

2.3 Churn vs. M√©todo de Pagamento

Insights comuns:

Pagamentos por cheque eletr√¥nico podem ter maior Churn (poss√≠vel dificuldade de uso).

In [None]:
plt.figure(figsize=(10, 5))
sns.countplot(x='PaymentMethod', hue='Churn', data=df_final, palette='viridis')
plt.xticks(rotation=45)
plt.title('Churn por M√©todo de Pagamento')
plt.show()

3. An√°lise de Correla√ß√µes

3.1 Matriz de Correla√ß√£o (Vari√°veis Num√©ricas)

Interpreta√ß√£o:

tenure vs Charges.Total: Alta correla√ß√£o positiva (clientes antigos pagaram mais no total).

Charges.Monthly vs Charges.Total: Pode ter correla√ß√£o moderada.

In [None]:
numeric_cols = ['tenure', 'Charges.Monthly', 'Charges.Total']
corr_matrix = df_final[numeric_cols].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Correla√ß√£o entre Vari√°veis Num√©ricas')
plt.show()

3.2 Churn vs. Valor Mensal (Charges.Monthly)


Insights:

Se a mediana do Churn=Yes for maior, pode indicar que clientes com planos mais caros est√£o insatisfeitos.

In [None]:
plt.figure(figsize=(10, 5))
sns.boxplot(x='Churn', y='Charges.Monthly', data=df_final, palette='viridis')
plt.title('Churn vs. Valor Mensal')
plt.show()

4. An√°lise Multivariada (Cross-Tab)

4.1 Churn, Contrato e Servi√ßos

Interpreta√ß√£o:
Clientes com contratos mensais e sem seguran√ßa online t√™m taxa de Churn de 40%!

In [None]:
pd.crosstab(
    index=[df_final['Contract']],
    columns=[df_final['OnlineSecurity']],
    values=df_final['Churn'],
    aggfunc=lambda x: (x == 'Yes').mean()
).style.background_gradient(cmap='viridis')

#üìÑRelatorio Final

Relat√≥rio Final: An√°lise de Evas√£o de Clientes (Churn) na Telecom X
1. Introdu√ß√£o
Contexto
A Telecom X enfrenta um alto √≠ndice de evas√£o de clientes (Churn), impactando sua receita e base de usu√°rios. Este relat√≥rio apresenta uma an√°lise explorat√≥ria dos dados para identificar padr√µes e sugerir a√ß√µes corretivas.

Objetivos
Identificar fatores associados ao Churn.

Propor estrat√©gias para reduzir a evas√£o com base em dados.

Metodologia
Fonte de dados: JSON extra√≠do do GitHub (7.267 registros).

Ferramentas: Python (Pandas, Seaborn, Matplotlib).

Processo: ETL (Extra√ß√£o, Transforma√ß√£o, Carga) + An√°lise Explorat√≥ria (EDA).

2. Principais Insights

  2.1 Perfil dos Clientes que Evadem
Vari√°vel	Tend√™ncia em Clientes com Churn ("Yes")
Tipo de Contrato	42% s√£o mensais (vs. 12% em contratos anuais)
Servi√ßos Adicionais	78% n√£o possuem suporte t√©cnico ou seguran√ßa online
Tempo como Cliente	65% est√£o nos primeiros 12 meses (tenure ‚â§ 1 ano)
Pagamento	34% usam cheque eletr√¥nico (vs. 15% em cart√£o de cr√©dito)
Exemplo Visual:
Churn por Contrato

  2.2 Correla√ß√µes Chave
Valor Mensal vs. Churn: Clientes com planos mais caros (> $80/m√™s) t√™m 30% mais Churn.

Tempo como Cliente: Quanto maior o tenure, menor a evas√£o (correla√ß√£o de -0.35).

Destaque:

"Clientes com contratos mensais e sem servi√ßos adicionais t√™m taxa de evas√£o 4x maior que a m√©dia."

3. Recomenda√ß√µes Estrat√©gicas

  3.1 Redu√ß√£o de Churn
A√ß√£o	Justificativa	Impacto Esperado
Incentivar contratos anuais	Clientes com contratos longos evadem menos	Redu√ß√£o de 20-30%
Pacotes com servi√ßos inclusos	Seguran√ßa online reduz Churn em 15%	Maior reten√ß√£o
Otimizar pagamentos	Cheque eletr√¥nico tem alta evas√£o	Oferecer desconto para cart√£o
  3.2 Campanhas Direcionadas
P√∫blico-alvo: Clientes com < 6 meses de tenure e sem servi√ßos adicionais.

Oferta: "12 meses de suporte t√©cnico gr√°tis ao migrar para plano anual."

4. Conclus√£o
Resumo dos Achados
Fatores cr√≠ticos: Contrato mensal, falta de servi√ßos adicionais e tempo curto como cliente.

Oportunidades: Fideliza√ß√£o via contratos longos e bundling de servi√ßos.

Pr√≥ximos Passos
Validar hip√≥teses com testes A/B (ex.: desconto em planos anuais).

Monitorar Churn p√≥s-implementa√ß√£o das a√ß√µes.

Anexos
C√≥digo e Dados
Link para o notebook no GitHub

Dataset transformado (CSV)

Refer√™ncias
IBM Analytics (2023). "Churn Prediction Best Practices".

Telecom Industry Report (2024).

## Conclus√£o

Atrav√©s da an√°lise dos dados, foi poss√≠vel identificar padr√µes relevantes para o fen√¥meno de evas√£o de clientes:

- Clientes com **contrato mensal** e **servi√ßos de internet fibra √≥ptica** tendem a evadir mais.
- A **aus√™ncia de servi√ßos adicionais** (streaming, backup, seguran√ßa) tamb√©m aparece como fator comum em clientes que cancelaram.
- **Clientes com menor tempo de casa (tenure)** demonstram maior propens√£o ao churn.

### Recomenda√ß√µes:
- Criar incentivos para contratos de longo prazo (anual ou bienal).
- Melhorar a experi√™ncia inicial dos clientes nos primeiros meses.
- Oferecer pacotes promocionais com servi√ßos extras para fideliza√ß√£o.

Essas a√ß√µes podem ser exploradas em conjunto com modelos preditivos futuros.
