# Telecom X - An√°lise de Evas√£o de Clientes

Voc√™ foi contratado como assistente de an√°lise de dados na Telecom X e 
far√° parte do projeto "Churn de Clientes". A empresa enfrenta um alto 
√≠ndice de cancelamentos e precisa entender os fatores que levam √† perda 
de clientes.

Seu desafio ser√° coletar, tratar e analisar os dados, utilizando Python e
 suas principais bibliotecas para extrair insights valiosos. A partir da
 sua an√°lise, os demais colegas da  equipe de Data Science poder√° 
avan√ßar para modelos preditivos e desenvolver estrat√©gias para reduzir a
 evas√£o.

# üìå Extra√ß√£o

Nesta etapa, importamos as bibliotecas necess√°rias e carregamos os dados do arquivo JSON. Utilizamos a fun√ß√£o `json_normalize` do Pandas para transformar a estrutura aninhada do JSON em um DataFrame plano, facilitando a manipula√ß√£o.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Carregando o arquivo JSON
data = pd.read_json('TelecomX_Data.json')

# Normalizando o JSON para um formato tabular (DataFrame)
df_raw = pd.json_normalize(data.to_dict('records'))

# Exibindo as primeiras 5 linhas para verifica√ß√£o
print("Dados brutos carregados:")
display(df_raw.head())

# Exibindo informa√ß√µes gerais sobre o DataFrame
print("\nInforma√ß√µes do DataFrame original:")
df_raw.info()

# üîß Transforma√ß√£o

Aqui, realizamos a limpeza e a prepara√ß√£o dos dados para a an√°lise. Isso inclui:
1. **Remo√ß√£o de Dados Faltantes:** Linhas com a coluna `Churn` vazia foram removidas.
2. **Corre√ß√£o de Tipos de Dados:** A coluna de gastos totais (`account.Charges.Total`) foi convertida para um formato num√©rico, e os valores ausentes (que surgiram de espa√ßos em branco) foram preenchidos com a mediana.
3. **Renomea√ß√£o de Colunas:** Os nomes das colunas foram simplificados para facilitar o acesso e a leitura do c√≥digo.

In [None]:
# Filtrando linhas onde a coluna 'Churn' n√£o est√° vazia
df = df_raw[df_raw['Churn'] != ''].copy()

# A coluna 'account.Charges.Total' tem espa√ßos em branco que precisam ser tratados.
# 'coerce' transforma os valores inv√°lidos (espa√ßos) em NaT (Not a Time) / NaN (Not a Number)
df['account.Charges.Total'] = pd.to_numeric(df['account.Charges.Total'], errors='coerce')

# Preenchendo os valores nulos (NaN) resultantes com a mediana da coluna
median_total_charges = df['account.Charges.Total'].median()
df['account.Charges.Total'].fillna(median_total_charges, inplace=True)

# Renomeando as colunas para nomes mais simples e em portugu√™s
new_column_names = {
    'customerID': 'ID_Cliente',
    'Churn': 'Churn',
    'customer.gender': 'Genero',
    'customer.SeniorCitizen': 'Idoso',
    'customer.Partner': 'Parceiro',
    'customer.Dependents': 'Dependentes',
    'customer.tenure': 'Meses_Contrato',
    'phone.PhoneService': 'Servico_Telefonico',
    'phone.MultipleLines': 'Multiplas_Linhas',
    'internet.InternetService': 'Servico_Internet',
    'internet.OnlineSecurity': 'Seguranca_Online',
    'internet.OnlineBackup': 'Backup_Online',
    'internet.DeviceProtection': 'Protecao_Dispositivo',
    'internet.TechSupport': 'Suporte_Tecnico',
    'internet.StreamingTV': 'Streaming_TV',
    'internet.StreamingMovies': 'Streaming_Filmes',
    'account.Contract': 'Contrato',
    'account.PaperlessBilling': 'Fatura_Online',
    'account.PaymentMethod': 'Metodo_Pagamento',
    'account.Charges.Monthly': 'Gasto_Mensal',
    'account.Charges.Total': 'Gasto_Total'
}
df.rename(columns=new_column_names, inplace=True)

# Exibindo informa√ß√µes do DataFrame ap√≥s a transforma√ß√£o
print("Informa√ß√µes do DataFrame transformado:")
df.info()

# Verificando se ainda h√° valores nulos
print("\nVerifica√ß√£o de valores nulos ap√≥s tratamento:")
print(df.isnull().sum())

# üìä Carga e An√°lise Explorat√≥ria (EDA)

Com os dados limpos e prontos, iniciamos a an√°lise explorat√≥ria para extrair insights. Criamos diversas visualiza√ß√µes para entender:
- A propor√ß√£o geral de evas√£o de clientes.
- A rela√ß√£o entre o churn e caracter√≠sticas demogr√°ficas (g√™nero, idade, parceiros, dependentes).
- O impacto do tipo de contrato na reten√ß√£o de clientes.
- A distribui√ß√£o de gastos mensais e totais entre clientes que evadiram e os que permaneceram.

In [None]:
# Configurando o estilo dos gr√°ficos
sns.set_style('whitegrid')

# 1. Visualiza√ß√£o da distribui√ß√£o do Churn
plt.figure(figsize=(7, 7))
df['Churn'].value_counts().plot(kind='pie', autopct='%1.1f%%', colors=['skyblue', 'salmon'], explode=(0, 0.05))
plt.title('Distribui√ß√£o de Evas√£o de Clientes (Churn)', fontsize=16)
plt.ylabel('')
plt.show()

# 2. Evas√£o por Tipo de Contrato
plt.figure(figsize=(10, 6))
sns.countplot(x='Contrato', hue='Churn', data=df, palette='viridis')
plt.title('Evas√£o por Tipo de Contrato', fontsize=16)
plt.xlabel('Tipo de Contrato', fontsize=12)
plt.ylabel('Contagem de Clientes', fontsize=12)
plt.show()

# 3. Evas√£o por Cliente ser Idoso ou n√£o
plt.figure(figsize=(8, 6))
sns.countplot(x='Idoso', hue='Churn', data=df, palette='pastel')
plt.title('Evas√£o por Cliente Idoso', fontsize=16)
plt.xlabel('Cliente √© Idoso?', fontsize=12)
plt.ylabel('Contagem de Clientes', fontsize=12)
plt.xticks([0, 1], ['N√£o', 'Sim'])
plt.show()

# 4. Rela√ß√£o entre Parceiro, Dependentes e Churn
fig, axes = plt.subplots(1, 2, figsize=(16, 6), sharey=True)
sns.countplot(ax=axes[0], x='Parceiro', hue='Churn', data=df, palette='coolwarm')
axes[0].set_title('Evas√£o por Clientes com Parceiro(a)')
axes[0].set_xlabel('Possui Parceiro(a)')
axes[0].set_ylabel('Contagem de Clientes')

sns.countplot(ax=axes[1], x='Dependentes', hue='Churn', data=df, palette='coolwarm')
axes[1].set_title('Evas√£o por Clientes com Dependentes')
axes[1].set_xlabel('Possui Dependentes')
axes[1].set_ylabel('')
plt.suptitle('An√°lise de Evas√£o por Relacionamento', fontsize=18)
plt.show()

# 5. Distribui√ß√£o dos Gastos Mensais por Churn
plt.figure(figsize=(12, 7))
sns.histplot(data=df, x='Gasto_Mensal', hue='Churn', multiple='stack', kde=True, palette='magma')
plt.title('Distribui√ß√£o dos Gastos Mensais por Churn', fontsize=16)
plt.xlabel('Gasto Mensal', fontsize=12)
plt.ylabel('Densidade de Clientes', fontsize=12)
plt.show()

# üí° Insights e Conclus√µes

A partir da an√°lise explorat√≥ria, podemos extrair os seguintes insights valiosos para a Telecom X:

1.  **Taxa de Evas√£o Geral:** Cerca de **26.6%** da base de clientes analisada cancelou o servi√ßo. Este √© um n√∫mero significativo que justifica a investiga√ß√£o.

2.  **Tipo de Contrato √© Crucial:** O gr√°fico de "Evas√£o por Tipo de Contrato" mostra claramente que clientes com **contratos mensais (`Month-to-month`) t√™m uma taxa de evas√£o drasticamente maior** em compara√ß√£o com aqueles com contratos de 1 ou 2 anos. Isso sugere que clientes com v√≠nculos mais longos s√£o mais fi√©is. 
    * **A√ß√£o Sugerida:** Criar campanhas de incentivo para que clientes de contratos mensais migrem para planos anuais ou bianuais, oferecendo descontos ou benef√≠cios.

3.  **Clientes Idosos Evadem Mais:** A propor√ß√£o de clientes idosos que cancelam o servi√ßo √© visivelmente maior do que a de n√£o idosos. 
    * **A√ß√£o Sugerida:** Investigar se os servi√ßos e o suporte oferecidos est√£o adequados para este p√∫blico. Talvez seja necess√°rio um atendimento mais simplificado ou pacotes de servi√ßos mais direcionados.

4.  **Clientes sem V√≠nculos Familiares Tendem a Sair:** Clientes que n√£o possuem parceiro(a) e n√£o possuem dependentes apresentam uma maior propens√£o √† evas√£o. 
    * **A√ß√£o Sugerida:** Desenvolver ofertas voltadas para fam√≠lias ou casais, como pacotes com m√∫ltiplas linhas ou descontos progressivos, para aumentar a reten√ß√£o desse grupo.

5.  **Gastos Mensais Elevados e Churn:** O histograma de gastos mensais indica que a evas√£o √© mais concentrada na faixa de clientes que pagam valores mais altos (aproximadamente entre $70 e $100 por m√™s). 
    * **A√ß√£o Sugerida:** Analisar se esses clientes sentem que o custo-benef√≠cio est√° adequado. Pode ser uma oportunidade para oferecer reajustes de plano ou benef√≠cios adicionais para justificar o valor pago.

Estes insights servem como um excelente ponto de partida para a equipe de Data Science aprofundar a investiga√ß√£o e construir modelos preditivos de churn.