<a href="https://colab.research.google.com/github/luconsultoria/Telecom-X/blob/main/TelecomX_BR.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#üìå Extrac√£o

In [None]:
# Importa√ß√£o de bibliotecas
import json
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Configura√ß√£o de visualiza√ß√£o
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

# Supondo que raw_data deve ser carregado de um arquivo chamado 'data.json'.
# Substituindo 'data.json' pelo caminho real do arquivo se for diferente,
tentar:
    with open('data.json', 'r') as f:
        raw_data = json.load(f)
except FileNotFoundError:
    print("Error: 'data.json' not found. Please provide the correct file path for the raw data.")
    raw_data = [] # Inicialize com uma lista vazia para evitar erros futuros

df = pd.json_normalize(raw_data)

Error: 'data.json' not found. Please provide the correct file path for the raw data.


## EXTRA√á√ÉO E CONFIGURA√á√ÉO DOS DADOS ##
Este notebook apresenta uma an√°lise de churn (evas√£o de clientes) da empresa TelecomX, atrav√©s da extra√ß√£o e configura√ß√£o dos dados de uma API, com o objetivo de identificar padr√µes nos dados de clientes que cancelaram os servi√ßos e fornecer recomenda√ß√µes para ajudar na reten√ß√£o de usu√°rios.


#üîß Transforma√ß√£o

In [None]:
# Renomear colunas para remover prefixos
df.columns = [col.replace("customer.", "").replace("phone.", "").replace("internet.", "").replace("account.", "").replace("Charges.", "Charges_") for col in df.columns]

# Padronizar categorias
cols_padronizar = ['OnlineSecurity','OnlineBackup','DeviceProtection','TechSupport','StreamingTV','StreamingMovies','MultipleLines']
for col in cols_padronizar:
    if col in df.columns:
        df[col] = df[col].replace({'No internet service': 'No', 'No phone service': 'No'})

# Converter vari√°veis bin√°rias
binarias = ['SeniorCitizen', 'Partner', 'Dependents', 'PhoneService', 'PaperlessBilling']
for col in binarias:
    if col in df.columns:
        if df[col].dtype == 'object':
            df[col] = df[col].map({'Yes': 1, 'No': 0})

df_final = df.copy()

## Transforma√ß√£o dos Dados
Nesta etapa, foi realizado a limpeza, normaliza√ß√£o e convers√£o de tipos para garantir uma base de dados confi√°vel para a an√°lise.


#üìä Carga e an√°lise

In [None]:
df_final = df.copy()

# Converter a coluna 'Churn' para num√©rica (0 para 'N√£o' e 1 para 'Sim')
df_final['Churn'] = df_final['Churn'].map({'Yes': 1, 'No': 0})

# Taxa de churn
taxa_churn = df_final['Churn'].mean() * 100
print("Taxa de churn (%):", round(taxa_churn, 2))

# Distribui√ß√£o de churn
sns.countplot(data=df_final, x='Churn')
plt.title('Distribui√ß√£o de Churn')
plt.xticks([0, 1], ['N√£o', 'Sim'])
plt.show()

# Contrato x Churn
sns.countplot(data=df_final, x='Contract', hue='Churn')
plt.title('Churn por Tipo de Contrato')
plt.show()

# Forma de pagamento x Churn
sns.countplot(data=df_final, x='PaymentMethod', hue='Churn')
plt.xticks(rotation=45)
plt.title('Churn por Forma de Pagamento')
plt.show()

# An√°lise de Tenure
print("\nEstat√≠sticas de Tenure por categoria de Churn:")
print(df_final.groupby('Churn')['tenure'].describe())
print("\nValores √∫nicos de Tenure por categoria de Churn:")
print(df_final.groupby('Churn')['tenure'].nunique())
print("\nValores ausentes em Tenure por categoria de Churn:")
print(df_final.groupby('Churn')['tenure'].apply(lambda x: x.isnull().sum()))

# Distribui√ß√£o de Tenure
sns.histplot(data=df_final, x='tenure', hue='Churn', bins=30, kde=True)
plt.title('Distribui√ß√£o de Tenure por Churn')
plt.show()

# Tipo de internet x Churn
sns.countplot(data=df_final, x='InternetService', hue='Churn')
plt.title('Churn por Tipo de Internet')
plt.show()

# Gastos Totais x Churn
sns.boxplot(data=df_final, x='Churn', y='Charges_Total')
plt.title('Gastos Totais por Churn')
plt.xticks([0, 1], ['N√£o', 'Sim'])
plt.show()

# Correla√ß√£o com Churn
corr = df_final.corr(numeric_only=True)
sns.heatmap(corr[['Churn']].sort_values(by='Churn', ascending=False), annot=True, cmap='coolwarm')
plt.title('Correla√ß√£o com Churn')
plt.show()

## ANALISAR E INVESTIGAR O CHURN ##
Investigar a distribui√ß√£o do churn e sua rela√ß√£o com outras vari√°veis.

# * Distribui√ß√£o do Churn #
‚Ä¢	Cerca de 26% dos clientes abandonaram a empresa.

‚Ä¢	Alta taxa para um servi√ßo de assinatura.

# * Perfil dos Clientes com Maior Evas√£o #
‚Ä¢	Clientes com contratos Month-to-month t√™m a maior taxa de churn.

‚Ä¢	Electronic check como forma de pagamento est√° fortemente associada a maior evas√£o.

‚Ä¢	Clientes com tenure (tempo de contrato) menor que 12 meses t√™m maior propens√£o ao churn.

‚Ä¢	Usu√°rios de internet via Fiber optic tamb√©m apresentam maior evas√£o.


#üìÑRelatorio Final

## Principais Achados( INSIGHTS): ##

* Contratos mensais s√£o vulner√°veis √† evas√£o.

* Clientes com baixa fideliza√ß√£o (baixo tenure) s√£o mais vol√°teis.

* Alto valor de cobran√ßa mensal n√£o necessariamente aumenta o churn, mas combinado com contratos curtos e cobran√ßa eletr√¥nica, sim.

* A falta de servi√ßos adicionais (como suporte t√©cnico ou seguran√ßa online) tamb√©m influencia negativamente.

## Sugest√µes para Reduzir o Churn (CONCLUS√ïES) ##

* Criar campanhas de fideliza√ß√£o para clientes com menos de 12 meses de contrato.

* Incentivar planos de contrato anual ou bienal com descontos.

* Oferecer benef√≠cios ou pacotes promocionais para quem usa pagamento por Electronic check.

* Estimular o uso de servi√ßos adicionais como seguran√ßa online e suporte t√©cnico.

* Implementar um sistema de alerta precoce para clientes com alta propens√£o de evas√£o (com base nos padr√µes identificados).

