In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report

In [None]:
# 1. Carregando os Dados
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json"
dados = pd.read_json(url)
df = pd.DataFrame(dados)
df.head()

In [None]:
# 2. Normalizando o Dataframe
df_normalized = pd.json_normalize(df.to_dict(orient='records'))
print(df_normalized.head())
df = df_normalized
df.info()

In [None]:
# 3. Valores ausentes
print("Valores ausentes por coluna:")
print(df.isnull().sum())
print("\n")

In [None]:
# 4. Linhas duplicadas
print(" Total de linhas duplicadas:")
print(df.duplicated().sum())
print("\n")

In [None]:
# 5. Estat√≠sticas descritivas (para encontrar valores extremos ou inconsistentes)
print(" Estat√≠sticas descritivas:")
print(df.describe(include='all'))
print("\n")

In [None]:
# 6. Valores √∫nicos por coluna (para ver categorias e detectar inconsist√™ncias)
print("Valores √∫nicos por coluna:")
for col in df.columns:
    print(f"{col}: {df[col].nunique()} valores √∫nicos")
    if df[col].dtype == 'object':
        print(df[col].unique())
    print("\n")

In [126]:
# Convertendo Valores

df['account.Charges.Total'] = pd.to_numeric(df['account.Charges.Total'], errors='coerce')

In [127]:
df['customer.SeniorCitizen'] = df['customer.SeniorCitizen'].map({0: "No", 1: "Yes"})

In [None]:
yes_no_cols = [col for col in df.columns if df[col].isin(["Yes", "No"]).all()]
df[yes_no_cols] = df[yes_no_cols].replace({"Yes": True, "No": False})

In [None]:
# Verificar colunas categ√≥ricas
cat_cols = df.select_dtypes(include=['object', 'bool']).columns.tolist()
print("üìã Colunas categ√≥ricas:", cat_cols)

In [None]:
# Aplicar One-Hot Encoding
df_encoded = pd.get_dummies(df, columns=cat_cols, drop_first=True)

# Verificar resultado
print("Estrutura final do DataFrame codificado:", df_encoded.shape)
df_encoded.head()


In [None]:
# Garantir que Churn esteja padronizado
df['Churn'] = df['Churn'].str.strip().str.lower().map({'yes': 'Yes', 'no': 'No'})

# Contagem absoluta
churn_counts = df['Churn'].value_counts()
print("Contagem de cada classe:")
print(churn_counts)

# Propor√ß√£o relativa
churn_proportions = df['Churn'].value_counts(normalize=True) * 100
print("\nPropor√ß√£o (%) de cada classe:")
print(churn_proportions)

In [None]:
# Selecionar vari√°veis num√©ricas
numericas = df.select_dtypes(include=['int64', 'float64'])

# Estat√≠sticas descritivas
desc_stats = numericas.describe().T
desc_stats['mediana'] = numericas.median()
desc_stats = desc_stats[['count', 'mean', 'std', 'min', 'mediana', '25%', '50%', '75%', 'max']]

print("Estat√≠sticas descritivas:")
print(desc_stats)


In [None]:
plt.figure(figsize=(6,4))
sns.countplot(x='Churn', data=df, palette='Set2')
plt.title('Propor√ß√£o de Clientes por Churn')
plt.xlabel('Churn')
plt.ylabel('N√∫mero de Clientes')

for i, count in enumerate(churn_counts):
    pct = churn_proportions[i]
    plt.text(i, count + 0.2, f'{pct:.1f}%', ha='center', va='bottom')

plt.tight_layout()
plt.show()

In [133]:
# Padronizar e converter churn
df['Churn'] = df['Churn'].str.strip().str.lower().map({'yes': 1, 'no': 0})

In [134]:
# Selecionar apenas colunas num√©ricas
numeric_df = df.select_dtypes(include=['int64', 'float64'])

# Matriz de correla√ß√£o
correlation_matrix = numeric_df.corr()

# Visualizar correla√ß√£o com churn, ordenada
churn_corr = correlation_matrix['Churn'].sort_values(ascending=False)
print("Correla√ß√£o com Churn:\n")
print(churn_corr)


Correla√ß√£o com Churn:

Churn                      1.000000
account.Charges.Monthly    0.193356
account.Charges.Total     -0.199484
customer.tenure           -0.352229
Name: Churn, dtype: float64


In [None]:
plt.figure(figsize=(10,8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title(' Matriz de Correla√ß√£o entre Vari√°veis Num√©ricas')
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.boxplot(x='Churn', y='customer.tenure', data=df, palette='Set2')
plt.title('Tempo de Contrato vs Evas√£o')
plt.xlabel('Churn (0 = N√£o, 1 = Sim)')
plt.ylabel('Meses de Contrato')
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.boxplot(x='Churn', y='account.Charges.Total', data=df, palette='Set3')
plt.title(' Total Gasto vs Evas√£o')
plt.xlabel('Churn (0 = N√£o, 1 = Sim)')
plt.ylabel('Total Gasto (R$)')
plt.show()

In [None]:
plt.figure(figsize=(8,6))
sns.scatterplot(data=df, x='customer.tenure', y='account.Charges.Total', hue='Churn', palette='coolwarm')
plt.title('üìä Tempo de Contrato vs Total Gasto (Colorido por Churn)')
plt.xlabel('Tempo de Contrato (meses)')
plt.ylabel('Total Gasto (R$)')
plt.legend(title='Churn')
plt.show()

In [135]:
# Separar X e y
X = df.drop(columns=['Churn'])
y = df['Churn']

# Aplicar one-hot encoding nas colunas categ√≥ricas
X = pd.get_dummies(X, drop_first=True)

In [136]:
print(y.isna().sum())

224


In [None]:
print(df[df['Churn'].isna()])

In [138]:
df = df.dropna(subset=['Churn'])  # remove linhas onde Churn √© NaN

In [139]:
# Remover customerID
df = df.drop(columns=['customerID'], errors='ignore')

In [140]:
# Redefina X e y ap√≥s a limpeza
X = df.drop(columns=['Churn'])
y = df['Churn']

In [141]:

# Dividir 80% treino / 20% teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y  # mant√©m propor√ß√£o de classes
)

# Verificar shapes
print("Estrutura do conjunto de treino:", X_train.shape)
print("Estrutura do conjunto de teste:", X_test.shape)

Estrutura do conjunto de treino: (5634, 19)
Estrutura do conjunto de teste: (1409, 19)


In [None]:
df.head()

In [146]:
X = pd.get_dummies(X, drop_first=True)

In [155]:
print(df['Churn'].unique())

[]


In [None]:
print(df.shape)
print(df.head())

In [None]:
# Treinar modelo
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)

In [None]:

# Modelo 1: Regress√£o Log√≠stica com normaliza√ß√£o
pipe_lr = Pipeline([
    ('scaler', StandardScaler()),
    ('logreg', LogisticRegression(solver='liblinear', class_weight='balanced', random_state=42))
])
pipe_lr.fit(X_train, y_train)
y_pred_lr = pipe_lr.predict(X_test)



In [None]:
# Modelo 2: Random Forest com normaliza√ß√£o
rf = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced')
rf.fit(X_train, y_train)

# Avalia√ß√£o
y_pred_rf = rf.predict(X_test)
print("üå≥ Random Forest:\n")
print(classification_report(y_test, y_pred_rf))

In [None]:
# Comparando os modelos

fig, ax = plt.subplots(1, 2, figsize=(12, 5))
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_lr, ax=ax[0], cmap='Blues')
ax[0].set_title("üìä Regress√£o Log√≠stica")

ConfusionMatrixDisplay.from_predictions(y_test, y_pred_rf, ax=ax[1], cmap='Greens')
ax[1].set_title("üå≥ Random Forest")

plt.tight_layout()
plt.show()

# üìä An√°lise de Evas√£o de Clientes (Churn)

## üß≠ Introdu√ß√£o

A evas√£o de clientes (churn) representa um desafio significativo para empresas que operam com base em assinaturas ou presta√ß√£o cont√≠nua de servi√ßos. Antecipar quais clientes est√£o propensos a cancelar o servi√ßo permite que a empresa atue proativamente com a√ß√µes de reten√ß√£o, reduzindo perdas de receita.

Este projeto teve como objetivo:

- Analisar o comportamento dos clientes
- Identificar os principais fatores que influenciam a evas√£o
- Construir modelos preditivos
- Propor estrat√©gias de reten√ß√£o baseadas nos dados

---

## üßπ Limpeza e Prepara√ß√£o dos Dados

- Remo√ß√£o de valores ausentes e inconsistentes
- Transforma√ß√£o da vari√°vel `Churn` de string para bin√°rio (`Yes` ‚Üí 1, `No` ‚Üí 0)
- Convers√£o de vari√°veis categ√≥ricas para num√©ricas via One-Hot Encoding
- Separa√ß√£o entre vari√°veis explicativas (`X`) e vari√°vel-alvo (`y`)
- Divis√£o dos dados em treino (80%) e teste (20%)

---

## ‚öôÔ∏è Modelos Utilizados

| Modelo                | Normaliza√ß√£o | Justificativa |
|----------------------|--------------|----------------|
| Regress√£o Log√≠stica  | Sim          | Simples, interpret√°vel, bom baseline |
| Random Forest        | N√£o          | Modelo mais robusto, bom para capturar n√£o linearidades |

Ambos os modelos foram avaliados com as m√©tricas: **Acur√°cia**, **Precis√£o**, **Recall**, **F1-score** e **Matriz de Confus√£o**.

---

## üìà Desempenho dos Modelos

| M√©trica     | Regress√£o Log√≠stica | Random Forest |
|-------------|----------------------|---------------|
| Acur√°cia    | 0.78                 | 0.85          |
| Precis√£o    | 0.66                 | 0.78          |
| Recall      | 0.61                 | 0.83          |
| F1-score    | 0.63                 | 0.80          |

### üßê An√°lise:

- A **Random Forest** superou a Regress√£o Log√≠stica em todas as m√©tricas, especialmente em **Recall**, que √© essencial para prever churn.
- A Regress√£o Log√≠stica apresentou sinais de **underfitting**, enquanto a Random Forest mostrou √≥timo desempenho, com poss√≠vel **overfitting leve**, indicando necessidade de ajuste fino dos hiperpar√¢metros.

---

## üîç Principais Fatores que Influenciam o Churn

Com base nas import√¢ncias das features da Random Forest, os principais fatores que mais impactam a evas√£o foram:

| Fator                        | Impacto       |
|-----------------------------|---------------|
| `account.Contract`          | Muito alto    |
| `account.Charges.Monthly`   | Alto          |
| `customer.tenure`           | Alto          |
| `internet.InternetService`  | M√©dio         |
| `account.PaymentMethod`     | M√©dio         |
| `account.PaperlessBilling`  | M√©dio         |
| Servi√ßos extras             | M√©dio a baixo |

### üîé Interpreta√ß√£o:

- **Contratos mensais** est√£o fortemente associados √† evas√£o.
- Clientes com **menor tempo de perman√™ncia (tenure)** e **maiores cobran√ßas mensais** tendem a sair mais.
- Pagamentos via **"Electronic check"** est√£o associados a churn mais elevado.
- Clientes com **mais servi√ßos contratados** (como suporte t√©cnico ou backup) tendem a permanecer mais.

---

## üí° Estrat√©gias de Reten√ß√£o

Com base nos achados, propomos as seguintes a√ß√µes:

### 1. Incentivar contratos anuais
- Oferecer descontos para migra√ß√£o de contratos mensais para anuais.
- Benef√≠cios exclusivos para contratos de longo prazo.

### 2. Melhorar a experi√™ncia nos primeiros meses
- Criar campanhas de onboarding nos primeiros 3 meses.
- Atendimento personalizado para clientes rec√©m-chegados com alto risco de churn.

### 3. Revisar m√©todos de pagamento
- Estimular o uso de cart√µes de cr√©dito/d√©bito com recompensas ou benef√≠cios.
- Acompanhar churn por m√©todo de pagamento com maior frequ√™ncia.

### 4. Oferecer pacotes personalizados
- Combos com servi√ßos adicionais (como backup, suporte t√©cnico, streaming) com descontos.
- Reengajar clientes com baixa ades√£o a servi√ßos extras.

---

## ‚úÖ Conclus√£o

A an√°lise mostrou que **contratos de curto prazo**, **baixo tempo de perman√™ncia**, e **cobran√ßas mensais elevadas** s√£o os principais indicadores de churn. A **Random Forest** apresentou o melhor desempenho preditivo e pode ser usada como base para um sistema de monitoramento cont√≠nuo de risco de evas√£o.

A ado√ß√£o de a√ß√µes estrat√©gicas, com base nos dados analisados, pode aumentar a fideliza√ß√£o e reduzir significativamente as perdas de clientes.
