# PREVISÃO DE CHURN DE CLIENTES DE TELECOM

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import classification_report

In [None]:
DF = pd.read_csv('WA_Fn-UseC_-Telco-Customer-Churn.csv')

In [None]:
DF.head()

In [None]:
DF.info()

In [None]:
sns.countplot(x='Churn', data=DF)
plt.title('SIM x NÃO')
plt.show()

In [None]:
# "Clientes com contratos mensais cancelam mais do que clientes com contratos anuais?"
sns.countplot(x='Contract', hue='Churn', data=DF)
plt.title('MENSAL X ANUAL')
plt.show()

In [None]:
# "Clientes que têm serviço de streaming de filmes cancelam mais ou menos?"
sns.countplot(x='StreamingMovies', hue='Churn', data=DF)
plt.title('Streaming')
plt.show()

In [None]:
# "Clientes com cobranças mensais mais altas (MonthlyCharges) tendem a cancelar mais?"
sns.boxplot(x='Churn', y='MonthlyCharges', data=DF)
plt.title('Mensal mais alto - Cancelamento')
plt.show()

In [None]:
DF['TotalCharges'] = pd.to_numeric(DF['TotalCharges'], errors='coerce')

In [None]:
DF['TotalCharges'].isnull().sum()

In [None]:
DF = DF.dropna()
DF['TotalCharges'].isnull().sum()

In [None]:
DF = DF.drop('customerID', axis=1)

In [None]:
DF_encoded = pd.get_dummies(DF, drop_first=True)

In [None]:
DF_encoded.head()

In [None]:
y = DF_encoded['Churn_Yes']
x = DF_encoded.drop('Churn_Yes', axis=1)

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

In [None]:
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_test_scaled = scaler.fit_transform(x_test)

In [None]:
model = LogisticRegression()
model.fit(x_train_scaled, y_train)

In [None]:
y_pred = model.predict(x_test_scaled)

In [None]:
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()
plt.show()

In [None]:
report = classification_report(y_test, y_pred)
print(report)

## ✅ Conclusões e Implicações para o Negócio

Após a análise exploratória e o pré-processamento dos dados, foi treinado um modelo de **Regressão Logística** para prever o Churn de clientes. A avaliação do modelo no conjunto de teste revelou insights importantes sobre sua performance e utilidade prática.

### Performance do Modelo

O modelo alcançou uma **acurácia geral de 79%**, indicando um bom desempenho geral. No entanto, a análise detalhada do **Relatório de Classificação** é crucial para entender seu verdadeiro valor de negócio.

Para a classe de maior interesse (`Churn = Yes`, representada pela linha `True` no relatório), obtivemos os seguintes resultados:

*   **`Precision`: 0.62 (62%)**
    *   **O que significa:** De cada 100 clientes que o modelo identifica como "em risco de cancelar", 62 deles de fato cancelariam. Isso nos dá uma lista de leads com uma alta probabilidade de churn para a equipe de retenção focar.

*   **`Recall`: 0.51 (51%)**
    *   **O que significa:** O modelo foi capaz de identificar **51% de todos os clientes que realmente cancelaram**. Isso significa que, embora eficaz, o modelo ainda não consegue "capturar" quase metade dos clientes que estão prestes a sair.

*   **`F1-Score`: 0.56**
    *   Esta métrica, que balanceia a precisão e o recall, nos dá uma boa medida única da performance do modelo na previsão de churn.

### Implicações para o Negócio e Próximos Passos

O modelo atual já é uma ferramenta valiosa. Ele pode ser utilizado para gerar uma lista semanal de clientes com alta probabilidade de churn, permitindo que a equipe de marketing ou retenção atue de forma proativa com ofertas, descontos ou um contato personalizado.

**Próximos Passos para Melhoria:**

1.  **Otimizar para Recall:** Para um problema de churn, geralmente é mais custoso "deixar um cliente ir embora" (Falso Negativo) do que "dar um desconto para um cliente que não ia sair" (Falso Positivo). O próximo passo seria otimizar o modelo para aumentar o **Recall**, mesmo que isso signifique uma pequena queda na Precisão.

2.  **Testar Outros Modelos:** Algoritmos mais complexos, como **Random Forest** ou **Gradient Boosting**, podem capturar relações mais complexas nos dados e potencialmente melhorar a performance geral.

3.  **Engenharia de Features:** Criar novas características a partir das existentes (por exemplo, a razão entre a cobrança mensal e a cobrança total) poderia fornecer mais informações para o modelo.

Em resumo, este projeto estabelece uma base sólida (um *baseline*) para a detecção de churn, provando que é possível prever o comportamento do cliente com um bom grau de certeza usando os dados disponíveis.