# Importar Bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OrdinalEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix


# Carregar o Dataset

In [2]:
# import kaggle
# kaggle.api.dataset_download_files('muhammadshahidazeem/customer-churn-dataset', path='C:/Users/karen/Documents/karenjblab/analise-churn/data', unzip=True)

## Testing

In [3]:
df_testing = pd.read_csv("C:/Users/karen/Documents/karenjblab/analise-churn/data/customer_churn_dataset-testing-master.csv")  # Aqui a gente preenche com o nome do .csv

In [4]:
df_testing.head()  # Exibe as primeiras 5 linhas

Unnamed: 0,CustomerID,Age,Gender,Tenure,Usage Frequency,Support Calls,Payment Delay,Subscription Type,Contract Length,Total Spend,Last Interaction,Churn
0,1,22,Female,25,14,4,27,Basic,Monthly,598,9,1
1,2,41,Female,28,28,7,13,Standard,Monthly,584,20,0
2,3,47,Male,27,10,2,29,Premium,Annual,757,21,0
3,4,35,Male,9,12,5,17,Premium,Quarterly,232,18,0
4,5,53,Female,58,24,9,2,Standard,Annual,533,18,0


## Training

In [5]:
df_training = pd.read_csv("C:/Users/karen/Documents/karenjblab/analise-churn/data/customer_churn_dataset-training-master.csv")  # Aqui a gente preenche com o nome do .csv

In [6]:
df_training.head()

Unnamed: 0,CustomerID,Age,Gender,Tenure,Usage Frequency,Support Calls,Payment Delay,Subscription Type,Contract Length,Total Spend,Last Interaction,Churn
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.0,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.0,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.0,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.0,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.0,20.0,1.0


# Explorar os Dados

## Testing

### Informações gerais do dataset

In [7]:
print(df_testing.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64374 entries, 0 to 64373
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   CustomerID         64374 non-null  int64 
 1   Age                64374 non-null  int64 
 2   Gender             64374 non-null  object
 3   Tenure             64374 non-null  int64 
 4   Usage Frequency    64374 non-null  int64 
 5   Support Calls      64374 non-null  int64 
 6   Payment Delay      64374 non-null  int64 
 7   Subscription Type  64374 non-null  object
 8   Contract Length    64374 non-null  object
 9   Total Spend        64374 non-null  int64 
 10  Last Interaction   64374 non-null  int64 
 11  Churn              64374 non-null  int64 
dtypes: int64(9), object(3)
memory usage: 5.9+ MB
None


### Contagem dos valores da variável alvo

In [9]:
print(df_testing["Churn"].value_counts())

NameError: name 'df' is not defined

### Visualizando a distribuição de Churn

In [None]:
sns.countplot(data=df_testing, x="Churn"),
plt.title("Distribuição de Churn"),
plt.show()

## Training

In [None]:
### Informações gerais do dataset

In [None]:
print(df_testing.info())

In [None]:
### Contagem dos valores da variável alvo

In [None]:
print(df_testing["Churn"].value_counts())

In [None]:
### Visualizando a distribuição de Churn

# Preparação dos Dados

## Separando variáveis preditoras e alvo

In [None]:
X = df.drop(columns=["Churn"])
y = df["Churn"]

In [None]:
X

In [None]:
gender = pd.get_dummies(X['Gender'], drop_first=True)

In [None]:
gender

In [None]:
X['Male'] = gender['Male']

In [None]:
X

In [None]:
X.drop(columns=['Gender'], inplace=True)

In [None]:
X

In [None]:
oe = OrdinalEncoder(categories=[['Basic', 'Standard', 'Premium']])

In [None]:
oe

In [None]:
X[['Subscription Type']] = oe.fit_transform(X[['Subscription Type']]).astype(int)

In [None]:
X

In [None]:
oe = OrdinalEncoder(categories=[['Monthly', 'Quarterly', 'Annual']])

In [None]:
X[['Contract Length']] = oe.fit_transform(X[['Contract Length']]).astype(int)

In [None]:
X

## Dividindo os dados (80% treino, 20% teste)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Uso StandardScaler para padronizar (ou normalizar) os dados de treinamento e teste. A padronização é uma técnica comum para preparar os dados antes de alimentar um modelo de Machine Learning. Ela visa garantir que todas as features tenham a mesma escala e distribuição.

## Padronizando os dados

O StandardScaler é uma técnica de normalização que transforma os dados para uma distribuição com média 0 e desvio padrão 1. Isso é útil porque muitos modelos de Machine Learning, especialmente aqueles baseados em distâncias (como KNN ou SVM), se saem melhor quando os dados estão padronizados.

In [None]:
scaler = StandardScaler()

Estou aplicando a padronização aos dados de treinamento X_train. O método fit_transform() faz duas coisas:

```fit():``` Calcula a média e o desvio padrão de cada feature (coluna) dos dados de treinamento.

```transform():``` Usa essas informações de média e desvio padrão para transformar os dados, fazendo com que cada feature tenha média 0 e desvio padrão 1.

In [None]:
X_train = scaler.fit_transform(X_train)

Não uso ```fit_transform()``` aqui, porque quero que os dados de teste sejam transformados da mesma maneira que os dados de treinamento, ou seja, usando a mesma média e desvio padrão calculados no fit() de X_train. Isso evita que o modelo tenha "informações privilegiadas" dos dados de teste, o que poderia viciar o modelo.



In [None]:
X_test = scaler.transform(X_test)

# Treinando o Modelo

## Descobrir qual é a quantidade ideal de árvores para criar o modelo com o Grid Search

Utilizar esse código caso os parâmetros comuns estiverem resultados em uma acurácia de 1.00, o que pode significar um overfitting dos dados (a a máquina entende além do que deveria e acaba gerando enganos, como por exemplo, prever comportamentos mais parecidos com o que a maioria faz do que a previsão real do que pode ocorrer.

In [None]:
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.model_selection import GridSearchCV

# # Definir o modelo
# rf = RandomForestClassifier(random_state=42)

# # Parâmetros para o GridSearch
# param_grid = {
#     'n_estimators': [100, 200, 300, 500, 1000],  # Testando diferentes números de árvores
#     'max_depth': [None, 10, 20],  # Ajuste para a profundidade das árvores
#     'min_samples_split': [2, 5, 10],  # Número mínimo de amostras por divisão
#     'min_samples_leaf': [1, 2, 4]  # Número mínimo de amostras por folha
# }

# # Definindo o GridSearchCV
# grid_search = GridSearchCV(rf, param_grid, cv=3, n_jobs=-1)
# grid_search.fit(X_train, y_train)

# # Melhor número de árvores encontrado
# print("Melhor número de árvores:", grid_search.best_params_['n_estimators'])

## Criando e treinando um modelo Random Forest

Criei um objeto do modelo ```RandomForestClassifier()``` e vou treinar ele com os dados de treinamento X_train e as labels correspondentes y_train.

In [None]:
model = RandomForestClassifier(n_estimators=500
                               , random_state=42
                               , max_depth=8
                               , class_weight={0: 1, 1: 0.9}  # Dando um peso menor para churn para reduzir FP
                               , min_samples_split = 10
                               , min_samples_leaf=15
                               , max_features='sqrt'# Reduzindo o número de features consideradas por nó
                              )

O método ```fit()``` é onde o modelo aprende a relação entre as features (dados) e a variável alvo (y_train).

In [None]:
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
y_probs = model.predict_proba(X_test)[:, 1]  # Pegando probabilidade de churn

In [None]:
y_pred_adjusted = (y_probs > 0.70).astype(int)  # Subindo threshold para 0.55

# Avaliação do Modelo

Depois de treinar o modelo, quero saber o quanto ele é bom em fazer previsões. 

Uma das formas de avaliar a performance do modelo é usar a acurácia.

In [None]:
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do Modelo: {accuracy:.2f}")

## Relatório de Classificação

In [None]:
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

## Matriz de Confusão

Aqui estamos considerando o padrão de 0.5 de nível de confiança

In [None]:
plt.figure(figsize=(5,4))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt="d", cmap="Blues")
plt.xlabel("Previsto")
plt.ylabel("Real")
plt.title("Matriz de Confusão - NC 0.50")
plt.show()

Aqui aumentamos o nível de confiança para 0.55

In [None]:
plt.figure(figsize=(5,4))
sns.heatmap(confusion_matrix(y_test, y_pred_adjusted), annot=True, fmt="d", cmap="Blues")
plt.xlabel("Previsto")
plt.ylabel("Real")
plt.title("Matriz de Confusão - NC 0.55")
plt.show()

In [None]:
# from sklearn.metrics import confusion_matrix
# print(confusion_matrix(y_test, y_pred_adjusted))

# Resumo do Problema, Análise do Modelo e Interpretação dos Resultados

Iniciamos com um problema crítico: um modelo com acurácia de 1.00, o que indicava overfitting. Como um modelo real nunca é perfeito, ajustamos diversos hiperparâmetros, como número de árvores, profundidade, min_samples_split e min_samples_leaf, buscando um melhor equilíbrio entre precisão e generalização.

Com esses ajustes, a acurácia caiu para um nível mais realista, e a matriz de confusão demonstrou resultados mais consistentes, especialmente nos thresholds 0.5 e 0.55, onde a taxa de FP e FN se manteve dentro de um limite estatisticamente aceitável.

Dessa forma, a melhor solução para o negócio no momento é atuar sobre os 5900 casos previstos como churn para evitar perdas de clientes, garantindo que estratégias preventivas sejam aplicadas de forma eficiente.