### Previsão de Churn de Clientes com vários algoritmos 
XGBoost | ExtraTrees | SVC | CatBoost | DecisionTree

- Este projeto destaca a necessidade de saber tratar bases de dados desbalanceadas (quando há pequena incidência de uma categoria dentro de um dataset (classe minoritária) em comparação com as demais categorias (classes majoritárias))
- Como veremos, a grande maioria dos exemplos disponíveis no dataset representam casos em que não houve 'churn'.
- Existem cuidados especiais ao se avaliar um algoritmo de Machine Learning quando se trata de datasets desbalanceados. Se desenvolvermos um modelo sem considerar essa desproporcionalidade nos dados, poderá levar a uma falsa percepção de que o modelo possuiu alta acurácia e que produz ótimos resultados.

Os dados para análise estão disponíveis no Kaggle: 
- [IT Customer Chrun (Goal : Imbalanced Dataset)](https://www.kaggle.com/datasets/soheiltehranipour/it-customer-churn/data)

### Sobre os dados:

O Churn indica se um cliente desistiu/cancelou detereminado serviço. Em negócios que cobram mensalmente por um serviço, o churn é um problema sério. Afinal, quando um cliente que paga uma mensalidade resolve cancelar, todo o faturamento da empresa é comprometido a longo prazo, não só no mês atual.

Prever o 'Churn' de clientes implica saber quais clientes provavelmente sairão ou cancelarão a assinatura. Para várias empresas, geralmente uma previsão crítica pois frequentemente, como obter clientes custa mais do que manter os existentes.

O dataset inclui informações sobre:

- Clientes que saíram no último mês: a coluna é chamada 'Churn'
- Serviços que cada cliente assinou: telefone, várias linhas, internet, segurança online, backup online, proteção de dispositivo, suporte técnico e streaming de TV e filmes
- Informações da conta do cliente: há quanto tempo ele é cliente, contrato, método de pagamento, faturamento sem papel, cobranças mensais e cobranças totais
- Informações demográficas sobre os clientes: sexo, faixa etária e se eles têm parceiros e dependentes

- [1. Importar e limpar os dados](#1-importar-e-limpar-os-dados)
- [2. Visualizando os dados](#2-visualizando-os-dados)


In [None]:
# bibliotecas que serão utilizadas no projeto
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import plotly.express as px
import seaborn as sns

from sklearn.metrics import precision_score, recall_score, accuracy_score, confusion_matrix, f1_score, classification_report, roc_curve, auc

from sklearn.ensemble import ExtraTreesClassifier
from xgboost import XGBClassifier
from sklearn.svm import SVC
from sklearn.linear_model import RidgeClassifier
from sklearn.tree import DecisionTreeClassifier

import time

from sklearn.model_selection import KFold, GridSearchCV, KFold, cross_val_score, train_test_split
from imblearn.pipeline import Pipeline

from sklearn.calibration import CalibratedClassifierCV
from sklearn.preprocessing import MinMaxScaler

### 1. Importar e limpar os dados <a id="1-importar-e-limpar-os-dados"></a>

In [None]:
# importar o dataset
df = pd.read_csv('IT_customer_churn.csv')
print(df.shape)

In [None]:
# visualizando os dados
df.head()

In [None]:
# obtendo informações de tipos de dados reconhecidos e se há valores nulos
df.info()

In [None]:
# verificando os valores existentes pra cada coluna
for coluna in df.columns:
    print(f'{coluna} : {df[coluna].unique()}')

**Não há valores nulos na base de dados, porém há alguns problemas identificados:**

- **Coluna gender deve ser convertida para formato numérico. Uma possível solução é 'Male' = 1 e 'Female' = 0**
- **Colunas do tipo booleano: Transformar os valores 'Yes' para 1 e 'No' para 0 e então converter para tipo numérico.**
- **Coluna TotalCharges é o valor total pago pelo cliente até então. Esta coluna foi reconhecida como objeto e deve ser convertida pro formato de número.**
- **As colunas InternetService, Contract e PaymentMethod possuem valores categóricos. Será realizado o encoding para estas colunas.**

In [None]:
# converter a coluna TotalCharges para numérico
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

- **Após transformar a coluna TotalCharges para numérico, alguns valores estavam preenchidos como espaço em branco (' '), portanto serão excluídos do modelo.**

In [None]:
df.isnull().sum()

In [None]:
df = df.dropna()
df.isnull().sum()

### 2. Visualizando os dados <a id="2-visualizando-os-dados"></a>

In [None]:
# Verificando a distribuição dos valores na feature Churn

# Contagem dos valores de Churn
data = df['Churn'].value_counts()

# Criação do gráfico de pizza com rótulos personalizados e uma legenda
sns.set_theme(style='dark', palette='colorblind', context='notebook')
fig, ax = plt.subplots()
ax.pie(x=data, labels=data.values, autopct='%1.1f%%', explode=(0, 0.1), shadow=True, startangle=90)
ax.legend(data.index)
plt.title("Distribuição de Churn")

# Exibição do gráfico
plt.show()


- **Com o gráfico acima, fica evidente o desbalancemaneto na ocorrência de Churn para este dataset**

In [None]:
# verificando a presença de outliers nas colunas tenure, MonthlyCharges e TotalCharges
colunas_numericas = ['tenure', 'MonthlyCharges', 'TotalCharges']

plt.style.use('seaborn-v0_8-colorblind')

fig, axs = plt.subplots(nrows=1, ncols=3, figsize=(16,8), tight_layout=True)
for i in range(len(colunas_numericas)):
    sns.boxplot(y=colunas_numericas[i], data=df, ax=axs[i])

- **Observa-se portanto que não há valores muito discrepantes para essas 3 features.**

In [None]:
# Verificando o Churn com relação ao número de serviços contratados 

# Criando nova coluna com a quantidade de serviços adquiridos por cliente
df['internet'] = df['InternetService'].apply(lambda x: 'No' if x == 'No' else 'Yes')

df['num_services'] = (df[['PhoneService', 'OnlineSecurity',
                          'OnlineBackup', 'DeviceProtection',
                          'TechSupport', 'StreamingTV',
                          'StreamingMovies', 'internet', 'MultipleLines']] == 'Yes').sum(axis=1)

sns.set_theme(style='dark', palette='colorblind', context='notebook')

sns.histplot(x='num_services', data=df, hue='Churn', multiple='dodge')

plt.show()

In [None]:
# Verificando a percentagem de Churn em relação ao número de serviços contratados 
pd.crosstab(df["num_services"], df["Churn"], normalize="index", margins=True, margins_name="Total").mul(100).round(1)

- **Parece não haver correlação direta entre o número de serviços contratados e churn, mesmo assim iremos manter essa coluna no modelo**

In [None]:
# Verificando a distribuição dos valores nas colunas numéricas

fig, axs = plt.subplots(nrows=1, ncols=3, figsize=(14,6), tight_layout=True)
for i in range(len(colunas_numericas)):
    sns.histplot(x=colunas_numericas[i], data=df, multiple='dodge', ax=axs[i])

plt.show()

In [None]:
# Verificando a contagem de churn para cada variável numérica
fig, axs = plt.subplots(nrows=1, ncols=3, figsize=(14,6), tight_layout=True)

for i in range(len(colunas_numericas)):
    sns.histplot(x=colunas_numericas[i], data=df, hue='Churn', multiple='dodge', ax=axs[i])

plt.show()

- **É possível observar que o Churn tende a diminuir conforme os valores de 'tenure' (que indicam o tempo em meses do cliente na empresa) diminui**
- **O mesmo ocorre com os valores de TotalCharges**

In [None]:
# Verificando o Churn por tipo de contrato
sns.histplot(x='Contract', data=df, hue='Churn', multiple='stack', shrink=0.8)
plt.show()

- **O Churn tende a diminuir conforme aumenta a duração do contrato. Isso explica o motivo de algumas empresas fornecerem descontos e atrativos para favorecer os contratos anuais**

### 3. Preparando os dados para o modelo de previsão

In [None]:
# converter a coluna gender para numérico: 'Male' = 1 e 'Female' = 0
df['gender'] = df['gender'].apply(lambda x: 1 if x == 'Male' else 0)

In [None]:
colunas_bool = ['Partner', 'Dependents', 'PhoneService', 'MultipleLines', 'OnlineSecurity', 
                'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV',
               'StreamingMovies', 'PaperlessBilling', 'Churn']

# converter todos os valores 'Yes' para 1 e os outros possíveis ('No', 'No internet service', 'No phone service') para 0 
for coluna in colunas_bool:
    df[coluna] = df[coluna].apply(lambda x: 1 if x == 'Yes' else 0)

#### 3.1. Feature Engineering

In [None]:
# Verifica se o cliente está comprometido com os serviços da empresa, ou seja, se o tipo de contrato for diferente de Mês-a-Mês, o valor retornado será 1 (Yes)
df['comprometido'] = np.where(df['Contract'] != 'Month-to-month', 1.0, 0.0)

# Verifica se o cliente possui algum tipo de serviço de proteção contratado e retorna 1 caso possua pelo menos um.
df['protecao'] = np.where((df['OnlineBackup'] != 0) | (df['DeviceProtection'] != 0) | (df['TechSupport'] != 0), 1.0, 0.0)

# Cliente Senior com Dependentes
df['senior_com_dependentes'] = np.where((df['SeniorCitizen'] == 1) & (df['Dependents'] == 1), 1.0, 0.0)

# Cliente jovem e comprometido
df['jovem_comprometido'] = np.where((df['SeniorCitizen'] == 0) & (df['Contract'] != 'Month-to-month'), 1.0, 0.0)

# Cliente com todos os serviços de proteção
df['todo_protegido'] = np.where((df['OnlineSecurity'] != 0) & (df['OnlineBackup'] != 0) & (df['DeviceProtection'] != 0), 1, 0)

# Cliente com Alta Fatura Mensal e Longo Tempo de Permanência 
df['alta_fatura_longo_tempo'] = np.where((df['MonthlyCharges'] > df['MonthlyCharges'].median()) & (df['tenure'] > df['tenure'].median()), 1.0, 0.0)

In [None]:
# obtendo novamente os tipos de dados
df.info()

In [None]:
# fazendo o encoding para as colunas InternetService, Contract, PaymentMethod, num_services e internetd
colunas_categorias=['InternetService', 'Contract', 'PaymentMethod', 'num_services', 'internet']
df_cod = pd.get_dummies(data=df, columns=colunas_categorias, dtype=int)

In [None]:
# verificando novamente os valores existentes pra cada coluna
for coluna in df_cod.columns:
    print(f'{coluna} : {df_cod[coluna].unique()}')

In [None]:
df_cod.head()

- **Removendo colunas com alta correlação**

In [None]:
# Limite para remoção de variáveis altamente correlacionadas
limite_corr = 0.90

# Matriz de correlação de valor absoluto
corr_matrix = df_cod.corr().abs()

# Obtendo o triângulo superior de correlações
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))

# Selecionando colunas com correlações acima do limite
para_remover = [column for column in upper.columns if any(upper[column] > limite_corr)]

print('Há %d colunas a remover' % (len(para_remover)))
print(list(para_remover))

In [None]:
df_cod = df_cod.drop(columns = para_remover)

#### 3.2. Normalizando os valores
**A normalização dos dados é crucial em muitos modelos de Machine Learning. Isso é feito para garantir que todas as variáveis estejam na mesma escala, o que ajuda a:**
- **Facilita a convergência mais rápida dos modelos durante o treinamento.**
- **Melhora a precisão das previsões dos modelos.**
- **Permite que os modelos aprendam pesos mais apropriados para cada característica.**

In [None]:
# criando o normalizador
scaler = MinMaxScaler(feature_range=(0, 1))
# ajustando o conjunto de dados no normalizador
normal = scaler.fit_transform(df_cod)
# criando o dataframe a partir dos dados normalizados
normal_df = pd.DataFrame(normal, columns= df_cod.columns)

In [None]:
# criando X e y a partir dos dados normalizados
X = normal_df.drop(columns='Churn', axis=1)
y = normal_df['Churn']

# criando X, y de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 11, stratify=y)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

### 4. Criando os diferentes modelos de classificação
- Escolha dos modelos a serem testados
  1. XGBoost
  2. ExtraTrees
  3. SVC
  4. CatBoost
  5. DecisionTree

#### 4.1. Antes de criar os modelos, vamos primeiro encontrar os melhores hiperparâmetros para cada um deles utilizando o GridsearchCV

In [None]:
# Modelos e seus respectivos parâmetros
modelos = {
    'XGB': XGBClassifier(),
    'ExtraTrees': ExtraTreesClassifier(),
    'SVC': SVC(),
    'Ridge': RidgeClassifier(),
    'DecisionTree': DecisionTreeClassifier()
}

hiperparametros = {
    'XGB': {'n_estimators': [100, 200, 500, 1000],
            'learning_rate': [0.01, 0.001, 1.0],
            'subsample': [0.75],
            'colsample_bytree': [1],
            'random_state': [11],
            'max_depth': [1, 3, 5]},

    'ExtraTrees': {'n_estimators': [100, 200, 500, 1000],
                   'criterion': ['gini', 'entropy', 'log_loss'],
                   'random_state': [11],
                   'max_depth': [1, 3, 5]},

    'SVC': {'tol': [0.01, 0.001, 0.0001],
            'random_state': [43],
            'C': [1.0, 3.0, 5.0]},

    'Ridge': {'alpha': [1.0, 2.0, 3.0],
             'tol': [0.01, 0.001, 0.0001],
             'random_state': [43]},
    
    'DecisionTree': {'splitter': ['best', 'random'],
                     'criterion': ['gini', 'entropy', 'log_loss'],
                     'min_samples_leaf': [1, 2, 3],
                     'min_samples_split': [2, 3, 4, 5],
                     'random_state': [11],
                     'max_depth': [1, 3, 5]}
}

In [None]:
# Função para encontrar os melhores parâmetros
def encontrar_melhores_hiperparametros(modelos, hiperparametros):
    melhores_hiperparametros = {}
    kf = KFold(n_splits=10, shuffle=True, random_state=11)
    
    for nome_modelo, modelo in modelos.items():
        print(f'Ajustando parâmetros para {nome_modelo}...')
        
        grid_search = GridSearchCV(estimator=modelo, param_grid=hiperparametros[nome_modelo], cv=kf, refit=True, n_jobs=-1)
        grid_search.fit(X_train, y_train)

        # Armazenar os melhores parâmetros e as métricas
        melhores_hiperparametros[nome_modelo] = grid_search.best_params_
    
    return melhores_hiperparametros

In [None]:
# Encontrar os melhores parâmetros
melhores_hiperparametros = encontrar_melhores_hiperparametros(modelos, hiperparametros)

# Imprimindo os melhores parâmetros
for modelo, parametros in melhores_hiperparametros.items():
    print(modelo, ':', parametros)

In [None]:
modelos_otimizados = {
    'XGB': XGBClassifier(**melhores_hiperparametros['XGB']),
    'ExtraTrees': ExtraTreesClassifier(**melhores_hiperparametros['ExtraTrees']),
    'SVC': SVC(**melhores_hiperparametros['SVC']),
    'Ridge': RidgeClassifier(**melhores_hiperparametros['Ridge']),
    'DecisionTree': DecisionTreeClassifier(**melhores_hiperparametros['DecisionTree'])
}

- **Avaliando os modelos...**

In [None]:
# Usando apenas F1-Score como métrica de avaliação
scoring = 'f1'
n_folds = 10
kfold = KFold(n_splits=n_folds, shuffle=True, random_state=11)

# Dicionário para armazenar os resultados
res = {}

for nome_modelo, modelo in modelos_otimizados.items():
    cv_results = cross_val_score(modelo, X_train, y_train, cv=kfold, scoring=scoring, n_jobs=-1)    
    res[nome_modelo] = cv_results

In [None]:
# Imprimir todos os resultados
for nome_modelo, resultado in res.items():
    print("%s: %f (+/- %f)" % (nome_modelo, resultado.mean(), resultado.std()))

- F1-Score: É a média harmônica da precisão e do recall, fornecendo uma única métrica de desempenho que leva em conta ambos. É particularmente útil quando se tem um desbalanceamento de classes, já que captura tanto falsos positivos quanto falsos negativos.

**Considerando que o conjunto de dados está desbalanceado, o F1-Score se mostra uma métrica mais relevante para avaliar o desempenho dos modelos. Todos os modelos obtiveram valores de F1-Score bem próximos variando entre 0,5 e 0,6. Diante disso, é recomendável realizar manipulações no conjunto de dados para aprimorar o desempenho dos modelos.**

### 5. Balanceando o dataset com uso do SMOTE

Em datasets onde há grande disparidade no número das classes disponíveis, muitas das vezes, pode ser necessário rebalancear os dados, aumentando o número de exemplos para a classe minoritária ou removendo exemplos da classe majoritária

Para realizar este processo, existem diversas estratégias. Uma delas é usar o SMOTE (Synthetic Minority Oversampling Technique), um dos métodos mais utilizados para resolver problemas de desbalanceamento. O SMOTE consiste em identificar as amostras da classe minoritária e, para cada exemplo dessa classe, o algoritmo seleciona alguns de seus vizinhos e realiza a interpolação, gerando novos exemplos sintéticos. Isso aumenta o número de amostras da classe minoritária, balanceando o conjunto de dados

**Vale destacar que este processo pode ser feito apenas no conjunto de treinamento. O conjunto de teste deve refletir a realidade e portanto não deve sofrer alterações na distribuição de churn**

In [None]:
# Importando a biblioteca para balancear
from imblearn.over_sampling import SMOTE

# Balanceando o somente os valores de X e y de treino do dataset
smote = SMOTE(sampling_strategy='minority', random_state=11)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)

In [None]:
# Usando apenas F1-Score como métrica de avaliação
scoring = 'f1'
n_folds = 10
kfold = KFold(n_splits=n_folds, shuffle=True, random_state=11)

# Dicionário para armazenar os resultados
res_smote = {}

for nome_modelo, modelo in modelos_otimizados.items():
    cv_results = cross_val_score(modelo, X_train_smote, y_train_smote, cv=kfold, scoring=scoring, n_jobs=-1)    
    res_smote[nome_modelo] = cv_results

In [None]:
# KFold do scikit-learn
kfold = KFold(n_splits=10)

# lista de acuracias de cada split
res_smote = {}

# iterando sobre os splits
for nome_modelo, modelo in modelos_otimizados.items():
    scores_split = []
    for idx, (idx_treino, idx_validacao) in enumerate(kfold.split(X_train)):
        X_split_treino = X_train.iloc[idx_treino,]
        y_split_treino = y_train.iloc[idx_treino,]
    
        # oversampling, só no split de treino!!
        sm = SMOTE(random_state=11)
        X_split_treino, y_split_treino = sm.fit_resample(X_split_treino, y_split_treino)
        
        # Com os dados balenceados SÓ NO TREINO, vamos treinar o nosso modelo
        modelo.fit(X_split_treino, y_split_treino.values.flatten())
    
        X_split_validacao = X_train.iloc[idx_validacao,]
        y_split_validacao = y_train.iloc[idx_validacao,]
        
        # Validação SEM oversampling
        # Amostra do mundo real, ou seja, com dados DESBALANCEADOS
        predicoes_validacao = modelo.predict(X_split_validacao)
        
        f1_split = f1_score(y_split_validacao, predicoes_validacao)
        
        scores_split.append(f1_split)
        
    res_smote[nome_modelo] = np.array(scores_split)
        

In [None]:
# Imprimir todos os resultados
for nome_modelo, resultado in res_smote.items():
    print("%s: %f (+/- %f)" % (nome_modelo, resultado.mean(), resultado.std()))

In [None]:
# Prevendo para os novos valores X_test e comparando com y_test
for nome_modelo, modelo in modelos_otimizados.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    
    # Usando apenas F1-Score como métrica de avaliação
    score = f1_score(y_test, y_pred)
    
    print(f'{nome_modelo}: {score:.5f}')

- **Os valores de F1-score apresentaram uma pequena melhora quando o modelo foi aplicado aos dados de treino. No entanto, ao realizar previsões utilizando os dados de teste, observou-se uma queda nos valores de F1-score, indicando uma possível discrepância entre o desempenho do modelo em ambientes de treino e teste.**

### 6. Balanceando o dataset com uso de class_weight

Em problemas de classificação com dados desbalanceados, aplicar class_weight pode ser uma boa alternativa. Essa técnica ajusta o processo de treinamento, permitindo que o modelo dê mais atenção às classes minoritárias. Ao atribuir um peso maior às instâncias dessas classes, o desbalanceamento dos dados é compensado, resultando em uma melhoria significativa na capacidade do modelo de detectar corretamente a classe minoritária.

In [None]:
# criando X, y de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 11, stratify=y)

In [None]:
# Usando apenas F1-Score como métrica de avaliação
scoring = 'f1'
n_folds = 10
kfold = KFold(n_splits=n_folds, shuffle=True, random_state=11)

# Dicionário para armazenar os resultados
res_pesos = {}

for nome_modelo, modelo in modelos_otimizados.items():
    if nome_modelo == 'XGB':
        # Adicionando class_weight como balanceado para o caso do classificador XGB
        modelo.set_params(scale_pos_weight=sum(y_train == 0)/sum(y_train == 1))
    else:
        # Adicionando class_weight como balanceado para os demais casos
        modelo.set_params(class_weight='balanced')
        
    cv_results = cross_val_score(modelo, X_train, y_train, cv=kfold, scoring=scoring, n_jobs=-1)    

    res_pesos[nome_modelo] = cv_results

In [None]:
# Imprimir todos os resultados
for nome_modelo, resultado in res_pesos.items():
    print("%s: %f (+/- %f)" % (nome_modelo, resultado.mean(), resultado.std()))

In [None]:
# Prevendo para os novos valores X_test e comparando com y_test
for nome_modelo, modelo in modelos_otimizados.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    
    # Usando apenas F1-Score como métrica de avaliação
    score = f1_score(y_test, y_pred)
    
    print(f'{nome_modelo}: {score:.5f}')

- **Ao aplicar pesos para as classes do dataset, foi observada uma melhora consistente em todos os modelos. Destaca-se o modelo ExtraTrees, que apresentou um aumento de 0.1 no F1-Score.**

### 7. Plotando matriz de confusão e curva ROC para análise mais aprofundada (apenas para o melhor modelo)

In [None]:
# Selecionando o melhor modelo
modelo = XGBClassifier(**melhores_hiperparametros['XGB'], scale_pos_weight=sum(y_train == 0)/sum(y_train == 1))

modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)

# Matriz de confusão
cm = confusion_matrix(y_test, y_pred) 
fig, ax = plt.subplots(figsize=(8, 8))
ax.imshow(cm)
ax.grid(False)
ax.xaxis.set(ticks=(0, 1), ticklabels=('predict No Churn', 'predict Churn'))
ax.yaxis.set(ticks=(0, 1), ticklabels=('Actual No Churn', 'Actual Churn'))
ax.set_ylim(1.5, -0.5)
for i in range(2):
    for j in range(2):
        ax.text(j, i, cm[i, j], ha='center', va='center', color='gray')


plt.show()

In [None]:
# Obter as probabilidades de predição
y_pred_proba = modelo.predict_proba(X_test)[:, 1]

# Calcular as taxas de verdadeiros positivos e falsos positivos
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)

# Calcular a AUC (Área sob a Curva) 
roc_auc = auc(fpr, tpr)

# Plotar o gráfico ROC
plt.figure()
plt.plot(fpr, tpr, color='blue', lw=2, label=f'Curva ROC (área = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='red', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taxa de Falsos Positivos')
plt.ylabel('Taxa de Verdadeiros Positivos')
plt.title('Receiver Operating Characteristic (ROC)')
plt.legend(loc="lower right")
plt.show()


### Interpretação dos Resultados

- **Com base no gráfico acima, observa-se que a área sob a curva ROC é de 0.84, o que indica uma performance bastante positiva do modelo de classificação. Este resultado é especialmente relevante no contexto do projeto, uma vez que prever o Churn de um cliente pode trazer benefícios significativos para a empresa, como melhorar a retenção de clientes e aumentar a satisfação. Embora a previsão de churn possa não ser tão crítica quanto a prevenção de fraudes em cartões de crédito ou o diagnóstico e prevenção de doenças médicas, ela desempenha um papel crucial na estratégia de negócios e no sucesso a longo prazo da organização.**


- **Com relação à matriz de confusão, observa-se que o Recall para Churn, uma métrica crucial no contexto deste problema de negócio, atingiu um bom valor de 0.789. Isso significa que 295 dos 374 (78.9%) dos casos de churn foram corretamente identificados como tal.**

### 8. Tentando melhorar o modelo removendo features menos importantes

In [None]:
# Selecionando o melhor modelo
modelo = XGBClassifier(**melhores_hiperparametros['XGB'], scale_pos_weight=sum(y_train == 0)/sum(y_train == 1)) 

# Treinando o modelo
modelo.fit(X_train, y_train)

# Extraindo os coeficientes
coeficientes = modelo.feature_importances_

# Criando um DataFrame para uma melhor visualização
features_df = pd.DataFrame({'Feature': X_train.columns, 'Coefficient': coeficientes})
features_df['Importance'] = np.abs(features_df['Coefficient'])
features_df = features_df.sort_values(by='Importance', ascending=False)

# Plotando o gráfico de barras horizontal
plt.figure(figsize=(10, 8))
plt.barh(features_df['Feature'], features_df['Importance'])
plt.xlabel('Importância (Valor Absoluto do Coeficiente)')
plt.ylabel('Feature')
plt.title('Importância das Features (RidgeClassifier)')
plt.gca().invert_yaxis()  # Inverter a ordem das features
plt.show()

In [None]:
# Selecionar as features com importância menor que o valor limite
limite_importancia = 0.01
features_menor_importancia = features_df[features_df['Importance'] < limite_importancia]

# Lista de colunas a serem removidas
colunas_para_remover = features_menor_importancia['Feature'].tolist()
colunas_para_remover

In [None]:
# Remover as colunas do DataFrame original
df_modificado = normal_df.drop(columns=colunas_para_remover)

In [None]:
# criando X e y a partir dos dados normalizados
X = df_modificado.drop(columns='Churn', axis=1)
y = df_modificado['Churn']

# criando X, y de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 11, stratify=y)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
for nome_modelo, modelo in modelos_otimizados.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    
    # Usando apenas F1-Score como métrica de avaliação
    score = f1_score(y_test, y_pred)
    
    print(f'{nome_modelo}: {score:.5f}')

- **Pequena melhora no modelo RidgeClassifier (0.63080 contra 0.62620)**

In [None]:
# Selecionando o modelo
modelo = RidgeClassifier(**melhores_hiperparametros['Ridge'], class_weight='balanced')

modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)

# Matriz de confusão
cm = confusion_matrix(y_test, y_pred) 
fig, ax = plt.subplots(figsize=(8, 8))
ax.imshow(cm)
ax.grid(False)
ax.xaxis.set(ticks=(0, 1), ticklabels=('predict No Churn', 'predict Churn'))
ax.yaxis.set(ticks=(0, 1), ticklabels=('Actual No Churn', 'Actual Churn'))
ax.set_ylim(1.5, -0.5)
for i in range(2):
    for j in range(2):
        ax.text(j, i, cm[i, j], ha='center', va='center', color='gray')


plt.show()

- **Após remover algumas features menos importantes e simplificar o modelo, percebeu-se uma pequena melhora no Recall, saindo de 0.789 para 0.799 (299/374).**

In [None]:
# Calibrando o modelo para obter predições probabilísticas
calibrated_model = CalibratedClassifierCV(modelo, method='sigmoid')
calibrated_model.fit(X_train, y_train)

# Obter as probabilidades de predição
y_pred_proba = calibrated_model.predict_proba(X_test)[:, 1]

# Calcular as taxas de verdadeiros positivos e falsos positivos
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)

# Calcular a AUC (Área sob a Curva) 
roc_auc = auc(fpr, tpr)

# Plotar o gráfico ROC
plt.figure()
plt.plot(fpr, tpr, color='blue', lw=2, label=f'Curva ROC (área = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='red', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taxa de Falsos Positivos')
plt.ylabel('Taxa de Verdadeiros Positivos')
plt.title('Receiver Operating Characteristic (ROC)')
plt.legend(loc="lower right")
plt.show()

- **Já para o caso da Curva ROC e sua área AUC, não houve impacto.**