<a href="https://colab.research.google.com/github/jrctechmind/data-science-portfolio/blob/main/Classifica%C3%A7%C3%A3o_de_clientes_com_maior_risco_de_churn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Etapa 01: Importação de Bibliotecas e Conjunto de Dados
print("Iniciando Etapa 01: Importação de Bibliotecas e Conjunto de Dados")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns  # Adicionada a importação da biblioteca seaborn
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_curve, auc
from sklearn.preprocessing import LabelEncoder
from imblearn.over_sampling import SMOTE

# Carregar conjunto de dados (endereço corrigido)
url = "/content/sample_data/Caso_3/BankChurners.csv"
dados = pd.read_csv(url)

# Carregar metadados
metadados = pd.read_excel("/content/sample_data/Caso_3/metadados.xlsx")

# Exibir estrutura do conjunto de dados
print("Estrutura do Conjunto de Dados:")
print(dados.info())

# Etapa 02: Tratamento dos Dados
print("\nIniciando Etapa 02: Tratamento dos Dados")

# Verificar e remover dados duplicados
dados = dados.drop_duplicates()

# Etapa 03: Limpeza dos Dados
print("\nIniciando Etapa 03: Limpeza dos Dados")

# Lidando com valores ausentes
dados = dados.dropna()

# Etapa 04: Análise Exploratória de Dados (EDA)
print("\nIniciando Etapa 04: Análise Exploratória de Dados (EDA)")

# Visualização da Variável Dependente
plt.figure(figsize=(8, 6))
dados['Attrition_Flag'].value_counts().plot(kind='bar', color=['skyblue', 'salmon'])
plt.title('Distribuição da Rotatividade (Churn)')
plt.xlabel('Attrition_Flag')
plt.ylabel('Contagem')
plt.show()

# Visualização das Variáveis Independentes
dados.drop(['CLIENTNUM', 'Attrition_Flag'], axis=1).hist(bins=20, figsize=(14, 12))
plt.suptitle('Distribuição das Variáveis Independentes', x=0.5, y=1.02, ha='center', fontsize='large')
plt.show()

# Análise específica para Gênero
plt.figure(figsize=(8, 6))
sns.countplot(x='Gender', hue='Attrition_Flag', data=dados, palette='viridis')
plt.title('Distribuição de Rotatividade por Gênero')
plt.xlabel('Gênero')
plt.ylabel('Contagem')
plt.show()

# Análise específica para Estado Civil
plt.figure(figsize=(8, 6))
sns.countplot(x='Marital_Status', hue='Attrition_Flag', data=dados, palette='viridis')
plt.title('Distribuição de Rotatividade por Estado Civil')
plt.xlabel('Estado Civil')
plt.ylabel('Contagem')
plt.show()

# Análise específica para Categoria de Renda
plt.figure(figsize=(12, 8))
sns.countplot(x='Income_Category', hue='Attrition_Flag', data=dados, palette='viridis')
plt.title('Distribuição de Rotatividade por Categoria de Renda')
plt.xlabel('Categoria de Renda')
plt.ylabel('Contagem')
plt.show()

# Análise específica para Porcentagem de Cada Tipo de Cartão Utilizado
cartoes = ['Blue', 'Silver', 'Gold', 'Platinum']
plt.figure(figsize=(12, 8))
for cartao in cartoes:
    dados_cartao = dados[dados['Card_Category'] == cartao]
    plt.hist(dados_cartao['Attrition_Flag'], bins=2, alpha=0.5, label=cartao)

plt.title('Distribuição de Rotatividade por Tipo de Cartão')
plt.xlabel('Attrition_Flag')
plt.ylabel('Contagem')
plt.legend(title='Tipo de Cartão')
plt.show()

# Análise específica para Categoria de Renda
plt.figure(figsize=(12, 8))
sns.countplot(x='Income_Category', hue='Attrition_Flag', data=dados, palette='viridis')
plt.title('Distribuição de Rotatividade por Categoria de Renda')
plt.xlabel('Categoria de Renda')
plt.ylabel('Contagem')
plt.show()

# Correlação entre análises
correlacao_numericas = dados.drop(['CLIENTNUM'], axis=1).corr()

# Correlação entre variáveis numéricas
plt.figure(figsize=(8, 6))
sns.heatmap(correlacao_numericas, annot=True, cmap='coolwarm', linewidths=.5)
plt.title('Correlação entre Variáveis Numéricas')
plt.show()

# Etapa 05: Pré-processamento dos Dados
print("\nIniciando Etapa 05: Pré-processamento dos Dados")

# Codificação de variáveis categóricas
le = LabelEncoder()
for col in dados.select_dtypes(include='object').columns:
    dados[col] = le.fit_transform(dados[col])

# Separar variáveis independentes e dependente
X = dados.drop('Attrition_Flag', axis=1)
y = dados['Attrition_Flag']

# Divisão dos Dados para Treinamento do Modelo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Aplicação do SMOTE para reduzir desequilíbrio de classes
smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)

# Etapa 06: Criação, Treinamento e Avaliação do Modelo
print("\nIniciando Etapa 06: Criação, Treinamento e Avaliação do Modelo")

# Tabela para armazenar resultados
resultados = pd.DataFrame(columns=['Modelo', 'Acurácia', 'Precisão', 'Recall', 'F1-Score'])

# Treinamento e Ajuste do Modelo
for clf_name, clf in classifiers.items():
    print(f"\nTreinando e Ajustando o Modelo - {clf_name}")

    if clf_name == "SVM":
        # Treinamento do SVM
        clf.max_iter = 500  # Reduzir o número de iterações
        clf.C = 0.1  # Reduzir a penalidade C
        sample_size = min(5000, len(X_train_smote))
        X_train_subset, y_train_subset = X_train_smote[:sample_size], y_train_smote[:sample_size]
        clf.fit(X_train_subset, y_train_subset)
    else:
        clf.fit(X_train_smote, y_train_smote)

    # Avaliação do Modelo e Desempenho
    print(f"\nAvaliação do Modelo e Desempenho - {clf_name}")

    # Fazer previsões
    if hasattr(clf, 'predict_proba'):  # Verificar se 'predict_proba' está disponível
        y_pred = clf.predict_proba(X_test)[:, 1]
    else:
        y_pred = clf.predict(X_test)

    # Converter probabilidades em rótulos (0 ou 1)
    y_pred_labels = np.round(y_pred)

    # Exibir métricas de avaliação
    acuracia = accuracy_score(y_test, y_pred_labels)
    matriz_confusao = confusion_matrix(y_test, y_pred_labels)
    relatorio_classificacao = classification_report(y_test, y_pred_labels, output_dict=True)

    print("Acurácia:", acuracia)
    print("\nMatriz de Confusão:")
    print(matriz_confusao)
    print("\nRelatório de Classificação:")
    print(relatorio_classificacao)

    # Adicionar resultados à tabela
    resultados = pd.concat([resultados, pd.DataFrame({
        'Modelo': [clf_name],
        'Acurácia': [acuracia],
        'Precisão': [relatorio_classificacao['1']['precision']],
        'Recall': [relatorio_classificacao['1']['recall']],
        'F1-Score': [relatorio_classificacao['1']['f1-score']]
    })], ignore_index=True)

    # Curva ROC (Receiver Operating Characteristic) e AUC
    if hasattr(clf, 'predict_proba'):  # Verificar se 'predict_proba' está disponível
        fpr, tpr, thresholds = roc_curve(y_test, y_pred)
        roc_auc = auc(fpr, tpr)

        # Plotar Curva ROC
        plt.figure(figsize=(8, 6))
        plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'AUC = {roc_auc:.2f}')
        plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
        plt.xlabel('Taxa de Falsos Positivos')
        plt.ylabel('Taxa de Verdadeiros Positivos')
        plt.title(f'Curva ROC - {clf_name}')
        plt.legend(loc='lower right')
        plt.show()

# Exibir resultados finais
print("\nResultados Finais:")
print(resultados)

# Identificar o melhor modelo
melhor_modelo = resultados.loc[resultados['Acurácia'].idxmax()]

print("\nMelhor Modelo:")
print(melhor_modelo)

# Interpretar os resultados
print("\nInterpretação dos Resultados:")
print("O modelo com melhor desempenho é:", melhor_modelo['Modelo'])
print("Este modelo alcançou uma acurácia de", melhor_modelo['Acurácia'])
print("e uma precisão, recall e F1-Score de", melhor_modelo['Precisão'], melhor_modelo['Recall'], melhor_modelo['F1-Score'], "respectivamente.")

# Explicar a escolha do melhor modelo
print("\nMotivos da Escolha:")
print("Ao avaliar os resultados, consideramos a acurácia, precisão, recall e F1-Score.")
print("O modelo com melhor equilíbrio entre essas métricas é escolhido como o melhor.")
print("Entretanto, a escolha também pode depender das características específicas do problema e dos objetivos do projeto.")

Iniciando Etapa 01: Importação de Bibliotecas e Conjunto de Dados


FileNotFoundError: [Errno 2] No such file or directory: '/content/sample_data/Caso_3/BankChurners.csv'