In [30]:
# ==============================================================================
# Notebook 2: Modelagem e Treinamento de Modelos
# ==============================================================================

# ------------------------------------------------------------------------------
# 1. Configuração e Carregamento de Bibliotecas e Dados
# ------------------------------------------------------------------------------
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [31]:
# --- Definindo os caminhos conforme a estrutura de diretórios ---
ROOT_DIR = os.path.abspath(os.path.join(os.getcwd(), '..'))

PROCESSED_DATA_PATH = os.path.join(ROOT_DIR, 'data', 'processed', 'df_final_processado.csv')
BASE_MODELS_PATH = os.path.join(ROOT_DIR, 'models', 'base_models')
REPORTS_PATH = os.path.join(ROOT_DIR, 'reports')
PROCESSED_SPLIT_PATH = os.path.join(ROOT_DIR, 'data', 'processed', 'split')

# Criando os diretórios se não existirem
os.makedirs(BASE_MODELS_PATH, exist_ok=True)
os.makedirs(REPORTS_PATH, exist_ok=True)
os.makedirs(PROCESSED_SPLIT_PATH, exist_ok=True)

In [32]:
# Carregando o dataset processado do Notebook 1
print("Carregando dados processados do Notebook 1...")
try:
    df_processed = pd.read_csv(PROCESSED_DATA_PATH)
    print("✅ Dados carregados com sucesso.")
except FileNotFoundError:
    print(f"❌ Erro: Arquivo não encontrado em {PROCESSED_DATA_PATH}. Certifique-se de ter executado o Notebook 1.")
    df_processed = None



Carregando dados processados do Notebook 1...
✅ Dados carregados com sucesso.


In [33]:
if df_processed is not None:
    # ------------------------------------------------------------------------------
    # 2. Divisão dos Dados em Treino e Teste
    # ------------------------------------------------------------------------------
    print("\nDividindo os dados em conjuntos de treino e teste...")
    
    X = df_processed.drop(columns=['Churn'])
    y = df_processed['Churn']
    
    X_train, X_test, y_train, y_test = train_test_split(
        X, y,
        test_size=0.3,
        random_state=42,
        stratify=y
    )
    print("✅ Dados divididos com sucesso.")
    print(f"Dimensão do conjunto de treino (X_train, y_train): {X_train.shape}, {y_train.shape}")
    print(f"Dimensão do conjunto de teste (X_test, y_test): {X_test.shape}, {y_test.shape}")



Dividindo os dados em conjuntos de treino e teste...
✅ Dados divididos com sucesso.
Dimensão do conjunto de treino (X_train, y_train): (4922, 30), (4922,)
Dimensão do conjunto de teste (X_test, y_test): (2110, 30), (2110,)


In [34]:
# ------------------------------------------------------------------------------
# 3. Salvar os Dados de Treino e Teste (NOVA SEÇÃO)
# ------------------------------------------------------------------------------
print("\nSalvando os conjuntos de treino e teste...")
X_train.to_csv(os.path.join(PROCESSED_SPLIT_PATH, 'X_train.csv'), index=False)
X_test.to_csv(os.path.join(PROCESSED_SPLIT_PATH, 'X_test.csv'), index=False)
y_train.to_csv(os.path.join(PROCESSED_SPLIT_PATH, 'y_train.csv'), index=False)
y_test.to_csv(os.path.join(PROCESSED_SPLIT_PATH, 'y_test.csv'), index=False)
print("✅ Conjuntos de treino e teste salvos com sucesso.")


Salvando os conjuntos de treino e teste...
✅ Conjuntos de treino e teste salvos com sucesso.


In [35]:
# ------------------------------------------------------------------------------
# 4. Treinamento e Avaliação dos Modelos Base
# ------------------------------------------------------------------------------
print("\nIniciando treinamento e avaliação dos modelos base...")
    
models = {
    'Logistic Regression': LogisticRegression(random_state=42, solver='liblinear'),
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42)
}

results = []

for name, model in models.items():
    print(f"\n- Treinando {name}...")
    model.fit(X_train, y_train)
        
    # Salvando o modelo treinado
    model_path = os.path.join(BASE_MODELS_PATH, f'{name.replace(" ", "_").lower()}_base.pkl')
    joblib.dump(model, model_path)
    print(f"  ✅ Modelo salvo em {model_path}.")

    y_pred = model.predict(X_test)
        
    # Coletando métricas
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)

    results.append({
        'Modelo': name,
        'Acuracia': accuracy,
        'Precisao': precision,
        'Recall': recall,
        'F1-Score': f1
    })
        
    print(f"  Acurácia: {accuracy:.4f} | Precisão: {precision:.4f} | Recall: {recall:.4f} | F1-Score: {f1:.4f}")


Iniciando treinamento e avaliação dos modelos base...

- Treinando Logistic Regression...
  ✅ Modelo salvo em c:\temp\Telecom_X_PrevendoChurn\models\base_models\logistic_regression_base.pkl.
  Acurácia: 0.8033 | Precisão: 0.6587 | Recall: 0.5401 | F1-Score: 0.5935

- Treinando Decision Tree...
  ✅ Modelo salvo em c:\temp\Telecom_X_PrevendoChurn\models\base_models\decision_tree_base.pkl.
  Acurácia: 0.7265 | Precisão: 0.4863 | Recall: 0.5062 | F1-Score: 0.4961

- Treinando Random Forest...
  ✅ Modelo salvo em c:\temp\Telecom_X_PrevendoChurn\models\base_models\random_forest_base.pkl.
  Acurácia: 0.7853 | Precisão: 0.6292 | Recall: 0.4688 | F1-Score: 0.5373


In [36]:
# ------------------------------------------------------------------------------
# 5. Salvando os Resultados da Avaliação
# ------------------------------------------------------------------------------
print("\nSalvando os resultados da avaliação dos modelos...")
    
results_df = pd.DataFrame(results)
results_df.to_csv(os.path.join(REPORTS_PATH, 'comparacao_modelos_base.csv'), index=False)
    
print(f"✅ Resultados salvos em {os.path.join(REPORTS_PATH, 'comparacao_modelos_base.csv')}.")

print("\nProcesso do Notebook 2 concluído com sucesso!")


Salvando os resultados da avaliação dos modelos...
✅ Resultados salvos em c:\temp\Telecom_X_PrevendoChurn\reports\comparacao_modelos_base.csv.

Processo do Notebook 2 concluído com sucesso!
