In [2]:
#Importando bibliotecas necessárias para manipulação de paths

import sys
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Pegando o diretório atual
current_dir = os.getcwd()

# Pegando o diretório raiz do projeto
project_root = os.path.dirname(current_dir)

# Adicionando o diretório raiz ao sys.path
sys.path.append(project_root)

# Fazendo a importação do preprocessador
from src.preprocessing import make_preprocessor

In [7]:
#Trazendo o dataset e tratando os dados para modelagem
df = pd.read_csv('../data/raw/WA_Fn-UseC_-Telco-Customer-Churn.csv')

df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df['Churn'] = df['Churn'].map({'Yes': 1, 'No': 0})
df = df.dropna()

X = df.drop('Churn', axis=1)
y = df['Churn']

In [8]:
#Separando os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

In [9]:
#Usando o modulo de pré-processamento
preprocessor = make_preprocessor(X_train)

In [17]:
#Definindo o modelo
log_model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(max_iter=1000, class_weight='balanced'))
])

In [None]:
#Treinando o modelo
log_model.fit(X_train, y_train)

In [None]:
#Avaliando o modelo
y_pred = log_model.predict(X_test)

print(f"Acurácia no Teste: {log_model.score(X_test, y_test):.2%}")
print("-" * 30)
print(classification_report(y_test, y_pred))