# Modelagem Supervisionada - Previsão de Churn

Neste notebook, treinamos e avaliamos modelos supervisionados para prever o cancelamento de clientes (churn) com base nos dados processados a partir do dataset da Telco.


## Importação das funções e dados

In [5]:
from src.preprocessing import load_data, preprocess_data, split_and_transform
from src.modeling import train_models, evaluate_models


### Carregando e preparando os dados

In [6]:
df = load_data()
X, y, preprocessor = preprocess_data(df)
X_train, X_test, y_train, y_test = split_and_transform(X, y, preprocessor)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['TotalCharges'].fillna(df['TotalCharges'].median(), inplace=True)


A seguir, aplicamos o pré-processamento definido anteriormente: encoding, imputação e scaling. Depois dividimos em treino/teste.

In [None]:
X, y, preprocessor = preprocess_data(df)
X_train, X_test, y_train, y_test = split_and_transform(X, y, preprocessor)

## Treinamento dos modelos

In [None]:
from src.modeling import train_models, evaluate_models

In [7]:
models = train_models(X_train, y_train)

Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


## Avaliação de desempenho

In [8]:
results = evaluate_models(models, X_test, y_test)

for name, metrics in results.items():
    print(f'\nModelo: {name}')
    print(f"Acurácia: {metrics['accuracy']:.4f}")
    print(f"F1-score: {metrics['f1_score']:.4f}")
    print(f"ROC AUC: {metrics['roc_auc']:.4f}")
    print("Matriz de confusão:")
    print(metrics['confusion_matrix'])
    print("Relatório:")
    print(metrics['report'])



Modelo: LogisticRegression
Acurácia: 0.8088
F1-score: 0.6085
ROC AUC: 0.8447
Matriz de confusão:
[[1395  157]
 [ 247  314]]
Relatório:
              precision    recall  f1-score   support

           0       0.85      0.90      0.87      1552
           1       0.67      0.56      0.61       561

    accuracy                           0.81      2113
   macro avg       0.76      0.73      0.74      2113
weighted avg       0.80      0.81      0.80      2113


Modelo: RandomForest
Acurácia: 0.7899
F1-score: 0.5578
ROC AUC: 0.8197
Matriz de confusão:
[[1389  163]
 [ 281  280]]
Relatório:
              precision    recall  f1-score   support

           0       0.83      0.89      0.86      1552
           1       0.63      0.50      0.56       561

    accuracy                           0.79      2113
   macro avg       0.73      0.70      0.71      2113
weighted avg       0.78      0.79      0.78      2113


Modelo: XGBoost
Acurácia: 0.7818
F1-score: 0.5572
ROC AUC: 0.8164
Matriz de con

Vamos visualizar os principais indicadores de cada modelo: acurácia, F1-score, ROC AUC e matriz de confusão.

In [None]:

for name, metrics in results.items():
    print(f'\nModelo: {name}')
    print(f"Acurácia: {metrics['accuracy']:.4f}")
    print(f"F1-score: {metrics['f1_score']:.4f}")
    print(f"ROC AUC: {metrics['roc_auc']:.4f}")
    print("Matriz de confusão:")
    print(metrics['confusion_matrix'])
    print("Relatório:")
    print(metrics['report'])


## Salvando modelo e pipeline

In [10]:
import joblib

# Supondo que LogisticRegression foi o melhor modelo
melhor_modelo = models['LogisticRegression']

# Salvar modelo treinado
joblib.dump(melhor_modelo, '../app/model.pkl')

# Salvar pipeline de pré-processamento
joblib.dump(preprocessor, '../app/preprocessor.pkl')


['../app/preprocessor.pkl']

In [None]:

# Salvando o melhor modelo (LogisticRegression foi o melhor neste caso)
import os
joblib.dump(models['LogisticRegression'], os.path.join('app', 'model.pkl'))
joblib.dump(preprocessor, os.path.join('app', 'preprocessor.pkl'))


## Conclusão

O modelo **Logistic Regression** apresentou o melhor desempenho em termos de equilíbrio entre F1-score e ROC AUC, e foi salvo para ser utilizado na aplicação.

Na próxima etapa, esse modelo será carregado para fornecer previsões via API (FastAPI) e interface web (Streamlit).
