
#Previsão de Risco de Burnout no Ambiente de Trabalho

Este notebook tem como objetivo treinar e avaliar modelos de Machine Learning: KNN, Árvore de Classificação, Naive Bayes e SVM, para prever o risco de burnout entre colaboradores com base em variáveis como jornada de trabalho, suporte no ambiente, equilíbrio vida-trabalho, entre outras.

Projeto desenvolvido por Ágata Velasco Penze


In [None]:

# Importando bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
import joblib


In [None]:

# Carregando os dados via URL do GitHub
url = "https://raw.githubusercontent.com/agatavelasco/mvp-machine-learning/master/mental_health_workplace_survey.csv"
df = pd.read_csv(url)
df.head()


In [None]:

# Pré-processamento inicial
# Removendo colunas irrelevantes e codificando variáveis

df = df.drop(columns=["EmployeeID", "Country", "JobRole", "Department", "SalaryRange"])

# Convertendo colunas categóricas
label_cols = ["Gender", "RemoteWork", "HasMentalHealthSupport", "HasTherapyAccess"]
for col in label_cols:
    df[col] = LabelEncoder().fit_transform(df[col])

# Definindo X e y
X = df.drop(columns=["BurnoutRisk"])
y = df["BurnoutRisk"]

# Dividindo em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print("Formato do treino:", X_train.shape)


In [None]:

# Treinando modelos com pipelines

models = {
    "KNN": KNeighborsClassifier(),
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Naive Bayes": GaussianNB(),
    "SVM": SVC()
}

for name, model in models.items():
    pipeline = Pipeline([
        ("scaler", StandardScaler()),
        ("classifier", model)
    ])
    pipeline.fit(X_train, y_train)
    y_pred = pipeline.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    print(f"\nModelo: {name}")
    print(f"Acurácia: {acc:.2f}")
    print("Classification Report:")
    print(classification_report(y_test, y_pred))


In [None]:

# Exportando o melhor modelo (ex: SVM)

final_model = Pipeline([
    ("scaler", StandardScaler()),
    ("classifier", SVC())
])
final_model.fit(X_train, y_train)

joblib.dump(final_model, "burnout_model.pkl")
print("Modelo salvo como 'burnout_model.pkl'")



## ✅ Conclusão

O modelo treinado apresenta desempenho satisfatório para prever o risco de burnout com base nas variáveis analisadas. Esta aplicação pode ser estendida para sistemas de RH ou saúde corporativa com foco em prevenção e bem-estar do colaborador.

Na próxima etapa, este modelo será integrado a uma aplicação full stack que permitirá a inserção de novos dados e previsão do risco em tempo real.
