# üìä Tech Challenge - An√°lise e Previs√£o de Fatores de Estresse em Estudantes

## üìù Defini√ß√£o do problema

* **Problema de Neg√≥cio:** Institui√ß√µes de ensino precisam identificar estudantes em risco de estresse elevado para oferecer suporte adequado no momento certo. Este projeto visa criar uma solu√ß√£o preditiva que auxilie nessa identifica√ß√£o, permitindo interven√ß√µes mais direcionadas e eficazes.
* **Objetivo T√©cnico:** O problema foi enquadrado como um desafio de **Classifica√ß√£o Multiclasse**. O objetivo √© treinar um modelo de Machine Learning para prever o n√≠vel de estresse de um estudante em uma de tr√™s categorias (0: baixo, 1: m√©dio, 2: alto), utilizando a coluna `stress_level` como vari√°vel-alvo.



## üìë Sum√°rio
1. ‚öôÔ∏è Configura√ß√£o do Ambiente
2. üì• Coleta, Armazenamento e Carregamento
3. üìä An√°lise Explorat√≥ria de Dados (EDA)
4. üßπ Pr√©-processamento e Prepara√ß√£o dos Dados
5. ü§ñ Modelagem e Treinamento
6. üõ†Ô∏è Otimiza√ß√£o de Hiperpar√¢metros
7. üèÅ Conclus√£o

# üìñ Sum√°rio do Projeto

* [1. ‚öôÔ∏è Configura√ß√£o do Ambiente](#1-configuracao-do-ambiente)
* [2. üì• Coleta, Armazenamento e Carregamento](#2-coleta-armazenamento-e-carregamento)
* [3. üìä An√°lise Explorat√≥ria de Dados (EDA)](#3-analise-exploratoria-de-dados-eda)
* [4. üßπ Pr√©-processamento e Prepara√ß√£o dos Dados](#4-pre-processamento-e-preparacao-dos-dados)
* [5. ü§ñ Modelagem e Treinamento](#5-modelagem-e-treinamento)
* [6. üõ†Ô∏è Otimiza√ß√£o de Hiperpar√¢metros](#6-otimizacao-de-hiperparametros)
* [7. üèÅ Conclus√£o](#7-conclusao)

# üìñ Sum√°rio
1. [‚öôÔ∏è Configura√ß√£o do Ambiente](#1-configuracao-do-ambiente)
2. [üì• Coleta, Armazenamento e Carregamento](#2-coleta-armazenamento-e-carregamento)
3. [üìä An√°lise Explorat√≥ria de Dados (EDA)](#3-analise-exploratoria-de-dados-eda)
4. [üßπ Pr√©-processamento e Prepara√ß√£o dos Dados](#4-pre-processamento-e-preparacao-dos-dados)
5. [ü§ñ Modelagem e Treinamento](#5-modelagem-e-treinamento)
6. [üõ†Ô∏è Otimiza√ß√£o de Hiperpar√¢metros](#6-otimizacao-de-hiperparametros)
7. [üèÅ Conclus√£o](#7-conclusao)

# 1. ‚öôÔ∏è Configura√ß√£o do Ambiente

### üìå Prepara√ß√£o do ambiente de trabalho

* **1. Importa√ß√£o de Bibliotecas:** Carregamos todas as ferramentas necess√°rias para manipula√ß√£o de dados (pandas), visualiza√ß√£o (matplotlib, seaborn), modelagem (scikit-learn) e outras opera√ß√µes. Centralizar as importa√ß√µes no in√≠cio do notebook √© uma boa pr√°tica que organiza o c√≥digo e deixa claro quais s√£o as depend√™ncias do projeto.
* **2. Configura√ß√£o do Projeto:** Adicionamos o diret√≥rio raiz ao path do sistema para permitir a importa√ß√£o de m√≥dulos customizados, como o dicion√°rio FEATURE_TRANSLATOR do arquivo config.py.
* **3. Defini√ß√£o de Constantes e Padr√µes:** Estabelecemos constantes globais, como o nome da vari√°vel alvo (TARGET_VARIABLE) e a semente de aleatoriedade (RANDOM_STATE), para garantir consist√™ncia e reprodutibilidade. Tamb√©m definimos um estilo visual padr√£o para todos os gr√°ficos do notebook.

In [None]:
# --- 1. Importa√ß√£o de Bibliotecas ---

# Manipula√ß√£o de dados e sistema
import os
import sys
from io import BytesIO

# An√°lise e visualiza√ß√£o
import boto3
import joblib
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

# Componentes do Scikit-Learn para modelagem e avalia√ß√£o
from sklearn.dummy import DummyClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (
    ConfusionMatrixDisplay,
    accuracy_score,
    classification_report,
)
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

# --- 2. Configura√ß√£o do Projeto ---

# Adiciona o diret√≥rio raiz ao path para importar modulo de dicion√°rio de tradu√ß√£o dos nomes das features
project_root = os.path.abspath(os.path.join(os.getcwd(), os.pardir))
if project_root not in sys.path:
    sys.path.append(project_root)

from config import FEATURE_TRANSLATOR

# --- 3. Padr√µes de Visualiza√ß√£o ---

# Define um estilo visual consistente para todos os gr√°ficos do notebook
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (12, 6)

# --- 4. Mensagem de Confirma√ß√£o ---

print("‚úÖ Ambiente configurado com sucesso.")
print(
    f"   ‚îî‚îÄ‚îÄ Dicion√°rio 'FEATURE_TRANSLATOR' carregado com {len(FEATURE_TRANSLATOR)} tradu√ß√µes."
)

In [None]:
# --- Constantes do Projeto ---

# Nome da vari√°vel alvo a ser utilizada em todo o notebook
TARGET_VARIABLE = "stress_level"

# Semente rand√¥mica para garantir a reprodutibilidade dos experimentos
RANDOM_STATE = 42

# 2. üì• Coleta, Armazenamento e Carregamento

## üìå Coleta de Dados

* **Fonte dos Dados:** Foi utilizado um dataset p√∫blico da plataforma Kaggle, chamado "Student Stress Factors - A Comprehensive Analysis".
* **Justificativa:** A utiliza√ß√£o de um dataset j√° existente foi uma decis√£o estrat√©gica para otimizar o tempo e concentrar os esfor√ßos do projeto nas etapas de An√°lise, Modelagem e Deploy, que s√£o o foco do desafio.

## üìå Armazenamento dos Dados

* **Solu√ß√£o Adotada:** Para simular um ambiente de produ√ß√£o e garantir a reprodutibilidade, os dados foram armazenados em um sistema de armazenamento de objetos local (MinIO)].
* **Processo:** Um bucket chamado `student-stress` foi criado no servidor MinIO , e o dataset `StressLevelDataset.csv` foi carregado, tornando-se acess√≠vel via servi√ßo para a etapa de an√°lise.

## üìå Carregamento dos Dados

* **Processo:** O c√≥digo abaixo configura as credenciais de acesso (priorizando vari√°veis de ambiente por seguran√ßa) e estabelece uma conex√£o com o MinIO. Em seguida, ele l√™ o arquivo `StressLevelDataset.csv` diretamente do bucket de armazenamento para um DataFrame do pandas, que √© a estrutura de dados fundamental que usaremos para toda a an√°lise.


In [None]:
# --- 1. Configura√ß√µes de Conex√£o ---
# As credenciais s√£o carregadas de vari√°veis de ambiente para seguran√ßa.
# Valores padr√£o s√£o fornecidos para facilitar a execu√ß√£o em ambiente local.
MINIO_ENDPOINT = os.getenv("MINIO_ENDPOINT", "127.0.0.1:9000")
MINIO_ACCESS_KEY = os.getenv("MINIO_ACCESS_KEY", "minioadmin")
MINIO_SECRET_KEY = os.getenv("MINIO_SECRET_KEY", "minioadmin")
BUCKET_NAME = "student-stress"
OBJECT_NAME = "StressLevelDataset.csv"

# --- 2. Carregamento dos Dados ---
try:
    # Inicializa o cliente S3 para interagir com o MinIO
    s3_client = boto3.client(
        "s3",
        endpoint_url=f"http://{MINIO_ENDPOINT}",
        aws_access_key_id=MINIO_ACCESS_KEY,
        aws_secret_access_key=MINIO_SECRET_KEY,
        config=boto3.session.Config(signature_version="s3v4"),
    )

    # Busca o objeto no bucket e o carrega em um DataFrame
    response = s3_client.get_object(Bucket=BUCKET_NAME, Key=OBJECT_NAME)
    df = pd.read_csv(BytesIO(response["Body"].read()))

    print(
        f"‚úÖ Dataset '{OBJECT_NAME}' carregado com sucesso do bucket '{BUCKET_NAME}'."
    )

except Exception as e:
    print(f"‚ùå Erro ao carregar o dataset do MinIO: {e}")

# 3. üìä An√°lise Explorat√≥ria de Dados (EDA)

A An√°lise Explorat√≥ria de Dados (EDA) √© uma das etapas fundamentais de qualquer projeto de Machine Learning. √â quando realmente come√ßamos a conhecer os dados: entender como est√£o organizados, descobrir padr√µes escondidos, identificar problemas e extrair os primeiros insights que v√£o orientar todo o trabalho seguinte ‚Äî desde a limpeza at√© a constru√ß√£o dos modelos.
Vamos dividir nossa EDA em tr√™s etapas:
* **An√°lise Estrutural e de Qualidade:** verificar dimens√µes, tipos de vari√°veis, dados ausentes e registros duplicados.
* **An√°lise Descritiva:** calcular estat√≠sticas b√°sicas e observar uma amostra representativa do conjunto.
* **Visualiza√ß√£o de Dados:** criar gr√°ficos que revelam a distribui√ß√£o das vari√°veis e as rela√ß√µes entre elas.

## üìå An√°lise Estrutural e de Qualidade
* **Objetivo:** Ter uma vis√£o geral da estrutura do dataset e verificar a integridade dos dados (nulos e duplicados).

In [None]:
# 1. Dimens√µes do DataFrame
print(f"O dataset possui {df.shape[0]} linhas e {df.shape[1]} colunas.\n")

# 2. An√°lise de Tipos de Dados e Valores Nulos
print("An√°lise de tipos de dados e valores nulos por coluna:")
info_df = pd.DataFrame(
    {
        "Tipo de Dado": df.dtypes,
        "Valores Nulos": df.isnull().sum(),
        "% Nulos": (df.isnull().sum() / df.shape[0]) * 100,
    }
)
display(info_df.sort_values(by="% Nulos", ascending=False))

# 3. Verifica√ß√£o de Linhas Duplicadas
num_duplicates = df.duplicated().sum()
if num_duplicates > 0:
    print(f"\n‚ùå Alerta: Foram encontradas {num_duplicates} linhas duplicadas.")
else:
    print("\n‚úÖ Nenhuma linha duplicada foi encontrada no dataset.")

### üìã An√°lise dos Resultados

#### **Inspe√ß√£o Inicial:**

A an√°lise estrutural, realizada com os comandos `.shape`, `.info()` e `.duplicated()`, revelou as seguintes conclus√µes:

* **Dimens√µes:** Temos 1100 registros distribu√≠dos em 21 colunas.
* **Valores Ausentes:** N√£o encontramos nenhum valor nulo no dataset. Isso nos poupa da necessidade de aplicar t√©cnicas de imputa√ß√£o de dados.
* **Registros Duplicados:** N√£o h√° linhas duplicadas. Cada registro √© √∫nico, o que garante a integridade da nossa base.
* **Tipos de Dados:** Todas as colunas j√° est√£o em formato num√©rico (`int64`). Isso simplifica bastante o pr√©-processamento, j√° que n√£o precisaremos fazer encoding de vari√°veis categ√≥ricas.

## üìå An√°lise Descritiva
* **Objetivo:** Analisar uma pequena amostra dos dados (5 primeiras linhas do dataset) para entender a natureza das colunas e, em seguida, obter um resumo estat√≠stico das vari√°veis num√©ricas, como m√©dia, desvio padr√£o, m√≠nimo e m√°ximo.

In [None]:
# 1. Amostra dos Dados
print("As 5 primeiras linhas do dataset:")
display(df.head())

# 2. Estat√≠sticas Descritivas
print("\nResumo estat√≠stico das vari√°veis num√©ricas:")
descriptive_stats = df.describe().T
display(descriptive_stats.style.format("{:.2f}"))

### üìã An√°lise dos Resultados

#### **An√°lise de Outliers e Natureza das Vari√°veis:**

A an√°lise das estat√≠sticas descritivas (`.describe()`) nos permite entender a natureza das nossas vari√°veis:

* **Natureza Ordinal:** A maioria das features s√£o ordinais, representando escalas fixas ‚Äî geralmente de 0 a 5.
* **Tratamento de Outliers:** Considerando que os valores nos extremos dessas escalas (como 0 ou 5) s√£o respostas v√°lidas e representam os limites das op√ß√µes dispon√≠veis para os estudantes, a aplica√ß√£o de t√©cnicas de remo√ß√£o de outliers seria inadequada. Tais valores s√£o fundamentais para o modelo entender os diferentes n√≠veis de estresse.
* **Decis√£o:** Nenhuma a√ß√£o de tratamento de outliers ser√° realizada.

## üìå Visualiza√ß√£o de dados
* **Objetivo:** Extrair insights sobre as distribui√ß√µes de dados e as rela√ß√µes entre os fatores pesquisados e o n√≠vel de estresse dos estudantes.

**Nesta subse√ß√£o, exploraremos:**
* A distribui√ß√£o da nossa vari√°vel alvo (stress_level) para verificar o balanceamento entre as classes.
* A distribui√ß√£o individual de cada feature preditiva.
* A rela√ß√£o entre cada feature e a vari√°vel alvo. 
* Uma matriz de correla√ß√£o para identificar rela√ß√µes lineares entre as vari√°veis.

### üîé Distribui√ß√£o da Vari√°vel Alvo

* **Objetivo:** Verificar a distribui√ß√£o da vari√°vel alvo  `stress_level` com o intuito de identificar se as classes (0: baixo, 1: m√©dio, 2: alto) est√£o balanceadas. Um desbalanceamento severo poderia enviesar o modelo, fazendo-o performar melhor para as classes mais frequentes.

In [None]:
# Configura√ß√£o da √°rea de plotagem
fig, ax = plt.subplots(figsize=(8, 6))

# Gr√°fico de contagem para a vari√°vel alvo
sns.countplot(
    data=df,
    x=TARGET_VARIABLE,
    hue=TARGET_VARIABLE,
    palette="viridis",
    order=[0, 1, 2],
    legend=False,
    ax=ax,
)

# Adiciona r√≥tulos de contagem sobre as barras
for container in ax.containers:
    ax.bar_label(container, padding=3, fontsize=11)

# T√≠tulos e r√≥tulos
ax.set_title("Distribui√ß√£o dos N√≠veis de Estresse (Vari√°vel Alvo)", fontsize=16, pad=20)
ax.set_xlabel("N√≠vel de Estresse (0: Baixo, 1: M√©dio, 2: Alto)", fontsize=12)
ax.set_ylabel("Contagem de Estudantes", fontsize=12)

plt.tight_layout()
plt.show()

#### üìã An√°lise dos Resultados

##### **Conclus√£o sobre a Vari√°vel-Alvo**
A distribui√ß√£o de stress_level mostra um balanceamento excelente entre as tr√™s classes:

* **Baixo (0):** 373 registros
* **M√©dio (1):** 358 registros
* **Alto (2):** 369 registros

Essa distribui√ß√£o equilibrada √© ideal para o treinamento do modelo de classifica√ß√£o. N√£o precisaremos aplicar t√©cnicas de balanceamento de classes, o que simplifica nosso pipeline e evita poss√≠veis vieses artificiais.

### üîé An√°lise Univariada

* **Objetivo:** Visualizar a distribui√ß√£o de cada vari√°vel preditiva para entender o perfil geral das respostas dos estudantes. Como a maioria das vari√°veis √© ordinal (escalas de 0 a 5), gr√°ficos de contagem s√£o ideais.

In [None]:
# Identifica as features preditivas (excluindo a vari√°vel alvo)
features = df.drop(TARGET_VARIABLE, axis=1).columns.tolist()

# Define a estrutura da grade de visualiza√ß√£o
n_cols = 3
n_rows = (len(features) + n_cols - 1) // n_cols

# Cria a figura e os eixos para os subplots
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, n_rows * 4.5))
axes = axes.flatten()

# Gera um gr√°fico de contagem para cada feature
for i, feature in enumerate(features):
    ax = axes[i]
    titulo_grafico = FEATURE_TRANSLATOR.get(feature, feature)

    sns.countplot(
        x=feature, data=df, ax=ax, palette="plasma", hue=feature, legend=False
    )
    ax.set_title(f"Distribui√ß√£o de '{titulo_grafico}'", fontsize=12, weight="bold")
    ax.set_xlabel("")
    ax.set_ylabel("Contagem")

# Oculta eixos n√£o utilizados
for i in range(len(features), len(axes)):
    axes[i].axis("off")

plt.tight_layout(pad=2.0)
plt.show()

#### üìã An√°lise dos Resultados

##### **Observa√ß√µes Gerais e Conclus√µes da An√°lise Univariada:**

Os gr√°ficos de distribui√ß√£o revelam um retrato multifacetado dos estudantes. Vamos explorar os principais achados por categoria:

**1. Fatores Acad√™micos e de Carreira:**
* **`Desempenho Acad√™mico`**: A autoavalia√ß√£o de desempenho se concentra no n√≠vel 2 (regular). Poucos se classificam no n√≠vel mais baixo, e uma parcela relevante se avalia nos n√≠veis altos (4 e 5). Isso sugere que o desempenho acad√™mico pode n√£o estar t√£o atrelado ao estresse quanto imaginamos.
* **`Carga de Estudos`**: A percep√ß√£o de carga de estudos est√° concentrada nos n√≠veis intermedi√°rios a altos (picos em 2 e 3). Tudo indica um ambiente acad√™mico exigente e uma press√£o constante.
* **`Rela√ß√£o Professor-Aluno`**: O pico no n√≠vel 2 sugere que a rela√ß√£o com professores √© vista como funcional ou neutra. A baixa frequ√™ncia nos extremos (0 e 5) indica mais dist√¢ncia do que conex√£o forte ou conflito aberto.
* **`Preocupa√ß√µes com a Carreira`**: As preocupa√ß√µes com a carreira se concentram em intensidade baixa a moderada (picos em 1 e 2). N√£o parece ser o principal vetor de ansiedade comparado a outros fatores.
* **`Atividades Extracurriculares`**: A maioria participa de alguma atividade extracurricular, com destaque para o n√≠vel 2. Isso pode estar relacionado √† sobrecarga de compromissos e ao sono insuficiente.

**2. Fatores Psicol√≥gicos e de Sa√∫de Mental:**
* **`Hist√≥rico de Sa√∫de Mental`**: A distribui√ß√£o √© praticamente 50/50 entre estudantes com e sem hist√≥rico cl√≠nico de sa√∫de mental. Esse equil√≠brio √© importante ‚Äî n√£o temos uma classe minorit√°ria aqui.
* **`N√≠vel de Ansiedadel` e `N√≠vel de Depress√£o`**: Distribui√ß√µes amplas, sem picos definidos. Isso confirma a heterogeneidade da amostra: temos desde estudantes assintom√°ticos at√© aqueles com sintomas severos. O modelo precisar√° lidar com esse espectro completo.
* **`N√≠vel de Autoestima`**: A tend√™ncia geral √© de autoestima moderada a alta, com concentra√ß√£o em escores acima de 15. O pico not√°vel no n√≠vel 25 pode indicar um subgrupo com autoconfian√ßa particularmente elevada ‚Äî ou talvez seja apenas um artefato da escala de medi√ß√£o. 

**3. Fatores Sociais e de Relacionamento:**
* **`Suporte Social`**: A distribui√ß√£o bimodal √© reveladora: h√° dois grupos distintos e igualmente expressivos. Um percebe o apoio social como forte (pico no 3), enquanto o outro o considera insuficiente (pico no 1). O suporte social claramente n√£o √© uniforme nesta amostra.
* **`Frequ√™ncia de Bullying`**: A distribui√ß√£o indica que o Frequ√™ncia de Bullying √© prevalente. O pico no n√≠vel 1 e as baixas ocorr√™ncias no n√≠vel 0 sugerem que a maioria j√° sofreu algum tipo de Frequ√™ncia de Bullying, ainda que de baixa intensidade.O pico no n√≠vel 1 e as baixas ocorr√™ncias no n√≠vel 0 sugerem que a maioria dos estudantes j√° sofreu algum tipo de Frequ√™ncia de Bullying, ainda que de baixa intensidade.
* **`Press√£o dos Colegas`**: A press√£o dos colegas √© percebida com intensidade moderada (pico no 2) ‚Äî presente, mas n√£o extrema, no cotidiano dos estudantes.

**4. Fatores de Bem-Estar e Ambiente:**
* **`Condi√ß√µes de Moradia`**: Concentra√ß√£o nos n√≠veis intermedi√°rios (2, 3 e 4). A maioria n√£o enfrenta priva√ß√µes severas nem vive em abund√¢ncia ‚Äî um perfil socioecon√¥mico intermedi√°rio.
* **`Sensa√ß√£o de Seguran√ßa` e `Atendimento de Necessidades B√°sicas`**: A grande maioria se sente segura e com necessidades b√°sicas atendidas, mas a percep√ß√£o √© mais "razo√°vel" (pico no 2) do que "excelente". A quase aus√™ncia de respostas no n√≠vel 0 √© um sinal positivo.
* **`N√≠vel de Ru√≠do`**: Concentra√ß√£o nos n√≠veis intermedi√°rios. Ambientes perfeitamente silenciosos n√£o s√£o a realidade para a maioria.
* **`Qualidade do Sono`**: Aqui temos um ponto cr√≠tico de aten√ß√£o. A forte concentra√ß√£o em n√≠veis baixos, com pico expressivo no n√≠vel 1, indica que sono de m√° qualidade √© uma experi√™ncia comum e prevalente neste grupo.

**5. Sintomas Fisiol√≥gicos:**
* **`Press√£o Sangu√≠nea`**: Um indicador preocupante. A tend√™ncia de eleva√ß√£o √© clara, com quase metade dos estudantes no n√≠vel mais alto. Um forte sinal de alerta que pode estar ligado ao estresse cr√¥nico.
* **`Frequ√™ncia de Dor de Cabe√ßa` e `Problemas Respirat√≥rios`**: Estes s√£o sintomas cr√¥nicos para a maioria. A baixa contagem no n√≠vel 0 (aus√™ncia de sintomas) √© reveladora: dores de cabe√ßa e dificuldades respirat√≥rias parecem normalizadas nesta popula√ß√£o.


##### **Perfil do Estudante T√≠pico**

Consolidando os achados, temos um retrato preocupante:
O estudante m√©dio desta amostra vive uma rotina acad√™mica exigente, com autoavalia√ß√£o de desempenho apenas regular. Sintomas f√≠sicos cr√¥nicos ‚Äî dores de cabe√ßa, problemas respirat√≥rios e, mais alarmante, press√£o arterial elevada ‚Äî s√£o comuns. A m√° qualidade do sono √© realidade para a grande maioria.
O ambiente social traz desafios pr√≥prios. O Frequ√™ncia de Bullying √© uma experi√™ncia prevalente, e o suporte social √© polarizado: ou √© forte, ou √© insuficiente. O estudante t√≠pico vive em contexto socioecon√¥mico intermedi√°rio, com necessidades b√°sicas atendidas, mas lida com uma carga de estudos e atividades que pode estar contribuindo para seu esgotamento f√≠sico e mental.


### üîé An√°lise Bivariada

* **Objetivo:** Investigar como cada vari√°vel preditiva se relaciona com a nossa vari√°vel alvo, `stress_level`. Isso nos ajudar√° a identificar quais fatores parecem ter maior influ√™ncia sobre o estresse.

In [None]:
# Reutiliza a lista de features e a grade de visualiza√ß√£o da c√©lula anterior
fig, axes = plt.subplots(n_rows, n_cols, figsize=(18, n_rows * 5))
axes = axes.flatten()

# Itera sobre cada feature para criar os gr√°ficos
for i, feature in enumerate(features):
    ax = axes[i]
    titulo_traduzido = FEATURE_TRANSLATOR.get(feature, feature)

    # Cria o gr√°fico de contagem, segmentado pela vari√°vel alvo
    sns.countplot(x=feature, data=df, hue=TARGET_VARIABLE, ax=ax, palette="viridis")

    # Configura√ß√µes do gr√°fico
    ax.set_title(
        f"'{titulo_traduzido}' vs. N√≠vel de Estresse", fontsize=13, weight="bold"
    )
    ax.set_xlabel("")
    ax.set_ylabel("Contagem")
    ax.legend(title="N√≠vel de Estresse")

# Oculta eixos n√£o utilizados
for ax in axes[len(features) :]:
    ax.axis("off")

plt.tight_layout(pad=2.0)
plt.show()

#### üìã An√°lise dos Resultados

##### **Observa√ß√µes Gerais e Conclus√µes da An√°lise Bivariada:**

Nesta etapa, cruzamos cada vari√°vel preditiva com a nossa vari√°vel alvo (`N√≠vel de Estresse`) para identificar padr√µes e a for√ßa da rela√ß√£o entre elas. Vari√°veis que mostram uma mudan√ßa clara na distribui√ß√£o do estresse s√£o fortes candidatas a serem bons preditores para o modelo de Machine Learning.

**1. Fatores Acad√™micos e de Carreira:**
* **`Desempenho Acad√™mico`**: A **correla√ß√£o negativa √© muito clara**. Estudantes com performance alta (n√≠veis 4 e 5) apresentam predominantemente estresse baixo, enquanto estresse m√©dio e alto s√£o raros. Um forte preditor inverso.
* **`Carga de Estudos`**: Confirma-se uma **forte correla√ß√£o positiva**. Quanto maior a carga de estudos, maior a propor√ß√£o de estresse elevado.
* **`Rela√ß√£o Professor-Aluno`**: Existe uma **correla√ß√£o negativa vis√≠vel**. Rela√ß√µes melhores com professores est√£o associadas a menos estresse alto. Um efeito protetor interessante.
* **`Preocupa√ß√µes com a Carreira` e `Atividades Extracurriculares`**: Ambas demonstram uma **forte correla√ß√£o positiva**. Mais preocupa√ß√£o com o futuro e maior envolvimento em atividades extracurriculares aparecem ligados a n√≠veis mais altos de estresse.

**2. Fatores Psicol√≥gicos e de Sa√∫de Mental:**
* **`N√≠vel de Ansiedadel` e `N√≠vel de Depress√£o`**: Como esperado, ambos mostram uma **correla√ß√£o positiva fort√≠ssima e linear**. Nos n√≠veis baixos dessas escalas, o estresse √© praticamente inexistente. Nos n√≠veis altos, o estresse elevado domina por completo. Essas ser√£o, provavelmente, as vari√°veis mais influentes do modelo.
* **`N√≠vel de Autoestima`**: Apresenta uma **correla√ß√£o negativa muito clara**. Quanto maior a autoestima, menor o n√≠vel de estresse.
* **`Hist√≥rico de Sa√∫de Mental`**: Sendo bin√°ria, essa vari√°vel mostra seu poder de forma direta. Quem tem hist√≥rico de problemas de sa√∫de mental apresenta propor√ß√£o **significativamente maior** de estresse elevado.

**3. Fatores Sociais e de Relacionamento:**
* **`Suporte Social`**: A an√°lise revela uma rela√ß√£o n√£o linear interessante: O pico de estresse alto ocorre no n√≠vel 1 (suporte insuficiente/insatisfat√≥ria), sendo at√© mais alto que no n√≠vel 0 (aus√™ncia total de suporte). Parece que perceber um suporte "falho" √© mais estressante do que n√£o ter suporte nenhum. De modo geral, por√©m, a tend√™ncia √© de **forte correla√ß√£o negativa**.
* **`Frequ√™ncia de Bullying`**: Uma das **correla√ß√µes positivas mais fortes**. A propor√ß√£o de estresse alto cresce de forma alarmante com o aumento do Frequ√™ncia de Bullying.
* **`Press√£o dos Colegas`**: Mostra uma **correla√ß√£o positiva moderada**. A press√£o dos colegas aumenta o estresse, mas de forma menos acentuada que o Frequ√™ncia de Bullying.

**4. Fatores de Bem-Estar e Ambiente:**
* **`Condi√ß√µes de Moradia`, `Sensa√ß√£o de Seguran√ßa`, `Atendimento de Necessidades B√°sicas` e `Qualidade do Sono`**: Todas mostram **correla√ß√£o negativa consistente**. Melhores condi√ß√µes de vida, maior seguran√ßa, necessidades b√°sicas bem atendidas e maior qualidade de sono est√£o claramente associadas a n√≠veis mais baixos de estresse.
* **`N√≠vel de Ru√≠do`**: **Correla√ß√£o positiva forte**. Mais barulho, mais estresse.

**5. Sintomas Fisiol√≥gicos:**
* **`Frequ√™ncia de Dor de Cabe√ßa` e `Problemas Respirat√≥rios`**: Ambas t√™m uma **correla√ß√£o positiva muito forte**. A maior frequ√™ncia desses sintomas est√° diretamente ligada a uma maior propor√ß√£o de estresse alto.
* **`Press√£o Sangu√≠nea`**: A rela√ß√£o √© **extremamente forte e praticamente determin√≠stica**. Estresse alto est√° concentrado quase exclusivamente no grupo com maior n√≠vel de press√£o arterial. Um divisor de √°guas claro entre as classes.


##### **Ranking de Preditores Potenciais**

A an√°lise bivariada mostrou que o dataset possui uma boa variedade de preditores. A maioria das vari√°veis apresenta uma rela√ß√£o clara com o n√≠vel de estresse, o que √© um sinal positivo para a modelagem. Com base na for√ßa e na clareza dessas rela√ß√µes, √© poss√≠vel organizar as vari√°veis da seguinte maneira:

* **Preditores de Primeira Ordem (Rela√ß√£o Extremamente Forte):**
    * `N√≠vel de Ansiedadel`, `N√≠vel de Depress√£o`: Quase proxies do pr√≥prio estresse.
    * `Press√£o Sangu√≠nea`: Divisor de √°guas entre as classes.
    * `Frequ√™ncia de Bullying`, `Suporte Social`, `N√≠vel de Autoestima`: Fatores psicossociais com impacto massivo.

* **Preditores de Segunda Ordem (Rela√ß√£o Forte e Consistente):**
    * `Desempenho Acad√™mico`, `Carga de Estudos`: A dupla central da vida acad√™mica.
    * `Qualidade do Sono`: Fator de bem-estar fundamental.
    * `Frequ√™ncia de Dor de Cabe√ßa`, `Problemas Respirat√≥rios`: Sintomas f√≠sicos associados.
    * `Preocupa√ß√µes com a Carreira`, `Hist√≥rico de Sa√∫de Mental`: Indicadores de preocupa√ß√£o e predisposi√ß√£o.

* **Preditores de Terceira Ordem (Rela√ß√£o Clara, por√©m mais Moderada):**
    * `Condi√ß√µes de Moradia`, `Sensa√ß√£o de Seguran√ßa`, `Atendimento de Necessidades B√°sicas`: Base do bem-estar.
    * `Rela√ß√£o Professor-Aluno`, `Press√£o dos Colegas`, `Atividades Extracurriculares`, `N√≠vel de Ru√≠do`: Vari√°veis contextuais moduladoras.

### üîé An√°lise Multivariada: Matriz de Correla√ß√£o

* **Objetivo:** Visualizar a correla√ß√£o linear entre todas as vari√°veis num√©ricas do dataset por meio de um mapa de calor (heatmap), permitindo obter uma vis√£o quantitativa da intensidade e da dire√ß√£o das rela√ß√µes lineares entre os pares de vari√°veis.

In [None]:
# 1. C√°lculo e Tradu√ß√£o da Matriz
corr_matrix = df.corr()
translated_corr_matrix = corr_matrix.rename(
    columns=FEATURE_TRANSLATOR, index=FEATURE_TRANSLATOR
)

# 2. Visualiza√ß√£o do Heatmap
plt.figure(figsize=(18, 15))
ax = sns.heatmap(
    translated_corr_matrix,
    annot=True,
    cmap="coolwarm",
    fmt=".2f",
    linewidths=0.5,
)
plt.title("Matriz de Correla√ß√£o entre Todas as Vari√°veis", fontsize=16, weight="bold")
plt.xticks(rotation=45, ha="right")
plt.yticks(rotation=0)

# 3. Destaque da Vari√°vel Alvo nos Eixos
translated_target_name = FEATURE_TRANSLATOR.get(TARGET_VARIABLE, TARGET_VARIABLE)
for label in ax.get_yticklabels() + ax.get_xticklabels():
    if label.get_text() == translated_target_name:
        label.set_weight("bold")
        label.set_color("firebrick")

plt.show()

# 4. Listagem Ordenada da Correla√ß√£o com a Vari√°vel Alvo
print(f"\nCorrela√ß√£o das Vari√°veis com '{translated_target_name}':")
correlation_with_target = (
    corr_matrix[TARGET_VARIABLE].rename(FEATURE_TRANSLATOR).sort_values(ascending=False)
)
print(correlation_with_target)

#### üìã An√°lise dos Resultados

##### **Correla√ß√£o com a Vari√°vel Alvo (`N√≠vel de Estresse`)**

A lista ordenada de correla√ß√µes confirma numericamente o que vimos nos gr√°ficos. Podemos dividir os achados em dois grupos principais:

* **Correla√ß√µes Positivas (Fatores de Risco)**:
    * As vari√°veis com os maiores valores positivos, como **`Frequ√™ncia de Bullying` (0.75)**, **`Preocupa√ß√µes com a Carreira` (0.74)**, **`N√≠vel de Ansiedadel` (0.74)** e **`N√≠vel de Depress√£o` (0.73)**, s√£o os indicadores mais fortes de estresse. Quanto maior o valor dessas vari√°veis, maior o n√≠vel de estresse.

* **Correla√ß√µes Negativas (Fatores de Prote√ß√£o)**:
    * As vari√°veis com os valores negativos mais fortes, como **`N√≠vel de Autoestima` (-0.76)**, **`Qualidade do Sono` (-0.75)**, **`Desempenho Acad√™mico` (-0.72)** e **`Sensa√ß√£o de Seguran√ßa` (-0.71)**, atuam como protetores. Valores mais altos est√£o fortemente associados a menos estresse.

**Conclus√£o**: A an√°lise quantitativa valida completamente nossas observa√ß√µes visuais da an√°lise bivariada. Temos um conjunto robusto de features com forte poder preditivo.

##### **Multicolinearidade entre Features**

Olhando o heatmap, buscamos correla√ß√µes fortes entre as pr√≥prias vari√°veis preditoras (fora da linha/coluna `N√≠vel de Estresse`). Multicolinearidade ocorre quando duas features medem essencialmente a mesma coisa, o que pode inflar artificialmente a import√¢ncia de vari√°veis ou dificultar a interpreta√ß√£o dos resultados.

Alguns pontos de aten√ß√£o:

* **`Atendimento de Necessidades B√°sicas` e `Sensa√ß√£o de Seguran√ßa` (0.82)**: Correla√ß√£o muito alta. Faz sentido: a percep√ß√£o de seguran√ßa est√° diretamente ligada ao atendimento de necessidades b√°sicas.
* **`Frequ√™ncia de Bullying` e `N√≠vel de Ansiedadel` (0.71)**: Alta correla√ß√£o, sugerindo que experi√™ncias de Frequ√™ncia de Bullying andam de m√£os dadas com n√≠veis elevados de ansiedade.
* **`N√≠vel de Autoestima` e `Qualidade do Sono` (0.69)**: Correla√ß√£o forte e interessante: melhor autoestima parece estar ligada a melhor qualidade de sono.

**Decis√£o T√©cnica**: Embora existam pontos de multicolinearidade, os modelos que pretendemos testar inicialmente (como Random Forest) s√£o robustos a esse fen√¥meno. Seguindo o princ√≠pio da simplicidade (**YAGNI** - *You Aren't Gonna Need It*), **manteremos todas as features por enquanto**. Essa an√°lise fica registrada caso seja necess√°rio refinar o modelo em ciclos futuros de otimiza√ß√£o.

##### **Conclus√µes Finais da EDA**

Conclu√≠mos esta fase com as seguintes pontos:
1.  O dataset √© de **alta qualidade**, sem dados ausentes ou duplicados.
2.  A vari√°vel alvo, `N√≠vel de Estresse`, est√° **bem balanceada**.
3.  Existem **muitas features com forte correla√ß√£o** (positiva e negativa) com o estresse, indicando grande potencial preditivo.
4.  Identificamos a presen√ßa de **multicolinearidade**, mas optamos por n√£o tratar neste momento para manter a simplicidade.

# 4. üßπ Pr√©-processamento e Prepara√ß√£o dos Dados

Com base nas conclus√µes da An√°lise Explorat√≥ria, nosso dataset j√° est√° limpo e todas as vari√°veis s√£o num√©ricas. Portanto, o pr√©-processamento ser√° focado nas seguintes etapas essenciais:
* **Separa√ß√£o de Features e Alvo:** Dividimos nosso DataFrame em X (matriz de features, ou vari√°veis preditoras) e y (vetor alvo, a vari√°vel que queremos prever).
* **Divis√£o em Conjuntos de Treino e Teste:** Separamos os dados em dois conjuntos: um para treinamento (80% dos dados), utilizado para ensinar o modelo, e outro para teste (20% dos dados), empregado para avaliar seu desempenho em dados in√©ditos. Utilizamos a estratifica√ß√£o (stratify=y) para garantir que a propor√ß√£o das classes de estresse fosse mantida em ambos os conjuntos, o que √© essencial para datasets balanceados como o nosso.

In [None]:
# Define as features (X) e a vari√°vel alvo (y) usando a constante global
# CORRE√á√ÉO: Utiliza a vari√°vel `TARGET_VARIABLE` em vez da string "TARGET_VARIABLE"
X = df.drop(TARGET_VARIABLE, axis=1)
y = df[TARGET_VARIABLE]

# Exibe as dimens√µes para verifica√ß√£o
print(f"Dimens√µes de X (features): {X.shape}")
print(f"Dimens√µes de y (alvo): {y.shape}")

In [None]:
# Separa os dados para treinar o modelo e para avali√°-lo em dados n√£o vistos
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,  # 20% dos dados para o conjunto de teste
    random_state=RANDOM_STATE,  # Garante reprodutibilidade
    stratify=y,  # Mant√©m a propor√ß√£o das classes nos dois conjuntos
)

# Verifica as dimens√µes dos conjuntos resultantes
print(f"Dimens√µes de X_train: {X_train.shape}")
print(f"Dimens√µes de X_test:  {X_test.shape}")
print(f"Dimens√µes de y_train: {y_train.shape}")
print(f"Dimens√µes de y_test:  {y_test.shape}")

# 5. ü§ñ Modelagem e Treinamento

Nesta fase, iniciaremos o processo de constru√ß√£o de modelos de Machine Learning para prever o n√≠vel de estresse dos estudantes.Nossa estrat√©gia ser√° divida nas seguintes etapas:
* Criar uma Fun√ß√£o de Avalia√ß√£o
* Estabelecer um Baseline
* Treinar Modelos Candidatos: Decision Tree e Random Forest
* Ao final, comparamos o desempenho dos tr√™s modelos para selecionar o melhor candidato.

## üìå Criar uma Fun√ß√£o de Avalia√ß√£o
* **Objetivo:** Para evitar a repeti√ß√£o de c√≥digo, criamos uma fun√ß√£o auxiliar (evaluate_model) que calcula e exibe as principais m√©tricas de desempenho (acur√°cia, relat√≥rio de classifica√ß√£o) e a matriz de confus√£o para qualquer modelo treinado.

In [None]:
def evaluate_model(model, X_test, y_test, model_name):
    """
    Realiza previs√µes, calcula e exibe as m√©tricas de avalia√ß√£o e a matriz de confus√£o.

    Args:
        model: O modelo treinado a ser avaliado.
        X_test: Dados de teste (features).
        y_test: Dados de teste (alvo).
        model_name (str): Nome do modelo para usar nos t√≠tulos.
    """
    # 1. Realiza previs√µes
    y_pred = model.predict(X_test)

    # 2. Calcula e exibe a acur√°cia
    accuracy = accuracy_score(y_test, y_pred)
    print(f"--- Avalia√ß√£o: {model_name} ---")
    print(f"Acur√°cia: {accuracy:.2%}\n")

    # 3. Exibe o relat√≥rio de classifica√ß√£o
    print("Relat√≥rio de Classifica√ß√£o:")
    class_names = ["Baixo", "M√©dio", "Alto"]
    print(classification_report(y_test, y_pred, target_names=class_names))

    # 4. Exibe a matriz de confus√£o
    print("Matriz de Confus√£o:")
    ConfusionMatrixDisplay.from_estimator(
        model, X_test, y_test, display_labels=class_names
    )
    plt.title(f"Matriz de Confus√£o - {model_name}")
    plt.show()

## üìå Estabelecer um Baseline
* **Objetivo:** Treinamos um DummyClassifier, um modelo simples que faz previs√µes baseadas na distribui√ß√£o das classes. Ele nos d√° um ponto de refer√™ncia: qualquer modelo mais complexo precisa ter um desempenho superior ao dele para ser considerado √∫til.

In [None]:
# 1. Instancia e treina o modelo baseline
baseline_model = DummyClassifier(strategy="stratified", random_state=RANDOM_STATE)
baseline_model.fit(X_train, y_train)

# 2. Avalia o modelo usando a fun√ß√£o auxiliar
evaluate_model(baseline_model, X_test, y_test, "Modelo Baseline (Dummy Classifier)")

## üìå Modelo 1: Decision Tree
* **Objetivo:** Com o baseline estabelecido, vamos agora treinar nosso primeiro modelo preditivo real. Decision tree √© um modelo interpret√°vel que aprende regras de decis√£o a partir dos dados.

In [None]:
# 1. Instancia e treina o modelo
tree_model = DecisionTreeClassifier(random_state=RANDOM_STATE)
tree_model.fit(X_train, y_train)

# 2. Avalia o modelo
evaluate_model(tree_model, X_test, y_test, "√Årvore de Decis√£o")

## üìå Modelo 2: Random Forest
* **Objetivo:** O modelo de √Årvore de Decis√£o entregou um √≥timo resultado. Agora, vamos dar um passo al√©m e testar o Random Forest ‚Äî um modelo de ensemble que combina v√°rias √°rvores para gerar previs√µes mais consistentes e reduzir o risco de overfitting.

In [None]:
# 1. Instancia e treina o modelo
rf_model = RandomForestClassifier(n_estimators=100, random_state=RANDOM_STATE)
rf_model.fit(X_train, y_train)

# 2. Avalia o modelo
evaluate_model(rf_model, X_test, y_test, "Random Forest")

## üìå Compara√ß√£o dos Modelos e Escolha Final

Ap√≥s treinar e avaliar tr√™s modelos distintos, podemos comparar seus resultados de acur√°cia para selecionar o mais perform√°tico.

| Modelo | Acur√°cia no Conjunto de Teste |
| :--- | :--- |
| Baseline (Dummy Classifier) | 35% |
| √Årvore de Decis√£o | 85% |
| **Random Forest** | **89%** |

### Modelo Escolhido

Depois de comparar os modelos, o **Random Forest Classifier** se destacou como a melhor escolha para este projeto. Tr√™s raz√µes principais:
1. **Acur√°cia mais alta:** Atingiu 89%, o melhor resultado entre todos os modelos testados.
2. **Equil√≠brio entre as classes:** O `f1-score` m√©dio foi superior e mais bem distribu√≠do, indicando que o modelo n√£o favorece uma classe em detrimento de outra.
3. **Maior confiabilidade:** Por ser um ensemble, o Random Forest tende a generalizar melhor que uma √°rvore isolada, oferecendo previs√µes mais est√°veis em dados novos.

# 6. üõ†Ô∏è Otimiza√ß√£o de Hiperpar√¢metros

O Random Forest apresentou o melhor desempenho com seus par√¢metros padr√£o (como n_estimators=100). Embora seja poss√≠vel ir al√©m e ajustar hiperpar√¢metros ‚Äî testando diferentes n√∫meros de √°rvores, profundidades m√°ximas, crit√©rios de divis√£o, entre outros ‚Äî por meio de t√©cnicas como Grid Search ou Random Search com valida√ß√£o cruzada, optamos por n√£o realizar essa etapa aqui.
Para o escopo atual, o desempenho do modelo j√° √© excelente e atende aos objetivos do projeto. Caso seja necess√°rio espremer mais alguns pontos percentuais de performance no futuro, a otimiza√ß√£o de hiperpar√¢metros seria o pr√≥ximo passo natural.

# 7. üèÅ Conclus√£o

## üìå Exporta√ß√£o
A √∫ltima etapa do nosso pipeline de desenvolvimento √© salvar (ou "serializar") o objeto do modelo treinado em um arquivo. Isso nos permite recarregar o modelo treinado em outros ambientes ou aplica√ß√µes ‚Äî como nosso dashboard em Streamlit ‚Äî sem a necessidade de refazer todo o processo de treinamento. Utilizamos a biblioteca `joblib` para esta tarefa, que √© eficiente para salvar objetos Python que cont√™m grandes arrays de dados, como os modelos do Scikit-Learn.

In [None]:
# Define o caminho e garante que o diret√≥rio exista
model_dir = "../models"
os.makedirs(model_dir, exist_ok=True)
model_path = os.path.join(model_dir, "student_stress_rf_model.joblib")

# Salva o objeto do modelo no arquivo
joblib.dump(rf_model, model_path)

print(f"‚úÖ Modelo Random Forest salvo com sucesso em: {model_path}")

## üìå Resumo do Projeto
Percorremos todo o ciclo de um projeto de Machine Learning: desde a explora√ß√£o inicial dos dados at√© a cria√ß√£o e exporta√ß√£o de um modelo preditivo funcional.
### Principais Conclus√µes
* O dataset √© limpo e bem estruturado ‚Äî n√£o tivemos que lidar com valores ausentes, o que acelerou bastante o processo.
* A an√°lise explorat√≥ria mostrou que a vari√°vel alvo est√° razoavelmente balanceada e que v√°rias features possuem correla√ß√£o significativa com os n√≠veis de estresse.
* O Random Forest alcan√ßou uma acur√°cia consideravelmente alta e desempenho superior tanto ao baseline quanto √† √Årvore de Decis√£o individual. Isso sugere que os padr√µes nos dados s√£o complexos e se beneficiam de uma abordagem ensemble.
* O modelo final foi salvo com sucesso e est√° pronto para ser integrado em aplica√ß√µes que realizem previs√µes em tempo real.