# üìä Tech Challenge - An√°lise e Previs√£o de Fatores de Estresse em Estudantes

## üìë Sum√°rio
1. [üìù Defini√ß√£o do problema](#1-üìù-Defini√ß√£o-do-problema)
2. [üì• Coleta e prepara√ß√£o dos dados](#2-üì•-Coleta-e-prepara√ß√£o-dos-dados)
3. [üîé An√°lise explorat√≥ria de dados (EDA)](#3-üîé-An√°lise-explorat√≥ria-de-dados-EDA)
4. [‚öôÔ∏è Engenharia e sele√ß√£o de atributos](#4-‚öôÔ∏è-Engenharia-e-sele√ß√£o-de-atributos)
5. [ü§ñ Modelagem](#5-ü§ñ-Modelagem)
6. [üìè Avalia√ß√£o e interpreta√ß√£o dos resultados](#6-üìè-Avalia√ß√£o-e-interpreta√ß√£o-dos-resultados)
7. [üöÄ Deploy](#7-üöÄ-Deploy)

## 1. üìù Defini√ß√£o do problema

* **Problema de Neg√≥cio:** Desenvolver uma solu√ß√£o que permita a institui√ß√µes de ensino identificar estudantes com risco de estresse elevado, possibilitando a cria√ß√£o de programas de apoio mais direcionados e eficazes.
* **Objetivo T√©cnico:** O problema foi enquadrado como um desafio de **Classifica√ß√£o Multiclasse**. O objetivo √© treinar um modelo de Machine Learning para prever o n√≠vel de estresse de um estudante em uma de tr√™s categorias (0: baixo, 1: m√©dio, 2: alto), utilizando a coluna `stress_level` como vari√°vel-alvo.

## 2. üì• Coleta e prepara√ß√£o dos dados

#### üìå Coleta de Dados

* **Fonte dos Dados:** Foi utilizado um dataset p√∫blico da plataforma Kaggle, chamado "Student Stress Factors - A Comprehensive Analysis".
* **Justificativa:** A utiliza√ß√£o de um dataset j√° existente foi uma decis√£o estrat√©gica para otimizar o tempo e concentrar os esfor√ßos do projeto nas etapas de An√°lise, Modelagem e Deploy, que s√£o o foco do desafio.

#### üìå Armazenamento dos Dados

* **Solu√ß√£o Adotada:** Para simular um ambiente de produ√ß√£o e garantir a reprodutibilidade, os dados foram armazenados em um sistema de armazenamento de objetos local (MinIO)].
* **Processo:** Um bucket chamado `student-stress` foi criado no servidor MinIO , e o dataset `StressLevelDataset.csv` foi carregado, tornando-se acess√≠vel via servi√ßo para a etapa de an√°lise.

In [None]:
# Importa√ß√£o de Bibliotecas
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import boto3
from io import BytesIO

# Configura√ß√µes de estilo para os gr√°ficos
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

In [None]:
# Configura√ß√µes de conex√£o com o MinIO
MINIO_ENDPOINT = "127.0.0.1:9000"
MINIO_ACCESS_KEY = "minioadmin"  # Use o seu usu√°rio
MINIO_SECRET_KEY = "minioadmin"  # Use a sua senha
BUCKET_NAME = "student-stress"
OBJECT_NAME = "StressLevelDataset.csv"

# Criar um cliente S3 compat√≠vel para interagir com o MinIO
s3_client = boto3.client(
    "s3",
    endpoint_url=f"http://{MINIO_ENDPOINT}",
    aws_access_key_id=MINIO_ACCESS_KEY,
    aws_secret_access_key=MINIO_SECRET_KEY,
    aws_session_token=None,
    config=boto3.session.Config(signature_version="s3v4"),
)

# Tentar carregar o objeto do bucket
try:
    response = s3_client.get_object(Bucket=BUCKET_NAME, Key=OBJECT_NAME)
    # Ler o conte√∫do do objeto em um DataFrame do Pandas
    # O BytesIO trata os bytes do objeto como um arquivo em mem√≥ria
    df = pd.read_csv(BytesIO(response["Body"].read()))
    print("Dataset carregado com sucesso do MinIO!")
except Exception as e:
    print(f"Erro ao carregar o dataset do MinIO: {e}")

#### üìå Inspe√ß√£o Inicial do DataFrame

In [None]:
# Visualizar as 5 primeiras linhas do dataset
print("Primeiras 5 linhas do dataset:")
display(df.head())

# Obter informa√ß√µes gerais sobre o DataFrame (tipos de dados, valores n√£o nulos)
print("\nInforma√ß√µes gerais do DataFrame:")
df.info()

# Obter estat√≠sticas descritivas para as colunas num√©ricas
print("\nEstat√≠sticas Descritivas:")
display(df.describe())

# Verificar as dimens√µes do dataset (linhas, colunas)
print(f"\nO dataset possui {df.shape[0]} linhas e {df.shape[1]} colunas.")

# Contar o n√∫mero de linhas completamente duplicadas no DataFrame
num_duplicates = df.duplicated().sum()
print(f"N√∫mero de linhas duplicadas encontradas: {num_duplicates}")

#### An√°lise Preliminar e Qualidade dos Dados

A inspe√ß√£o inicial do dataset, realizada atrav√©s dos comandos `.info()`, `.describe()` e `.head()`, revelou os seguintes insights cruciais que guiar√£o as pr√≥ximas etapas:

* **Aus√™ncia de Dados Faltantes:** Todas as 21 colunas cont√™m 1100 registros n√£o nulos. Isso indica uma excelente qualidade de dados e nos isenta da necessidade de aplicar t√©cnicas de tratamento de valores ausentes (imputa√ß√£o).

* **Formato Num√©rico Uniforme:** Todas as vari√°veis s√£o do tipo `int64`, o que simplifica a etapa de pr√©-processamento, pois n√£o ser√° necess√°rio realizar a convers√£o de tipos de dados (ex: *encoding* de vari√°veis categ√≥ricas textuais).

* **Natureza Impl√≠cita das Vari√°veis:** Apesar do tipo `int64`, a an√°lise sem√¢ntica e estat√≠stica (`min`, `max`) sugere que as colunas representam diferentes tipos de dados. Temos uma mistura de vari√°veis que, na pr√°tica, s√£o categ√≥ricas bin√°rias (ex: `mental_health_history`), ordinais (escalas de 0 a 5) e a vari√°vel-alvo multiclasse (`stress_level`), que √© o foco da nossa previs√£o.

------

#### Conclus√£o sobre a Vari√°vel-Alvo

A an√°lise da distribui√ß√£o da vari√°vel `stress_level` mostra que as tr√™s classes (0: Baixo, 1: M√©dio, 2: Alto) est√£o **muito bem balanceadas**. Com contagens de 373, 358 e 369 respectivamente, temos uma base s√≥lida e imparcial para o treinamento do modelo de classifica√ß√£o, eliminando a necessidade de t√©cnicas de balanceamento de classes.

#### Resumo da An√°lise de Qualidade dos Dados

A an√°lise de qualidade, que incluiu a verifica√ß√£o de valores ausentes e registros duplicados, revelou um dataset excepcionalmente limpo. As principais conclus√µes s√£o:

* **Dados Completos:** N√£o foi encontrado **nenhum valor ausente** em nenhuma das 21 colunas.
* **Dados √önicos:** A verifica√ß√£o confirmou que n√£o h√° **nenhuma linha duplicada** no conjunto de dados.
* **Formato Adequado:** Todas as vari√°veis j√° est√£o no formato num√©rico (`int64`), o que simplifica as etapas futuras de pr√©-processamento.

Com base nisso, a fase de limpeza de dados √© considerada conclu√≠da, e podemos prosseguir com confian√ßa para a an√°lise de distribui√ß√£o das vari√°veis.

#### 5. An√°lise da Vari√°vel-Alvo (stress_level)

In [None]:
# --- An√°lise Univariada ---

# 1. An√°lise da Vari√°vel-Alvo: stress_level
plt.figure(figsize=(8, 6))
sns.countplot(x="stress_level", data=df, palette="viridis")

# Adicionando t√≠tulos e r√≥tulos para maior clareza
plt.title("Distribui√ß√£o da Vari√°vel-Alvo (N√≠vel de Estresse)", fontsize=16)
plt.xlabel("N√≠vel de Estresse (0: Baixo, 1: M√©dio, 2: Alto)", fontsize=12)
plt.ylabel("Contagem de Estudantes", fontsize=12)

# Exibindo o gr√°fico
plt.show()

# Para complementar o gr√°fico, vamos exibir a contagem exata de cada classe
print("Contagem de valores para cada n√≠vel de estresse:")
print(df["stress_level"].value_counts())

#### 6. Histogramas de Todas as Vari√°veis Preditivas

In [None]:
# 2. An√°lise das Vari√°veis Preditivas (Features)

# Selecionar todas as colunas, exceto a nossa vari√°vel-alvo 'stress_level'
features = df.drop("stress_level", axis=1).columns

# Criar um histograma para cada feature
for feature in features:
    plt.figure(figsize=(10, 5))
    # Usaremos um histograma, ideal para vari√°veis num√©ricas/ordinais
    sns.histplot(
        df[feature], kde=True, bins=20
    )  # kde=True adiciona uma linha de densidade
    plt.title(f"Distribui√ß√£o de: {feature}", fontsize=15)
    plt.xlabel(feature, fontsize=12)
    plt.ylabel("Frequ√™ncia", fontsize=12)
    plt.show()