# **Uso de técnicas de aprendizado de máquina para prever depressão em estudantes**

Neste projeto, utilizamos o **dataset** `student_depression_dataset.csv`, que contém informações sobre estudantes e sinais de depressão. O objetivo principal é prever a presença de depressão com base em fatores como gênero, idade, cidade, profissão, hábitos alimentares, duração do sono, entre outros.

O **dataset** foi extraído do [Kaggle - Student Depression Dataset](https://www.kaggle.com/datasets/adilshamim8/student-depression-dataset), uma fonte pública de dados que compila informações relevantes sobre saúde mental dos estudantes. A partir desses dados, treinamos modelos de aprendizado de máquina para prever a condição de depressão com base em diferentes características demográficas e comportamentais.


⚠️ **Este projeto é apenas educacional e não substitui avaliação médica profissional.**

Iniciando esse projeto, começamos importando as principais bibliotecas e exibindo os dados no formato de uma tabela.

In [68]:
import pandas as pd
import plotly.express as px
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/student_depression_dataset.csv')
display(df)

Unnamed: 0,id,Gender,Age,City,Profession,Academic Pressure,Work Pressure,CGPA,Study Satisfaction,Job Satisfaction,Sleep Duration,Dietary Habits,Degree,Have you ever had suicidal thoughts ?,Work/Study Hours,Financial Stress,Family History of Mental Illness,Depression
0,2,Male,33.0,Visakhapatnam,Student,5.0,0.0,8.97,2.0,0.0,'5-6 hours',Healthy,B.Pharm,Yes,3.0,1.0,No,1
1,8,Female,24.0,Bangalore,Student,2.0,0.0,5.90,5.0,0.0,'5-6 hours',Moderate,BSc,No,3.0,2.0,Yes,0
2,26,Male,31.0,Srinagar,Student,3.0,0.0,7.03,5.0,0.0,'Less than 5 hours',Healthy,BA,No,9.0,1.0,Yes,0
3,30,Female,28.0,Varanasi,Student,3.0,0.0,5.59,2.0,0.0,'7-8 hours',Moderate,BCA,Yes,4.0,5.0,Yes,1
4,32,Female,25.0,Jaipur,Student,4.0,0.0,8.13,3.0,0.0,'5-6 hours',Moderate,M.Tech,Yes,1.0,1.0,No,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27882,140568,Female,28.0,Vasai-Virar,Student,2.0,0.0,5.86,3.0,0.0,'Less than 5 hours',Unhealthy,M.Ed,No,1.0,2.0,No,0
27883,140584,Female,22.0,Kanpur,Student,4.0,0.0,6.61,2.0,0.0,'More than 8 hours',Unhealthy,M.Com,Yes,6.0,5.0,No,1
27884,140594,Male,18.0,Meerut,Student,5.0,0.0,6.25,3.0,0.0,'7-8 hours',Unhealthy,'Class 12',No,11.0,2.0,Yes,1
27885,140597,Female,19.0,Mumbai,Student,2.0,0.0,9.21,5.0,0.0,'5-6 hours',Unhealthy,'Class 12',Yes,3.0,2.0,No,0


## Visualizando e preparando dados

Aqui, utilizo do método ```info``` para visualizar e entender com que tipo de dados irei trabalhar, para assim poder tratar os dados de uma maneira que o algorítimo possa entender.

In [69]:
display(df.info()) #informações antes do tratamento

codificador1 = LabelEncoder()
df['Gender'] = codificador1.fit_transform(df['Gender'])

codificador2 = LabelEncoder()
df["City"] = codificador2.fit_transform(df["City"])

codificador3 = LabelEncoder()
df["Profession"] = codificador3.fit_transform(df["Profession"])

codificador4 = LabelEncoder()
df["Dietary Habits"] = codificador4.fit_transform(df["Dietary Habits"])

codificador5 = LabelEncoder()
df["Sleep Duration"] = codificador5.fit_transform(df["Sleep Duration"])

codificador6 = LabelEncoder()
df["Degree"] = codificador6.fit_transform(df["Degree"])

codificador7 = LabelEncoder()
df["Have you ever had suicidal thoughts ?"] = codificador7.fit_transform(df["Have you ever had suicidal thoughts ?"])

codificador8 = LabelEncoder()
df["Financial Stress"] = codificador8.fit_transform(df["Financial Stress"])

codificador9 = LabelEncoder()
df["Family History of Mental Illness"] = codificador9.fit_transform(df["Family History of Mental Illness"])

display(df.info()) #informações após o tratamento

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27887 entries, 0 to 27886
Data columns (total 18 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   id                                     27887 non-null  int64  
 1   Gender                                 27887 non-null  object 
 2   Age                                    27887 non-null  float64
 3   City                                   27887 non-null  object 
 4   Profession                             27887 non-null  object 
 5   Academic Pressure                      27887 non-null  float64
 6   Work Pressure                          27887 non-null  float64
 7   CGPA                                   27887 non-null  float64
 8   Study Satisfaction                     27887 non-null  float64
 9   Job Satisfaction                       27887 non-null  float64
 10  Sleep Duration                         27887 non-null  object 
 11  Di

None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27887 entries, 0 to 27886
Data columns (total 18 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   id                                     27887 non-null  int64  
 1   Gender                                 27887 non-null  int64  
 2   Age                                    27887 non-null  float64
 3   City                                   27887 non-null  int64  
 4   Profession                             27887 non-null  int64  
 5   Academic Pressure                      27887 non-null  float64
 6   Work Pressure                          27887 non-null  float64
 7   CGPA                                   27887 non-null  float64
 8   Study Satisfaction                     27887 non-null  float64
 9   Job Satisfaction                       27887 non-null  float64
 10  Sleep Duration                         27887 non-null  int64  
 11  Di

None

## Dividindo dados

Abaixo, os dados foram divididos em dados de treino e em dados de teste. Usando x e y, onde y é a coluna que queremos prever, e x são todas as outras.

In [70]:
x = df.drop(columns='Depression')
y = df['Depression']
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.25)

## Iniciando modelos de machine learn

Aqui, os modelos de machine learning são importados e utilizados. Nesse caso, foram selecionados três modelos: **Random Forest**, **K-Nearest Neighbors** e **Gradient Boosting**. Será utilizado o modelo que apresentar a melhor **acurácia** nos dados de teste, ajudando a prever depressão nos estudantes.

In [71]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import GradientBoostingClassifier

modelo_arvore = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()
modelo_gb = GradientBoostingClassifier()

modelo_arvore.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)
modelo_gb.fit(x_treino, y_treino)

## Calculando acurácia

Aqui, é calculado a **acurácia** de cada modelo, para decidirmos qual modelo iremos utilizar.

In [72]:
previsao_arvore = modelo_arvore.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)
previsao_gb = modelo_gb.predict(x_teste)


display('Random Forest: ' + str(accuracy_score(y_teste, previsao_arvore)))
display('K-Nearest Neibhborns: ' + str(accuracy_score(y_teste, previsao_knn)))
display('Gradient Boosting: ' + str(accuracy_score(y_teste, previsao_gb)))

'Random Forest: 0.8427997705106138'

'K-Nearest Neibhborns: 0.5215146299483648'

'Gradient Boosting: 0.8508318990246702'

## Previsão de dados

Acima, vimos que o modelo com a maior acurácia foi o modelo **Gradient Boosting**, então, ele será usado para realizar as previsões.

Abaixo, foi importado um novo dataset, onde contém 14 novos estudantes que nosso algorítimo irá prever.

In [73]:
novosDados = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/novosDados.csv')

codificador1 = LabelEncoder()
novosDados['Gender'] = codificador1.fit_transform(novosDados['Gender'])

codificador2 = LabelEncoder()
novosDados["City"] = codificador2.fit_transform(novosDados["City"])

codificador3 = LabelEncoder()
novosDados["Profession"] = codificador3.fit_transform(novosDados["Profession"])

codificador4 = LabelEncoder()
novosDados["Dietary Habits"] = codificador4.fit_transform(novosDados["Dietary Habits"])

codificador5 = LabelEncoder()
novosDados["Sleep Duration"] = codificador5.fit_transform(novosDados["Sleep Duration"])

codificador6 = LabelEncoder()
novosDados["Degree"] = codificador6.fit_transform(novosDados["Degree"])

codificador7 = LabelEncoder()
novosDados["Have you ever had suicidal thoughts ?"] = codificador7.fit_transform(novosDados["Have you ever had suicidal thoughts ?"])

codificador8 = LabelEncoder()
novosDados["Financial Stress"] = codificador8.fit_transform(novosDados["Financial Stress"])

codificador9 = LabelEncoder()
novosDados["Family History of Mental Illness"] = codificador9.fit_transform(novosDados["Family History of Mental Illness"])

previsao = modelo_gb.predict(novosDados)
gabarito = [1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1]
novosDados['Dado previsto'] = previsao
novosDados['Gabarito'] = gabarito
display(novosDados)


Unnamed: 0,id,Gender,Age,City,Profession,Academic Pressure,Work Pressure,CGPA,Study Satisfaction,Job Satisfaction,Sleep Duration,Dietary Habits,Degree,Have you ever had suicidal thoughts ?,Work/Study Hours,Financial Stress,Family History of Mental Illness,Dado previsto,Gabarito
0,140624,1,32.0,8,0,4.0,0.0,9.19,1.0,0.0,0,0,7,0,7.0,3,1,1,1
1,140630,1,19.0,4,0,4.0,0.0,7.13,1.0,0.0,3,1,0,0,10.0,1,0,1,1
2,140631,1,33.0,0,0,1.0,0.0,5.7,2.0,0.0,2,0,5,1,2.0,1,0,0,0
3,140635,1,28.0,6,0,3.0,0.0,5.03,3.0,0.0,2,1,0,1,6.0,1,1,1,0
4,140645,0,28.0,11,0,4.0,0.0,7.77,3.0,0.0,2,2,7,0,2.0,4,0,1,1
5,140669,0,20.0,3,0,3.0,0.0,7.72,5.0,0.0,2,1,0,1,8.0,0,0,1,0
6,140672,0,24.0,2,0,3.0,0.0,6.02,2.0,0.0,1,1,1,0,8.0,1,0,0,0
7,140681,1,23.0,9,0,3.0,0.0,6.0,2.0,0.0,3,0,4,1,12.0,3,0,1,0
8,140684,1,31.0,5,0,2.0,0.0,7.27,5.0,0.0,1,1,2,1,6.0,0,1,0,0
9,140685,0,27.0,10,0,5.0,0.0,5.75,5.0,0.0,0,2,0,1,7.0,0,1,1,0


## Desempenho do Modelo

No DataFrame acima, vimos que, de 14 pessoas, nosso algoritmo conseguiu prever corretamente o diagnóstico de 10 delas, o que representa uma taxa de acerto de aproximadamente. Esse desempenho é extraordinário, considerando a complexidade do problema e a diversidade dos dados envolvidos. A previsão acertada de 10 pessoas reflete a eficácia do modelo, especialmente no contexto de previsão de depressão, que pode ser desafiador devido a múltiplos fatores pessoais e sociais que influenciam a condição.
