# Prediksi Kesehatan Mental
### Nabilla Assyfa Ramadhani

Kode ini bertujuan untuk membangun model regresi menggunakan dataset “mental health”. Model ini akan dilatih untuk mengenali pola untuk menentukan apakah seseorang membutuhkan perawatan untuk kesehatan mental . Berikut adalah langkah-langkah utama yang dilakukan dalam kode ini:

#### Pengenalan Dataset
Dataset terdiri dari beberapa field yang berisi :
1. Timestamp : Tanggal dan waktu data dikumpulkan.
2. Gender : Gender individu (Male, Female).
3. Country : Negara tempat individu tinggal.
4. Occupation : Pekerjaan individu.
5. self_employed : Status apakah individu bekerja sendiri (Yes/No).
6. family_history : Apakah individu memiliki riwayat kesehatan mental dalam keluarga (Yes/No).
7. Days_Indoors : Jumlah hari individu menghabiskan waktu di dalam rumah.
8. Growing_stress : Tingkat stres yang meningkat pada individu (Yes/No). 
9. Changes_Habits : Perubahan dalam kebiasaan sehari-hari (Yes/No).
10. Mental_Health_History : Apakah individu memiliki riwayat masalah kesehatan mental (Yes/No).
11. Mood_Swings : Frekuensi perubahan suasana hati (Yes/No).
12. Coping_Struggles : Kesulitan individu dalam menghadapi masalah atau stres (Yes/No).
13. Work_Interest : Minat individu terhadap pekerjaan (Yes/No).
14. Social_Weakness : Kelemahan atau kesulitan individu dalam bersosialisasi (Yes/No).
15. mental_health_interview : Apakah individu pernah menjalani wawancara terkait kesehatan mental di tempat kerja (Yes/No).
16. care_options :  Ketersediaan opsi perawatan kesehatan mental bagi individu (Yes/No).
17. Treatment : Apakah individu sedang menjalani atau membutuhkan perawatan kesehatan mental (Yes/No).

## Import library

In [1]:
# Import Library
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report

## Memuat dataset dan menampilkannya
Dataset dimuat dalam bentuk csv dan menampilkan 3 data pertamanya

In [2]:
# Memuat data dari file CSV
data = pd.read_csv('Mental Health Dataset.csv')
# Melihat beberapa baris pertama dari data
print(data.head(3))

         Timestamp  Gender        Country Occupation self_employed  \
0  8/27/2014 11:29  Female  United States  Corporate           NaN   
1  8/27/2014 11:31  Female  United States  Corporate           NaN   
2  8/27/2014 11:32  Female  United States  Corporate           NaN   

  family_history treatment Days_Indoors Growing_Stress Changes_Habits  \
0             No       Yes    1-14 days            Yes             No   
1            Yes       Yes    1-14 days            Yes             No   
2            Yes       Yes    1-14 days            Yes             No   

  Mental_Health_History Mood_Swings Coping_Struggles Work_Interest  \
0                   Yes      Medium               No            No   
1                   Yes      Medium               No            No   
2                   Yes      Medium               No            No   

  Social_Weakness mental_health_interview care_options  
0             Yes                      No     Not sure  
1             Yes              

In [3]:
# Mengecek jumlah data null di setiap kolom
null_counts = data.isnull().sum()
print(null_counts)

Timestamp                     0
Gender                        0
Country                       0
Occupation                    0
self_employed              5202
family_history                0
treatment                     0
Days_Indoors                  0
Growing_Stress                0
Changes_Habits                0
Mental_Health_History         0
Mood_Swings                   0
Coping_Struggles              0
Work_Interest                 0
Social_Weakness               0
mental_health_interview       0
care_options                  0
dtype: int64


In [4]:
# Menghapus kolom 'self_employed', 'timestamp', dan 'country' dari dataset
data = data.drop('self_employed', axis=1)
data = data.drop('Timestamp', axis=1)
data = data.drop('Country', axis=1)

# Melihat data untuk memastikan kolom sudah terhapus
print(data.head(3))

   Gender Occupation family_history treatment Days_Indoors Growing_Stress  \
0  Female  Corporate             No       Yes    1-14 days            Yes   
1  Female  Corporate            Yes       Yes    1-14 days            Yes   
2  Female  Corporate            Yes       Yes    1-14 days            Yes   

  Changes_Habits Mental_Health_History Mood_Swings Coping_Struggles  \
0             No                   Yes      Medium               No   
1             No                   Yes      Medium               No   
2             No                   Yes      Medium               No   

  Work_Interest Social_Weakness mental_health_interview care_options  
0            No             Yes                      No     Not sure  
1            No             Yes                      No           No  
2            No             Yes                      No          Yes  


In [5]:
# Mengecek jumlah data null di setiap kolom
null_counts = data.isnull().sum()
print(null_counts)

Gender                     0
Occupation                 0
family_history             0
treatment                  0
Days_Indoors               0
Growing_Stress             0
Changes_Habits             0
Mental_Health_History      0
Mood_Swings                0
Coping_Struggles           0
Work_Interest              0
Social_Weakness            0
mental_health_interview    0
care_options               0
dtype: int64


## Pengubahan data kategorikal menjadi numerik
Data diubah menjadi numerik menggunakan One-Hot Encoding, dan memisahkan variabel fitur dan variabel target

In [6]:
# Menggunakan One-Hot Encoding pada kolom kategorikal selain kolom 'treatment'
data_encoded = pd.get_dummies(data, columns=[col for col in data.columns if col != 'treatment'])

# Pisahkan fitur dan target setelah encoding
X = data_encoded.drop('treatment', axis=1)  # Fitur
y = data_encoded['treatment']  # Target


## Memuat model prediksi
Model prediksi kesehatan mental ini menggunakan algoritma regresi logistik untuk menentukan apakah seseorang membutuhkan perawatan kesehatan mental atau tidak. Model ini memanfaatkan berbagai faktor seperti riwayat kesehatan mental, tingkat stres, perubahan kebiasaan, dan dukungan sosial untuk memberikan prediksi.

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi model regresi logistik
model = LogisticRegression()

# Melatih model dengan data latih
model.fit(X_train, y_train)


## Menampilkan akurasi model

In [8]:
# Prediksi data uji
y_pred = model.predict(X_test)

# Evaluasi akurasi dan laporan klasifikasi
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f'Akurasi: {accuracy}')
print(f'Laporan Klasifikasi:\n{report}')


Akurasi: 0.70312793939083
Laporan Klasifikasi:
              precision    recall  f1-score   support

          No       0.71      0.69      0.70     28895
         Yes       0.70      0.72      0.71     29578

    accuracy                           0.70     58473
   macro avg       0.70      0.70      0.70     58473
weighted avg       0.70      0.70      0.70     58473



## Prediksi untuk data baru

In [10]:
new_data = {
    'Gender': ['Female'],
    'Occupation': ['Corporate'],
    'family_history': ['Yes'],
    'Days_Indoors': ['1-14 days'],
    'Growing_Stress': ['Yes'],
    'Changes_Habits': ['No'],
    'Mental_Health_History': ['No'],
    'Mood_Swings': ['Medium'],
    'Coping_Struggles': ['No'],
    'Work_Interest': ['Yes'],
    'Social_Weakness': ['No'],
    'mental_health_interview': ['Not sure'],
    'care_options': ['No']
}

# Membuat DataFrame dari data baru
new_data_df = pd.DataFrame(new_data)

# Melakukan One-Hot Encoding pada data baru
new_data_encoded = pd.get_dummies(new_data_df)

# Mengatur kolom agar sama dengan kolom di X (data latih)
missing_cols = set(X.columns) - set(new_data_encoded.columns)
for col in missing_cols:
    new_data_encoded[col] = 0  # Tambahkan kolom baru dengan nilai 0

new_data_encoded = new_data_encoded[X.columns]  # Pastikan urutan kolom sama dengan X

# Gunakan model untuk memprediksi data baru
predicted_treatment = model.predict(new_data_encoded)

# Tampilkan hasil prediksi
print(f'Hasil prediksi: {predicted_treatment[0]}')

Hasil prediksi: Yes
