# Task
Pre-process the data in "data.csv" by handling missing values, duplicates, and outliers, normalizing/standardizing numerical columns, encoding categorical columns, creating at least one new feature, and splitting the data into training and testing sets. Provide explanations for each step in Indonesian using markdown.

## Muat data

### Subtask:
Memuat data dari file CSV ke dalam pandas DataFrame.


**Reasoning**:
Import pandas and load the data from the CSV file into a DataFrame, then display the first five rows.



In [1]:
import pandas as pd

df = pd.read_csv('/content/synthetic_coffee_health_10000.csv')
display(df.head())

Unnamed: 0,ID,Age,Gender,Country,Coffee_Intake,Caffeine_mg,Sleep_Hours,Sleep_Quality,BMI,Heart_Rate,Stress_Level,Physical_Activity_Hours,Health_Issues,Occupation,Smoking,Alcohol_Consumption
0,1,40,Male,Germany,3.5,328.1,7.5,Good,24.9,78,Low,14.5,,Other,0,0
1,2,33,Male,Germany,1.0,94.1,6.2,Good,20.0,67,Low,11.0,,Service,0,0
2,3,42,Male,Brazil,5.3,503.7,5.9,Fair,22.7,59,Medium,11.2,Mild,Office,0,0
3,4,53,Male,Germany,2.6,249.2,7.3,Good,24.7,71,Low,6.6,Mild,Other,0,0
4,5,32,Female,Spain,3.1,298.0,5.3,Fair,24.1,76,Medium,8.5,Mild,Student,0,1


## Pembersihan data

### Subtask:
Melakukan penanganan nilai yang hilang, duplikat, dan outlier pada data.


**Reasoning**:
Langkah pertama dalam penanganan nilai yang hilang adalah mengidentifikasi kolom mana yang memiliki nilai yang hilang dan berapa banyak. Ini akan membantu menentukan metode penanganan yang paling sesuai.



In [None]:
display(df.describe())

In [None]:
numerical_cols = df.select_dtypes(include=['number']).columns
display(df[numerical_cols].head(10))

In [None]:
df.info()
print(f"\nJumlah baris: {df.shape[0]}")
print(f"Jumlah kolom: {df.shape[1]}")
print(f"Nama kolom: {list(df.columns)}")
print(f"Jumlah kolom numerik: {df.select_dtypes(include='number').shape[1]}")

In [None]:
object_cols = df.select_dtypes(include='object').columns

print("Jumlah nilai unik untuk setiap kolom objek:")
for col in object_cols:
    unique_count = df[col].nunique()
    print(f"- {col}: {unique_count}")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Set figure size for better readability
plt.figure(figsize=(15, 10))

# Plot count of Gender
plt.subplot(2, 3, 1)
sns.countplot(data=df, x='Gender')
plt.title('Count of Gender')

# Plot count of Sleep_Quality
plt.subplot(2, 3, 2)
sns.countplot(data=df, x='Sleep_Quality')
plt.title('Count of Sleep Quality')

# Plot count of Stress_Level
plt.subplot(2, 3, 3)
sns.countplot(data=df, x='Stress_Level')
plt.title('Count of Stress Level')

# Plot count of Health_Issues
plt.subplot(2, 3, 4)
sns.countplot(data=df, x='Health_Issues')
plt.title('Count of Health Issues')

# Plot count of Smoking
plt.subplot(2, 3, 5)
sns.countplot(data=df, x='Smoking')
plt.title('Count of Smoking')

# Plot count of Alcohol_Consumption
plt.subplot(2, 3, 6)
sns.countplot(data=df, x='Alcohol_Consumption')
plt.title('Count of Alcohol Consumption')

plt.tight_layout()
plt.show()

# Plot count of Country
plt.figure(figsize=(15, 7))
sns.countplot(data=df, x='Country')
plt.title('Count of Country')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

# Plot count of Occupation
plt.figure(figsize=(15, 7))
sns.countplot(data=df, x='Occupation')
plt.title('Count of Occupation')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

# Set figure size for histograms
plt.figure(figsize=(15, 10))

# Plot histogram of Age
plt.subplot(2, 3, 1)
sns.histplot(data=df, x='Age', kde=True)
plt.title('Distribution of Age')

# Plot histogram of Coffee_Intake
plt.subplot(2, 3, 2)
sns.histplot(data=df, x='Coffee_Intake', kde=True)
plt.title('Distribution of Coffee Intake')

# Plot histogram of Caffeine_mg
plt.subplot(2, 3, 3)
sns.histplot(data=df, x='Caffeine_mg', kde=True)
plt.title('Distribution of Caffeine mg')

# Plot histogram of Sleep_Hours
plt.subplot(2, 3, 4)
sns.histplot(data=df, x='Sleep_Hours', kde=True)
plt.title('Distribution of Sleep Hours')

# Plot histogram of BMI
plt.subplot(2, 3, 5)
sns.histplot(data=df, x='BMI', kde=True)
plt.title('Distribution of BMI')

# Plot histogram of Heart_Rate
plt.subplot(2, 3, 6)
sns.histplot(data=df, x='Heart_Rate', kde=True)
plt.title('Distribution of Heart Rate')

plt.tight_layout()
plt.show()

# Plot histogram of Physical_Activity_Hours
plt.figure(figsize=(8, 6))
sns.histplot(data=df, x='Physical_Activity_Hours', kde=True)
plt.title('Distribution of Physical Activity Hours')
plt.tight_layout()
plt.show()

In [None]:
numerical_df = df.select_dtypes(include=['number'])
correlation_matrix = numerical_df.corr()

plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Heatmap Korelasi Antar Kolom Numerik')
plt.show()

In [2]:
print("Jumlah nilai yang hilang per kolom:")
print(df.isnull().sum())

Jumlah nilai yang hilang per kolom:
ID                            0
Age                           0
Gender                        0
Country                       0
Coffee_Intake                 0
Caffeine_mg                   0
Sleep_Hours                   0
Sleep_Quality                 0
BMI                           0
Heart_Rate                    0
Stress_Level                  0
Physical_Activity_Hours       0
Health_Issues              5941
Occupation                    0
Smoking                       0
Alcohol_Consumption           0
dtype: int64


**Reasoning**:
Kolom 'Health_Issues' memiliki banyak nilai yang hilang. Karena ini adalah kolom kategorikal dan sebagian besar nilainya hilang, mengisi nilai yang hilang dengan modus (nilai yang paling sering muncul) adalah pendekatan yang wajar untuk mempertahankan distribusi data yang ada.



In [3]:
# Identifikasi modus pada kolom 'Health_Issues'
mode_health_issues = df['Health_Issues'].mode()[0]

# Mengisi nilai yang hilang dengan modus
df['Health_Issues'].fillna(mode_health_issues, inplace=True)

print("\nJumlah nilai yang hilang setelah penanganan:")
print(df.isnull().sum())


Jumlah nilai yang hilang setelah penanganan:
ID                         0
Age                        0
Gender                     0
Country                    0
Coffee_Intake              0
Caffeine_mg                0
Sleep_Hours                0
Sleep_Quality              0
BMI                        0
Heart_Rate                 0
Stress_Level               0
Physical_Activity_Hours    0
Health_Issues              0
Occupation                 0
Smoking                    0
Alcohol_Consumption        0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Health_Issues'].fillna(mode_health_issues, inplace=True)


**Reasoning**:
Setelah menangani nilai yang hilang, langkah selanjutnya adalah mengidentifikasi dan menangani data duplikat dalam DataFrame. Memeriksa duplikat akan membantu memastikan setiap entri data adalah unik.



In [4]:
# Identifikasi data duplikat
jumlah_duplikat = df.duplicated().sum()

print(f"\nJumlah baris duplikat sebelum penanganan: {jumlah_duplikat}")

# Menangani data duplikat (jika ada) dengan menghapusnya
if jumlah_duplikat > 0:
    df.drop_duplicates(inplace=True)
    print(f"Jumlah baris setelah menghapus duplikat: {len(df)}")
else:
    print("Tidak ada data duplikat yang ditemukan.")



Jumlah baris duplikat sebelum penanganan: 0
Tidak ada data duplikat yang ditemukan.


**Reasoning**:
Karena tidak ada nilai yang hilang dan tidak ada duplikat, langkah selanjutnya adalah mengidentifikasi dan menangani outlier pada kolom numerik yang relevan menggunakan metode IQR. Kolom seperti 'Age', 'Coffee_Intake', 'Caffeine_mg', 'Sleep_Hours', 'Sleep_Quality', 'BMI', 'Heart_Rate', 'Stress_Level', dan 'Physical_Activity_Hours' kemungkinan memiliki outlier yang perlu ditangani.



In [5]:
import numpy as np

# Identifikasi kolom numerik yang relevan
numerical_cols = ['Age', 'Coffee_Intake', 'Caffeine_mg', 'Sleep_Hours', 'Sleep_Quality', 'BMI', 'Heart_Rate', 'Stress_Level', 'Physical_Activity_Hours']

print("Jumlah outlier per kolom (menggunakan metode IQR sebelum penanganan):")

# Menangani outlier menggunakan metode IQR dan capping
for col in numerical_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    outliers_count = df[(df[col] < lower_bound) | (df[col] > upper_bound)].shape[0]
    print(f"- {col}: {outliers_count}")

    # Capping outlier
    df[col] = np.where(df[col] < lower_bound, lower_bound, df[col])
    df[col] = np.where(df[col] > upper_bound, upper_bound, df[col])

print("\nJumlah outlier per kolom (menggunakan metode IQR setelah penanganan):")
for col in numerical_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    outliers_count = df[(df[col] < lower_bound) | (df[col] > upper_bound)].shape[0]
    print(f"- {col}: {outliers_count}")

Jumlah outlier per kolom (menggunakan metode IQR sebelum penanganan):
- Age: 25
- Coffee_Intake: 39
- Caffeine_mg: 39
- Sleep_Hours: 26


TypeError: unsupported operand type(s) for -: 'str' and 'str'

**Pembaruan**: Kesalahan tipe data saat menangani outlier pada sel `2564ad0c` telah diperbaiki di sel kode selanjutnya (`rmhPK895N8Yk`) dengan memastikan operasi hanya diterapkan pada kolom numerik.

**Reasoning**:
Error traceback menunjukkan bahwa operasi kuantil tidak dapat dilakukan pada kolom string. Ini berarti kolom 'Sleep_Quality' atau 'Stress_Level' yang awalnya diasumsikan numerik ternyata mengandung nilai string. Perlu memeriksa tipe data kolom-kolom ini dan mengecualikan kolom non-numerik dari daftar `numerical_cols` sebelum mencoba menghitung kuantil.



In [6]:
# Periksa tipe data dari kolom yang awalnya diasumsikan numerik
print("\nTipe data kolom numerik yang relevan:")
print(df[numerical_cols].dtypes)

# Perbarui daftar kolom numerik untuk mengecualikan kolom non-numerik
numerical_cols = ['Age', 'Coffee_Intake', 'Caffeine_mg', 'Sleep_Hours', 'BMI', 'Heart_Rate', 'Physical_Activity_Hours']

print("\nJumlah outlier per kolom (menggunakan metode IQR sebelum penanganan):")

# Menangani outlier menggunakan metode IQR dan capping
for col in numerical_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    outliers_count = df[(df[col] < lower_bound) | (df[col] > upper_bound)].shape[0]
    print(f"- {col}: {outliers_count}")

    # Capping outlier
    df[col] = np.where(df[col] < lower_bound, lower_bound, df[col])
    df[col] = np.where(df[col] > upper_bound, upper_bound, df[col])

print("\nJumlah outlier per kolom (menggunakan metode IQR setelah penanganan):")
for col in numerical_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    outliers_count = df[(df[col] < lower_bound) | (df[col] > upper_bound)].shape[0]
    print(f"- {col}: {outliers_count}")


Tipe data kolom numerik yang relevan:
Age                        float64
Coffee_Intake              float64
Caffeine_mg                float64
Sleep_Hours                float64
Sleep_Quality               object
BMI                        float64
Heart_Rate                   int64
Stress_Level                object
Physical_Activity_Hours    float64
dtype: object

Jumlah outlier per kolom (menggunakan metode IQR sebelum penanganan):
- Age: 0
- Coffee_Intake: 0
- Caffeine_mg: 0
- Sleep_Hours: 0
- BMI: 40
- Heart_Rate: 50
- Physical_Activity_Hours: 0

Jumlah outlier per kolom (menggunakan metode IQR setelah penanganan):
- Age: 0
- Coffee_Intake: 0
- Caffeine_mg: 0
- Sleep_Hours: 0
- BMI: 0
- Heart_Rate: 0
- Physical_Activity_Hours: 0


## Normalisasi/standarisasi

### Subtask:
Menerapkan normalisasi atau standarisasi pada kolom numerik.


**Reasoning**:
Identifikasi kolom numerik dan terapkan StandardScaler untuk normalisasi.



In [7]:
from sklearn.preprocessing import StandardScaler
import numpy as np

# Identifikasi kolom numerik yang relevan (tidak termasuk 'ID' dan kolom kategorikal)
# Periksa kembali tipe data untuk memastikan
print("Tipe data kolom:")
print(df.dtypes)

numerical_cols_for_scaling = df.select_dtypes(include=np.number).columns.tolist()
# Kecualikan kolom 'ID' jika masih ada dan bukan fitur
if 'ID' in numerical_cols_for_scaling:
    numerical_cols_for_scaling.remove('ID')

print("\nKolom numerik yang akan distandarisasi:")
print(numerical_cols_for_scaling)

# Inisialisasi StandardScaler
scaler = StandardScaler()

# Terapkan standarisasi pada kolom numerik
df[numerical_cols_for_scaling] = scaler.fit_transform(df[numerical_cols_for_scaling])

# Tampilkan beberapa baris pertama untuk memverifikasi
display(df.head())

Tipe data kolom:
ID                           int64
Age                        float64
Gender                      object
Country                     object
Coffee_Intake              float64
Caffeine_mg                float64
Sleep_Hours                float64
Sleep_Quality               object
BMI                        float64
Heart_Rate                 float64
Stress_Level                object
Physical_Activity_Hours    float64
Health_Issues               object
Occupation                  object
Smoking                      int64
Alcohol_Consumption          int64
dtype: object

Kolom numerik yang akan distandarisasi:
['Age', 'Coffee_Intake', 'Caffeine_mg', 'Sleep_Hours', 'BMI', 'Heart_Rate', 'Physical_Activity_Hours', 'Smoking', 'Alcohol_Consumption']


Unnamed: 0,ID,Age,Gender,Country,Coffee_Intake,Caffeine_mg,Sleep_Hours,Sleep_Quality,BMI,Heart_Rate,Stress_Level,Physical_Activity_Hours,Health_Issues,Occupation,Smoking,Alcohol_Consumption
0,1,0.454572,Male,Germany,0.687683,0.655129,0.707255,Good,0.236009,0.756116,Low,1.625265,Mild,Other,-0.500625,-0.655745
1,2,-0.174301,Male,Germany,-1.043888,-1.050655,-0.357752,Good,-1.023349,-0.368433,Low,0.814134,Mild,Service,-0.500625,-0.655745
2,3,0.634249,Male,Brazil,1.934414,1.935197,-0.603523,Fair,-0.329417,-1.186286,Medium,0.860485,Mild,Office,-0.500625,-0.655745
3,4,1.622478,Male,Germany,0.064317,0.079974,0.543408,Good,0.184606,0.040494,Low,-0.205573,Mild,Other,-0.500625,-0.655745
4,5,-0.26414,Female,Spain,0.410632,0.43571,-1.095065,Fair,0.030399,0.551652,Medium,0.234755,Mild,Student,-0.500625,1.524983


## Encoding

### Subtask:
Melakukan encoding pada kolom kategorikal.


**Reasoning**:
Identifikasi kolom kategorikal, terapkan one-hot encoding, gabungkan dengan DataFrame asli, hapus kolom asli, dan tampilkan hasilnya.



In [8]:
# Identifikasi kolom kategorikal (tipe data 'object')
categorical_cols = df.select_dtypes(include='object').columns.tolist()

print("Kolom kategorikal yang akan di-encoding:")
print(categorical_cols)

# Terapkan one-hot encoding
df_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

# Tampilkan beberapa baris pertama dari DataFrame yang sudah di-encoding
display(df_encoded.head())

# Perbarui df dengan df_encoded untuk langkah selanjutnya
df = df_encoded

Kolom kategorikal yang akan di-encoding:
['Gender', 'Country', 'Sleep_Quality', 'Stress_Level', 'Health_Issues', 'Occupation']


Unnamed: 0,ID,Age,Coffee_Intake,Caffeine_mg,Sleep_Hours,BMI,Heart_Rate,Physical_Activity_Hours,Smoking,Alcohol_Consumption,...,Sleep_Quality_Good,Sleep_Quality_Poor,Stress_Level_Low,Stress_Level_Medium,Health_Issues_Moderate,Health_Issues_Severe,Occupation_Office,Occupation_Other,Occupation_Service,Occupation_Student
0,1,0.454572,0.687683,0.655129,0.707255,0.236009,0.756116,1.625265,-0.500625,-0.655745,...,True,False,True,False,False,False,False,True,False,False
1,2,-0.174301,-1.043888,-1.050655,-0.357752,-1.023349,-0.368433,0.814134,-0.500625,-0.655745,...,True,False,True,False,False,False,False,False,True,False
2,3,0.634249,1.934414,1.935197,-0.603523,-0.329417,-1.186286,0.860485,-0.500625,-0.655745,...,False,False,False,True,False,False,True,False,False,False
3,4,1.622478,0.064317,0.079974,0.543408,0.184606,0.040494,-0.205573,-0.500625,-0.655745,...,True,False,True,False,False,False,False,True,False,False
4,5,-0.26414,0.410632,0.43571,-1.095065,0.030399,0.551652,0.234755,-0.500625,1.524983,...,False,False,False,True,False,False,False,False,False,True


## Feature engineering

### Subtask:
Membuat minimal satu fitur baru dari data yang ada.


**Reasoning**:
Membuat fitur baru `Coffee_Per_Sleep_Hour` dengan membagi kolom `Coffee_Intake` dengan `Sleep_Hours`, menangani potensi pembagian dengan nol, dan kemudian menampilkan beberapa baris pertama DataFrame untuk verifikasi.



In [9]:
# Buat fitur baru 'Coffee_Per_Sleep_Hour'
# Tangani pembagian dengan nol: jika Sleep_Hours adalah 0 atau mendekati nol, tetapkan nilai tertentu (misalnya, 0 atau NaN, atau nilai besar)
# Mengingat Sleep_Hours telah distandarisasi, nilai 0 asli mungkin menjadi nilai yang sangat kecil mendekati rata-rata yang distandarisasi.
# Namun, untuk amannya, kita akan menangani nilai yang sangat kecil setelah standarisasi sebagai pembagi nol.
# Kita bisa mengganti nilai Sleep_Hours yang mendekati nol dengan nilai yang sangat kecil untuk menghindari inf, atau mengganti hasilnya dengan NaN.
# Mari kita ganti hasil pembagian dengan NaN jika Sleep_Hours sangat mendekati nol.
# Threshold 1e-9 dipilih secara arbitrari, bisa disesuaikan jika perlu.
threshold = 1e-9
df['Coffee_Per_Sleep_Hour'] = df['Coffee_Intake'] / np.where(np.abs(df['Sleep_Hours']) < threshold, np.nan, df['Sleep_Hours'])

# Tampilkan lima baris pertama dari DataFrame df untuk memverifikasi penambahan fitur baru
display(df.head())

Unnamed: 0,ID,Age,Coffee_Intake,Caffeine_mg,Sleep_Hours,BMI,Heart_Rate,Physical_Activity_Hours,Smoking,Alcohol_Consumption,...,Sleep_Quality_Poor,Stress_Level_Low,Stress_Level_Medium,Health_Issues_Moderate,Health_Issues_Severe,Occupation_Office,Occupation_Other,Occupation_Service,Occupation_Student,Coffee_Per_Sleep_Hour
0,1,0.454572,0.687683,0.655129,0.707255,0.236009,0.756116,1.625265,-0.500625,-0.655745,...,False,True,False,False,False,False,True,False,False,0.972327
1,2,-0.174301,-1.043888,-1.050655,-0.357752,-1.023349,-0.368433,0.814134,-0.500625,-0.655745,...,False,True,False,False,False,False,False,True,False,2.917907
2,3,0.634249,1.934414,1.935197,-0.603523,-0.329417,-1.186286,0.860485,-0.500625,-0.655745,...,False,False,True,False,False,True,False,False,False,-3.205202
3,4,1.622478,0.064317,0.079974,0.543408,0.184606,0.040494,-0.205573,-0.500625,-0.655745,...,False,True,False,False,False,False,True,False,False,0.11836
4,5,-0.26414,0.410632,0.43571,-1.095065,0.030399,0.551652,0.234755,-0.500625,1.524983,...,False,False,True,False,False,False,False,False,True,-0.374984


## Pembagian data

### Subtask:
Membagi data menjadi set pelatihan dan pengujian.


**Reasoning**:
Impor fungsi train_test_split dan bagi data menjadi fitur (X) dan target (y), lalu bagi X dan y menjadi set pelatihan dan pengujian. Terakhir, tampilkan bentuk dari set yang dibagi.



In [17]:
from sklearn.model_selection import train_test_split

# Definisikan fitur (X) dan target (y)
# Kolom target adalah 'Health_Issues_True'
# Hapus kolom 'ID' jika masih ada dan tidak relevan
if 'ID' in df.columns:
    X = df.drop(['ID', 'Health_Issues_Moderate', 'Health_Issues_Severe'], axis=1)
else:
    X = df.drop(['Health_Issues_Moderate', 'Health_Issues_Severe'], axis=1)

y = df['Health_Issues_Moderate']

# Bagi data menjadi set pelatihan dan pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.05, random_state=42)

# Tampilkan bentuk (shape) dari set pelatihan dan pengujian
print("Bentuk X_train:", X_train.shape)
print("Bentuk X_test:", X_test.shape)
print("Bentuk y_train:", y_train.shape)
print("Bentuk y_test:", y_test.shape)

Bentuk X_train: (9500, 40)
Bentuk X_test: (500, 40)
Bentuk y_train: (9500,)
Bentuk y_test: (500,)


**Reasoning**:
Kolom target 'Health_Issues_True' tidak ditemukan di DataFrame. Periksa kembali kolom di DataFrame setelah encoding dan perbaiki nama kolom target jika diperlukan.



In [11]:
print(df.columns)

Index(['ID', 'Age', 'Coffee_Intake', 'Caffeine_mg', 'Sleep_Hours', 'BMI',
       'Heart_Rate', 'Physical_Activity_Hours', 'Smoking',
       'Alcohol_Consumption', 'Gender_Male', 'Gender_Other', 'Country_Belgium',
       'Country_Brazil', 'Country_Canada', 'Country_China', 'Country_Finland',
       'Country_France', 'Country_Germany', 'Country_India', 'Country_Italy',
       'Country_Japan', 'Country_Mexico', 'Country_Netherlands',
       'Country_Norway', 'Country_South Korea', 'Country_Spain',
       'Country_Sweden', 'Country_Switzerland', 'Country_UK', 'Country_USA',
       'Sleep_Quality_Fair', 'Sleep_Quality_Good', 'Sleep_Quality_Poor',
       'Stress_Level_Low', 'Stress_Level_Medium', 'Health_Issues_Moderate',
       'Health_Issues_Severe', 'Occupation_Office', 'Occupation_Other',
       'Occupation_Service', 'Occupation_Student', 'Coffee_Per_Sleep_Hour'],
      dtype='object')


**Reasoning**:
Berdasarkan output kolom, kolom target adalah 'Health_Issues_Moderate' dan 'Health_Issues_Severe'. Karena 'Health_Issues' adalah variabel kategorikal yang di-encode, kita perlu memutuskan representasi target kita. Asumsi target adalah apakah ada masalah kesehatan ('Health_Issues_Moderate' atau 'Health_Issues_Severe' adalah True) vs tidak ada (keduanya False, atau kategori yang dihilangkan saat drop_first=True). Untuk menyederhanakan, kita bisa menggunakan 'Health_Issues_Moderate' atau 'Health_Issues_Severe' sebagai target, atau menggabungkannya. Mari kita gunakan 'Health_Issues_Moderate' sebagai target untuk saat ini. Kemudian, bagi data menjadi fitur (X) dan target (y), lalu bagi X dan y menjadi set pelatihan dan pengujian. Terakhir, tampilkan bentuk dari set yang dibagi.



In [12]:
from sklearn.model_selection import train_test_split

# Definisikan fitur (X) dan target (y)
# Kolom target adalah 'Health_Issues_Moderate'
# Hapus kolom 'ID' jika masih ada dan tidak relevan
if 'ID' in df.columns:
    X = df.drop(['ID', 'Health_Issues_Moderate'], axis=1)
else:
    X = df.drop('Health_Issues_Moderate', axis=1)

y = df['Health_Issues_Moderate']

# Bagi data menjadi set pelatihan dan pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.05, random_state=42)

# Tampilkan bentuk (shape) dari set pelatihan dan pengujian
print("Bentuk X_train:", X_train.shape)
print("Bentuk X_test:", X_test.shape)
print("Bentuk y_train:", y_train.shape)
print("Bentuk y_test:", y_test.shape)

Bentuk X_train: (9500, 41)
Bentuk X_test: (500, 41)
Bentuk y_train: (9500,)
Bentuk y_test: (500,)
