In [24]:
# Langkah 1: Mengimpor library yang dibutuhkan
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Langkah 2: Membaca dataset dari file CSV
dataset = pd.read_csv('500_Person_Gender_Height_Weight_Index.csv')

# Langkah 3: Memisahkan fitur (X) dan label (y)
# Fitur (X) mencakup semua kolom kecuali kolom terakhir
# Label (y) adalah kolom terakhir ('Index')
x = dataset.iloc[:, :-1].values  # Fitur
y = dataset.iloc[:, -1].values   # Label

print("\nFitur (X) adalah semua kolom kecuali kolom terakhir:\n", x[:5])
print("\nLabel (y) adalah kolom terakhir ('Index'):\n", y[:5])

# Langkah 4: Mengisi missing values (NaN) pada kolom tinggi dan berat badan dengan mean
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
x[:, 1:3] = imputer.fit_transform(x[:, 1:3])  # Mengisi kolom tinggi dan berat dengan mean

# Langkah 5: Encoding data kategori pada kolom 'Gender'
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
x[:, 0] = label_encoder.fit_transform(x[:, 0])  # Encoding Gender menjadi 0 dan 1

# Langkah 6: Mengubah nilai y menjadi kategori obesitas yang diinginkan
y = np.where(y == 0, 'Extremely Weak',
    np.where(y == 1, 'Weak',
    np.where(y == 2, 'Normal',
    np.where(y == 3, 'Overweight',
    np.where(y == 4, 'Obesity',
    np.where(y == 5, 'Extreme Obesity', 'Unknown'))))))

# Langkah 7: Encoding data kategori (Class / Label) dengan LabelEncoder
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)  # Encode label kategori menjadi angka

# Menampilkan label yang telah di-encode
print("\nLabel setelah encoding:\n", y)

# Langkah 8: Membagi dataset menjadi training set dan test set
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)

# Menampilkan dataset training dan testing
print("\nTraining set (X):\n", x_train[:5])  # Menampilkan 5 data pertama dari x_train
print("\nTesting set (X):\n", x_test[:5])    # Menampilkan 5 data pertama dari x_test
print("\nTraining labels (y):\n", y_train[:5])  # Menampilkan 5 label pertama dari y_train
print("\nTesting labels (y):\n", y_test[:5])    # Menampilkan 5 label pertama dari y_test

# Langkah 9: Feature Scaling (gunakan StandardScaler)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
x_train[:, 1:3] = sc.fit_transform(x_train[:, 1:3])  # Melakukan scaling pada kolom tinggi dan berat
x_test[:, 1:3] = sc.transform(x_test[:, 1:3])        # Melakukan scaling pada kolom tinggi dan berat

# Menampilkan beberapa data hasil preprocessing
print("\nFitur (X) setelah preprocessing (training set):\n", x_train[:5])  # Menampilkan 5 data pertama dari x_train
print("\nFitur (X) setelah preprocessing (testing set):\n", x_test[:5])    # Menampilkan 5 data pertama dari x_test



Fitur (X) adalah semua kolom kecuali kolom terakhir:
 [['Male' 174.0 nan]
 ['Male' 189.0 87.0]
 ['Female' 185.0 110.0]
 ['Female' nan 104.0]
 ['Male' 149.0 61.0]]

Label (y) adalah kolom terakhir ('Index'):
 [4 2 4 3 3]

Label setelah encoding:
 [2 1 2 3 3 3 0 0 3 2 1 2 3 1 1 0 0 0 0 0 0 0 2 0 1 3 3 4 0 0 0 4 4 0 0 2 3
 2 0 1 2 0 1 0 2 1 2 2 3 0]

Training set (X):
 [[0 195.0 105.1304347826087]
 [0 185.0 81.0]
 [0 153.0 149.0]
 [0 197.0 114.0]
 [1 169.43478260869566 139.0]]

Testing set (X):
 [[1 187.0 62.0]
 [0 189.0 132.0]
 [0 175.0 120.0]
 [0 171.0 152.0]
 [0 185.0 110.0]]

Training labels (y):
 [4 1 0 3 0]

Testing labels (y):
 [4 2 2 0 2]

Fitur (X) setelah preprocessing (training set):
 [[0 1.6307246442000132 0.02477837358845472]
 [0 1.043444180462437 -0.8711172186976679]
 [0 -0.8358533034978068 1.653532702627549]
 [0 1.7481807369475284 0.3540805372395697]
 [1 0.12932937168829683 1.2822606553738407]]

Fitur (X) setelah preprocessing (testing set):
 [[1 1.1609002732099523 -1.5765