1. Import Modul
Menyiapkan modul-modul yang diperlukan untuk pemrosesan data, pemodelan, evaluasi, dan visualisasi.

In [6]:
!pip install sklearn

Collecting sklearn
  Downloading sklearn-0.0.post12.tar.gz (2.6 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'error'


  error: subprocess-exited-with-error
  
  python setup.py egg_info did not run successfully.
  exit code: 1
  
  [15 lines of output]
  The 'sklearn' PyPI package is deprecated, use 'scikit-learn'
  rather than 'sklearn' for pip commands.
  
  Here is how to fix this error in the main use cases:
  - use 'pip install scikit-learn' rather than 'pip install sklearn'
  - replace 'sklearn' by 'scikit-learn' in your pip requirements files
    (requirements.txt, setup.py, setup.cfg, Pipfile, etc ...)
  - if the 'sklearn' package is used by one of your dependencies,
    it would be great if you take some time to track which package uses
    'sklearn' instead of 'scikit-learn' and report it to their issue tracker
  - as a last resort, set the environment variable
    SKLEARN_ALLOW_DEPRECATED_SKLEARN_PACKAGE_INSTALL=True to avoid this error
  
  More information is available at
  https://github.com/scikit-learn/sklearn-pypi-package
  [end of output]
  
  note: This error originates from a subpr

In [7]:
# Untuk ekstraksi file
import zipfile
import os

# Untuk manipulasi data
import pandas as pd
from scipy.stats import zscore

# Untuk pemodelan dan evaluasi KNN
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

# Untuk visualisasi
import matplotlib.pyplot as plt
import seaborn as sns

ModuleNotFoundError: No module named 'sklearn'

2. Data Understanding
Memuat dan menampilkan data awal dari file yang diekstrak untuk memastikan data dimuat dengan benar.

In [None]:
# Tentukan path file .zip dan folder ekstraksi
zip_file_path = 'archive.zip'
extract_folder = '/content/'

# Ekstrak file ZIP
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    zip_ref.extractall(extract_folder)

# Cek isi folder
os.listdir(extract_folder)

# Load dataset
data_file_path = '/content/nutrients/data.csv'
df_food = pd.read_csv(data_file_path)

gym_data_path = '/content/dataset/gym_members_exercise_tracking.csv'
df_user = pd.read_csv(gym_data_path)

# Lihat sebagian isi dataset
df_food.head(), df_user.head()

3. Data Preparation
Menyiapkan data untuk pemodelan dengan memilih fitur yang relevan, melakukan encoding, dan menangani nilai hilang.

In [None]:
# Memilih fitur yang relevan dari dataset pengguna
df_user = df_user[['Age', 'Gender', 'Weight (kg)', 'Height (m)', 'Workout_Frequency (days/week)', 'Experience_Level', 'BMI']]

# Encode gender menjadi angka (0 = Female, 1 = Male)
df_user.loc[:, 'Gender'] = df_user['Gender'].apply(lambda x: 1 if x == 'Male' else 0)

# Kategorikan BMI menjadi kategori berat badan
def classify_bmi(bmi):
    if bmi < 18.5:
        return 'Underweight'
    elif 18.5 <= bmi < 24.9:
        return 'Normal weight'
    elif 25 <= bmi < 29.9:
        return 'Overweight'
    else:
        return 'Obesity'

df_user['BMI_Category'] = df_user['BMI'].apply(classify_bmi)

4. Data Cleaning
Menangani missing values, outliers, dan memverifikasi dataset yang bersih.

In [None]:
# Pisahkan kolom numerik dan kategorikal
numerical_cols = df_user.select_dtypes(include=['float64', 'int64']).columns
categorical_cols = df_user.select_dtypes(include=['object']).columns

# Imputasi missing values untuk kolom numerik dengan rata-rata
df_user[numerical_cols] = df_user[numerical_cols].fillna(df_user[numerical_cols].mean())

# Imputasi missing values untuk kolom kategorikal dengan mode (nilai terbanyak)
df_user[categorical_cols] = df_user[categorical_cols].fillna(df_user[categorical_cols].mode().iloc[0])

# Verifikasi apakah masih ada nilai yang hilang
print(df_user.isnull().sum())

# Menangani outlier dengan Z-score
z_scores = zscore(df_user[['Age', 'Weight (kg)', 'Height (m)', 'Workout_Frequency (days/week)', 'Experience_Level']])
df_user_clean = df_user[(z_scores < 3).all(axis=1)]  # Menghapus data dengan Z-score lebih dari 3
# Verifikasi apakah masih ada nilai yang hilang
print(f"Jumlah data setelah menghapus outlier: {df_user_clean.shape[0]}")

5. Feature Engineering
Memisahkan fitur dan target, serta melakukan normalisasi data untuk pemodelan.

In [None]:
# Pisahkan fitur dan target
X = df_user_clean[['Age', 'Gender', 'Weight (kg)', 'Height (m)', 'Workout_Frequency (days/week)', 'Experience_Level']]
y = df_user_clean['BMI_Category']

# Bagi data menjadi data pelatihan dan pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalisasi data
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

6. Modelling
Latih model KNN dengan berbagai nilai K dan metrik jarak, serta evaluasi hasilnya.

In [None]:
# List of different distance metrics
metrics = ['euclidean', 'manhattan', 'chebyshev', 'minkowski']

# Placeholder for accuracies
accuracies = {metric: [] for metric in metrics}

# Tentukan rentang nilai K
k_values = range(1, 36)

# Evaluasi model dengan berbagai metric
for metric in metrics:
    for k in k_values:
        knn = KNeighborsClassifier(n_neighbors=k, metric=metric)
        knn.fit(X_train_scaled, y_train)
        y_pred = knn.predict(X_test_scaled)
        accuracies[metric].append(accuracy_score(y_test, y_pred))

# Plotting hasil perbandingan
plt.figure(figsize=(10, 6))
for metric in metrics:
    plt.plot(k_values, accuracies[metric], label=f'{metric} distance')

plt.xlabel('Jumlah K')
plt.ylabel('Akurasi')
plt.title('Perbandingan Akurasi Berdasarkan Metrik Jarak dan Nilai K')
plt.legend()
plt.show()

7. Model Evaluation (50 User Data)
Evaluasi model dengan 50 data pengguna buatan dan nilai K yang berbeda.

In [None]:
# 50 data pengguna buatan
user_inputs = pd.DataFrame({
    'Age': [30, 25, 40, 35, 28] * 10,
    'Gender': [0, 1, 0, 1, 0] * 10,
    'Weight (kg)': [45, 55, 65, 70, 60] * 10,
    'Height (m)': [1.65, 1.75, 1.80, 1.68, 1.72] * 10,
    'Workout_Frequency (days/week)': [3, 4, 5, 2, 3] * 10,
    'Experience_Level': [2, 3, 1, 2, 4] * 10
})

# Normalisasi data pengguna
user_inputs_scaled = scaler.transform(user_inputs)

# Evaluasi model untuk setiap nilai K dengan 50 data pengguna
accuracies_user = []

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train_scaled, y_train)
    y_pred = knn.predict(user_inputs_scaled)  # Mengklasifikasikan 50 data pengguna

    # Sesuaikan dengan kategori BMI yang benar dari data pengguna jika ada
    y_true = df_user_clean.loc[user_inputs.index, 'BMI_Category']  # Ambil kategori BMI asli dari data pengguna
    accuracies_user.append(accuracy_score(y_true, y_pred))  # Evaluasi akurasi berdasarkan data pengguna

# Plotting akurasi vs nilai K
plt.plot(k_values, accuracies_user)
plt.xlabel('Jumlah K')
plt.ylabel('Akurasi')
plt.title('Akurasi Model KNN vs Nilai K pada 50 Data Pengguna')
plt.show()

8. Cross-Validation and Hyperparameter Tuning
Melakukan grid search untuk mencari kombinasi parameter terbaik untuk model KNN.

In [None]:
from sklearn.model_selection import GridSearchCV

# Menyiapkan parameter yang ingin dicoba
param_grid = {
    'n_neighbors': range(1, 21),  # mencoba berbagai nilai K
    'metric': ['euclidean', 'manhattan', 'minkowski', 'chebyshev']  # mencoba berbagai metrik
}

# Melakukan Grid Search dengan 5-fold cross-validation
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train_scaled, y_train)

# Menampilkan hasil terbaik
print(f"Best parameters: {grid_search.best_params_}")
print(f"Best score: {grid_search.best_score_}")

9. Model Comparison
Membandingkan performa beberapa model (KNN, Decision Tree, Random Forest) untuk melihat model terbaik.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

# Membuat dan melatih berbagai model untuk evaluasi
models = {
    'KNN': KNeighborsClassifier(n_neighbors=5),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier()
}

# Evaluasi setiap model
for name, model in models.items():
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)
    print(f"Model {name}:")
    print(f"Accuracy: {accuracy_score(y_test, y_pred) * 100:.2f}%")
    print(classification_report(y_test, y_pred))

10. Feature Selection
Menggunakan teknik RFE dan SelectFromModel untuk memilih fitur yang paling penting.

In [None]:
from sklearn.feature_selection import RFE

# Menggunakan RFE untuk memilih fitur terbaik
selector = RFE(KNeighborsClassifier(n_neighbors=5), n_features_to_select=3)
selector.fit(X_train_scaled, y_train)

# Menampilkan fitur yang dipilih
selected_features = X.columns[selector.support_]
print(f"Selected Features: {selected_features}")

11. Food Recommendation Function
Fungsi untuk memberikan rekomendasi makanan berdasarkan kategori BMI.

In [None]:
def food_recommendation(bmi_category):
    if bmi_category == 'Underweight':
        return df_food[(df_food['kcal'] > 250) & (df_food['protein'] > 15)]  # Menu dengan lebih banyak kalori dan protein
    elif bmi_category == 'Normal weight':
        return df_food[(df_food['kcal'] <= 250) & (df_food['protein'] >= 10)]  # Menu yang seimbang
    elif bmi_category == 'Overweight':
        return df_food[(df_food['kcal'] < 200) & (df_food['fibre'] > 5) & (df_food['fat'] < 10)]  # Menu rendah kalori, lebih banyak serat, rendah lemak
    elif bmi_category == 'Obesity':
        return df_food[(df_food['kcal'] < 200) & (df_food['fibre'] > 7) & (df_food['fat'] < 8)]  # Menu rendah kalori dan tinggi serat


12. Recommending Food for User
Fungsi untuk mendapatkan rekomendasi makanan untuk pengguna berdasarkan data yang dimasukkan.

In [None]:
def recommend_food_for_user(user_data):
    # Pastikan user_input memiliki dimensi 2D (1 data point)
    user_scaled = scaler.transform(user_data[['Age', 'Gender', 'Weight (kg)', 'Height (m)', 'Workout_Frequency (days/week)', 'Experience_Level']].values.reshape(1, -1))

    # Prediksi kategori BMI berdasarkan data pengguna
    predicted_bmi_category = knn.predict(user_scaled)[0]

    # Dapatkan rekomendasi makanan berdasarkan kategori BMI yang diprediksi
    recommended_food = food_recommendation(predicted_bmi_category)

    # Tampilkan hasil rekomendasi makanan
    return predicted_bmi_category, recommended_food

# Contoh penggunaan: rekomendasi untuk pengguna dengan data berikut
user_input = pd.DataFrame({
    'Age': [30],
    'Gender': [0],  # Female
    'Weight (kg)': [45],
    'Height (m)': [1.65],
    'Workout_Frequency (days/week)': [3],
    'Experience_Level': [2]
})

# Rekomendasi makanan untuk pengguna
predicted_bmi, recommended_food = recommend_food_for_user(user_input)
predicted_bmi, recommended_food.head()  # Menampilkan 5 rekomendasi pertama