## **Data Exploration**

Dataset ini berisi informasi nutrisi untuk berbagai item makanan dari sebuah restoran cepat saji. Berikut adalah penjelasan untuk setiap kolom yang relevan:

1.  **Name**: Nama dari item makanan atau minuman.
2.  **Serving Size**: Ukuran porsi dari item makanan.
3.  **Calories**: Jumlah total energi yang terkandung dalam makanan, diukur dalam kilokalori.
4.  **Calories from Fat**: Jumlah energi yang spesifik berasal dari lemak.
5.  **Fat (g)**: Total kandungan lemak dalam satuan gram.
6.  **Saturated Fat (g)**: Jumlah lemak jenuh, yaitu jenis lemak yang dapat meningkatkan kadar kolesterol.
7.  **Trans Fat (g)**: Jumlah lemak trans, jenis lemak yang sangat tidak sehat.
8.  **Cholesterol (mg)**: Kandungan kolesterol dalam satuan miligram.
9.  **Sodium (mg)**: Kandungan sodium (garam) dalam satuan miligram.
10. **Carbs (g)**: Total kandungan karbohidrat dalam satuan gram.
11. **Fiber (g)**: Jumlah serat pangan, bagian dari karbohidrat yang tidak dapat dicerna.
12. **Sugars (g)**: Jumlah gula yang terkandung dalam makanan.
13. **Protein (g)**: Jumlah protein dalam satuan gram.
14. **Category**: Kategori dari item makanan (contoh: Breakfast, Burgers, Salads, dll.) yang akan menjadi target prediksi kita.

In [12]:
# Import semua library yang dibutuhkan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pickle

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Mengatur gaya visualisasi
sns.set_theme(style="whitegrid")

In [3]:
# Memuat dataset
df = pd.read_csv('nutrition.csv')
df.head()

Unnamed: 0,id,calories,proteins,fat,carbohydrate,name,image
0,1,280.0,9.2,28.4,0.0,Abon,https://img-cdn.medkomtek.com/PbrY9X3ignQ8sVuj...
1,2,513.0,23.7,37.0,21.3,Abon haruwan,https://img-global.cpcdn.com/recipes/cbf330fbd...
2,3,0.0,0.0,0.2,0.0,Agar-agar,https://res.cloudinary.com/dk0z4ums3/image/upl...
3,4,45.0,1.1,0.4,10.8,Akar tonjong segar,https://images.tokopedia.net/img/cache/200-squ...
4,5,37.0,4.4,0.5,3.8,Aletoge segar,https://nilaigizi.com/assets/images/produk/pro...


### **Informasi Dasar dan Pembersihan Data**

Pada tahap ini, kita akan memeriksa tipe data, nilai yang hilang (missing values), dan data duplikat untuk memastikan kualitas data sebelum masuk ke pemodelan.

In [4]:
# Informasi Data
print("Informasi Tipe Data dan Nilai Non-Null:")
df.info()

print("\nJumlah Nilai Null per Kolom:")
print(df.isnull().sum())

df.dropna(inplace=True)
print(f"\nJumlah Data Duplikat: {df.duplicated().sum()}")
df.drop_duplicates(inplace=True)
print("\nData setelah dibersihkan dari nilai null dan duplikat.")

Informasi Tipe Data dan Nilai Non-Null:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1346 entries, 0 to 1345
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            1346 non-null   int64  
 1   calories      1346 non-null   float64
 2   proteins      1346 non-null   float64
 3   fat           1346 non-null   float64
 4   carbohydrate  1346 non-null   float64
 5   name          1346 non-null   object 
 6   image         1346 non-null   object 
dtypes: float64(4), int64(1), object(2)
memory usage: 73.7+ KB

Jumlah Nilai Null per Kolom:
id              0
calories        0
proteins        0
fat             0
carbohydrate    0
name            0
image           0
dtype: int64

Jumlah Data Duplikat: 0

Data setelah dibersihkan dari nilai null dan duplikat.


In [5]:
df.describe()

Unnamed: 0,id,calories,proteins,fat,carbohydrate
count,1346.0,1346.0,1346.0,1346.0,1346.0
mean,673.5,203.217385,10.001189,7.584027,25.390193
std,388.701042,163.07543,11.84798,13.733063,32.193054
min,1.0,0.0,0.0,0.0,0.0
25%,337.25,75.0,1.8,0.5,4.525
50%,673.5,146.0,5.0,2.0,13.3
75%,1009.75,333.75,15.0,8.275,37.575
max,1346.0,940.0,83.0,100.0,647.0


## **Pemodelan Klasifikasi (Naive Bayes)**

Tujuan dari pemodelan ini adalah untuk membangun sebuah model machine learning yang dapat memprediksi `Category` sebuah makanan berdasarkan kandungan nutrisinya. Kita akan menggunakan algoritma **Gaussian Naive Bayes**.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Load dataset
df = pd.read_csv('nutrition.csv')

# Tambahkan kolom kategori (contoh: Tinggi Kalori jika > 200)
df['Category'] = df['calories'].apply(lambda x: 'Tinggi Kalori' if x > 200 else 'Rendah Kalori')

# Fitur dan Target
features = ['calories', 'proteins', 'fat', 'carbohydrate']
target = 'Category'

# Pisahkan data
X = df[features]
y = df[target]

# Normalisasi data
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Split data
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

# Model klasifikasi
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Evaluasi model
y_pred = model.predict(X_test)
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred))


Confusion Matrix:
[[254   0]
 [  0 150]]

Classification Report:
               precision    recall  f1-score   support

Rendah Kalori       1.00      1.00      1.00       254
Tinggi Kalori       1.00      1.00      1.00       150

     accuracy                           1.00       404
    macro avg       1.00      1.00      1.00       404
 weighted avg       1.00      1.00      1.00       404



In [2]:
model = GaussianNB()
model.fit(X_train_scaled, y_train)
print("Model berhasil dilatih!")

NameError: name 'GaussianNB' is not defined

### **Evaluasi Model**

Setelah model dilatih, kita perlu mengukur seberapa baik performanya pada data yang belum pernah dilihat sebelumnya (data uji).

In [3]:
y_pred = model.predict(X_test_scaled)

accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi Model: {accuracy * 100:.2f}%")

print("\nLaporan Klasifikasi:")
print(classification_report(y_test, y_pred, target_names=le.classes_, zero_division=0))

NameError: name 'X_test_scaled' is not defined

In [15]:
cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=le.classes_, yticklabels=le.classes_)
plt.title('Confusion Matrix')
plt.ylabel('Label Sebenarnya')
plt.xlabel('Label Prediksi')
plt.show()

NameError: name 'y_test' is not defined

## **Deployment dengan Streamlit**

Pada tahap ini, kita akan menyimpan model, scaler, dan encoder yang telah kita buat agar bisa digunakan dalam sebuah aplikasi web sederhana.

In [4]:
pickle.dump(model, open('model_nutrisi.pkl', 'wb'))
pickle.dump(scaler, open('scaler_nutrisi.pkl', 'wb'))
pickle.dump(le, open('encoder_nutrisi.pkl', 'wb'))
print("Model, scaler, dan encoder berhasil disimpan dalam file .pkl")

NameError: name 'pickle' is not defined

### **Membuat File Aplikasi Streamlit (`app.py`)**

Sel kode di bawah ini akan menulis sebuah file bernama `app.py`. File ini berisi kode untuk antarmuka pengguna (UI) dari aplikasi web kita.

In [5]:
%%writefile app.py

import streamlit as st
import pickle
import numpy as np
import pandas as pd

try:
    with open('model_nutrisi.pkl', 'rb') as f_model:
        model = pickle.load(f_model)
    with open('scaler_nutrisi.pkl', 'rb') as f_scaler:
        scaler = pickle.load(f_scaler)
    with open('encoder_nutrisi.pkl', 'rb') as f_encoder:
        le = pickle.load(f_encoder)
except FileNotFoundError:
    st.error("Pastikan file model.pkl, scaler.pkl, dan encoder.pkl ada di direktori yang sama.")
    st.stop()

st.title("🍔 Prediksi Kategori Makanan")
st.write("Masukkan nilai nutrisi untuk memprediksi kategori makanan menggunakan model Naive Bayes.")

st.sidebar.header("Input Nilai Nutrisi:")

def user_inputs():
    calories = st.sidebar.slider('Kalori', 0, 2000, 500)
    fat = st.sidebar.slider('Lemak (g)', 0.0, 100.0, 25.0)
    sat_fat = st.sidebar.slider('Lemak Jenuh (g)', 0.0, 50.0, 10.0)
    cholesterol = st.sidebar.slider('Kolesterol (mg)', 0, 500, 50)
    sodium = st.sidebar.slider('Sodium (mg)', 0, 4000, 1000)
    carbs = st.sidebar.slider('Karbohidrat (g)', 0.0, 200.0, 50.0)
    fiber = st.sidebar.slider('Serat (g)', 0.0, 20.0, 4.0)
    sugars = st.sidebar.slider('Gula (g)', 0.0, 100.0, 10.0)
    protein = st.sidebar.slider('Protein (g)', 0.0, 100.0, 20.0)

    data = {
        'Calories': calories, 'Fat (g)': fat, 'Saturated Fat (g)': sat_fat,
        'Cholesterol (mg)': cholesterol, 'Sodium (mg)': sodium, 'Carbs (g)': carbs,
        'Fiber (g)': fiber, 'Sugars (g)': sugars, 'Protein (g)': protein
    }
    features = np.array(list(data.values())).reshape(1, -1)
    return features

input_features = user_inputs()

if st.sidebar.button("Prediksi Kategori"):
    input_scaled = scaler.transform(input_features)
    prediction_encoded = model.predict(input_scaled)
    prediction_category = le.inverse_transform(prediction_encoded)[0]

    st.subheader("Hasil Prediksi")
    st.success(f"Makanan ini kemungkinan besar termasuk dalam kategori: **{prediction_category}**")

    st.subheader("Probabilitas per Kategori")
    prediction_proba = model.predict_proba(input_scaled)
    proba_df = pd.DataFrame(prediction_proba, columns=le.classes_).T
    proba_df.rename(columns={0: 'Probabilitas'}, inplace=True)
    st.bar_chart(proba_df)
else:
    st.info("Atur nilai nutrisi di sidebar kiri dan klik tombol prediksi untuk melihat hasilnya.")

Overwriting app.py


### **Menjalankan Aplikasi**

Gunakan sel-sel kode berikut untuk menginstal library yang diperlukan dan menjalankan aplikasi web Anda.

In [6]:
!pip install -q streamlit pyngrok

In [None]:
!ngrok config add-authtoken YOUR_AUTHTOKEN_HERE

In [19]:
from pyngrok import ngrok
import threading
import os

def run_streamlit():
    os.system("streamlit run app.py --server.port 8501 --server.headless true")

thread = threading.Thread(target=run_streamlit)
thread.daemon = True
thread.start()

public_url = ngrok.connect(8501)
print(f"Aplikasi Anda dapat diakses di URL publik ini: {public_url}")

ModuleNotFoundError: No module named 'pyngrok'