In [None]:
1. Business Objective
Tujuan bisnis dari penggunaan Daily Food and Nutrition Dataset adalah untuk memahami pola makan harian dan kandungan gizi dalam makanan yang dikonsumsi oleh individu.
Berdasarkan data tersebut, bisnis dapat mengembangkan aplikasi atau solusi berbasis data yang bertujuan untuk:
Menyediakan rekomendasi diet yang lebih personal dan sesuai dengan tujuan kesehatan penggunanya (misalnya, penurunan berat badan, peningkatan energi, atau pemeliharaan kesehatan jantung).
Membantu perusahaan makanan untuk merancang produk baru yang lebih sehat dan lebih sesuai dengan kebutuhan gizi konsumen.
Mengembangkan aplikasi kesehatan atau kebugaran yang dapat membantu pengguna memantau konsumsi gizi harian mereka dan mencapainya dengan lebih baik.
Memberikan wawasan kepada ahli gizi dan institusi kesehatan untuk melakukan penyuluhan tentang pola makan sehat dan mengurangi penyakit yang terkait dengan diet yang buruk (misalnya obesitas, diabetes).


In [None]:
Assess Situation
Dataset ini terdiri dari informasi tentang makanan dan gizi yang dikonsumsi setiap hari. Memahami struktur dataset dan kualitas data (apakah ada missing value, outliers, atau kesalahan lainnya) sangat penting untuk analisis lebih lanjut.
Keterbatasan Data: Pastikan dataset sudah cukup lengkap dan mencakup berbagai jenis makanan yang umum dikonsumsi, serta mencatat dengan jelas komposisi gizi setiap makanan.


In [None]:
Data Mining Goals
Untuk menggali wawasan bermanfaat dari dataset yang ada, seperti mengidentifikasi pola makan dan mengelompokkan makanan berdasarkan kandungan
gizinya misalnya, makanan kaya protein, rendah kalori, tinggi serat. Selain itu, proyek ini bertujuan untuk mengembangkan sistem rekomendasi diet menggunakan teknik machine learning, serta menganalisis hubungan antara pola makan dan kesehatan,
seperti kaitannya dengan obesitas atau penyakit jantung. Proyek ini juga berfokus pada analisis korelasi antara makanan dan nilai gizi yang diperoleh,
serta menyusun pola makan optimal yang memenuhi standar gizi yang direkomendasikan.

In [None]:
Project Plan

1. Fase Persiapan Data:

Langkah: Mengumpulkan, membersihkan, dan mempersiapkan data yang relevan untuk analisis lebih lanjut. Ini termasuk mengatasi data yang hilang, menghapus duplikasi, dan memastikan konsistensi format.
Tujuan: Memastikan data yang digunakan berkualitas tinggi dan bebas dari kesalahan, serta siap untuk analisis lebih lanjut.

2. Fase Eksplorasi Data:
Langkah: Menggunakan teknik eksplorasi data untuk menganalisis distribusi kalori, kandungan gizi, dan hubungan antar variabel dalam dataset.
Tujuan: Mendapatkan wawasan awal mengenai pola makan dan mengidentifikasi faktor yang dapat mempengaruhi kesehatan (misalnya, terlalu banyak lemak atau kurangnya serat dalam makanan).

3. Fase Pengembangan Model:
Langkah: Mengembangkan model untuk klasifikasi makanan berdasarkan kandungan gizi (misalnya, makanan tinggi protein, rendah kalori, dll.), serta algoritma untuk merekomendasikan pola makan yang sehat.
Tujuan: Membuat model yang dapat membantu pengguna memilih makanan sehat berdasarkan analisis konsumsi gizi mereka.

4. Fase Pembuatan Rekomendasi Diet:
Langkah: Menggunakan hasil dari fase pengembangan model untuk membangun sistem rekomendasi diet yang dipersonalisasi berdasarkan data nutrisi yang telah dianalisis.
Tujuan: Memberikan saran diet yang sesuai dengan kebutuhan nutrisi pengguna, termasuk pengaturan kalori, protein, dan asupan gizi lainnya.

5. Fase Evaluasi Model:
Langkah: Menguji akurasi dan efektivitas model menggunakan data uji. Mengevaluasi model dengan metrik seperti akurasi, presisi, dan recall untuk memastikan sistem rekomendasi berfungsi dengan baik.
Tujuan: Memastikan bahwa sistem yang dikembangkan dapat memberikan rekomendasi yang akurat dan bermanfaat bagi pengguna.

6. Fase Implementasi dan Pengujian:
Langkah: Mengimplementasikan sistem rekomendasi dalam aplikasi nyata atau platform web, serta melakukan pengujian dengan pengguna untuk mengumpulkan feedback.
Tujuan: Menyediakan solusi yang berguna bagi pengguna untuk memonitor dan memperbaiki pola makan mereka berdasarkan rekomendasi yang diberikan oleh sistem.

7. Fase Pemeliharaan dan Perbaikan:
Langkah: Melakukan pemeliharaan rutin terhadap sistem dan memperbarui model dengan data terbaru untuk memastikan relevansi dan keakuratannya.
Tujuan: Memastikan sistem tetap efektif dan akurat, serta terus memberikan rekomendasi yang berguna bagi pengguna.

Melalui tahapan-tahapan ini, Bertujuan serta mempromosikan gaya hidup sehat melalui pendekatan yang berbasis data.

## **CHECK POINT 2**

Tema "Daily Food & Nutrition Dataset"

1. Sumber Data (kaggle): https://www.kaggle.com/datasets/adilshamim8/daily-food-and-nutrition-dataset


In [1]:
import pandas as pd

In [5]:
df = pd.read_csv ("/content/daily_food_nutrition_dataset.csv")

df

Unnamed: 0,Date,User_ID,Food_Item,Category,Calories (kcal),Protein (g),Carbohydrates (g),Fat (g),Fiber (g),Sugars (g),Sodium (mg),Cholesterol (mg),Meal_Type,Water_Intake (ml)
0,2024-09-11,496,Eggs,Meat,173,42.4,83.7,1.5,1.5,12.7,752,125,Lunch,478
1,2024-12-17,201,Apple,Fruits,66,39.2,13.8,3.2,2.6,12.2,680,97,Lunch,466
2,2024-06-09,776,Chicken Breast,Meat,226,27.1,79.1,25.8,3.2,44.7,295,157,Breakfast,635
3,2024-08-27,112,Banana,Fruits,116,43.4,47.1,16.1,6.5,44.1,307,13,Snack,379
4,2024-07-28,622,Banana,Fruits,500,33.9,75.8,47.0,7.8,19.4,358,148,Lunch,471
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,2024-09-18,455,Salmon,Meat,346,29.8,55.6,4.6,1.7,0.5,976,87,Breakfast,793
9996,2024-12-13,913,Grapes,Fruits,174,22.9,54.9,32.1,2.5,5.9,255,56,Lunch,665
9997,2024-01-31,943,Strawberry,Fruits,63,36.5,23.8,21.6,0.8,48.9,757,63,Snack,876
9998,2024-09-28,571,Spinach,Vegetables,564,26.2,58.9,11.9,3.3,43.0,482,33,Breakfast,319


**Melihat Jumlah baris dan kolom**

In [6]:
df.shape

(10000, 14)

**Cek Setiap data dan kolom**

In [7]:
df.dtypes

Unnamed: 0,0
Date,object
User_ID,int64
Food_Item,object
Category,object
Calories (kcal),int64
Protein (g),float64
Carbohydrates (g),float64
Fat (g),float64
Fiber (g),float64
Sugars (g),float64


**Statistik Deskriptif**

In [8]:
# Statistik Deskriptif
df.describe()

Unnamed: 0,User_ID,Calories (kcal),Protein (g),Carbohydrates (g),Fat (g),Fiber (g),Sugars (g),Sodium (mg),Cholesterol (mg),Water_Intake (ml)
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,498.7063,327.6939,25.52305,52.56855,25.43735,4.98694,25.05257,497.969,151.8866,554.3536
std,289.123477,158.194716,14.131993,27.387152,14.14532,2.864984,14.480605,287.988001,87.360643,260.977642
min,1.0,50.0,1.0,5.0,1.0,0.0,0.0,0.0,0.0,100.0
25%,245.0,190.0,13.2,28.8,13.3,2.5,12.5,249.75,76.0,327.0
50%,492.0,328.0,25.5,52.8,25.3,5.0,25.0,495.0,153.0,555.5
75%,748.0,464.0,37.7,76.4,37.6,7.5,37.7,749.0,228.0,783.0
max,1000.0,600.0,50.0,100.0,50.0,10.0,50.0,1000.0,300.0,1000.0


**Mengecek Korelasi

In [20]:
print("Menentukan Korelasi Antar Kolom")



Menentukan Korelasi Antar Kolom


KeyError: "None of [Index(['discount', 'total_price', 'profit', 'fat_100g'], dtype='object')] are in the [columns]"

# **DATA PREPARATION**

**Tema "Daily Food & Nutrition Dataset"**

Sumber Data (kaggle): https://www.kaggle.com/datasets/adilshamim8daily-food-and-nutrition-dataset

In [21]:
import pandas as pd

file = "/content/daily_food_nutrition_dataset.csv"

df = pd.read_csv(file)
df

Unnamed: 0,Date,User_ID,Food_Item,Category,Calories (kcal),Protein (g),Carbohydrates (g),Fat (g),Fiber (g),Sugars (g),Sodium (mg),Cholesterol (mg),Meal_Type,Water_Intake (ml)
0,2024-09-11,496,Eggs,Meat,173,42.4,83.7,1.5,1.5,12.7,752,125,Lunch,478
1,2024-12-17,201,Apple,Fruits,66,39.2,13.8,3.2,2.6,12.2,680,97,Lunch,466
2,2024-06-09,776,Chicken Breast,Meat,226,27.1,79.1,25.8,3.2,44.7,295,157,Breakfast,635
3,2024-08-27,112,Banana,Fruits,116,43.4,47.1,16.1,6.5,44.1,307,13,Snack,379
4,2024-07-28,622,Banana,Fruits,500,33.9,75.8,47.0,7.8,19.4,358,148,Lunch,471
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,2024-09-18,455,Salmon,Meat,346,29.8,55.6,4.6,1.7,0.5,976,87,Breakfast,793
9996,2024-12-13,913,Grapes,Fruits,174,22.9,54.9,32.1,2.5,5.9,255,56,Lunch,665
9997,2024-01-31,943,Strawberry,Fruits,63,36.5,23.8,21.6,0.8,48.9,757,63,Snack,876
9998,2024-09-28,571,Spinach,Vegetables,564,26.2,58.9,11.9,3.3,43.0,482,33,Breakfast,319


**Missing Values**

In [22]:
# Missing Values
print((df.isna().sum() / len(df)) * 100)

Date                 0.0
User_ID              0.0
Food_Item            0.0
Category             0.0
Calories (kcal)      0.0
Protein (g)          0.0
Carbohydrates (g)    0.0
Fat (g)              0.0
Fiber (g)            0.0
Sugars (g)           0.0
Sodium (mg)          0.0
Cholesterol (mg)     0.0
Meal_Type            0.0
Water_Intake (ml)    0.0
dtype: float64


Dapat kita ketahui tidak ada Missing Values

**Duplikat**

In [23]:
# Duplikat
df[df.duplicated()]

Unnamed: 0,Date,User_ID,Food_Item,Category,Calories (kcal),Protein (g),Carbohydrates (g),Fat (g),Fiber (g),Sugars (g),Sodium (mg),Cholesterol (mg),Meal_Type,Water_Intake (ml)


**Data Reduction**

In [24]:
df.columns

Index(['Date', 'User_ID', 'Food_Item', 'Category', 'Calories (kcal)',
       'Protein (g)', 'Carbohydrates (g)', 'Fat (g)', 'Fiber (g)',
       'Sugars (g)', 'Sodium (mg)', 'Cholesterol (mg)', 'Meal_Type',
       'Water_Intake (ml)'],
      dtype='object')

In [30]:
df.columns = df.columns.str.strip()

In [31]:
df.columns

Index(['Date', 'User_ID', 'Food_Item', 'Category', 'Calories (kcal)',
       'Protein (g)', 'Carbohydrates (g)', 'Fat (g)', 'Fiber (g)',
       'Sugars (g)', 'Sodium (mg)', 'Cholesterol (mg)', 'Meal_Type',
       'Water_Intake (ml)'],
      dtype='object')

In [32]:
df.dtypes

Unnamed: 0,0
Date,object
User_ID,int64
Food_Item,object
Category,object
Calories (kcal),int64
Protein (g),float64
Carbohydrates (g),float64
Fat (g),float64
Fiber (g),float64
Sugars (g),float64


**Mengubah Tipe Data**