# About Dataset

Selamat datang diFastFood calories data, yang memberikan rincian komprehensif tentang kandungan yang ada didalam berbagai produk makanan cepat saji dari rantai makanan cepat saji populer. Makanan cepat saji terkenal karena kenyamanan dan harganya yang terjangkau, namun juga terkenal karena kandungan kalorinya yang tinggi, lemaknya yang tinggi, dan kandungan gulanya yang tinggi. Kumpulan data ini bertujuan untuk menjelaskan nilai gizi produk makanan cepat saji, membantu konsumen membuat keputusan yang lebih tepat mengenai pilihan makanan mereka. Dengan informasi tentang kalori, lemak, karbohidrat, protein, dan nutrisi penting lainnya, kumpulan data ini memberikan sumber daya berharga bagi ahli gizi, peneliti, dan individu yang sadar kesehatan.

Sumber: https://www.kaggle.com/datasets/sujaykapadnis/fast-food-calories-data Data from fastfoodnutrition.com



# Import Libraries/Setup

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

1. `import pandas as pd`: Kode ini mengimpor pustaka Pandas dengan alias 'pd'. Pandas adalah pustaka Python yang digunakan untuk manipulasi dan analisis data tabular.

2. `import matplotlib.pyplot as plt`: Kode ini mengimpor modul pyplot dari pustaka Matplotlib. Matplotlib adalah pustaka yang kuat untuk membuat visualisasi data dalam berbagai bentuk, seperti plot garis, histogram, scatter plot, dan lain-lain.

3. `import seaborn as sns`: Kode ini mengimpor pustaka Seaborn dengan alias 'sns'. Seaborn adalah pustaka yang dibangun di atas Matplotlib dan menyediakan antarmuka yang lebih tinggi untuk membuat plot yang lebih menarik dan informatif, terutama untuk plot statistik.

# Specify the filepath

Untuk menentukan jalur file dalam berbagai bahasa pemrograman, dapat menggunakan sintaks yang sesuai dengan bahasa yang Anda gunakan. Di bawah ini adalah contoh cara menentukan jalur file dalam beberapa bahasa pemrograman yang umum digunakan:

In [None]:
file_path = "D:\\KULIAH\\MSIB\\Skilvul\\Learn\\Intro-to-Programming\\2-Data-Visualization\\Data\\fastfood_calories.csv"


Kode di atas membaca file CSV dengan nama “fastfood_calories.csv” dan membuat sebuah dataframe menggunakan pustaka pandas.
- Kolom indeks berisi beberapa nama item, variabel, jenis dan total kandungan dalam makanan berbagai restoran cepat saji.
- Beberapa baris data dari dataframe menampilkan informasi tentang item makanan tertentu dari berbagai restoran cepat saji.


Pastikan untuk mengganti "/path/to/your/file.txt" dengan jalur sebenarnya ke file yang Anda tuju. Dalam beberapa kasus, mungkin juga perlu menggunakan karakter escape untuk karakter seperti backslash ("") dalam jalur file, tergantung pada bahasa pemrograman yang Anda gunakan.







# Load the data

Memuat data dengan Python adalah tugas mendasar ketika bekerja dengan berbagai jenis sumber data. Kita dapat menggunakan berbagai cara untuk memuat data ke Python:

**Pandas' read_csv()**

Pandas adalah perpustakaan manipulasi data yang sangat populer, dan sangat umum digunakan karena kemudahan penggunaannya. alah satu fungsinya yang sangat penting dan matang adalah **read_csv()** yang dapat membaca file .csv

Contoh menggunakan Pandas

1. Menampilkan beberapa baris teratas

Metode `.head()` akan menampilkan lima baris pertama dari dataframe. Jika ingin menampilkan jumlah baris yang berbeda, dapat menambahkan argumen ke dalam metode tersebut, misalnya `df.head(10)` untuk menampilkan sepuluh baris pertama.

In [None]:
# Read the CSV file
df = pd.read_csv(file_path, index_col=[0]).drop(columns=['salad'])

# Display the first few rows of the dataframe
df.head()

Unnamed: 0,restaurant,item,calories,cal_fat,total_fat,sat_fat,trans_fat,cholesterol,sodium,total_carb,fiber,sugar,protein,vit_a,vit_c,calcium
1,Mcdonalds,Artisan Grilled Chicken Sandwich,380,60,7,2.0,0.0,95,1110,44,3.0,11,37.0,4.0,20.0,20.0
2,Mcdonalds,Single Bacon Smokehouse Burger,840,410,45,17.0,1.5,130,1580,62,2.0,18,46.0,6.0,20.0,20.0
3,Mcdonalds,Double Bacon Smokehouse Burger,1130,600,67,27.0,3.0,220,1920,63,3.0,18,70.0,10.0,20.0,50.0
4,Mcdonalds,Grilled Bacon Smokehouse Chicken Sandwich,750,280,31,10.0,0.5,155,1940,62,2.0,18,55.0,6.0,25.0,20.0
5,Mcdonalds,Crispy Bacon Smokehouse Chicken Sandwich,920,410,45,12.0,0.5,120,1980,81,4.0,18,46.0,6.0,20.0,20.0


*Reading the CSV File*
1. `df = pd.read_csv(file_path, index_col=[0])`: Baris ini membaca file CSV yang terletak di file_path yang ditentukan menggunakan fungsi `read_csv` perpustakaan pandas.
- `file_path`: Jalur ke file CSV.
- `index_col=[0]`: Kolom pertama (indeks 0) file CSV digunakan sebagai indeks untuk kerangka data.

*Dropping a Column*
1. `.drop(columns=['salad'])`: Menghapus kolom bernama 'salad' dari kerangka data.
- `columns=['salad']`: Menentukan kolom yang akan dihapus.

*Displaying the First Few Rows*
1. df.head(): Menampilkan beberapa baris pertama dari kerangka data yang dihasilkan.


2. Menampilkan beberapa baris terbawah

Metode `.tail()` akan menampilkan lima baris terbawah dari dataframe. Jika Anda ingin menampilkan jumlah baris yang berbeda, Anda dapat menambahkan argumen ke dalam metode tersebut, misalnya `df.tail(5)` untuk menampilkan sepuluh baris terbawah.

In [None]:
# Display the last 5 rows
df.tail(5)

Unnamed: 0,restaurant,item,calories,cal_fat,total_fat,sat_fat,trans_fat,cholesterol,sodium,total_carb,fiber,sugar,protein,vit_a,vit_c,calcium
511,Taco Bell,Spicy Triple Double Crunchwrap,780,340,38,10.0,0.5,50,1850,87,9.0,8,23.0,20.0,10.0,25.0
512,Taco Bell,Express Taco Salad w/ Chips,580,260,29,9.0,1.0,60,1270,59,8.0,7,23.0,,,
513,Taco Bell,Fiesta Taco Salad-Beef,780,380,42,10.0,1.0,60,1340,74,11.0,7,26.0,,,
514,Taco Bell,Fiesta Taco Salad-Chicken,720,320,35,7.0,0.0,70,1260,70,8.0,8,32.0,,,
515,Taco Bell,Fiesta Taco Salad-Steak,720,320,36,8.0,1.0,55,1340,70,8.0,8,28.0,,,


`df.tail(5)`: Menampilkan 5 baris terakhir dari kerangka data yang dihasilkan yakni restaurant Taco Bell dengan lima jenis item makanan yang berbeda.

3. Menampilkan informasi dataframe

`info():` Metode ini memberikan informasi detail tentang dataframe, termasuk jumlah baris data, nama-nama kolom beserta jumlah data dan tipe datanya.

In [None]:
# Display information about the dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 515 entries, 1 to 515
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   restaurant   515 non-null    object 
 1   item         515 non-null    object 
 2   calories     515 non-null    int64  
 3   cal_fat      515 non-null    int64  
 4   total_fat    515 non-null    int64  
 5   sat_fat      515 non-null    float64
 6   trans_fat    515 non-null    float64
 7   cholesterol  515 non-null    int64  
 8   sodium       515 non-null    int64  
 9   total_carb   515 non-null    int64  
 10  fiber        503 non-null    float64
 11  sugar        515 non-null    int64  
 12  protein      514 non-null    float64
 13  vit_a        301 non-null    float64
 14  vit_c        305 non-null    float64
 15  calcium      305 non-null    float64
dtypes: float64(7), int64(7), object(2)
memory usage: 68.4+ KB


`df.info():`Memberikan gambaran umum tentang kerangka data, termasuk tipe data setiap kolom, jumlah nilai bukan nol, dan penggunaan memori.

4. Menampilkan deskripsi statistik

`describe():` Metode ini menampilkan deskriptif statistik data, seperti rata-rata, standar deviasi, nilai minimum, dan maksimum. Hanya kolom yang bertipe numerik yang akan ditampilkan statistiknya.

In [None]:
# Displays descriptive statistical data
df.describe()

Unnamed: 0,calories,cal_fat,total_fat,sat_fat,trans_fat,cholesterol,sodium,total_carb,fiber,sugar,protein,vit_a,vit_c,calcium
count,515.0,515.0,515.0,515.0,515.0,515.0,515.0,515.0,503.0,515.0,514.0,301.0,305.0,305.0
mean,530.912621,238.813592,26.590291,8.153398,0.465049,72.456311,1246.737864,45.664078,4.137177,7.262136,27.891051,18.857143,20.170492,24.852459
std,282.436147,166.40751,18.411876,6.418811,0.839644,63.160406,689.954278,24.883342,3.03746,6.761301,17.683921,31.38433,30.592243,25.522073
min,20.0,0.0,0.0,0.0,0.0,0.0,15.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
25%,330.0,120.0,14.0,4.0,0.0,35.0,800.0,28.5,2.0,3.0,16.0,4.0,4.0,8.0
50%,490.0,210.0,23.0,7.0,0.0,60.0,1110.0,44.0,3.0,6.0,24.5,10.0,10.0,20.0
75%,690.0,310.0,35.0,11.0,1.0,95.0,1550.0,57.0,5.0,9.0,36.0,20.0,30.0,30.0
max,2430.0,1270.0,141.0,47.0,8.0,805.0,6080.0,156.0,17.0,87.0,186.0,180.0,400.0,290.0


`describe()`: Memberikan informasi statistik deskriptif tentang kolom numerik dalam kerangka data. Berikut ringkasan statistik deskriptif untuk kolom numerik dalam kerangka data:

1. Count (Hitungan): Jumlah nilai bukan nol di setiap kolom.
2. Mean (Average): Nilai rata-rata setiap kolom.
3. Deviasi Standar (std): Ukuran penyebaran nilai dari mean.
4. Minimum (min): Nilai terkecil di setiap kolom.
5. Persentil ke-25 (25%): Nilai yang di bawahnya terdapat 25% data.
6. Persentil ke-50 (50%) atau Median: Nilai tengah ketika data diurutkan.
7. Persentil ke-75 (75%): Nilai yang di bawahnya terdapat 75% data.
8. Maksimum (maks): Nilai terbesar di setiap kolom.

# Visualize the data

Visualisasi data pada Python merupakan proses representasi grafis hasil analisis data yang biasanya muncul dalam bentuk diagram, grafik, peta, dan sebagainya yang dikemas secara menarik dan mudah dipahami. Python memiliki beberapa jenis visualisasi data yang cukup populer, seperti scatter plot, line plot, dan sebagainya. Visualisasi data dapat dilakukan menggunakan library seperti Matplotlib, Seaborn, dan Plotly.

In [None]:
from plotly.express import bar
bar(data_frame=df['restaurant'].value_counts().to_frame().reset_index(), x='restaurant', y='count')

### 1. Impor fungsi Bar
'from plotly.express import bar': Baris ini mengimpor fungsi bar dari library Plotly Express. Fungsi ini digunakan untuk membuat diagram batang.

### 2. Persiapan Data:

data_frame = df['restaurant'].value_counts().to_frame().reset_index(): Bagian ini mempersiapkan data untuk diagram.

df['restaurant'].value_counts(): Ini menghitung berapa kali tiap restoran muncul di kolom "restaurant" pada dataframe df. Ini menghasilkan suatu Seri dimana index mewakili nama restoran dan nilainya mewakili jumlah kemunculannya.

.to_frame(): Ini mengubah Seri menjadi DataFrame. Sekarang Anda memiliki DataFrame dengan dua kolom: "restaurant" (berisi nama restoran) dan "count" (berisi jumlah kemunculannya).

.reset_index(): Secara bawaan, index dari Seri menjadi kolom pertama di DataFrame. Baris ini mengatur ulang index menjadi kolom normal bernama "index".

### 3. Membuat Diagram:

bar(data_frame=data_frame, x='restaurant', y='count'): Baris ini menggunakan fungsi bar yang diimpor untuk membuat diagram.

data_frame: Argumen ini menentukan DataFrame yang berisi data untuk diagram. Anda telah menetapkan DataFrame yang disiapkan (data_frame) ke argumen ini.

x='restaurant': Argumen ini menentukan kolom yang menyediakan kategori untuk sumbu x. Di sini, nama "restaurant" akan ditampilkan pada sumbu x.
y='count': Argumen ini menentukan kolom yang menyediakan nilai untuk sumbu y. Di sini, kolom "count" akan menentukan tinggi setiap batang, mewakili berapa kali tiap restoran muncul.

Kode ini akan membuat diagram batang dimana tiap batang mewakili sebuah restoran, dan tinggi batang sesuai dengan berapa kali restoran itu muncul di data.
Kode yang diatas untuk membuat diagram batang menggunakan Plotly Express.

In [None]:
from plotly.express import histogram
for column in ['calories', 'cal_fat', 'total_fat', 'sat_fat',
       'trans_fat', 'cholesterol', 'sodium', 'total_carb', 'fiber', 'sugar',
       'protein', 'vit_a', 'vit_c', 'calcium']:
    histogram(data_frame=df, x=column, title=column).show()

### 1. Impor fungsi histogram:

from plotly.express import histogram: Baris ini mengimpor fungsi histogram dari Plotly Express, yang digunakan untuk membuat diagram histogram.

### 2. Perulangan Kolom:

for column in ['calories', 'cal_fat', ...]:: Loop for ini ber iterasi melalui daftar nama kolom yang mewakili berbagai nilai nutrisi ("calories", "cal_fat", dll).

### 3. Membuat Histogram:

histogram(data_frame=df, x=column, title=column).show(): Di dalam loop, baris ini membuat histogram untuk setiap kolom.
data_frame=df: Argumen ini menentukan DataFrame yang berisi data (df).

x=column: Argumen ini menentukan kolom yang akan diplot pada sumbu x. Dalam setiap iterasi, nilai saat ini dari daftar column digunakan (misalnya, "calories" untuk loop pertama).

title=column: Argumen ini menetapkan judul histogram ke nama kolom saat ini (misalnya, "Histogram Kalori").
.show(): Metode ini menampilkan histogram yang dibuat.

### 4. Menggunakan kode show().
Kode ini akan ber iterasi melalui daftar kolom nutrisi yang ditentukan. Untuk setiap kolom, ia membuat histogram terpisah di mana sumbu x mewakili nilai dalam kolom itu dan sumbu y mewakili frekuensi setiap nilai. Judul setiap histogram diatur ke nama kolom yang sesuai. Terakhir, setiap histogram yang dihasilkan ditampilkan secara otomatis menggunakan metode .show().

In [None]:
from plotly.express import scatter
scatter(data_frame=df, x='calories', y='sodium', color='restaurant', hover_name='item', log_x=True, log_y=True, )

from plotly.express import scatter

scatter(data_frame=df, x='calories', y='sodium', color='restaurant', hover_name='item', log_x=True, log_y=True, )

Kode di atas menggunakan Plotly Express untuk membuat diagram sebar (scatter plot) guna memvisualisasikan hubungan antara dua nilai nutrisi dalam DataFrame df Anda.

Dalam kode untuk membuat diagram sebar di mana setiap titik data mewakili item dari DataFrame Anda. Sumbu x menunjukkan kandungan kalori, sumbu y menunjukkan kandungan sodium, dan warna titik sesuai dengan restorannya. Saat Anda mengarahkan kursor ke suatu titik, nama "item" (atau kolom lain yang ditentukan dalam hover_name) akan ditampilkan. Selain itu, kedua sumbu menggunakan skala logaritmik untuk memvisualisasikan data dengan rentang nilai yang besar dengan lebih baik.

In [None]:
scatter(data_frame=df, x='cholesterol', y='sodium', color='restaurant', hover_name='item', log_x=True, log_y=True, )

### 1.Impor fungsi scatter:

from plotly.express import scatter: Mengimpor fungsi scatter untuk membuat diagram sebar dari Plotly Express.

### 2.Data dan Sumbu:

data_frame=df, x='cholesterol', y='sodium':
Mendefinisikan sumber data (df) dan sumbu untuk plot.

x='cholesterol': Menetapkan kolom "cholesterol" sebagai sumber data untuk sumbu x (sumbu horizontal).

y='sodium': Menetapkan kolom "sodium" sebagai sumber data untuk sumbu y (sumbu vertikal).

### 3.Pemberian Kode Warna:

color='restaurant': Menetapkan warna unik untuk setiap titik data berdasarkan nilai di kolom "restaurant". Ini membantu membedakan titik data dari restoran yang berbeda secara visual.

### 4.Informasi Hover:

hover_name='item': Menetapkan teks yang ditampilkan saat mengarahkan kursor ke titik data. Di sini, ini diatur ke kolom "item" (dengan asumsi kolom itu ada). Anda dapat menyesuaikan ini untuk menampilkan data relevan lainnya.

### 5.Skala Logaritmik:

log_x=True, log_y=True: Menggunakan skala logaritmik untuk kedua sumbu x dan y. Ini berguna saat data mencakup rentang nilai yang luas, sehingga memudahkan visualisasi penyebaran di seluruh rentang.

Kode di atas dapat membuat diagram sebar yang memvisualisasikan hubungan antara kadar kolesterol dan sodium dalam DataFrame df Anda, diwarnai berdasarkan restorannya.

Berdasarkan visualisasi data yang telah ditampilkan pada dataset fastfood_calories.csv diatas dapat di tarik beberapa kesimpulan sebagai berikut.

1. Restoran Taco Bell cendrung memiliki menu yang sangat beragam daripada restoran lainnya.
2. Menu item makanan yang mengandung sodium dan calories yang sangat tinggi dominan berasal dari restoran McDonalds Sedangkan menu item makanan dengan sodium dan calories yang rendah dominan berasal dari restoran Taco Bell.
3. Begitupun untuk kandungan makanan yang memiliki potensi cholestrol paling tinggi juga dominan dari restoran McDonald sedangkan kandungan makanan yang memiliki potensi cholestrol yang rendah berasal dari restoran Taco Bell

Maka dari itu makanan yang memiliki kandungan sodium dan calories yang terlalu tinggi juga tidak baik untuk kesehatan tubuh terutama yang makanan yang mengandung cholestrol yang sangat tinggi yaitu terdapat pada menu item makanan pada restoran McDonalds. Hal ini akan menimbulkan gejala penyakit jika dikonsumsi terlalu banyak. Makanan yang sehat adalah makanan yang memiliki kandungan sodium dan calories yang cukup atau normal.