# **Food Waste Exploratory Data Analysis**

### **Benaya Imanuela - 22/494790/TK/54313** 

### **Alur Kerja EDA :**
EDA merupakan suatu metode yang digunakan untuk memahami struktur, karakteristik, dan pola dalam sebuah dataset yang melibatkan teknik statistik dan visualisasi data. Berikut adalah langkah - langkah EDA:
1. Pahami penjelasan / deskripsi dari setiap feature

2. Catat pertanyaan yang ini kita ketahui dari data
- Tentang distribusi setiap feature
- Karakteristik dan Korelasi antara masing-masing feature terhadap variabel dependend
- Semua yang ingin doketahui ketika melihat data tersebut. Tulis saja apa yang terbesit di benak.

3. Lakukan cleaning data
- Menampilkan informasi tentang data --> info(), describe()
- Cek apakah ada baris yang duplicated
- Drop kolom non numerik yang 100% unik
- Cek berapa baris yang null
    - jika lebih dari 60% - 70% yang null, maka drop saja kolomnya
    - jika kurang dari 15% yang null, maka drop saja barisnya
    - jika diantara itu, bisa dilakukan pengolahan null value (imputation=n-nearist-neighbor, forward/ backward fill, atau mean & median untuk data numerik dan modus untuk data string)

4. Lakukan feature engineering yang dapat menunjang EDA jika memungkinkan

5. Menampilkan visualisasi dari setiap pertanyaan

### **Informasi Dataset**

1. **Country**: Nama negara. 
   - **Relevansi:** Penting untuk analisis berdasarkan negara.
   
2. **combined figures (kg/capita/year)**: Jumlah pemborosan makanan per kapita per tahun (gabungan).
   - **Relevansi:** Sangat penting untuk analisis utama tentang pemborosan makanan.

3. **Household estimate (kg/capita/year)**: Estimasi pemborosan makanan di rumah tangga per kapita per tahun.
   - **Relevansi:** Penting untuk analisis pemborosan di rumah tangga per individu.

4. **Household estimate (tonnes/year)**: Estimasi total pemborosan makanan di rumah tangga dalam ton per tahun.
   - **Relevansi:** Penting untuk analisis pemborosan di rumah tangga untuk seluruh populasi.

5. **Retail estimate (kg/capita/year)**: Estimasi pemborosan makanan di sektor ritel per kapita per tahun.
   - **Relevansi:** Penting untuk analisis sektor ritel per individu.

6. **Retail estimate (tonnes/year)**: Estimasi total pemborosan makanan di sektor ritel dalam ton per tahun.
   - **Relevansi:** Penting untuk analisis sektor ritel untuk seluruh populasi.

7. **Food service estimate (kg/capita/year)**: Estimasi pemborosan makanan di sektor layanan makanan per kapita per tahun.
   - **Relevansi:** Penting untuk analisis sektor layanan makanan per individu.

8. **Food service estimate (tonnes/year)**: Estimasi total pemborosan makanan di sektor layanan makanan dalam ton per tahun.
   - **Relevansi:** Penting untuk analisis sektor layanan makanan untuk seluruh populasi.

9. **Confidence in estimate**: Tingkat kepercayaan dalam estimasi (misal: Very Low Confidence, Low Confidence).
   - **Relevansi:** Mungkin relevan untuk evaluasi kualitas data, tetapi bisa di-drop jika fokus pada kuantitatif.

10. **M49 code**: Kode negara berdasarkan standar PBB.
    - **Relevansi:** Bisa di-drop karena **Country** sudah mencakup informasi yang diperlukan.

11. **Region**: Wilayah geografis negara.
    - **Relevansi:** Penting untuk analisis geografis yang lebih luas.

12. **Source**: Sumber data.
    - **Relevansi:** Bisa di-drop jika tidak mempengaruhi analisis langsung.

### **Pertanyaan**

1. Negara mana yang memiliki tingkat pemborosan makanan gabungan (combined figures) tertinggi dan terendah (kg/capita/year)?

2. Bagaimana perbandingan pemborosan makanan antara rumah tangga (household), ritel (retail), dan layanan makanan (food service) di negara-negara dengan pemborosan tertinggi?

3. Apakah ada korelasi antara wilayah geografis (Region) dengan tingkat pemborosan makanan (kg/capita/year)?

4. Negara mana yang memiliki perbedaan terbesar antara pemborosan makanan di rumah tangga dan di layanan makanan?

5. Bagaimana tren pemborosan makanan di sektor ritel dibandingkan dengan sektor lainnya?

6. Apakah ada hubungan antara negara dengan populasi besar dan tingkat pemborosan makanan per kapita?

7. Bagaimana hubungan antara jumlah total pemborosan makanan dalam ton per tahun dengan estimasi per kapita (kg/capita/year)?

8. Wilayah geografis mana yang memiliki tingkat kepercayaan tertinggi (confidence in estimate) dalam estimasi pemborosan makanan?

9. Bagaimana perbandingan pemborosan makanan di negara berkembang dibandingkan dengan negara maju?

10. **Sektor apa yang menghasilkan pemborosan makanan terbesar di setiap wilayah geografis?**


### **Lakukan Data Cleaning**

#### **0. Import Package**

In [1]:
import numpy as np
import pandas as pd 
import datetime
import seaborn as sns 
import matplotlib.pyplot as plt 


#### **1. Menampilkan Informasi Data**

In [2]:
df = pd.read_csv("./food-waste-dataset/Food Waste data and research - by country.csv")
df.head()

Unnamed: 0,Country,combined figures (kg/capita/year),Household estimate (kg/capita/year),Household estimate (tonnes/year),Retail estimate (kg/capita/year),Retail estimate (tonnes/year),Food service estimate (kg/capita/year),Food service estimate (tonnes/year),Confidence in estimate,M49 code,Region,Source
0,Afghanistan,126,82,3109153,16,594982,28,1051783,Very Low Confidence,4,Southern Asia,https://www.unep.org/resources/report/unep-foo...
1,Albania,127,83,238492,16,45058,28,79651,Very Low Confidence,8,Southern Europe,https://www.unep.org/resources/report/unep-foo...
2,Algeria,135,91,3918529,16,673360,28,1190335,Very Low Confidence,12,Northern Africa,https://www.unep.org/resources/report/unep-foo...
3,Andorra,123,84,6497,13,988,26,1971,Low Confidence,20,Southern Europe,https://www.unep.org/resources/report/unep-foo...
4,Angola,144,100,3169523,16,497755,28,879908,Very Low Confidence,24,Sub-Saharan Africa,https://www.unep.org/resources/report/unep-foo...


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 214 entries, 0 to 213
Data columns (total 12 columns):
 #   Column                                  Non-Null Count  Dtype 
---  ------                                  --------------  ----- 
 0   Country                                 214 non-null    object
 1   combined figures (kg/capita/year)       214 non-null    int64 
 2   Household estimate (kg/capita/year)     214 non-null    int64 
 3   Household estimate (tonnes/year)        214 non-null    int64 
 4   Retail estimate (kg/capita/year)        214 non-null    int64 
 5   Retail estimate (tonnes/year)           214 non-null    int64 
 6   Food service estimate (kg/capita/year)  214 non-null    int64 
 7   Food service estimate (tonnes/year)     214 non-null    int64 
 8   Confidence in estimate                  214 non-null    object
 9   M49 code                                214 non-null    int64 
 10  Region                                  214 non-null    object
 11  Source

In [4]:
# df.sample(5) 
df.describe()

Unnamed: 0,combined figures (kg/capita/year),Household estimate (kg/capita/year),Household estimate (tonnes/year),Retail estimate (kg/capita/year),Retail estimate (tonnes/year),Food service estimate (kg/capita/year),Food service estimate (tonnes/year),M49 code
count,214.0,214.0,214.0,214.0,214.0,214.0,214.0,214.0
mean,126.794393,84.294393,2658896.0,15.116822,552045.4,27.383178,1138859.0,433.971963
std,22.157879,18.313705,8596906.0,5.76784,2195578.0,6.50842,5380459.0,252.185786
min,61.0,33.0,850.0,3.0,138.0,3.0,276.0,4.0
25%,115.0,74.0,68315.5,13.0,12509.25,26.0,22391.25,219.0
50%,123.0,80.0,520508.0,16.0,100650.0,28.0,188466.0,432.0
75%,137.75,95.0,2111314.0,16.0,356815.8,28.0,630761.8,645.25
max,260.0,189.0,91646210.0,79.0,22424700.0,90.0,65377740.0,894.0


In [5]:
df["Region"].value_counts()
# df["Country"].value_counts()

Sub-Saharan Africa                 48
Latin America and the Caribbean    42
Western Asia                       18
Southern Europe                    15
Northern Europe                    12
South-eastern Asia                 11
Eastern Europe                     10
Southern Asia                       9
Western Europe                      9
Eastern Asia                        7
Micronesia                          7
Northern Africa                     6
Melanesia                           5
Central Asia                        5
Northern America                    4
Polynesia                           4
Australia and New Zealand           2
Name: Region, dtype: int64

#### **2. Cek Apakah ada Baris yang duplikat**

In [6]:
df[df.duplicated()] # menampilkan berapa baris yang duplikat

Unnamed: 0,Country,combined figures (kg/capita/year),Household estimate (kg/capita/year),Household estimate (tonnes/year),Retail estimate (kg/capita/year),Retail estimate (tonnes/year),Food service estimate (kg/capita/year),Food service estimate (tonnes/year),Confidence in estimate,M49 code,Region,Source


Berdasarkan output di atas, dapat disimpulkan **tidak ada baris yang duplikat**.

#### **3. Drop Kolom yang 100% Unik dan Tidak Dibutuhkan untuk Analisis Mendalam**

In [7]:
# Menampilkan jumlah nilai unik setiap kolom
for col in df.columns:
    print(f"{col} : {len(df[col].unique())} labels")

Country : 214 labels
combined figures (kg/capita/year) : 62 labels
Household estimate (kg/capita/year) : 52 labels
Household estimate (tonnes/year) : 214 labels
Retail estimate (kg/capita/year) : 16 labels
Retail estimate (tonnes/year) : 213 labels
Food service estimate (kg/capita/year) : 19 labels
Food service estimate (tonnes/year) : 213 labels
Confidence in estimate : 4 labels
M49 code : 214 labels
Region : 17 labels
Source : 214 labels


Berdasarkan output di atas dan **informasi deskripsi dataset**. Diputuskan untuk men-drop kolom **M49 code** dan **Source** karena tidak memiliki korelasi untuk analisis lebih lanjut

In [10]:
# Jangan lupa copy df ke df 1 untuk trial & error
df1 = df.copy()

# drop kolom M49
df1.drop(["M49 code", "Source"], axis=1, inplace=True)
df1.head()

Unnamed: 0,Country,combined figures (kg/capita/year),Household estimate (kg/capita/year),Household estimate (tonnes/year),Retail estimate (kg/capita/year),Retail estimate (tonnes/year),Food service estimate (kg/capita/year),Food service estimate (tonnes/year),Confidence in estimate,Region
0,Afghanistan,126,82,3109153,16,594982,28,1051783,Very Low Confidence,Southern Asia
1,Albania,127,83,238492,16,45058,28,79651,Very Low Confidence,Southern Europe
2,Algeria,135,91,3918529,16,673360,28,1190335,Very Low Confidence,Northern Africa
3,Andorra,123,84,6497,13,988,26,1971,Low Confidence,Southern Europe
4,Angola,144,100,3169523,16,497755,28,879908,Very Low Confidence,Sub-Saharan Africa


#### **4. Cek Apakah ada Baris yang Kosong**

In [11]:
# Menampilkan jumlah nilai kosong tiap kolom dalam persen
df1.isnull().sum()/len(df)*100


Country                                   0.0
combined figures (kg/capita/year)         0.0
Household estimate (kg/capita/year)       0.0
Household estimate (tonnes/year)          0.0
Retail estimate (kg/capita/year)          0.0
Retail estimate (tonnes/year)             0.0
Food service estimate (kg/capita/year)    0.0
Food service estimate (tonnes/year)       0.0
Confidence in estimate                    0.0
Region                                    0.0
dtype: float64

Berdasarkan output di atas, dapat disimpulkan **tidak ada baris yang kosong**

#### **5. Menyimpan data hasil cleaning**

In [None]:
# Menyimpan DataFrame df1 ke file CSV
df1.to_csv('nama_file.csv', index=False)


### **Menampilkan Visualisasi Dari Setiap Pertanyaan**

#### **1. Negara mana yang memiliki tingkat pemborosan makanan gabungan (combined figures) tertinggi dan terendah (kg/capita/year)?**


#### **2. Bagaimana perbandingan pemborosan makanan antara rumah tangga (household), ritel (retail), dan layanan makanan (food service) di negara-negara dengan pemborosan tertinggi?**



#### **3. Apakah ada korelasi antara wilayah geografis (Region) dengan tingkat pemborosan makanan (kg/capita/year)?**




#### **4. Negara mana yang memiliki perbedaan terbesar antara pemborosan makanan di rumah tangga dan di layanan makanan?**



#### **5. Bagaimana tren pemborosan makanan di sektor ritel dibandingkan dengan sektor lainnya?**



#### **6. Apakah ada hubungan antara negara dengan populasi besar dan tingkat pemborosan makanan per kapita?**



#### **7. Bagaimana hubungan antara jumlah total pemborosan makanan dalam ton per tahun dengan estimasi per kapita (kg/capita/year)?**



#### **8. Wilayah geografis mana yang memiliki tingkat kepercayaan tertinggi (confidence in estimate) dalam estimasi pemborosan makanan?**



#### **9. Bagaimana perbandingan pemborosan makanan di negara berkembang dibandingkan dengan negara maju?**



#### **10. Sektor apa yang menghasilkan pemborosan makanan terbesar di setiap wilayah geografis?**