# Data Wrangling untuk Project SafeFood

Dalam notebook ini, kami akan melakukan proses **data wrangling** pada dataset `donor_data` dan `receiver_data`. 
Proses ini mencakup tiga langkah utama:
1. **Gathering Data**: Mengumpulkan dan memuat data yang diperlukan.
2. **Assessing Data**: Mengevaluasi data untuk menemukan masalah kualitas atau struktural.
3. **Cleaning Data**: Memperbaiki masalah yang ditemukan pada tahap assessing.

In [1]:
# Import Library yang diperlukan
import pandas as pd

## Gathering Data

1. Membaca file `data_donor.csv` dan `data_receiver.csv`

In [2]:
donor_data = pd.read_csv('raw_data/data_donor.csv')
receiver_data = pd.read_csv('raw_data/data_receiver.csv')

2. Menampilkan informasi dasar dari kedua dataset.

In [3]:
print("Informasi Data Donor:")
print(donor_data.info())
print("\nInformasi Data Penerima:")
print(receiver_data.info())

Informasi Data Donor:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   donor_id                2000 non-null   object
 1   jenis_makanan           2000 non-null   object
 2   jumlah_makanan          2000 non-null   int64 
 3   lokasi_donor            2000 non-null   object
 4   makanan_layak_konsumsi  2000 non-null   object
 5   is_halal                2000 non-null   bool  
 6   is_for_child            2000 non-null   bool  
 7   is_for_elderly          2000 non-null   bool  
 8   is_alergan              2000 non-null   bool  
dtypes: bool(4), int64(1), object(4)
memory usage: 86.1+ KB
None

Informasi Data Penerima:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  -

3. Melihat contoh beberapa baris pertama dari dataset.

In [4]:
print("\nContoh Data Donor:")
print(donor_data.head())
print("\nContoh Data Penerima:")
print(receiver_data.head())


Contoh Data Donor:
  donor_id           jenis_makanan  jumlah_makanan  \
0       D1             ['minuman']               4   
1       D2             ['minuman']               8   
2       D3  ['minuman', 'makanan']               6   
3       D4             ['minuman']               2   
4       D5             ['makanan']               3   

                              lokasi_donor makanan_layak_konsumsi  is_halal  \
0   (-5.4371805167803, 105.22789132966643)   tidak layak konsumsi      True   
1  (-5.41791883126274, 105.31303510252201)   tidak layak konsumsi      True   
2  (-5.37546883187783, 105.25501623675349)   tidak layak konsumsi     False   
3   (-5.39690771605578, 105.2110846330879)   tidak layak konsumsi      True   
4   (-5.37902105025945, 105.3139240442038)         layak konsumsi      True   

   is_for_child  is_for_elderly  is_alergan  
0         False           False        True  
1         False            True       False  
2         False           False        Tru

## Assesing Data

1. Memeriksa jumlah nilai kosong (missing values)

In [5]:
print("Jumlah Nilai Kosong pada Data Donor:")
print(donor_data.isnull().sum())
print("\nJumlah Nilai Kosong pada Data Penerima:")
print(receiver_data.isnull().sum())

Jumlah Nilai Kosong pada Data Donor:
donor_id                  0
jenis_makanan             0
jumlah_makanan            0
lokasi_donor              0
makanan_layak_konsumsi    0
is_halal                  0
is_for_child              0
is_for_elderly            0
is_alergan                0
dtype: int64

Jumlah Nilai Kosong pada Data Penerima:
penerima_id                 0
jenis_makanan_dibutuhkan    0
jumlah_dibutuhkan           0
lokasi_penerima             0
jumlah_diterima             0
makanan_layak_konsumsi      0
is_halal                    0
is_for_child                0
is_for_elderly              0
is_alergan_free             0
dtype: int64


2. Memeriksa data duplikat

In [6]:
print("\nJumlah Duplikasi pada Data Donor:")
print(donor_data.duplicated().sum())
print("\nJumlah Duplikasi pada Data Penerima:")
print(receiver_data.duplicated().sum())


Jumlah Duplikasi pada Data Donor:
0

Jumlah Duplikasi pada Data Penerima:
0


3. Melihat statistik deskriptif dataset

In [7]:
print("\nStatistik Deskriptif Data Donor:")
print(donor_data.describe(include='all'))
print("\nStatistik Deskriptif Data Penerima:")
print(receiver_data.describe(include='all'))


Statistik Deskriptif Data Donor:
       donor_id jenis_makanan  jumlah_makanan  \
count      2000          2000     2000.000000   
unique     2000             4             NaN   
top       D1984   ['minuman']             NaN   
freq          1           531             NaN   
mean        NaN           NaN        5.524000   
std         NaN           NaN        2.869066   
min         NaN           NaN        1.000000   
25%         NaN           NaN        3.000000   
50%         NaN           NaN        5.000000   
75%         NaN           NaN        8.000000   
max         NaN           NaN       10.000000   

                                  lokasi_donor makanan_layak_konsumsi  \
count                                     2000                   2000   
unique                                    2000                      3   
top     (-5.4174741054965, 105.31071641411299)         layak konsumsi   
freq                                         1                    703   
mean        

4. Mengidentifikasi nilai yang tidak wajar (outliers) dan inkonsistensi


In [8]:
# a. Memeriksa distribusi jumlah_makanan di data donor
print("\nDistribusi Jumlah Makanan (Data Donor):")
print(donor_data['jumlah_makanan'].describe())


Distribusi Jumlah Makanan (Data Donor):
count    2000.000000
mean        5.524000
std         2.869066
min         1.000000
25%         3.000000
50%         5.000000
75%         8.000000
max        10.000000
Name: jumlah_makanan, dtype: float64


In [9]:
# b. Memeriksa distribusi jumlah_dibutuhkan di data penerima
print("\nDistribusi Jumlah Dibutuhkan (Data Penerima):")
print(receiver_data['jumlah_dibutuhkan'].describe())


Distribusi Jumlah Dibutuhkan (Data Penerima):
count    2000.00000
mean        5.54350
std         2.84168
min         1.00000
25%         3.00000
50%         6.00000
75%         8.00000
max        10.00000
Name: jumlah_dibutuhkan, dtype: float64


In [10]:
# c. Memeriksa nilai unik untuk atribut kategori
print("\nJenis Makanan pada Data Donor:")
print(donor_data['jenis_makanan'].unique())
print("\nJenis Makanan Dibutuhkan pada Data Penerima:")
print(receiver_data['jenis_makanan_dibutuhkan'].unique())


Jenis Makanan pada Data Donor:
["['minuman']" "['minuman', 'makanan']" "['makanan']"
 "['makanan', 'minuman']"]

Jenis Makanan Dibutuhkan pada Data Penerima:
["['makanan']" "['minuman']" "['minuman', 'makanan']"
 "['makanan', 'minuman']"]


In [11]:
# d. Memeriksa inkonsistensi pada kolom makanan_layak_konsumsi
print("\nNilai Unik Kolom 'makanan_layak_konsumsi' Data Donor:")
print(donor_data['makanan_layak_konsumsi'].unique())
print("\nNilai Unik Kolom 'makanan_layak_konsumsi' Data Penerima:")
print(receiver_data['makanan_layak_konsumsi'].unique())


Nilai Unik Kolom 'makanan_layak_konsumsi' Data Donor:
['tidak layak konsumsi' 'layak konsumsi' 'hampir kadaluarsa']

Nilai Unik Kolom 'makanan_layak_konsumsi' Data Penerima:
['tidak layak konsumsi' "['hampir kadaluarsa', 'layak konsumsi']"
 "['hampir kadaluarsa']" "['layak konsumsi', 'hampir kadaluarsa']"
 "['layak konsumsi']"]


## Cleaning Data


Berdasarkan hasil proses assessing data, kami menyimpulkan bahwa dataset yang akan digunakan telah bebas dari masalah yang dapat memengaruhi analisis atau pemodelan pada tahap selanjutnya.

Namun, terdapat beberapa hal yang perlu diperhatikan, yaitu:

- Kombinasi `['makanan', 'minuman']` dan `['minuman', 'makanan']` seharusnya dianggap sama.
- Kombinasi `['layak konsumsi', 'hampir kadaluarsa']` dan `['hampir kadaluarsa', 'layak konsumsi']` juga harus dianggap sama.

Untuk itu, kami akan menyamakan keduanya menjadi urutan standar yaitu `['makanan', 'minuman']` dan `['layak konsumsi', 'hampir kadaluarsa']`.

Setelah proses pembersihan dan penyamaan data dilakukan, dataset yang telah disesuaikan akan disimpan dalam direktori yang sesuai untuk digunakan pada proses selanjutnya.

In [12]:
# Fungsi untuk memastikan urutan elemen yang benar dalam list
def correct_order(x):
    # Cek jika x berupa string yang berisi list (misalnya "['minuman', 'makanan']")
    if isinstance(x, str):
        try:
            # Coba mengonversi string menjadi list Python
            x = eval(x)
        except:
            # Jika gagal, berarti x bukan dalam format list, biarkan saja
            pass
    
    if isinstance(x, list):
        # Memperbaiki urutan pasangan list tertentu
        if 'minuman' in x and 'makanan' in x:
            # Mengurutkan sehingga 'makanan' muncul sebelum 'minuman'
            x.sort()  
        if 'layak konsumsi' in x and 'hampir kadaluarsa' in x:
            # Mengurutkan sehingga 'layak konsumsi' muncul sebelum 'hampir kadaluarsa'
            x.sort()  
            # Pastikan urutan yang benar adalah 'layak konsumsi' kemudian 'hampir kadaluarsa'
            if 'layak konsumsi' in x and 'hampir kadaluarsa' in x:
                x.remove('layak konsumsi')
                x = ['layak konsumsi'] + x
    return x

# Proses Cleaning untuk Data Penerima (makanan_layak_konsumsi dan jenis_makanan_dibutuhkan)
receiver_data['makanan_layak_konsumsi'] = receiver_data['makanan_layak_konsumsi'].apply(correct_order)
receiver_data['jenis_makanan_dibutuhkan'] = receiver_data['jenis_makanan_dibutuhkan'].apply(correct_order)

# Proses Cleaning untuk Data Donor (jenis_makanan)
donor_data['jenis_makanan'] = donor_data['jenis_makanan'].apply(correct_order)

In [13]:
# Menampilkan contoh data setelah dibersihkan
print("Contoh Data Penerima setelah Cleaning:")
print(receiver_data.head())

print("\nContoh Data Donor setelah Cleaning:")
print(donor_data.head())

Contoh Data Penerima setelah Cleaning:
  penerima_id jenis_makanan_dibutuhkan  jumlah_dibutuhkan  \
0          R1                [makanan]                  5   
1          R2                [makanan]                  5   
2          R3                [makanan]                  8   
3          R4                [minuman]                 10   
4          R5                [minuman]                  7   

                           lokasi_penerima  jumlah_diterima  \
0  (-5.40111210034528, 105.24284216038546)                4   
1   (-5.43770820552181, 105.2300245667009)                4   
2  (-5.39159919397975, 105.22541881010831)                5   
3  (-5.40173904848697, 105.23124733197133)                0   
4  (-5.39033872408051, 105.30929657079442)                2   

  makanan_layak_konsumsi  is_halal  is_for_child  is_for_elderly  \
0   tidak layak konsumsi     False         False           False   
1   tidak layak konsumsi     False         False           False   
2   tidak l

Menyimpan data pada direktori : 
- Untuk dataset donor: `cleaned_data_donor.csv`
- Untuk dataset penerima: `cleaned_data_receiver.csv`

In [14]:
donor_data.to_csv('cleaned_data/data_donor_cleaned.csv', index=False)
receiver_data.to_csv('cleaned_data/data_receiver_cleaned.csv', index=False)

print("Data Donor telah disimpan dalam 'cleaned_data/data_donor_cleaned.csv'")
print("Data Penerima telah disimpan dalam 'cleaned_data/data_receiver_cleaned.csv'")

Data Donor telah disimpan dalam 'cleaned_data/data_donor_cleaned.csv'
Data Penerima telah disimpan dalam 'cleaned_data/data_receiver_cleaned.csv'
