In [None]:
# Import Library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Connect to Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Load Dataset
folder_path = '/content/drive/My Drive/bangkit/project/dataset/food-recipes/'

Mounted at /content/drive


In [None]:
import os

# List semua nama file
file_names = [
    'dataset-ayam.csv',
    'dataset-ikan.csv',
    'dataset-kambing.csv',
    'dataset-tahu.csv',
    'dataset-sapi.csv',
    'dataset-telur.csv',
    'dataset-udang.csv',
    'dataset-tempe.csv'
]

# Buat list untuk menyimpan DataFrame
dataframes = []

# Membaca setiap dataset
for file in file_names:
    file_path = os.path.join(folder_path, file)
    df = pd.read_csv(file_path)  # Sesuaikan delimiter jika tidak menggunakan koma
    # Menambahkan kolom untuk kategori (nama dataset)
    category = file.split('-')[1].split('.')[0]  # Mengambil nama kategori dari nama file
    df['category'] = category
    dataframes.append(df)

# Menggabungkan semua DataFrame
recipes_data = pd.concat(dataframes, ignore_index=True)

# Melihat hasil gabungan
print(recipes_data.shape)
recipes_data.head()

(15641, 6)


Unnamed: 0,Title,Ingredients,Steps,Loves,URL,category
0,Ayam Woku Manado,1 Ekor Ayam Kampung (potong 12)--2 Buah Jeruk ...,Cuci bersih ayam dan tiriskan. Lalu peras jeru...,1,/id/resep/4473027-ayam-woku-manado,ayam
1,Ayam goreng tulang lunak,1 kg ayam (dipotong sesuai selera jangan kecil...,"Haluskan bumbu2nya (BaPut, ketumbar, kemiri, k...",1,/id/resep/4471956-ayam-goreng-tulang-lunak,ayam
2,Ayam cabai kawin,1/4 kg ayam--3 buah cabai hijau besar--7 buah ...,Panaskan minyak di dalam wajan. Setelah minyak...,2,/id/resep/4473057-ayam-cabai-kawin,ayam
3,Ayam Geprek,250 gr daging ayam (saya pakai fillet)--Secuku...,Goreng ayam seperti ayam krispi--Ulek semua ba...,10,/id/resep/4473023-ayam-geprek,ayam
4,Minyak Ayam,400 gr kulit ayam & lemaknya--8 siung bawang p...,Cuci bersih kulit ayam. Sisihkan--Ambil 50 ml ...,4,/id/resep/4427438-minyak-ayam,ayam


In [None]:
# Hapus Duplikasi
df.drop_duplicates(inplace=True)

In [None]:
# Jumlah missing value per kolom
print(recipes_data.isnull().sum())

Title           0
Ingredients    48
Steps          46
Loves           0
URL             0
category        0
dtype: int64


In [None]:
# Menghapus baris yang memiliki missing value
recipes_data = recipes_data.dropna()

# Cek kembali missing value setelah penghapusan
print(recipes_data.isnull().sum())


Title          0
Ingredients    0
Steps          0
Loves          0
URL            0
category       0
dtype: int64


In [None]:
# Cek Tipe Data
print(recipes_data.dtypes)

Title          object
Ingredients    object
Steps          object
Loves           int64
URL            object
category       object
dtype: object


In [None]:
# Validasi Format URL
import re
def validate_url(url):
    regex = r'^https?:\/\/.*'
    return bool(re.match(regex, url))

recipes_data['valid_url'] = recipes_data['URL'].apply(validate_url)
print(recipes_data['valid_url'].value_counts())  # Pastikan semua URL valid


valid_url
False    15593
Name: count, dtype: int64


In [None]:
# Menambahkan "https://" jika URL tidak dimulai dengan protokol
recipes_data['URL'] = recipes_data['URL'].apply(
    lambda x: f"https://{x}" if not x.startswith(("http://", "https://")) else x
)

# Validasi Ulang
recipes_data['valid_url'] = recipes_data['URL'].apply(validate_url)
print(recipes_data['valid_url'].value_counts())


valid_url
True    15593
Name: count, dtype: int64


In [None]:
# Check isi dataset
print(recipes_data)


                          Title  \
0              Ayam Woku Manado   
1      Ayam goreng tulang lunak   
2              Ayam cabai kawin   
3                   Ayam Geprek   
4                   Minyak Ayam   
...                         ...   
15636   Tempe mendol jawa timur   
15637        Tempe goreng gurih   
15638    Oseng tempe Lombok ijo   
15639   Tahu tempe bumbu kuning   
15640             Keripik tempe   

                                             Ingredients  \
0      1 Ekor Ayam Kampung (potong 12)--2 Buah Jeruk ...   
1      1 kg ayam (dipotong sesuai selera jangan kecil...   
2      1/4 kg ayam--3 buah cabai hijau besar--7 buah ...   
3      250 gr daging ayam (saya pakai fillet)--Secuku...   
4      400 gr kulit ayam & lemaknya--8 siung bawang p...   
...                                                  ...   
15636  1 papan tempe--2 bawang putih--4 bawang merah-...   
15637  1 papan tempe--2-3 siung bawang putih--+ 1cm k...   
15638  1/4 papan tempe--11 Lombok ijo--

In [None]:
# Tambah prefix cookpad.com
recipes_data['URL'] = recipes_data['URL'].str.replace(
    'https:///', 'https://cookpad.com/', regex=False
)

# Cek beberapa URL
print(recipes_data['URL'].head(10))

# Validasi ulang jika perlu
def validate_url(url):
    regex = r'^https:\/\/cookpad\.com\/.*'
    return bool(re.match(regex, url))

recipes_data['valid_url'] = recipes_data['URL'].apply(validate_url)
print(recipes_data['valid_url'].value_counts())


0    https://cookpad.com/id/resep/4473027-ayam-woku...
1    https://cookpad.com/id/resep/4471956-ayam-gore...
2    https://cookpad.com/id/resep/4473057-ayam-caba...
3     https://cookpad.com/id/resep/4473023-ayam-geprek
4     https://cookpad.com/id/resep/4427438-minyak-ayam
5    https://cookpad.com/id/resep/4472552-nasi-baka...
6    https://cookpad.com/id/resep/4437475-ayam-saus...
7    https://cookpad.com/id/resep/4472877-ayam-saos...
8      https://cookpad.com/id/resep/4472822-steak-ayam
9    https://cookpad.com/id/resep/4472901-ayam-saos...
Name: URL, dtype: object
valid_url
True    15593
Name: count, dtype: int64


In [None]:
# Cleaning kolom Ingredients

import re
# Fungsi untuk membersihkan kolom Ingredients
def clean_ingredients(ingredients):
    # Ubah semua teks menjadi huruf kecil
    ingredients = ingredients.lower()
    # Hapus karakter yang tidak diperlukan seperti tanda baca
    ingredients = re.sub(r'[^\w\s]', '', ingredients)
    # Pecah bahan menjadi daftar kata
    ingredients = ingredients.split()
    return ' '.join(ingredients)  # Gabungkan kembali menjadi string

# Terapkan fungsi ini ke kolom Ingredients
recipes_data['clean_ingredients'] = recipes_data['Ingredients'].apply(clean_ingredients)

# Lihat hasil cleaning
print(recipes_data[['Ingredients', 'clean_ingredients']].head())


                                         Ingredients  \
0  1 Ekor Ayam Kampung (potong 12)--2 Buah Jeruk ...   
1  1 kg ayam (dipotong sesuai selera jangan kecil...   
2  1/4 kg ayam--3 buah cabai hijau besar--7 buah ...   
3  250 gr daging ayam (saya pakai fillet)--Secuku...   
4  400 gr kulit ayam & lemaknya--8 siung bawang p...   

                                   clean_ingredients  
0  1 ekor ayam kampung potong 122 buah jeruk nipi...  
1  1 kg ayam dipotong sesuai selera jangan kecil2...  
2  14 kg ayam3 buah cabai hijau besar7 buah cabai...  
3  250 gr daging ayam saya pakai filletsecukupnya...  
4  400 gr kulit ayam lemaknya8 siung bawang putih...  


In [None]:
# Save dataset yang sudah bersih menjadi CSV
recipes_data.to_csv('food_recipes.csv', index=False)

In [None]:
# Download clean dataset
from google.colab import files
files.download('food_recipes.csv')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>