In [1]:
import pandas as pd

# 데이터 파일 경로 설정
file_path = './data/raw/recipes_data.csv'

# CSV 파일 불러오기
df = pd.read_csv(file_path)

# 데이터 크기 및 기본 정보 확인
print(df.shape)
print(df.info())
print(df.head())

(2231142, 7)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2231142 entries, 0 to 2231141
Data columns (total 7 columns):
 #   Column       Dtype 
---  ------       ----- 
 0   title        object
 1   ingredients  object
 2   directions   object
 3   link         object
 4   source       object
 5   NER          object
 6   site         object
dtypes: object(7)
memory usage: 119.2+ MB
None
                   title                                        ingredients  \
0    No-Bake Nut Cookies  ["1 c. firmly packed brown sugar", "1/2 c. eva...   
1  Jewell Ball'S Chicken  ["1 small jar chipped beef, cut up", "4 boned ...   
2            Creamy Corn  ["2 (16 oz.) pkg. frozen corn", "1 (8 oz.) pkg...   
3          Chicken Funny  ["1 large whole chicken", "2 (10 1/2 oz.) cans...   
4   Reeses Cups(Candy)    ["1 c. peanut butter", "3/4 c. graham cracker ...   

                                          directions  \
0  ["In a heavy 2-quart saucepan, mix brown sugar...   
1  ["Place chipp

In [2]:
# 결측치 제거
df = df.dropna()
print("결측치 제거 후 데이터 크기:", df.shape)

# 중복 데이터 제거
df = df.drop_duplicates()
print("중복 제거 후 데이터 크기:", df.shape)


결측치 제거 후 데이터 크기: (2231141, 7)
중복 제거 후 데이터 크기: (2231141, 7)


In [3]:
import re

# 재료에서 수량 및 단위 제거
def normalize_ingredient(ingredient):
    ingredient = re.sub(r'\d+.*?(cup|c\.|tsp\.|teaspoon|tbsp\.|tablespoon|oz|eggs?)', '', ingredient)
    ingredient = re.sub(r'\(.*?\)', '', ingredient)  # 괄호 안 내용 제거
    ingredient = re.sub(r'\s+', ' ', ingredient).strip()  # 공백 정리
    return ingredient.lower()


In [4]:
import ast  # 문자열을 리스트로 변환

# 문자열로 저장된 ingredients를 리스트로 변환
df['ingredients'] = df['ingredients'].apply(lambda x: ast.literal_eval(x))

# 재료 정규화
df['normalized_ingredients'] = df['ingredients'].apply(lambda x: [normalize_ingredient(i) for i in x])


In [5]:
from collections import Counter

# 모든 재료 리스트 합치기
all_normalized_ingredients = [item for sublist in df['normalized_ingredients'] for item in sublist]

# 재료 카운트
normalized_counts = Counter(all_normalized_ingredients)

# 상위 20개 재료 출력
print("정제된 재료 상위 20개:")
print(normalized_counts.most_common(20))

정제된 재료 상위 20개:
[('salt', 569371), ('sugar', 413374), ('', 401109), ('milk', 177919), ('flour', 172590), ('water', 168820), ('vanilla', 163027), ('pepper', 133506), ('baking powder', 110011), ('butter', 108714), ('baking soda', 98556), ('olive oil', 88499), ('cinnamon', 88015), ('brown sugar', 80363), ('s sugar', 77422), ('vanilla extract', 67394), ('s olive oil', 67374), ('s all-purpose flour', 64455), ('s water', 64201), ('sour cream', 63860)]


In [6]:
# 빈 문자열 제거 및 's '로 시작하는 재료 정리
df['normalized_ingredients'] = df['normalized_ingredients'].apply(
    lambda x: [i for i in x if i]  # 빈 문자열 제거
)

# 's '로 시작하는 재료에서 's ' 제거
df['normalized_ingredients'] = df['normalized_ingredients'].apply(
    lambda x: [i[2:] if i.startswith("s ") else i for i in x]
)

# 정제된 재료 확인
from collections import Counter

all_normalized_ingredients = [item for sublist in df['normalized_ingredients'] for item in sublist]
normalized_counts = Counter(all_normalized_ingredients)

print("정제된 재료 상위 20개:")
print(normalized_counts.most_common(20))


정제된 재료 상위 20개:
[('salt', 616031), ('sugar', 490796), ('water', 233021), ('flour', 223957), ('milk', 214777), ('vanilla', 173227), ('butter', 161043), ('olive oil', 155873), ('baking powder', 144983), ('pepper', 137301), ('all-purpose flour', 128077), ('baking soda', 112808), ('brown sugar', 98458), ('cinnamon', 98041), ('vanilla extract', 86232), ('lemon juice', 75667), ('vegetable oil', 74271), ('sour cream', 71203), ('mayonnaise', 67307), ('oil', 60163)]


In [7]:
# 전처리된 데이터 저장
df.to_csv('./data/processed/processed_recipes_data.csv', index=False)

print("전처리된 데이터 저장 완료")

전처리된 데이터 저장 완료
