In [15]:
"""
Ingredient Full Cleaner Pipeline
--------------------------------
1. recipe_by_type.csv 파일을 읽어
2.ingredient_full 컬럼의 문자열 리스트를 {'재료명': '양/단위'} 딕셔너리로 변환
3. IngredientETL의 네이밍 정제 규칙을 적용 (양념류 제거 ❌)
4. 정제된 딕셔너리를 다시 ingredient_full에 업데이트 후 CSV로 저장
"""

import pandas as pd
import re
import ast
import logging
from typing import List, Set
import pandas as pd
import pymysql
import ast
import json
import logging
from sqlalchemy import create_engine


# ========================================
# 1. IngredientETL 클래스
# ========================================

class IngredientETL:
    def __init__(self):
        # ✅ 고기류 표준화
        self.meat_patterns = {
            #소고기
            r'소고기.*양지|양지머리|소고기양지': '소고기_양지',
            r'소고기.*국거리|국거리용 소고기': '소고기_국거리',
            r'소고기.*갈비찜': '소고기_갈비찜',
            r'소고기.*등심': '소고기_등심',
            r'꽃등심': '소고기_꽃등심',
            r'불고기용 소고기': '소고기',
            r'갈비탕용[ ]*소고기': '소고기_갈비탕',
            r'갈비찜고기': '소고기_갈비찜',
            r'간[ ]*소고기|소고기[ ]*간|소고기[ ]*다짐|갈은[ ]*소고기|소고기[ ]*갈은': '소고기_다짐육',
            r'쇠고기': '소고기_양지',

            # 🐖 돼지고기
            r'돼지고기.*다짐육|돼지고기간|돼지고기[ ]*갈은|돼지고기[ ]*간|간[ ]*돼지고기': '돼지고기_다짐육',
            r'돼지고기.*삼겹살|대패삼겹살|대패돼지고기|대패 삼겹살': '돼지고기_삼겹살',
            r'돼지고기.*등심|돼지등심': '돼지고기_등심',
            r'돼지고기.*목살|돼지목살|돼지고기목심': '돼지고기_목살',
            r'돼지고기.*안심': '돼지고기_안심',
            r'돼지고기.*사태': '돼지고기_사태',
            r'돼지고기.*오겹살': '돼지고기_오겹살',
            r'돼지고기.*불고기': '돼지고기_불고기',
            r'돼지고기.*전지|돼지고기앞다리살|돼지고기앞다리|불고기용 돼지고기 앞다리살|국거리 돼지고기|돼지앞다리살|돼지고기 수육꺼리앞다리살': '돼지고기_앞다리살',
            r'돼지고기.*찌개': '돼지고기_찌개',
            r'돼지등갈비': '돼지고기_등갈비',
            r'돼지등뼈|감자탕용 돼지등뼈': '돼지고기_등뼈',
            r'돼지껍데기': '돼지고기_껍데기',
            r'돼지갈비': '돼지고기_갈비',
            r'보쌈용 돼지고기|두툼한 돼지고기': '돼지고기',
            
            # 🐔 닭고기
            r'닭.*가슴살': '닭고기_가슴살',
            r'닭.*닭봉': '닭고기_닭봉',
            r'닭.*다리': '닭고기_다리',
            r'닭.*날개': '닭고기_날개',
            r'닭.*안심': '닭고기_안심',
            r'닭.*모래집': '닭고기_모래집',
            r'닭.*볶음탕|볶음용': '닭고기_닭볶음탕',
            r'닭 한마리|닭고기': '닭고기',

            # 기타
            r'베이컨': '베이컨',
        }

        # ----------------------------------
        # ✂️ 불필요한 단어·형용사 제거 및 통합 규칙
        # ----------------------------------
        self.description_patterns = [
            # 신규·보강 규칙
            (r'.*이태리[ ]*파슬리.*', '파슬리'),
            (r'.*(핫케이크[ ]*가루|핫케이크가루|핫케익가루|핫케잌가루).*', '핫케이크가루'),
            (r'.*크랜베리.*', '건크랜베리'),
            (r'.*(고추가루|고춧가루).*', '고추가루'),
            (r'.*고추[ ]*가루.*', '고추가루'),
            (r'.*국간장.*', '국간장'),
            (r'.*만두.*', '만두'),
            (r'.*만두피.*', '만두피'),  # ⚠️ 예외 규칙은 위 만두보다 먼저 위치해야 함
            (r'.*맛술.*', '맛술'),
            (r'.*(머스타드|머스터드).*', '머스타드'),
            (r'.*명란.*', '명란'),
            (r'.*무우.*', '무'),
            (r'.*새송이.*', '새송이버섯'),
            (r'.*(밀가루|중력분|박력분).*', '밀가루'),
            (r'.*배추.*', '배추'),
            (r'.*부대찌개용[ ]*콩.*', '콩'),
            (r'.*봄동.*', '봄동'),
            (r'.*비엔나.*', '햄/소시지'),
            (r'.*생닭.*', '닭고기'),
            (r'.*(샤부샤부용|샤브샤브용)[ ]*소고기.*', '소고기_샤브샤브'),
            (r'.*알배기.*', '알배추'),
            (r'.*(얼갈이[ ]*배추|얼갈이).*', '얼갈이배추'),
            (r'.*와사비.*', '와사비'),
            (r'.*청주.*', '청주'),
            (r'.*후리가케.*', '후리카케'),
            (r'.*알배추.*', '알배추'),             
            (r'.*볶음탕.*', '닭고기_닭볶음탕'), 
            (r'.*소고기.*목심.*', '소고기_목심'),   
            (r'.*골뱅이.*', '골뱅이'),   
            (r'.*(청양고추|꽈리고추).*', '꽈리고추'),
            (r'.*마늘.*', '다진마늘'),
            (r'.*굴.*', '굴'),
            (r'.*설탕.*', '설탕'),
            (r'.*고등어.*', '고등어'),
            (r'.*가자미.*', '가자미'),
            (r'.*낙지.*', '낙지'),
            (r'.*콘.*', '옥수수'),
            (r'.*스파게티.*', '스파게티면'),
            (r'.*양상추.*', '양상추'),
            (r'.*미역.*', '미역'),
            (r'.*호박.*', '호박'),
            (r'.*쪽파.*', '파'),
            (r'.*고구마.*', '고구마'),
            (r'.*차돌박이.*', '차돌박이'),
            (r'.*당근.*', '당근'),
            (r'.*표고.*', '표고버섯'),
            (r'.*크래미.*|.*크레미.*', '맛살'),
            (r'.*파인애플.*', '파인애플'),
            (r'.*페퍼론치노.*|.*페페로치노.*|.*페페론치노.*|.*페페론치니.*', '건고추'),
            (r'.*페투치니면.*', '파스타면'),
            (r'.*플레인.*', '플레인요거트'),
            (r'.*앞다리살.*', '돼지고기_앞다리살'),
            (r'.*바지락.*', '바지락'),
            (r'.*해산.*', '해물'),
            (r'.*양파.*', '양파'),
            (r'.*감자.*', '감자'),
            (r'.*황태.*', '황태'),
            (r'.*우유.*', '우유'),
            (r'.*삼겹.*', '돼지고기_삼겹살'),
            (r'.*대파.*', '파'),
            (r'.*채[ ]*무.*', '무'),                  
            (r'.*무우.*', '무'),
            (r'.*무.*', '무'),
            (r'.*알배추.*', '알배추'),               
            (r'.*알배기.*', '알배추'),
            (r'.*(얼갈이[ ]*배추|얼갈이).*', '얼갈이배추'),
            (r'.*미니토마토.*', '방울토마토'),          
            (r'.*완숙토마토.*', '토마토'),                
            
            # 닭고기류
            (r'.*뼈[ ]*제거.*닭.*한마리.*', '닭'),       
            (r'.*(백숙용|영계).*닭.*', '닭고기_삼계탕'),    
            (r'.*(영계닭|영계).*', '닭고기_삼계탕'),        
            (r'.*삼계탕용.*', '닭고기_삼계탕'),             
            (r'.*볶음탕.*', '닭고기_닭볶음탕'),             
            (r'.*생닭.*', '닭고기'),           
            (r'.*절단[ ]*닭.*', '닭고기'),
                       
            # 새우/게류
            (r'.*건새우.*', '건새우'),
            (r'(?<!건).*새우.*', '새우'),
            (r'.*게.*|.*꽃게.*', '게'),

            # 소고기 세부 부위
            (r'.*소고기불고기.*|.*한우.*소고기불고기.*', '소고기_불고기'),
            (r'.*소고기샤브샤브.*', '소고기_샤브샤브'),
            (r'.*소고기차돌박이.*', '소고기_차돌박이'),
            (r'.*소고기척아이롤.*', '소고기_척아이롤'),
            (r'.*한우.*소고기.*살치살.*', '소고기_살치살'),
            (r'.*한우.*양지.*', '소고기_양지'),
            (r'.*스테이크용고기.*', '소고기'),
            (r'.*(아롱사태.*소고기|소고기.*아롱사태|아롱사태).*', '소고기_아롱사태'),
            (r'.*업진살[ ]*소고기.*', '소고기_업진살'),
            (r'.*소고기.*목심.*', '소고기_목심'),
            (r'.*(샤부샤부용|샤브샤브용)[ ]*소고기.*', '소고기_샤브샤브'),

            # 돼지고기 세부 부위
            (r'.*수육용[ ]*(삼겹살|통삼겹).*', '돼지고기_삼겹살'),
            (r'.*항정살.*', '돼지고기_항정살'),

            # 면류
            (r'.*소면.*', '소면'),
            (r'.*떡볶이.*', '떡볶이 떡'),
            (r'.*우동.*', '우동사리'),
            (r'.*칼국수.*', '칼국수면'),

            # 해산물·일반 재료
            (r'.*해물.*', '해물'),
            (r'.*오징어.*', '오징어'),
            (r'.*문어.*', '문어'),
            (r'.*바지락.*', '바지락'),
            (r'.*꼬막.*', '꼬막'),
            (r'.*꽁치.*', '꽁치'),
            (r'.*가다랭이포.*|.*가쓰오부시.*|.*가츠오부시.*', '가쓰오부시'),

            # 기본 재료·조미료
            (r'.*돈까스.*', '돈가스'),
            (r'.*된장.*', '된장'),
            (r'.*설탕.*', '설탕'),
            (r'.*생강.*', '다진생강'),

            # 기타 통합
            (r'.*양상추.*', '양상추'),
            (r'.*어묵.*', '어묵'),
            (r'.*불고기.*', '불고기'),
            (r'.*맛살.*', '맛살'),
            (r'.*치킨너겟.*|.*너겟.*', '치킨너겟'),
            (r'.*카레.*', '카레'),
            (r'.*김.*', '김'),
            (r'.*깨.*', '깨'),
            (r'.*멸치.*', '멸치'),
            (r'.*옥수수.*', '옥수수'),
            (r'.*(햄|소세지|소시지|스팸).*', '햄/소시지'),
            (r'.*오리.*', '훈제오리'),
            (r'.*시판[ ]*콩비지.*', '콩비지'),
            (r'.*부대찌개용[ ]*콩.*', '콩'),
            
            # 유제품 / 디저트
            (r'.*액티비아.*', '플레인요거트'),

            # 곡류 / 밀가루 / 가루류
            (r'.*(밀가루|중력분|박력분).*', '밀가루'),

            # 떡류
            (r'.*떡볶이.*', '떡볶이 떡'),
            (r'.*(떡국[ ]*떡|떡국용[ ]*떡|떡국용떡).*', '떡국떡'),

            # 기타 재료
            (r'.*모둠전.*|.*모듬전.*', '모둠전'),
            (r'.*새송이.*', '새송이버섯'),
            (r'.*파[ ]*뿌리.*', '파뿌리'),
            (r'.*파[ ]*흰부분.*', '파'),
            (r'^닭$', '닭고기'),
            (r'.*(커피[ ]*믹스|커피가루|커피).*', '커피가루'),
            (r'.*(코코아[ ]*가루|코코아[ ]*분말).*', '코코아 가루'),
            (r'.*(홍[ ]*고추|홍고추).*', '고추'),

        ]

        # ----------------------------------
        # 품목 통합 (마지막 레이어)
        # ----------------------------------
        self.name_unify_patterns = {
            r'^감자.*': '감자',
            r'^고구마.*': '고구마',
            r'^양파.*': '양파',
            r'^대파.*|파$': '파',
            r'.*버섯.*': '버섯',
            r'휘핑크림.*|생크림.*': '휘핑크림',
            r'파프리카.*': '파프리카',
            r'피망.*': '피망',
            r'오이.*': '오이',
            r'달걀.*|계란.*': '계란',
            r'김치.*': '김치',
            r'^당근.*': '당근',
            r'브로콜리.*|브로컬리.*': '브로콜리',
            r'두부.*': '두부',
            r'.*치즈.*': '치즈',
            r'참치.*': '참치',
            r'양배추.*': '양배추',
            r'쌀.*|밥.*': '쌀/밥',
            r'채소.*|야채.*': '채소',
        }

        # ----------------------------------
        # 수식어/불필요한 단어 제거
        # ----------------------------------
        self.redundant_modifiers = [
            "다진", "썬", "잘게", "채썬", "볶은", "삶은", "데친",
            "익힌", "말린", "껍질벗긴", "씨뺀", "통째로", "조각낸",
            "조각", "슬라이스", "얇게썬", "잘게썬", "큰", "작은",
            "적당히", "조금", "사이즈", "냉동", "중간", "것",
            "먹을만큼", "파리", "조그만", "한입"
        ]
    # --------------------------
    # 불필요 단어 제거
    # --------------------------
    def remove_description(self, ingredient: str) -> str:
        result = ingredient
        for pattern, replacement in self.description_patterns:
            result = re.sub(pattern, replacement, result)
        return ' '.join(result.split()).strip()

    # --------------------------
    # 고기류 표준화
    # --------------------------
    def normalize_meat(self, ingredient: str) -> str:
        for pattern, standard in self.meat_patterns.items():
            if re.search(pattern, ingredient):
                return standard
        return ingredient.strip()

    # --------------------------
    # 재료명 통합
    # --------------------------
    def unify_name(self, ingredient: str) -> str:
        name = ingredient
        for word in self.redundant_modifiers:
            name = re.sub(word, '', name)
        for pattern, unified in self.name_unify_patterns.items():
            if re.search(pattern, name):
                name = unified
                break
        return name.strip()


# ========================================
# 2. 재료명/단위 분리 함수
# ========================================

def make_ingredient_dict(ingredient_list):
    """
    재료 리스트를 {'재료명': '양/단위'} 형태로 변환
    """
    ingredient_dict = {}

    # 단위/표현 키워드 목록
    amount_keywords = [
        '약간', '적당히', '조금', '큼직하게', '솔솔', '톡톡', '적당량', '한줌',
        '보통사이즈', '작은거', '큰캔', '선택사항', '생략가능', '크게', '깍아서',
        '중간크기', '중간사이즈', '또는', '손가락길이', '손가락 길이', '정도', '소량',
        '듬뿍', '넉넉히', '취향껏', '원하는만큼', '기호에맞게', '필요한만큼', '탈탈탈', '살짝',
        '인분', '개', '큰술', '작은술', '숟가락', '컵', 't', 'T', 'ml', 'g', '줌'
    ]

    # 수량 / 단위 패턴 (숫자 + 단위 or 키워드)
    amount_pattern = re.compile(
        r'('
        r'(?:\d[\d\/\.\~]*\s*[가-힣A-Za-z%]*)'
        + '|' + '|'.join(amount_keywords) +
        r')'
    )

    for item in ingredient_list:
        if not item or not isinstance(item, str):
            continue

        item = item.strip()
        name, raw_amount = "", ""

        # ------------------------------------
        # 1️⃣ 숫자 또는 키워드 기준 분리 (우선)
        # ------------------------------------
        parts = re.split(r'\s*(?=\d|' + '|'.join(amount_keywords) + r')', item)
        name = parts[0].strip()
        matches = amount_pattern.findall(item)
        raw_amount = ' '.join(matches).strip() if matches else ""

        # ------------------------------------
        # 2️⃣ 숫자/단위가 없으면 공백 기준 보조 분리
        # ------------------------------------
        if not raw_amount:
            parts = re.split(r'\s{2,}', item)
            if len(parts) == 2:
                name, raw_amount = parts[0].strip(), parts[1].strip()

        # ------------------------------------
        # 3️⃣ 텍스트 정제
        # ------------------------------------
        name = re.sub(r'[^가-힣A-Za-z0-9\s]', '', name).strip()
        raw_amount = re.sub(r'\s+', ' ', raw_amount).strip()

        # ------------------------------------
        # 4️⃣ 결과 저장
        # ------------------------------------
        if name:
            ingredient_dict[name] = raw_amount or None

    return ingredient_dict



# DB 연결 (SQLAlchemy 방식으로)
engine = create_engine(
    "mysql+pymysql://lgup3:lgup3P%40ssw0rd@211.51.163.232:19306/lgup3?charset=utf8mb4"
)

# recipe_id와 ingredient_full만 추출
df = pd.read_sql("SELECT recipe_id, ingredient_full FROM recipe;", engine)

# CSV로 저장
df.to_csv("recipe_ingredient_raw.csv", index=False, encoding="utf-8-sig")
print("✅ DB → CSV 저장 완료: recipe_ingredient_raw.csv")

✅ DB → CSV 저장 완료: recipe_ingredient_raw.csv


In [16]:

# ========================================
# 3. CSV 로드 및 적용
# ========================================
if __name__ == "__main__":
    df = pd.read_csv("recipe_by_type.csv")
    etl = IngredientETL()

    cleaned_list = []

    for idx, row in df.iterrows():
        try:
            ingredients = ast.literal_eval(row["ingredient_full"])
            ing_dict = make_ingredient_dict(ingredients)

            # ETL 정제 적용
            cleaned_dict = {}
            for name, amt in ing_dict.items():
                cleaned_name = etl.unify_name(
                    etl.normalize_meat(
                        etl.remove_description(name)
                    )
                )
                cleaned_dict[cleaned_name] = amt

            cleaned_list.append(cleaned_dict)
        except Exception as e:
            logging.error(f"Row {idx} 처리 실패: {e}")
            cleaned_list.append({})

    df["ingredient_full"] = cleaned_list
    df.to_csv("recipe_by_type_cleaned.csv", index=False, encoding="utf-8-sig")
    print("✅ CSV 저장 완료 → recipe_by_type_cleaned.csv")


✅ CSV 저장 완료 → recipe_by_type_cleaned.csv


In [17]:
import pandas as pd
import ast
import json
import logging

etl = IngredientETL()
df = pd.read_csv("recipe_ingredient_raw.csv")

cleaned_list = []

for idx, row in df.iterrows():
    try:
        ingredients = ast.literal_eval(row["ingredient_full"])

        # ✅ 리스트 안에 dict 구조면 병합
        if isinstance(ingredients, list):
            ing_dict = {}
            for item in ingredients:
                if isinstance(item, dict):
                    ing_dict.update(item)
        elif isinstance(ingredients, dict):
            ing_dict = ingredients
        else:
            logging.warning(f"⚠️ 예상치 못한 타입: {type(ingredients)}")
            cleaned_list.append({})
            continue

        # ✅ ETL 적용
        cleaned_dict = {}
        for name, amt in ing_dict.items():
            cleaned_name = etl.unify_name(
                etl.normalize_meat(
                    etl.remove_description(name)
                )
            )
            cleaned_dict[cleaned_name] = amt

        cleaned_list.append(cleaned_dict)

    except Exception as e:
        logging.error(f"⚠️ Row {idx} 처리 실패: {e}")
        cleaned_list.append({})

# ✅ 정제 결과 저장
df["ingredient_full"] = cleaned_list
df.to_csv("recipe_ingredient_cleaned.csv", index=False, encoding="utf-8-sig")
print("✅ 전처리 완료 → recipe_ingredient_cleaned.csv")


✅ 전처리 완료 → recipe_ingredient_cleaned.csv


In [18]:
import pandas as pd
import pymysql
import ast
import json
from tqdm import tqdm  # 진행 표시 (pip install tqdm)

# 1️⃣ CSV 로드
df = pd.read_csv("recipe_by_type_cleaned.csv", usecols=["recipe_id", "ingredient_full"])

# 2️⃣ DB 연결
conn = pymysql.connect(
    host="211.51.163.232",
    port=19306,
    user="lgup3",
    password="lgup3P@ssw0rd",   # ✅ PyMySQL에서는 %40 인코딩 불필요
    database="lgup3",
    charset="utf8mb4"
)

# 3️⃣ UPDATE 쿼리 준비
update_query = """
UPDATE recipe_backup
SET ingredient_full = %s
WHERE recipe_id = %s
"""

# 4️⃣ 변환 + 업데이트 반복
count, error_count = 0, 0

with conn.cursor() as cursor:
    for _, row in tqdm(df.iterrows(), total=len(df), desc="Updating recipes"):
        recipe_id = row["recipe_id"]
        raw_value = row["ingredient_full"]

        # NaN 또는 비어있을 때 skip
        if pd.isna(raw_value) or str(raw_value).strip() == "":
            continue

        try:
            # 문자열 → 딕셔너리 (예: "{'당근': '1개'}")
            parsed_dict = ast.literal_eval(raw_value)
            # 딕셔너리 → JSON 문자열
            ingredient_json = json.dumps(parsed_dict, ensure_ascii=False)

            cursor.execute(update_query, (ingredient_json, recipe_id))
            count += 1

        except Exception as e:
            error_count += 1
            print(f"⚠️ 변환 오류 (recipe_id={recipe_id}): {e}")

# 5️⃣ 커밋 및 종료
conn.commit()
conn.close()

print(f"\n✅ 총 {count}개의 recipe 행이 업데이트 완료되었습니다.")
if error_count > 0:
    print(f"⚠️ 변환 실패 {error_count}건 존재 — 로그 확인 필요.")


Updating recipes: 100%|██████████| 1829/1829 [00:15<00:00, 114.46it/s]


✅ 총 1829개의 recipe 행이 업데이트 완료되었습니다.



