In [1]:
import pandas as pd
from sqlalchemy import create_engine

# 1️⃣ 연결 (MariaDB/MySQL)
engine = create_engine('mysql+pymysql://lgup3:lgup3P%40ssw0rd@211.51.163.232:19306/lgup3')

# 2️⃣ 컬럼만 불러오기
df = pd.read_sql("SELECT ingredient_full FROM recipe;", con=engine)

# 3️⃣ 확인
print(df.head())

# 필요 시 파일로 저장
df.to_csv("ingredient_full_from_db.csv", index=False, encoding="utf-8-sig")

print("✅ DB에서 ingredient_full 컬럼 불러오기 완료 → ingredient_full_from_db.csv")


                                     ingredient_full
0  {"햄/소시지": "30개", "양파": "1개", "캐첩": "5큰술", "간장"...
1  {"버섯": "2개", "버터": "30g", "채소": null, "간장": "1...
2  {"풋고추": "10개", "된장": "2T", "마늘": "1/3T", "파": ...
3  {"베이컨": null, "파": null, "떡": null, "간장": null...
4  {"오이": "7개", "쌈장": "1T", "고춧가루": "1/2T", "올리고당...
✅ DB에서 ingredient_full 컬럼 불러오기 완료 → ingredient_full_from_db.csv


In [14]:
import pandas as pd
import ast

# 1️⃣ CSV 로드
df = pd.read_csv("recipe_by_type_cleaned.csv")

# 2️⃣ 고유 재료명을 담을 set
unique_keys = set()

# 3️⃣ 각 행의 ingredient_full 값 파싱
for item in df["ingredient_full"].dropna():
    try:
        ingredient_dict = ast.literal_eval(item)  # 문자열 → dict
        unique_keys.update(ingredient_dict.keys())  # key만 추가
    except Exception:
        continue  # 비정상 데이터는 skip

# 4️⃣ 결과 정렬 및 출력
unique_keys = sorted(unique_keys)
print(f"✅ 총 {len(unique_keys)}개의 고유 재료명 추출 완료!")
print(unique_keys[:30])

# 5️⃣ CSV로 저장 (선택)
pd.Series(unique_keys).to_csv("unique_ingredient_keys.csv", index=False, encoding="utf-8-sig")
print("📂 고유 재료명 저장 완료 → unique_ingredient_keys.csv")


✅ 총 636개의 고유 재료명 추출 완료!
['LA갈비', 'PN멀티팟', '가래떡', '가리비', '가쓰오부시', '가자미', '가지', '가쯔오장국', '간장', '갈비', '갈치', '감자', '감초', '강력분', '건고추', '건다시마', '건대추', '건크랜베리', '건포도', '건홍합', '검은콩', '게', '겨자', '견과류', '계란', '계피가루', '고구마', '고기', '고등어', '고사리']
📂 고유 재료명 저장 완료 → unique_ingredient_keys.csv


--------------------------------

In [38]:
import pandas as pd
import ast
from sqlalchemy import create_engine

# ----------------------------------------
# 1️⃣ 제거 키워드
# ----------------------------------------
REMOVE_KEYWORDS = {
    '소금','후추','설탕','간장','고추장','된장','청국장','고춧가루','참기름','들기름',
    '식용유','국간장','진간장','맛술','액젓','물엿','올리고당','초고추장','새우젓',
    '젓갈','깨소금','고춧기름','케첩','토마토케첩','마요네즈','머스타드',
    '굴소스','페스토','소스','시럽','양념','드레싱','스톡','시즈닝','다시다','조미','쌈장',
    '양념장','양념간장','베이킹','머스터드','미림','에센스','식초','청주','맛간장',
    '허브','매실액','깨','발사믹','와사비','월계수','참치액','캐첩','흰자','노른자',
    '천일염','전분','녹말','고운','고춧','까나리','냉수','뉴 슈거','뉴슈가','장국',
    '오일','유','포도씨유','카놀라유','올리브유','올리브 오일','허브솔트','허브 솔트',
    '허브맛솔트','허브맛 솔트','기름','버터','마가린',
    '펩시','콜라','사이다','맥주','와인','소주','청주','럼','위스키',
    '시판용','인스턴트','즉석','라면스프','라면스톡','스프가루','가루소스',
    '물','국물','육수','즙','엑기스','엑스','청','베이스','생수',
    '종이컵','나무꼬지','꼬지','비닐','랩','호일','도마','젓가락','국자','냄비','프라이팬',
    '컵','볼','숟가락','숟가락으로','계량','오븐','전자렌지','식기','젓개','용기','그릇',
    '집게','은박컵','틀','버너','찜기','거름망','찜솥','포장','랩으로','용량','PN멀티팟','비닐팩',
    '빨대','전자렌지', '올리고', '올리고당', '월계수', '고추가루', '면수','사리곰탕스프', '올리고 당',
    '요리당', '요리 당', '후춧가루', 
}

# ----------------------------------------
# 2️⃣ ‘마늘’ 포함 통합 함수
# ----------------------------------------
def normalize_name(name: str) -> str:
    name = name.strip()
    if "마늘" in name:
        return "마늘"
    return name

# ----------------------------------------
# 3️⃣ 고유 재료 추출 함수
# ----------------------------------------
def extract_unique_ingredients_from_db(engine, table_name: str, output_path: str = "unique_ingredients_clean.csv"):
    """DB에서 ingredient_full 컬럼을 불러와 조미료/기름/도구류 제거 후 고유 재료명 추출"""
    # 데이터 로드
    df = pd.read_sql(f"SELECT ingredient_full FROM {table_name};", con=engine)
    print(f"📦 {table_name} 테이블에서 {len(df)}개 행 로드 완료")

    unique_ingredients = set()

    # 각 행의 ingredient_full 파싱
    for item in df["ingredient_full"].dropna():
        try:
            ingredient_dict = ast.literal_eval(item)
            for ing in ingredient_dict.keys():
                ing = normalize_name(ing)
                # 제거 키워드 포함 안 된 재료만 추가
                if not any(keyword in ing for keyword in REMOVE_KEYWORDS):
                    unique_ingredients.add(ing)
        except Exception:
            continue

    # 정렬 및 저장
    unique_ingredients = sorted(unique_ingredients)
    pd.Series(unique_ingredients).to_csv(output_path, index=False, encoding="utf-8-sig")

    print(f"✅ 총 {len(unique_ingredients)}개의 고유 재료명 추출 완료 → {output_path}")
    return unique_ingredients


# ----------------------------------------
# 4️⃣ 실행
# ----------------------------------------
if __name__ == "__main__":
    # ✅ 당신의 DB 엔진
    engine = create_engine('mysql+pymysql://lgup3:lgup3P%40ssw0rd@211.51.163.232:19306/lgup3?charset=utf8mb4')

    # ✅ 함수 실행 (테이블 이름만 수정)
    extract_unique_ingredients_from_db(engine, table_name="recipe")


📦 recipe 테이블에서 1784개 행 로드 완료
✅ 총 304개의 고유 재료명 추출 완료 → unique_ingredients_clean.csv


In [41]:
import pandas as pd
import pymysql
from tqdm import tqdm

# 1️⃣ CSV 읽기
df = pd.read_csv("unique_ingredients_clean.csv", header=None, names=["ingredient_name"])

# 2️⃣ DB 연결
conn = pymysql.connect(
    host="211.51.163.232",
    port=19306,
    user="lgup3",
    password="lgup3P@ssw0rd",
    database="lgup3",
    charset="utf8mb4"
)
cursor = conn.cursor()

# 3️⃣ 현재 DB에 존재하는 재료명 불러오기
cursor.execute("SELECT ingredient_name FROM ingredient;")
existing = {row[0] for row in cursor.fetchall()}  # set으로 저장 (검색 빠름)

# 4️⃣ INSERT 쿼리
insert_query = """
INSERT INTO ingredient (ingredient_name)
VALUES (%s)
"""

# 5️⃣ CSV에서 중복 제외 후 추가
new_count = 0
for _, row in tqdm(df.iterrows(), total=len(df), desc="🔍 Checking & Inserting"):
    ingredient = str(row["ingredient_name"]).strip()
    if not ingredient or ingredient == "0":
        continue

    if ingredient not in existing:
        try:
            cursor.execute(insert_query, (ingredient,))
            existing.add(ingredient)
            new_count += 1
        except Exception as e:
            print(f"⚠️ 삽입 오류: {ingredient} → {e}")

# 6️⃣ 커밋 및 종료
conn.commit()
cursor.close()
conn.close()

print(f"✅ 새로 추가된 재료: {new_count}개")


🔍 Checking & Inserting: 100%|██████████| 305/305 [00:01<00:00, 177.57it/s]

✅ 새로 추가된 재료: 304개



