In [1]:
import pandas as pd
reci_list=pd.read_csv("../data/recipe_list.csv")
reci_list

Unnamed: 0,레시피구분,레시피명,열량,식재료명,식재료양
0,볶음류,건새우해바라기씨볶음,열량 : 100.91 kcal,새우(꽃새우),8g
1,볶음류,건새우해바라기씨볶음,열량 : 100.91 kcal,참기름,4g
2,볶음류,건새우해바라기씨볶음,열량 : 100.91 kcal,해바라기씨,3g
3,볶음류,건새우해바라기씨볶음,열량 : 100.91 kcal,물엿,1.5g
4,볶음류,건새우해바라기씨볶음,열량 : 100.91 kcal,간장(양조간장),1g
...,...,...,...,...,...
41569,국류,김치콩비지찌개,열량 : 102.46 kcal,"멸치(큰멸치, 대멸)",2g
41570,국류,김치콩비지찌개,열량 : 102.46 kcal,마늘,1g
41571,국류,김치콩비지찌개,열량 : 102.46 kcal,생강,0.1g
41572,무침류,브로콜리/초고추장,열량 : 33.9 kcal,브로콜리,40g


In [2]:
used_name=pd.DataFrame(reci_list['식재료명'].drop_duplicates()).reset_index(drop=True)

pd.options.display.min_rows=len(used_name)
used_name.head()

Unnamed: 0,식재료명
0,새우(꽃새우)
1,참기름
2,해바라기씨
3,물엿
4,간장(양조간장)


In [3]:
# 급식 식재료 상위 100개 중 채소만 구분 => 37개 항목
reci_list['식재료명'].value_counts().head(100)

식재료명
마늘                   2760
양파                   1810
파(대파)                1776
참기름                  1574
소금(고운소금)             1118
콩기름(대두유)             1083
간장(양조간장)             1060
당근                   1049
설탕(백설탕)              1031
깨(참깨)                 832
고춧가루                  770
다시마                   670
멥쌀(백미)                545
소금(천일염)               519
멸치(큰멸치, 대멸)           518
무(조선무)                507
깨소금                   506
후추                    442
생강                    372
간장(죽염국간장)             365
고추장                   364
간장                    349
두부                    323
소금(꽃소금)               323
감자                    317
후추(검은색)               317
맛술                    316
달걀                    310
된장                    310
양배추                   289
                     ... 
피망(홍피망)               106
김가루                   106
양배추(적채, 붉은양배추)        106
토마토케첩                 105
사과                    105
물엿(쌀물엿)               100
버터                     99
튀김가루   

In [9]:
# -*- coding: utf-8 -*-
"""
야채 군집화 재현 코드
- 입력: 아래 csv_text(식재료,수량) 그대로 사용하거나, 파일 경로에서 읽도록 변경 가능
- 출력:
  1) veggie_clusters.csv         : 각 식재료의 클러스터 라벨 포함 결과
  2) cluster_counts.csv          : 클러스터별 항목 수
  3) cluster_type_mix.csv        : 클러스터 × 분류 교차표
필요 패키지: pandas, numpy, scikit-learn
"""

import io
import os
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# -----------------------------
# 0) 입력 데이터: 그대로 붙여넣어 사용
#    (괄호·쉼표가 들어간 식재료명이 있어 robust하게 "마지막 쉼표 기준" 파싱)
# -----------------------------
csv_text = """
식재료,수량
마늘,2760
양파,1810
파(대파),1776
당근,1049
무(조선무),507
생강,372
감자,317
양배추,289
오이,287
표고버섯,272
고추(붉은고추(홍고추)),248
호박(애호박),243
피망(청피망),224
파(쪽파),224
고추(청양고추),174
파프리카(노랑파프리카),165
부추,165
파프리카(적색파프리카),137
양상추,128
팽이버섯,127
느타리버섯,122
고추(풋고추(청고추)),117
치커리,116
브로콜리,110
피망(홍피망),106
양배추(적채, 붉은양배추),106
깻잎,97
쑥갓,92
시금치,91
토마토(방울토마토(체리토마토)),87
큰느타리버섯(새송이버섯),80
양송이버섯,78
호박(단호박),77
고구마,75
미나리,74
파프리카(녹색파프리카),66
토마토,65
""".strip()

def robust_read_ingredient_csv(text: str) -> pd.DataFrame:
    lines = [ln for ln in text.splitlines() if ln.strip()]
    header = lines[0].split(",")
    if len(header) < 2 or header[0] != "식재료" or header[1] != "수량":
        raise ValueError("CSV 첫 줄은 '식재료,수량' 이어야 합니다.")
    rows = []
    for line in lines[1:]:
        parts = line.rsplit(",", 1)  # 마지막 쉼표에서 분리
        if len(parts) != 2:
            raise ValueError(f"파싱 오류: {line}")
        name = parts[0].strip()
        qty = int(parts[1].strip())
        rows.append({"식재료": name, "수량": qty})
    return pd.DataFrame(rows)

df = robust_read_ingredient_csv(csv_text)

# -----------------------------
# 1) 도메인 피처(룰 기반) 사전 정의
#    필요시 자유롭게 수정/추가 가능
# -----------------------------
type_map = {
    "마늘": "향신채소","양파": "향신채소","파(대파)": "향신채소","당근": "뿌리채소","무(조선무)": "뿌리채소",
    "생강": "향신채소","감자": "뿌리채소(전분)","양배추": "배추과","오이": "과채","표고버섯": "버섯",
    "고추(붉은고추(홍고추))": "고추류","호박(애호박)": "과채","피망(청피망)": "고추류","파(쪽파)": "향신채소",
    "고추(청양고추)": "고추류","파프리카(노랑파프리카)": "고추류","부추": "잎채소","파프리카(적색파프리카)": "고추류",
    "양상추": "잎채소","팽이버섯": "버섯","느타리버섯": "버섯","고추(풋고추(청고추))": "고추류","치커리": "잎채소",
    "브로콜리": "배추과","피망(홍피망)": "고추류","양배추(적채, 붉은양배추)": "배추과","깻잎": "잎채소(허브)",
    "쑥갓": "잎채소(허브)","시금치": "잎채소","토마토(방울토마토(체리토마토))": "과채","큰느타리버섯(새송이버섯)": "버섯",
    "양송이버섯": "버섯","호박(단호박)": "과채(전분)","고구마": "뿌리채소(전분)","미나리": "잎채소(허브)",
    "파프리카(녹색파프리카)": "고추류","토마토": "과채",
}
color_map = {
    "마늘":"white","양파":"white","파(대파)":"green","당근":"orange","무(조선무)":"white","생강":"brown",
    "감자":"brown","양배추":"green","오이":"green","표고버섯":"brown","고추(붉은고추(홍고추))":"red",
    "호박(애호박)":"green","피망(청피망)":"green","파(쪽파)":"green","고추(청양고추)":"green","파프리카(노랑파프리카)":"yellow",
    "부추":"green","파프리카(적색파프리카)":"red","양상추":"green","팽이버섯":"white","느타리버섯":"brown",
    "고추(풋고추(청고추))":"green","치커리":"green","브로콜리":"green","피망(홍피망)":"red","양배추(적채, 붉은양배추)":"purple",
    "깻잎":"green","쑥갓":"green","시금치":"green","토마토(방울토마토(체리토마토))":"red","큰느타리버섯(새송이버섯)":"white",
    "양송이버섯":"white","호박(단호박)":"orange","고구마":"purple","미나리":"green","파프리카(녹색파프리카)":"green","토마토":"red",
}
starchy_set = {"감자","고구마","호박(단호박)"}  # 전분질
raw_ok_set = {  # 생식 가능
    "오이","양상추","치커리","깻잎","쑥갓","시금치","토마토","토마토(방울토마토(체리토마토))",
    "파프리카(노랑파프리카)","파프리카(적색파프리카)","파프리카(녹색파프리카)",
    "피망(홍피망)","피망(청피망)","양배추","양배추(적채, 붉은양배추)",
    "브로콜리","무(조선무)","당근","양파","마늘","파(쪽파)","파(대파)",
    "고추(붉은고추(홍고추))","고추(청양고추)","고추(풋고추(청고추))","부추","미나리"
}
aromatic_set = {  # 향신(아로마틱)
    "마늘","양파","파(대파)","파(쪽파)","생강",
    "고추(붉은고추(홍고추))","고추(청양고추)","고추(풋고추(청고추))",
    "피망(홍피망)","피망(청피망)","파프리카(노랑파프리카)","파프리카(적색파프리카)","파프리카(녹색파프리카)"
}

# -----------------------------
# 2) 피처 생성
# -----------------------------
df["분류"] = df["식재료"].map(type_map).fillna("기타")
df["색상"] = df["식재료"].map(color_map).fillna("unknown")
df["전분질"] = df["식재료"].isin(starchy_set).astype(int)
df["생식가능"] = df["식재료"].isin(raw_ok_set).astype(int)
df["향신"]   = df["식재료"].isin(aromatic_set).astype(int)

# 수량의 스케일 왜곡 완화
df["log수량"] = np.log1p(df["수량"])

# 모델 입력 행렬: 숫자 + 이진 + 원핫
num_cols = ["log수량"]
bin_cols = ["전분질","생식가능","향신"]
onehot = pd.get_dummies(df[["분류","색상"]], prefix=["분류","색상"])
X = pd.concat([df[num_cols + bin_cols], onehot], axis=1)

# log수량만 표준화(이진/원핫은 그대로)
scaler = StandardScaler()
X_scaled = X.copy()
X_scaled[num_cols] = scaler.fit_transform(X[num_cols])

# -----------------------------
# 3) KMeans: k=3~7 탐색 → 실루엣 최댓값 채택
# -----------------------------
best_k, best_score, best_labels = None, -1.0, None
for k in range(3, 8):
    km = KMeans(n_clusters=k, n_init=10, random_state=42)
    labels = km.fit_predict(X_scaled)
    score = silhouette_score(X_scaled, labels)
    if score > best_score:
        best_k, best_score, best_labels = k, score, labels

df["cluster"] = best_labels

# -----------------------------
# 4) 결과 정리/저장
# -----------------------------
df_sorted = df.sort_values(["cluster", "수량"], ascending=[True, False]).reset_index(drop=True)
cluster_counts = df_sorted.groupby("cluster")["식재료"].count().rename("항목수").reset_index()
cluster_type_mix = pd.crosstab(df_sorted["cluster"], df_sorted["분류"]).reset_index()

# 저장 경로
df_sorted.to_csv(os.path.join("../data/veggie_clusters.csv"), index=False, encoding="utf-8-sig")
cluster_counts.to_csv(os.path.join("../data/cluster_counts.csv"), index=False, encoding="utf-8-sig")
cluster_type_mix.to_csv(os.path.join("../data/cluster_type_mix.csv"), index=False, encoding="utf-8-sig")

# 콘솔 출력(요약)
print(f"[OK] 최적 k = {best_k}, silhouette = {best_score:.3f}")
print("\n[클러스터별 항목 수]")
print(cluster_counts.to_string(index=False))
print("\n[상위 10행 미리보기]")
print(df_sorted.head(10).to_string(index=False))

# 선택: 특정 범위 미리보기 (예: iloc 2:10, 0:9)
# print("\n[df_sorted.iloc[2:10, 0:9]]")
# print(df_sorted.iloc[2:10, 0:9].to_string(index=False))


[OK] 최적 k = 7, silhouette = 0.309

[클러스터별 항목 수]
 cluster  항목수
       0    4
       1    9
       2    3
       3    4
       4   11
       5    4
       6    2

[상위 10행 미리보기]
              식재료  수량       분류     색상  전분질  생식가능  향신    log수량  cluster
   양배추(적채, 붉은양배추) 106      배추과 purple    0     1   0 4.672829        0
토마토(방울토마토(체리토마토))  87       과채    red    0     1   0 4.477337        0
              고구마  75 뿌리채소(전분) purple    1     0   0 4.330733        0
              토마토  65       과채    red    0     1   0 4.189655        0
    고추(붉은고추(홍고추)) 248      고추류    red    0     1   1 5.517453        1
          피망(청피망) 224      고추류  green    0     1   1 5.416100        1
            파(쪽파) 224     향신채소  green    0     1   1 5.416100        1
         고추(청양고추) 174      고추류  green    0     1   1 5.164786        1
     파프리카(노랑파프리카) 165      고추류 yellow    0     1   1 5.111988        1
     파프리카(적색파프리카) 137      고추류    red    0     1   1 4.927254        1


In [4]:
# 37개 항목에 대한 군집화 결과 => 해당 내용을 기반으로 업무 분담,데이터 다운로드 및 EDA 진행 예정 => 대체가 될 품목과 대체 불가능 품목 구별
cluster = pd.read_csv('../data/37개항목군집화 결과.csv')
cluster

Unnamed: 0,식재료,수량,분류,색상,전분질,생식가능,향신,log수량,cluster
0,생강,372,향신채소,brown,0,0,1,5.921578,0
1,파(쪽파),224,향신채소,green,0,1,1,5.4161,0
2,표고버섯,272,버섯,brown,0,0,0,5.609472,1
3,팽이버섯,127,버섯,white,0,0,0,4.85203,1
4,느타리버섯,122,버섯,brown,0,0,0,4.812184,1
5,큰느타리버섯(새송이버섯),80,버섯,white,0,0,0,4.394449,1
6,양송이버섯,78,버섯,white,0,0,0,4.369448,1
7,마늘,2760,향신채소,white,0,1,1,7.923348,2
8,양파,1810,향신채소,white,0,1,1,7.501634,2
9,파(대파),1776,향신채소,green,0,1,1,7.482682,2


In [5]:
cluster['cluster'].value_counts()

cluster
4    11
3     8
1     5
2     5
5     3
6     3
0     2
Name: count, dtype: int64

In [6]:
reci_list.describe()

Unnamed: 0,레시피구분,레시피명,열량,식재료명,식재료양
count,41574,41574,41574,41574,41574
unique,16,4392,4481,1212,180
top,국류,돼지고기폭찹,열량 : 14.24 kcal,마늘,1g
freq,8648,67,50,2760,7286
