In [None]:
import pandas as pd
import random
from datetime import datetime, timedelta

# 1) 사용자 목록 로드 (UserID만 쓰면 됨)
users = pd.read_csv("user_info_dummy_data.csv")  # 컬럼에 UserID가 있어야 함

# 2) 재료 단위 매핑 (양념/소스류 제외)
# - g: 대부분 고기/해산물/채소/곡물/가공두부류/면 일부/떡/분말
# - ml: 액체류
# - 개: 계란/빵/면(봉지)/일부 가공품/과일(대과류)
# - 캔: 통조림
g_set = {
    # 곡류
    '쌀','멥쌀','찹쌀','보리','옥수수','수수','차조','콩','팥','흑미','현미',
    # 육류
    '쇠고기','돼지고기','닭고기','닭가슴살','닭안심','양지머리','돼지갈비','돼지등갈비','갈비','닭살','돼지고기안심','소고기',
    # 해산물
    '새우','오징어','문어','조개','홍합','바지락','고등어','연어','도미','굴','낙지','명태','멸치','가리비','모시조개','꽁치','갈치','전복','쭈꾸미','아귀','대하','꽃게',
    # 채소/버섯
    '양파','당근','부추','대파','파','배추','양배추','상추','시금치','미나리','애호박','청경채','브로콜리','오이',
    '피망','파프리카','청고추','홍고추','풋고추','쑥갓','우엉','무','고사리','콩나물','숙주','도라지',
    '버섯','표고버섯','팽이버섯','느타리버섯','양송이버섯','목이버섯','청피망','홍피망','깻잎',
    '고구마','감자','치커리','루콜라','샐러리','케일','고들빼기','열무','냉이','고구마줄기','두릅',
    # 두부/대두가공
    '두부','순두부','콩비지',
    # 가공/기타 고형
    '스파게티면','떡국떡','가래떡','감자전분','방울토마토','치즈','모짜렐라치즈'
}

ml_set = {'우유', '요거트', '닭육수'}  # 액체류

count_set = {
    '계란','계란노른자','계란흰자',
    '라면','국수','칼국수면','소면',   # 봉지/단위 개수로 취급
    '빵','식빵','모닝빵','바게트',
    '토마토','사과','배','바나나','딸기','포도','오렌지','자몽','레몬'
}

can_set = {'옥수수통조림','완두콩통조림'}

# 단위 사전 구성
INGR_UNIT = {i: 'g' for i in g_set}
INGR_UNIT.update({i: 'ml' for i in ml_set})
INGR_UNIT.update({i: '개' for i in count_set})
INGR_UNIT.update({i: '캔' for i in can_set})

ALL_INGREDIENTS = list(INGR_UNIT.keys())

# 3) 기본 단위별 용량 분포 + 일부 항목별 상식적 오버라이드
DEFAULT_RANGE_BY_UNIT = {
    'g':  (50, 1200),   # 고기/채소/곡물 등
    'ml': (100, 2000),  # 우유/요거트/육수 등
    '개': (1, 8),       # 계란/빵/면 봉지/대과류
    '캔': (1, 4)        # 통조림
}

OVERRIDE_RANGE = {
    # 계란류
    '계란': (6, 30),
    # 유제품/액체
    '우유': (200, 2000), '요거트': (100, 1000),
    # 빵류
    '식빵': (1, 2), '바게트': (1, 2), '모닝빵': (2, 12), '빵': (1, 3),
    # 면류(봉지 수)
    '라면': (1, 6), '국수': (1, 4), '칼국수면': (1, 4), '소면': (1, 4),
    # 과일/토마토
    '토마토': (1, 6), '방울토마토': (150, 500),  # 방울토마토는 g로
    '사과': (1, 6), '배': (1, 4), '바나나': (1, 10), '딸기': (1, 4), '포도': (1, 4),
    '오렌지': (1, 6), '자몽': (1, 4), '레몬': (1, 6),
    # 두부류
    '두부': (200, 800), '순두부': (300, 1000), '콩비지': (200, 800),
    # 고기/해산물(조금 더 넓혀서)
    '쇠고기': (100, 1500), '돼지고기': (100, 1500), '닭고기': (100, 1500),
    '닭가슴살': (100, 1000), '닭안심': (100, 800), '양지머리': (100, 1200),
    '돼지갈비': (200, 2000), '돼지등갈비': (200, 2000), '갈비': (200, 2000),
    '소고기': (100, 1500),
}

def sample_amount(name: str, unit: str) -> int:
    """항목별 오버라이드가 있으면 우선 적용, 없으면 단위 기본 분포 사용."""
    if name in OVERRIDE_RANGE:
        lo, hi = OVERRIDE_RANGE[name]
    else:
        lo, hi = DEFAULT_RANGE_BY_UNIT[unit]
    return random.randint(lo, hi)

# 4) 냉장고 재료 더미데이터 생성
def generate_fridge_data(df_users: pd.DataFrame,
                         items: list[str],
                         output="fridge_items_dummy_data.csv",
                         min_items=3,
                         max_items=10,
                         days_window=30):
    rows = []
    for _, u in df_users.iterrows():
        uid = u["UserID"]
        n = random.randint(min_items, max_items)
        chosen = random.sample(items, n)

        for name in chosen:
            unit = INGR_UNIT[name]
            amount = sample_amount(name, unit)

            # 최근 days_window일 내 임의의 타임스탬프
            dt = datetime.now() - timedelta(
                days=random.randint(0, days_window),
                hours=random.randint(0, 23),
                minutes=random.randint(0, 59),
                seconds=random.randint(0, 59)
            )

            rows.append({
                "UserID": uid,
                "재료": f"{name}({unit})",  # 요청: 재료명 뒤에 단위 표기
                "용량": amount,              # 요청: 수량/무게/부피 값
                "저장일시": dt.strftime("%Y-%m-%d %H:%M:%S")
            })

    out = pd.DataFrame(rows)
    out.to_csv(output, index=False, encoding="utf-8-sig")
    print(f"생성 완료 → {output}  (rows={len(out)})")
    print(out.head(10))
    return out

# 실행
generate_fridge_data(users, ALL_INGREDIENTS)


✅ 생성 완료 → fridge_items_dummy_data.csv  (rows=643)
                                 UserID        재료    용량                 저장일시
0  249a8f76-ce74-41e3-8889-df58707d85d4     사과(개)     3  2025-10-05 08:46:44
1  249a8f76-ce74-41e3-8889-df58707d85d4     두부(g)   498  2025-10-13 12:18:59
2  249a8f76-ce74-41e3-8889-df58707d85d4   요거트(ml)   111  2025-10-11 08:58:34
3  249a8f76-ce74-41e3-8889-df58707d85d4     감자(g)   454  2025-10-01 13:43:59
4  249a8f76-ce74-41e3-8889-df58707d85d4      굴(g)   793  2025-09-24 18:41:50
5  3125fe88-baed-4e0a-880a-be3b9b8fe8d5    청경채(g)  1075  2025-10-16 04:31:44
6  3125fe88-baed-4e0a-880a-be3b9b8fe8d5     냉이(g)  1082  2025-10-14 03:38:49
7  3125fe88-baed-4e0a-880a-be3b9b8fe8d5  방울토마토(g)   475  2025-10-11 10:34:48
8  3125fe88-baed-4e0a-880a-be3b9b8fe8d5      배(개)     4  2025-09-26 07:57:45
9  3125fe88-baed-4e0a-880a-be3b9b8fe8d5     우엉(g)  1096  2025-09-24 02:23:30


Unnamed: 0,UserID,재료,용량,저장일시
0,249a8f76-ce74-41e3-8889-df58707d85d4,사과(개),3,2025-10-05 08:46:44
1,249a8f76-ce74-41e3-8889-df58707d85d4,두부(g),498,2025-10-13 12:18:59
2,249a8f76-ce74-41e3-8889-df58707d85d4,요거트(ml),111,2025-10-11 08:58:34
3,249a8f76-ce74-41e3-8889-df58707d85d4,감자(g),454,2025-10-01 13:43:59
4,249a8f76-ce74-41e3-8889-df58707d85d4,굴(g),793,2025-09-24 18:41:50
...,...,...,...,...
638,e92af411-94b7-4020-86a7-fa265e7b2856,갈비(g),1476,2025-09-27 12:45:48
639,e92af411-94b7-4020-86a7-fa265e7b2856,계란(개),10,2025-09-24 14:58:43
640,e92af411-94b7-4020-86a7-fa265e7b2856,가리비(g),673,2025-09-26 02:23:28
641,e92af411-94b7-4020-86a7-fa265e7b2856,미나리(g),1170,2025-10-05 12:22:55


In [5]:
from sqlalchemy import create_engine
import pandas as pd

# '@' → '%40' 로 인코딩한 연결 문자열
engine = create_engine('mysql+pymysql://lgup3:lgup3P%40ssw0rd@211.51.163.232:19306/lgup3')

# CSV 불러오기
df = pd.read_csv('fridge_items_dummy_data.csv', encoding='utf-8-sig')

# DB에 테이블로 적재
df.to_sql('fridge_items_dummy_data', con=engine, if_exists='replace', index=False)

print("fridge_items_dummy_data 테이블 업로드 완료")



fridge_items_dummy_data 테이블 업로드 완료
