In [10]:
import pandas as pd
import numpy as np
from lightfm.data import Dataset
from lightfm import LightFM

In [21]:
FILE_PATH_MAIN = '[스트롱라이프]최종_데이터_20250924.xlsx'

def load_and_concatenate_user_data(file_path):
    """
    1차와 2차 시트를 로드, no/no. 칼럼을 통일한 후 수직으로 합침.
    """
    
    HEADER_ROW_INDEX = 0
    
    # 1차, 2차 시트 로드 및 헤더 설정
    df_1st = pd.read_excel(file_path, sheet_name='1차', header=0)
    df_2nd = pd.read_excel(file_path, sheet_name='2차', header=0)

    df_1st.columns = df_1st.columns.astype(str).str.strip()
    df_2nd.columns = df_2nd.columns.astype(str).str.strip()
    
    # User ID 칼럼 이름 통일 ('no.' -> 'no')
    col_to_rename = {col: 'no' for col in df_2nd.columns if isinstance(col, str) and col.strip() == 'no.'}
    if col_to_rename:
        df_2nd.rename(columns=col_to_rename, inplace=True)
    
    # 수직으로 concatenate
    df_user_raw = pd.concat([df_1st, df_2nd], ignore_index=True)
    df_user_raw.rename(columns={'no': 'user_id'}, inplace=True)
    
    return df_user_raw.set_index('user_id', drop=False)


def clean_user_ids(df_user_raw):
    """
    user_id (인덱스)에서 결측치 및 유효하지 않은 잔여 행을 제거하여 user_id를 정리.
    """
    # 문자열 'nan'을 실제 결측치(NaN)로 변환
    df_user_raw.index = df_user_raw.index.to_series().replace('nan', np.nan) 
    
    # 인덱스 값을 숫자형으로 변환 가능한지 확인 (오류 시 NaN 처리)
    valid_user_ids_numeric = pd.to_numeric(df_user_raw.index, errors='coerce')

    # 1. user_id가 결측치가 아니고 (NaN이 아니고)
    # 2. user_id가 0보다 큰 값인 (유효한 ID인) 행만 선택
    valid_indices = df_user_raw.index[valid_user_ids_numeric.notna() & (valid_user_ids_numeric > 0)].unique()

    return df_user_raw.loc[valid_indices].copy()

In [22]:
try:
    # 데이터 로드 및 합치기
    df_user_raw = load_and_concatenate_user_data(FILE_PATH_MAIN)
    
    # user_id 정리 전 상태 출력
    print("사용자 특징 데이터 concatenate")
    print("-" * 35)
    print(f"총 사용자 수 (정리 전): {df_user_raw.index.nunique()}명")
    print(f"데이터프레임 크기 (정리 전): {df_user_raw.shape}")
    
    # 3. user_id 정리
    df_user_clean = clean_user_ids(df_user_raw)
    

except Exception as e:
    print(f"❌ 데이터 로드 또는 처리 중 오류 발생: {e}")

사용자 특징 데이터 concatenate
-----------------------------------
총 사용자 수 (정리 전): 1037명
데이터프레임 크기 (정리 전): (1038, 147)


In [23]:
# 파일 경로 정의
FILE_PATH_META = "제품 메타데이터 최종.xlsx" # 제품 메타데이터 파일

# Item ID 칼럼 이름 확정 (첫 번째 칼럼이 product_id라고 가정)
ITEM_ID_COL = 'product_id' 
PROTEIN_COL = 'protein' # 단백질 정량 칼럼

try:
    # 1. Item Feature 데이터 로드 (Header=0 가정)
    df_item_raw = pd.read_excel(FILE_PATH_META, sheet_name='제품 메타데이터 최종', header=0)
    
    # 2. Item ID 칼럼 이름 통일 및 확인
    df_item_raw.rename(columns={df_item_raw.columns[0]: ITEM_ID_COL}, inplace=True)
    
    print("✅ 아이템 특징 데이터 로드 완료 (df_item_raw)")
    print("-" * 30)

    # 3. Item Data 핵심 칼럼 확인
    print("\n--- df_item_raw (제품 특징 데이터) 검증 ---")
    
    # Item ID와 단백질 정량 칼럼만 출력하여 확인
    display_item_cols = [ITEM_ID_COL, PROTEIN_COL]
    
    # df_item_raw의 모든 칼럼을 출력하여 칼럼 이름이 제대로 로드되었는지 최종 확인
    print(f"로드된 Item 칼럼 목록: {df_item_raw.columns.tolist()}")
    
    print(df_item_raw[df_item_raw.columns.intersection(display_item_cols)].head())

except Exception as e:
    print(f"❌ Item Data 로드 중 오류 발생: {e}")

✅ 아이템 특징 데이터 로드 완료 (df_item_raw)
------------------------------

--- df_item_raw (제품 특징 데이터) 검증 ---
로드된 Item 칼럼 목록: ['product_id', 'brand_name', 'ingredient_type', 'category', 'sub_category', 'form_factor', 'serving_size', 'serving_unit', 'servings_total', 'calories', 'protein', 'carbs', 'sugars', 'fats', 'Trans Fat', 'Saturated Fat', 'Dietary Fiber', 'ingredients', 'intake_timing', 'product_name', 'sensory_tags', 'functional_tags', 'feature_tags', 'allergens', 'Unnamed: 24']
                            product_id  protein
0                ANIMAL_MEAL_CHOCOLATE     46.0
1            CBUM_MASSGAINER_CHOCOLATE     53.0
2         CBUM_MASSGAINER_COOKIESCREAM     53.0
3              CBUM_MASSGAINER_VANILLA     53.0
4  GASPARI_REALMASS_CHOCOLATEMILKSHAKE     50.0


In [32]:
# 1) product_id에서 맛 정보를 제거하는 함수
def remove_flavor_from_product_id(product_id):
    """제품 코드에서 마지막 '_' 이후의 맛 정보를 제거"""
    
    # 1. 예외 케이스 처리 (이미 맛 없음이 명시된 경우)
    if product_id.endswith(('PLAIN', 'UNFLAVORED')):
        return product_id.rsplit('_', 1)[0] # 'PLAIN' 또는 'UNFLAVORED' 앞까지 제거
    
    # 2. 일반적인 맛 정보 제거 로직
    # 마지막 언더바(Underscore, '_')를 기준으로 분리하고 첫 번째 부분(제품명)만 사용
    # 예: OPTIMUM_GSWHEY_CHOCOLATE -> OPTIMUM_GSWHEY
    parts = product_id.rsplit('_', 1) 
    
    # 분리된 부분이 2개이고, 두 번째 부분이 짧거나 (맛일 가능성), 모두 대문자인지 확인하는 로직은 복잡하므로
    # 가장 간단하게 '마지막 언더바 앞부분'만 사용하도록 처리
    return parts[0]

In [33]:
# 2) 사용자 응답 제품명을 제품 베이스 ID로 매핑하는 함수
def normalize_interaction_id(item_name):
    """사용자 응답을 Item Base ID (맛 제거된 product_id)에 맞게 정규화"""
    name = str(item_name).strip().upper()
    
    # --- 핵심 제품군 매핑 ---
    # 사용자 응답 (한국어)을 메타데이터의 제품 베이스 코드 (영문 약어)로 매핑
    
    # 프로틴
    if '플래티넘 하이드로 웨이' in name: return 'OPTIMUM_HYDROWHEY'
    if '골드스탠다드 웨이' in name: return 'OPTIMUM_GSWHEY'
    if 'CBUM 아이솔레이트' in name: return 'RAW_ISOLATE' # RAW ISOLATE 계열로 통일
    if 'CBUM 프리미엄 웨이' in name: return 'CBUM_PREMIUMWHEY'
    if 'BSN 신타-6 아이솔레이트' in name: return 'BSN_ISOLATE'
    if 'BSN 신타-6 웨이프로틴' in name: return 'BSN_WHEYPROTEIN'
    if '잠백이 웨이 프로틴' in name: return 'JAMBAEK_WHEY'
    if '마이 프로틴 임펙트 웨이' in name or '마이 프로틴 임팩트 웨이 아이솔레이트' in name: return 'MYPROTEIN_IMPACTWHEY' # (메타데이터에 코드가 있어야 함)
        # => 수정필요
    if 'NS 웨이 프로틴' in name: return 'NS_WHEYPROTEIN' # (가정된 베이스 ID) => 수정필요

    # 게이너
    if '옵티멈 뉴트리션 시리어스 매스' in name: return 'OPTIMUM_SERIOUSMASS'
    if '가스파리 리얼매스' in name: return 'GASPARI_REALMASS'
    if 'BUP 칼로리몬스터' in name: return 'BUP_CALORIEMONSTER'
    if '비에스엔 트루-매스 1200' in name: return 'BSN_TRUEMASS' # (가정된 베이스 ID)=> 수정필요
    if '아이언맥스 타이탄 V2' in name: return 'IRONMAX_TITAN' # (가정된 베이스 ID)=> 수정필요
    if 'MHP 업 유어 매스' in name: return 'MHP_UPYOURMASS'
    if 'CBUM 매스 게이너' in name: return 'CBUM_MASSGAINER'
    
    # 프리워크아웃/기타
    if '노익스플로드' in name: return 'BSN_NOX'
    if 'C4 오리지널 프리워크아웃' in name: return 'C4_ORIGINAL'
    if '애니멀 프라이멀 프리-워크아웃' in name: return 'ANIMAL_PRIMAL' # (가정된 베이스 ID)
    if '엑스텐드' in name: return 'XTEND'
    if '삼대오백' in name: return 'SAMDAE'
    if '게토레이 파우더' in name: return 'GATORADE_POWDER'
    if '예버디' in name: return 'RONNIE_YEAHBUDDY'
    
    # 매핑되지 않은 기타 응답은 모든 공백 및 특수문자를 제거하여 마지막으로 시도
    return name.replace(' ', '').replace('-', '').replace('.', '').replace('(', '').replace(')', '')

In [34]:
# --- LightFM 모델링 변수 정의 ---

# 사용자 특징 (User Feature, Multi-Hot Encoding 대상)
OHE_USER_COLS = [
    # Feature Group 1 (기본 정보 및 활동 패턴)
    '3) 성별', 
    '8) 운동 활동 기간', 
    '7) 프로틴, 프리워크아웃, 전해질 음료, 게이너 등 헬스 보충제 2종 이상을 섭취해 보신 경험이 있으신가요?',
    '9) 주에 몇 회 정도 운동을 진행하시나요?(택1)',
    '10) 알러지 또는 민감성분(복수선택 가능)',
    '11) 평소 챙기는 끼니는 어떻게 되나요?(복수선택 가능)',
    '12) 식사 기준으로 운동 시간은 언제인가요?(택 1)',
    '12-1) 일과(수업,업무,일 등) 기준으로 운동 시간은 언제인가요?(택 1)',
    '12-2) 운동을 제외한 일과 중 활동은 어느 정도로 활발한가요?(택 1)',
    '12-3) 시간 기준으로 운동 시작 시간이 언제인가요?(택 1)',
    # Feature Group 2 (영향 요인 및 고려 항목) - 모든 보충제 관련 고려 항목 포함
    '13-3) 프로틴의 영양성분을 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '13-4) 프로틴의 효과에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '13-5) 브랜드에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '13-6) 유명인(선수 또는 전문가)의 사용 여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '13-7) 지인의 사용여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)',
    '14-3) 프리워크아웃의 영양성분을 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '14-4) 프리워크아웃의 효과에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '14-5) 브랜드에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '14-6) 유명인(선수 또는 전문가)의 사용 여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '14-7) 지인의 사용여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)',
    '15-3) 전해질 음료의 영양성분을 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '15-4) 전해질 음료의 효과에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '15-5) 브랜드에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '15-6) 유명인(선수 또는 전문가)의 사용 여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '15-7) 지인의 사용여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)',
    '16-3) 게이너의 영양성분을 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '16-4) 게이너의 효과에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '16-5) 브랜드에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '16-6) 유명인(선수 또는 전문가)의 사용 여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '16-7) 지인의 사용여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)',
    '17-3) 해당 보충제의 영양성분을 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '17-4) 해당 보충제의 효과에서 고려한 점은 무엇인가요?', '17-5) 브랜드에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '17-6) 유명인(선수 또는 전문가)의 사용 여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)', '17-7) 지인의 사용여부 또는 추천에서 고려한 세부 항목을 선택해주세요 (복수선택 가능)',
]

# B. 아이템 특징 (Item Feature, Multi-Hot Encoding 대상)
OHE_ITEM_COLS = ['ingredient_type', 'category', 'flavor', 'sensory_tags']

# C. 상호작용 (Interaction, One-Hot Encoding 대상)
# '가장 마음에 들었던 제품'을 Item ID로 사용하고, '재구매 의사'를 가중치로 사용합니다.
INTERACTION_WEIGHT_COLS = [
    ('13-9) [프로틴] 선택하신 제품중에 가장 종합적으로 마음에 들었던 제품 1개만 선택해주세요 (택 1)', '13-17) 해당 프로틴에 대한 재구매 의사는 어느 정도인가요?'),
    ('14-9) [프리워크아웃] 선택하신 제품중에 가장 종합적으로 마음에 들었던 제품 1개만 선택해주세요 (택 1)', '14-17) 해당 프리워크아웃에 대한 재구매 의사는 어느 정도인가요?'),
    ('15-9) [전해질 음료(BCAA, 이온음료)] 선택하신 제품중에 가장 종합적으로 마음에 들었던 제품 1개만 선택해주세요 (택 1)', '15-17) 해당 전해질 음료에 대한 재구매 의사는 어느 정도인가요?'),
    ('16-9) [게이너] 선택하신 제품중에 가장 종합적으로 마음에 들었던 제품 1개만 선택해주세요 (택 1)', '16-17) 해당 게이너에 대한 재구매 의사는 어느 정도인가요?'),
    ('17-9) 종합적으로 가장 마음에 들었던 제품 1개를 작성해 주세요', '17-17) 해당 제품에 대한 재구매 의사는 어느 정도인가요?'),
]

In [53]:
# 필요한 라이브러리 및 변수 정의가 이전에 완료되었다고 가정합니다.
# (load_and_concatenate_user_data, clean_user_ids 함수 및 모든 OHE/INTERACTION 변수들이 이전에 정의됨)

# LightFM 학습을 위한 라이브러리 추가
import scipy.sparse

from lightfm.data import Dataset
from lightfm import LightFM
from lightfm.cross_validation import random_train_test_split # 사용하지 않지만 정의 위치 유지


try:
    # ---------------------------------------------------------------------------------
    ## 5단계: Item Feature (정량 포함) 전처리
    
    # Item ID 정규화: 메타데이터 ID에서 맛 정보 제거 (Item ID 통일의 핵심)
    df_item_raw[ITEM_ID_COL] = df_item_raw[ITEM_ID_COL].apply(remove_flavor_from_product_id)
    
    # 단백질 정량 처리 및 이산화 (Binning)
    df_item_raw[PROTEIN_COL] = pd.to_numeric(df_item_raw[PROTEIN_COL], errors='coerce')
    df_item_raw.dropna(subset=[PROTEIN_COL, ITEM_ID_COL], inplace=True)
    bins = [0, 15, 25, df_item_raw[PROTEIN_COL].max() + 1]
    labels = ['protein_low', 'protein_mid', 'protein_high']
    df_item_raw['protein_bin'] = pd.cut(df_item_raw[PROTEIN_COL], bins=bins, labels=labels, right=False)

    # Item Feature Long 포맷 생성
    df_item_features = df_item_raw.melt(
        id_vars=[ITEM_ID_COL], 
        value_vars=[col for col in OHE_ITEM_COLS + ['protein_bin'] if col in df_item_raw.columns]
    ).dropna(subset=['value'])
    df_item_features['feature'] = df_item_features['variable'].astype(str) + '_' + df_item_features['value'].astype(str).str.strip()
    df_item_features = df_item_features[[ITEM_ID_COL, 'feature']].drop_duplicates()

    print("✅ Item Feature (정량 포함) 전처리 완료.")
    
    # ---------------------------------------------------------------------------------
    ## 6단계: Interaction Matrix 소스 데이터 구축

    df_interactions_list = []
    for item_col, weight_col in INTERACTION_WEIGHT_COLS:
        temp_df = df_user_clean[['user_id', item_col, weight_col]].copy()
        temp_df.rename(columns={item_col: 'item_id', weight_col: 'weight'}, inplace=True)
        temp_df.dropna(subset=['item_id'], inplace=True)
        df_interactions_list.append(temp_df)

    df_interactions = pd.concat(df_interactions_list, ignore_index=True)

    # Item ID 정규화 함수 적용: 사용자 응답을 메타데이터 Base ID에 맞춥니다.
    df_interactions['item_id'] = df_interactions['item_id'].apply(normalize_interaction_id)
    df_interactions['weight'] = pd.to_numeric(df_interactions['weight'], errors='coerce')
    
    # Item Feature에 존재하는 유효한 Item ID만 남기고 필터링
    valid_items = df_item_raw[ITEM_ID_COL].unique()
    df_interactions = df_interactions[df_interactions['item_id'].isin(valid_items)]
    df_interactions.dropna(subset=['item_id', 'weight'], inplace=True)
    
    # Item ID와 User ID 쌍의 중복 제거 (가장 높은 가중치를 남김)
    df_interactions.sort_values(by='weight', ascending=False, inplace=True)
    df_interactions.drop_duplicates(subset=['user_id', 'item_id'], keep='first', inplace=True)

    print("✅ Interaction Matrix 소스 데이터 준비 완료.")
    
    # ---------------------------------------------------------------------------------
    ## 7단계: User Feature Matrix 구축

    df_user_features = df_user_clean[['user_id'] + OHE_USER_COLS].melt(
        id_vars='user_id', var_name='question', value_name='feature_value'
    ).dropna(subset=['feature_value'])

    df_user_features['feature_value'] = df_user_features['feature_value'].astype(str).str.split(r'[,/]')
    df_user_features = df_user_features.explode('feature_value')

    df_user_features['feature'] = df_user_features['question'].astype(str) + '_' + df_user_features['feature_value'].astype(str).str.strip()
    df_user_features['weight'] = 1.0
    df_user_features = df_user_features[['user_id', 'feature', 'weight']].drop_duplicates()

    print("✅ User Feature Matrix 소스 데이터 준비 완료.")
    
    # ---------------------------------------------------------------------------------
    ## 8단계: LightFM Dataset 구축 및 Train/Test 분리 (안정화된 수동 분리)
    # 1. Dataset 객체 초기화 및 fit (이전과 동일)
    dataset = Dataset()
    dataset.fit(
        users=df_user_clean.index.unique(),
        items=df_item_raw[ITEM_ID_COL].unique(),
        user_features=df_user_features['feature'].unique(),
        item_features=df_item_features['feature'].unique()
    )
    
    # 2. Total Interaction 행렬 구축 (총 상호작용 개수 확인용)
    (interactions_all, sample_weights_all) = dataset.build_interactions(
        (row['user_id'], row['item_id'], row['weight'])
        for index, row in df_interactions.iterrows()
    )
    
    # 3. 데이터프레임 인덱스 기반 수동 분리
    total_indices = np.arange(len(df_interactions))
    np.random.seed(42)
    np.random.shuffle(total_indices)
    
    test_size = int(len(df_interactions) * 0.2)
    train_indices = total_indices[test_size:]
    test_indices = total_indices[:test_size]
    
    # 4. Train/Test 데이터프레임 분리 (인덱스 순서 유지)
    df_train_interactions = df_interactions.iloc[train_indices].copy()
    df_test_interactions = df_interactions.iloc[test_indices].copy()
    
    # 5. Train/Test 행렬 및 가중치 행렬 재구축 (오류 방지 핵심)
    # 분리된 데이터프레임을 사용하여 build_interactions를 호출하면 순서 불일치가 발생하지 않음
    (interactions_train, weights_train) = dataset.build_interactions(
        (row['user_id'], row['item_id'], row['weight']) 
        for index, row in df_train_interactions.iterrows()
    )
    
    (interactions_test, weights_test) = dataset.build_interactions(
        (row['user_id'], row['item_id'], row['weight']) 
        for index, row in df_test_interactions.iterrows()
    )
    
    # 6. Feature Matrix 구축 (동일)
    user_features_matrix = dataset.build_user_features(
        (row['user_id'], {row['feature']: row['weight']}) for index, row in df_user_features.iterrows()
    )
    item_features_matrix = dataset.build_item_features(
        (row[ITEM_ID_COL], [row['feature']]) for index, row in df_item_features.iterrows()
    )
    

    print("\n--- LightFM 행렬 크기 ---")
    print(f"Interaction Matrix (Total): {interactions_all.shape}")
    print(f"Interaction Matrix (Train): {interactions_train.shape} / Non-zero: {interactions_train.getnnz()}")
    print(f"Interaction Matrix (Test): {interactions_test.shape} / Non-zero: {interactions_test.getnnz()}")
    
    # ---------------------------------------------------------------------------------
    ## 9단계: 모델 학습 (Train Set 사용)

    model = LightFM(
        loss='warp', 
        no_components=15,
        learning_rate=0.05, 
        user_alpha=1e-5,
        item_alpha=1e-5,
        random_state=42
    )


    model.fit(
        interactions_train, 
        sample_weight=weights_train, # COO 형식으로 전달
        user_features=user_features_matrix, 
        item_features=item_features_matrix,
        epochs=20, 
        num_threads=4,
    )

    print("\n\n🎉 LightFM 하이브리드 추천 모델 학습 완료!")

except Exception as e:
    print(f"❌ 최종 모델 구축 중 오류 발생: {e}")

✅ Item Feature (정량 포함) 전처리 완료.
✅ Interaction Matrix 소스 데이터 준비 완료.
✅ User Feature Matrix 소스 데이터 준비 완료.

--- LightFM 행렬 크기 ---
Interaction Matrix (Total): (1037, 20)
Interaction Matrix (Train): (1037, 20) / Non-zero: 124
Interaction Matrix (Test): (1037, 20) / Non-zero: 30


🎉 LightFM 하이브리드 추천 모델 학습 완료!


In [54]:
from lightfm.evaluation import precision_at_k, auc_score

# Precision@3 측정
# 학습 데이터와 사용자/아이템 특징을 함께 사용하여 평가합니다.
test_precision = precision_at_k(
    model, 
    interactions_test, 
    user_features=user_features_matrix, 
    item_features=item_features_matrix, 
    k=3
).mean()

print(f"Test Set Precision@3: {test_precision:.4f}")

# AUC Score 측정 (모델의 전반적인 순위 예측 능력을 평가)
test_auc = auc_score(
    model, 
    interactions_test, 
    user_features=user_features_matrix, 
    item_features=item_features_matrix
).mean()

print(f"Test Set AUC Score: {test_auc:.4f}")

Test Set Precision@3: 0.3333
Test Set AUC Score: 1.0000
