In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import ComplementNB  # 개선된 베이지안 모델
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report


In [2]:
events_path = "events.csv"
item_properties_part_path = "item_properties_part1.csv"
category_tree_path = "category_tree.csv"

In [3]:
events_df = pd.read_csv(events_path)
item_properties_df = pd.read_csv(item_properties_part_path)
category_tree_df = pd.read_csv(category_tree_path)

In [4]:
def classify_intent(event):
    """사용자 이벤트를 기반으로 검색 의도 분류"""
    if event == "view":
        return "Informational"  # 정보 탐색
    elif event == "addtocart":
        return "Commercial"  # 비교 쇼핑
    elif event == "transaction":
        return "Transactional"  # 구매 의도
    else:
        return "Unknown"
    
events_df["search_intent"] = events_df["event"].apply(classify_intent)

In [5]:
item_properties_df = item_properties_df.sample(frac=0.4, random_state=42)

## Step 4: 데이터 분리
# 데이터 타입을 최적화하여 메모리 사용량 감소
events_df["itemid"] = events_df["itemid"].astype("int32")
item_properties_df["itemid"] = item_properties_df["itemid"].astype("int32")

# `property`와 `value`는 문자열이므로 category 타입으로 변환하여 메모리 절약
item_properties_df["property"] = item_properties_df["property"].astype("category")
item_properties_df["value"] = item_properties_df["value"].astype("category")



In [6]:
# `events_df`에 등장하는 itemid만 필터링하여 병합
filtered_item_properties_df = item_properties_df[item_properties_df["itemid"].isin(events_df["itemid"])]

# 필터링된 데이터만 병합하여 메모리 사용량 감소
events_df = events_df.merge(filtered_item_properties_df, on="itemid", how="left")


# 텍스트 데이터 생성 (제품 ID + 속성 정보)
events_df["text_data"] = events_df["itemid"].astype(str) + " " + events_df["property"].astype(str) + " " + events_df["value"].astype(str)

# 학습 데이터와 타겟 분리
X = events_df["text_data"]
y = events_df["search_intent"]

# 데이터 분할 (80:20)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

  np.array(self.categories._na_value).astype(dtype)


In [7]:
model = Pipeline([
    ("tfidf", TfidfVectorizer(stop_words="english", ngram_range=(1,2), min_df=3, max_df=0.9)),
    ("nb", ComplementNB())  # MultinomialNB보다 클래스 불균형에 강함
])


In [9]:
# 모델 학습
model.fit(X_train, y_train)

In [10]:
# 학습 후 일부 데이터 예측 확인
sample_text = X_train[:5]  # 학습 데이터 일부 샘플 선택
sample_pred = model.predict(sample_text)

for i, text in enumerate(sample_text):
    print(f"검색어: {text[:50]}...")  # 너무 길면 50자까지만 출력
    print(f"예측된 검색 의도: {sample_pred[i]}")
    print("-" * 50)


검색어: 229857 917 161184...
예측된 검색 의도: Informational
--------------------------------------------------
검색어: 34355 888 672937 648485 675769 34995...
예측된 검색 의도: Informational
--------------------------------------------------
검색어: 397800 888 927741 n17184.000...
예측된 검색 의도: Informational
--------------------------------------------------
검색어: 46232 790 n22920.000...
예측된 검색 의도: Commercial
--------------------------------------------------
검색어: 302637 227 283006 812080...
예측된 검색 의도: Informational
--------------------------------------------------


In [11]:
y_pred = model.predict(X_test)

# 정확도 평가
accuracy = model.score(X_test, y_test)
print(f"모델 정확도: {accuracy:.4f}")

# 분류 리포트 출력
report = classification_report(y_test, y_pred)
print(report)


모델 정확도: 0.7242
               precision    recall  f1-score   support

   Commercial       0.08      0.50      0.14    222038
Informational       0.98      0.74      0.84   7169883
Transactional       0.01      0.14      0.03     69774

     accuracy                           0.72   7461695
    macro avg       0.36      0.46      0.34   7461695
 weighted avg       0.94      0.72      0.81   7461695

