# Mission 3. 패션 스타일 선호 여부 예측

### 목차
- [3-1. 협업 필터링의 개념](#3-1)
- [3-2. 추천 시스템](#3-2)
    - [3-2-1. 추천 시스템 제작을 위한 데이터 추출](#3-2-1)
    - [3-2-2. 추천 시스템 구현](#3-2-2)

### 3-1. 

추천 시스템의 기본인 협업 필터링(Collaborative Filtering)은 크게 user-based filtering, item-based filtering 방식으로 나뉘어져 있다. 각각에 대해서 이해하고, 2-2에서 구해 본 응답자의 "스타일 선호 정보표"를 토대로 Validation 데이터 내 응답자의 "스타일 선호 여부 예측" 문제를 2가지 기법으로 어떻게 적용해 볼 수 있고, 서로 비교하여 어떤 장단점을 갖는지 설명한다.

협업 필터링이란 사용자와 아이템 간의 상호작용 데이터를 기반으로 유사한 사용자나 아이템을 찾아 새로운 추천을 생성하는 방법으로 사용자의 과거 행동 데이터나 유사한 사용자 그룹의 데이터를 활용해 개인화된 추천을 제공하는 것을 말한다.
협업 필터링은 "User-based Filtering", "Item-based Filtering" 로 나누어져있다. 

1. User-based Filtering   
    - User-based filtering은 사용자의 취향이 비슷한 다른 사용자의 선호도를 바탕으로 추천을 진행한다. 
    - 즉, 응답자 간의 유사성을 계산하고, 유사한 응답자가 선호하는 스타일을 현재 응답자에게 추천하거나 선호 여부를 예측하는 방식이다.
    - 유사도를 계산하는 방법은 각 응답자에 대한 선호 스타일 정보를 벡터화한 뒤 다른 응답자와의 유사도를 측정하는데, 이때 사용자 간의 유사성 평가는 row를 기준으로 구한다. 
        - [응답자의 스타일 선호도 예측]을 예시로 설명하자면 유사한 응답자가 선호하는 스타일을 기반으로 validation 데이터 내의 응답자의 스타일 선호 여부를 예측한다. 
    - User-based Filtering은 개인화된 추천을 제공하기 때문에 유사한 응답자들이 선호하는 스타일을 쉽게 예측할 수 있고 Validation 데이터에 포함된 새로운 스타일이라도 유사한 응답자의 선호를 토대로 예측이 가능하다는 장점을 가지고 있다. 
    - 그러나 사용자가 많아질 수록 유사도 계산 비용이 증가하며 사용자가 선호하는 것이 적은 경우 유사도 계산이 어렵거나 잘못된 결과가 나올 수도 있다는 단점을 가지고 있다.

2. Item-based Filtering   
    - Item-based filtering은 스타일 간의 유사도를 계산하여 추천을 진행하는 방식이다. 
    - 즉, 응답자가 특정 스타일을 선호한다면, 해당 스타일과 유사한 스타일을 선호할 가능성이 높다고 예측하는 방식이다.
    - 유사도를 계산하는 방법은 User-based filtering과 같이 응답자 간의 스타일 정보를 벡터화 한 후 스타일 간의 유사도를 측정한다. 
        - 이 과정에서 ResNet-18의 중간 레이어에서 추출한 특징 벡터를 이용하여 각 스타일 간의 코사인 유사도를 계산하며, 유사도가 높은 스타일을 선호 여부에 따라 예측한다. 
        - 그리고 이때, row기준이 아닌 column기준으로 유사도 평가를 진행한다. 
    - 이 방법은 스타일 자체를 기반으로 추천을 진행하기 때문에, 응답자의 수가 증가해도 계산 효율이 높다는 장점이 있다. 
    - 또한 스타일 간의 유사성을 기반으로 예측을 진행하기 때문에 스타일에 대한 취향이 분명한 경우 정확도가 높아진다. 
    - 그러나 개별 응답자의 특성을 반영하기는 어려워 개인화된 추천에는 한계가 있다는 단점이 존재한다.

예시로 보면 다음과 같다.

- 응답자 1은 "feminine"과 "punk" 스타일의 이미지를 선호, "sportive casual" 스타일의 이미지를 비선호 
- 응답자 2는 "feminine"과 "classic" 스타일의 이미지를 선호, "punk" 스타일의 이미지를 비선호
- 응답자 3은 "sportive casual"과 "punk" 스타일의 이미지를 선호, "feminine" 스타일의 이미지를 비선호

User-based filtering 방식은 먼저 응답자 간 유사도를 계산한다. 응답자1과 2는 “feminine” 스타일을 모두 선호하고 있으므로 이 둘의 유사도는 높게 나올 것이고, 응답자1과 3은 선호하는 스타일이 다르므로 유사도가 낮게 나올 것이다. 추가적으로 새로운 이미지가 들어왔을 때 “classic”스타일에 속한다면 응답자1에 대한 선호 정보가 없더라도 “classic”을 선호하는 응답자2와의 유사도를 바탕으로 예측이 가능하다.  

Item-based filtering 방식은 앞서 만든 ResNet-18에서 각 이미지에 대한 특징 벡터를 추출하고 이를 통해 스타일 간 유사도를 계산한다. 예를 들어, "feminine" 스타일 이미지와 "punk" 스타일 이미지 간의 코사인 유사도를 계산하여 두 스타일 간의 유사성을 파악한다. 응답자 1이 "feminine" 스타일을 선호한다고 할 때, 새로운 이미지가 들어왔을 때 "punk" 스타일에 속한다면, 해당 이미지를 "feminine" 스타일과의 유사도를 바탕으로 응답자 1의 선호 여부를 예측할 수 있다. 만약 "feminine" 스타일과 "punk" 스타일 간의 유사도가 높게 나온다면, 응답자 1이 새로운 "punk" 스타일 이미지를 선호할 가능성이 높다고 예측한다.

정리하자면 User-based Filtering은 개별 응답자의 선호도를 더 잘 반영할 수 있어 개인화에 유리하지만, 데이터가 희소할 때 예측 성능이 떨어질 수 있다. 반면 Item-based Filtering은 응답자 수가 증가해도 효율성이 유지되며 스타일 예측이 명확해지지만, 개인화된 추천에는 한계가 있을 수 있다. 그렇기 때문에 사용자의 개인적 취향을 더 잘 반영하고자 한다면 user-based filtering이 더 적합하고, 새로운 사용자가 많은 시스템이나 사용자 정보가 부족한 경우 item-based filtering이 더 유리하다고 할 수 있다.

In [1]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 예시 데이터: 응답자와 스타일 선호 데이터를 DataFrame으로 정의
data = {
    '응답자': ['응답자1', '응답자1', '응답자1', '응답자2', '응답자2', '응답자2', '응답자3', '응답자3', '응답자3'],
    '스타일': ['feminine', 'punk', 'sportive casual', 'feminine', 'classic', 'punk', 'sportive casual', 'punk', 'feminine'],
    '선호도': [1, 1, 0, 1, 1, 0, 1, 1, 0]
}

df = pd.DataFrame(data)

# 데이터 피벗 테이블 생성 (응답자-스타일 선호도 매트릭스)
user_style_matrix = df.pivot(index='응답자', columns='스타일', values='선호도').fillna(0)

# 1. User-based Filtering: 사용자 간 유사도 계산
user_similarity = cosine_similarity(user_style_matrix)
user_similarity_df = pd.DataFrame(user_similarity, index=user_style_matrix.index, columns=user_style_matrix.index)

# 2. Item-based Filtering: 스타일 간 유사도 계산
item_similarity = cosine_similarity(user_style_matrix.T)  # 스타일 간의 유사도는 전치 행렬 사용
item_similarity_df = pd.DataFrame(item_similarity, index=user_style_matrix.columns, columns=user_style_matrix.columns)

# User-based Filtering을 통한 추천
def recommend_user_based(user, matrix, similarity_df, n_recommendations=2):
    similar_users = similarity_df[user].sort_values(ascending=False)
    similar_users = similar_users[similar_users > 0].index[1:n_recommendations+1]  # 가장 유사한 사용자 선택
    recommendations = matrix.loc[similar_users].mean().sort_values(ascending=False)
    return recommendations[recommendations > 0].index.tolist()

# Item-based Filtering을 통한 추천
def recommend_item_based(style, matrix, similarity_df, n_recommendations=2):
    similar_items = similarity_df[style].sort_values(ascending=False)
    similar_items = similar_items[similar_items > 0].index[1:n_recommendations+1]  # 가장 유사한 스타일 선택
    return similar_items.tolist()

# 예시 추천 결과
print("User-based 추천:", recommend_user_based('응답자1', user_style_matrix, user_similarity_df))
print("Item-based 추천:", recommend_item_based('feminine', user_style_matrix, item_similarity_df))

User-based 추천: ['classic', 'feminine', 'punk', 'sportive casual']
Item-based 추천: ['classic', 'punk']


### 3-2.

3-1에서 살펴 본 기법 중, item-based filtering을 직접 구현해본다. <br>
"이미지 간 유사도"(image2image)만을 활용하여 Validation 데이터 내 응답자의 "스타일 선호 여부 예측" 문제를 수행하고 성능을 측정한다.

#### 3-2-1.

#### 추천 시스템 제작을 위한 데이터(user_data.json) 추출 (2-2미션의 데이터)

In [1]:
# 필요한 라이브러리 불러오기
import torch
import os
import pandas as pd
import json
import warnings
warnings.simplefilter(action='ignore', category=pd.errors.SettingWithCopyWarning)

In [2]:
# 데이터셋 경로 설정: 각 경로에서 이미지 파일 목록을 가져옵니다.
training_image = os.listdir('./data/training_image')   # 훈련 이미지 경로에서 파일 목록 가져오기
validation_image = os.listdir('./data/validation_image')  # 검증 이미지 경로에서 파일 목록 가져오기

# 데이터셋 파일명에서 속성 정보를 분리하여 데이터프레임 생성
column_name = ['W/T', 'image_id', 'period', 'style', 'Sex']  # 파일명에서 추출할 열 이름

# 훈련 데이터셋 파일명과 속성 정보로 데이터프레임 생성
training_data = {'file_name': training_image}  # 훈련 이미지 파일명을 딕셔너리로 생성
training_df = pd.DataFrame(training_data)  # 딕셔너리를 데이터프레임으로 변환
# 파일명에서 확장자(.jpg)를 제거하고 '_' 기준으로 나눈 후, 지정한 column_name에 맞춰 할당
training_df[column_name] = training_df['file_name'].str.replace('.jpg', '').str.split('_', expand=True)

# 검증 데이터셋 파일명과 속성 정보로 데이터프레임 생성
validation_data = {'file_name': validation_image}  # 검증 이미지 파일명을 딕셔너리로 생성
validation_df = pd.DataFrame(validation_data)  # 딕셔너리를 데이터프레임으로 변환
# 파일명에서 확장자(.jpg)를 제거하고 '_' 기준으로 나눈 후, 지정한 column_name에 맞춰 할당
validation_df[column_name] = validation_df['file_name'].str.replace('.jpg', '').str.split('_', expand=True)

In [3]:
# 데이터셋 경로 설정: 각 경로에서 라벨 파일 목록을 가져옵니다.
training_label = os.listdir('./data/training_label') # 훈련 라벨 경로에서 파일 목록 가져오기
validation_label = os.listdir('./data/validation_label') # 검증 라벨 경로에서 파일 목록 가져오기

# 데이터셋 파일명에서 속성 정보를 분리하여 데이터프레임 생성
column_name_2 = ['W/T', 'image_id', 'period', 'style', 'Sex', 'survey_id'] # 파일명에서 추출할 열 이름

# 훈련 데이터셋 파일명과 속성 정보로 데이터프레임 생성
training_label_data = {'file_name': training_label} # 훈련 라벨 파일명을 딕셔너리로 생성
training_label_df = pd.DataFrame(training_label_data) # 딕셔너리를 데이터프레임으로 변환
# 파일명에서 확장자(.json)를 제거하고 '_' 기준으로 나눈 후, 지정한 column_name에 맞춰 할당
training_label_df[column_name_2] = training_label_df['file_name'].str.replace('.json', '').str.split('_', expand=True)

# 검증 데이터셋 파일명과 속성 정보로 데이터프레임 생성
validation_label_data = {'file_name': validation_label} # 검증 라벨 파일명을 딕셔너리로 생성
validation_label_df = pd.DataFrame(validation_label_data) # 딕셔너리를 데이터프레임으로 변환
# 파일명에서 확장자(.json)를 제거하고 '_' 기준으로 나눈 후, 지정한 column_name에 맞춰 할당
validation_label_df[column_name_2] = validation_label_df['file_name'].str.replace('.json', '').str.split('_', expand=True)

In [4]:
# training_label_df에서 training_df의 'image_id' 값과 일치하는 행만 필터링하여 새로운 데이터프레임 생성
drop_training_label_df = training_label_df[training_label_df['image_id'].isin(training_df['image_id'])]

# validation_label_df에서 validation_df의 'image_id' 값과 일치하는 행만 필터링하여 새로운 데이터프레임 생성
drop_validation_label_df = validation_label_df[validation_label_df['image_id'].isin(validation_df['image_id'])]

In [5]:
# drop_training_label_df 데이터프레임에 'T/V'라는 새로운 컬럼을 추가하고,
# 모든 행에 'Train' 값을 설정하여 해당 데이터가 훈련 데이터임을 표시
drop_training_label_df.loc[:, 'T/V'] = 'Train'

# drop_validation_label_df 데이터프레임에 'T/V'라는 새로운 컬럼을 추가하고,
# 모든 행에 'Validation' 값을 설정하여 해당 데이터가 검증 데이터임을 표시
drop_validation_label_df.loc[:, 'T/V'] = 'Validation'

In [6]:
# 훈련 및 검증 데이터의 JSON 파일 경로 지정
train_path = './data/training_label'
valid_path = './data/validation_label'

# JSON 파일을 읽어 데이터를 추출하는 함수를 정의
def extract_json_data(file_name):
    # JSON 파일을 열어서 데이터를 읽음
    with open(file_name, 'r') as f:
        data = json.load(f)
    
    # 필요한 데이터인 'user'의 'R_id'와 'item'의 'survey'에서 'Q5' 값을 추출
    R_id = data['user']['R_id']
    Q5 = data['item']['survey']['Q5']
    
    return R_id, Q5

# drop_training_label_df와 drop_validation_label_df에 R_id와 Q5 값을 담을 새로운 열을 생성하고 기본값을 None으로 설정
drop_training_label_df.loc[:, 'R_id'] = None
drop_training_label_df.loc[:, 'Q5'] = None
drop_validation_label_df.loc[:, 'R_id'] = None
drop_validation_label_df.loc[:, 'Q5'] = None

# drop_training_label_df의 각 행에 대해 JSON 파일에서 데이터를 추출하여 데이터프레임에 추가
for index, row in drop_training_label_df.iterrows():
    # 파일 이름을 전체 경로로 변환
    file_name = os.path.join(train_path, row['file_name'])
    
    # JSON 파일에서 R_id와 Q5 데이터를 추출
    R_id, Q5 = extract_json_data(file_name)
    
    # 추출한 R_id와 Q5 값을 해당 행의 'R_id'와 'Q5' 열에 추가
    drop_training_label_df.at[index, 'R_id'] = R_id
    drop_training_label_df.at[index, 'Q5'] = Q5

# drop_validation_label_df의 각 행에 대해 JSON 파일에서 데이터를 추출하여 데이터프레임에 추가
for index, row in drop_validation_label_df.iterrows():
    # 파일 이름을 전체 경로로 변환
    file_name = os.path.join(valid_path, row['file_name'])
    
    # JSON 파일에서 R_id와 Q5 데이터를 추출
    R_id, Q5 = extract_json_data(file_name)
    
    # 추출한 R_id와 Q5 값을 해당 행의 'R_id'와 'Q5' 열에 추가
    drop_validation_label_df.at[index, 'R_id'] = R_id
    drop_validation_label_df.at[index, 'Q5'] = Q5

In [7]:
# drop_training_label_df와 drop_validation_label_df 데이터프레임을 연결하여 하나의 데이터프레임으로 결합
# ignore_index=True로 설정하여 기존 인덱스를 무시하고 새로운 연속 인덱스를 생성
drop_df = pd.concat([drop_training_label_df, drop_validation_label_df], ignore_index=True)

In [8]:
# drop_df 데이터프레임에 새로운 열 'jpg_name'을 생성
# 'W/T', 'image_id', 'period', 'style', 'Sex' 열의 값들을 결합하여 파일명 형식으로 지정
# 각 값을 문자열로 변환하여 '_'로 연결하고, 마지막에 '.jpg'를 추가하여 파일명 생성
drop_df['name'] = drop_df['W/T'].astype(str) + '_' + \
                      drop_df['image_id'].astype(str) + '_' + \
                      drop_df['period'].astype(str) + '_' + \
                      drop_df['style'].astype(str) + '_' + \
                      drop_df['Sex'].astype(str)

In [9]:
# Training과 Validation을 구분한 후 선호/비선호 구분
training_preference = drop_df[(drop_df['T/V'] == 'Train') & (drop_df['Q5'] == 2)]
training_non_preference = drop_df[(drop_df['T/V'] == 'Train') & (drop_df['Q5'] == 1)]

validation_preference = drop_df[(drop_df['T/V'] == 'Validation') & (drop_df['Q5'] == 2)]
validation_non_preference = drop_df[(drop_df['T/V'] == 'Validation') & (drop_df['Q5'] == 1)]


# 응답자 ID를 기준으로 그룹화하고 스타일 선호 및 비선호를 리스트로 수집
summary_df = pd.DataFrame({
    #'응답자 ID': drop_df['R_id'].unique(),
    'Training 스타일 선호': training_preference.groupby('R_id')['name'].apply(list),
    'Training 스타일 비선호': training_non_preference.groupby('R_id')['name'].apply(list),
    'Validation 스타일 선호': validation_preference.groupby('R_id')['name'].apply(list),
    'Validation 스타일 비선호': validation_non_preference.groupby('R_id')['name'].apply(list)
})

summary_df = summary_df.applymap(lambda x: x if isinstance(x, list) else [])

  summary_df = summary_df.applymap(lambda x: x if isinstance(x, list) else [])


In [10]:
# summary_df에서 필요한 데이터를 리스트로 변환하여 딕셔너리로 재구성
user_data = {
    "R_id": summary_df.index.tolist(),  # R_id는 index로 설정되어 있는 경우
    "Training_Like": summary_df["Training 스타일 선호"].tolist(),
    "Training_Dislike": summary_df["Training 스타일 비선호"].tolist(),
    "Validation_Like": summary_df["Validation 스타일 선호"].tolist(),
    "Validation_Dislike": summary_df["Validation 스타일 비선호"].tolist(),
}

In [None]:
# 1회만 실행

import json

# JSON 파일로 저장
with open("user_data.json", "w", encoding="utf-8") as file:
    json.dump(user_data, file, ensure_ascii=False, indent=4)  # indent=4는 보기 좋게 들여쓰기

#### 3-2-2.

#### 추천 시스템 구현

- 데이터 로드와 전처리
    - feature_df 데이터프레임에는 각 이미지의 특징 벡터가 저장되어 있고, user_data.json에는 각 사용자별 선호 및 비선호 이미지 정보가 저장되어 있다. 
    - 이를 바탕으로 각 사용자의 선호도를 분석할 준비를 한다. 
    - 만약 특정 이미지가 feature_df에 없다면, feature_df 데이터프레임의 중앙값을 사용하여 기본 특징 벡터(DUMMY_FEATURES)를 대체값으로 사용한다.

- 코사인 유사도를 통한 유사도 분석
    - 각 사용자의 Training_Like(선호 이미지)와 Training_Dislike(비선호 이미지)에 해당하는 이미지들의 특징 벡터를 추출하고, 코사인 유사도를 계산해 선호와 비선호 이미지 간의 유사도를 비교한다. 
    - Validation 데이터(val_like_images, val_dislike_images)를 사용하여 선호 이미지인지 여부를 예측하며, like_similarity와 dislike_similarity의 차이를 계산하여 예측의 기준으로 삼는다.

- ROC 커브와 최적 임계값 결정
    - 예측된 like_similarity와 dislike_similarity 차이 값을 ROC 커브를 통해 분석하고, 최적의 tpr - fpr 값이 최대가 되는 지점에서 최적 임계값(optimal_threshold)을 결정한다. 
    - 이 임계값은 유사도 차이에 적용되어 최종적으로 이미지를 선호 또는 비선호로 분류하는 기준이 된다.

- 최종 예측 및 정확도 계산
    - 최적 임계값을 기반으로 Validation 이미지에 대해 최종 예측을 수행한다. 
    - 예측 결과가 실제 레이블과 일치하는지 여부에 따라 정확도를 계산하며, 최적화된 임계값 적용 후 최종 정확도를 평가한다.

In [1]:
import torch
import torch.nn as nn
from torchvision import models, transforms
from PIL import Image
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd
from sklearn.metrics import roc_curve

# 1. 이미지 특징 벡터 추출 클래스 정의 (ResNet18 사용)
class FeatureExtractor:
    def __init__(self, model_path):
        # 훈련된 ResNet18 모델 불러오기
        self.model = models.resnet18(weights=None)  # 사전 가중치 없이 ResNet18 모델 정의
        self.model.fc = nn.Linear(self.model.fc.in_features, 31)  # 마지막 레이어를 31개 클래스에 맞게 설정
        self.model.load_state_dict(torch.load(model_path, map_location='cpu', weights_only=True))  # 가중치 로드
        self.model.fc = nn.Identity()  # 특징 벡터를 추출하기 위해 마지막 레이어를 Identity로 변경
        self.model.eval()  # 모델을 평가 모드로 설정하여 학습 시 불필요한 동작을 비활성화

    def extract_features(self, image_path):
        # 이미지 전처리 (ResNet18의 입력 크기에 맞추기 위한 변환)
        transform = transforms.Compose([
            transforms.Resize((224, 224)),  # 입력 이미지 크기를 224x224로 조정
            transforms.ToTensor(),  # 이미지 데이터를 텐서로 변환
            transforms.Normalize(mean=[0.8752, 0.8656, 0.8636], std=[0.2598, 0.2734, 0.2761]) # 정규화
        ])
        
        # 이미지 열기 및 변환 적용
        image = Image.open(image_path).convert('RGB')  # 이미지 열기 및 RGB로 변환
        image = transform(image).unsqueeze(0)  # 배치 차원을 추가하여 (1, 3, 224, 224) 형태로 변환
        with torch.no_grad():  # 모델 추론 시에는 기울기 계산을 하지 않도록 설정 (메모리 절약)
            features = self.model(image)  # 이미지 특징 벡터 추출
        return features.squeeze().numpy()  # 차원을 줄이고 numpy 배열로 변환하여 반환

# 사용 예시
feature_extractor = FeatureExtractor('fashion_resnet18.pt')  # FeatureExtractor 클래스 인스턴스 생성
features = feature_extractor.extract_features('data/validation_image_cropped/T_00253_60_popart_W.jpg')  # 이미지에서 특징 벡터 추출

In [3]:
import os
from torch.utils.data import Dataset, DataLoader
from PIL import Image
from torchvision import transforms
from tqdm import tqdm

# 사용자 정의 데이터셋 클래스 정의
class TrainingImageDataset(Dataset):
    def __init__(self, img_dir, transform=None, label_encoder=None, is_training=False):
        self.img_dir = img_dir  # 이미지 파일이 있는 디렉토리 경로
        self.transform = transform  # 이미지 전처리 transform
        self.img_labels = self.get_image_labels()  # 이미지 파일명과 레이블 목록을 생성
        self.is_training = is_training  # 훈련 모드 여부

        if self.is_training:
            # 훈련 모드일 때 LabelEncoder를 사용하여 레이블을 숫자로 변환
            self.label_encoder = label_encoder
            self.labels = self.label_encoder.transform([label for _, label in self.img_labels])
        else:
            # 평가/테스트 모드일 때 레이블은 그대로 유지
            self.labels = [label for _, label in self.img_labels]

    # 이미지 파일명에서 레이블을 추출하는 메서드
    def get_image_labels(self):
        img_labels = []
        for img_file in os.listdir(self.img_dir):
            label = self.extract_label_from_filename(img_file)  # 파일명에서 레이블 추출
            img_labels.append((img_file, label))  # 이미지 파일명과 레이블을 튜플로 저장
        return img_labels

    # 파일명에서 레이블 추출하는 메서드 (파일명 첫 부분이 레이블로 가정)
    def extract_label_from_filename(self, filename):
        label = filename.split(".")[0]  # 파일명에서 첫 부분만 분리하여 레이블로 사용
        return label

    # 데이터셋의 크기 반환
    def __len__(self):
        return len(self.img_labels)

    # 인덱스에 해당하는 이미지와 레이블 반환
    def __getitem__(self, idx):
        if self.is_training:
            img_name = self.img_labels[idx][0]  # 훈련 모드에서는 이미지 이름과 레이블을 가져옴
            label = self.labels[idx]
        else:
            img_name, label = self.img_labels[idx]  # 평가/테스트 모드에서는 원본 레이블 사용
        img_path = os.path.join(self.img_dir, img_name)  # 이미지 파일 경로 생성
        image = Image.open(img_path).convert("RGB")  # 이미지 로드 및 RGB 형식으로 변환
        
        if self.transform:
            image = self.transform(image)  # 이미지에 transform 적용

        return image, label

# 데이터셋과 데이터로더 생성
transform = transforms.Compose([
    transforms.Resize((224, 224)),  # 이미지 크기 조정
    transforms.ToTensor(),           # 이미지 텐서로 변환
    transforms.Normalize(mean=[0.8752, 0.8656, 0.8636], std=[0.2598, 0.2734, 0.2761]) # 이미지 정규화
])

# 훈련 및 검증 데이터셋 생성
train_dataset = TrainingImageDataset(img_dir='./data/training_image_cropped', transform=transform)
val_dataset = TrainingImageDataset(img_dir='./data/validation_image_cropped', transform=transform)

# 두 데이터셋을 합치기 위해 ConcatDataset을 상속한 사용자 정의 클래스 정의
from torch.utils.data import ConcatDataset

class CustomConcatDataset(ConcatDataset):
    def __init__(self, datasets):
        super().__init__(datasets)
        self.labels = []
        for dataset in datasets:
            self.labels.extend(dataset.labels)  # 모든 데이터셋의 레이블을 결합

# 훈련 및 검증 데이터셋 합치기
concat_dataset = CustomConcatDataset([train_dataset, val_dataset])
data_loader = DataLoader(concat_dataset, batch_size=256, shuffle=False, num_workers=8)  # 배치 로더 생성

# 1. 이미지 특징 벡터 추출 클래스 정의 (ResNet18 사용)
class FeatureExtractor:
    def __init__(self, model_path):
        # 훈련된 ResNet18 모델 불러오기
        self.model = models.resnet18(weights=None)  # 사전 학습된 가중치 없이 ResNet18 모델 생성
        self.model.fc = nn.Linear(self.model.fc.in_features, 31)  # 마지막 레이어를 분류 수에 맞게 조정
        self.model.load_state_dict(torch.load(model_path, map_location='cpu', weights_only=True))  # 가중치 로드
        self.model.fc = nn.Identity()  # 마지막 레이어를 제거하여 특징 벡터 추출
        self.model.eval()  # 평가 모드로 전환
        self.model.to('cuda')  # GPU로 이동

    # 이미지에서 특징 벡터 추출
    def extract_features(self, images):
        with torch.no_grad():  # 기울기 계산 비활성화 (메모리 절약)
            features = self.model(images)  # 모델을 통해 특징 벡터 추출
        return features.cpu().numpy()  # GPU에서 CPU로 이동 후 NumPy 배열 반환

model_path = 'fashion_resnet18.pt'
extractor = FeatureExtractor(model_path)  # 특징 벡터 추출기 생성

features = []
image_names = []

# 배치 단위로 특징 벡터 추출
for images, paths in tqdm(data_loader):
    images = images.to('cuda')  # 이미지 배치를 GPU로 이동
    batch_features = extractor.extract_features(images)  # 특징 벡터 추출
    features.append(batch_features)  # 특징 벡터 저장
    image_names.extend(paths)  # 이미지 파일명 저장

# 모든 특징 벡터를 하나의 NumPy 배열로 변환
features = np.vstack(features)  # 특징 벡터를 수직으로 쌓아 하나의 배열로 결합

# 특징 벡터를 데이터프레임으로 변환 (이미지 파일명을 인덱스로 사용)
feature_df = pd.DataFrame(features, index=image_names)

100%|██████████| 20/20 [00:03<00:00,  6.39it/s]


In [4]:
feature_df.to_csv('image_feature_df.csv')

In [5]:
import pandas as pd
# 저장된 이미지 특징 벡터 데이터프레임 파일을 읽어옴
# 'image_feature_df.csv' 파일을 로드하고, 첫 번째 열을 인덱스로 설정
feature_df = pd.read_csv('image_feature_df.csv', index_col=0)

# 데이터프레임 확인 (특징 벡터와 이미지 파일명이 포함된 데이터프레임 출력)
feature_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,502,503,504,505,506,507,508,509,510,511
W_01752_00_metrosexual_M,1.847668,0.000000,2.458406,0.270229,1.170993,3.836130,0.000000,1.158465,1.753551,4.316210,...,0.000000,1.699600,0.000000,2.604443,0.271087,0.000000,0.000000,0.000000,0.000000,2.316531
W_46417_70_military_W,2.046788,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.133544,0.027279,8.868113,...,0.000000,6.317285,0.000000,0.925806,0.000000,1.118813,0.000000,0.000000,2.080224,9.565922
W_01509_00_metrosexual_M,1.437613,1.770455,2.123551,0.151370,0.000000,1.460724,0.000000,0.000000,2.396101,1.030263,...,6.129653,4.321615,0.000000,0.142883,0.000000,0.346739,0.000000,0.000000,0.000000,0.000000
W_18951_50_feminine_W,0.000000,0.000000,0.663192,0.000000,0.000000,1.108396,0.000000,0.065373,2.407773,1.175754,...,3.787046,0.117699,0.000000,0.000000,0.000000,0.158262,0.000000,0.000000,0.000000,0.000000
W_29485_10_sportivecasual_M,1.839155,0.000000,0.099437,1.552018,0.000000,0.000000,0.000000,1.252575,5.868081,5.809547,...,2.109154,12.650900,0.000000,0.802910,0.000000,1.113255,0.000000,0.000000,1.061913,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
T_21988_70_hippie_M,0.360615,0.000000,1.936827,0.657066,0.000000,1.639859,0.000000,0.000000,6.749860,3.557946,...,4.524527,0.000000,2.997836,0.000000,0.000000,0.511777,6.243044,1.951600,0.038681,4.124518
W_28022_50_ivy_M,0.078146,1.574545,0.000000,0.000000,0.992199,7.407101,0.000000,0.287537,0.812477,0.781694,...,0.000000,0.326500,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,6.333272,0.244464
W_00551_19_normcore_M,0.000000,0.000000,2.552800,5.708521,0.000000,3.025286,1.091456,0.000000,13.621263,1.081994,...,13.015729,3.710604,0.000000,0.000000,0.000000,0.342131,0.000000,0.144854,0.000000,0.223307
W_03144_50_classic_W,0.000000,0.000000,27.429203,9.720285,13.629567,6.878621,0.000000,1.309680,0.000000,1.095730,...,3.294993,1.892139,6.258384,0.087237,0.000000,0.000000,1.959131,0.000000,3.736274,0.916059


In [6]:
from sklearn.metrics.pairwise import cosine_similarity

# 3. 코사인 유사도를 통해 이미지 간 유사도 계산
# feature_df의 각 행에 대해 코사인 유사도를 계산하여 유사도 행렬 생성
similarity_matrix = cosine_similarity(feature_df.values)

# 유사도 행렬을 데이터프레임으로 변환하여 각 이미지 간의 유사도를 쉽게 확인
# 인덱스와 열 이름을 이미지 경로로 설정
similarity_df = pd.DataFrame(similarity_matrix, index=feature_df.index, columns=feature_df.index)

# 유사도 데이터프레임 확인 (각 이미지 간의 유사도 값 출력)
similarity_df

Unnamed: 0,W_01752_00_metrosexual_M,W_46417_70_military_W,W_01509_00_metrosexual_M,W_18951_50_feminine_W,W_29485_10_sportivecasual_M,W_01706_90_hiphop_M,W_07048_90_hiphop_M,W_02897_90_hiphop_M,W_10212_60_space_W,W_15390_60_mods_M,...,W_10558_50_feminine_W,W_14691_70_military_W,W_05791_10_sportivecasual_W,W_15662_19_normcore_M,W_17742_80_bold_M,T_21988_70_hippie_M,W_28022_50_ivy_M,W_00551_19_normcore_M,W_03144_50_classic_W,W_28453_10_sportivecasual_M
W_01752_00_metrosexual_M,1.000000,0.333978,0.469022,0.267896,0.379189,0.260083,0.364250,0.422689,0.311600,0.395134,...,0.391985,0.360566,0.446299,0.401392,0.281556,0.409494,0.344177,0.407112,0.376030,0.298720
W_46417_70_military_W,0.333978,1.000000,0.280720,0.215525,0.269625,0.241522,0.205495,0.214462,0.282800,0.151194,...,0.309978,0.243692,0.301981,0.326723,0.181354,0.232425,0.174615,0.213695,0.199068,0.316381
W_01509_00_metrosexual_M,0.469022,0.280720,1.000000,0.389855,0.370785,0.345974,0.398610,0.410507,0.397503,0.438536,...,0.326343,0.418890,0.422303,0.421830,0.316017,0.360182,0.313271,0.489437,0.302745,0.306513
W_18951_50_feminine_W,0.267896,0.215525,0.389855,1.000000,0.255645,0.278340,0.293834,0.277670,0.256077,0.269386,...,0.286969,0.270923,0.220378,0.256856,0.268513,0.313247,0.206796,0.277013,0.208557,0.258731
W_29485_10_sportivecasual_M,0.379189,0.269625,0.370785,0.255645,1.000000,0.338829,0.254124,0.258364,0.464818,0.316470,...,0.255622,0.285080,0.283117,0.343437,0.356450,0.247729,0.352874,0.327124,0.257666,0.299346
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
T_21988_70_hippie_M,0.409494,0.232425,0.360182,0.313247,0.247729,0.255317,0.567998,0.417515,0.301278,0.283284,...,0.445726,0.336386,0.448078,0.336670,0.393245,1.000000,0.251766,0.327038,0.353933,0.253852
W_28022_50_ivy_M,0.344177,0.174615,0.313271,0.206796,0.352874,0.282203,0.273413,0.244242,0.427588,0.341415,...,0.285013,0.293280,0.396041,0.373004,0.295869,0.251766,1.000000,0.332658,0.324585,0.413701
W_00551_19_normcore_M,0.407112,0.213695,0.489437,0.277013,0.327124,0.497472,0.370921,0.431100,0.296399,0.464457,...,0.197859,0.383272,0.353761,0.387237,0.405487,0.327038,0.332658,1.000000,0.256685,0.302316
W_03144_50_classic_W,0.376030,0.199068,0.302745,0.208557,0.257666,0.210656,0.349558,0.358258,0.485074,0.233083,...,0.254452,0.302004,0.373238,0.307877,0.335458,0.353933,0.324585,0.256685,1.000000,0.286128


Resnet-18의 512특징벡터기반 추천 시스템

In [7]:
import json
from sklearn.metrics import accuracy_score

# 4. 사용자 선호 데이터를 바탕으로 협업 필터링을 수행
user_data = json.load(open('user_data.json'))  # 사용자 선호 데이터 로드

# 임계값 최적화를 위한 y_true와 y_scores 초기화
y_true = []  # 실제 레이블 (1: 선호, 0: 비선호)
y_scores = []  # like_similarity - dislike_similarity 값을 기록할 리스트

# 만약 이미지에 해당하는 특징 벡터가 없을 경우 사용할 기본 특징 벡터 (중앙값)
DUMMY_FEATURES = feature_df.median().values.reshape(1, -1)
len(DUMMY_FEATURES)

# 사용자별 선호도 예측을 위한 딕셔너리 초기화
predictions = {}
for user_id, like_images, dislike_images, val_like_images, val_dislike_images in zip(
        user_data["R_id"], user_data["Training_Like"], user_data["Training_Dislike"],
        user_data["Validation_Like"], user_data["Validation_Dislike"]):
    
    # 각 사용자의 선호 및 비선호 이미지들의 특징 벡터 추출
    # 만약 선호나 비선호 이미지가 feature_df에 없다면 유효한 이미지 목록으로 필터링
    valid_like_images = [img for img in like_images if img in feature_df.index]
    valid_dislike_images = [img for img in dislike_images if img in feature_df.index]

    # 유효한 선호 이미지가 없으면 더미 특징 벡터 사용, 있으면 해당 특징 벡터 사용
    if not valid_like_images:
        like_features = DUMMY_FEATURES
    else:
        like_features = feature_df.loc[valid_like_images].values

    # 유효한 비선호 이미지가 없으면 더미 특징 벡터 사용, 있으면 해당 특징 벡터 사용
    if not valid_dislike_images:
        dislike_features = DUMMY_FEATURES
    else:
        dislike_features = feature_df.loc[valid_dislike_images].values
    
    # Validation의 선호 및 비선호 이미지에 대해 평가 수행
    for val_image, label in zip(val_like_images + val_dislike_images, [1] * len(val_like_images) + [0] * len(val_dislike_images)):
        
        # Validation 이미지의 특징 벡터 가져오기 (feature_df에서 존재하지 않는 경우 더미 특징 벡터 사용)
        if val_image in feature_df.index:
            try:
                val_feature = feature_df.loc[val_image].median().values.reshape(1, -1)
            except:
                val_feature = feature_df.loc[val_image].values.reshape(1, -1)
        else:
            val_feature = DUMMY_FEATURES

        # 코사인 유사도를 통해 선호 유사도 및 비선호 유사도 계산
        like_similarity = cosine_similarity(val_feature, like_features).mean()
        dislike_similarity = cosine_similarity(val_feature, dislike_features).mean()

        # 유사도 출력
        print(f"User {user_id} - Image {val_image}: 선호 유사도 - {like_similarity:.4f}, 비선호 유사도 - {dislike_similarity:.4f}")
        
        # 선호 유사도 - 비선호 유사도의 차이를 y_scores에 저장
        score_diff = like_similarity - dislike_similarity
        y_scores.append(score_diff)
        y_true.append(label)
        
        # 임계값 없이 비교해서 예측 (양수면 선호, 음수면 비선호)
        predicted_label = "선호" if score_diff > 0 else "비선호"
        predictions[(user_id, val_image)] = (predicted_label, "선호" if label == 1 else "비선호")

User 12 - Image W_03412_50_classic_W: 선호 유사도 - 1.0000, 비선호 유사도 - 0.4004
User 12 - Image W_02651_50_feminine_W: 선호 유사도 - 0.4011, 비선호 유사도 - 0.4429
User 27 - Image W_06522_50_ivy_M: 선호 유사도 - 0.3213, 비선호 유사도 - 0.3188
User 27 - Image W_07120_19_normcore_M: 선호 유사도 - 0.3292, 비선호 유사도 - 0.3412
User 27 - Image W_17697_50_ivy_M: 선호 유사도 - 0.3404, 비선호 유사도 - 0.3447
User 30 - Image W_18249_50_feminine_W: 선호 유사도 - 0.7835, 비선호 유사도 - 0.3391
User 133 - Image W_10073_70_hippie_M: 선호 유사도 - 0.2675, 비선호 유사도 - 0.4467
User 133 - Image W_17697_50_ivy_M: 선호 유사도 - 0.3553, 비선호 유사도 - 0.3590
User 140 - Image W_07121_80_bold_M: 선호 유사도 - 0.5408, 비선호 유사도 - 0.3283
User 179 - Image W_14147_70_disco_W: 선호 유사도 - 0.2829, 비선호 유사도 - 0.6993
User 196 - Image W_01549_50_ivy_M: 선호 유사도 - 0.5407, 비선호 유사도 - 0.3509
User 196 - Image W_12803_70_hippie_M: 선호 유사도 - 0.5085, 비선호 유사도 - 0.2723
User 289 - Image W_06448_10_sportivecasual_W: 선호 유사도 - 0.8020, 비선호 유사도 - 0.3564
User 289 - Image W_11495_19_genderless_W: 선호 유사도 - 0.2636, 비선호 유사도 - 0

In [8]:
# 정확도 계산
accuracy = accuracy_score(y_true, [1 if score > 0 else 0 for score in y_scores])
print(f"임계값 찾기 이전의 정확도: {accuracy:.4f}")

# 5. ROC 커브를 통해 최적 임계값 찾기
# y_true와 y_scores를 기반으로 ROC 커브 계산
fpr, tpr, thresholds = roc_curve(y_true, y_scores)

# tpr - fpr이 최대인 지점을 최적 임계값으로 선택
optimal_idx = np.argmax(tpr - fpr)
optimal_threshold = thresholds[optimal_idx]

# 최적 임계값 출력
print(f"최적 임계값: {optimal_threshold}")

임계값 찾기 이전의 정확도: 0.7705
최적 임계값: 0.0051981241362478725


In [9]:
# 6. 최적 임계값을 기반으로 정확도 계산
correct = 0  # 정확하게 예측한 사례의 수
total = 0  # 전체 사례의 수

# 더미 특징 벡터를 DUMMY_FEATURES로 초기화 (중앙값 사용)
DUMMY_FEATURES = feature_df.median().values.reshape(1, -1)

# 각 사용자에 대해 반복
for user_id, like_images, dislike_images, val_like_images, val_dislike_images in zip(
        user_data["R_id"], user_data["Training_Like"], user_data["Training_Dislike"],
        user_data["Validation_Like"], user_data["Validation_Dislike"]):
    
    # 유효한 선호 및 비선호 이미지 필터링 (feature_df에 존재하는 경우만)
    valid_like_images = [img for img in like_images if img in feature_df.index]
    valid_dislike_images = [img for img in dislike_images if img in feature_df.index]

    # 유효한 선호 이미지가 없을 경우 더미 특징 벡터 사용, 있으면 해당 특징 벡터 사용
    if not valid_like_images:
        like_features = DUMMY_FEATURES
    else:
        like_features = feature_df.loc[valid_like_images].values

    # 유효한 비선호 이미지가 없을 경우 더미 특징 벡터 사용, 있으면 해당 특징 벡터 사용
    if not valid_dislike_images:
        dislike_features = DUMMY_FEATURES
    else:
        dislike_features = feature_df.loc[valid_dislike_images].values
    
    # Validation 이미지들에 대해 예측 수행
    for val_image, label in zip(val_like_images + val_dislike_images, ["선호"] * len(val_like_images) + ["비선호"] * len(val_dislike_images)):
        
        # Validation 이미지의 특징 벡터 가져오기 (feature_df에서 없는 경우 더미 특징 벡터 사용)
        if val_image in feature_df.index:
            try:
                val_feature = feature_df.loc[val_image].median().values.reshape(1, -1)
            except:
                val_feature = feature_df.loc[val_image].values.reshape(1, -1)
        else:
            val_feature = DUMMY_FEATURES

        # 코사인 유사도를 통해 선호 유사도 및 비선호 유사도 계산
        like_similarity = cosine_similarity(val_feature, like_features).mean()
        dislike_similarity = cosine_similarity(val_feature, dislike_features).mean()
        
        # 유사도 차이 계산
        score_diff = like_similarity - dislike_similarity
        
        # 최적 임계값을 기반으로 최종 예측 결정
        final_prediction = "선호" if score_diff >= optimal_threshold else "비선호"
        
        # 예측과 실제 레이블 출력
        print(f"User {user_id} - Image {val_image}: 예측 - {final_prediction}, 실제 - {label}")
        
        # 정확도 계산을 위한 정답 개수와 전체 개수 증가
        total += 1
        if final_prediction == label:
            correct += 1

# 최적 임계값 적용 후 정확도 계산
accuracy = correct / total
print(f"\n최적 임계값 적용 후 정확도: {accuracy * 100:.2f}%")

User 12 - Image W_03412_50_classic_W: 예측 - 선호, 실제 - 선호
User 12 - Image W_02651_50_feminine_W: 예측 - 비선호, 실제 - 비선호
User 27 - Image W_06522_50_ivy_M: 예측 - 비선호, 실제 - 선호
User 27 - Image W_07120_19_normcore_M: 예측 - 비선호, 실제 - 선호
User 27 - Image W_17697_50_ivy_M: 예측 - 비선호, 실제 - 선호
User 30 - Image W_18249_50_feminine_W: 예측 - 선호, 실제 - 선호
User 133 - Image W_10073_70_hippie_M: 예측 - 비선호, 실제 - 비선호
User 133 - Image W_17697_50_ivy_M: 예측 - 비선호, 실제 - 비선호
User 140 - Image W_07121_80_bold_M: 예측 - 선호, 실제 - 비선호
User 179 - Image W_14147_70_disco_W: 예측 - 비선호, 실제 - 비선호
User 196 - Image W_01549_50_ivy_M: 예측 - 선호, 실제 - 선호
User 196 - Image W_12803_70_hippie_M: 예측 - 선호, 실제 - 선호
User 289 - Image W_06448_10_sportivecasual_W: 예측 - 선호, 실제 - 선호
User 289 - Image W_11495_19_genderless_W: 예측 - 비선호, 실제 - 비선호
User 368 - Image W_01703_00_metrosexual_M: 예측 - 선호, 실제 - 선호
User 368 - Image W_12817_50_ivy_M: 예측 - 선호, 실제 - 선호
User 368 - Image W_00551_19_normcore_M: 예측 - 비선호, 실제 - 선호
User 368 - Image W_06864_10_sportivecasual_M: 예측

이미지의 512 특징 벡터를 오토인코더로 압축하고 정제해서 추천시스템 구현 

In [10]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import json
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics import roc_curve
from sklearn.preprocessing import StandardScaler

# 사용자 선호 데이터 로드
user_data = json.load(open('user_data.json'))

# PyTorch 오토인코더 모델 정의
class Autoencoder(nn.Module):
    def __init__(self, input_dim):
        super(Autoencoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(input_dim, 128),  # 인코딩 단계
            nn.ReLU(),
            nn.Linear(128, 64),
            nn.ReLU()
        )
        self.decoder = nn.Sequential(
            nn.Linear(64, 128),  # 디코딩 단계
            nn.ReLU(),
            nn.Linear(128, input_dim),
            nn.Sigmoid()
        )

    def forward(self, x):
        encoded = self.encoder(x)
        decoded = self.decoder(encoded)
        return decoded

# 특징 벡터 학습을 위한 Autoencoder 생성
input_dim = feature_df.shape[1]  # 특징 벡터의 차원 수
autoencoder = Autoencoder(input_dim)

# GPU 사용 설정
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
autoencoder.to(device)

# 손실 함수와 옵티마이저 정의
criterion = nn.MSELoss()
optimizer = optim.Adam(autoencoder.parameters(), lr=0.001)

# 데이터를 PyTorch 텐서로 변환하고 GPU로 이동
X_train = torch.FloatTensor(feature_df.values).to(device)

# Autoencoder 학습
num_epochs = 200
batch_size = 32
for epoch in range(num_epochs):
    for i in range(0, X_train.size(0), batch_size):
        # 배치 생성
        batch_data = X_train[i:i + batch_size]
        
        # 옵티마이저 초기화
        optimizer.zero_grad()

        # 오토인코더 출력
        outputs = autoencoder(batch_data)

        # 손실 계산 및 역전파
        loss = criterion(outputs, batch_data)
        loss.backward()
        optimizer.step()
    
    if (epoch + 1) % 10 == 0:
        print(f"Epoch [{epoch + 1}/{num_epochs}], Loss: {loss.item():.4f}")

Epoch [10/200], Loss: 11.9475
Epoch [20/200], Loss: 11.9180
Epoch [30/200], Loss: 11.8983
Epoch [40/200], Loss: 11.8931
Epoch [50/200], Loss: 11.8845
Epoch [60/200], Loss: 11.8763
Epoch [70/200], Loss: 11.8755
Epoch [80/200], Loss: 11.8724
Epoch [90/200], Loss: 11.8647
Epoch [100/200], Loss: 11.8691
Epoch [110/200], Loss: 11.8631
Epoch [120/200], Loss: 11.8613
Epoch [130/200], Loss: 11.8578
Epoch [140/200], Loss: 11.8576
Epoch [150/200], Loss: 11.8577
Epoch [160/200], Loss: 11.8529
Epoch [170/200], Loss: 11.8543
Epoch [180/200], Loss: 11.8558
Epoch [190/200], Loss: 11.8526
Epoch [200/200], Loss: 11.8566


In [11]:

# Autoencoder를 사용하여 특징 벡터 압축
with torch.no_grad():
    compressed_features = autoencoder.encoder(X_train).cpu().numpy()

# 임계값 최적화를 위한 y_true와 y_scores 초기화
y_true = []  # 실제 레이블 (1: 선호, 0: 비선호)
y_scores = []  # like_similarity - dislike_similarity 값을 기록할 리스트

# 만약 이미지에 해당하는 특징 벡터가 없을 경우 사용할 기본 특징 벡터 (중앙값)
DUMMY_FEATURES = np.median(compressed_features, axis=0).reshape(1, -1)
VAL_DUMMY_FEATURES = feature_df.median().values.reshape(1, -1)
# 사용자별 선호도 예측을 위한 딕셔너리 초기화
predictions = {}
for user_id, like_images, dislike_images, val_like_images, val_dislike_images in zip(
        user_data["R_id"], user_data["Training_Like"], user_data["Training_Dislike"],
        user_data["Validation_Like"], user_data["Validation_Dislike"]):
    
    # 유효한 선호 및 비선호 이미지 필터링
    valid_like_images = [img for img in like_images if img in feature_df.index]
    valid_dislike_images = [img for img in dislike_images if img in feature_df.index]

    # 유효한 선호 및 비선호 이미지의 특징 벡터 추출
    if valid_like_images:
        like_features = compressed_features[feature_df.index.isin(valid_like_images)]
    else:
        like_features = DUMMY_FEATURES

    if valid_dislike_images:
        dislike_features = compressed_features[feature_df.index.isin(valid_dislike_images)]
    else:
        dislike_features = DUMMY_FEATURES
    
    # Validation의 선호 및 비선호 이미지에 대해 평가 수행
    for val_image, label in zip(val_like_images + val_dislike_images, [1] * len(val_like_images) + [0] * len(val_dislike_images)):
        
        # Validation 이미지의 특징 벡터 가져오기
        if val_image in feature_df.index:
            try:
                val_feature = feature_df.loc[val_image].median().values.reshape(1, -1)
            except:
                val_feature = feature_df.loc[val_image].values.reshape(1, -1)
        else:
            val_feature = VAL_DUMMY_FEATURES

        # Autoencoder를 통한 Validation 이미지 특징 압축
        val_feature_tensor = torch.FloatTensor(val_feature).to(device)
        autoencoder.eval()
        with torch.no_grad():
            val_feature_compressed = autoencoder.encoder(val_feature_tensor).cpu().numpy()

        # 코사인 유사도를 통해 선호 유사도 및 비선호 유사도 계산
        like_similarity = cosine_similarity(val_feature_compressed, like_features).mean()
        dislike_similarity = cosine_similarity(val_feature_compressed, dislike_features).mean()

        # 유사도 출력
        print(f"User {user_id} - Image {val_image}: 선호 유사도 - {like_similarity:.4f}, 비선호 유사도 - {dislike_similarity:.4f}")
        
        # 선호 유사도 - 비선호 유사도의 차이를 y_scores에 저장
        score_diff = like_similarity - dislike_similarity
        y_scores.append(score_diff)
        y_true.append(label)
        
        # 예측
        predicted_label = "선호" if score_diff > 0 else "비선호"
        predictions[(user_id, val_image)] = (predicted_label, "선호" if label == 1 else "비선호")


User 12 - Image W_03412_50_classic_W: 선호 유사도 - 1.0000, 비선호 유사도 - 0.8082
User 12 - Image W_02651_50_feminine_W: 선호 유사도 - 0.7359, 비선호 유사도 - 0.8417
User 27 - Image W_06522_50_ivy_M: 선호 유사도 - 0.6796, 비선호 유사도 - 0.6477
User 27 - Image W_07120_19_normcore_M: 선호 유사도 - 0.5777, 비선호 유사도 - 0.5968
User 27 - Image W_17697_50_ivy_M: 선호 유사도 - 0.5916, 비선호 유사도 - 0.6284
User 30 - Image W_18249_50_feminine_W: 선호 유사도 - 0.9112, 비선호 유사도 - 0.6202
User 133 - Image W_10073_70_hippie_M: 선호 유사도 - 0.6509, 비선호 유사도 - 0.6529
User 133 - Image W_17697_50_ivy_M: 선호 유사도 - 0.6728, 비선호 유사도 - 0.6086
User 140 - Image W_07121_80_bold_M: 선호 유사도 - 0.7955, 비선호 유사도 - 0.6915
User 179 - Image W_14147_70_disco_W: 선호 유사도 - 0.6367, 비선호 유사도 - 0.8556
User 196 - Image W_01549_50_ivy_M: 선호 유사도 - 0.6874, 비선호 유사도 - 0.6438
User 196 - Image W_12803_70_hippie_M: 선호 유사도 - 0.6598, 비선호 유사도 - 0.5696
User 289 - Image W_06448_10_sportivecasual_W: 선호 유사도 - 0.9124, 비선호 유사도 - 0.5531
User 289 - Image W_11495_19_genderless_W: 선호 유사도 - 0.4139, 비선호 유사도 - 0

In [12]:
# 정확도 계산
accuracy = accuracy_score(y_true, [1 if score > 0 else 0 for score in y_scores])
print(f"임계값 찾기 이전의 정확도: {accuracy:.4f}")

# 5. ROC 커브를 통해 최적 임계값 찾기
# y_true와 y_scores를 기반으로 ROC 커브 계산
fpr, tpr, thresholds = roc_curve(y_true, y_scores)

# tpr - fpr이 최대인 지점을 최적 임계값으로 선택
optimal_idx = np.argmax(tpr - fpr)
optimal_threshold = thresholds[optimal_idx]

# 최적 임계값 출력
print(f"최적 임계값: {optimal_threshold}")

임계값 찾기 이전의 정확도: 0.7220
최적 임계값: 0.014079570770263672


In [13]:
# 6. 최적 임계값을 기반으로 정확도 계산
correct = 0  # 정확하게 예측한 사례의 수
total = 0  # 전체 사례의 수

# 만약 이미지에 해당하는 특징 벡터가 없을 경우 사용할 기본 특징 벡터 (중앙값)
DUMMY_FEATURES = np.median(compressed_features, axis=0).reshape(1, -1)
VAL_DUMMY_FEATURES = feature_df.median().values.reshape(1, -1)
# 사용자별 선호도 예측을 위한 딕셔너리 초기화
predictions = {}
for user_id, like_images, dislike_images, val_like_images, val_dislike_images in zip(
        user_data["R_id"], user_data["Training_Like"], user_data["Training_Dislike"],
        user_data["Validation_Like"], user_data["Validation_Dislike"]):
    
    # 유효한 선호 및 비선호 이미지 필터링
    valid_like_images = [img for img in like_images if img in feature_df.index]
    valid_dislike_images = [img for img in dislike_images if img in feature_df.index]

    # 유효한 선호 및 비선호 이미지의 특징 벡터 추출
    if valid_like_images:
        like_features = compressed_features[feature_df.index.isin(valid_like_images)]
    else:
        like_features = DUMMY_FEATURES

    if valid_dislike_images:
        dislike_features = compressed_features[feature_df.index.isin(valid_dislike_images)]
    else:
        dislike_features = DUMMY_FEATURES
    
    # Validation의 선호 및 비선호 이미지에 대해 평가 수행
    for val_image, label in zip(val_like_images + val_dislike_images, [1] * len(val_like_images) + [0] * len(val_dislike_images)):
        
        # Validation 이미지의 특징 벡터 가져오기
        if val_image in feature_df.index:
            try:
                val_feature = feature_df.loc[val_image].median().values.reshape(1, -1)
            except:
                val_feature = feature_df.loc[val_image].values.reshape(1, -1)
        else:
            val_feature = VAL_DUMMY_FEATURES

        # Autoencoder를 통한 Validation 이미지 특징 압축
        val_feature_tensor = torch.FloatTensor(val_feature).to(device)
        autoencoder.eval()
        with torch.no_grad():
            val_feature_compressed = autoencoder.encoder(val_feature_tensor).cpu().numpy()

        # 코사인 유사도를 통해 선호 유사도 및 비선호 유사도 계산
        like_similarity = cosine_similarity(val_feature_compressed, like_features).mean()
        dislike_similarity = cosine_similarity(val_feature_compressed, dislike_features).mean()
        
        # 유사도 차이 계산
        score_diff = like_similarity - dislike_similarity
        
        # 최적 임계값을 기반으로 최종 예측 결정
        final_prediction = "선호" if score_diff >= optimal_threshold else "비선호"
        
        # 예측과 실제 레이블 출력
        if label == 1:
            label = "선호"
        else:
            label = "비선호"
        print(f"User {user_id} - Image {val_image}: 예측 - {final_prediction}, 실제 - {label}")
        
        # 정확도 계산을 위한 정답 개수와 전체 개수 증가
        total += 1
        if final_prediction == label:
            correct += 1

# 최적 임계값 적용 후 정확도 계산
accuracy = correct / total
print(f"\n최적 임계값 적용 후 정확도: {accuracy * 100:.2f}%")

User 12 - Image W_03412_50_classic_W: 예측 - 선호, 실제 - 선호
User 12 - Image W_02651_50_feminine_W: 예측 - 비선호, 실제 - 비선호
User 27 - Image W_06522_50_ivy_M: 예측 - 선호, 실제 - 선호
User 27 - Image W_07120_19_normcore_M: 예측 - 비선호, 실제 - 선호
User 27 - Image W_17697_50_ivy_M: 예측 - 비선호, 실제 - 선호
User 30 - Image W_18249_50_feminine_W: 예측 - 선호, 실제 - 선호
User 133 - Image W_10073_70_hippie_M: 예측 - 비선호, 실제 - 비선호
User 133 - Image W_17697_50_ivy_M: 예측 - 선호, 실제 - 비선호
User 140 - Image W_07121_80_bold_M: 예측 - 선호, 실제 - 비선호
User 179 - Image W_14147_70_disco_W: 예측 - 비선호, 실제 - 비선호
User 196 - Image W_01549_50_ivy_M: 예측 - 선호, 실제 - 선호
User 196 - Image W_12803_70_hippie_M: 예측 - 선호, 실제 - 선호
User 289 - Image W_06448_10_sportivecasual_W: 예측 - 선호, 실제 - 선호
User 289 - Image W_11495_19_genderless_W: 예측 - 비선호, 실제 - 비선호
User 368 - Image W_01703_00_metrosexual_M: 예측 - 선호, 실제 - 선호
User 368 - Image W_12817_50_ivy_M: 예측 - 선호, 실제 - 선호
User 368 - Image W_00551_19_normcore_M: 예측 - 비선호, 실제 - 선호
User 368 - Image W_06864_10_sportivecasual_M: 예측 -

512벡터를 그대로 이용한것보다 성능이 낮아졌다. 이미 512벡터로 추천할때 좋은 정보가 많이 뽑아지는 것 같다.

따라서 압축이나 PCA는 적용하지 않는다.

최적 임계값 : 0.0051981241362478725, 정확도는 77.59%의 일반 모델이 최종 모델이다.