In [225]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MultiLabelBinarizer
import re
from sklearn.feature_extraction.text import CountVectorizer
import tensorflow as tf
import keras
from sklearn.model_selection import train_test_split
import os

In [226]:
# csv 파일을 dataframe으로 변환
df_outfit = pd.read_csv('../data/outfit(male)/outfit(male).csv')
df_weather = pd.read_csv('../data/2022-08-01_to_2024-04-30.csv', encoding='cp949')
# 필요한 columns만 추출
df_outfit = df_outfit[['userId', '상의', '아우터', '하의', '신발', '액세서리', '작성일']].copy()
df_temp = df_weather[['일시', '평균기온(°C)']].copy()

# '작성일'과 '일시' 열을 datetime 형식으로 변환
df_outfit['작성일'] = pd.to_datetime(df_outfit['작성일'], format='%Y년 %m월 %d일')
df_temp['일시'] = pd.to_datetime(df_temp['일시'])

# 두 dataframe을 날짜를 기준으로 병합
df_merged = pd.merge(df_outfit, df_temp, left_on='작성일', right_on='일시').drop('일시', axis=1)

df_merged

Unnamed: 0,userId,상의,아우터,하의,신발,액세서리,작성일,평균기온(°C)
0,1,"반팔 티, 셔츠/블라우스",재킷,반바지,구두/로퍼,,2024-04-24,13.2
1,1,반팔 티,재킷,반바지,운동화,기타 모자,2024-04-19,17.6
2,1,반팔 티,재킷,반바지,구두/로퍼,장목양말,2024-04-15,16.0
3,1,반팔 티,,나일론 팬츠,구두/로퍼,,2024-04-09,15.3
4,1,반팔 티,집업,면바지,구두/로퍼,,2024-04-05,14.0
...,...,...,...,...,...,...,...,...
1333,14,반팔 티,,반바지,운동화,"기타 모자, 장목양말",2024-04-23,17.3
1334,14,반팔 티,,카고바지,운동화,기타 모자,2024-04-24,13.2
1335,14,반팔 티,집업,나일론 팬츠,스니커즈/캔버스,기타 모자,2024-04-25,14.4
1336,14,"반팔 티, 셔츠/블라우스",,반바지,구두/로퍼,장목양말,2024-04-26,17.8


In [227]:
# '상의', '아우터', '하의', '신발', '엑세서리' 열의 결측값을 '~ 없음'으로 대체
columns = ['상의', '아우터', '하의', '신발', '액세서리']
df_notnull = df_merged.copy()
for column in columns:
    df_notnull[column] = df_merged[column].fillna(column + ' 없음')

In [228]:
'''df_notnull[df_notnull['아우터'].str.contains('재킷 2')]'''

"df_notnull[df_notnull['아우터'].str.contains('재킷 2')]"

In [229]:
'''df_dup[df_dup['아우터'].str.contains('니트')]'''

"df_dup[df_dup['아우터'].str.contains('니트')]"

In [230]:
# 2가 붙은 단어를 두 번 반복하는 함수
def duplicate_word(text):
    words = text.split(', ')
    for i, word in enumerate(words):
        if '2' in word:
            words[i] = word.replace('2', '') + ', ' + word.replace('2', '')
    return ', '.join(words)

In [231]:
# 2가 붙은 단어를 두 번 반복한 dataframe df_dup 생성
df_dup = df_notnull.copy()
for column in columns:
    df_dup[columns] = df_notnull[columns].map(duplicate_word)

In [232]:
df_dup.columns

Index(['userId', '상의', '아우터', '하의', '신발', '액세서리', '작성일', '평균기온(°C)'], dtype='object')

In [233]:
# 옷의 조합 컬럼 생성 (상의, 아우터, 하의, 신발, 엑세서리의 각 값들을 하나의 문자열로 조합하여 하나의 컬럼으로 만듦)
df_combination = df_dup.copy()
df_combination['옷 조합'] = df_dup['상의'] + ', ' + df_dup['아우터'] + ', ' + df_dup['하의'] + ', ' + df_dup['신발'] + ', ' + df_dup['액세서리']
df_combination.drop(columns=['상의', '아우터', '하의', '신발', '액세서리'], inplace=True)

In [234]:
df_combination.columns

Index(['userId', '작성일', '평균기온(°C)', '옷 조합'], dtype='object')

In [235]:
'''df_combination[df_combination['옷 조합'].str.contains('니트 , 니트')]'''

"df_combination[df_combination['옷 조합'].str.contains('니트 , 니트')]"

In [236]:
'''# 옷의 조합 컬럼의 공백 제거
df_combination['옷 조합'] = df_combination['옷 조합'].str.replace(' ', '')'''

"# 옷의 조합 컬럼의 공백 제거\ndf_combination['옷 조합'] = df_combination['옷 조합'].str.replace(' ', '')"

In [237]:
# 쉼표를 기준으로 텍스트를 나누는 함수
def comma_tokenizer(s):
    return s.split(', ')

vectorizer = CountVectorizer(tokenizer=comma_tokenizer)

O = vectorizer.fit_transform(df_combination['옷 조합'])

# multi-hot encoding된 데이터를 numpy array로 변환
df_encoded = pd.DataFrame(O.toarray().tolist(), columns=vectorizer.get_feature_names_out())
npa = np.array(df_encoded)
npa.shape



(1338, 45)

In [238]:
# 값이 2 이상인 행의 인덱스
rows_with_value_2 = df_encoded[(df_encoded >= 2).any(axis=1)]
rows_with_value_2.index

Index([86, 317, 430, 435, 560, 593, 633, 640, 793, 1039], dtype='int64')

In [239]:
# 값이 2 이상인 열의 이름을 찾습니다.
columns_with_value_over_2 = df_encoded.columns[(df_encoded >= 2).any()]

# 특정 행에 대해 이를 기록합니다.
record = df_encoded.loc[rows_with_value_2.index, columns_with_value_over_2]
record

Unnamed: 0,니트,민소매 티,반팔 티,재킷
86,0,2,1,1
317,2,0,0,0
430,0,0,2,0
435,0,0,2,0
560,0,0,0,2
593,0,0,2,0
633,1,0,2,1
640,0,0,1,2
793,2,0,0,0
1039,0,0,2,0


In [240]:
# 단어장 확인
vectorizer.get_feature_names_out()

array(['가디건', '가죽 바지', '구두/로퍼', '기타 모자', '긴팔 티', '나일론 팬츠', '니트', '데님팬츠',
       '레더부츠', '레인부츠', '마스크', '맨투맨', '머플러', '면바지', '민소매 티', '바람막이', '반바지',
       '반팔', '반팔 니트', '반팔 셔츠/블라우스', '반팔 티', '비니', '샌들/슬리퍼', '셔츠/블라우스',
       '스니커즈/캔버스', '스카프', '슬랙스', '아우터 없음', '액세서리 없음', '양말', '운동화', '장목양말',
       '재킷', '점퍼', '조끼', '집업', '카고바지', '코트', '털 모자', '트레이닝/조거 팬츠', '패딩',
       '패딩슈즈', '패딩조끼', '하의 없음', '후드티'], dtype=object)

In [241]:
# numpy array를 list로 변환 후 clothes_combination 컬럼에 대입
df_combination['옷 조합'] = npa.tolist()
df_combination['옷 조합']

0       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
1       [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
2       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
3       [0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
4       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, ...
                              ...                        
1333    [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
1334    [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
1335    [0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
1336    [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
1337    [0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, ...
Name: 옷 조합, Length: 1338, dtype: object

In [242]:
# multi-hot encoding된 데이터를 다시 텍스트로 변환
df_combination['옷 조합'] = vectorizer.inverse_transform(npa)
df_combination['옷 조합'] 

0        [구두/로퍼, 반바지, 반팔 티, 셔츠/블라우스, 액세서리 없음, 재킷]
1                     [기타 모자, 반바지, 반팔 티, 운동화, 재킷]
2                    [구두/로퍼, 반바지, 반팔 티, 장목양말, 재킷]
3          [구두/로퍼, 나일론 팬츠, 반팔 티, 아우터 없음, 액세서리 없음]
4                 [구두/로퍼, 면바지, 반팔 티, 액세서리 없음, 집업]
                          ...                    
1333        [기타 모자, 반바지, 반팔 티, 아우터 없음, 운동화, 장목양말]
1334             [기타 모자, 반팔 티, 아우터 없음, 운동화, 카고바지]
1335          [기타 모자, 나일론 팬츠, 반팔 티, 스니커즈/캔버스, 집업]
1336    [구두/로퍼, 반바지, 반팔 티, 셔츠/블라우스, 아우터 없음, 장목양말]
1337             [기타 모자, 데님팬츠, 반팔 티, 아우터 없음, 운동화]
Name: 옷 조합, Length: 1338, dtype: object

In [243]:
# 하나의 문자열로 변환
df_combtest = df_combination.copy()
df_combtest['옷 조합'] = df_combination['옷 조합'].apply(lambda x: ', '.join(map(str, x)))

In [244]:
# multi-hot encoding의 값이 2 이상인 경우, 해당 단어를 두 번 반복
for i in record.index:
    old_value = df_combtest.loc[i, '옷 조합']
    for col in record.columns:
        if record.loc[i, col] >= 2:
            old_value = old_value.replace(col, col + ', ' + col)
    df_combtest.loc[i, '옷 조합'] = old_value

In [245]:
df_combtest.loc[rows_with_value_2.index, '옷 조합']

86      기타 모자, 데님팬츠, 민소매 티, 민소매 티, 반팔 티, 셔츠/블라우스, 스니커즈...
317               니트, 니트, 데님팬츠, 스니커즈/캔버스, 아우터 없음, 액세서리 없음
430           데님팬츠, 반팔 티, 반팔 티, 스니커즈/캔버스, 아우터 없음, 액세서리 없음
435              면바지, 반팔 티, 반팔 티, 샌들/슬리퍼, 아우터 없음, 액세서리 없음
560               구두/로퍼, 기타 모자, 데님팬츠, 셔츠/블라우스, 재킷, 재킷, 조끼
593                    반바지, 반팔 티, 반팔 티, 아우터 없음, 운동화, 장목양말
633               구두/로퍼, 니트, 면바지, 반팔 티, 반팔 티, 액세서리 없음, 재킷
640                     구두/로퍼, 면바지, 반팔 티, 액세서리 없음, 재킷, 재킷
793                      니트, 니트, 비니, 스니커즈/캔버스, 카고바지, 패딩조끼
1039              반바지, 반팔 티, 반팔 티, 스니커즈/캔버스, 아우터 없음, 장목양말
Name: 옷 조합, dtype: object

In [246]:
df_combtest

Unnamed: 0,userId,작성일,평균기온(°C),옷 조합
0,1,2024-04-24,13.2,"구두/로퍼, 반바지, 반팔 티, 셔츠/블라우스, 액세서리 없음, 재킷"
1,1,2024-04-19,17.6,"기타 모자, 반바지, 반팔 티, 운동화, 재킷"
2,1,2024-04-15,16.0,"구두/로퍼, 반바지, 반팔 티, 장목양말, 재킷"
3,1,2024-04-09,15.3,"구두/로퍼, 나일론 팬츠, 반팔 티, 아우터 없음, 액세서리 없음"
4,1,2024-04-05,14.0,"구두/로퍼, 면바지, 반팔 티, 액세서리 없음, 집업"
...,...,...,...,...
1333,14,2024-04-23,17.3,"기타 모자, 반바지, 반팔 티, 아우터 없음, 운동화, 장목양말"
1334,14,2024-04-24,13.2,"기타 모자, 반팔 티, 아우터 없음, 운동화, 카고바지"
1335,14,2024-04-25,14.4,"기타 모자, 나일론 팬츠, 반팔 티, 스니커즈/캔버스, 집업"
1336,14,2024-04-26,17.8,"구두/로퍼, 반바지, 반팔 티, 셔츠/블라우스, 아우터 없음, 장목양말"


In [247]:
# 평균기온(°C) column의 최대값과 최솟값
max_temp = df_combtest['평균기온(°C)'].max()
min_temp = df_combtest['평균기온(°C)'].min()
print(max_temp, min_temp)

30.9 -11.8


In [248]:
df_limit = df_combtest.copy()
# 평균기온(°C) column을 5도 간격으로 범주화하여 0, 1, 2, ...로 변환
df_limit['평균기온(°C)'] = pd.cut(df_limit['평균기온(°C)'], bins=np.round(np.arange(min_temp -5, max_temp+5, 5), 1), labels=np.arange(0, (max_temp-min_temp)//5+2))
df_limit

Unnamed: 0,userId,작성일,평균기온(°C),옷 조합
0,1,2024-04-24,5.0,"구두/로퍼, 반바지, 반팔 티, 셔츠/블라우스, 액세서리 없음, 재킷"
1,1,2024-04-19,6.0,"기타 모자, 반바지, 반팔 티, 운동화, 재킷"
2,1,2024-04-15,6.0,"구두/로퍼, 반바지, 반팔 티, 장목양말, 재킷"
3,1,2024-04-09,6.0,"구두/로퍼, 나일론 팬츠, 반팔 티, 아우터 없음, 액세서리 없음"
4,1,2024-04-05,6.0,"구두/로퍼, 면바지, 반팔 티, 액세서리 없음, 집업"
...,...,...,...,...
1333,14,2024-04-23,6.0,"기타 모자, 반바지, 반팔 티, 아우터 없음, 운동화, 장목양말"
1334,14,2024-04-24,5.0,"기타 모자, 반팔 티, 아우터 없음, 운동화, 카고바지"
1335,14,2024-04-25,6.0,"기타 모자, 나일론 팬츠, 반팔 티, 스니커즈/캔버스, 집업"
1336,14,2024-04-26,6.0,"구두/로퍼, 반바지, 반팔 티, 셔츠/블라우스, 아우터 없음, 장목양말"


In [249]:
# 평균기온(°C) column의 각 class에 포함된 개수가 10개 이하라면 제외
df_limit = df_limit.copy()
df_limit = df_limit.groupby('평균기온(°C)').filter(lambda x: len(x) > 10)
df_limit['평균기온(°C)'].unique()

  df_limit = df_limit.groupby('평균기온(°C)').filter(lambda x: len(x) > 10)


[5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0]
Categories (10, float64): [0.0 < 1.0 < 2.0 < 3.0 ... 6.0 < 7.0 < 8.0 < 9.0]

In [250]:
# 각 user의 온도 별 예제 개수
df_limit.groupby(['userId', '평균기온(°C)']).size()

  df_limit.groupby(['userId', '평균기온(°C)']).size()


userId  평균기온(°C)
1       0.0          0
        1.0          2
        2.0          0
        3.0         14
        4.0         21
                    ..
14      5.0         25
        6.0         37
        7.0         35
        8.0         39
        9.0         11
Length: 140, dtype: int64

In [251]:
# '평균기온(°C)'의 각 범주를 고려하여 데이터를 분할
train_data = []
val_data = []
test_data = []
# 각 user별로 온도 범주의 데이터가 적은 경우 기록
user_category_not_valid = {}

for user in df_limit['userId'].unique():
    for category in df_limit['평균기온(°C)'].unique():
        category_data = df_limit[(df_limit['평균기온(°C)'] == category) & (df_limit['userId'] == user)]
        
        if category_data.shape[0] < 20:
            if user not in user_category_not_valid:
                user_category_not_valid[user] = [category]
            else:
                user_category_not_valid[user].append(category)
            train_data.append(category_data)
            continue

        # 먼저 전체 데이터의 50%를 훈련 데이터로 분할
        train, temp = train_test_split(category_data, test_size=0.5, random_state=42)
        
        # 남은 데이터를 반으로 나누어 검증 데이터와 테스트 데이터로 분할
        val, test = train_test_split(temp, test_size=0.3, random_state=42)
        
        train_data.append(train)
        val_data.append(val)
        test_data.append(test)

print(user_category_not_valid)
# 각 데이터 세트를 하나의 DataFrame으로 병합
train_data_df = pd.concat(train_data)
val_data_df = pd.concat(val_data)
test_data_df = pd.concat(test_data)

# 평균기온 column을 범주형으로 변경
train_data_df['평균기온(°C)'] = train_data_df['평균기온(°C)'].astype('float64')
val_data_df['평균기온(°C)'] = val_data_df['평균기온(°C)'].astype('float64')
test_data_df['평균기온(°C)'] = test_data_df['평균기온(°C)'].astype('float64')

{1: [3.0, 1.0, 7.0, 8.0, 9.0, 2.0], 2: [5.0, 4.0, 3.0, 1.0, 7.0, 9.0, 2.0], 3: [5.0, 1.0, 9.0, 2.0], 4: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0], 5: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0], 6: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0], 7: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0], 8: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 9.0, 2.0], 9: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0], 10: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0], 11: [4.0, 3.0, 1.0, 9.0, 2.0], 12: [5.0, 6.0, 1.0, 7.0, 8.0, 9.0, 2.0], 13: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0], 14: [1.0, 9.0, 2.0]}


In [252]:
train_data_df['옷 조합'].nunique(), val_data_df['옷 조합'].nunique(), test_data_df['옷 조합'].nunique()

(570, 167, 103)

In [253]:
#train_data_df와 val_data_df의 index를 활용하여 train_data_df와 val_data_df의 값을 df_combtest의 '평균기온(°C)' 값으로 변경
train_data_df['평균기온(°C)'] = df_combtest.loc[train_data_df.index, '평균기온(°C)']
val_data_df['평균기온(°C)'] = df_combtest.loc[val_data_df.index, '평균기온(°C)']
test_data_df_temp = test_data_df.copy()
test_data_df_temp['평균기온(°C)'] = df_combtest.loc[test_data_df_temp.index, '평균기온(°C)']
test_data_df_temp

Unnamed: 0,userId,작성일,평균기온(°C),옷 조합
81,1,2023-04-10,13.2,"데님팬츠, 반팔 티, 셔츠/블라우스, 스니커즈/캔버스, 액세서리 없음, 조끼"
68,1,2023-04-30,12.7,"면바지, 아우터 없음, 액세서리 없음, 운동화, 후드티"
71,1,2023-04-25,10.9,"데님팬츠, 반팔 티, 셔츠/블라우스, 아우터 없음, 액세서리 없음, 운동화"
104,1,2023-03-07,11.7,"면바지, 반팔 티, 셔츠/블라우스, 스니커즈/캔버스, 액세서리 없음, 코트"
41,1,2023-10-30,15.1,"구두/로퍼, 기타 모자, 니트, 면바지, 반팔 티, 재킷"
...,...,...,...,...
1142,14,2023-05-16,24.0,"구두/로퍼, 기타 모자, 반바지, 반팔 티, 아우터 없음, 장목양말"
1171,14,2023-07-01,27.7,"기타 모자, 나일론 팬츠, 반팔 티, 아우터 없음, 운동화"
1209,14,2023-09-09,25.8,"기타 모자, 반팔 티, 스니커즈/캔버스, 집업, 카고바지"
1188,14,2023-07-22,27.7,"구두/로퍼, 반바지, 반팔 셔츠/블라우스, 반팔 티, 아우터 없음, 장목양말"


In [254]:
# pivot_table을 이용한 user-item matrix 생성
train_data_df_value = train_data_df.copy()
train_data_df_value['평균기온(°C)'] = train_data_df_value['평균기온(°C)']
UI_temp = train_data_df_value.pivot_table(index='userId', columns='옷 조합', values='평균기온(°C)', fill_value=0)

In [255]:
UI_val = UI_temp.copy()
# UI_val의 값을 모두 0으로 초기화
UI_val = UI_val.map(lambda x: 0.0)
for user in UI_temp.index:
    for item in UI_temp.columns:
        # validation에 해당 user-item이 있는 경우 해당 user-item의 평균을 기록
        if item in val_data_df[val_data_df['userId'] == user]['옷 조합'].values:
            UI_val.loc[user, item] = val_data_df[(val_data_df['userId'] == user) & (val_data_df['옷 조합'] == item)]['평균기온(°C)'].mean()

In [256]:
UI_test = UI_temp.copy()
# UI_val의 값을 모두 0으로 초기화
UI_test = UI_test.map(lambda x: 0.0)
for user in UI_temp.index:
    for item in UI_temp.columns:
        # validation에 해당 user-item이 있는 경우 해당 user-item의 평균을 기록
        if item in test_data_df_temp[test_data_df_temp['userId'] == user]['옷 조합'].values:
            UI_test.loc[user, item] = test_data_df_temp[(test_data_df_temp['userId'] == user) & (test_data_df_temp['옷 조합'] == item)]['평균기온(°C)'].mean()

In [257]:
# UI_val, UI_test의 값이 0이 아닌 경우의 개수
UI_val[UI_val != 0].count().sum(), UI_test[UI_test != 0].count().sum()

(112, 64)

In [258]:
# pivot_table을 이용한 user_
UI_count = train_data_df.pivot_table( index='userId', columns='옷 조합', aggfunc='size', fill_value=0)
# 해당 user의 총 예제 개수로 각각의 row를 나눔
UI_count_div = UI_count.div(UI_count.sum(axis=1), axis=0)

In [259]:
# user-item matrix에 기록된 값이 존재하는 경우 1, 아닌 경우 0으로 변환하여 R_df에 기록
R_df = UI_temp.map(lambda x: 1 if x != 0 else 0)
R_np = np.array(R_df)
R_np.sum(axis=0)

array([1, 1, 1, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 2, 1, 1, 1, 1, 1, 2, 3, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 2, 1,
       1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 9, 1, 1, 1, 3, 1, 2, 1, 1, 1, 1,
       3, 1, 1, 2, 1, 1, 1, 2, 3, 3, 2, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       2, 1, 1, 1, 2, 2, 1, 1, 1, 3, 3, 5, 1, 5, 1, 2, 1, 1, 2, 3, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 2, 1, 1, 1, 1, 5, 3, 1, 2, 2, 1,
       1, 1, 2, 4, 2, 1, 1, 2, 1, 3, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 2,
       1, 1, 1, 1, 3, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 2, 2, 1, 1, 2, 1, 1, 1, 2, 2, 1, 6, 3, 3, 2, 1, 1, 2, 1, 5,
       1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 3, 3, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 3,
       1, 2, 1, 2, 1, 1, 1, 1, 2, 2, 1, 1, 2, 2, 1,

In [260]:
'''# tensor에 기록된 값이 존재하는 경우 1, 존재하지 않는 경우 0
R_np = np.where(tensor > 0, 1, 0)
sum_along_all_other_axes = R_np.sum(axis=tuple(range(1, R_np.ndim)))
sum_along_all_other_axes'''

'# tensor에 기록된 값이 존재하는 경우 1, 존재하지 않는 경우 0\nR_np = np.where(tensor > 0, 1, 0)\nsum_along_all_other_axes = R_np.sum(axis=tuple(range(1, R_np.ndim)))\nsum_along_all_other_axes'

In [261]:
# 각 열의 합이 2 이상(여러 유저가 해당 옷 조합을 선택한 경우)인 열을 찾음
columns_with_sum_over_2 = R_df.columns[R_df.sum() >= 2]

In [262]:
'''UI_temp[columns_with_sum_over_2]'''

'UI_temp[columns_with_sum_over_2]'

In [263]:
'''columns_with_sum_over_2'''

'columns_with_sum_over_2'

In [264]:
'''# 해당 조합의 인덱스
column_index = []
for i in columns_with_sum_over_2:
    column_index.append(R_df.columns.get_loc(i))
    column_index'''

'# 해당 조합의 인덱스\ncolumn_index = []\nfor i in columns_with_sum_over_2:\n    column_index.append(R_df.columns.get_loc(i))\n    column_index'

In [265]:
'''for row in R_np:
    print(row)'''

'for row in R_np:\n    print(row)'

In [266]:
# CF를 위한 초기값 설정
Y = np.array(UI_temp) 
Y = Y.T
count = np.array(UI_count_div)
count = count.T
print(Y.shape)
R = Y != 0 
n_u = Y.shape[1]
n_o = Y.shape[0]

(570, 14)


In [267]:
# validation, test
Y_val = np.array(UI_val)
Y_val = Y_val.T
Y_test = np.array(UI_test)
Y_test = Y_test.T

In [268]:
# 기록이 존재하는 값의 평균을 구함
o_sum = Y.sum(axis=1)
o_count = R.sum(axis=1)
o_mean = o_sum / o_count
o_mean = o_mean.reshape(-1, 1)

In [269]:
'''Y[column_index]'''

'Y[column_index]'

In [270]:
Y_stand = Y - (o_mean * R)
Y_val_stand = Y_val - (o_mean * (Y_val != 0))
Y_test_stand = Y_test - (o_mean * (Y_test != 0))

In [271]:
def cofi_cost_func_v(O, U, b, Y, R, lambda_):
    j = (tf.linalg.matmul(O, tf.transpose(U)) + b - Y )*R
    J = 0.5 * tf.reduce_sum(j**2) + (lambda_/2) * (tf.reduce_sum(O**2) + tf.reduce_sum(U**2))
    return J

In [272]:
# user, outfit의 수
n_o, n_u = Y.shape
# latent factor의 수
num_features = 30

# (U,O)를 초기화하고 tf.Variable로 등록하여 추적
tf.random.set_seed(1234) # for consistent results
U = tf.Variable(tf.random.normal((n_u,  num_features),dtype=tf.float64),  name='U')
O = tf.Variable(tf.random.normal((n_o, num_features),dtype=tf.float64),  name='O')
b = tf.Variable(tf.random.normal((1,          n_u),   dtype=tf.float64),  name='b')

# optimizer 초기화
optimizer = keras.optimizers.Adam(learning_rate=1e-1)

In [273]:
J = cofi_cost_func_v(O, U, b, Y_stand, R, 1.5)

In [274]:
print(f"Cost (with regularization): {J:0.2f}")

Cost (with regularization): 31242.46


In [275]:
iterations = 200
lambda_ = 1
for iter in range(iterations):
    # TensorFlow의 GradientTape 사용
    # 연산을 기록하여 cost에 대한 gradient를 자동으로 계산
    with tf.GradientTape() as tape:

        # cost 계산 (forward pass included in cost)
        cost_value = cofi_cost_func_v(O, U, b, Y_stand, R, lambda_)

    # GradientTape를 통해 자동 미분
    # loss에 대한 trainable parameter의 gradient를 계산
    grads = tape.gradient( cost_value, [O,U,b] )

    # optimizer를 사용하여 trainable parameter를 업데이트
    optimizer.apply_gradients( zip(grads, [O,U,b]) )

    # Log periodically.
    if (iter + 1) % 20 == 0:
        print(f"Training loss at iteration {iter + 1}: {cost_value:0.1f}")
        print(f'validation loss at iteration {iter + 1}: {cofi_cost_func_v(O, U, b, Y_val_stand, R, lambda_):0.1f}')

Training loss at iteration 20: 2489.8
validation loss at iteration 20: 7178.8
Training loss at iteration 40: 779.0
validation loss at iteration 40: 5844.0
Training loss at iteration 60: 398.4
validation loss at iteration 60: 5515.2
Training loss at iteration 80: 311.5
validation loss at iteration 80: 5463.8
Training loss at iteration 100: 289.5
validation loss at iteration 100: 5464.1
Training loss at iteration 120: 282.5
validation loss at iteration 120: 5464.7
Training loss at iteration 140: 279.4
validation loss at iteration 140: 5463.3
Training loss at iteration 160: 277.7
validation loss at iteration 160: 5462.5
Training loss at iteration 180: 276.5
validation loss at iteration 180: 5462.0
Training loss at iteration 200: 275.7
validation loss at iteration 200: 5461.6


In [276]:
# 훈련된 tf.Variable 파일로 저장
model_version = '1.0'
checkpoint_path = f'../model/{model_version}/'
os.makedirs(checkpoint_path, exist_ok=True)
checkpoint = tf.train.Checkpoint(optimizer=optimizer, O=O, U=U, b=b)
checkpoint.save(os.path.join(checkpoint_path, 'parameters.ckpt'))
UI_temp.to_csv(os.path.join(checkpoint_path, 'UI_temp.csv'))

# UI_temp및 UI_count_div를 저장
UI_temp.to_csv(checkpoint_path + 'UI_temp.csv')
UI_count_div.to_csv(checkpoint_path + 'UI_count_div.csv')

In [277]:
'''# 예측을 수행하기 위해 모든 user-item에 대한 예측값을 계산
p = np.matmul(O.numpy(), np.transpose(U.numpy())) + b.numpy()
# 실제 온도
# 평균을 적용하고 temp를 빼서 값이 작을수록 실제 온도에 가깝도록 함. 이 때 각 user-item의 사용 횟수를 가중하여 많이 사용한 item이 추천되도록 함
pm = np.power(p + o_mean - categorized_temperature, 2)  -count * 0.4

# 각 user마다 반복
for i in range(n_u) :
    my_predictions = pm[:,i]

    # sort predictions
    ix = tf.argsort(my_predictions, direction='ASCENDING')

    df_predict = UI_temp[UI_temp.columns[ix[0:10]]].copy()
    df_predict = df_predict.round(0)
    df_predict.to_csv(f'../data/predictions/male/user_{i+1}_predictions.csv')'''

"# 예측을 수행하기 위해 모든 user-item에 대한 예측값을 계산\np = np.matmul(O.numpy(), np.transpose(U.numpy())) + b.numpy()\n# 실제 온도\n# 평균을 적용하고 temp를 빼서 값이 작을수록 실제 온도에 가깝도록 함. 이 때 각 user-item의 사용 횟수를 가중하여 많이 사용한 item이 추천되도록 함\npm = np.power(p + o_mean - categorized_temperature, 2)  -count * 0.4\n\n# 각 user마다 반복\nfor i in range(n_u) :\n    my_predictions = pm[:,i]\n\n    # sort predictions\n    ix = tf.argsort(my_predictions, direction='ASCENDING')\n\n    df_predict = UI_temp[UI_temp.columns[ix[0:10]]].copy()\n    df_predict = df_predict.round(0)\n    df_predict.to_csv(f'../data/predictions/male/user_{i+1}_predictions.csv')"

In [278]:
user_category_not_valid

{1: [3.0, 1.0, 7.0, 8.0, 9.0, 2.0],
 2: [5.0, 4.0, 3.0, 1.0, 7.0, 9.0, 2.0],
 3: [5.0, 1.0, 9.0, 2.0],
 4: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0],
 5: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0],
 6: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0],
 7: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0],
 8: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 9.0, 2.0],
 9: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0],
 10: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0],
 11: [4.0, 3.0, 1.0, 9.0, 2.0],
 12: [5.0, 6.0, 1.0, 7.0, 8.0, 9.0, 2.0],
 13: [5.0, 6.0, 4.0, 3.0, 1.0, 7.0, 8.0, 9.0, 2.0],
 14: [1.0, 9.0, 2.0]}

In [279]:
# 예측을 수행하기 위해 모든 user-item에 대한 예측값을 계산
p = np.matmul(O.numpy(), np.transpose(U.numpy())) + b.numpy() + o_mean
# UI_temp의 columns를 이용하여 UI_pred 생성 및 p 값을 대입
UI_pred = pd.DataFrame(p.T, index=UI_temp.index, columns=UI_temp.columns)

In [280]:
# UI_pred의 모든 값을 평균기온(°C) column을 5도 간격으로 범주화하여 0, 1, 2, ...로 변환
UI_pred_categori = UI_pred.apply(lambda x: pd.cut(x, bins=np.round(np.arange(min_temp -5, max_temp+5, 5), 1), labels=np.arange(0, (max_temp-min_temp)//5+2)))
UI_pred_categori

옷 조합,"가디건, 구두/로퍼, 기타 모자, 긴팔 티, 장목양말, 트레이닝/조거 팬츠","가디건, 구두/로퍼, 기타 모자, 긴팔 티, 코트, 트레이닝/조거 팬츠","가디건, 구두/로퍼, 긴팔 티, 데님팬츠, 액세서리 없음","가디건, 구두/로퍼, 긴팔 티, 데님팬츠, 액세서리 없음, 코트","가디건, 구두/로퍼, 긴팔 티, 면바지, 액세서리 없음","가디건, 구두/로퍼, 긴팔 티, 면바지, 액세서리 없음, 재킷","가디건, 구두/로퍼, 니트, 데님팬츠, 머플러, 반팔 티, 코트","가디건, 구두/로퍼, 니트, 데님팬츠, 액세서리 없음","가디건, 구두/로퍼, 데님팬츠, 반팔 티, 셔츠/블라우스, 액세서리 없음","가디건, 구두/로퍼, 데님팬츠, 반팔 티, 액세서리 없음",...,"비니, 셔츠/블라우스, 아우터 없음, 운동화, 트레이닝/조거 팬츠","비니, 셔츠/블라우스, 운동화, 집업, 트레이닝/조거 팬츠","셔츠/블라우스, 스니커즈/캔버스, 슬랙스, 액세서리 없음, 재킷","셔츠/블라우스, 스니커즈/캔버스, 액세서리 없음, 트레이닝/조거 팬츠, 패딩","셔츠/블라우스, 슬랙스, 액세서리 없음, 운동화, 재킷","스니커즈/캔버스, 아우터 없음, 액세서리 없음, 트레이닝/조거 팬츠, 후드티","스니커즈/캔버스, 액세서리 없음, 재킷, 카고바지, 후드티","스니커즈/캔버스, 액세서리 없음, 재킷, 트레이닝/조거 팬츠, 후드티","아우터 없음, 액세서리 없음, 운동화, 카고바지, 후드티","액세서리 없음, 운동화, 카고바지, 패딩, 후드티"
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,4.0,5.0,5.0,3.0,4.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,5.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0
2,4.0,5.0,5.0,3.0,4.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,5.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0
3,4.0,5.0,6.0,3.0,4.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,5.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0
4,3.0,5.0,5.0,3.0,4.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,5.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0
5,4.0,5.0,6.0,3.0,3.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,5.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0
6,3.0,5.0,5.0,3.0,4.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,4.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0
7,3.0,5.0,5.0,3.0,4.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,5.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0
8,4.0,5.0,5.0,3.0,4.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,5.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0
9,3.0,5.0,5.0,3.0,5.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,5.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0
10,3.0,5.0,5.0,3.0,3.0,3.0,1.0,3.0,5.0,5.0,...,8.0,4.0,5.0,1.0,4.0,2.0,3.0,4.0,4.0,1.0


In [281]:
np.array(UI_pred_categori).shape

(14, 570)

In [282]:

# user_category_not_valid에 해당하지 않는 경우에 대해 precision, recall, f1_score 계산
# 평균을 위한 초기화
precision_m, recall_m, f1_score_m, count_m = 0, 0, 0, 0
for i in range(n_u):
    for category in df_limit['평균기온(°C)'].unique():
        
        pm = np.power(np.array(UI_pred_categori).T - category, 2)  -count * 28
        my_predictions = pm[:,i]
        # sort predictions
        ix = np.argsort(my_predictions)

        df_predict = UI_temp[UI_temp.columns[ix[0:3]]].copy()
        # df_predict의 columns와 test_data_df의 '옷 조합' column을 비교하여 일치하는 경우의 개수를 계산
        predict = df_predict.columns.astype(str)
        
        # user i에 대한 예측을 파일로 저장
        os.makedirs(f'../data/predictions/male/user_{i+1}', exist_ok=True)
        # Save predictions to file in user's directory
        with open(f'../data/predictions/male/user_{i+1}/predictions_{category}.txt', 'w') as f:
            for item in predict:
                f.write("%s\n" % item)
        
        if i+1 in user_category_not_valid and category in user_category_not_valid[i+1]:
            print(f'{i+1}번 user, {category}도 데이터가 부족하여 제외합니다.')
            continue
        
        count_m += 1
        
        label = test_data_df[(test_data_df['userId'] == i+1) & (test_data_df['평균기온(°C)'] == category)]['옷 조합'].astype(str)
        
        precision = len(set(predict) & set(label)) / len(set(predict))
        print(f'{i+1}번 user, {category}도 prediction: {predict}')
        print(f'{i+1}번 user, {category}도 label: {label}')
        recall = len(set(predict) & set(label)) / len(set(label))
        if precision + recall == 0:
            '''print(f'0인 경우')
            print(f'{i+1}번 user, {category}도 예측 결과: {predict}, 실제 결과: {label} ')'''  
            f1_score = 0
        else:
            '''print(f'0이 아닌 경우')
            print(f'{i+1}번 user, {category}도 예측 결과: {predict}, 실제 결과: {label} ')'''  
            f1_score = 2 * (precision * recall) / (precision + recall)
        precision_m += precision
        recall_m += recall
        f1_score_m += f1_score
        print(precision, recall, f1_score)
precision_m /= count_m
recall_m /= count_m
f1_score_m /= count_m
print(f'평균 precision: {precision_m}, 평균 recall: {recall_m}, 평균 f1_score: {f1_score_m}')

1번 user, 5.0도 prediction: Index(['니트, 데님팬츠, 반팔 티, 스니커즈/캔버스, 액세서리 없음, 재킷',
       '면바지, 바람막이, 반팔 티, 스니커즈/캔버스, 액세서리 없음', '기타 모자, 긴팔 티, 데님팬츠, 운동화, 재킷'],
      dtype='object', name='옷 조합')
1번 user, 5.0도 label: 81     데님팬츠, 반팔 티, 셔츠/블라우스, 스니커즈/캔버스, 액세서리 없음, 조끼
68                 면바지, 아우터 없음, 액세서리 없음, 운동화, 후드티
71      데님팬츠, 반팔 티, 셔츠/블라우스, 아우터 없음, 액세서리 없음, 운동화
104     면바지, 반팔 티, 셔츠/블라우스, 스니커즈/캔버스, 액세서리 없음, 코트
Name: 옷 조합, dtype: object
0.0 0.0 0
1번 user, 6.0도 prediction: Index(['긴팔 티, 데님팬츠, 스니커즈/캔버스, 액세서리 없음, 재킷', '구두/로퍼, 데님팬츠, 반팔 티, 액세서리 없음, 재킷',
       '데님팬츠, 반팔 티, 셔츠/블라우스, 액세서리 없음, 운동화, 재킷'],
      dtype='object', name='옷 조합')
1번 user, 6.0도 label: 41                      구두/로퍼, 기타 모자, 니트, 면바지, 반팔 티, 재킷
1                             기타 모자, 반바지, 반팔 티, 운동화, 재킷
86    기타 모자, 데님팬츠, 민소매 티, 민소매 티, 반팔 티, 셔츠/블라우스, 스니커즈...
76                         긴팔 티, 데님팬츠, 액세서리 없음, 운동화, 재킷
Name: 옷 조합, dtype: object
0.0 0.0 0
1번 user, 4.0도 prediction: Index(['기타 모자, 긴팔 티, 면바지, 스니커즈/캔버스, 점퍼', '기타 모자, 긴팔 티, 데님팬츠, 스니