In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import numpy as np
import torch
from tqdm.auto import tqdm
import random
import os

def reset_seeds(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True

DATA_PATH = "/content/drive/MyDrive/Final_project/data/"
SEED = 42

device = 'cuda' if torch.cuda.is_available() else 'cpu'
device

'cpu'

In [3]:
reset_seeds(SEED)

In [4]:
df = pd.read_csv(f"{DATA_PATH}아모레크롤링_스킨케어.csv")
df

Unnamed: 0,상품분류,브랜드명,상품명,사용자 이름,별점,리뷰작성날짜,나이,성별,피부타입,피부트러블,리뷰
0,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,0103*******,5,2022.09.27,40대,여성,지성,모공,남편이 극지성이에요. 원래 수퍼화산송이 미셀라만 꾸준히 사용해 오다가 지성 전용이라...
1,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,lsm2***,5,2022.08.15,40대,여성,건성,건조함,여름이라 집에 와서 메이크업 클렌징 해줄때 꼭 이중세안 해주는데 이 폼 클렌징으로 ...
2,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,gpdl***,5,2022.12.24,20대,여성,복합성,트러블,이니스프리 폼클렌징은 피부에 자극적이지 않아 좋아요 선크림만 사용해도 꼭 폼까지 써...
3,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,zoll***,5,2022.09.30,30대,여성,건성,건조함,저희 엄마가 이 제품이 클렌징이 제일 잘된다고 좋아하서 1+1 이벤트하길래 4개 쟁...
4,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,snow****,5,2022.09.30,50대 이상,여성,지성,모공,여름이라서 모공이 넓어지는것 같아서 구매해서 사용해보니 촉촉하고 피부땡기지 않아서 ...
...,...,...,...,...,...,...,...,...,...,...,...
112763,스킨케어,프리메라,모이스처 클렌징 티슈 300g,drea****,5,2020.01.11,40대,여성,복합성,모공,자극적이지 않고 순하게 화장을 지워주어 좋아요.
112764,스킨케어,프리메라,모이스처 클렌징 티슈 300g,kim4***,5,2022.05.11,50대 이상,여성,복합성,칙칙함,순하고 화장도 잘지워지고 기름지지않아서 좋아요 ~~^^
112765,스킨케어,프리메라,모이스처 클렌징 티슈 300g,hyej*****,4,2022.04.12,40대,여성,수분부족지성,탄력없음,클렌징티슈는 이것만 사용해요 자극 덜하고 향도 좋아요~
112766,스킨케어,프리메라,모이스처 클렌징 티슈 300g,sooh*****,4,2019.08.31,40대,여성,수분부족지성,모공,제 인생템 중 하나입니다 없으면 불안해져 쟁여놓고 쓴답니다~


In [5]:
# 스킨케어 분류에 해당하는 상품만 필터링
df2 = df[df['상품분류'] == '스킨케어']
df2

Unnamed: 0,상품분류,브랜드명,상품명,사용자 이름,별점,리뷰작성날짜,나이,성별,피부타입,피부트러블,리뷰
0,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,0103*******,5,2022.09.27,40대,여성,지성,모공,남편이 극지성이에요. 원래 수퍼화산송이 미셀라만 꾸준히 사용해 오다가 지성 전용이라...
1,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,lsm2***,5,2022.08.15,40대,여성,건성,건조함,여름이라 집에 와서 메이크업 클렌징 해줄때 꼭 이중세안 해주는데 이 폼 클렌징으로 ...
2,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,gpdl***,5,2022.12.24,20대,여성,복합성,트러블,이니스프리 폼클렌징은 피부에 자극적이지 않아 좋아요 선크림만 사용해도 꼭 폼까지 써...
3,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,zoll***,5,2022.09.30,30대,여성,건성,건조함,저희 엄마가 이 제품이 클렌징이 제일 잘된다고 좋아하서 1+1 이벤트하길래 4개 쟁...
4,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,snow****,5,2022.09.30,50대 이상,여성,지성,모공,여름이라서 모공이 넓어지는것 같아서 구매해서 사용해보니 촉촉하고 피부땡기지 않아서 ...
...,...,...,...,...,...,...,...,...,...,...,...
112763,스킨케어,프리메라,모이스처 클렌징 티슈 300g,drea****,5,2020.01.11,40대,여성,복합성,모공,자극적이지 않고 순하게 화장을 지워주어 좋아요.
112764,스킨케어,프리메라,모이스처 클렌징 티슈 300g,kim4***,5,2022.05.11,50대 이상,여성,복합성,칙칙함,순하고 화장도 잘지워지고 기름지지않아서 좋아요 ~~^^
112765,스킨케어,프리메라,모이스처 클렌징 티슈 300g,hyej*****,4,2022.04.12,40대,여성,수분부족지성,탄력없음,클렌징티슈는 이것만 사용해요 자극 덜하고 향도 좋아요~
112766,스킨케어,프리메라,모이스처 클렌징 티슈 300g,sooh*****,4,2019.08.31,40대,여성,수분부족지성,모공,제 인생템 중 하나입니다 없으면 불안해져 쟁여놓고 쓴답니다~


In [6]:
# '나이', '성별', '피부타입', '피부트러블'을 조합하여 가상유저 생성
df2['가상유저'] = df2['나이'] + ',' + df2['성별'] + ',' + df2['피부타입'] + ',' + df2['피부트러블']

# '브랜드명', '상품명', '가상유저'만 포함하는 데이터프레임 생성
virtual_user_df = df2[['브랜드명', '상품명', '가상유저']].drop_duplicates().reset_index(drop=True)

virtual_user_df

Unnamed: 0,브랜드명,상품명,가상유저
0,이니스프리,화산송이 모공 바하 클렌징 폼 150g,"40대,여성,지성,모공"
1,이니스프리,화산송이 모공 바하 클렌징 폼 150g,"40대,여성,건성,건조함"
2,이니스프리,화산송이 모공 바하 클렌징 폼 150g,"20대,여성,복합성,트러블"
3,이니스프리,화산송이 모공 바하 클렌징 폼 150g,"30대,여성,건성,건조함"
4,이니스프리,화산송이 모공 바하 클렌징 폼 150g,"50대 이상,여성,지성,모공"
...,...,...,...
36471,프리메라,모이스처 클렌징 티슈 300g,"40대,남성,중성,칙칙함"
36472,프리메라,모이스처 클렌징 티슈 300g,"40대,여성,극건성,주름"
36473,프리메라,모이스처 클렌징 티슈 300g,"50대 이상,여성,지성,주름"
36474,프리메라,모이스처 클렌징 티슈 300g,"20대,여성,중성,칙칙함"


In [7]:
# 가상유저와 상품명을 기준으로 구매횟수 계산
virtual_user_purchase_counts = df2.groupby(['가상유저', '상품명']).size().reset_index(name='구매횟수')

virtual_user_purchase_counts

Unnamed: 0,가상유저,상품명,구매횟수
0,"10대,남성,건성,건조함",비자 트러블 클렌징폼 150g,2
1,"10대,남성,건성,건조함",알파인 베리 워터리 크림 50ml,1
2,"10대,남성,건성,민감성",파워부스팅 스페셜세트 2종,1
3,"10대,남성,건성,주름",리페어링 세라캡슐 UV프로텍터 SPF50+/PA++++ 40ml,1
4,"10대,남성,건성,주름",알파인베리 워터리 크림 75ml,1
...,...,...,...
36471,"50대 이상,여성,지성,트러블",플라워 앰플 마스크팩 1매,1
36472,"50대 이상,여성,지성,트러블",화산송이 모공 바하 클렌징 폼 150g,1
36473,"50대 이상,여성,지성,트러블",화이트 클레이 모공 클렌징폼 150g,2
36474,"50대 이상,여성,지성,트러블",히알루론 모이스춰 수분크림 100ml,1


In [8]:
virtual_user_purchase_counts['구매횟수'].value_counts()

1     16076
2      7550
3      3670
4      2405
5      1475
6      1057
7       780
8       563
9       498
10      350
11      287
12      248
13      191
14      177
16      123
15      118
17       87
18       82
19       71
21       43
20       40
22       37
23       32
24       28
27       25
26       24
25       20
28       15
29       13
31       11
32       11
30       10
33        7
34        6
36        6
35        5
37        4
40        4
38        3
45        2
57        1
47        1
48        1
42        1
46        1
44        1
39        1
41        1
49        1
Name: 구매횟수, dtype: int64

In [8]:
# 가상유저와 상품명을 숫자 ID로 변환
user_to_id = {user: i for i, user in enumerate(virtual_user_purchase_counts['가상유저'].unique())}
product_to_id = {product: j for j, product in enumerate(virtual_user_purchase_counts['상품명'].unique())}

virtual_user_purchase_counts['user_id'] = virtual_user_purchase_counts['가상유저'].map(user_to_id)
virtual_user_purchase_counts['product_id'] = virtual_user_purchase_counts['상품명'].map(product_to_id)

# 숫자 ID와 구매 횟수로 구성된 데이터프레임 생성
formatted_data = virtual_user_purchase_counts[['user_id', 'product_id', '구매횟수']]

formatted_data

Unnamed: 0,user_id,product_id,구매횟수
0,0,0,2
1,0,1,1
2,1,2,1
3,2,3,1
4,2,4,1
...,...,...,...
36471,385,25,1
36472,385,57,1
36473,385,164,2
36474,385,33,1


In [9]:
!pip install surprise

Collecting surprise
  Downloading surprise-0.1-py2.py3-none-any.whl (1.8 kB)
Collecting scikit-surprise (from surprise)
  Downloading scikit-surprise-1.1.3.tar.gz (771 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m772.0/772.0 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (setup.py) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.3-cp310-cp310-linux_x86_64.whl size=2811596 sha256=6c7f9730f0ce829b9a6a9b74f3fb461a3fddf285509245d164a1fc6eefd16cc6
  Stored in directory: /root/.cache/pip/wheels/a5/ca/a8/4e28def53797fdc4363ca4af740db15a9c2f1595ebc51fb445
Successfully built scikit-surprise
Installing collected packages: scikit-surprise, surprise
Successfully installed scikit-surprise-1.1.3 surprise-0.1


In [10]:
from surprise import Dataset, Reader, SVD, accuracy
from surprise.model_selection import train_test_split

# 데이터 로딩
reader = Reader(rating_scale=(formatted_data['구매횟수'].min(), formatted_data['구매횟수'].max()))
data_surprise = Dataset.load_from_df(formatted_data, reader)

# 학습 데이터와 테스트 데이터로 분할
trainset, testset = train_test_split(data_surprise, test_size=0.2, shuffle=True, random_state=SEED)

# SVD 알고리즘 사용하여 모델 학습
model = SVD()
model.fit(trainset)

# 테스트 데이터에 대한 예측
predictions = model.test(testset)

# 평가 (RMSE)
rmse = accuracy.rmse(predictions)

RMSE: 2.4201


In [11]:
formatted_data

Unnamed: 0,user_id,product_id,구매횟수
0,0,0,2
1,0,1,1
2,1,2,1
3,2,3,1
4,2,4,1
...,...,...,...
36471,385,25,1
36472,385,57,1
36473,385,164,2
36474,385,33,1


In [13]:
SVD?

In [21]:
id_to_user = {v: k for k, v in user_to_id.items()}
id_to_product = {v: k for k, v in product_to_id.items()}

def get_top_n_recommendations(predictions, n=10):
    top_n = {}
    for uid, iid, est in predictions:
        user_info = id_to_user[uid]
        product_name = id_to_product[iid]
        top_n.setdefault(user_info, []).append((product_name, est))

    for user_info, user_ratings in top_n.items():
        user_ratings.sort(key=lambda x: x[1], reverse=True)
        top_n[user_info] = user_ratings[:n]

    return top_n

# user_recommendations = get_top_n_recommendations(predictions, n=5)

In [13]:
id_to_user = {v: k for k, v in user_to_id.items()}
id_to_product = {v: k for k, v in product_to_id.items()}

def get_unrated_items(user, df):
    # 사용자가 평가한 아이템들
    rated_items = set(df[df['가상유저'] == user]['상품명'].tolist())
    # 전체 아이템들
    all_items = set(df['상품명'].tolist())
    # 평가하지 않은 아이템들
    unrated_items = all_items - rated_items
    return unrated_items

In [19]:
from itertools import product

# 모든 (사용자, 아이템) 조합 생성
all_user_ids = list(user_to_id.values())
all_item_ids = list(product_to_id.values())
all_user_item_pairs = list(product(all_user_ids, all_item_ids))

# 모든 (사용자, 아이템) 조합과 임의의 평점(0)으로 새로운 리스트 생성
all_user_item_pairs_with_dummy_rating = [(uid, iid, 0) for (uid, iid) in all_user_item_pairs]

# 모든 (사용자, 아이템) 조합에 대한 예측 생성
all_predictions = model.test(all_user_item_pairs_with_dummy_rating)


# 사용자가 평가하지 않은 아이템에 대한 예측만 선택
filtered_predictions = []
for uid, iid, true_r, est, _ in tqdm(all_predictions):
    user_info = id_to_user[uid]
    product_name = id_to_product[iid]
    if product_name not in get_unrated_items(user_info, df2):
        continue
    filtered_predictions.append((uid, iid, est))

  0%|          | 0/189526 [00:00<?, ?it/s]

ValueError: ignored

In [22]:
# 예측 평점이 높은 상위 N개의 아이템 추천
user_recommendations_unrated = get_top_n_recommendations(filtered_predictions, n=5)

In [23]:
user_recommendations_unrated

{'10대,남성,건성,건조함': [('트리트먼트 엔자임 클렌징 폼 120g', 4.999210243808394),
  ('아토베리어365 버블클렌저 150ml', 4.617118407367585),
  ('바이오 컨디셔닝 에센스 하이드로 인핸싱 마스크 5매', 4.613928252477248),
  ('세라펩타이드 크림스킨 170ml', 4.566315275399374),
  ('저자극 이지워시 선크림 SPF50+/PA++++ 150ml', 4.486172798196115)],
 '10대,남성,건성,민감성': [('오가니언스 워터리 에센스 230ml', 4.887594231620825),
  ('UV프로텍터 톤업 SPF50+/PA++++ 50ml', 4.831300434436005),
  ('유스 래디언스 비타티놀 세럼 15g*2', 4.443619007414814),
  ('리페어링 세라캡슐 UV프로텍터 SPF50+/PA++++ 40ml', 4.33920166366031),
  ('자음생아이크림 20ml', 4.303727545969071)],
 '10대,남성,건성,주름': [('민감 맞춤 에센스 35ml', 4.4933663107664215),
  ('바쿠치올 레티놀 크림 60ml', 3.854197788617977),
  ('레티놀 엑스퍼트 0.3% 20ml', 3.6966453295750603),
  ('에이시카 365 흔적 진정 세럼 40ml', 3.6336840514734154),
  ('백화고 앰플 에센스 40ml', 3.431239162512075)],
 '10대,남성,건성,칙칙함': [('알로에 리바이탈 수딩젤 300ml', 3.516396551053563),
  ('옴므 스페셜 기획세트 2종', 3.43999772362525),
  ('모이스처 클렌징 티슈 300g', 3.430729214031047),
  ('민감 맞춤 에센스 35ml', 3.3997848960738852),
  ('멜라솔브 프로그램 딥 클렌징 폼 200g', 3.36560

In [16]:
from surprise import Dataset, Reader, SVD

reader = Reader(rating_scale=(formatted_data['구매횟수'].min(), formatted_data['구매횟수'].max()))
data_surprise = Dataset.load_from_df(formatted_data, reader)

trainset = data_surprise.build_full_trainset()

model = SVD()
model.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x79d4568a51e0>

In [17]:
def get_top_n_recommendations(trainset, model, n=10):
    top_n = {}
    for uid in trainset.all_users():
        user_info = id_to_user[uid]
        user_ratings = []
        for iid in trainset.all_items():
            product_name = id_to_product[iid]
            est = model.predict(uid, iid).est
            user_ratings.append((product_name, est))
        user_ratings.sort(key=lambda x: x[1], reverse=True)
        top_n[user_info] = user_ratings[:n]

    return top_n

user_recommendations = get_top_n_recommendations(trainset, model, n=5)

In [18]:
user_recommendations.get('10대,남성,건성,민감성')

[('UV프로텍터 톤업 SPF50+/PA++++ 50ml', 5.674192363141247),
 ('오가니언스 워터리 에센스 230ml', 5.355801538460989),
 ('자음생아이크림 20ml', 5.0577827856281665),
 ('바하 버블 필링 클렌저 200ml', 5.052454047081319),
 ('퍼펙트 오일 투 폼 클렌저 200ml', 5.015420438344756)]

In [None]:
user_recommendations

{'10대,남성,건성,건조함': [('상백크림 단품세트 50ml', 2.472808172903253),
  ('알파인베리 워터리 크림 100ml', 2.4379615665075427),
  ('나의 첫 설화수', 2.370891259902918),
  ('에이시카 365 흔적 진정 세럼 40ml', 2.350302189787529),
  ('테라크네365 하이드레이션 토너 세트 320ml', 2.2868829816776763)],
 '10대,남성,건성,민감성': [('레티놀 슈퍼 바운스 세럼 50ml', 2.327158360804458),
  ('부들밤x크렘드마롱 듀오 선물세트', 2.273850999923978),
  ('상백크림 단품세트 50ml', 2.20337248916535),
  ('로즈+PHA 리퀴드 마스크 80ml', 2.197424795481297),
  ('워터뱅크 블루 히알루로닉 크림 지·복합용 50ml', 2.1807282319893915)],
 '10대,남성,건성,탄력없음': [('에이시카 365 흔적 진정 세럼 40ml', 2.558481375677859),
  ('워터뱅크 블루 히알루로닉 세럼 50ml', 2.3499099216171664),
  ('부들밤x크렘드마롱 듀오 선물세트', 2.347578278093417),
  ('맨 바이오 안티에이징 2종 세트', 2.34346409090068),
  ('알파인베리 워터리 크림 100ml', 2.291274208217525)],
 '10대,남성,복합성,민감성': [('UV프로텍터 멀티디펜스 프레쉬 SPF50+/PA++++ 50ml', 2.57332784502226),
  ('나의 첫 설화수', 2.3815874074564487),
  ('알파인베리 워터리 크림 100ml', 2.3579092997776256),
  ('씨드 앤 스프라우트 에너지 마스크_로터스 세트 30매', 2.3515082566657712),
  ('워터뱅크 블루 히알루로닉 세럼 50ml', 2.332099722277