In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
import pandas as pd
import numpy as np
from tqdm.auto import tqdm
import random
import os

def reset_seeds(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)

DATA_PATH = "/content/drive/MyDrive/Final_project/data/"
SEED = 42

In [4]:
reset_seeds(SEED)

In [29]:
df = pd.read_csv(f"{DATA_PATH}아모레크롤링_스킨케어.csv")
df

Unnamed: 0,상품분류,브랜드명,상품명,사용자 이름,별점,리뷰작성날짜,나이,성별,피부타입,피부트러블,리뷰
0,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,0103*******,5,2022.09.27,40대,여성,지성,모공,남편이 극지성이에요. 원래 수퍼화산송이 미셀라만 꾸준히 사용해 오다가 지성 전용이라...
1,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,lsm2***,5,2022.08.15,40대,여성,건성,건조함,여름이라 집에 와서 메이크업 클렌징 해줄때 꼭 이중세안 해주는데 이 폼 클렌징으로 ...
2,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,gpdl***,5,2022.12.24,20대,여성,복합성,트러블,이니스프리 폼클렌징은 피부에 자극적이지 않아 좋아요 선크림만 사용해도 꼭 폼까지 써...
3,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,zoll***,5,2022.09.30,30대,여성,건성,건조함,저희 엄마가 이 제품이 클렌징이 제일 잘된다고 좋아하서 1+1 이벤트하길래 4개 쟁...
4,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,snow****,5,2022.09.30,50대 이상,여성,지성,모공,여름이라서 모공이 넓어지는것 같아서 구매해서 사용해보니 촉촉하고 피부땡기지 않아서 ...
...,...,...,...,...,...,...,...,...,...,...,...
112763,스킨케어,프리메라,모이스처 클렌징 티슈 300g,drea****,5,2020.01.11,40대,여성,복합성,모공,자극적이지 않고 순하게 화장을 지워주어 좋아요.
112764,스킨케어,프리메라,모이스처 클렌징 티슈 300g,kim4***,5,2022.05.11,50대 이상,여성,복합성,칙칙함,순하고 화장도 잘지워지고 기름지지않아서 좋아요 ~~^^
112765,스킨케어,프리메라,모이스처 클렌징 티슈 300g,hyej*****,4,2022.04.12,40대,여성,수분부족지성,탄력없음,클렌징티슈는 이것만 사용해요 자극 덜하고 향도 좋아요~
112766,스킨케어,프리메라,모이스처 클렌징 티슈 300g,sooh*****,4,2019.08.31,40대,여성,수분부족지성,모공,제 인생템 중 하나입니다 없으면 불안해져 쟁여놓고 쓴답니다~


In [31]:
# 제품별 평균 평점과 리뷰 수 계산
product_rating_avg = df.groupby('상품명')['별점'].mean()
product_rating_count = df.groupby('상품명').size()

In [33]:
# 가중 평점 계산
m = product_rating_count.quantile(0.5)
C = product_rating_avg.mean()
product_weighted_rating = (product_rating_count / (product_rating_count + m) * product_rating_avg) + (m / (product_rating_count + m) * C)

In [34]:
# 가중 평점을 데이터프레임에 추가
df['가중평점'] = df['상품명'].map(product_weighted_rating)
df

Unnamed: 0,상품분류,브랜드명,상품명,사용자 이름,별점,리뷰작성날짜,나이,성별,피부타입,피부트러블,리뷰,가중평점
0,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,0103*******,5,2022.09.27,40대,여성,지성,모공,남편이 극지성이에요. 원래 수퍼화산송이 미셀라만 꾸준히 사용해 오다가 지성 전용이라...,4.765195
1,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,lsm2***,5,2022.08.15,40대,여성,건성,건조함,여름이라 집에 와서 메이크업 클렌징 해줄때 꼭 이중세안 해주는데 이 폼 클렌징으로 ...,4.765195
2,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,gpdl***,5,2022.12.24,20대,여성,복합성,트러블,이니스프리 폼클렌징은 피부에 자극적이지 않아 좋아요 선크림만 사용해도 꼭 폼까지 써...,4.765195
3,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,zoll***,5,2022.09.30,30대,여성,건성,건조함,저희 엄마가 이 제품이 클렌징이 제일 잘된다고 좋아하서 1+1 이벤트하길래 4개 쟁...,4.765195
4,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,snow****,5,2022.09.30,50대 이상,여성,지성,모공,여름이라서 모공이 넓어지는것 같아서 구매해서 사용해보니 촉촉하고 피부땡기지 않아서 ...,4.765195
...,...,...,...,...,...,...,...,...,...,...,...,...
112763,스킨케어,프리메라,모이스처 클렌징 티슈 300g,drea****,5,2020.01.11,40대,여성,복합성,모공,자극적이지 않고 순하게 화장을 지워주어 좋아요.,4.777898
112764,스킨케어,프리메라,모이스처 클렌징 티슈 300g,kim4***,5,2022.05.11,50대 이상,여성,복합성,칙칙함,순하고 화장도 잘지워지고 기름지지않아서 좋아요 ~~^^,4.777898
112765,스킨케어,프리메라,모이스처 클렌징 티슈 300g,hyej*****,4,2022.04.12,40대,여성,수분부족지성,탄력없음,클렌징티슈는 이것만 사용해요 자극 덜하고 향도 좋아요~,4.777898
112766,스킨케어,프리메라,모이스처 클렌징 티슈 300g,sooh*****,4,2019.08.31,40대,여성,수분부족지성,모공,제 인생템 중 하나입니다 없으면 불안해져 쟁여놓고 쓴답니다~,4.777898


In [36]:
# 5. 가상 유저 생성
df['가상유저'] = df['나이'] + ',' + df['성별'] + ',' + df['피부타입'] + ',' + df['피부트러블']
df

Unnamed: 0,상품분류,브랜드명,상품명,사용자 이름,별점,리뷰작성날짜,나이,성별,피부타입,피부트러블,리뷰,가중평점,가상유저
0,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,0103*******,5,2022.09.27,40대,여성,지성,모공,남편이 극지성이에요. 원래 수퍼화산송이 미셀라만 꾸준히 사용해 오다가 지성 전용이라...,4.765195,"40대,여성,지성,모공"
1,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,lsm2***,5,2022.08.15,40대,여성,건성,건조함,여름이라 집에 와서 메이크업 클렌징 해줄때 꼭 이중세안 해주는데 이 폼 클렌징으로 ...,4.765195,"40대,여성,건성,건조함"
2,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,gpdl***,5,2022.12.24,20대,여성,복합성,트러블,이니스프리 폼클렌징은 피부에 자극적이지 않아 좋아요 선크림만 사용해도 꼭 폼까지 써...,4.765195,"20대,여성,복합성,트러블"
3,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,zoll***,5,2022.09.30,30대,여성,건성,건조함,저희 엄마가 이 제품이 클렌징이 제일 잘된다고 좋아하서 1+1 이벤트하길래 4개 쟁...,4.765195,"30대,여성,건성,건조함"
4,스킨케어,이니스프리,화산송이 모공 바하 클렌징 폼 150g,snow****,5,2022.09.30,50대 이상,여성,지성,모공,여름이라서 모공이 넓어지는것 같아서 구매해서 사용해보니 촉촉하고 피부땡기지 않아서 ...,4.765195,"50대 이상,여성,지성,모공"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
112763,스킨케어,프리메라,모이스처 클렌징 티슈 300g,drea****,5,2020.01.11,40대,여성,복합성,모공,자극적이지 않고 순하게 화장을 지워주어 좋아요.,4.777898,"40대,여성,복합성,모공"
112764,스킨케어,프리메라,모이스처 클렌징 티슈 300g,kim4***,5,2022.05.11,50대 이상,여성,복합성,칙칙함,순하고 화장도 잘지워지고 기름지지않아서 좋아요 ~~^^,4.777898,"50대 이상,여성,복합성,칙칙함"
112765,스킨케어,프리메라,모이스처 클렌징 티슈 300g,hyej*****,4,2022.04.12,40대,여성,수분부족지성,탄력없음,클렌징티슈는 이것만 사용해요 자극 덜하고 향도 좋아요~,4.777898,"40대,여성,수분부족지성,탄력없음"
112766,스킨케어,프리메라,모이스처 클렌징 티슈 300g,sooh*****,4,2019.08.31,40대,여성,수분부족지성,모공,제 인생템 중 하나입니다 없으면 불안해져 쟁여놓고 쓴답니다~,4.777898,"40대,여성,수분부족지성,모공"


In [37]:
# 가상 유저와 상품명을 ID로 변환
user_to_id = {user: i for i, user in enumerate(df['가상유저'].unique())}
product_to_id = {product: j for j, product in enumerate(df['상품명'].unique())}
df['user_id'] = df['가상유저'].map(user_to_id)
df['product_id'] = df['상품명'].map(product_to_id)

In [20]:
!pip install surprise

Collecting surprise
  Downloading surprise-0.1-py2.py3-none-any.whl (1.8 kB)
Collecting scikit-surprise (from surprise)
  Downloading scikit-surprise-1.1.3.tar.gz (771 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m772.0/772.0 kB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (setup.py) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.3-cp310-cp310-linux_x86_64.whl size=2811598 sha256=888e9cb7449cbdaecb0044d31a9a64bb65c03b81fcd6e565a8e80ce7d5694905
  Stored in directory: /root/.cache/pip/wheels/a5/ca/a8/4e28def53797fdc4363ca4af740db15a9c2f1595ebc51fb445
Successfully built scikit-surprise
Installing collected packages: scikit-surprise, surprise
Successfully installed scikit-surprise-1.1.3 surprise-0.1


In [38]:
from surprise import Dataset, Reader, SVD, accuracy
from surprise.model_selection import train_test_split

# 데이터 로딩
reader = Reader(rating_scale=(0, 5))
data_surprise = Dataset.load_from_df(df[['user_id', 'product_id', '가중평점']], reader)

# 학습 데이터와 테스트 데이터로 분할
trainset, testset = train_test_split(data_surprise, test_size=0.2, shuffle=True, random_state=SEED)

# SVD 알고리즘 사용하여 모델 학습
model = SVD()
model.fit(trainset)

# 테스트 데이터에 대한 예측
predictions = model.test(testset)

# 평가 (RMSE)
rmse = accuracy.rmse(predictions)

RMSE: 0.0190


In [40]:
df[['user_id', 'product_id', '가중평점']]

Unnamed: 0,user_id,product_id,가중평점
0,0,0,4.765195
1,1,0,4.765195
2,2,0,4.765195
3,3,0,4.765195
4,4,0,4.765195
...,...,...,...
112763,11,490,4.777898
112764,62,490,4.777898
112765,32,490,4.777898
112766,35,490,4.777898


In [None]:
SVD?

In [41]:
id_to_user = {v: k for k, v in user_to_id.items()}
id_to_product = {v: k for k, v in product_to_id.items()}

def get_top_n_recommendations(predictions, n=10):
    top_n = {}
    for uid, iid, est in predictions:
        user_info = id_to_user[uid]
        product_name = id_to_product[iid]
        top_n.setdefault(user_info, []).append((product_name, est))

    for user_info, user_ratings in top_n.items():
        user_ratings.sort(key=lambda x: x[1], reverse=True)
        top_n[user_info] = user_ratings[:n]

    return top_n

# user_recommendations = get_top_n_recommendations(predictions, n=5)

In [42]:
def get_unrated_items(user, df):
    # 사용자가 평가한 아이템들
    rated_items = set(df[df['가상유저'] == user]['상품명'].tolist())
    # 전체 아이템들
    all_items = set(df['상품명'].tolist())
    # 평가하지 않은 아이템들
    unrated_items = all_items - rated_items
    return unrated_items

In [None]:
from itertools import product

# 모든 (사용자, 아이템) 조합 생성
all_user_ids = list(user_to_id.values())
all_item_ids = list(product_to_id.values())
all_user_item_pairs = list(product(all_user_ids, all_item_ids))

# 모든 (사용자, 아이템) 조합과 임의의 평점(0)으로 새로운 리스트 생성
all_user_item_pairs_with_dummy_rating = [(uid, iid, 0) for (uid, iid) in all_user_item_pairs]

# 모든 (사용자, 아이템) 조합에 대한 예측 생성
all_predictions = model.test(all_user_item_pairs_with_dummy_rating)


# 사용자가 평가하지 않은 아이템에 대한 예측만 선택
filtered_predictions = []
for uid, iid, true_r, est, _ in tqdm(all_predictions):
    user_info = id_to_user[uid]
    product_name = id_to_product[iid]
    if product_name not in get_unrated_items(user_info, df):
        continue
    filtered_predictions.append((uid, iid, est))

  0%|          | 0/189526 [00:00<?, ?it/s]

In [27]:
# 예측 평점이 높은 상위 N개의 아이템 추천
user_recommendations_unrated = get_top_n_recommendations(filtered_predictions, n=5)

In [28]:
user_recommendations_unrated

{'30대,여성,극건성,건조함': [('자음생아이크림 20ml', 4.858126685733647),
  ('상백선크림 SPF50+/PA++++ 50ml', 4.836815740389869),
  ('워터뱅크 블루 히알루로닉 크림 중·건성용 50ml', 4.82788965174543),
  ('알파인베리 워터리 크림 100ml', 4.826236917367628),
  ('모이스춰 플럼핑 듀이 미스트 100ml', 4.825412611441998)],
 '20대,여성,건성,민감성': [('빈티지 싱글 익스트렉트 에센스 스타터 세트 70ml', 4.883842954237588),
  ('씨드 앤 스프라우트 에너지 마스크_로터스 세트 30매', 4.8520959187232116),
  ('세라펩타이드 크림스킨 170ml', 4.845016998313886),
  ('UV프로텍터 멀티디펜스 프레쉬 SPF50+/PA++++ 50ml', 4.822801444596844),
  ('맨 바이오 안티에이징 2종 세트', 4.812356756300985)],
 '30대,남성,지성,탄력없음': [('멜라솔브 프로그램 딥 클렌징 폼 200g', 4.9209410107501865),
  ('릴렉싱 딥 클렌징 오일', 4.8966538297573745),
  ('바이오 컨디셔닝 에센스 168ml', 4.89045578109397),
  ('알파인베리 워터리 크림 100ml', 4.883618907612809),
  ('아토베리어365 버블클렌저 150ml', 4.875453722249259)],
 '20대,여성,수분부족지성,탄력없음': [('옴므 스페셜 기획세트 2종', 4.847067294020691),
  ('슈퍼바이탈 크림 리치 스페셜 기프트 50ml', 4.778293084202056),
  ('어린쑥 진정맑은 클렌징 폼 120g', 4.765690308007464),
  ('릴렉싱 딥 클렌징 오일', 4.7468194619871635),
  ('아토베리어365 크림 80ml

In [None]:
from surprise import Dataset, Reader, SVD

reader = Reader(rating_scale=(formatted_data['구매횟수'].min(), formatted_data['구매횟수'].max()))
data_surprise = Dataset.load_from_df(formatted_data, reader)

trainset = data_surprise.build_full_trainset()

model = SVD()
model.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x79d4568a51e0>

In [None]:
def get_top_n_recommendations(trainset, model, n=10):
    top_n = {}
    for uid in trainset.all_users():
        user_info = id_to_user[uid]
        user_ratings = []
        for iid in trainset.all_items():
            product_name = id_to_product[iid]
            est = model.predict(uid, iid).est
            user_ratings.append((product_name, est))
        user_ratings.sort(key=lambda x: x[1], reverse=True)
        top_n[user_info] = user_ratings[:n]

    return top_n

user_recommendations = get_top_n_recommendations(trainset, model, n=5)

In [None]:
user_recommendations.get('10대,남성,건성,민감성')

[('UV프로텍터 톤업 SPF50+/PA++++ 50ml', 5.674192363141247),
 ('오가니언스 워터리 에센스 230ml', 5.355801538460989),
 ('자음생아이크림 20ml', 5.0577827856281665),
 ('바하 버블 필링 클렌저 200ml', 5.052454047081319),
 ('퍼펙트 오일 투 폼 클렌저 200ml', 5.015420438344756)]

In [None]:
user_recommendations

{'10대,남성,건성,건조함': [('상백크림 단품세트 50ml', 2.472808172903253),
  ('알파인베리 워터리 크림 100ml', 2.4379615665075427),
  ('나의 첫 설화수', 2.370891259902918),
  ('에이시카 365 흔적 진정 세럼 40ml', 2.350302189787529),
  ('테라크네365 하이드레이션 토너 세트 320ml', 2.2868829816776763)],
 '10대,남성,건성,민감성': [('레티놀 슈퍼 바운스 세럼 50ml', 2.327158360804458),
  ('부들밤x크렘드마롱 듀오 선물세트', 2.273850999923978),
  ('상백크림 단품세트 50ml', 2.20337248916535),
  ('로즈+PHA 리퀴드 마스크 80ml', 2.197424795481297),
  ('워터뱅크 블루 히알루로닉 크림 지·복합용 50ml', 2.1807282319893915)],
 '10대,남성,건성,탄력없음': [('에이시카 365 흔적 진정 세럼 40ml', 2.558481375677859),
  ('워터뱅크 블루 히알루로닉 세럼 50ml', 2.3499099216171664),
  ('부들밤x크렘드마롱 듀오 선물세트', 2.347578278093417),
  ('맨 바이오 안티에이징 2종 세트', 2.34346409090068),
  ('알파인베리 워터리 크림 100ml', 2.291274208217525)],
 '10대,남성,복합성,민감성': [('UV프로텍터 멀티디펜스 프레쉬 SPF50+/PA++++ 50ml', 2.57332784502226),
  ('나의 첫 설화수', 2.3815874074564487),
  ('알파인베리 워터리 크림 100ml', 2.3579092997776256),
  ('씨드 앤 스프라우트 에너지 마스크_로터스 세트 30매', 2.3515082566657712),
  ('워터뱅크 블루 히알루로닉 세럼 50ml', 2.332099722277