In [None]:
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [None]:
cd '../gdrive/MyDrive/SSAC/3조'

/gdrive/.shortcut-targets-by-id/15_BxZVEQYCdGCGiQ5nexpWPc1cgHVe4w/3조


In [None]:
!pip install konlpy
!pip install img2vec_pytorch

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 367 kB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 95.6 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0
Collecting img2vec_pytorch
  Downloading img2vec_pytorch-1.0.1-py3-none-any.whl (6.9 kB)
Installing collected packages: img2vec-pytorch
Successfully installed img2vec-pytorch-1.0.1


In [None]:
import pandas as pd
import numpy as np
import torch
import joblib
import json
from tqdm.notebook import tqdm
from preprocess import preprocessing, text2vector, image2vector

Downloading: "https://download.pytorch.org/models/resnet18-f37072fd.pth" to /root/.cache/torch/hub/checkpoints/resnet18-f37072fd.pth


  0%|          | 0.00/44.7M [00:00<?, ?B/s]

In [None]:
# 예측에 사용할 feature 이름 
with open('data/feature_dict.json', 'r') as f:
    feature_dict = json.load(f)
categorical, continuous, candidates = feature_dict['categorical'], feature_dict['continuous'], feature_dict['candidates']
features = categorical + continuous

# Label Encoder
with open('data/cat_1_dict.json', 'r') as f:
    cat_label = json.load(f)
with open('data/place_dict.json', 'r') as f:
    place_label = json.load(f)
# Standard Scaler
scaler = joblib.load('model/robust_scaler.pkl')
# 학습된 DeepFM 모델
model_dfm = torch.load('model/deepfm_final.h5')

# CTR 예측

### 가상 유저군 생성

In [None]:
from itertools import product

# 유저 정보 (median 사용)
users = {'bid_price': [50],
         'viewer_gender': [1,2],
         'viewer_age': range(10, 80),
         'viewer_chat_count': [0.0],
        'viewer_following_count': [1.0],
        'viewer_parcel_post_count': [0.0],
        'viewer_pay_count': [0.0],
        'viewer_transfer_count': [0.0]
         }

# 유저 생성
user_list = []
for i, values in enumerate(list(product(*users.values()))):
    user = dict(zip(users.keys(), values))
    user_list.append(user)

### 각 소분류별로 CTR 예측

In [None]:
# ----------------------------------------------------------------
# cat_id_list = [310100, 310180, 310250, 310080, 310190, 310200]
# ----------------------------------------------------------------
# cat_id_list = [310220, 320080, 320100, 320200, 320190, 320210]
# ----------------------------------------------------------------
# cat_id_list = [310090, 310110, 310240, 310230]
# ----------------------------------------------------------------
# cat_id_list = [310260, 310040, 310050, 310150, 310140, 310160, 310120, 310070, 310060]
# ----------------------------------------------------------------
# cat_id_list = [320040, 320060, 320050, 320120, 320110]
# ----------------------------------------------------------------
cat_id_list = [320130, 320090, 320140, 320070, 320150, 320160, 320180]

for cat_id in tqdm(cat_id_list):
    # 데이터 불러오기 (소분류별로 하나씩)
    df = pd.read_csv(f'data/new_crawling/new_crawling_{cat_id}.csv')
    # 데이터 전처리
    df = preprocessing(df)
    print('-'*45)
    print(f'대분류: {df.content_cat_1[0]}, 중분류: {df.content_cat_2[0]}, 소분류: {df.content_cat_3[0]}')
    print('-'*45)
    # 텍스트 전처리 및 벡터화
    text2vec = text2vector(df)
    # 텍스트 벡터 저장 (cid : vector 형식)
    with open(f'data/의류/text/text_vec_{cat_id}.json', 'w') as f:
        json.dump(text2vec, f)
    # 이미지 벡터화
    img2vec = image2vector(df)
    # 이미지 벡터 저장 (cid : vector 형식)
    with open(f'data/의류/image/image_vec_{cat_id}.json', 'w') as f:
        json.dump({key:[float(v) for v in value] for key,value in img2vec.items()}, f)    

    # DeepFM 모델 input 형식에 맞게 (이미지, 텍스트)
    predict_input = {'image_vec': np.array([img2vec[cid] for cid in df['content_id']]),
                    'text_vec': np.array([text2vec[cid] for cid in df['content_id']])}
    
    # 위에서 생성한 유저 140명에 대해 CTR 예측
    print('CTR 예측 시작')

    # CTR 저장할 df 생성
    result_df = pd.DataFrame()
    for demo_user in tqdm(user_list):
        # 각 유저에 대한 ctr 저장할 df 생성
        user_ctr_df = pd.DataFrame({'content_id': df.content_id, 
                                    'gender': demo_user['viewer_gender'],
                                    'age': demo_user['viewer_age'],
                                    })
        
        # 예측 input으로 사용할 데이터만 뽑기
        candidates_df = df[candidates].copy()        
        
        # 각 유저마다 특성을 입력(나이, 성별 등)
        for feat in demo_user.keys():
            candidates_df[feat] = demo_user[feat]
        # 학습했을때와 같은 순서로 컬럼 정렬
        candidates_df = candidates_df[features]

        # Label Encoding
        candidates_df['content_cat_1'] = candidates_df['content_cat_1'].apply(lambda x: cat_label[x])
        # Standard Scaling
        candidates_df[continuous] = scaler.transform(candidates_df[continuous])
        
        # DeepFM input 형태에 맞게(정형 데이터)
        candidates_input = {name: candidates_df[name] for name in features}
        # 정형 + 비정형 input 합치기
        predict_input.update(candidates_input)

        # CTR 예측
        CTR_dfm = model_dfm.predict(predict_input, 512)

        # 예측한 CTR 저장
        user_ctr_df['ctr'] = CTR_dfm
        result_df = result_df.append(user_ctr_df)
    
    # 컨텐츠, CTR 정보 따로 저장
    df.to_csv(f'data/의류/content_{cat_id}.csv', index=False)
    result_df.to_csv(f'data/의류/ctr_{cat_id}.csv', index=False)

  0%|          | 0/7 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 반바지, 소분류: 기타(반바지)
---------------------------------------------
텍스트 전처리 및 벡터화


  0%|          | 0/1884 [00:00<?, ?it/s]

이미지 불러오기 및 벡터화


  0%|          | 0/1884 [00:00<?, ?it/s]

CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 자켓, 소분류: 가죽
---------------------------------------------
텍스트 전처리 및 벡터화


  0%|          | 0/719 [00:00<?, ?it/s]

이미지 불러오기 및 벡터화


  0%|          | 0/719 [00:00<?, ?it/s]

CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 정장, 소분류: 세트
---------------------------------------------
텍스트 전처리 및 벡터화


  0%|          | 0/1986 [00:00<?, ?it/s]

이미지 불러오기 및 벡터화


  0%|          | 0/1986 [00:00<?, ?it/s]

CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 조끼/베스트, 소분류: 니트 조끼
---------------------------------------------
텍스트 전처리 및 벡터화


  0%|          | 0/1855 [00:00<?, ?it/s]

이미지 불러오기 및 벡터화


  0%|          | 0/1855 [00:00<?, ?it/s]

CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 트레이닝, 소분류: 상의
---------------------------------------------
텍스트 전처리 및 벡터화


  0%|          | 0/1215 [00:00<?, ?it/s]

이미지 불러오기 및 벡터화


  0%|          | 0/1215 [00:00<?, ?it/s]

CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 언더웨어/홈웨어, 소분류: 언더웨어/홈웨어
---------------------------------------------
텍스트 전처리 및 벡터화


  0%|          | 0/1992 [00:00<?, ?it/s]

이미지 불러오기 및 벡터화


  0%|          | 0/1992 [00:00<?, ?it/s]

CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 테마/이벤트, 소분류: 테마/이벤트
---------------------------------------------
텍스트 전처리 및 벡터화


  0%|          | 0/1994 [00:00<?, ?it/s]

이미지 불러오기 및 벡터화


  0%|          | 0/1994 [00:00<?, ?it/s]

CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

# NEW

In [None]:
import os

In [None]:
file_list = [filename for filename in os.listdir('data/의류') if ('content' in filename)&('(' not in filename)]

for file_name in tqdm(file_list):
    cat_id = file_name[8:14]
    # 데이터 불러오기 (소분류별로 하나씩)
    df = pd.read_csv('data/의류/' + file_name)
    # 데이터 전처리
    # df = preprocessing(df)
    print('-'*45)
    print(f'대분류: {df.content_cat_1[0]}, 중분류: {df.content_cat_2[0]}, 소분류: {df.content_cat_3[0]}')
    print('-'*45)

    with open(f'data/의류/text/text_vec_{cat_id}.json', 'r') as f:
        text2vec = json.load(f)
    # 이미지 벡터 저장 (cid : vector 형식)
    with open(f'data/의류/image/image_vec_{cat_id}.json', 'r') as f:
        img2vec = json.load(f)

    # DeepFM 모델 input 형식에 맞게 (이미지, 텍스트)
    predict_input = {'image_vec': np.array([img2vec[str(cid)] for cid in df['content_id']]),
                    'text_vec': np.array([text2vec[str(cid)] for cid in df['content_id']])}
    
    # 위에서 생성한 유저 140명에 대해 CTR 예측
    print('CTR 예측 시작')

    # CTR 저장할 df 생성
    result_df = pd.DataFrame()
    for demo_user in tqdm(user_list):
        # 각 유저에 대한 ctr 저장할 df 생성
        user_ctr_df = pd.DataFrame({'content_id': df.content_id, 
                                    'gender': demo_user['viewer_gender'],
                                    'age': demo_user['viewer_age'],
                                    })
        
        # 예측 input으로 사용할 데이터만 뽑기
        candidates_df = df[candidates].copy()        
        
        # 각 유저마다 특성을 입력(나이, 성별 등)
        for feat in demo_user.keys():
            candidates_df[feat] = demo_user[feat]
        # 학습했을때와 같은 순서로 컬럼 정렬
        candidates_df = candidates_df[features]

        # Label Encoding
        candidates_df['content_cat_1'] = candidates_df['content_cat_1'].apply(lambda x: cat_label[x])
        # Standard Scaling
        candidates_df[continuous] = scaler.transform(candidates_df[continuous])
        
        # DeepFM input 형태에 맞게(정형 데이터)
        candidates_input = {name: candidates_df[name] for name in features}
        # 정형 + 비정형 input 합치기
        predict_input.update(candidates_input)

        # CTR 예측
        CTR_dfm = model_dfm.predict(predict_input, 512)

        # 예측한 CTR 저장
        user_ctr_df['ctr'] = CTR_dfm
        result_df = result_df.append(user_ctr_df)
    
    # 컨텐츠, CTR 정보 따로 저장
    # df.to_csv(f'data/의류/content_{cat_id}_new.csv', index=False)
    result_df.to_csv(f'data/의류/ctr_{cat_id}_new.csv', index=False)

  0%|          | 0/36 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 자켓, 소분류: 바람막이
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 정장, 소분류: 자켓
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 점프수트, 소분류: 점프수트
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 조끼/베스트, 소분류: 니트 조끼
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 트레이닝, 소분류: 하의
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 언더웨어/홈웨어, 소분류: 언더웨어/홈웨어
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 테마/이벤트, 소분류: 테마/이벤트
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 패딩/점퍼, 소분류: 블루종/항공점퍼
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 코트, 소분류: 겨울 코트
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 맨투맨, 소분류: 맨투맨
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 후드티/후드집업, 소분류: 후드티/후드집업
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 티셔츠, 소분류: 반팔 티셔츠
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 패딩/점퍼, 소분류: 기타(패딩/점퍼)
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 코트, 소분류: 겨울 코트
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 맨투맨, 소분류: 맨투맨
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 후드티/후드집업, 소분류: 후드티/후드집업
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 티셔츠, 소분류: 긴팔 티셔츠
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 블라우스, 소분류: 기타(블라우스)
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 셔츠, 소분류: 체크 셔츠
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 바지, 소분류: 슬랙스
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 청바지, 소분류: 기타(청바지)
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 반바지, 소분류: 기타(반바지)
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 가디건, 소분류: 가디건
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 니트/스웨터, 소분류: 니트/스웨터
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 셔츠, 소분류: 솔리드(단색) 셔츠
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 가디건 , 소분류: 가디건 
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 니트/스웨터, 소분류: 니트/스웨터
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 청바지, 소분류: 일자 청바지
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 반바지, 소분류: 기타(반바지)
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 자켓, 소분류: 가죽
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 정장, 소분류: 세트
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 조끼/베스트, 소분류: 니트 조끼
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 트레이닝, 소분류: 상의
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 언더웨어/홈웨어, 소분류: 언더웨어/홈웨어
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 남성의류, 중분류: 테마/이벤트, 소분류: 테마/이벤트
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

---------------------------------------------
대분류: 여성의류, 중분류: 원피스, 소분류: 롱 원피스
---------------------------------------------
CTR 예측 시작


  0%|          | 0/140 [00:00<?, ?it/s]

In [None]:
result_df

Unnamed: 0,content_id,gender,age,ctr
0,175785616,1,10,0.000303
1,120118318,1,10,0.004735
2,171055201,1,10,0.003712
3,171421179,1,10,0.012558
4,122754723,1,10,0.004395
...,...,...,...,...
1920,157019585,2,79,0.005983
1921,174793047,2,79,0.013453
1922,175836854,2,79,0.007652
1923,172639475,2,79,0.004660
