## 라이브러리 설치

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
cd /content/drive/MyDrive

/content/drive/MyDrive


In [None]:
!git clone https://github.com/lovit/customized_konlpy.git
!pip install customized_konlpy

In [2]:
import json
import re
import pickle
import numpy as np
import pandas as pd
from sklearn.model_selection import GridSearchCV
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.svm import OneClassSVM
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix 
from sklearn.metrics import classification_report
import ckonlpy
from ckonlpy.tag import Twitter
from ckonlpy.tag import Postprocessor
from ckonlpy.utils import load_wordset

In [3]:
twitter = ckonlpy.tag.Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


### Customized Konlpy로 사전에 단어 추가

In [4]:
with open('dictionary.pkl', 'rb') as f:
    dict_toadd = pickle.load(f)
for i in dict_toadd:
    twitter.add_dictionary(i,'Noun')

In [None]:
# passtags = {'Noun', 'Verb', 'Adjective', 'Adverb'}
# tokenizer = Postprocessor(base_tagger=twitter, passtags=passtags)
tokenizer = Postprocessor(base_tagger=twitter) # 품사 필터링 OFF

## 글로우픽 데이터 불러오기

In [None]:
with open('/content/drive/MyDrive/colab/train_prepro.json', 'r', encoding='utf-8') as f:
    total_train = json.load(f, strict=False)
total_train = pd.DataFrame(total_train)
total_train = total_train.sample(frac=1).reset_index(drop=True)
total_train['label'] = total_train['label'].astype(float)
total_train['label'] = total_train['label'].astype(int)

In [None]:
glow_test = total_train[20000:23000]

In [None]:
total_train = total_train[:16055]  # train data 10000개만 사용

In [None]:
total_train['label'].value_counts()

1    16055
Name: label, dtype: int64

## 다른 플랫폼 데이터 불러오기 (인스타그램, 유튜브, 파우더룸, 블로그)

In [None]:
with open('/content/drive/MyDrive/colab/test_prepro.json', 'r', encoding='utf-8') as f:
    total_test = json.load(f, strict=False)
total_test = pd.DataFrame(total_test)
total_test = total_test.sample(frac=1).reset_index(drop=True)
total_test['label'] = total_test['label'].astype(float)
total_test['label'] = total_test['label'].astype(int)

In [None]:
total_test.loc[(total_test['label']==0),'label'] = -1

In [None]:
# total_test_pos = total_test[total_test['label'] == 1.]
# total_test_neg = total_test[total_test['label'] == -1.]

In [None]:
# train_pos_sampled = total_train.sample(frac=0.035)
# train_pos_remain = total_train.drop(train_pos_sampled.index)
# test_pos_sampled = total_test_pos.sample(frac=0.5)
# test_pos_remain = total_test_pos.drop(test_pos_sampled.index)

In [None]:
# total_train  = pd.concat([total_train, test_pos_sampled], axis=0).reset_index(drop=True)
# # total_train  = pd.concat([train_pos_remain, test_pos_sampled], axis=0).reset_index(drop=True) # 
# # total_test  = pd.concat([test_pos_remain, train_pos_sampled, total_test_neg], axis=0).reset_index(drop=True) # 테스트 데이터에 글로우픽 데이터를 포함.
# total_test  = pd.concat([test_pos_remain, total_test_neg], axis=0).reset_index(drop=True) # 테스트 데이터에 글로우픽 데이터를 포함하지 않음.

In [None]:
total_test = total_test.sort_values('label',ascending=False)

In [None]:
other_train = total_test[:3945]

In [None]:
other_test = total_test[3945:]

In [None]:
total_train = pd.concat([total_train, other_train])

In [None]:
total_train = total_train.sample(frac=1)
total_test = other_test.sample(frac=1)

In [None]:
print(total_train['label'].value_counts())
print(total_test['label'].value_counts())

1    20000
Name: label, dtype: int64
-1    3152
Name: label, dtype: int64


In [None]:
train_text = total_train['text'].tolist()
train_labels = total_train['label'].tolist()
test_text = total_test['text'].tolist()
test_labels = total_test['label'].tolist()

In [None]:
X = total_train['text']
y = total_train['label']

In [None]:
stopwords=['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로',
           '자','에','와','한','하다','그리고','넘','네','을','랑','예요','오','여서','이에요','데',
           '에게','에서','라서','이라서','에요','와','만','나','로','이랑','내','엔','아','부터','수',
           '때','거','다','이다','이나','에도','것','고','게','인데','제','까지','에는','엔','이라'
          '약간','오늘','점','없이','자꾸','알','있','다니','또','어','딱','걍','더','중','니','저','면','듯']

In [None]:
def tokenize_text(sample) :
    tokenized_corpus = []
    for sentence in sample:
        tmp = [i[0] for i in  tokenizer.pos(sentence)  if not i[0] in stopwords] 
        tokenized_corpus .append(' '.join(tmp))
    return tokenized_corpus

In [None]:
train_corp =tokenize_text(train_text)
test_corp = tokenize_text(test_text)

In [None]:
drop_train = [idx for idx, sentence in enumerate(train_corp) if len(sentence) < 1]
X_train = np.delete(train_corp, drop_train, axis=0)
y_train = np.delete(train_labels, drop_train, axis=0)
y_train
print(len(X_train))
print(len(y_train))

19991
19991


In [None]:
drop_test = [idx for idx, sentence in enumerate(test_corp) if len(sentence) < 1]
X_test = np.delete(test_corp, drop_test, axis=0)
y_test = np.delete(test_labels, drop_test, axis=0)
print(len(X_test))
print(len(y_test))

3148
3148


In [None]:
min_count = 5
min_count_vectorizer = 4 # uni말고도 다른 토큰들의 최소 등장 횟수
ngram_range = (1, 2)

In [None]:
vectorizer = TfidfVectorizer(min_df=min_count,  ngram_range=ngram_range)
emb = vectorizer.fit_transform(X_train)
vocab = vectorizer.vocabulary_

In [None]:
def ngram_emb(corpus, min_count_ngram, min_count_vectorizer, ngram_range, vocab):
  new_vectorizer = TfidfVectorizer(min_df=min_count_vectorizer, vocabulary=vocab)
  emb = new_vectorizer.fit_transform(corpus)
  return emb

In [None]:
train_matrix = emb
test_matrix = ngram_emb(X_test,min_count, min_count_vectorizer, ngram_range, vocab)

In [None]:
print(train_matrix.shape)
print(test_matrix.shape)

(32389, 31729)
(5076, 31729)


In [None]:
print(train_matrix.shape)
print(test_matrix.shape)

(19991, 29409)
(3148, 29409)


In [None]:
def tfidfmatrix(corpus):
    vector = CountVectorizer(decode_error="replace")
    train_matrix = vector.fit_transform(train_corp)
    pickle.dump(vector.vocabulary_,open("feature.pkl","wb"))

    transformer = TfidfTransformer()
    loaded_vec = CountVectorizer(decode_error="replace",vocabulary=pickle.load(open("feature.pkl", "rb")))
    tfidf = transformer.fit_transform(loaded_vec.fit_transform(np.array(corpus)))

    return tfidf

In [None]:
# vector = CountVectorizer(decode_error="replace")
# total_matrix = vector.fit_transform(train_corp)
# pickle.dump(vector.vocabulary_,open("/content/drive/MyDrive/colab/feature.pkl","wb"))

In [None]:
# col_names = vectorizer.get_feature_names()
# emb_df = pd.DataFrame(test_matrix.toarray(), columns=col_names); emb_df.iloc[:10, :10]

Unnamed: 0,가가,가게,가게 음영,가격,가격 가격,가격 가성비,가격 가지,가격 각하,가격 괜찮고,가격 괜찮은
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


## OneclassSVM 

In [None]:
gamma = 0.01
nu = 0.15

In [None]:
clf = OneClassSVM(kernel='linear', gamma=gamma ,nu=nu)

In [None]:
clf.fit(train_matrix, y_train)
y_pred_train = clf.predict(train_matrix)

In [None]:
y_test = y_test.astype(float)
y_test = y_test.astype(int)
y_pred_train = y_pred_train.astype(int)
y_train = y_train.astype(float)
y_train = y_train.astype(int)

In [None]:
print('train data (글로우픽 외 다른 플랫폼 데이터 ):')
print(other_train['label'].value_counts())
print('최종 train data:')
print(total_train['label'].value_counts())
print('최종 test data:')
print(total_test['label'].value_counts())
print('Data shape: ')
print(train_matrix.shape)
print(test_matrix.shape)
print('Settings: ')
# print('min_count: ', min_count)
# print('ngram_range: ', ngram_range)
print('gamma: ', gamma)
print('nu: ', nu)
y_pred_test = clf.predict(test_matrix)
results = confusion_matrix(y_test, y_pred_test)
print('Confusion Matrix :')
print(results) 
print('Accuracy Score for train: {:.2f} %'.format(accuracy_score(y_train, y_pred_train)*100)) 
print('Accuracy Score for test: {:.2f} %'.format(accuracy_score(y_test, y_pred_test)*100)) 
print(classification_report(y_test, y_pred_test))

train data (글로우픽 외 다른 플랫폼 데이터 ):
1    3000
Name: label, dtype: int64
최종 train data:
1    20000
Name: label, dtype: int64
최종 test data:
-1    3152
 1     945
Name: label, dtype: int64
Data shape: 
(19990, 29800)
(4093, 29800)
Settings: 
gamma:  0.01
nu:  0.25
Confusion Matrix :
[[2524  624]
 [ 406  539]]
Accuracy Score for train: 75.01 %
Accuracy Score for test: 74.84 %
              precision    recall  f1-score   support

          -1       0.86      0.80      0.83      3148
           1       0.46      0.57      0.51       945

    accuracy                           0.75      4093
   macro avg       0.66      0.69      0.67      4093
weighted avg       0.77      0.75      0.76      4093



## 예측값 확인

In [None]:
i = 25
j = 80

In [None]:
print(test_text[i])
print('실제 label: {}'.format(test_labels[i]))
print('예측 label: {}'.format(y_pred_test[i]))

print(test_text[j])
print('실제 label: {}'.format(test_labels[j]))
print('예측 label: {}'.format(y_pred_test[j]))

나사줘 로즈
실제 label: 1
예측 label: -1
볼때마다 느끼지만 고소영님 닮으심
실제 label: -1
예측 label: -1


### 모델 저장

In [None]:
pickle.dump(clf, open('/content/drive/MyDrive/colab/model_nu15.pkl','wb'))

In [None]:
pickle.dump(clf, open('/content/drive/MyDrive/colab/model_nu2.pkl','wb'))

In [None]:
pickle.dump(clf, open('/content/drive/MyDrive/colab/model_nu25.pkl','wb'))

### 모델 로드

In [None]:
clf_loaded1 = pickle.load(open('/content/drive/MyDrive/colab/model_nu15.pkl', 'rb'))

In [None]:
clf_loaded2 = pickle.load(open('/content/drive/MyDrive/colab/model_nu2.pkl', 'rb'))

In [None]:
clf_loaded3 = pickle.load(open('/content/drive/MyDrive/colab/model_nu25.pkl', 'rb'))

In [None]:
y_pred_test_new1 = clf_loaded1.predict(test_matrix)

In [None]:
y_pred_test_new2 = clf_loaded2.predict(test_matrix)

In [None]:
y_pred_test_new3 = clf_loaded3.predict(test_matrix)

#### 학습된 모델의 countvectorizer 결과와 차원 동일하게 맞춰주기 위한 함수 추가

In [None]:
def test_tfidfmatrix(corpus):
    transformer = TfidfTransformer()
    loaded_vec = CountVectorizer(decode_error="replace",vocabulary=pickle.load(open("/content/drive/MyDrive/colab/feature.pkl", "rb")))
    tfidf = transformer.fit_transform(loaded_vec.fit_transform(np.array(corpus)))
    return tfidf

In [None]:
test_matrix = test_tfidfmatrix(X_test)

#### nu = 1.5 모델로 예측한 결과

In [None]:
for i in range(50):
  print('{}번째 예측값 : '.format(i+1))
  print(test_text[i])
  print(y_pred_test_new1[i])

1번째 예측값 : 
그쵸 뽀용뽀용 사랑
-1
2번째 예측값 : 
오늘도 재밌게 보고 갑니다  나중에 아오모리현의 스기사와 마을 괴담도 다뤄주실 수 있나요
-1
3번째 예측값 : 
내가 팔로하는사람이다 대박
1
4번째 예측값 : 
좋은 내용 잘 봤어요들렸다가요   저는 패션쪽 블로거에요
-1
5번째 예측값 : 
코덕 코덕맞팔 코덕소통 화장품추천 화장품
-1
6번째 예측값 : 
인호형님 화장품 좋은거 알려주셔서 감사합니다
-1
7번째 예측값 : 
안녕하세용  우와 포스팅 대박 잘보고가요 이제 월이네용  다가올 봄날도 기대되네용자주 소통하고 좋은 정보 서로 공유해요
1
8번째 예측값 : 
진짜 너무 공주공주 미쳤냐구용 전부터 꾸준히 본 사람으로써 루씨님 긴머리 머죠  진짜 너무 예쁘고 롬앤 신상 팔레트도 진짜 루씨님이랑 너무 찰떡이에용
1
9번째 예측값 : 
너무 기다렸던 컨실러 펜슬 영상
1
10번째 예측값 : 
정말루 솔직하게 작성하신 로블님늘 믿고봐유
-1
11번째 예측값 : 
와   메이크업 넘 제 스타일이에요   넘 잘어울리시고 넘 예뻐요
1
12번째 예측값 : 
오 야 존나 이쁜데
-1
13번째 예측값 : 
하 미쳨 다 미쳤다 어쩌지 어떻게 보냐구 아 떨려
-1
14번째 예측값 : 
좋은 정보 감사해용
1
15번째 예측값 : 
진짜 자기만의 스타일 찾고 그 스타일이 미치게 어울린다는게 너무 부럽다 그래서 사랑해요 언니
1
16번째 예측값 : 
와  재밌는 콜라보네요 엄청 흥미롭게 봤습니다
-1
17번째 예측값 : 
헐 바르다 김선생 저가 엄청 좋아하는 곳인데 로하님도 맛있게 드셨을지 모르겠어요   흐뭇하게 영상 처음부터 끝까지 봐버렸네요 건강한 출산 기원해요
1
18번째 예측값 : 
입술 너무 예뽀요
1
19번째 예측값 : 
김첨지의럭키데이 그쵸 아마 생소한 브랜드이실 수도 있어요 근데 전 되게 애정하는 브랜드입니당
1
20번째 예측값 : 
오오 궁금하네요
-1
21번째 예측값 : 
오 왕 편해보여요  커플룩 좋아하는 울 커플에게도 잘 어울릴듯 크크
-1

#### nu = 2 인 모델로 예측한 결과

In [None]:
for i in range(50):
  print('{}번째 예측값 : '.format(i+1))
  print(test_text[i])
  print(y_pred_test_new2[i])

1번째 예측값 : 
그쵸 뽀용뽀용 사랑
-1
2번째 예측값 : 
오늘도 재밌게 보고 갑니다  나중에 아오모리현의 스기사와 마을 괴담도 다뤄주실 수 있나요
-1
3번째 예측값 : 
내가 팔로하는사람이다 대박
1
4번째 예측값 : 
좋은 내용 잘 봤어요들렸다가요   저는 패션쪽 블로거에요
-1
5번째 예측값 : 
코덕 코덕맞팔 코덕소통 화장품추천 화장품
-1
6번째 예측값 : 
인호형님 화장품 좋은거 알려주셔서 감사합니다
-1
7번째 예측값 : 
안녕하세용  우와 포스팅 대박 잘보고가요 이제 월이네용  다가올 봄날도 기대되네용자주 소통하고 좋은 정보 서로 공유해요
1
8번째 예측값 : 
진짜 너무 공주공주 미쳤냐구용 전부터 꾸준히 본 사람으로써 루씨님 긴머리 머죠  진짜 너무 예쁘고 롬앤 신상 팔레트도 진짜 루씨님이랑 너무 찰떡이에용
1
9번째 예측값 : 
너무 기다렸던 컨실러 펜슬 영상
1
10번째 예측값 : 
정말루 솔직하게 작성하신 로블님늘 믿고봐유
-1
11번째 예측값 : 
와   메이크업 넘 제 스타일이에요   넘 잘어울리시고 넘 예뻐요
1
12번째 예측값 : 
오 야 존나 이쁜데
-1
13번째 예측값 : 
하 미쳨 다 미쳤다 어쩌지 어떻게 보냐구 아 떨려
-1
14번째 예측값 : 
좋은 정보 감사해용
-1
15번째 예측값 : 
진짜 자기만의 스타일 찾고 그 스타일이 미치게 어울린다는게 너무 부럽다 그래서 사랑해요 언니
1
16번째 예측값 : 
와  재밌는 콜라보네요 엄청 흥미롭게 봤습니다
-1
17번째 예측값 : 
헐 바르다 김선생 저가 엄청 좋아하는 곳인데 로하님도 맛있게 드셨을지 모르겠어요   흐뭇하게 영상 처음부터 끝까지 봐버렸네요 건강한 출산 기원해요
1
18번째 예측값 : 
입술 너무 예뽀요
1
19번째 예측값 : 
김첨지의럭키데이 그쵸 아마 생소한 브랜드이실 수도 있어요 근데 전 되게 애정하는 브랜드입니당
1
20번째 예측값 : 
오오 궁금하네요
-1
21번째 예측값 : 
오 왕 편해보여요  커플룩 좋아하는 울 커플에게도 잘 어울릴듯 크크
-

#### nu = 2.5 인 모델로 예측한 결과

In [None]:
for i in range(50):
  print('{}번째 예측값 : '.format(i+1))
  print(test_text[i])
  print(y_pred_test_new3[i])

1번째 예측값 : 
그쵸 뽀용뽀용 사랑
-1
2번째 예측값 : 
오늘도 재밌게 보고 갑니다  나중에 아오모리현의 스기사와 마을 괴담도 다뤄주실 수 있나요
-1
3번째 예측값 : 
내가 팔로하는사람이다 대박
1
4번째 예측값 : 
좋은 내용 잘 봤어요들렸다가요   저는 패션쪽 블로거에요
-1
5번째 예측값 : 
코덕 코덕맞팔 코덕소통 화장품추천 화장품
-1
6번째 예측값 : 
인호형님 화장품 좋은거 알려주셔서 감사합니다
-1
7번째 예측값 : 
안녕하세용  우와 포스팅 대박 잘보고가요 이제 월이네용  다가올 봄날도 기대되네용자주 소통하고 좋은 정보 서로 공유해요
1
8번째 예측값 : 
진짜 너무 공주공주 미쳤냐구용 전부터 꾸준히 본 사람으로써 루씨님 긴머리 머죠  진짜 너무 예쁘고 롬앤 신상 팔레트도 진짜 루씨님이랑 너무 찰떡이에용
1
9번째 예측값 : 
너무 기다렸던 컨실러 펜슬 영상
1
10번째 예측값 : 
정말루 솔직하게 작성하신 로블님늘 믿고봐유
-1
11번째 예측값 : 
와   메이크업 넘 제 스타일이에요   넘 잘어울리시고 넘 예뻐요
1
12번째 예측값 : 
오 야 존나 이쁜데
-1
13번째 예측값 : 
하 미쳨 다 미쳤다 어쩌지 어떻게 보냐구 아 떨려
-1
14번째 예측값 : 
좋은 정보 감사해용
-1
15번째 예측값 : 
진짜 자기만의 스타일 찾고 그 스타일이 미치게 어울린다는게 너무 부럽다 그래서 사랑해요 언니
1
16번째 예측값 : 
와  재밌는 콜라보네요 엄청 흥미롭게 봤습니다
-1
17번째 예측값 : 
헐 바르다 김선생 저가 엄청 좋아하는 곳인데 로하님도 맛있게 드셨을지 모르겠어요   흐뭇하게 영상 처음부터 끝까지 봐버렸네요 건강한 출산 기원해요
-1
18번째 예측값 : 
입술 너무 예뽀요
1
19번째 예측값 : 
김첨지의럭키데이 그쵸 아마 생소한 브랜드이실 수도 있어요 근데 전 되게 애정하는 브랜드입니당
1
20번째 예측값 : 
오오 궁금하네요
-1
21번째 예측값 : 
오 왕 편해보여요  커플룩 좋아하는 울 커플에게도 잘 어울릴듯 크크
