# 태그 정리
- 파일 불러오기
- (상품명, 태그, 태그 개수) 가지는 DataFrame 구성하기
- 태그 개수 당 상품 개수 체크
- 태그 형태소 분석

### TODO:
1. review에 있는 product id의 태그만 사용하기! 나머지는 버리기

In [1]:
import pickle
import pandas as pd
import numpy as np
import glob
from tqdm import tqdm_notebook
from konlpy.tag import Twitter

pd.set_option('display.max_row', 10000)

###  tag 정보 담긴 파일 dictionary로 불러오기

In [2]:
# *.pkl 파일 이면 다 불러옴! 주의!
tag_file_list = glob.glob("../crawling/tags_txt/*.pkl")

product_dict = {}
for tag_file in tag_file_list:
    with open(tag_file, 'rb') as f:
        _product_dict = pickle.load(f)
        product_dict.update(_product_dict)
# print(product_dict)

id_tag_dict = {}
taglen_list = []
empty_tag_ids = []
for id, property in product_dict.items():
    # 지워진 상품 삭제, tag없으면 None대신 빈 list
    if property['title'] is None: continue   
    if property['tags'] is None: continue
        #property['tags'] = []
    taglen_list.append(len(property['tags']))
    property['tags'] = ' '.join(property['tags'])
    id_tag_dict[id] = property['tags']    
#print(id_tag_dict)

### (상품명, 태그, 태그 개수) 가지는 DataFrame 구성하기

In [3]:
df = pd.DataFrame.from_dict(id_tag_dict, orient='index')
#df['length'] = taglen_list
df.reset_index(inplace=True)
#df.columns = ['product_id', 'all_tags', 'tag_len']
df.columns = ['Id', 'Tags']
df.head(100)

Unnamed: 0,Id,Tags
0,2301428333,여자가방쇼핑몰 여자옷쇼핑몰추천 20대여자쇼핑몰 30대여자쇼핑몰 여자지갑추천 여자동전...
1,2757633970,독특한 프랑스감성 빈티지지갑 유니크한지갑 질이좋은 개성템 미니파우치 가죽동전지갑 코...
2,1002840624,귀여운 선물로좋은
3,2668818308,상큼포인트 엔티크한디자인 포인트가될만한 귀여운디자인 수납력이좋은 미니지갑스타일 편리...
4,1001594949,귀여운 러블리한 포인트패션
5,2522926999,심플유니크 유행타지않는 심플리티 간편한선물 간지나는디자인 수납력좋은 러블리지갑 럭셔리지갑
6,1002194299,귀여운 러블리한 고급스러운 미니멀한 일상패션
7,2218429430,카드목걸이 목걸이지갑 카드홀더 카드목걸이홀더 카드목걸이지갑 동전카드지갑 목걸이형지갑...
8,2277693792,스마일 동전지갑키링 키링악세사리 키링지갑 비비드한 튀는 개성템 키치스타일링 독특한디...
9,2833626018,화사한컬러 럭셔리아이템 흔하지않은 유니크한아이템 가방장식 레몬백참 가죽백참 선물추천...


### 태그 개수당 상품 개수

In [None]:
print("df_count_by_taglen: ")
df_count_by_taglen = df.pivot_table(index = 'tag_len', values = 'all_tags',aggfunc = len, margins=True)
df_count_by_taglen

In [20]:
# df.to_csv('../crawling/tags_txt/tags_clean.csv', encoding='utf-8')

### 태그 처리 방법1: 형태소 분석 후 BOW하기

In [6]:
twitter = Twitter()
list_tags = df['Tags'].tolist()

# Twitter 기준
useful_pos = ['Adjective', 'Noun', 'Adverb']
total_tag_list = []
useful_tag_list = []

total_tag_unique = set()
useful_tag_unique = set()

for tag in tqdm_notebook(list_tags):
    morphs = twitter.pos(tag)
    useful_tag = [item[0] for item in morphs if item[1] in useful_pos]
    total_tag_list.append(morphs)
    total_tag_unique.update(morphs)
    useful_tag_list.append(useful_tag)
    useful_tag_unique.update(useful_tag)

print("\nUseful pos: ", useful_pos)
print("number of unique morphs: ", len(total_tag_unique))
print("number of unique useful tags: ", len(useful_tag_unique))
print("coverage: %.2f%%" % (len(useful_tag_unique)/len(total_tag_unique)*100))

# string으로 바꾸기! list로 냅두면 csv로 저장시 애매해짐
for idx, useful_tag in enumerate(useful_tag_list):
    useful_tag_list[idx] = ' '.join(useful_tag)
df['Tags'] = useful_tag_list

# taglen 길이 수정
#all_tags = df2['Tags'].tolist()
#tag_len_list = [len(tag) for tag in all_tags]
#df2['tag_len'] = tag_len_list

df.head()

HBox(children=(IntProgress(value=0, max=10438), HTML(value='')))




Exception in thread Thread-5:
Traceback (most recent call last):
  File "/home/nlp908/anaconda3/envs/hwijeen_3.6/lib/python3.6/threading.py", line 916, in _bootstrap_inner
    self.run()
  File "/home/nlp908/anaconda3/envs/hwijeen_3.6/lib/python3.6/site-packages/tqdm/_monitor.py", line 62, in run
    for instance in self.tqdm_cls._instances:
  File "/home/nlp908/anaconda3/envs/hwijeen_3.6/lib/python3.6/_weakrefset.py", line 60, in __iter__
    for itemref in self.data:
RuntimeError: Set changed size during iteration





Useful pos:  ['Adjective', 'Noun', 'Adverb']
number of unique morphs:  4047
number of unique useful tags:  3543
coverage: 87.55%


Unnamed: 0,Id,Tags
0,2301428333,여자 가방 쇼핑몰 여자 옷 쇼핑몰 추천 대여 쇼핑몰 대여 쇼핑몰 여자 지갑 추천 여...
1,2757633970,독특한 프랑스 감성 빈티 지갑 유니크 지갑 질 좋 개성 템 미니 파우치 가죽 동전지...
2,1002840624,귀여운 선물 좋
3,2668818308,상큼 포인트 티크 디자인 포인트 귀여운 디자인 수납 좋 미니 지갑 스타일 편리한 지...
4,1001594949,귀여운 러블리 포인트 패션


### 빈 

In [15]:
for idx, tag in enumerate(df['Tags']):
    if len(tag) == 0:
        print(idx)

135


In [18]:
df = df.drop(135)

10437

###  태그당 상품 개수 체크(다시)

In [22]:
print("df_count_by_taglen: ")
df_count_by_taglen = df2.pivot_table(index = 'tag_len', values = 'all_tags',aggfunc = len, margins=True)
df_count_by_taglen

df_count_by_taglen: 


Unnamed: 0_level_0,all_tags
tag_len,Unnamed: 1_level_1
0,1
1,21
2,34
3,39
4,133
5,386
6,441
7,379
8,227
9,156


### 버린 태그(형태소 분석된 거) 확인

In [23]:
thrown_away = [item for item in total_tag_unique if item[1] not in useful_pos]
thrown_away[:10]

[('가긴', 'Verb'),
 ('ㅓ', 'KoreanParticle'),
 ('정하는', 'Verb'),
 ('5', 'Number'),
 ('분', 'Suffix'),
 ('운', 'Eomi'),
 ('Soft', 'Alpha'),
 ('고', 'Eomi'),
 ('업진', 'Verb'),
 ('오', 'PreEomi')]

In [17]:
df2.to_csv("../crawling/tags_txt/tags_processed.csv",
          encoding='utf-8')

### Tag vocab파일로 저장

In [28]:
unique_tag = set()
for tag in df2['Tags']:
    for token in tag.strip().split():
        unique_tag.add(token)
tag_vocab = '\n'.join(list(unique_tag))
with open('../crawling/tags_txt/tag_vocab.txt', 'w') as f:
    f.write(tag_vocab)