# 리뷰 정리
- 파일 불러오기
- (상품명, 태그, 태그 개수) 가지는 DataFrame 구성하기
- 태그 개수 당 상품 개수 체크
- 태그 형태소 분석

### TODO:
1. review에 있는 product id의 태그만 사용하기! 나머지는 버리기

In [1]:
import pickle
import pandas as pd
import numpy as np
import glob
from tqdm import tqdm_notebook
from konlpy.tag import Twitter

pd.set_option('display.max_row', 10000)

###  tag 정보 담긴 파일 dictionary로 불러오기

In [2]:
# *.txt 파일 이면 다 불러옴! 주의!
tag_file_list = glob.glob("/Users/hwii/Documents/BOAZ/project/code/크롤링/tags_txt/*.txt")

product_dict = {}
for tag_file in tag_file_list:
    with open(tag_file, 'rb') as f:
        _product_dict = pickle.load(f)
        product_dict.update(_product_dict)
# print(product_dict)

id_tag_dict = {}
taglen_list = []
for id, property in product_dict.items():
    # 지워진 상품 삭제, tag없으면 None대신 빈 list
    if property['title'] is None: continue   
    if property['tags'] is None:
        property['tags'] = []
    taglen_list.append(len(property['tags']))
    property['tags'] = ' '.join(property['tags'])
    id_tag_dict[id] = property['tags']    
#print(id_tag_dict)

### (상품명, 태그, 태그 개수) 가지는 DataFrame 구성하기

In [14]:
df = pd.DataFrame.from_dict(id_tag_dict, orient='index')
df['length'] = taglen_list
df.reset_index(inplace=True)
df.columns = ['product_id', 'all_tags', 'tag_len']
df.head(100)

Unnamed: 0,product_id,all_tags,tag_len
0,2281750372,10부레깅스 골지레깅스 기모레깅스 겨울레깅스 여자레깅스 무지레깅스 레깅스코디 9부레...,10
1,2429526499,골지레깅스 배색레깅스 여자레깅스 여자레깅스팬츠 기모레깅스 스판레깅스 겨울레깅스 밴딩...,10
2,2233663935,기모레깅스 두줄레깅스 배색레깅스 시보리레깅스 겨울레깅스 하이웨스트레깅스 레깅스팬츠 ...,9
3,2362613543,기모레깅스 여자레깅스 9부레깅스 나팔레깅스 밍크레깅스 겨울레깅스 레깅스코디 편안한코...,10
4,1003434376,피트니스웨어 바지레깅스 기느성바지 기능성레깅스 헬스장운동복 요가팬츠 여자스포츠레깅스...,10
5,2135342738,배색레깅스 10부레깅스 9부레깅스 가을레깅스 환절기레깅스 밴딩팬츠 밴딩레깅스 삥줄레...,10
6,1002962256,스포츠팬츠 반바지레깅스 반바지트레이닝복 요가레깅스 요가팬츠 요가복하의 요가복레깅스 ...,10
7,1001288822,여름레깅스 텐셀레깅스 텐셀7부레깅스 7부레깅스 얇은레깅스 시원한레깅스 쿨레깅스 부드...,10
8,1002386030,깔끔한 심플한 모던룩 세탁하기편한,4
9,1002195589,내추럴한 뉴욕스타일 세련된 시크한 스타일리쉬한,5


### 태그 개수당 상품 개수

In [4]:
print("df_count_by_taglen: ")
df_count_by_taglen = df.pivot_table(index = 'tag_len', values = 'all_tags',aggfunc = len, margins=True)
df_count_by_taglen

df_count_by_taglen: 


Unnamed: 0_level_0,all_tags
tag_len,Unnamed: 1_level_1
0,1248.0
1,38.0
2,52.0
3,116.0
4,237.0
5,1534.0
6,251.0
7,430.0
8,577.0
9,946.0


In [5]:
#df.to_csv('../tags_clean.csv', encoding='utf-8')

### 태그 처리 방법1: 형태소 분석 후 BOW하기

In [6]:
twitter = Twitter()
list_tags = df['all_tags'].tolist()

# Twitter 기준
useful_pos = ['Adjective', 'Noun', 'Adverb']
total_tag_list = []
useful_tag_list = []

total_tag_unique = set()
useful_tag_unique = set()

for tag in tqdm_notebook(list_tags):
    morphs = twitter.pos(tag)
    useful_tag = [item[0] for item in morphs if item[1] in useful_pos]
    total_tag_list.append(morphs)
    total_tag_unique.update(morphs)
    useful_tag_list.append(useful_tag)
    useful_tag_unique.update(useful_tag)

print("\nUseful pos: ", useful_pos)
print("number of unique morphs: ", len(total_tag_unique))
print("number of unique useful tags: ", len(useful_tag_unique))
print("coverage: %.2f%%" % (len(useful_tag_unique)/len(total_tag_unique)*100))

df2 = df
df2['all_tags'] = useful_tag_list

# taglen 길이 수정
all_tags = df2['all_tags'].tolist()
tag_len_list = [len(tag) for tag in all_tags]
df2['tag_len'] = tag_len_list

df2.head()

HBox(children=(IntProgress(value=0, max=11686), HTML(value='')))



Useful pos:  ['Adjective', 'Noun', 'Adverb']
number of unique morphs:  4047
number of unique useful tags:  3543
coverage: 87.55%


Unnamed: 0,product_id,all_tags,tag_len
0,2281750372,"[부, 레깅스, 골지, 레깅스, 기모, 레깅스, 겨울, 레깅스, 여자, 레깅스, 무...",21
1,2429526499,"[골지, 레깅스, 배색, 레깅스, 여자, 레깅스, 여자, 레깅스, 팬츠, 기모, 레...",21
2,2233663935,"[기모, 레깅스, 줄, 레깅스, 배색, 레깅스, 시, 보리, 레깅스, 겨울, 레깅스...",20
3,2362613543,"[기모, 레깅스, 여자, 레깅스, 부, 레깅스, 나팔, 레깅스, 밍크, 레깅스, 겨...",22
4,1003434376,"[피트니스, 웨어, 바지, 레깅스, 성, 바지, 기능, 레깅스, 헬스장, 운동복, ...",20


###  태그당 상품 개수 체크(다시)

In [9]:
print("df_count_by_taglen: ")
df_count_by_taglen = df2.pivot_table(index = 'tag_len', values = 'all_tags',aggfunc = len, margins=True)
df_count_by_taglen

df_count_by_taglen: 


Unnamed: 0_level_0,all_tags
tag_len,Unnamed: 1_level_1
0,1249.0
1,21.0
2,34.0
3,39.0
4,133.0
5,386.0
6,441.0
7,379.0
8,227.0
9,156.0


### 버린 태그(형태소 분석된 거) 확인

In [13]:
thrown_away = [item for item in total_tag_unique if item[1] not in useful_pos]
thrown_away[:10]

[('걸쳐', 'Verb'),
 ('자', 'Suffix'),
 ('얼', 'Verb'),
 ('55', 'Number'),
 ('천', 'Suffix'),
 ('죽자', 'Verb'),
 ('st', 'Alpha'),
 ('짱', 'Suffix'),
 ('오', 'Verb'),
 ('대러', 'Verb')]

In [11]:
df2.to_csv("/Users/hwii/Documents/BOAZ/project/code/크롤링/tags_txt/tags_processed.csv",
          encoding='utf-8')