# Data-preprocessing Phase

<img src='flow.png' width = 900>

데이터 수집 -> emoji2text -> tokenizing -> token_normalizing -> namenoramlizer&dataframe2json&save

---

# collections

### raw_review_tier1
- 리뷰어의 정보와 리뷰를 함께알 수 있는 리뷰 데이터
- 글로우픽, 미미박스, 파우더룸
- 사이트마다 키값이 다를 수 있음.(#는 반드시 존재하는 것.)
```
{
    "_id":ObjectId('59469013b6e8047612af5dff'),
    "product":{
        "pid":123456, #
        "pname":'오호로로', #
        "product_desc": '호롤로로롤', #
        "product_attribute": '밀착력', #
        "product_volume": 30g, #
        "product_price" : 30000w # 
        "sales": 올리브영, #
        "brandname":'아모레퍼시픽', # 
        'category':"bb크림" #
        'g,p,m/pid:각 사이트의 pid' #
    },
    "user":{
        "age":26, 
        "skin_type":'건성', #
        "concern_list":['모공','각질','건조함'],
        "repurchased":1
    },
    "review":{
        "date":datetime.datetime.now(),  #
        "score":4, #
        "text":'저는 쿨바닐라와 본을 섞어 사용하고 있습니다 면세를 갈때는 꼭 하나씩 챙기는...', #
        'text_token':['쿨바닐라','면세','사용'], #
        "tags":['지속력좋은','커버력좋은','자연스러운','촉촉한','인생템','추천템']
    }
}
```

### raw_review_tier2
- 리뷰에 대한 정보만 알 수 있는 리뷰 데이터
- 다음쇼핑, 11번가, GS, CJ, Hmall, interpark
- 사이트마다 키값이 다를 수 있음.(#는 반드시 존재하는 것.)
- 실시간 x
```
{
    "_id":ObjectId('59469013b6e8047612af5dff'),
    "product":{
        "pid":123456, #
        "pname":'오호로로', #
        "product_desc": '호롤로로롤', #
        "product_attribute": '밀착력', #
        "product_volume": 30g, #
        "product_price" : 30000w # 
        "sales": 올리브영, #
        "brandname":'아모레퍼시픽', # 
        'category':"bb크림" #
    },
    "user":{},
    "review":{
        "score":4, #
        "text":'저는 쿨바닐라와 본을 섞어 사용하고 있습니다 면세를 갈때는 꼭 하나씩 챙기는...', #
        'text_token':['쿨바닐라','면세','사용'], #
        "tags":['지속력좋은','커버력좋은','자연스러운','촉촉한','인생템','추천템']
    }
}
```

### product_DB
- 글로우픽 기반의 product_DB
- 비비, 씨씨, 파운데이션 카테고리의 제품 정보와 관련된 DB이다.
```
{
    "_id":ObjectId('59469013b6e8047612af5dff'),
    "product":{
        "pid":123456, #
        "pname":'오호로로', #
        "product_desc": '호롤로로롤', #
        "product_attribute": '밀착력', #
        "product_volume": 30g, #
        "product_price" : 30000w # 
        "sales": 올리브영, #
        "brandname":'아모레퍼시픽', # 
        'category':"bb크림" #
}
```

### normalizer
- 사이트별로 다른 제품명을 통일 시켜주는 DB
```
{
    "_id":ObjectId('59469013b6e8047612af5dff'),#
    'brandname': 'AHC(에이에이치씨)',#
    'origin': 'AHC 프리미엄 인텐스 컨튜어 밤 10ml',#
    'pname': '프리미엄 인텐스 컨튜어 밤',#
    'site': 'cj',#
}
```

In [1]:
# import module
import pandas as pd
import numpy as np
import re

from konlpy.tag import Twitter as original_Twitter
from ckonlpy.tag import Twitter
from bom_text_preprocessor import BOM_EMOJI
from bom_text_preprocessor import emoji2text
from bom_text_preprocessor import dataframe2json
from bom_text_preprocessor import pnormalizer # 'gl','powder','meme'
from pymongo import MongoClient

In [None]:
# load essential data
product_DB = ?
normalizer = ?

In [None]:
# crawled data set
review_DB

In [12]:
#### customized_twitter tokenizer
# 브랜드 이름 명사로 저장
brand_set = np.array([re.sub('[^가-힣]','',x) for x in product_DB.brandname.unique()])
brand_set = pd.Series([x for x in brand_set if x != ''])

# 특수 이름 추가
brand_set = brand_set.append(pd.Series(['비씨데이션','파데','다크닝','지속력','밀착력','피부톤','커버력','쿨톤','웜톤','결보정','코끼임']),ignore_index=True)

# 트위터 tokenizer loading 및 업로드
twitter = Twitter()
twitter.add_dictionary(brand_set,'Noun')

# 원래 tokenizer 업로드
ori_twitter = original_Twitter()

---

In [10]:
#### emoji2text
preprocessed_text = emoji2text(review_DB.text)

In [11]:
#### upper & 제품 매핑
preprocessed_text = pd.Series(preprocessed_text).apply(lambda x:x.upper())

In [13]:
#### twitter tokenizing 명사는 customized 나머지는 original
bow = preprocessed_text.apply(lambda x:','.join([ori_twitter.pos(token,stem=True,norm=True)[0][0] if pos in ['Adjective','Verb'] else token for token, pos in twitter.pos(x) if pos in ['Noun','Adjective','Verb','Alpha']]))

In [14]:
#### token normalizing 
p_normal = {'BB':'비비','CC':'씨씨','파데':'파운데이션'}
bow = bow.apply(lambda x: ','.join([p_normal[token] if token in p_normal.keys() else token for token in x.split(',')]))

In [15]:
#### add tokens to dataframe
review_DB['text_token'] = bow

In [42]:
#### merge review & product
# 글로우픽 -'gl'
# 파우더룸 - 'powder'
# 미미박스 - 'meme'
result = pnormalizer(review_DB,product_DB,normalizer,'gl')

In [48]:
#### mongoDB저장 코드
client = MongoClient("mongodb://pungdeong:pungdeong@13.125.143.101/pungdeongBOM")
db = client.pungdeongBOM
raw_review = db.raw_review_tier1 #요 collection에 쌓아라.
raw_review.insert_many(result)

<pymongo.results.InsertManyResult at 0x7f76fd7703c8>