## Aspect, Sentiment만 남기기

In [3]:
import json
import os

def read_json_file(fp):
    with open(fp, 'r', encoding='utf-8') as f:
        data = json.load(f)
    return data

def load_json_files(dir):
    json_data_list = []

    for filename in os.listdir(dir):
        if filename.endswith('.json'):
            fp = os.path.join(dir, filename)
            json_data = read_json_file(fp)
            json_data_list.extend(json_data)
    
    return json_data_list

files_path = './absa_data/labeling_data'

all_json_data = load_json_files(files_path)

In [4]:
len(all_json_data)

49996

In [5]:
all_json_data[0]

{'Index': '215137',
 'RawText': '유통기한도 넉넉하고  구성도 많아서 선물 하기 좋네요.   만족합니다.',
 'Source': '쇼핑몰',
 'Domain': '화장품',
 'MainCategory': '스킨케어',
 'ProductName': 'OO 프리미엄 GE라인 에스테틱 패키지 13종',
 'ReviewScore': '100',
 'Syllable': '39',
 'Word': '8',
 'RDate': '20210920',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '유통기한',
   'SentimentText': '유통기한도 넉넉하고',
   'SentimentWord': '2',
   'SentimentPolarity': '1'},
  {'Aspect': '제품구성',
   'SentimentText': '구성도 많아서 선물 하기 좋네요.',
   'SentimentWord': '5',
   'SentimentPolarity': '1'}]}

In [27]:
filtered_data = [item for item in all_json_data if item.get('MainCategory') == '스킨케어']
filtered_data

[{'Index': '215137',
  'RawText': '유통기한도 넉넉하고  구성도 많아서 선물 하기 좋네요.   만족합니다.',
  'Source': '쇼핑몰',
  'Domain': '화장품',
  'MainCategory': '스킨케어',
  'ProductName': 'OO 프리미엄 GE라인 에스테틱 패키지 13종',
  'ReviewScore': '100',
  'Syllable': '39',
  'Word': '8',
  'RDate': '20210920',
  'GeneralPolarity': '1',
  'Aspects': [{'Aspect': '유통기한',
    'SentimentText': '유통기한도 넉넉하고',
    'SentimentWord': '2',
    'SentimentPolarity': '1'},
   {'Aspect': '제품구성',
    'SentimentText': '구성도 많아서 선물 하기 좋네요.',
    'SentimentWord': '5',
    'SentimentPolarity': '1'}]},
 {'Index': '215140',
  'RawText': '구성도알차고촉촉하고너무좋아용',
  'Source': '쇼핑몰',
  'Domain': '화장품',
  'MainCategory': '스킨케어',
  'ProductName': 'OO 프리미엄 GE라인 에스테틱 패키지 13종',
  'ReviewScore': '100',
  'Syllable': '15',
  'Word': '1',
  'RDate': '20210815',
  'GeneralPolarity': '1',
  'Aspects': [{'Aspect': '제품구성',
    'SentimentText': '구성도알차고',
    'SentimentWord': '1',
    'SentimentPolarity': '1'},
   {'Aspect': '보습력/수분감',
    'SentimentText': '촉촉하고너무좋아용',
    '

In [33]:
extended_data_list = []

for item in filtered_data:
    aspects_list = item.get('Aspects', [])
    for aspect in aspects_list:
        new_item = aspect.copy()
        new_item.update({'MainCategory': item['MainCategory']})
        extended_data_list.append(new_item)

In [34]:
extended_data_list

[{'Aspect': '유통기한',
  'SentimentText': '유통기한도 넉넉하고',
  'SentimentWord': '2',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '제품구성',
  'SentimentText': '구성도 많아서 선물 하기 좋네요.',
  'SentimentWord': '5',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '제품구성',
  'SentimentText': '구성도알차고',
  'SentimentWord': '1',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '보습력/수분감',
  'SentimentText': '촉촉하고너무좋아용',
  'SentimentWord': '1',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '용량',
  'SentimentText': '대용량으로 넉넉하게 사용할 수 있고',
  'SentimentWord': '5',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '자극성',
  'SentimentText': '무난하고 순한 편이네요',
  'SentimentWord': '3',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '제품구성',
  'SentimentText': '제품 구성은 좋으나 ',
  'SentimentWord': '3',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '가격',
  'SentimentText': '가격면에서 타 사이트 대비 다소 비싼 면이

In [35]:
len(extended_data_list)

60706

## 불용어 제거

In [39]:
import re

for item in extended_data_list:
    item['SentimentText'] = re.sub(r"[^가-힣| |]+", "", item['SentimentText']) # 한글만 남기기
    item['SentimentText'] = re.sub(' +', ' ', item['SentimentText']).rstrip() # 공백 연속 제거

In [40]:
extended_data_list

[{'Aspect': '유통기한',
  'SentimentText': '유통기한도 넉넉하고',
  'SentimentWord': '2',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '제품구성',
  'SentimentText': '구성도 많아서 선물 하기 좋네요',
  'SentimentWord': '5',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '제품구성',
  'SentimentText': '구성도알차고',
  'SentimentWord': '1',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '보습력/수분감',
  'SentimentText': '촉촉하고너무좋아용',
  'SentimentWord': '1',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '용량',
  'SentimentText': '대용량으로 넉넉하게 사용할 수 있고',
  'SentimentWord': '5',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '자극성',
  'SentimentText': '무난하고 순한 편이네요',
  'SentimentWord': '3',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '제품구성',
  'SentimentText': '제품 구성은 좋으나',
  'SentimentWord': '3',
  'SentimentPolarity': '1',
  'MainCategory': '스킨케어'},
 {'Aspect': '가격',
  'SentimentText': '가격면에서 타 사이트 대비 다소 비싼 면이 있

## 일의 자리 수 단위인 속성은 제거

- 스킨케어: 없음
- 헤어/바디케어: 그립감
- 메이크업/뷰티소품: 없음
- 남성화장품: 커버력, 탄력

In [None]:
# TBD

## 데이터 저장

In [42]:
import json

with open('./nlp_data/스킨케어.json', 'w', encoding='utf-8') as json_file:
    json.dump(extended_data_list, json_file, ensure_ascii=False, indent=2)