#### 화장품 리뷰 분석
- 카테고리 분류 
- 긍정/부정 분류

[1] 모듈 로딩 및 데이터 준비 <hr>

In [1]:
## 모듈 로딩
import os
import pandas as pd
import json
from sklearn.preprocessing import LabelEncoder



In [2]:
TRAIN_PATH = './data/Training/'

# 여러 폴더 경로를 리스트로 저장
folder_paths = os.listdir(TRAIN_PATH)

In [3]:
# 빈 데이터프레임 리스트 생성
dataframes = []

In [4]:

# 각 폴더 내의 JSON 파일을 읽어와 데이터프레임으로 변환
for folder_path in folder_paths:
    FOLDER_PATH = TRAIN_PATH+folder_path
    print(f"Processing folder: {folder_path}")
    
    # 폴더 내의 모든 JSON 파일 리스트
    json_files = [file for file in os.listdir(FOLDER_PATH) if file.endswith('.json')]

    for file in json_files:
        file_path = os.path.join(FOLDER_PATH, file)
        print(f"Loading file: {file_path}")
        
        try:
            with open(file_path, 'r', encoding='utf-8') as f:
                data = json.load(f)
                
                # 파일 내용 확인 및 데이터프레임으로 변환
                if data:
                    # Aspects만 추출
                    for review in data:
                        aspects = pd.json_normalize(review.get('Aspects'))
                        dataframes.append(aspects)
                else:
                    print(f"No data found in {file}")
                    
        except json.JSONDecodeError:
            print(f"Error loading {file}: Invalid JSON")



Processing folder: 2-1
Loading file: ./data/Training/2-1\2-1.스킨케어(1).json
Loading file: ./data/Training/2-1\2-1.스킨케어(10).json
Loading file: ./data/Training/2-1\2-1.스킨케어(100).json
Loading file: ./data/Training/2-1\2-1.스킨케어(101).json
Loading file: ./data/Training/2-1\2-1.스킨케어(102).json
Loading file: ./data/Training/2-1\2-1.스킨케어(103).json
Loading file: ./data/Training/2-1\2-1.스킨케어(104).json
Loading file: ./data/Training/2-1\2-1.스킨케어(105).json
Loading file: ./data/Training/2-1\2-1.스킨케어(106).json
Loading file: ./data/Training/2-1\2-1.스킨케어(107).json
Loading file: ./data/Training/2-1\2-1.스킨케어(108).json
Loading file: ./data/Training/2-1\2-1.스킨케어(109).json
Loading file: ./data/Training/2-1\2-1.스킨케어(11).json
Loading file: ./data/Training/2-1\2-1.스킨케어(110).json
Loading file: ./data/Training/2-1\2-1.스킨케어(111).json
Loading file: ./data/Training/2-1\2-1.스킨케어(112).json
Loading file: ./data/Training/2-1\2-1.스킨케어(113).json
Loading file: ./data/Training/2-1\2-1.스킨케어(114).json
Loading file: ./data/Traini

In [5]:
# 데이터프레임 결합
if dataframes:
    final_dataframe = pd.concat(dataframes, ignore_index=True)
    print(final_dataframe)
else:
    print("No valid dataframes to concatenate.")
final_dataframe.to_csv('./DATA/IT_reivew.csv')

         Aspect         SentimentText SentimentWord SentimentPolarity
0          유통기한            유통기한도 넉넉하고             2                 1
1          제품구성    구성도 많아서 선물 하기 좋네요.             5                 1
2          제품구성                구성도알차고             1                 1
3       보습력/수분감             촉촉하고너무좋아용             1                 1
4            용량   대용량으로 넉넉하게 사용할 수 있고             5                 1
...         ...                   ...           ...               ...
115831  편의성/활용성     간편하게 하나만 발라도 되어서              4                 1
115832        향            향기도 끝내줍니다.             2                 1
115833        향             좋아하는 향이라              2                 1
115834       가격  할인이 없어서 비싸게 처음 구매했어요             5                -1
115835        향             향이 많이 진해서             3                -1

[115836 rows x 4 columns]


In [6]:
final_dataframe

Unnamed: 0,Aspect,SentimentText,SentimentWord,SentimentPolarity
0,유통기한,유통기한도 넉넉하고,2,1
1,제품구성,구성도 많아서 선물 하기 좋네요.,5,1
2,제품구성,구성도알차고,1,1
3,보습력/수분감,촉촉하고너무좋아용,1,1
4,용량,대용량으로 넉넉하게 사용할 수 있고,5,1
...,...,...,...,...
115831,편의성/활용성,간편하게 하나만 발라도 되어서,4,1
115832,향,향기도 끝내줍니다.,2,1
115833,향,좋아하는 향이라,2,1
115834,가격,할인이 없어서 비싸게 처음 구매했어요,5,-1


In [7]:
# 	SentimentWord 컬럼 드랍
df_dropped = final_dataframe.drop(columns=['SentimentWord'])

[2] 카테고리 인코딩<hr>

In [8]:
# Aspect 인코딩하기

# LabelEncoder 객체 생성
label_encoder = LabelEncoder()

# '카테고리' 컬럼 라벨링
df_dropped['Aspect_label'] = label_encoder.fit_transform(df_dropped['Aspect'])

df_dropped

Unnamed: 0,Aspect,SentimentText,SentimentPolarity,Aspect_label
0,유통기한,유통기한도 넉넉하고,1,25
1,제품구성,구성도 많아서 선물 하기 좋네요.,1,29
2,제품구성,구성도알차고,1,29
3,보습력/수분감,촉촉하고너무좋아용,1,10
4,용량,대용량으로 넉넉하게 사용할 수 있고,1,22
...,...,...,...,...
115831,편의성/활용성,간편하게 하나만 발라도 되어서,1,38
115832,향,향기도 끝내줍니다.,1,41
115833,향,좋아하는 향이라,1,41
115834,가격,할인이 없어서 비싸게 처음 구매했어요,-1,0


[3] 'SentimentText' 컬럼 토큰화 <hr>

In [9]:
# 모듈 로딩
from konlpy.tag import Okt
import re
from sklearn.feature_extraction.text import  CountVectorizer, TfidfVectorizer

In [10]:
# Okt 객체 생성
okt = Okt()

In [11]:
# 구두점 제거 함수 정의
def remove_punctuation(text):
    return re.sub(r'[^\w\s]', '', text)

In [12]:
# 'SentimentText' 컬럼을 토큰화하여 리스트에 저장

SentimentText_list = list()
for token in df_dropped['SentimentText']:
    SentimentText_list.append(okt.morphs(remove_punctuation(token)))
type(SentimentText_list[0])

KeyboardInterrupt: 

In [None]:
SentimentText_list

In [None]:
# 최대 문자열 길이 계산
max_length = max(len(s) for s in SentimentText_list)

print("최대 문자열 길이:", max_length)

[4] 단어사전 만들기 <hr>

In [None]:
# 리스트의 리스트를 튜플로 변환 후 중복 제거
vocab = list(set(tuple(item) for sublist in SentimentText_list for item in sublist))

print(vocab)

In [None]:
vocab

In [None]:
단어사전 만들기
-> 토큰 정수화
-> 정수화 토큰 패딩
-> 학습