# 제품 review 데이터의 감성 분석

***

### 목표 - 감성 분석의 기본 이해: 감성 분석이 무엇이며 그 응용에 대해 학습

- 데이터
    - (홀수) amazon_uk_shoes_products_dataset_2021_12.csv 
- 데이터 전처리: 머신 러닝 작업을 위해 데이터 전 처리하는 경험을 쌓음.
    - 데이터 정리 (노이즈 제거, 결측값 처리 등).
    - 텍스트 토큰화 및 불용어 제거.
    - 텍스트 정규화 (스테밍 또는 표제어 추출).
- 모델 구현: 수업에서 활용한 모델을 활용해서 구현.
    - 수업에서 홯용한 모델을 적용.
- 모델 학습 및 튜닝
    - 데이터셋을 학습 및 테스트 세트로 분할.
    - 모델 학습 및 하이퍼파라미터 튜닝 (예: 그리드 서치 또는 랜덤 서치 사용).
    - 교차 검증과 같은 기술을 사용하여 견고성 보장.
- 모델 평가: 적절한 지표를 사용하여 모델의 성능을 평가.
    - 정확도, 정밀도, 재현율, F1 점수 및 ROC-AUC와 같은 지표를 사용하여 모델 평가.
    - 오버피팅과 언더피팅을 논의하고 이를 해결하는 방법 학습.
- 시각화 및 해석: 결과를 시각화하고 해석
    - Matplotlib 또는 Seaborn과 같은 라이브러리를 사용하여 결과 시각화.
    - 혼동 행렬 및 ROC 곡선 생성.

***

## 데이터 전처리

### 데이터 확인
- url : 상품 URL 주소
- product_name : 상품명
- reviewer_name : 리뷰 작성자 이름
- review_title : 리뷰 제목
- review_text : 리뷰 내용
- review_rating : 리뷰 별점
- verified_purchase : 구매 확인 여부
- review_date : 리뷰 작성 날짜
- helpful_count : 리뷰가 도움이 된 사람의 수
- uniq_id : 리뷰 ID
- scraped_at : 리뷰를 가져온 시점

### 데이터 정리
- 결측치 확인
- 실제 구매자가 작성하지 않은 리뷰 제외
- 영어 리뷰만 사용

In [16]:
# 필요한 라이브러리 설치 및 다운
%pip install langdetect

from langdetect import detect
import re

import pandas as pd

Note: you may need to restart the kernel to use updated packages.


In [2]:
# 데이터 불러오기
file_path = './amazon_uk_shoes_products_dataset_2021_12.csv'
df = pd.read_csv(file_path)

In [3]:
# 결측치 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6823 entries, 0 to 6822
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   url                6823 non-null   object 
 1   product_name       6823 non-null   object 
 2   reviewer_name      6823 non-null   object 
 3   review_title       6822 non-null   object 
 4   review_text        6814 non-null   object 
 5   review_rating      6823 non-null   float64
 6   verified_purchase  6823 non-null   bool   
 7   review_date        6823 non-null   object 
 8   helpful_count      1953 non-null   object 
 9   uniq_id            6823 non-null   object 
 10  scraped_at         6823 non-null   object 
dtypes: bool(1), float64(1), object(9)
memory usage: 539.8+ KB


In [4]:
# 결측치 제거
df = df.dropna(subset=['review_title','review_text']) #review_title과 review_text열에 있는 결측치에 대해서만 전체 행 제거
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6813 entries, 0 to 6822
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   url                6813 non-null   object 
 1   product_name       6813 non-null   object 
 2   reviewer_name      6813 non-null   object 
 3   review_title       6813 non-null   object 
 4   review_text        6813 non-null   object 
 5   review_rating      6813 non-null   float64
 6   verified_purchase  6813 non-null   bool   
 7   review_date        6813 non-null   object 
 8   helpful_count      1950 non-null   object 
 9   uniq_id            6813 non-null   object 
 10  scraped_at         6813 non-null   object 
dtypes: bool(1), float64(1), object(9)
memory usage: 592.1+ KB


In [8]:
df['verified_purchase'] = df['verified_purchase'].astype(str) # 문자열 변환

# 실제 구매자가 작성하지 않은 리뷰 제외
df = df[df.verified_purchase != 'False']
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6800 entries, 0 to 6822
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   url                6800 non-null   object 
 1   product_name       6800 non-null   object 
 2   reviewer_name      6800 non-null   object 
 3   review_title       6800 non-null   object 
 4   review_text        6800 non-null   object 
 5   review_rating      6800 non-null   float64
 6   verified_purchase  6800 non-null   object 
 7   review_date        6800 non-null   object 
 8   helpful_count      1950 non-null   object 
 9   uniq_id            6800 non-null   object 
 10  scraped_at         6800 non-null   object 
dtypes: float64(1), object(10)
memory usage: 637.5+ KB


In [19]:
# 감성분석에 필요한 'review_title', 'review_text', 'review_rating' 열만 선택
df = df[['review_rating', 'review_title', 'review_text']]

In [14]:
# 영어로 된 리뷰만 남기기

# 'review_text'가 영어인 행만 남기고 나머지 제거 하는 함수 정의
def is_english(text):
    try:
        return detect(text) == 'en'
    except:
        return False

df = df[df['review_text'].apply(is_english)]
df.info()

In [17]:
# 텍스트 전처리 함수
def preprocess_text(text):
    # 소문자 변환
    text = text.lower()
    # 숫자 제거
    text = re.sub(r'\d+', '', text)
    # 연속된 공백을 하나의 공백으로 통일
    text = re.sub(r'\s+', ' ', text).strip()

    return text

# 'review_title'과 'review_text' 전처리
df['review_title'] = df['review_title'].apply(preprocess_text)
df['review_text'] = df['review_text'].apply(preprocess_text)

In [20]:
# 데이터 확인
df

Unnamed: 0,review_rating,review_title,review_text
0,5.0,love em,love these. was looking for converses and thes...
1,2.0,the plastic ripped,"the shoes are very cute, but after the nd day ..."
2,5.0,good quality,good quality
3,5.0,good,great
14,5.0,perfect right outta the box,true to size. if between i'd probably go with ...
...,...,...,...
6813,5.0,great for early walkers,the only shoes (after many tries) that worked ...
6814,3.0,three stars,too narrow hard to get on for a toddler
6815,5.0,said they were very comfortable.,my son loves them. said they were very comfort...
6816,2.0,they are smaller than other shoes the same size,size but they are smaller than the size my son...


### 데이터 토큰화

### 불용어 제거

### 데이터 정규화