# 데이터 전처리

In [2]:
import pandas as pd
from collections import Counter
import re 

In [32]:
file_path = 'A_reviews_all_final_utf8.csv'
reviews_all_list = pd.read_csv(file_path)

# 텍스트를 정제하고 단어로 분리하는 함수를 정의합니다.
def clean_and_split(text):
    # 한글을 제외한 모든 문자를 제거합니다.
    text = re.sub(r'[^가-힣\s]', '', text)
    # 텍스트를 공백을 기준으로 단어로 분리합니다.
    words = text.split()
    return words
    
# 리뷰 코멘트를 단어로 분리하고 모든 단어를 하나의 리스트에 모읍니다.
all_words = [word for review in reviews_all_list['review_comment'].dropna() for word in clean_and_split(review)]

# 각 단어의 빈도를 계산합니다.
word_counts = Counter(all_words)

# 가장 흔한 20개 단어를 가져옵니다.
most_common_words = word_counts.most_common(20)
most_common_words

[('수', 36377),
 ('이', 26462),
 ('그', 23398),
 ('있는', 20964),
 ('책', 14774),
 ('더', 14407),
 ('책을', 14403),
 ('것', 13945),
 ('한', 12904),
 ('접기', 12419),
 ('있다', 11119),
 ('하는', 10525),
 ('잘', 10314),
 ('대한', 10305),
 ('너무', 10164),
 ('내가', 9099),
 ('나는', 8871),
 ('것이', 8121),
 ('할', 8098),
 ('다른', 8031)]

In [33]:
# 의미 없는 단어들을 담은 불용어 목록을 정의합니다.
stopwords = [ '접기']

# 리뷰에서 불용어를 제거하는 함수 정의
def remove_stopwords(text):
    words = clean_and_split(text)
    filtered_words = [word for word in words if word not in stopwords]
    return ' '.join(filtered_words)

# 리뷰 코멘트에서 불용어 제거 적용
reviews_all_list['cleaned_review_comment'] = reviews_all_list['review_comment'].dropna().apply(remove_stopwords)

# 원본 리뷰 코멘트와 정제된 리뷰 코멘트를 비교하여 처음 몇 줄을 표시
reviews_all_list[['review_comment', 'cleaned_review_comment']].head()

Unnamed: 0,review_comment,cleaned_review_comment
0,영어 공부 다시 시작해서 알아보다가 좋다고 해서 샀는데 확실히 다르더라구요 도움이 ...,영어 공부 다시 시작해서 알아보다가 좋다고 해서 샀는데 확실히 다르더라구요 도움이 ...
1,배송도빠르고좋아요 잘받았습니다 1회독 정독이 끝낫는데 한 삼회독정도 예상하고 열심히...,배송도빠르고좋아요 잘받았습니다 회독 정독이 끝낫는데 한 삼회독정도 예상하고 열심히 ...
2,그 동안 단어 및 숙어 암기하는데 시간을 많이 투자했는데 이번 해커스 토익을 통해서...,그 동안 단어 및 숙어 암기하는데 시간을 많이 투자했는데 이번 해커스 토익을 통해서...
3,몇번의 업그레이드로 보기편하고 외우기 편하게 잘 정리되어있습니다. 꼭 열심히해서 목...,몇번의 업그레이드로 보기편하고 외우기 편하게 잘 정리되어있습니다 꼭 열심히해서 목표...
4,짧은 만화가 단어랑 의미가 맞게 만들어져서 도움이 많이 되었어요! - 접기,짧은 만화가 단어랑 의미가 맞게 만들어져서 도움이 많이 되었어요


In [36]:
reviews_all_list_clean = reviews_all_list.drop('review_comment', axis=1, inplace=False)
reviews_all_list_clean.rename(columns={'cleaned_review_comment': 'review_comment'}, inplace=True)

In [15]:
reviews_all_list_clean = reviews_all_list.drop('review_comment', axis=1, inplace=True)

In [39]:
reviews_all_list_clean['review_rating'] = reviews_all_list_clean['review_rating'] * 2

In [40]:
reviews_all_list_clean

Unnamed: 0,title,item_id,isbn,a_isbn,paper_id,review_rating,review_like_count,created_at,reviewer,review_comment
0,해커스 토익 기출 VOCA (보카),176021392,9.788965e+12,8965422787,10956115,10,8,2019-07-06,캠프포얼,영어 공부 다시 시작해서 알아보다가 좋다고 해서 샀는데 확실히 다르더라구요 도움이 ...
1,해커스 토익 기출 VOCA (보카),176021392,9.788965e+12,8965422787,10749010,10,6,2019-03-21,유진,배송도빠르고좋아요 잘받았습니다 회독 정독이 끝낫는데 한 삼회독정도 예상하고 열심히 ...
2,해커스 토익 기출 VOCA (보카),176021392,9.788965e+12,8965422787,11311974,10,4,2019-11-25,에우세비오,그 동안 단어 및 숙어 암기하는데 시간을 많이 투자했는데 이번 해커스 토익을 통해서...
3,해커스 토익 기출 VOCA (보카),176021392,9.788965e+12,8965422787,11082380,10,3,2019-09-09,Taylor Swift,몇번의 업그레이드로 보기편하고 외우기 편하게 잘 정리되어있습니다 꼭 열심히해서 목표...
4,해커스 토익 기출 VOCA (보카),176021392,9.788965e+12,8965422787,13287499,10,2,2022-01-25,-,짧은 만화가 단어랑 의미가 맞게 만들어져서 도움이 많이 되었어요
...,...,...,...,...,...,...,...,...,...,...
105313,아이의 떼 거부 고집을 다루다,185979428,9.791197e+12,K412635064,10785868,10,0,2019-04-09,자작나무,블로그 보고 언젠가는 책으로 나올 거라 생각했어요 귀여운 이미지와 현실적이고 육아에...
105314,아이의 떼 거부 고집을 다루다,185979428,9.791197e+12,K412635064,14462320,10,0,2023-03-29,시고르치과,책을보고 우는 아이에 대한 접근법이 아예 바뀌었습니다 책을 짧지만 여러가지 과학적근...
105315,아이의 떼 거부 고집을 다루다,185979428,9.791197e+12,K412635064,10784516,10,0,2019-04-08,vermilly,엄청기대 드디어 책으로 나오다니 대박나세요육아 무식자 많이 배웁니다
105316,아이의 떼 거부 고집을 다루다,185979428,9.791197e+12,K412635064,10734173,10,0,2019-03-14,escapego,떡 선생님 사랑해여


In [41]:
reviews_all_list_clean.to_csv('A_reviews_all_clean_utf8.csv', index=False, encoding='utf-8')