In [20]:
import numpy as np
import pandas as pd
from konlpy.tag import Okt
import re

## 전처리 함수 정의

In [13]:
# Okt 객체 생성
okt = Okt()

In [None]:
# 텍스트 정제 함수 (영어, 숫자도 함께 제거됨)
def clean_text(text):
    if pd.isnull(text):
        return ""
    text = re.sub(r"[^ㄱ-ㅎ가-힣\s]", "", text)
    text = re.sub(r"\s+", " ", text)
    return text.strip()

영어, 숫자를 함께 제거한 이유  
- KoNLPy의 Okt는 한국어 최적화 분석기이기 때문에 영어/숫자가 포함되면 형태소 분석 정확도가 떨어질 수 있다고 함.

In [15]:
# 불용어 리스트 불러오기 
with open("stopwords-ko.txt", encoding="utf-8") as f:
    stopwords = set(line.strip() for line in f if line.strip())

In [16]:
# 토큰화, 불용어 제거, 어간 추출
def tokenize_and_filter(text):
    tokens = okt.morphs(text, stem=True)
    return [token for token in tokens if token not in stopwords and len(token)>1]

In [17]:
# 품사 태깅 함수
def pos_tagging(text):
    return okt.pos(text, stem=True)

## 전처리 적용

In [19]:
df = pd.read_csv("FINAL_removed.csv", encoding="utf-8")
df.head()

  df = pd.read_csv("FINAL_removed.csv", encoding="utf-8")


Unnamed: 0,brand,product_name,price_original,price_discounted,date,score,user_tags,skin_tone,user_rank,usage_duration,item_option,text_review,recommendation_score,발색력,지속력,발림성,수분감
0,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.31,1,"지성, 여름쿨톤, 모공, 블랙헤드",여름쿨톤,,,[옵션] 28 설화 딸기,컬러면에서 아주 만족했으나\n나에게 구순염을 가져다준 롬앤..\n내가 롬앤을 믿다니...,1,보통이에요,예상보다 짧아요,아주 만족해요,보통이에요
1,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.28,1,"건성, 쿨톤, 블랙헤드, 잡티",쿨톤,,,[옵션] 28 설화 딸기,저만 이 색상 쓰면 입술이 따갑고 그래요? 처음엔 제 입술이 상태가 안 좋은줄 알고...,1,보통이에요,보통이에요,보통이에요,아주 촉촉해요
2,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.14,1,"복합성, 가을웜톤, 다크서클, 모공",가을웜톤,,,[옵션] [올리브영단독]02 누카다미아,배송 상태 진짜 너무해요..\n상자 다 찢어졌는데 테이프 하나만 찍 붙혀져있고 밑에...,0,보통이에요,보통이에요,보통이에요,보통이에요
3,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.30,1,"지성, 가을웜톤, 트러블",가을웜톤,,,[옵션] [올리브영단독]02 누카다미아,색은 너무너무 예쁘지만 바르고 구순염이 생겼어요 처음 생긴건데 한번 발병하면 재발이...,1,아주 만족해요,보통이에요,다소 아쉬워요,아주 촉촉해요
4,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.01,1,"트러블성, 여름쿨톤, 각질, 모공",여름쿨톤,,,[옵션] [올리브영단독]01 포멜로 스킨,❌촉촉하지도 않고 가벼운 글로우한 텍스처\n\n❌사진처럼 탱글거리는 텍스처 절대 아...,1,다소 아쉬워요,예상보다 짧아요,다소 아쉬워요,보통이에요


In [21]:
# 텍스트 정제
df['cleaned'] = df["text_review"].apply(clean_text)
df.head()

Unnamed: 0,brand,product_name,price_original,price_discounted,date,score,user_tags,skin_tone,user_rank,usage_duration,item_option,text_review,recommendation_score,발색력,지속력,발림성,수분감,cleaned
0,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.31,1,"지성, 여름쿨톤, 모공, 블랙헤드",여름쿨톤,,,[옵션] 28 설화 딸기,컬러면에서 아주 만족했으나\n나에게 구순염을 가져다준 롬앤..\n내가 롬앤을 믿다니...,1,보통이에요,예상보다 짧아요,아주 만족해요,보통이에요,컬러면에서 아주 만족했으나 나에게 구순염을 가져다준 롬앤 내가 롬앤을 믿다니 바보같았지
1,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.28,1,"건성, 쿨톤, 블랙헤드, 잡티",쿨톤,,,[옵션] 28 설화 딸기,저만 이 색상 쓰면 입술이 따갑고 그래요? 처음엔 제 입술이 상태가 안 좋은줄 알고...,1,보통이에요,보통이에요,보통이에요,아주 촉촉해요,저만 이 색상 쓰면 입술이 따갑고 그래요 처음엔 제 입술이 상태가 안 좋은줄 알고 ...
2,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.14,1,"복합성, 가을웜톤, 다크서클, 모공",가을웜톤,,,[옵션] [올리브영단독]02 누카다미아,배송 상태 진짜 너무해요..\n상자 다 찢어졌는데 테이프 하나만 찍 붙혀져있고 밑에...,0,보통이에요,보통이에요,보통이에요,보통이에요,배송 상태 진짜 너무해요 상자 다 찢어졌는데 테이프 하나만 찍 붙혀져있고 밑에 구멍...
3,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.30,1,"지성, 가을웜톤, 트러블",가을웜톤,,,[옵션] [올리브영단독]02 누카다미아,색은 너무너무 예쁘지만 바르고 구순염이 생겼어요 처음 생긴건데 한번 발병하면 재발이...,1,아주 만족해요,보통이에요,다소 아쉬워요,아주 촉촉해요,색은 너무너무 예쁘지만 바르고 구순염이 생겼어요 처음 생긴건데 한번 발병하면 재발이...
4,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.01,1,"트러블성, 여름쿨톤, 각질, 모공",여름쿨톤,,,[옵션] [올리브영단독]01 포멜로 스킨,❌촉촉하지도 않고 가벼운 글로우한 텍스처\n\n❌사진처럼 탱글거리는 텍스처 절대 아...,1,다소 아쉬워요,예상보다 짧아요,다소 아쉬워요,보통이에요,촉촉하지도 않고 가벼운 글로우한 텍스처 사진처럼 탱글거리는 텍스처 절대 아님 발색샷...


In [22]:
# 토큰화 및 불용어 제거
df['tokens'] = df['cleaned'].apply(tokenize_and_filter)
df.head()

Unnamed: 0,brand,product_name,price_original,price_discounted,date,score,user_tags,skin_tone,user_rank,usage_duration,item_option,text_review,recommendation_score,발색력,지속력,발림성,수분감,cleaned,tokens
0,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.31,1,"지성, 여름쿨톤, 모공, 블랙헤드",여름쿨톤,,,[옵션] 28 설화 딸기,컬러면에서 아주 만족했으나\n나에게 구순염을 가져다준 롬앤..\n내가 롬앤을 믿다니...,1,보통이에요,예상보다 짧아요,아주 만족해요,보통이에요,컬러면에서 아주 만족했으나 나에게 구순염을 가져다준 롬앤 내가 롬앤을 믿다니 바보같았지,"[컬러, 아주, 만족하다, 가져다주다, 롬앤, 롬앤, 믿다, 바보]"
1,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.28,1,"건성, 쿨톤, 블랙헤드, 잡티",쿨톤,,,[옵션] 28 설화 딸기,저만 이 색상 쓰면 입술이 따갑고 그래요? 처음엔 제 입술이 상태가 안 좋은줄 알고...,1,보통이에요,보통이에요,보통이에요,아주 촉촉해요,저만 이 색상 쓰면 입술이 따갑고 그래요 처음엔 제 입술이 상태가 안 좋은줄 알고 ...,"[저만, 색상, 쓰다, 입술, 따갑다, 그렇다, 처음, 입술, 상태, 좋다, 은줄,..."
2,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.14,1,"복합성, 가을웜톤, 다크서클, 모공",가을웜톤,,,[옵션] [올리브영단독]02 누카다미아,배송 상태 진짜 너무해요..\n상자 다 찢어졌는데 테이프 하나만 찍 붙혀져있고 밑에...,0,보통이에요,보통이에요,보통이에요,보통이에요,배송 상태 진짜 너무해요 상자 다 찢어졌는데 테이프 하나만 찍 붙혀져있고 밑에 구멍...,"[배송, 상태, 진짜, 너무하다, 상자, 찢어지다, 테이프, 붙다, 구멍, 크게, ..."
3,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.30,1,"지성, 가을웜톤, 트러블",가을웜톤,,,[옵션] [올리브영단독]02 누카다미아,색은 너무너무 예쁘지만 바르고 구순염이 생겼어요 처음 생긴건데 한번 발병하면 재발이...,1,아주 만족해요,보통이에요,다소 아쉬워요,아주 촉촉해요,색은 너무너무 예쁘지만 바르고 구순염이 생겼어요 처음 생긴건데 한번 발병하면 재발이...,"[너무, 너무, 예쁘다, 바르다, 생기다, 처음, 생기다, 한번, 발병, 하다, 재..."
4,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.01,1,"트러블성, 여름쿨톤, 각질, 모공",여름쿨톤,,,[옵션] [올리브영단독]01 포멜로 스킨,❌촉촉하지도 않고 가벼운 글로우한 텍스처\n\n❌사진처럼 탱글거리는 텍스처 절대 아...,1,다소 아쉬워요,예상보다 짧아요,다소 아쉬워요,보통이에요,촉촉하지도 않고 가벼운 글로우한 텍스처 사진처럼 탱글거리는 텍스처 절대 아님 발색샷...,"[촉촉하다, 않다, 가볍다, 로우, 텍스처, 사진, 처럼, 거리, 텍스처, 절대, ..."


In [23]:
# 품사 태깅
df['pos_tags'] = df['cleaned'].apply(pos_tagging)
df.head()

Unnamed: 0,brand,product_name,price_original,price_discounted,date,score,user_tags,skin_tone,user_rank,usage_duration,item_option,text_review,recommendation_score,발색력,지속력,발림성,수분감,cleaned,tokens,pos_tags
0,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.31,1,"지성, 여름쿨톤, 모공, 블랙헤드",여름쿨톤,,,[옵션] 28 설화 딸기,컬러면에서 아주 만족했으나\n나에게 구순염을 가져다준 롬앤..\n내가 롬앤을 믿다니...,1,보통이에요,예상보다 짧아요,아주 만족해요,보통이에요,컬러면에서 아주 만족했으나 나에게 구순염을 가져다준 롬앤 내가 롬앤을 믿다니 바보같았지,"[컬러, 아주, 만족하다, 가져다주다, 롬앤, 롬앤, 믿다, 바보]","[(컬러, Noun), (면, Noun), (에서, Josa), (아주, Noun)..."
1,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.28,1,"건성, 쿨톤, 블랙헤드, 잡티",쿨톤,,,[옵션] 28 설화 딸기,저만 이 색상 쓰면 입술이 따갑고 그래요? 처음엔 제 입술이 상태가 안 좋은줄 알고...,1,보통이에요,보통이에요,보통이에요,아주 촉촉해요,저만 이 색상 쓰면 입술이 따갑고 그래요 처음엔 제 입술이 상태가 안 좋은줄 알고 ...,"[저만, 색상, 쓰다, 입술, 따갑다, 그렇다, 처음, 입술, 상태, 좋다, 은줄,...","[(저만, Modifier), (이, Noun), (색상, Noun), (쓰다, V..."
2,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.14,1,"복합성, 가을웜톤, 다크서클, 모공",가을웜톤,,,[옵션] [올리브영단독]02 누카다미아,배송 상태 진짜 너무해요..\n상자 다 찢어졌는데 테이프 하나만 찍 붙혀져있고 밑에...,0,보통이에요,보통이에요,보통이에요,보통이에요,배송 상태 진짜 너무해요 상자 다 찢어졌는데 테이프 하나만 찍 붙혀져있고 밑에 구멍...,"[배송, 상태, 진짜, 너무하다, 상자, 찢어지다, 테이프, 붙다, 구멍, 크게, ...","[(배송, Noun), (상태, Noun), (진짜, Noun), (너무하다, Ad..."
3,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.30,1,"지성, 가을웜톤, 트러블",가을웜톤,,,[옵션] [올리브영단독]02 누카다미아,색은 너무너무 예쁘지만 바르고 구순염이 생겼어요 처음 생긴건데 한번 발병하면 재발이...,1,아주 만족해요,보통이에요,다소 아쉬워요,아주 촉촉해요,색은 너무너무 예쁘지만 바르고 구순염이 생겼어요 처음 생긴건데 한번 발병하면 재발이...,"[너무, 너무, 예쁘다, 바르다, 생기다, 처음, 생기다, 한번, 발병, 하다, 재...","[(색, Noun), (은, Josa), (너무, Adverb), (너무, Adve..."
4,롬앤,[NEW/단독기획] 롬앤 더 쥬시 래스팅 틴트 (기획/단품),13000.0,11050,2025.03.01,1,"트러블성, 여름쿨톤, 각질, 모공",여름쿨톤,,,[옵션] [올리브영단독]01 포멜로 스킨,❌촉촉하지도 않고 가벼운 글로우한 텍스처\n\n❌사진처럼 탱글거리는 텍스처 절대 아...,1,다소 아쉬워요,예상보다 짧아요,다소 아쉬워요,보통이에요,촉촉하지도 않고 가벼운 글로우한 텍스처 사진처럼 탱글거리는 텍스처 절대 아님 발색샷...,"[촉촉하다, 않다, 가볍다, 로우, 텍스처, 사진, 처럼, 거리, 텍스처, 절대, ...","[(촉촉하다, Adjective), (않다, Verb), (가볍다, Adjectiv..."


## 전처리 결과 저장

In [24]:
df.to_csv("FINAL_processed.csv", index=False, encoding="utf-8-sig")