In [1]:
import pandas as pd
import re
from konlpy.tag import Okt
from collections import Counter

# 데이터 불러오기
df = pd.read_csv('../data/unove_perfume_reviews3.csv')

# 이모티콘/이모지 제거를 포함한 텍스트 정제 함수
def clean_text(text):
    text = re.sub(r'[^\uAC00-\uD7A3\s]', '', text)  # 한글/공백 외 제거 (이모지, 특수문자 제거)
    return text

# 정제된 텍스트 컬럼 추가
df['clean_content'] = df['content'].apply(clean_text)

# 형태소 분석기 준비
okt = Okt()

# 명사만 추출해서 단어 리스트로 저장
nouns = []
for content in df['clean_content']:
    nouns += okt.nouns(content)

# 불용어 제거
stopwords = ['제품', '사용', '향', '정도', '좀', '너무', '이건', '요']  # 추가 가능
words = [word for word in nouns if word not in stopwords and len(word) > 1]

# 단어 빈도 계산
word_freq = Counter(words)

# 결과 저장
df.to_csv('../data/unove_cleaned_reviews.csv', index=False, encoding='utf-8-sig')
print("정제 완료. 저장됨: unove_cleaned_reviews.csv")


ModuleNotFoundError: No module named 'konlpy'

In [3]:
import pandas as pd
import re
from konlpy.tag import Okt
from collections import Counter

# 데이터 불러오기
df = pd.read_csv('../data/unove_perfume_reviews3.csv')

# 이모지 제거 함수
def remove_emoji(text):
    return re.sub(r'[\U00010000-\U0010ffff]', '', text)

# 텍스트 전처리
df['clean_content'] = df['content'].apply(lambda x: remove_emoji(str(x)))

# 형태소 분석
okt = Okt()
df['nouns'] = df['clean_content'].apply(lambda x: okt.nouns(x))


JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
import time
import pandas as pd
import re
import os

options = webdriver.ChromeOptions()
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

url = "https://www.oliveyoung.co.kr/store/goods/getGoodsDetail.do?goodsNo=A000000223723"
driver.get(url)
time.sleep(3)

# 상품평 탭 클릭
driver.find_element(By.CSS_SELECTOR, "li#reviewInfo a.goods_reputation").click()
time.sleep(3)

reviews = []
page = 1

while True:
    print(f"크롤링 중: {page} 페이지")
    time.sleep(2)

    review_items = driver.find_elements(By.CSS_SELECTOR, 'div.review_cont')
    if not review_items:
        print("더 이상 리뷰가 없습니다.")
        break

    for item in review_items:
        try:
            rating_text = item.find_element(By.CSS_SELECTOR, '.score_area .point').text.strip()
            rating_match = re.search(r'(\d+)점', rating_text)
            rating = int(rating_match.group(1)) if rating_match else None

            date = item.find_element(By.CSS_SELECTOR, '.score_area .date').text.strip()

            option_elems = item.find_elements(By.CSS_SELECTOR, 'p.item_option')
            option = option_elems[0].text.strip() if option_elems else ''

            content = item.find_element(By.CSS_SELECTOR, '.txt_inner').text.strip()

            reviews.append({
                'rating': rating,
                'date': date,
                'option': option,
                'content': content
            })
        except Exception as e:
            print("리뷰 데이터 추출 오류:", e)
            continue

    try:
        # 현재 페이지 번호 확인
        current_page = int(driver.find_element(By.CSS_SELECTOR, 'div.pageing strong').text)

        # 모든 페이지 링크 가져오기
        page_links = driver.find_elements(By.CSS_SELECTOR, 'div.pageing a[data-page-no]')

        next_page_clicked = False
        for link in page_links:
            if int(link.get_attribute("data-page-no")) == current_page + 1:
                link.click()
                page += 1
                next_page_clicked = True
                time.sleep(2)
                break

        # 다음 페이지로 넘어가는 링크가 없으면 다음 10페이지 버튼 클릭
        if not next_page_clicked:
            next_btns = driver.find_elements(By.CSS_SELECTOR, 'div.pageing a.next')
            if next_btns:
                next_btns[0].click()
                time.sleep(2)
            else:
                print("마지막 페이지입니다.")
                break

    except Exception as e:
        print("페이지 이동 오류:", e)
        break



df = pd.DataFrame(reviews)
df.to_csv('../data/unove_perfume_reviews3.csv', index=False, encoding='utf-8-sig')
print("크롤링 완료. 파일 저장됨: ../data/unove_perfume_reviews3.csv")

크롤링 중: 1 페이지
크롤링 중: 2 페이지
크롤링 중: 3 페이지
크롤링 중: 4 페이지
크롤링 중: 5 페이지
크롤링 중: 6 페이지
크롤링 중: 7 페이지
크롤링 중: 8 페이지
크롤링 중: 9 페이지
크롤링 중: 10 페이지
크롤링 중: 11 페이지
크롤링 중: 12 페이지
크롤링 중: 13 페이지
크롤링 중: 14 페이지
크롤링 중: 15 페이지
크롤링 중: 16 페이지
크롤링 중: 17 페이지
크롤링 중: 18 페이지
크롤링 중: 19 페이지
크롤링 중: 20 페이지
크롤링 중: 21 페이지
크롤링 중: 22 페이지
크롤링 중: 23 페이지
크롤링 중: 24 페이지
크롤링 중: 25 페이지
크롤링 중: 26 페이지
크롤링 중: 27 페이지
크롤링 중: 28 페이지
크롤링 중: 29 페이지
크롤링 중: 30 페이지
크롤링 중: 31 페이지
크롤링 중: 32 페이지
크롤링 중: 33 페이지
크롤링 중: 34 페이지
크롤링 중: 35 페이지
크롤링 중: 36 페이지
크롤링 중: 37 페이지
크롤링 중: 38 페이지
크롤링 중: 39 페이지
크롤링 중: 40 페이지
크롤링 중: 41 페이지
크롤링 중: 42 페이지
크롤링 중: 43 페이지
크롤링 중: 44 페이지
크롤링 중: 45 페이지
크롤링 중: 46 페이지
크롤링 중: 47 페이지
크롤링 중: 48 페이지
크롤링 중: 49 페이지
크롤링 중: 50 페이지
크롤링 중: 51 페이지
크롤링 중: 52 페이지
크롤링 중: 53 페이지
크롤링 중: 54 페이지
마지막 페이지입니다.
크롤링 완료. 파일 저장됨: ../data/unove_perfume_reviews3.csv


In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
import time
import pandas as pd
import re
import os

options = webdriver.ChromeOptions()
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

url = "https://www.oliveyoung.co.kr/store/goods/getGoodsDetail.do?goodsNo=A000000223723"
driver.get(url)
time.sleep(3)

# 상품평 탭 클릭
driver.find_element(By.CSS_SELECTOR, "li#reviewInfo a.goods_reputation").click()
time.sleep(3)

reviews = []
page = 1

while True:
    print(f"크롤링 중: {page} 페이지")
    time.sleep(2)

    review_items = driver.find_elements(By.CSS_SELECTOR, 'div.review_cont')
    if not review_items:
        print("더 이상 리뷰가 없습니다.")
        break

    for item in review_items:
        try:
            rating_text = item.find_element(By.CSS_SELECTOR, '.score_area .point').text.strip()
            rating_match = re.search(r'(\d+)점', rating_text)
            rating = int(rating_match.group(1)) if rating_match else None

            date = item.find_element(By.CSS_SELECTOR, '.score_area .date').text.strip()

            option_elems = item.find_elements(By.CSS_SELECTOR, 'p.item_option')
            option = option_elems[0].text.strip() if option_elems else ''

            content = item.find_element(By.CSS_SELECTOR, '.txt_inner').text.strip()

            reviews.append({
                'rating': rating,
                'date': date,
                'option': option,
                'content': content
            })
        except Exception as e:
            print("리뷰 데이터 추출 오류:", e)
            continue

    try:
        # 현재 페이지 번호 확인
        current_page = int(driver.find_element(By.CSS_SELECTOR, 'div.pageing strong').text)

        # 모든 페이지 링크 가져오기
        page_links = driver.find_elements(By.CSS_SELECTOR, 'div.pageing a[data-page-no]')

        next_page_clicked = False
        for link in page_links:
            if int(link.get_attribute("data-page-no")) == current_page + 1:
                link.click()
                page += 1
                next_page_clicked = True
                time.sleep(2)
                break

        # 다음 페이지로 넘어가는 링크가 없으면 다음 10페이지 버튼 클릭
        if not next_page_clicked:
            next_btns = driver.find_elements(By.CSS_SELECTOR, 'div.pageing a.next')
            if next_btns:
                next_btns[0].click()
                time.sleep(2)
            else:
                print("마지막 페이지입니다.")
                break

    except Exception as e:
        print("페이지 이동 오류:", e)
        break



df = pd.DataFrame(reviews)
df.to_csv('../data/unove_perfume_reviews3.csv', index=False, encoding='utf-8-sig')
print("크롤링 완료. 파일 저장됨: ../data/unove_perfume_reviews3.csv")

크롤링 중: 1 페이지
크롤링 중: 2 페이지
크롤링 중: 3 페이지
크롤링 중: 4 페이지
크롤링 중: 5 페이지
크롤링 중: 6 페이지
크롤링 중: 7 페이지
크롤링 중: 8 페이지
크롤링 중: 9 페이지
크롤링 중: 10 페이지
크롤링 중: 11 페이지
크롤링 중: 12 페이지
크롤링 중: 13 페이지
크롤링 중: 14 페이지
크롤링 중: 15 페이지
크롤링 중: 16 페이지
크롤링 중: 17 페이지
크롤링 중: 18 페이지
크롤링 중: 19 페이지
크롤링 중: 20 페이지
크롤링 중: 21 페이지
크롤링 중: 22 페이지
크롤링 중: 23 페이지
크롤링 중: 24 페이지
크롤링 중: 25 페이지
크롤링 중: 26 페이지
크롤링 중: 27 페이지
크롤링 중: 28 페이지
크롤링 중: 29 페이지
크롤링 중: 30 페이지
크롤링 중: 31 페이지
크롤링 중: 32 페이지
크롤링 중: 33 페이지
크롤링 중: 34 페이지
크롤링 중: 35 페이지
크롤링 중: 36 페이지
크롤링 중: 37 페이지
크롤링 중: 38 페이지
크롤링 중: 39 페이지
크롤링 중: 40 페이지
크롤링 중: 41 페이지
크롤링 중: 42 페이지
크롤링 중: 43 페이지
크롤링 중: 44 페이지
크롤링 중: 45 페이지
크롤링 중: 46 페이지
크롤링 중: 47 페이지
크롤링 중: 48 페이지
크롤링 중: 49 페이지
크롤링 중: 50 페이지
크롤링 중: 51 페이지
크롤링 중: 52 페이지
크롤링 중: 53 페이지
크롤링 중: 54 페이지
마지막 페이지입니다.
크롤링 완료. 파일 저장됨: ../data/unove_perfume_reviews3.csv


In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
import time
import pandas as pd
import re
import os

options = webdriver.ChromeOptions()
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

url = "https://www.oliveyoung.co.kr/store/goods/getGoodsDetail.do?goodsNo=A000000223723"
driver.get(url)
time.sleep(3)

# 상품평 탭 클릭
driver.find_element(By.CSS_SELECTOR, "li#reviewInfo a.goods_reputation").click()
time.sleep(3)

reviews = []
page = 1

while True:
    print(f"크롤링 중: {page} 페이지")
    time.sleep(2)

    review_items = driver.find_elements(By.CSS_SELECTOR, 'div.review_cont')
    if not review_items:
        print("더 이상 리뷰가 없습니다.")
        break

    for item in review_items:
        try:
            rating_text = item.find_element(By.CSS_SELECTOR, '.score_area .point').text.strip()
            rating_match = re.search(r'(\d+)점', rating_text)
            rating = int(rating_match.group(1)) if rating_match else None

            date = item.find_element(By.CSS_SELECTOR, '.score_area .date').text.strip()

            option_elems = item.find_elements(By.CSS_SELECTOR, 'p.item_option')
            option = option_elems[0].text.strip() if option_elems else ''

            content = item.find_element(By.CSS_SELECTOR, '.txt_inner').text.strip()

            reviews.append({
                'rating': rating,
                'date': date,
                'option': option,
                'content': content
            })
        except Exception as e:
            print("리뷰 데이터 추출 오류:", e)
            continue

    try:
        # 현재 페이지 번호 확인
        current_page = int(driver.find_element(By.CSS_SELECTOR, 'div.pageing strong').text)

        # 모든 페이지 링크 가져오기
        page_links = driver.find_elements(By.CSS_SELECTOR, 'div.pageing a[data-page-no]')

        next_page_clicked = False
        for link in page_links:
            if int(link.get_attribute("data-page-no")) == current_page + 1:
                link.click()
                page += 1
                next_page_clicked = True
                time.sleep(2)
                break

        # 다음 페이지로 넘어가는 링크가 없으면 다음 10페이지 버튼 클릭
        if not next_page_clicked:
            next_btns = driver.find_elements(By.CSS_SELECTOR, 'div.pageing a.next')
            if next_btns:
                next_btns[0].click()
                time.sleep(2)
            else:
                print("마지막 페이지입니다.")
                break

    except Exception as e:
        print("페이지 이동 오류:", e)
        break



df = pd.DataFrame(reviews)
df.to_csv('../data/unove_perfume_reviews3.csv', index=False, encoding='utf-8-sig')
print("크롤링 완료. 파일 저장됨: ../data/unove_perfume_reviews3.csv")

크롤링 중: 1 페이지
크롤링 중: 2 페이지
크롤링 중: 3 페이지
크롤링 중: 4 페이지
크롤링 중: 5 페이지
크롤링 중: 6 페이지
크롤링 중: 7 페이지
크롤링 중: 8 페이지
크롤링 중: 9 페이지
크롤링 중: 10 페이지
크롤링 중: 11 페이지
크롤링 중: 12 페이지
크롤링 중: 13 페이지
크롤링 중: 14 페이지
크롤링 중: 15 페이지
크롤링 중: 16 페이지
크롤링 중: 17 페이지
크롤링 중: 18 페이지
크롤링 중: 19 페이지
크롤링 중: 20 페이지
크롤링 중: 21 페이지
크롤링 중: 22 페이지
크롤링 중: 23 페이지
크롤링 중: 24 페이지
크롤링 중: 25 페이지
크롤링 중: 26 페이지
크롤링 중: 27 페이지
크롤링 중: 28 페이지
크롤링 중: 29 페이지
크롤링 중: 30 페이지
크롤링 중: 31 페이지
크롤링 중: 32 페이지
크롤링 중: 33 페이지
크롤링 중: 34 페이지
크롤링 중: 35 페이지
크롤링 중: 36 페이지
크롤링 중: 37 페이지
크롤링 중: 38 페이지
크롤링 중: 39 페이지
크롤링 중: 40 페이지
크롤링 중: 41 페이지
크롤링 중: 42 페이지
크롤링 중: 43 페이지
크롤링 중: 44 페이지
크롤링 중: 45 페이지
크롤링 중: 46 페이지
크롤링 중: 47 페이지
크롤링 중: 48 페이지
크롤링 중: 49 페이지
크롤링 중: 50 페이지
크롤링 중: 51 페이지
크롤링 중: 52 페이지
크롤링 중: 53 페이지
크롤링 중: 54 페이지
마지막 페이지입니다.
크롤링 완료. 파일 저장됨: ../data/unove_perfume_reviews3.csv


In [4]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import pandas as pd
import numpy as np

# 1. 데이터 불러오기
df = pd.read_csv('../data/unove_perfume_reviews.csv')

# 2. 모델과 토크나이저 로드
model_name = "slave-factory/kobert-emotion-classifier-v3"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# 3. 감정 레이블 정의 (모델 페이지에서 확인)
labels = ['분노', '혐오', '공포', '기쁨', '슬픔', '놀람', '중립']

# 4. 감정 예측 함수 정의
def predict_emotion(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=128)
    with torch.no_grad():
        outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=1)
    pred_label_idx = torch.argmax(probs, dim=1).item()
    return labels[pred_label_idx]

# 5. 리뷰 텍스트에 대해 감정 분류 수행
df['emotion'] = df['content'].apply(predict_emotion)

# 6. 결과 저장
df.to_csv('../data/unove_perfume_emotion.csv', index=False, encoding='utf-8-sig')
print("감정 분석 완료. 저장됨: unove_perfume_emotion.csv")


  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


감정 분석 완료. 저장됨: unove_perfume_emotion.csv
