# 불용어+명사 필터링

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import joblib
from scipy.sparse import vstack
from konlpy.tag import Okt
import numpy as np

# CSV 파일 로드
data = pd.read_csv('./data/supplements_20250311.csv')  # '제품명'과 '기능성' 컬럼 사용

# KoNLPy의 Okt 객체를 사용하여 형태소 분석
okt = Okt()

# 불용어 목록을 텍스트 파일에서 읽어오기
def load_stopwords(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        stopwords = file.read().splitlines()
    return stopwords

# 불용어 리스트 로드
stop_words = load_stopwords('./data/stopwords-ko.txt')

# 텍스트 전처리 함수 (형태소 분석 및 불용어 처리)
def preprocess_text(text):
    if pd.isna(text):  # NaN 값이 있을 경우 빈 문자열로 처리
        return ''
    try:
        # 형태소 분석을 통해 명사만 추출
        nouns = okt.nouns(text)
        # 불용어 제거
        filtered_nouns = [word for word in nouns if word not in stop_words]
        return ' '.join(filtered_nouns) if filtered_nouns else ''
    except Exception as e:
        print(f"Error processing text: {text[:30]}... -> {e}")  # 텍스트 앞 30글자만 출력
        return ''

# 텍스트 전처리 (기능성 컬럼만 처리)
data['processed_text'] = data['기능성'].apply(preprocess_text)

# 불용어 제거 후 CSV 저장 (제품명 컬럼 유지)

processed_csv_path = './data/processed_supplements.csv'
data[['제품명', '기능성', 'processed_text']].to_csv(processed_csv_path, index=False, encoding='utf-8-sig')

print(f"불용어 제거 후 데이터가 {processed_csv_path}에 저장되었습니다.")

불용어 제거 후 데이터가 ./data/processed_supplements.csv에 저장되었습니다.


# 불용어 파일로만 필터링



In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import joblib
from scipy.sparse import vstack
import numpy as np

# CSV 파일 로드
data = pd.read_csv('./data/supplements_20250311.csv')  # '제품명'과 '기능성' 컬럼 사용

# 불용어 목록을 텍스트 파일에서 읽어오기
def load_stopwords(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        stopwords = file.read().splitlines()
    return stopwords

# 불용어 리스트 로드
stop_words = load_stopwords('./data/stopwords-ko.txt')

# 텍스트 전처리 함수 (불용어만 제거, 원본 문장 유지)
def preprocess_text(text):
    if pd.isna(text):  # NaN 값이 있을 경우 빈 문자열로 처리
        return ''
    try:
        words = text.split()  # 공백 기준으로 단어 분리 (전체 단어 유지)
        filtered_words = [word for word in words if word not in stop_words]  # 불용어 제거
        return ' '.join(filtered_words) if filtered_words else ''
    except Exception as e:
        print(f"Error processing text: {text[:30]}... -> {e}")  # 오류 발생 시 일부 출력
        return ''

# 텍스트 전처리 (기능성 컬럼만 처리)
data['processed_text'] = data['기능성'].apply(preprocess_text)

# 불용어 제거 후 CSV 저장 (제품명 컬럼 유지)
processed_csv_path = './data/processed_supplements.csv'
data[['제품명', '기능성', 'processed_text']].to_csv(processed_csv_path, index=False, encoding='utf-8-sig')

print(f"불용어 제거 후 데이터가 {processed_csv_path}에 저장되었습니다.")
