In [None]:
import re
import pandas as pd

from konlpy.tag import Okt
from pykospacing import Spacing
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
spacing = Spacing()

def preprocessing(text):                                                                                    # CountVectorizer는 문장 형태로 가져와야 함.
    return text

def get_stopwords():                                                                                        # 불용어 리스트 가져오기
    stopwords = set()
    with open('../../../data/stopwords-ko.txt', 'r', encoding='utf-8') as file:
        for line in file:
            stopwords.add(line.strip())
    return stopwords

def morph_and_remove_stopwords(text, stopwords):                                                            # 형태소 분석 및 불용어 제거 함수
    text = preprocessing(text)
    okt = Okt()                                                                                             # 형태소 분석기 초기화
    morphs = okt.morphs(text)
    meaningful_words = [word for word in morphs if word not in stopwords]                                   # 불용어 제거
    return meaningful_words

In [None]:
stopwords = get_stopwords()                                                                                 # 불용어 리스트 가져오기
df = pd.read_csv(r'..\..\..\data\combined_questions.csv', encoding='cp949')                                 # 분석할 파일 불러오기.
df['processed_feature'] = df['feature'].apply(lambda x: ' '.join(morph_and_remove_stopwords(x, stopwords))) # 데이터프레임의 'feature' 열에 대해 형태소 분석 및 불용어 제거 적용

In [None]:
vectorizer = TfidfVectorizer()                                                                              # TfidfVectorizer를 사용하여 TF-IDF 모델 생성
X = vectorizer.fit_transform(df['processed_feature'])                                                       # 각 문장을 벡터화

tfidf_df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())
df_tfidf = pd.concat([df, tfidf_df], axis=1)