In [18]:
import sys
import os
import pandas as pd

sys.path.append(os.path.dirname(os.path.abspath(os.getcwd())))

from data_processing import *
from text_processing import normalize_text
from embedding import load_model, generate_embedding

In [19]:
# TODO: flag_sentences 전처리 및 embedding vector 생성

def process_flag_sentences(input_file: str, output_file: str) -> pd.DataFrame:
    """
    텍스트 파일 읽어와서 전처리 후 embedding vector 생성
    Args:
        - input_file: 입력 텍스트 파일 경로
        - output_file: 출력 CSV 파일 경로
    """
    data = []
    
    # 텍스트 파일을 읽어서 처리
    with open(input_file, 'r', encoding='utf-8') as file:
        for line in file:
            # 각 줄에서 첫 번째 쉼표만 기준으로 분리
            topic, sentence = line.split(',', 1)
            data.append([topic.strip(), sentence.strip()])

    # DataFrame으로 변환
    df = pd.DataFrame(data, columns=["topic", "sentence"])

    # 문장 정규화
    df['normalized_sentence'] = df['sentence'].apply(normalize_text)
    
    # 문장별 임베딩 생성
    model = load_model()
    df['embedding'] = df['normalized_sentence'].apply(
        lambda sentence: generate_embedding(model, sentence)
    )
    
    # 결과를 CSV 파일로 저장
    df.to_csv(output_file, index=False)
    
    return df

df_result = process_flag_sentences('flag_sentences.txt', 'flag_sentences_embedding.csv')
df_result



Unnamed: 0,topic,sentence,normalized_sentence,embedding
0,수업 내용,그리스 비극 작품에 대해 교수님이 제시해주시는 몇 가지 주제에 대해 토론하며 그리스...,그리스 비극 작품에 대해 교수님이 제시해 주시는 몇 가지 주제에 대해 토론하며 그리...,"[-0.20224088, -0.15938044, -1.2832941, -0.1154..."
1,수업 내용,"최적화와 미분방정식에 대해 잘 배울 수 있었고 거경동, 금계 듣기전에 들으면 좋을 ...","최적화와 미분방정식에 대해 잘 배울 수 있었고 거 경동, 금계 듣기 전에 들으면 좋...","[0.43971437, -0.32195133, 0.4378168, -0.060926..."
2,수업 내용,정말 재정학을 쉽게 공부할 수 있고 기본 베이스 탄탄하면 충분히 따라갈 수 있는 수업.,정말 재정학을 쉽게 공부할 수 있고 기본 베이스 탄탄하면 충분히 따라갈 수 있는 수업.,"[0.46927884, 0.15568912, 0.054435045, 0.028569..."
3,수업 내용,"수업내용은 공공재가 포함된 최적화된 자원의 배분, 학부생 수준의 여러 보험관련 모델...","수업내용은 공공재가 포함된 최적화된 자원의 배분, 학부생 수준의 여러 보험 관련 모...","[0.43316495, -0.41206998, -0.015462182, -0.228..."
4,수업 내용,전선 들으면서 많이 쓰게 될 행렬 계산이나 분해 등 선형대수의 기초적인 내용을 배웁니다,전선 들으면서 많이 쓰게 될 행렬 계산이나 분해 등 선형대수의 기초적인 내용을 배웁니다,"[0.20476538, -0.13527519, -0.20354806, -0.7453..."
5,로드,개인발표 한 번 있는데 부담되지 않는 정도입니다.,개인발표 한 번 있는데 부담되지 않는 정도입니다.,"[0.41946656, -0.23722848, -0.16952115, -0.4319..."
6,로드,완전 좋아요!! 부담이 안 가는 수업이 하나 있어서 편안한 한 학기 보냈습니다,정말 좋아요!! 부담이 안 가는 수업이 하나 있어서 편안한 한 학기 보냈습니다,"[0.20082153, 0.07706957, 0.1238373, -0.0154489..."
7,로드,방학때 예습하고 오면 좋음,방학 때 예습하고 오면 좋음,"[0.39516202, -0.45368055, -0.387158, 0.2297077..."
8,로드,9학점 정도의 로드라고 생각합니다,9학점 정도의 로드라고 생각합니다,"[0.42097637, 0.39000615, -0.25041512, -0.77401..."
9,로드,그리고 과제가 귀찮고 양만 많은 과제입니다.,그리고 과제가 귀찮고 양만 많은 과제입니다.,"[-0.44393656, -0.36779192, 0.3453805, 0.041896..."


In [10]:
# TODO: 강의평 각 문장들과 flag_sentences의 5개 토픽 * 5개 문장 = 25개 문장 간의 manhattan distance 계산 -> 18000 * 25개의 distance matrix 생성
def manhattan_distance(v1, v2):
    return sum(abs(v1 - v2))

def calculate_distance_matrix(review_sentences, flag_sentences):
    distance_matrix = []
    for i in range(len(review_sentences)):
        distances = []
        for j in range(len(flag_sentences)):
            distances.append(manhattan_distance(review_sentences['embedding'][i], flag_sentences['embedding'][j]))
        distance_matrix.append(distances)
    return pd.DataFrame(distance_matrix, index=review_sentences.sentence, columns=flag_sentences.sentence)

In [11]:
# TODO: 각 문장들과 토픽별 5개 문장 간의 유사도 중 최소값을 각 문장의 토픽 유사도로 사용 -> 18000 * 5개의 similarity matrix 생성


In [12]:
# TODO: 토픽별로 유사도 상위 250개 문장 추출 후 중복 제거 -> max 1250개 문장과 해당 문장의 소속 토픽 유사도 저장