In [6]:
import pandas as pd
from sqlalchemy import create_engine
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 데이터베이스 연결 설정 (MySQL 예시)
engine = create_engine('postgresql://user:1234@3.34.90.211:443/engdb')

# SQL 쿼리로 데이터 가져오기
query = """
SELECT sentence, word_id
FROM sent_mode_sentence
"""

# 데이터프레임으로 변환
df = pd.read_sql(query, engine)

# 문장들을 'word' 컬럼 기준으로 그룹화
grouped = df.groupby('word_id')['sentence'].apply(list).reset_index()

# 문장 간 유사도 계산 함수
def compute_similarity(sentences):
    # TF-IDF 벡터화
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(sentences)
    
    # Cosine 유사도 계산
    cosine_similarities = cosine_similarity(X)
    return cosine_similarities

# 각 단어 그룹에 대해 유사도 계산
for _, group in grouped.iterrows():
    word_id = group['word_id']
    sentences = group['sentence']
    
    # 유사도 계산
    cosine_similarities = compute_similarity(sentences)
    
    # 유사도 출력
    print(f"\n'{word_id}' 단어를 포함하는 문장들 간의 Cosine 유사도:")
    print(cosine_similarities)



'1' 단어를 포함하는 문장들 간의 Cosine 유사도:
[[1.         0.37558995 0.34271422]
 [0.37558995 1.         0.25598136]
 [0.34271422 0.25598136 1.        ]]

'2' 단어를 포함하는 문장들 간의 Cosine 유사도:
[[1.         0.7425155  0.86356673 0.25774554]
 [0.7425155  1.         0.64121168 0.27156285]
 [0.86356673 0.64121168 1.         0.22258047]
 [0.25774554 0.27156285 0.22258047 1.        ]]

'3' 단어를 포함하는 문장들 간의 Cosine 유사도:
[[1.         0.20089483 0.21806414 0.72555253]
 [0.20089483 1.         0.60513016 0.21450152]
 [0.21806414 0.60513016 1.         0.1087349 ]
 [0.72555253 0.21450152 0.1087349  1.        ]]

'4' 단어를 포함하는 문장들 간의 Cosine 유사도:
[[1.         0.05959305 0.05407547]
 [0.05959305 1.         0.51816758]
 [0.05407547 0.51816758 1.        ]]

'5' 단어를 포함하는 문장들 간의 Cosine 유사도:
[[1.        0.1025602 0.094965 ]
 [0.1025602 1.        0.4638386]
 [0.094965  0.4638386 1.       ]]

'6' 단어를 포함하는 문장들 간의 Cosine 유사도:
[[1.         0.89553242]
 [0.89553242 1.        ]]

'7' 단어를 포함하는 문장들 간의 Cosine 유사도:
[[1.         0.3361150

In [12]:
import csv

# 주어진 텍스트 문서에서 단어와 예문을 추출하고, CSV 파일에 저장하는 함수
def process_text_to_csv(input_text, output_csv):
    # 문서 데이터를 줄 단위로 나누기
    lines = input_text.strip().split('\n')

    # CSV 파일로 저장할 데이터 리스트 초기화
    data = []

    current_word = ""
    example_count = 0  # 예문 수

    # 줄을 하나씩 처리
    for line in lines:
        line = line.strip()

        if not line:  # 빈 줄은 무시
            continue

        # 첫 번째 줄은 단어 (예: mom, phone number)로 간주
        if example_count == 0:
            current_word = line.strip()  # 단어 설정
            example_count = 5  # 5개의 예문을 기대

        # 예문이 있을 경우
        elif example_count > 0:
            sentence_parts = line.split('\n')  # 문장과 의미 분리 (문장, 의미는 줄바꿈으로 구분됨)
            if len(sentence_parts) == 2:
                sentence, meaning = sentence_parts
                data.append([current_word, sentence.strip(), meaning.strip()])
                example_count -= 1  # 예문 수 감소

            if example_count == 0:
                current_word = ""  # 단어 초기화

    # CSV 파일로 저장
    try:
        with open(output_csv, mode='w', newline='', encoding='utf-8') as file:
            writer = csv.writer(file)
            writer.writerow(['word', 'final_sentence', 'sentence_meaning'])  # 헤더 작성
            writer.writerows(data)  # 문장 데이터 작성

        print(f"CSV 파일 '{output_csv}'에 저장되었습니다.")
    except Exception as e:
        print(f"파일 저장 중 오류 발생: {e}")

# 예시 텍스트 (단어와 예문)
input_text = """
mom
My mom likes to cook apple pie.
우리 엄마는 사과파이를 만드는 것을 좋아하신다.

Mom, I'm home.
엄마 나 집에 왔어요.

Does your mom likes Korean food?
너희 어머니는 한식을 좋아하시니?

Your mom's food is delicious.
너희 어머니 음식 맛있다.

I like to go shopping with my mom.
나는 엄마와 쇼핑 가는 것을 좋아한다.
"""

# CSV 파일 경로
output_csv = "output_sentences.csv"

# 함수 실행
process_text_to_csv(input_text, output_csv)


CSV 파일 'output_sentences.csv'에 저장되었습니다.
