fasttext

In [2]:
import fasttext
import fasttext.util
import numpy as np

# 사전 훈련된 한글 모델 다운로드
fasttext.util.download_model('ko', if_exists='ignore')
ft = fasttext.load_model('cc.ko.300.bin')

# 두 형용사 "좋은"과 "훌륭한"의 벡터 가져오기
vec1 = ft.get_word_vector("밝은")
vec2 = ft.get_word_vector("경쾌한")

# 코사인 유사도 계산
cosine_similarity = vec1.dot(vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

print(f"Cosine similarity between '밝은' and '경쾌한': {cosine_similarity}")

Cosine similarity between '밝은' and '경쾌한': 0.2880101501941681




In [5]:
# 두 형용사 벡터
vec1 = ft.get_word_vector("좋")
vec2 = ft.get_word_vector("경쾌한")

# 코사인 유사도 계산
cosine_similarity = vec1.dot(vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

print(cosine_similarity)

0.06803791


In [7]:
from konlpy.tag import Kkma

def extract_va(sen):
    kkma = Kkma()


    # 형태소 분석 (품사 태깅 포함)
    tagged_words = kkma.pos(sen)

    # 형용사만 추출
    # Kkma 형태소 분석기의 품사 태그 중 'VA'가 형용사에 해당
    adj_list = [word for word, tag in tagged_words if tag == 'VA']
    
    return adj_list

In [8]:
import re

def split_text(raw_file):
    raw_text = ''
    
    if raw_file[-4:]=='html':
        with open(raw_file, 'r', encoding='utf-8') as html_file:
            raw_text = html_file.read()
        print("\n html 파일 읽기", type(raw_text))
    
    else: 
        file = open(raw_file, 'r',encoding='UTF8')    #인코딩 안바꾸면 오류
        raw_text = file.readlines()
        print("\n txt 파일 읽기",  type(raw_text))
    
    textsum = '' 
    if isinstance(raw_text, list):
        #줄바꿈제거
        for sentence in raw_text:
            sentence = sentence.replace("\n", "")
            textsum += sentence
    else:
        textsum=raw_text
        
    print("총 길이",len(textsum))

    #(한자) 제거    
    textsum = re.sub('\([^)]*\)|[一-龥]', '', textsum)
    
    #문장 단위로 분리: . ”로 끝날때마다 묶어주기
    text = []
    s, e = 0, 0
    isopen = False #쌍따옴표 안에 글자인지 확인
    for i in range(len(textsum)-1):
        if textsum[i]=='“':
            isopen = True
            continue
            
        if (textsum[i]=='.' and textsum[i+1]!='”' and isopen==False) or textsum[i]=='”':
            e = i+1
            text.append(textsum[s:e].strip())
            s = e
            isopen = False
            
    return  text


In [11]:
# 유사도 계산
def get_similarity(w1, w2):

    # 두 형용사 "좋은"과 "훌륭한"의 벡터 가져오기
    vec1 = ft.get_word_vector(w1)
    vec2 = ft.get_word_vector(w2)

    # 코사인 유사도 계산
    cosine_similarity = vec1.dot(vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

    return cosine_similarity

In [9]:
textfile = "../sentiment-analysis/data/booksample1.txt"
split_text = split_text(textfile)
split_text


 txt 파일 읽기 <class 'list'>
총 길이 10196


['운수 좋은날현진건 새침하게 흐린 품이 눈이 올 듯하더니 눈은 아니 오고 얼다가 만 비가 추적추적 내리는 날이었다.',
 '이날이야말로 동소문 안에서 인력거꾼 노릇을 하는 김첨지에게는 오래간만에도 닥친 운수 좋은 날이었다.',
 '문안에 들어간답시는 앞집 마마님을 전찻길까지 모셔다 드린 것을 비롯으로 행여나 손님이있을까 하고 정류장에서 어정어정하며 내리는 사람 하나하나에게 거의 비는듯한 눈결을 보내고 있다가 마침내 교원인 듯한 양복쟁이를 동광학교까지 태워다 주기로 되었다.',
 '첫 번에 삼십전 , 둘째 번에 오십전 - 아침 댓바람에 그리 흉치 않은 일이었다.',
 '그야말로 재수가 옴붙어서 근 열흘 동안 돈 구경도 못한 김첨지는 십전짜리 백동화 서 푼, 또는 다섯 푼이 찰깍 하고 손바닥에 떨어질 제 거의눈물을 흘릴 만큼 기뻤었다.',
 '더구나 이날 이때에 이 팔십 전이라는 돈이 그에게 얼마나 유용한지 몰랐다.',
 '컬컬한 목에 모주 한 잔도 적실 수 있거니와그보다도 앓는 아내에게 설렁탕 한 그릇도 사다 줄 수 있음이다.',
 '그의 아내가 기침으로 쿨룩거리기는 벌써 달포가 넘었다.',
 '조밥도 굶기를먹다시피 하는 형편이니 물론 약 한 첩 써본 일이 없다.',
 '구태여 쓰려면 못쓸 바도 아니로되 그는 병이란 놈에게 약을 주어 보내면 재미를 붙여서 자꾸 온다는 자기의 신조에 어디까지 충실하였다.',
 '따라서 의사에게 보인 적이 없으니 무슨 병인지는 알 수 없으되 반듯이 누워 가지고 일어나기는 새로 모로도 못 눕는 걸 보면 중증은 중증인 듯.',
 '병이 이대도록 심해지기는 열흘전에 조밥을 먹고 체한 때문이다.',
 '그때도 김첨지가 오래간만에 돈을 얻어서 좁쌀 한 되와 십 전짜리 나무 한 단을 사다 주었더니 김첨지의말에 의지하면 그 오라질 년이 천방지축으로 냄비에 대고 끓였다.',
 '마음은급하고 불길은 달지 않아 채 익지도 않은 것을 그 오라질년이 숟가락은 고만두고 손으로 움켜서 두 뺨에 주먹덩이 같은 혹이 불거지도록 누가 빼앗을듯이 처박질하더니만 

In [15]:
music_tags = ('신나는','행복한','코믹한','사랑스러운','어두운','공포','화난','슬픈','긴장감')
tag_score = {tag: 0 for tag in music_tags}

for sentence in split_text:
    adj_list = extract_va(sentence)
    
    if not adj_list:
        continue
    
    for adj in adj_list:
        
        tag_dict = {tag: 0 for tag in music_tags}
        
        # 형용사의 음악 태그의 유사도를 계산
        for tag in music_tags:
            tag_dict[tag] = round(get_similarity(adj, tag),2)
            
        print(adj,"-----" ,tag_dict)
            
        # 가장 높은 유사도를 가진 태그의 점수 +1
        max_key = max(tag_dict, key=tag_dict.get)
        tag_score[max_key] +=1
        
print('\n\n')
print('단어 유사도 측정 결과')
print(tag_score)

좋 ----- {'신나는': 0.11, '행복한': 0.12, '코믹한': 0.12, '사랑스러운': 0.11, '어두운': 0.06, '공포': 0.1, '화난': 0.14, '슬픈': 0.21, '긴장감': 0.03}
좋 ----- {'신나는': 0.11, '행복한': 0.12, '코믹한': 0.12, '사랑스러운': 0.11, '어두운': 0.06, '공포': 0.1, '화난': 0.14, '슬픈': 0.21, '긴장감': 0.03}
흉하 ----- {'신나는': nan, '행복한': nan, '코믹한': nan, '사랑스러운': nan, '어두운': nan, '공포': nan, '화난': nan, '슬픈': nan, '긴장감': nan}
기쁘 ----- {'신나는': 0.09, '행복한': 0.06, '코믹한': 0.04, '사랑스러운': 0.06, '어두운': 0.04, '공포': 0.08, '화난': 0.16, '슬픈': 0.22, '긴장감': 0.06}


  cosine_similarity = vec1.dot(vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))


없 ----- {'신나는': 0.04, '행복한': 0.06, '코믹한': 0.08, '사랑스러운': 0.05, '어두운': 0.05, '공포': 0.15, '화난': 0.16, '슬픈': 0.22, '긴장감': 0.1}
없 ----- {'신나는': 0.04, '행복한': 0.06, '코믹한': 0.08, '사랑스러운': 0.05, '어두운': 0.05, '공포': 0.15, '화난': 0.16, '슬픈': 0.22, '긴장감': 0.1}
없 ----- {'신나는': 0.04, '행복한': 0.06, '코믹한': 0.08, '사랑스러운': 0.05, '어두운': 0.05, '공포': 0.15, '화난': 0.16, '슬픈': 0.22, '긴장감': 0.1}
심하 ----- {'신나는': 0.03, '행복한': -0.01, '코믹한': 0.08, '사랑스러운': 0.02, '어두운': 0.05, '공포': 0.18, '화난': 0.18, '슬픈': 0.18, '긴장감': 0.19}
급하 ----- {'신나는': nan, '행복한': nan, '코믹한': nan, '사랑스러운': nan, '어두운': nan, '공포': nan, '화난': nan, '슬픈': nan, '긴장감': nan}
같 ----- {'신나는': 0.09, '행복한': 0.05, '코믹한': 0.11, '사랑스러운': 0.05, '어두운': 0.1, '공포': 0.15, '화난': 0.13, '슬픈': 0.23, '긴장감': 0.12}
박질하 ----- {'신나는': 0.12, '행복한': 0.18, '코믹한': -0.01, '사랑스러운': 0.16, '어두운': 0.11, '공포': 0.01, '화난': 0.02, '슬픈': 0.03, '긴장감': 0.06}
없 ----- {'신나는': 0.04, '행복한': 0.06, '코믹한': 0.08, '사랑스러운': 0.05, '어두운': 0.05, '공포': 0.15, '화난': 0.16, '슬픈': 0.22, '긴장감': 0.1}
다되 -----

In [None]:
music_tags = ('신나는','행복한','코믹한','사랑스러운','어두운','공포','화난','슬픈','긴장감')
tag_score = {tag: 0 for tag in music_tags}

adj_list

for sentence in split_text:
    adj_list = extract_va(sentence)
    
    if not adj_list:
        continue
    
    for adj in adj_list:
        
        tag_dict = {tag: 0 for tag in music_tags}
        
        # 형용사의 음악 태그의 유사도를 계산
        for tag in music_tags:
            tag_dict[tag] = round(get_similarity(adj, tag),2)
            
        print(adj,"-----" ,tag_dict)
            
        # 가장 높은 유사도를 가진 태그의 점수 +1
        max_key = max(tag_dict, key=tag_dict.get)
        tag_score[max_key] +=1
        
print(tag_score)

In [1]:
from googletrans import Translator

translator = Translator()

text = "안녕하세요"

# 번역 실행 (영어)
translated = translator.translate(text, dest='en')

# 번역 결과 출력
print(translated.text)

hello


In [2]:
import fasttext
import fasttext.util

# 사전 훈련된 영어 모델 다운로드
fasttext.util.download_model('en', if_exists='ignore')
ft = fasttext.load_model('cc.en.300.bin')

Downloading https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.en.300.bin.gz




In [None]:
textfile = "../sentiment-analysis/data/booksample1.txt"
split_text = split_text(textfile)
split_text

In [5]:
import spacy

# 영어 모델 불러오기
nlp = spacy.load('en_core_web_sm')

# 분석할 텍스트
text = "The quick brown fox jumps over the lazy dog."

# 텍스트를 처리하여 Doc 객체 생성
doc = nlp(text)

# 형용사 추출
adjectives = [token.text for token in doc if token.pos_ == "ADJ"]

# 결과 출력
print(adjectives)

ImportError: cannot import name 'TypeAliasType' from 'typing_extensions' (c:\Users\KangIW\anaconda3\lib\site-packages\typing_extensions.py)

In [None]:
from konlpy.tag import Kkma

def extract_va(sen):
    kkma = Kkma()

    # 형태소 분석 (품사 태깅 포함)
    tagged_words = kkma.pos(sen)

    # 형용사만 추출
    # Kkma 형태소 분석기의 품사 태그 중 'VA'가 형용사에 해당
    adj_list = [word for word, tag in tagged_words if tag == 'VA']
    
    return adj_list

In [None]:
music_tags = ('exciting', 'happy', 'comical', 'lovely', 'dark', 'horrific', 'angry', 'sad', 'tense')
tag_score = {tag: 0 for tag in music_tags}

adj_list

for sentence in split_text:
    
    # 번역 실행 (영어)
    translated = translator.translate(sentence, dest='en')
    
    adj_list = extract_va(translated.text)
    
    if not adj_list:
        continue
    
    for adj in adj_list:
        
        tag_dict = {tag: 0 for tag in music_tags}
        
        # 형용사의 음악 태그의 유사도를 계산
        for tag in music_tags:
            tag_dict[tag] = round(get_similarity(adj, tag),2)
            
        print(adj,"-----" ,tag_dict)
            
        # 가장 높은 유사도를 가진 태그의 점수 +1
        max_key = max(tag_dict, key=tag_dict.get)
        tag_score[max_key] +=1
        
print(tag_score)