In [1]:
# konlpy 관련 참고링크
# https://velog.io/@soo-im/konlpy-%EC%84%A4%EC%B9%98-%EC%97%90%EB%9F%AC-%ED%95%B4%EA%B2%B0%EC%B1%85-%EC%95%84%EB%82%98%EC%BD%98%EB%8B%A4-JPYPE

In [None]:
!pip install JPype1-1.1.2-cp38-cp38-win_amd64.whl

In [None]:
!pip install sentence_transformers
!pip install konlpy

In [None]:
import numpy as np
import itertools

from konlpy.tag import Okt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer

In [None]:
!pip install pandas

In [6]:
import pandas as pd

In [7]:
def clean_df(name):
    df = pd.read_csv(name)
    df = df.drop(columns='Unnamed: 0')
    return df

In [8]:
def most_keywords(df):

    doc = ''
    for text_list in df['full_text']:
        doc += (' ' + text_list)

    # 형태소 분석기
    okt = Okt()

    tokenized_doc = okt.pos(doc)
    tokenized_nouns = ' '.join([word[0] for word in tokenized_doc if word[1] == 'Noun'])

    print('품사 태깅 10개만 출력 :',tokenized_doc[:10])
    print('명사 10개만 출력 :',tokenized_nouns[:10])

    # 사이킷런의 CountVectorizer를 사용하여 단어를 추출
    n_gram_range = (1, 2)

    count = CountVectorizer(ngram_range=n_gram_range).fit([tokenized_nouns])
    candidates = count.get_feature_names_out()

    print('trigram 개수 :',len(candidates))
    print('trigram 다섯개만 출력 :',candidates[:5])

    # 다국어 SBERT 로드
    model = SentenceTransformer('sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens')
    doc_embedding = model.encode([doc])
    candidate_embeddings = model.encode(candidates)

    # 문서와 가장 유사한 키워드 추출
    top_n = 100
    distances = cosine_similarity(doc_embedding, candidate_embeddings)
    keywords = [candidates[index] for index in distances.argsort()[0][-top_n:]]
    print(keywords)

In [10]:
df_league = clean_df('C:\\Users\\colacan\\Documents\\GitHub\\League_Of_Legend_Challenges_Project\\tweet_list\\tweet_list.csv')

In [11]:
most_keywords(df_league)

품사 태깅 10개만 출력 : [('@ezpz99wp', 'ScreenName'), ('리그', 'Noun'), ('오브', 'Noun'), ('레전드', 'Noun'), ('의', 'Josa'), ('조이', 'Noun'), ('이신가', 'Josa'), ('보군요', 'Verb'), ('상대', 'Noun'), ('를', 'Josa')]
명사 10개만 출력 : 리그 오브 레전드 
trigram 개수 : 1442
trigram 다섯개만 출력 : ['가격' '가격 상관' '가능' '가능 가능' '가능 아주']
['직장인', '체스', '토너먼트 레전드', '인기 교류', '시기 무리', '적수 공포', '광기 살육', '틈새시장', '레전드 욕구', '업무', '워치 리듬', '대회 생방송', '게이머', '워크래프트 철권', '시뮬레이션', '경기 재훈', '게임 레인보우', '스포츠선수', '시즌 경험', '스포츠', '컨트롤 인기', '이스포츠', '컴퓨터', '오늘 게임', '메인 게임', '공포 축구', '스포츠 페스티벌', '경기', '최대 경기', '체스 리그', '레전드 스포츠선수', '재미 사회생활', '스포츠 종목', '온라인 자택', '리듬 게임', '해설 컴퓨터', '성인 남성', '이스포츠 영향', '다른 게임', '경기 시간', '틈새시장 나름', '프로 경기', '인수 라이엇게임즈', '선수단 운영', '무리 남자', '비디오 게임', '레전드 경기', '경기 스포츠', '롤토 체스', '전반 이스포츠', '진행 게임', '로란 워크래프트', '게임 리그', '이스포츠 종주국', '하필 스포츠', '전략 게임', '라이엇게임즈', '게임 개발', '게임 배틀', '합성어 게임', '매니아 입문', '게임 주말', '스포츠선수 소리', '워크래프트', '게임 가능', '온라인 배틀', '출현 게임', '헛소리 게임', '라이엇 게임', '시뮬레이션 게임', '지식 플레이', '국산 게임', '레전드 게임', '게임', '프로게임단 협업'

In [None]:
df_top = clean_df('top_list.csv')
most_keywords(df_top)

In [None]:
df_mid = clean_df('mid_list.csv')
most_keywords(df_mid)

In [None]:
df_jungle = clean_df('jungle_list.csv')
most_keywords(df_jungle)

In [None]:
df_ad = clean_df('ad_list.csv')
most_keywords(df_ad)

In [None]:
df_sup = clean_df('sup_list.csv')
most_keywords(df_sup)