In [60]:
# konlpy 관련 참고링크
# https://velog.io/@soo-im/konlpy-%EC%84%A4%EC%B9%98-%EC%97%90%EB%9F%AC-%ED%95%B4%EA%B2%B0%EC%B1%85-%EC%95%84%EB%82%98%EC%BD%98%EB%8B%A4-JPYPE

In [None]:
!pip install JPype1-1.1.2-cp38-cp38-win_amd64.whl

In [None]:
!pip install sentence_transformers
!pip install konlpy

In [1]:
import numpy as np
import itertools

from konlpy.tag import Okt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer

In [None]:
!pip install pandas

In [2]:
import pandas as pd

In [3]:
def clean_df(name):
    df = pd.read_csv(name)
    df = df.drop(columns='Unnamed: 0')
    return df

In [4]:
def most_keywords(df):

    doc = ''
    for text_list in df['full_text']:
        doc += (' ' + text_list)

    # 형태소 분석기
    okt = Okt()

    tokenized_doc = okt.pos(doc)
    tokenized_nouns = ' '.join([word[0] for word in tokenized_doc if word[1] == 'Noun'])

    print('품사 태깅 10개만 출력 :',tokenized_doc[:10])
    print('명사 10개만 출력 :',tokenized_nouns[:10])

    # 사이킷런의 CountVectorizer를 사용하여 단어를 추출
    n_gram_range = (2, 3)

    count = CountVectorizer(ngram_range=n_gram_range).fit([tokenized_nouns])
    candidates = count.get_feature_names_out()

    print('trigram 개수 :',len(candidates))
    print('trigram 다섯개만 출력 :',candidates[:5])

    # 다국어 SBERT 로드
    model = SentenceTransformer('sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens')
    doc_embedding = model.encode([doc])
    candidate_embeddings = model.encode(candidates)

    # 문서와 가장 유사한 키워드 추출
    top_n = 100
    distances = cosine_similarity(doc_embedding, candidate_embeddings)
    keywords = [candidates[index] for index in distances.argsort()[0][-top_n:]]
    print(keywords)

In [6]:
df_league = clean_df('C:\\Users\\colacan\\Documents\\GitHub\\League_Of_Legend_Challenges_Project\\tweet_list\\tweet_list.csv')

In [None]:
most_keywords(df_league)

In [None]:
df_top = clean_df('top_list.csv')
most_keywords(df_top)

In [None]:
df_mid = clean_df('mid_list.csv')
most_keywords(df_mid)

품사 태깅 10개만 출력 : [('@tflno_dxz23', 'ScreenName'), ('다른사람', 'Noun'), ('들', 'Suffix'), ('이', 'Josa'), ('낀거라도', 'Verb'), ('보면서', 'Verb'), ('힐링', 'Noun'), ('롤', 'Noun'), ('할려', 'Verb'), ('구', 'Noun')]
명사 10개만 출력 : 다른사람 힐링 롤 
trigram 개수 : 800
trigram 다섯개만 출력 : ['가끔 서폿' '가끔 서폿 원딜' '가끔 스왑' '가끔 스왑 바텀' '가능 트위터']
['넷이 인베 방어', '미드 시즌', '해명 트윗 리리아', '미드 미드 원딜', '티저 오락 엉덩이', '어푸푸 오늘', '남아 비바 리움', '터트렸는데 상체 쌍련들', '정글 넷이 인베', '인베 방어', '바텀 사람 게임', '카구야 학생회', '꾀죄죄 후즐', '미드 원딜 정글', '서폿 원딜 정글', '미드 바텀', '고정 미드 원딜', '벽력 쭉쭉 라인', '가렌 제이스 피오라', '미드 미식', '미코 차이 지면', '정글 돌기 바텀', '미드 카구야 학생회', '솔킬 미드', '가면 탱서폿 미드', '가미 유우', '자꾸 서폿 혜지', '미드 정글 구해', '포지션 미코', '미드 키사', '웅애 서폿', '제이스 피오라 오공', '꾀죄죄 후즐 남편', '처음 바텀 유미', '미드 라인 예정', '치카 미드 가미', '노틸러스 챔피언 특정', '거시 어푸푸 오늘', '커버 역전승 친구', '치어리딩 제일 캐릭터', '원딜 게임 터트려', '시간 모스트 벨코즈', '하싈분 웅애 서폿', '미드 꾀죄죄 후즐', '낭만 원딜 서폿', '챔피언 특정 챔피언', '린처 모스트 미드', '킹반 린처 모스트', '상대로 솔킬 미드', '오오 토리 미드', '거시 어푸푸', '학생회 포지션 미코', '리그 티저', '카구야 학생회 포지션', '대전 젠츠', '명구 카구야 학생회', '학살 이유 솔킬따', '어푸푸 오늘 미드

In [None]:
df_jungle = clean_df('jungle_list.csv')
most_keywords(df_jungle)

품사 태깅 10개만 출력 : [('와', 'Verb'), (',..', 'Punctuation'), ('씨발', 'Noun'), ('간', 'Suffix'), ('만에', 'Josa'), ('롤', 'Noun'), ('했더니', 'Verb'), ('요즘', 'Noun'), ('현자', 'Noun'), ('처럼', 'Josa')]
명사 10개만 출력 : 씨발 롤 요즘 현자
trigram 개수 : 853
trigram 다섯개만 출력 : ['가기 프로젝트' '가기 프로젝트 구합' '가끔 정답' '가끔 정답 라인' '가미 유우']
['상대 납골당 슈가', '챔피언 특정 챔피언', '랭크하닥 멘탈 정글', '픽해 듀오 챔피언', '진짜 개패 정글', '연구원 리듬게임', '대해 얘기 미드', '낭만 원딜', '뭔가 계속 차이', '보통 참여 미드', '간만 쌍욕 오늘', '카구야 서폿 느낌', '라면 만하 자꾸', '보통 상대 정글', '이재석 욕설 트롤', '일반 예전 렙때', '토리 미드 키사', '게임 챔프 스웨인', '예전 렙때 암살자', '기생 코바 원딜', '피지 가끔', '챔피언 이유 때문', '탈론 운영 달라', '미드 정글 구해', '언랭 언랭 여자', '참여 티어 언랭', '라면 만하', '정글 때문 메이지', '리쉬 보통 참여', '간만 쌍욕', '진짜 이해 처음', '정글 지금 채팅', '평생 행복 하자', '내전 참여 백구', '미드 낭만 원딜', '여자 인척 쌍벞주', '챔피언 정글 혼자', '저격 소리 참여', '바텀 유미 미드', '파우더 목표 카구야', '시발 대해 얘기', '라면 원영 몰입', '탱커 하싈분 웅애', '예능 제일', '라면 대학원생 아마', '진짜 진심 골드', '프로젝트 구합 승리', '라인 크립 보통', '꼽주 소리 내전', '덤덤 이빨 거시', '라인 눈앞 상대', '하나 몰루는데', '만하 랭크하닥 멘탈', '렙때 암살자 상대로', '유우 봇듀', '미드 가미 유우', '정글 만하 랭크하닥', '유미 유미 새끼',

In [None]:
df_ad = clean_df('ad_list.csv')
most_keywords(df_ad)

품사 태깅 10개만 출력 : [('@bebeahrang', 'ScreenName'), ('발', 'Noun'), ('로란', 'Noun'), ('트', 'Noun'), ('같', 'Adjective'), ('이해', 'Noun'), ('요', 'Josa'), ('엄청', 'Adverb'), ('재미있는', 'Adjective'), ('게임', 'Noun')]
명사 10개만 출력 : 발 로란 트 이해 
trigram 개수 : 920
trigram 다섯개만 출력 : ['가끔 미니' '가끔 미니 언도' '가끔 서폿' '가끔 서폿 원딜' '가끔 스왑']
['환영 적막 게임', '하싈분 웅애 서폿', '팀운 하타 버러지', '게임 하싈분', '하이 텐션 환영', '딜로 유격대 마딜', '사람 친구 이상', '계약 다해', '가끔 실수', '잘해야 원딜 캐리', '유격대 마딜 그냥', '미드 원딜 정글', '캐리 이상 바텀터지', '원딜 중반 이후', '가끔 미니 언도', '라이너 명구 그냥', '미드 가미 유우', '사리 원딜 아기', '원딜 유격대', '보육 힐러 지오', '원딜 유격대 딜로', '원딜 제껍니', '기생 코바 원딜', '게임 터트려 아무', '아하 효월 원딜', '폿도 잘해야', '바텀터지 원딜 구원불', '비밀 물리 원딜', '유우 봇듀', '가면 서폿 그냥', '미드 가끔 서폿', '원딜 암살자 발견', '챔피언 정글 혼자', '버러지 아하 효월', '화남 연패', '제일 이해 원딜', '진짜 트롤 칼리', '바람 무관 대신', '진짜 박하', '로란 이해 게임', '진짜 진심 골드', '마법 미드 리리아', '유격대 딜로 유격대', '게임 카구야 학생회', '게임 터트렸는데', '터트렸는데 상체', '리쉬 보통 참여', '레드 가끔 실수', '화남 연패 동생', '마딜 그냥 비술사', '터트려 아무 원딜', '이해 혼자 친구', '주로 미드 가끔', '먼저 원딜 무도', '마법 미드 아하', '봇듀 회장 원딜', '원딜 주로 라인', '어쩌 어쩌

In [None]:
df_sup = clean_df('sup_list.csv')
most_keywords(df_sup)

품사 태깅 10개만 출력 : [('@bebeahrang', 'ScreenName'), ('발', 'Noun'), ('로란', 'Noun'), ('트', 'Noun'), ('같', 'Adjective'), ('이해', 'Noun'), ('요', 'Josa'), ('엄청', 'Adverb'), ('재미있는', 'Adjective'), ('게임', 'Noun')]
명사 10개만 출력 : 발 로란 트 이해 
trigram 개수 : 890
trigram 다섯개만 출력 : ['가끔 미니' '가끔 미니 언도' '가끔 서폿' '가끔 서폿 원딜' '가끔 스왑']
['사람 요즘 서폿', '모름 진짜 흡수', '진짜 빡쵸 실속', '관둔적잇엇음 진짜 지인', '대신 분노 주의', '사람 관둔적잇엇음 카구야', '캐리 이상 바텀터지', '서폿 전부 게임', '체감 공감 해도', '이태정 피방 상상', '크게 유미 유미', '주로 탱커 문도', '가끔 실수', '유미 유미 새끼', '진짜 트롤 칼리', '게임 사람 시작', '트윗 양해 바람', '사과 트윗', '주로 미드 가끔', '봇듀 회장 원딜', '마법 마법 미드', '개판 게임', '운영 타도 언제', '그냥 바보 눈물', '가끔 욱하', '트롤 서폿', '가끔 미니 언도', '어쩌 어쩌 막상', '전부 게임 사람', '미드 가미 유우', '뉴비 트윗', '벌레 시작 진짜', '리턴 거시 어푸푸', '초반 크게 유미', '점철 보이 채팅', '탱서폿 미드 마법', '지인 우리 혜지', '티어 서은광 혹시', '무관 대신 참고', '리쉬 보통 참여', '폿도 잘해야 원딜', '탱커 문도 갑자기', '설치 사람 일단', '가끔 욱하 아버', '가끔 서폿 원딜', '바람 트롤', '계약 다해 진짜', '적용 그냥 바보', '싹싹 그때 벌레', '다해 진짜 박하', '예정 오빠 픈데', '마법 미드 자식', '마법 미드 갑자기', '어푸푸 오늘 미드', '그때 벌레 시작', '특정 챔피언 정글', '이빨 거시 정글', '얼마 안대 