환경설정

In [6]:
import os
import pandas as pd
import numpy as np
from konlpy.tag import Okt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
import time
import tqdm
import jpype

In [7]:
folder_path = '/Users/jaesolshin/Documents/GitHub/youtube_dashboard'
file_path = os.path.join(folder_path, 'KPOP_comments_merged_preprocessed_with_nouns.csv')
comments_df = pd.read_csv(file_path)

# 키워드 추출

In [8]:

# 불용어 정의
stopwords = ['timecode', '진짜','이번','사람','정말', '뭔데', '그룹', '우리', '생각', '댓글', '느낌','계속', '지금', '최고', '영상', '처음', '축하', '대박', '이건', '당신', '제발', '항상', '아주', '다음', '정도', '모두', '보고', '그냥', '다시', '그것', '역시', '점점', '오늘', '요즘', '가장', '부분', '전부', '제일', '너머', '내용', '뭔가', '모습', '근데', '너무', '아니', '사람들', '같아요', '데리', '여러분', '세상', '자기', '다른']

# 고유명사 리스트 정의
custom_nouns = ['에스파', '조회수', '하이브', '어도어', 'BTS', '아이브', '르세라핌']

In [9]:
import ast
from collections import defaultdict

def extract_keywords_frequency(series_word_list, top_n=100, min_df=1):
    # 시작시간 확인
    start_time = time.time()

    # 단어별 문서 빈도를 저장할 딕셔너리 (각 단어가 등장한 문서 수)
    doc_frequency = defaultdict(int)

    # 각 문서에서 등장한 단어 추출 및 빈도 계산
    for word_list in series_word_list:
        unique_words_in_doc = list(set(word_list))  # 문서 내에서 중복된 단어는 한 번만 카운트
        for word in unique_words_in_doc:
            doc_frequency[word] += 1

    # min_df 조건을 충족하는 단어들의 빈도를 저장할 딕셔너리
    word_frequencies = defaultdict(int)

    # 각 문서의 단어 빈도 카운트 (min_df 조건에 맞는 단어만 빈도 계산)
    for word_list in series_word_list:
        for word in word_list:
            if doc_frequency[word] >= min_df:
                word_frequencies[word] += 1

    # 상위 빈도 단어 추출
    sorted_words = sorted(word_frequencies.items(), key=lambda item: item[1], reverse=True)
    top_keywords_with_weights = sorted_words[:top_n]

    # 키워드만 추출
    top_keywords = [word for word, _ in top_keywords_with_weights]

    # 가중치를 전체 합으로 표준화
    total_count = sum(count for _, count in top_keywords_with_weights)
    keywords_with_weights = [(word, count / total_count) for word, count in top_keywords_with_weights]

    # 종료시간 확인
    end_time = time.time()

    # 소요시간 출력
    print(f"{len(series_word_list)}개 댓글 키워드 추출에 걸린 시간: {end_time - start_time} 초\n")

    return top_keywords, keywords_with_weights

In [10]:
# TF-IDF 기반 키워드 및 상대적 비중 추출 함수
def extract_keywords_tfidf(series_word_list, top_n=100, min_df=1):

    # 시작시간 확인
    start_time = time.time()

    # 리스트 시리즈를 문자열 시리즈로 변형
    word_list_str = series_word_list.apply(lambda words: ' '.join(words))

    # TF-IDF 벡터화 (min_df를 설정해 빈도수가 적은 단어 제거)
    vectorizer = TfidfVectorizer(max_features=1000, min_df=min_df)
    tfidf_matrix = vectorizer.fit_transform(word_list_str)

    # 각 단어의 TF-IDF 점수를 추출
    feature_names = vectorizer.get_feature_names_out()
    tfidf_scores = np.mean(tfidf_matrix.toarray(), axis=0)  # 전체 문서에서 평균 TF-IDF 추출

    # TF-IDF 점수를 기준으로 상위 키워드 추출
    top_n_indices = tfidf_scores.argsort()[-top_n:][::-1]
    top_keywords = [feature_names[idx] for idx in top_n_indices]

    # 각 단어의 TF-IDF 점수 추출
    weights = [tfidf_scores[idx] for idx in top_n_indices]

    # 가중치를 전체 합으로 표준화
    weights = weights / np.sum(weights)

    # 키워드와 가중치를 묶어서 반환
    keywords_with_weights = list(zip(top_keywords, weights))

    # 종료시간 확인
    end_time = time.time()

    # 소요시간 출력
    print(f"{len(series_word_list)}개 댓글 키워드 추출에 걸린 시간: {end_time - start_time} 초\n")

    return top_keywords, keywords_with_weights

In [11]:
from rank_bm25 import BM25Okapi
import time
import numpy as np
import pandas as pd
from collections import defaultdict

# BM25 기반 키워드 및 상대적 비중 추출 함수 (min_df 추가)
def extract_keywords_bm25(series_word_list, top_n=100, min_df=1):
    # 시작시간 확인
    start_time = time.time()

    # 시리즈의 각 리스트를 문서로 간주하여 BM25 모델 생성
    tokenized_corpus = series_word_list.tolist()
    bm25 = BM25Okapi(tokenized_corpus)

    # 각 단어의 출현 빈도를 저장할 딕셔너리
    doc_frequency = defaultdict(int)

    # 문서 내 각 단어의 출현 빈도 계산
    for doc in tokenized_corpus:
        unique_words_in_doc = set(doc)
        for word in unique_words_in_doc:
            doc_frequency[word] += 1

    # 각 단어의 BM25 점수를 저장할 딕셔너리
    word_scores = defaultdict(float)
    total_docs = len(tokenized_corpus)

    # 각 문서에서의 BM25 점수를 계산하여 해당 단어에 대한 점수를 합산
    for doc in tokenized_corpus:
        scores = bm25.get_scores(doc)
        for word, score in zip(doc, scores):
            # 단어의 출현 빈도가 min_df 이상인 경우에만 점수 계산
            if doc_frequency[word] >= min_df:
                word_scores[word] += score

    # 문서 전체에 대한 평균 BM25 점수로 변환
    word_scores = {word: score / total_docs for word, score in word_scores.items()}

    # 상위 BM25 점수를 기준으로 키워드 추출
    sorted_words = sorted(word_scores.items(), key=lambda item: item[1], reverse=True)
    top_keywords = sorted_words[:top_n]

    # 가중치를 전체 합으로 표준화
    total_weight = sum(score for _, score in top_keywords)
    keywords_with_weights = [(word, score / total_weight) for word, score in top_keywords]

    # 종료시간 확인
    end_time = time.time()

    # 소요시간 출력
    print(f"{len(series_word_list)}개 댓글 키워드 추출에 걸린 시간: {end_time - start_time} 초\n")

    return top_keywords, keywords_with_weights

In [12]:
sample_df = comments_df.copy()
#sample_df = comments_df.sample(frac=0.1, random_state=42)
print(len(sample_df), "\n")

# csv 파일로 저장되면서 문자열로 변형된 word_list 컬럼을 다시 리스트로 변환
sample_df['word_list'] = sample_df['word_list'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)

# 단순 빈도 기반 키워드 추출
print('**단순 빈도 기반 키워드 추출**\n')
keywords1, keywords_with_weights1 = extract_keywords_frequency(sample_df['word_list'], top_n=300, min_df=50)

# 결과 출력
for item in keywords_with_weights1: print(item)
print('\n')

# TF-IDF 기반 키워드 추출
print('**TF-IDF 기반 키워드 추출**\n')
keywords2, keywords_with_weights2 = extract_keywords_tfidf(sample_df['word_list'], top_n=300, min_df=50)

# 결과 출력
for item in keywords_with_weights2: print(item)
print('\n')

648060 

**단순 빈도 기반 키워드 추출**

648060개 댓글 키워드 추출에 걸린 시간: 1.0598399639129639 초

('노래', 0.06267088912923381)
('뉴진스', 0.04044226923645531)
('뮤비', 0.027513441592293745)
('아이브', 0.021102716329881185)
('하이브', 0.02050202693765124)
('사랑', 0.020448338377983023)
('민희진', 0.018436184533026246)
('단월드', 0.014549599670087692)
('컨셉', 0.010167368249052669)
('멤버', 0.0100413168480925)
('응원', 0.009197083699686427)
('에스파', 0.009012675168652106)
('사이비', 0.008673425719154366)
('화이팅', 0.008631408585500976)
('한국', 0.008589391451847587)
('가사', 0.007769279250538831)
('데뷔', 0.00753429454010691)
('아이돌', 0.007198935565947448)
('삭제', 0.007085333686069764)
('하나', 0.007005189894101261)
('중독', 0.006841011834825979)
('르세라핌', 0.006658937588994623)
('대표', 0.006640263307370895)
('여기', 0.0061531757950186354)
('방시혁', 0.006013896777908325)
('음악', 0.006001447256825839)
('앨범', 0.0058388253876858675)
('이제', 0.005617846388471744)
('리즈', 0.005595281631509738)
('파트', 0.005550152117585727)
('아이', 0.005508134983932337)
('컴백', 0.005340

In [13]:
# 출력 옵션 설정: 모든 열을 출력
pd.set_option('display.max_columns', None)  # 모든 열 출력
pd.set_option('display.max_rows', None)     # 모든 행 출력

# 데이터프레임 전치 및 출력
compare_result  = pd.DataFrame([keywords1, keywords2]).transpose()
compare_result

Unnamed: 0,0,1
0,노래,노래
1,뉴진스,뉴진스
2,뮤비,아이브
3,아이브,사랑
4,하이브,뮤비
5,사랑,하이브
6,민희진,민희진
7,단월드,단월드
8,컨셉,화이팅
9,멤버,에스파


# 특정 그룹/뮤직비디오에 대해 키워드 추출하기

In [14]:
# MV가 뭐가 있더라
comments_df[comments_df['Group']=='NewJeans']['Title'].unique()

array(["'Hype Boy' Official MV (HANNI ver.)",
       "'Hype Boy' Official MV (MINJI ver.)",
       "'Hype Boy' Official MV (DANIELLE&HAERIN ver.)", 'Hurt',
       "'Hype Boy' Official MV (HYEIN ver.)", 'Cookie', 'Attention',
       'Zero', 'Supernatural (Part.2)', 'Supernatural (Part.1)',
       'Right Now', 'How Sweet', 'Bubble Gum', 'ASAP', 'ETA',
       "'Cool With You' & 'Get Up' (side B)", "'Cool With You' (side A)",
       'Super Shy', 'New Jeans', 'OMG', 'Ditto (side B)',
       'Ditto (side A)'], dtype=object)

In [15]:
# "하이브"가 comment 컬럼에 포함된 행들을 필터링
filtered_df = comments_df[comments_df['comment'].str.contains('이기', na=False)]
sorted_filtered_df = filtered_df[['comment','date','likes']].sort_values(by='likes', ascending=False)
sorted_filtered_df[:10]

Unnamed: 0,comment,date,likes
490942,팩트 8가지 -하이브 채널 뮤비영상 에서 삭제된 베댓만 모았습니다 1. 방시혁은 민...,2024-04-29T00:26:55Z,5085
488851,팩트 8가지 (이 내용 배댓이었는데 삭제된 거 같아요 좋아요랑 댓글 많이 달아주세요...,2024-04-29T03:58:56Z,3575
501045,민희진이 이기길 바라신다면 이 댓글에 좋아요를 눌러주세요!,2024-04-28T16:10:09Z,2899
496196,1.0mg뮤비 단 너뿐이야라고 노래하며 출춤 ㄷㅇㄷ 찬양 가사. 하지만 화자가 정신...,2024-04-28T17:38:36Z,2797
323998,역시 프로모 돌려서 조회수 올리는 뮤비하고는 차원이 다르다. 지금까지 단 한번도 인...,2024-05-04T12:39:30Z,2662
365521,지금 이 상황이 충격이기도 한데 하나하나 밝혀지는게 너무 흥미로움 외국인들은 상황을...,2024-04-28T09:09:35Z,2255
337507,이 색깔을 무슨 수로 이기누 ㅋㅋ 정품이라 단 한군데도 한명도 표정 하나하나 어색함...,2024-04-28T00:58:12Z,2027
292046,ㅅㅂ 누가 이기나 봐 끝까지가고 난 항상 이 다섯명 편일테니까,2024-05-29T06:14:31Z,1915
503852,제발 한번만 읽어주세요 혹시 여러분은 잘나가던 걸그룹 여자친구가 해체하게 된 배경을...,2024-04-28T15:31:41Z,1896
542147,팩트 8가지 (이 내용 배댓이었는데 삭제된 거 같아요 좋아요랑 댓글 많이 달아주세요...,2024-04-29T15:09:56Z,1720
