# 전처리

In [5]:
import json
import os
import re


# 문선곤 - 수정 안함

# JSON 데이터 저장 함수
def save_to_json(data, filename):
    # data 폴더가 존재하지 않으면 생성
    if not os.path.exists('data'):
        os.makedirs('data')
    
    # 파일 경로를 data 폴더 아래로 설정
    filepath = os.path.join('data', filename)
    
    with open(filepath, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)
        
    print(f"데이터 저장: {filepath}")
    
    # JSON 데이터 로드 함수
# JSON 파일을 읽어서 딕셔너리로 반환하는 함수
def load_json(filepath):
    with open(filepath, 'r', encoding='utf-8') as file:
        return json.load(file)
# value가 문자열배열의 배열일 때 한글자와 빈 문자열을 제외하고 문자열로 만드는 함수
def merge_values(data):
    """
    key: value에서 value가 문자열 배열의 배열일 때,
    하나의 문자열로 변환하고 빈 문자열("") 및 한 글자 단어는 제외하는 함수.

    :param data: dict, key: list of lists (e.g., { "key1": [["문장1", "문장2"], ["문장3"]] })
    :return: dict, key: merged string (e.g., { "key1": "문장1 문장2 문장3" })
    """
    merged_data = {}
    for key, values in data.items():
        if isinstance(values, list):  # 값이 리스트인지 확인
            merged_sentence = " ".join(
                s for sublist in values for s in sublist if s.strip() and len(s.strip()) > 1
            )  # 빈 문자열 & 한 글자 제외 후 공백으로 연결
            merged_data[key] = merged_sentence  # key: 병합된 문자열 형태로 저장

    return merged_data
# title과 tags를 하나의 문장으로 합치는 함수
def merge_title_tags(data):
    """
    딕셔너리에서 'title'과 'tags'를 하나의 문장으로 변환하는 함수.
    
    :param data: dict (유튜브 비디오 정보)
    :return: dict (title과 tags가 합쳐진 문장)
    """
    merged_data = []
    for key, videos in data.items():
        for video in videos:
            title = video.get("title", "").strip()  # title이 없으면 빈 문자열
            tags = video.get("tags", [])  # tags가 없거나 None이면 빈 리스트로 처리
            merged = " ".join([title] + tags)  # title과 tags 결합
            merged_data.append(merged)
    
    return merged_data
# 텍스트 데이터를 전처리하는 함수
def clean_text(text):   
    text = re.sub(r'http\S+|www\S+|@\S+|#\S+', '', text)
    text = re.sub(r"[^가-힣a-zA-Z0-9\s]", "", text)
    text = re.sub(r"[a-zA-Z]", "", text)
    text = text.strip()
    text = re.sub(r'\s{2,}', ' ', text)
    text = re.sub(r'\d+', '', text)
    
    
    return text

In [6]:
import time
from googleapiclient.discovery import build
import isodate
import os


# 환경 변수에서 API 키 가져오기
API_KEY = os.getenv("YOUTUBE_API_KEY")
if not API_KEY:
    raise ValueError("API 키가 설정되지 않았습니다. 환경 변수 'YOUTUBE_API_KEY'를 설정하세요.")

# YouTube API 설정
youtube = build("youtube", "v3", developerKey=API_KEY)

# 카테고리 ID 설정
CATEGORIES = {
    "News & Politics": "25",
    'Film & Animation' : "1",
    'Music' : "10",
    'Pets & Animals' : "15",
    'Sports' : "17",
    'Gaming' : "20",
    'Entertainment' : "24",
    'Science & Technology': "28"
}

# 동영상 데이터 가져오기
def fetch_trending_videos(category_id, region_code="KR", max_results=200):
    videos = []
    next_page_token = None

    while len(videos) < max_results:
        try:
            request = youtube.videos().list(
                part="snippet,statistics,contentDetails",
                chart="mostPopular",
                regionCode=region_code,
                videoCategoryId=category_id,
                maxResults=min(50, max_results - len(videos)),
                pageToken=next_page_token
            )
            response = request.execute()

            for item in response.get("items", []):
                duration = isodate.parse_duration(item["contentDetails"]["duration"])
                duration_in_seconds = duration.total_seconds()  #초로 바꾸기기

                if duration_in_seconds > 80:  # 80초 이상의 동영상만 가져오기
                    videos.append({
                        "video_id": item["id"],
                        "title": item["snippet"]["title"],
                        "description": item["snippet"]["description"],
                        "tags": item["snippet"].get("tags", []),
                        "duration": str(duration),
                        "view_count": int(item["statistics"].get("viewCount", 0)),
                        "like_count": int(item["statistics"].get("likeCount", 0)),
                        "comment_count": int(item["statistics"].get("commentCount", 0)),
                        "category_id": category_id,
                    })

            next_page_token = response.get("nextPageToken")
            if not next_page_token:
                break

        except Exception as e:
            print(f"Error fetching videos: {e}")
            time.sleep(5)  # 잠시 대기 후 다시 시도

    return videos



# 실행
all_videos = {}

for category_name, category_id in CATEGORIES.items():
    print(f"Fetching trending videos for category: {category_name}")
    videos = fetch_trending_videos(category_id, region_code="KR", max_results=200)
    all_videos[category_name] = videos
    print(f"비디오 {len(videos)} 개 카테고리: {category_name} fetch 완료.")

# 결과를 하나의 JSON 파일로 저장
output_file = "raw_video_data.json"
save_to_json(all_videos, output_file)
print(f"데이터 저장 : data/{output_file}'")

# 결과 출력 예시
for category, videos in all_videos.items():
    print(f"\nCategory: {category}")
    for video in videos[:5]:
        print(f" - {video['title']} ({video['video_id']}), 조회수: {video['view_count']} 회, 좋아요: {video['like_count']} 개")

Fetching trending videos for category: News & Politics
Error fetching videos: Unable to find the server at youtube.googleapis.com
Error fetching videos: Unable to find the server at youtube.googleapis.com
Error fetching videos: Unable to find the server at youtube.googleapis.com
비디오 44 개 카테고리: News & Politics fetch 완료.
Fetching trending videos for category: Film & Animation
비디오 7 개 카테고리: Film & Animation fetch 완료.
Fetching trending videos for category: Music
비디오 30 개 카테고리: Music fetch 완료.
Fetching trending videos for category: Pets & Animals
비디오 0 개 카테고리: Pets & Animals fetch 완료.
Fetching trending videos for category: Sports
비디오 13 개 카테고리: Sports fetch 완료.
Fetching trending videos for category: Gaming
비디오 77 개 카테고리: Gaming fetch 완료.
Fetching trending videos for category: Entertainment
비디오 7 개 카테고리: Entertainment fetch 완료.
Fetching trending videos for category: Science & Technology
비디오 60 개 카테고리: Science & Technology fetch 완료.
데이터 저장: data/raw_video_data.json
데이터 저장 : data/raw_video_dat

In [7]:
import json
import os
from googleapiclient.discovery import build


# 문선곤 - 카테고리별로 정리 되도록 수정


# 비디오 댓글 가져오기 함수
def get_video_comments(youtube, video_id, max_results=100):
    comments = []
    next_page_token = None

    while len(comments) < max_results:
        try:
            request = youtube.commentThreads().list(
                part="snippet",
                videoId=video_id,
                maxResults=min(50, max_results - len(comments)),
                pageToken=next_page_token
            )
            response = request.execute()

            for item in response.get("items", []):
                comment = item["snippet"]["topLevelComment"]["snippet"]["textDisplay"]
                comments.append(comment)

            next_page_token = response.get("nextPageToken")
            if not next_page_token:
                break

        except Exception as e:
            print(f"Error fetching comments for video {video_id}: {e}")
            break

    return comments

# JSON 데이터 저장 함수
    with open(filename, 'w', encoding='utf-8') as file:
        json.dump(data, file, ensure_ascii=False, indent=4)

# 파일 경로 설정
input_file_path = 'data/raw_video_data.json'
output_file_path = 'video_comments.json'

# JSON 데이터 로드
data = load_json(input_file_path)


# 비디오 댓글 가져오기 및 저장
all_comments = {}
for category, videos in data.items():
    all_comments[category] = []  # 카테고리별 리스트 생성

    for video in videos:
        video_id = video["video_id"]
        comments = get_video_comments(youtube, video_id, max_results=1000)
        all_comments[category].append({"video_id": video_id, "comments": comments})

# 결과 저장
save_to_json(all_comments, output_file_path)
print(f"비디오 댓글이 '{output_file_path}'에 저장되었습니다.")

Error fetching comments for video CfK_9iDlCSo: <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/commentThreads?part=snippet&videoId=CfK_9iDlCSo&maxResults=50&key=AIzaSyC9o9YrcN8qTx33vnFA8kD8prv-mMJ0HYg&alt=json returned "The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></code> parameter has disabled comments.". Details: "[{'message': 'The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></code> parameter has disabled comments.', 'domain': 'youtube.commentThread', 'reason': 'commentsDisabled', 'location': 'videoId', 'locationType': 'parameter'}]">
Error fetching comments for video 7sJES_4FiAs: <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/commentThreads?part=snippet&videoId=7sJES_4FiAs&maxResults=50&key=AIzaSyC9o9YrcN8qTx33vnFA8kD8prv-mMJ0HYg&alt=json returned "The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#

# Clean

In [None]:
# import re
# import emoji # type: ignore
# import json


# # 기본 텍스트 정제 함수
# def preprocess_text(text):
#     """
#     텍스트 데이터를 전처리하고 문장을 반환합니다.

#     Args:
#         text (str): 입력 텍스트 데이터.

#     Returns:
#         str: 전처리된 텍스트.
#     """
#     if not isinstance(text, str):
#         text = str(text)  # 문자열로 변환

#     # 1. HTML 태그 제거
#     text = re.sub(r"<[^>]+>", "", text)

#     # 2. URL 제거
#     text = re.sub(r"http\S+|www\S+|https\S+", "", text, flags=re.MULTILINE)

#     # 3. 이메일 제거
#     text = re.sub(r"\S+@\S+\.\S+", "", text)

#     # 4. 숫자 제거 (명확히 숫자만 제거)
#     text = re.sub(r"\d+", "", text)

#     # 5. 반복된 ㅋ, ㅎ, ㅠ, ㅜ 등 제거
#     text = re.sub(r"[ㅋㅎㅠㅜ]+", "", text)

#     # 6. 반복된 점(...) 제거
#     text = re.sub(r"\.\.+", ".", text)

#     # 7. 반복된 문자 축소 (e.g., "와아아" -> "와")
#     text = re.sub(r"(.)\1{2,}", r"\1", text)

#     # 8. 이모지 제거
#     text = emoji.replace_emoji(text, replace="")

#     # 9. 특수문자 및 영어 알파벳 제거
#     text = re.sub(r"[^\w\s가-힣]", "", text)  # 영어 알파벳 포함 특수문자 제거
#     text = re.sub(r"[a-zA-Z]", "", text)     # 영어 알파벳 제거

#     # 10. 양쪽 공백 제거
#     text = text.strip()

#     return text


# # 데이터 리스트 처리 함수
# def process_text_file(input_file, output_file):
#     """
#     문자열과 문자열 리스트가 섞인 데이터를 처리하여 결과를 저장합니다.

#     Args:
#         input_file (str): 입력 파일 경로.
#         output_file (str): 출력 파일 경로.
#     """
#     results = []

#     # 파일 로드
#     with open(input_file, 'r', encoding='utf-8') as f:
#         data = json.load(f)

#     # 데이터 처리
#     for item in data:
#         if isinstance(item, list):  # 문자열 리스트인 경우
#             merged_text = " ".join(item)
#             processed_text = preprocess_text(merged_text)
#         elif isinstance(item, str):  # 문자열인 경우
#             processed_text = preprocess_text(item)
#         else:
#             continue  # 알 수 없는 형식은 건너뜀

#         results.append(processed_text)

#     # 결과 저장
#     with open(output_file, "w", encoding="utf-8") as f:
#         json.dump(results, f, ensure_ascii=False, indent=4)


# # 실행
#     # 입력 및 출력 파일 경로
# input_file = "merged_texts.txt"  # 문자열과 문자열 리스트가 섞인 txt 파일
# output_file = "cleaned.txt"

# # 텍스트 파일 처리
# process_text_file(input_file, output_file)
# print(f"처리된 데이터가 '{output_file}'에 저장되었습니다.")

처리된 데이터가 'cleaned.txt'에 저장되었습니다.


In [71]:
data = load_json('data/video_comments.json')

processed_data = {}

for category, videos in data.items():
    processed_data[category] = []  # 카테고리별 리스트 생성
    
    for video in videos:
        video_id = video["video_id"]
        comments = video.get("comments", [])

        # 댓글 텍스트 정리 적용
        cleaned_comments = [clean_text(comment) for comment in comments]
        
        # 저장 형식 유지
        processed_data[category].append({"video_id": video_id, "comments": cleaned_comments})

# 총 문장 수 계산
total_sentences = sum(len(value) for value in processed_data.values())
print(f"총 문장 수: {total_sentences}")
        
save_to_json(processed_data, 'cleaned_video_comments.json')

총 문장 수: 238
데이터 저장: data/cleaned_video_comments.json


# 토크나이저 생성 Soynlp

In [22]:
from soynlp.tokenizer import MaxScoreTokenizer
from soynlp.utils import DoublespaceLineCorpus
from soynlp.tokenizer import LTokenizer
from soynlp.word import WordExtractor

# Load the cleaned video comments
data = load_json('data/cleaned_video_comments.json')

# 모든 댓글을 하나의 텍스트로 합치기 (카테고리 구조 유지)
corpus = []
for category, videos in data.items():
    for video in videos:
        comments = video.get("comments", [])
        corpus.extend(comments)  # 모든 댓글을 하나의 리스트로 추가

# DoublespaceLineCorpus 객체 생성
corpus[5]

# WordExtractor 객체 생성 및 학습
word_extractor = WordExtractor()
word_extractor.train(corpus)
word_scores = word_extractor.extract()

word_scores["윤석열"]


training was done. used memory 1.182 Gbory 0.875 Gb
all cohesion probabilities was computed. # words = 49846
all branching entropies was computed # words = 83419
all accessor variety was computed # words = 83419


Scores(cohesion_forward=np.float64(0.6554912257227551), cohesion_backward=np.float64(0.29004652062554404), left_branching_entropy=3.791747353178408, right_branching_entropy=2.8167883720666143, left_accessor_variety=86, right_accessor_variety=55, leftside_frequency=895, rightside_frequency=53)

In [23]:
from soynlp.tokenizer import LTokenizer
from soynlp.noun import LRNounExtractor_v2

cohesion_score = {word:score.cohesion_forward for word, score in word_scores.items()}

tokenizer = MaxScoreTokenizer(scores=cohesion_score)


noun_extractor = LRNounExtractor_v2()
nouns = noun_extractor.train_extract(corpus) # list of str like

noun_scores = {noun:score.score for noun, score in nouns.items()}
combined_scores = {noun:score + cohesion_score.get(noun, 0)
    for noun, score in noun_scores.items()}
combined_scores.update(
    {subword:cohesion for subword, cohesion in cohesion_score.items()
    if not (subword in combined_scores)}
)


# Load the cleaned video comments
data = load_json('data/cleaned_video_comments.json')
tokenizer = LTokenizer(scores=combined_scores)

# Tokenize each comment
tokenized_comments = {}

for category, videos in data.items():
    tokenized_comments[category] = []  # 카테고리별 리스트 생성

    for video in videos:
        video_id = video["video_id"]
        comments = video.get("comments", [])

        # 댓글을 토큰화
        tokenized = [tokenizer.tokenize(comment) for comment in comments]

        # 구조 유지
        tokenized_comments[category].append({"video_id": video_id, "tokenized_comments": tokenized})


# Save the tokenized comments back to JSON
save_to_json(tokenized_comments, 'tokenized_video_comments.json')



[Noun Extractor] use default predictors
[Noun Extractor] num features: pos=3929, neg=2321, common=107
[Noun Extractor] counting eojeols
[EojeolCounter] n eojeol = 215196 from 86878 sents. mem=1.190 Gb                    
[Noun Extractor] complete eojeol counter -> lr graph
[Noun Extractor] has been trained. #eojeols=643051, mem=1.455 Gb
[Noun Extractor] batch prediction was completed for 66369 words
[Noun Extractor] checked compounds. discovered 40896 compounds
[Noun Extractor] postprocessing detaching_features : 52429 -> 39486
[Noun Extractor] postprocessing ignore_features : 39486 -> 39194
[Noun Extractor] postprocessing ignore_NJ : 39194 -> 38448
[Noun Extractor] 38448 nouns (40896 compounds) with min frequency=1
[Noun Extractor] flushing was done. mem=1.294 Gb                    
[Noun Extractor] 65.61 % eojeols are covered
데이터 저장: data/tokenized_video_comments.json


In [24]:
from soynlp.noun import LRNounExtractor_v2
noun_extractor = LRNounExtractor_v2()
nouns = noun_extractor.train_extract(corpus) # list of str like

noun_scores = {noun:score.score for noun, score in nouns.items()}
combined_scores = {noun:score + cohesion_score.get(noun, 0)
    for noun, score in noun_scores.items()}
combined_scores.update(
    {subword:cohesion for subword, cohesion in cohesion_score.items()
    if not (subword in combined_scores)}
)

tokenizer = LTokenizer(scores=combined_scores)

[Noun Extractor] use default predictors
[Noun Extractor] num features: pos=3929, neg=2321, common=107
[Noun Extractor] counting eojeols
[EojeolCounter] n eojeol = 215196 from 86878 sents. mem=1.132 Gb                    
[Noun Extractor] complete eojeol counter -> lr graph
[Noun Extractor] has been trained. #eojeols=643051, mem=1.184 Gb
[Noun Extractor] batch prediction was completed for 66369 words
[Noun Extractor] checked compounds. discovered 40896 compounds
[Noun Extractor] postprocessing detaching_features : 52429 -> 39486
[Noun Extractor] postprocessing ignore_features : 39486 -> 39194
[Noun Extractor] postprocessing ignore_NJ : 39194 -> 38448
[Noun Extractor] 38448 nouns (40896 compounds) with min frequency=1
[Noun Extractor] flushing was done. mem=1.269 Gb                    
[Noun Extractor] 65.61 % eojeols are covered


# Konlpy

In [25]:
from konlpy.tag import Okt

okt = Okt()
data = load_json('data/cleaned_video_comments.json')

# Tokenize each comment using Okt
tokenized_comments_okt = {}
for category, videos in data.items():
    tokenized_comments_okt[category] = []  # 카테고리별 리스트 생성

    for video in videos:
        video_id = video["video_id"]
        comments = video.get("comments", [])

        # 댓글을 형태소 분석하여 토큰화
        tokenized = [okt.morphs(comment) for comment in comments]

        # 구조 유지
        tokenized_comments_okt[category].append({"video_id": video_id, "tokenized_comments": tokenized})

# Save the tokenized comments back to JSON
save_to_json(tokenized_comments_okt, 'okt_tokenized_video_comments.json')





데이터 저장: data/okt_tokenized_video_comments.json


In [26]:
# Extract nouns from each comment using Okt
nouns_comments_okt = {}
for category, videos in data.items():
    nouns_comments_okt[category] = []  # 카테고리별 리스트 생성

    for video in videos:
        video_id = video["video_id"]
        comments = video.get("comments", [])

        # 댓글에서 명사만 추출
        extracted_nouns = [okt.nouns(comment) for comment in comments]

        # 구조 유지
        nouns_comments_okt[category].append({"video_id": video_id, "nouns": extracted_nouns})


# Save the nouns extracted comments back to JSON
save_to_json(nouns_comments_okt, 'okt_nouns_video_comments.json')

데이터 저장: data/okt_nouns_video_comments.json


# Kiwi

In [70]:
from kiwipiepy import Kiwi

# Kiwi 객체 생성
kiwi = Kiwi()

# Load the cleaned video comments
data = load_json('data/cleaned_video_comments.json')

corpus = []
for category, videos in data.items():
    for video in videos:
        comments = video.get("comments", [])
        corpus.extend(comments)  # 모든 댓글을 하나의 리스트로 추가

kiwi.extract_add_words(corpus)





[('반국가세력', 0.5480024814605713, 76, -1.5345635414123535),
 ('곽종근', 0.5139729380607605, 119, -2.7739651203155518),
 ('부정선거', 0.4741281569004059, 575, -2.10939621925354),
 ('딥페이크', 0.3987986743450165, 91, -2.4564383029937744),
 ('자유대한민국', 0.3961898982524872, 179, -2.89668607711792),
 ('다대한민국', 0.3665927052497864, 49, -2.0551440715789795),
 ('탄핵반대', 0.3618530035018921, 224, -1.878380537033081),
 ('찬성집회', 0.3450433909893036, 51, -1.5257374048233032),
 ('니다대한민국', 0.33699408173561096, 26, -1.5568251609802246),
 ('란수괴', 0.33526986837387085, 170, -2.487471342086792),
 ('윤대통령', 0.32256072759628296, 325, -0.2791236937046051),
 ('온앤오프', 0.3092728555202484, 169, -2.5341715812683105),
 ('양자컴퓨터', 0.3085829019546509, 66, -0.8343412280082703),
 ('박근혜대통령', 0.2979728579521179, 41, -1.4679926633834839),
 ('태균', 0.29359349608421326, 531, -2.337681531906128),
 ('반대집회', 0.2841551899909973, 67, -1.4197840690612793),
 ('플레이브', 0.280100017786026, 183, -1.9951273202896118),
 ('박정희대통령', 0.26961392164230347, 11, -

In [11]:
from kiwipiepy.utils import Stopwords
stopwords = Stopwords()

# ✅ Kiwi를 이용한 토큰화 & 명사 추출
tokenized_nouns = {}
stopwords = Stopwords()

data = load_json('data/cleaned_video_comments.json')

for category, videos in data.items():
    tokenized_nouns[category] = []  # 카테고리별 리스트 생성

    for video in videos:
        video_id = video["video_id"]
        comments = video.get("comments", [])

        # 댓글을 형태소 분석 후 명사만 추출
        tokenized = []
        for comment in comments:
            tokens = kiwi.tokenize(comment)  # 형태소 분석
            nouns = [
                token.form for token in tokens
                if token.tag in ["NNG", "NNP"]  # 명사(NNG, NNP)만 추출
                and len(token.form) > 1  # 1글자 제외
                and (token.form, token.tag) not in stopwords  # ✅ 수정된 필터링
            ]
            tokenized.append(nouns)

        # 구조 유지
        tokenized_nouns[category].append({"video_id": video_id, "nouns": tokenized})

# ✅ 결과 JSON 저장
save_to_json(tokenized_nouns, 'kiwi_nouns_video_comments.json')

데이터 저장: data/kiwi_nouns_video_comments.json


# KRWordRank(kiwi)

In [None]:
# Load the cleaned video comments
data = load_json('data/kiwi_nouns_video_comments.json')

# ✅ 데이터를 `merge_values` 함수에 맞게 변형
# (카테고리 → 비디오 → 명사 리스트 구조를 `merge_values`에서 처리할 수 있도록 변형)
transformed_data = {}

for category, videos in data.items():
    transformed_data[category] = []  # 카테고리별 리스트 생성

    for video in videos:
        video_id = video["video_id"]
        nouns = video.get("nouns", [])  # 명사 리스트 가져오기

        # 명사 리스트를 하나의 리스트로 평탄화 (nested list 제거)
        flat_nouns = [word for noun_list in nouns for word in noun_list]

        # 병합할 데이터로 변환
        transformed_data[category].append(flat_nouns)
# ✅ `merge_values` 적용
processed_data = merge_values(transformed_data)

save_to_json(processed_data,'kiwi_data.json')


     

데이터 저장: data/kiwi_data.json


In [28]:
from krwordrank.word import KRWordRank

min_count = 10   # 단어의 최소 출현 빈도수 (그래프 생성 시)
max_length = 10 # 단어의 최대 길이
wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)

data = load_json('data/kiwi_data.json')

documents = list(data.values())  # 각 영상의 댓글을 리스트로 저장
#save_to_json(documents, "zzzzzz.json")
#save_to_json(documents,"kkkkkkkk.json")
beta = 0.85    # PageRank의 감쇄 계수
max_iter = 10  # 반복 횟수

keywords, rank, graph = wordrank_extractor.extract(documents, beta, max_iter)

top_keywords = sorted(keywords.items(), key=lambda x: x[1], reverse=True)[:100]

In [29]:
top_keywords

[('영상', 25.502771313687216),
 ('중국', 25.074480449318674),
 ('감사', 22.73052987677838),
 ('나라', 21.934993295355003),
 ('국민', 19.50593275415689),
 ('민주', 16.632856910458496),
 ('생각', 16.579941894027638),
 ('대통령', 16.24687301827613),
 ('미국', 15.288325852647821),
 ('한국', 14.855848868533247),
 ('선수', 12.069327406563033),
 ('탄핵', 11.228954217748734),
 ('언론', 10.513135664646446),
 ('응원', 10.29886196699711),
 ('대한', 10.186445433564293),
 ('사랑', 9.651541204189082),
 ('인간', 9.58221759097418),
 ('광주', 9.39334142255769),
 ('게임', 8.721073688402956),
 ('윤석열', 8.344642215758588),
 ('최고', 8.114560166445347),
 ('아이', 8.063425272705212),
 ('이상', 7.720615919002939),
 ('문제', 7.538474090864509),
 ('정도', 7.48857273174012),
 ('사용', 7.15719455600075),
 ('내란', 7.041447022052002),
 ('노래', 6.999396110327232),
 ('이재명', 6.977740407384103),
 ('정치', 6.846065123879742),
 ('자유', 6.807886469390505),
 ('방송', 6.776148208969578),
 ('국회', 6.696478355776185),
 ('트럼프', 6.694016136806612),
 ('이번', 6.667760698942341),
 ('소리', 6

# -------------------------------
# KRWordrank(konlpy)

In [None]:
# Load the cleaned video comments
data = load_json('data/okt_nouns_video_comments.json')

    
# ✅ 데이터를 `merge_values` 함수에 맞게 변형
# (카테고리 → 비디오 → 명사 리스트 구조를 `merge_values`에서 처리할 수 있도록 변형)
transformed_data = {}

for category, videos in data.items():
    transformed_data[category] = []  # 카테고리별 리스트 생성

    for video in videos:
        video_id = video["video_id"]
        nouns = video.get("nouns", [])  # 명사 리스트 가져오기

        # 명사 리스트를 하나의 리스트로 평탄화 (nested list 제거)
        flat_nouns = [word for noun_list in nouns for word in noun_list]

        # 병합할 데이터로 변환
        transformed_data[category].append(flat_nouns)
# ✅ `merge_values` 적용
processed_data = merge_values(transformed_data)

save_to_json(processed_data,'konlpy_data.json')

데이터 저장: data/konlpy_data.json


In [None]:
min_count = 10   # 단어의 최소 출현 빈도수 (그래프 생성 시)
max_length = 10 # 단어의 최대 길이
wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)

data = load_json('data/konlpy_data.json')

documents = list(data.values())  # 각 영상의 댓글을 리스트로 저장

beta = 0.85    # PageRank의 감쇄 계수
max_iter = 10  # 반복 횟수

keywords, rank, graph = wordrank_extractor.extract(documents, beta, max_iter)

top_keywords = sorted(keywords.items(), key=lambda x: x[1], reverse=True)[:100]
save_to_json(top_keywords,"all_keywords_ranking.json")



데이터 저장: data/all_keywords_ranking.json


'\nfrom krwordrank.word import KRWordRank\n\nmin_count = 10   # 단어의 최소 출현 빈도수 (그래프 생성 시)\nmax_length = 10  # 단어의 최대 길이\nbeta = 0.85      # PageRank의 감쇄 계수\nmax_iter = 10    # 반복 횟수\n\ndata = load_json(\'data/konlpy_data.json\')\n\ncategory_keywords = {}\ni = 1\nfor category, videos in data.items():\n    \n    if not documents:  # 빈 리스트 방지\n        continue\n\n    wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)\n    save_to_json(videos, f"del{category}")\n    # 카테고리별 키워드 추출\n    keywords, rank, graph = wordrank_extractor.extract([videos], beta, max_iter)\n    \n    # 키워드 랭킹 정렬 후 저장\n    top_keywords = sorted(keywords.items(), key=lambda x: x[1], reverse=True)[:100]\n    category_keywords[category] = top_keywords\n'

In [None]:
top_keywords   

[]

#카테고리별 전체 랭킹을 추출하기 위한 전처리 및 정리 단계 (최종적으로 나온 결과에 가중치 부여 할거임). all_categories 디렉토리에 각 카테고리의 댓글을 json파일로 저장

In [73]:
import os
import json

# 데이터 로드
data = load_json('data/konlpy_data.json')

# 저장할 디렉토리 설정
output_dir = "all_categories"

# 디렉토리 없으면 생성
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 각 카테고리별 JSON 파일 저장
for category, videos in data.items():
    # 영상들의 댓글 리스트를 하나의 문자열로 변환하여 저장
    documents = [comment for video_comments in videos for comment in video_comments]
    category_text = "".join(documents)  # 모든 댓글을 하나의 문자열로 합침 (공백으로 구분)

    # 카테고리별 JSON 파일 저장 (파일명은 카테고리명 그대로)
    category_file_path = os.path.join(output_dir, f"{category}.json")
    with open(category_file_path, "w", encoding="utf-8") as f:
        json.dump([category_text], f, ensure_ascii=False, indent=4)  # 문자열을 리스트에 넣어 저장

print(f"✅ 각 카테고리별 JSON 파일이 '{output_dir}' 디렉토리에 저장되었습니다.")


✅ 각 카테고리별 JSON 파일이 'all_categories' 디렉토리에 저장되었습니다.


#카테고리별 키워드 랭킹 추출 (지금은 kiwi가 훈련이 안되어 있어서 쓰레기 데이터가 추출됨) ver1 (category_keywords_ranking.json 파일에 모든 카테고리의 키워드 랭킹을 저장)

그리고 지훈이가 짠 코드가 추출하는 all_keywords_ranking.json 파일은 카테고리별로 분류가 안되니까, 모델 훈련 뒤에 category_keywords_ranking.json 로 하는게 나을듯

In [None]:
import os
import json
from krwordrank.word import KRWordRank

# KRWordRank 설정
min_count = 10   # 단어의 최소 출현 빈도수
max_length = 10  # 단어의 최대 길이
beta = 0.85      # PageRank의 감쇄 계수
max_iter = 10    # 반복 횟수

# `all_categories` 폴더에서 JSON 파일 불러오기
input_dir = "all_categories"
category_keywords = {}
all_documents = []  # 전체 데이터를 저장할 리스트

for filename in os.listdir(input_dir):
    if filename.endswith(".json"):
        category_path = os.path.join(input_dir, filename)
        
        # JSON 파일 로드
        with open(category_path, "r", encoding="utf-8") as f:
            data = json.load(f)
        
        category = filename.replace(".json", "")  # 파일명에서 확장자 제거하여 카테고리명으로 사용
        text = data[0] if data else ""  # 리스트 내 첫 번째 요소(문자열) 가져오기
        
        # 텍스트를 공백 단위로 분리하여 문서 리스트 생성
        documents = text.split(" ")

        # 전체 데이터에 추가 (전체 키워드 분석용)
        all_documents.extend(documents)

        # 문서 내 단어가 2개 이상 있어야 KRWordRank 실행 가능
        if len(documents) < 2:
            print(f"⚠️  {category} 카테고리에 단어가 부족하여 키워드 추출을 건너뜀")
            continue

        # 카테고리별 키워드 추출
        wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)
        keywords, rank, graph = wordrank_extractor.extract(documents, beta, max_iter)

        # 상위 100개 키워드 추출
        top_keywords = sorted(keywords.items(), key=lambda x: x[1], reverse=True)[:100]
        category_keywords[category] = top_keywords

# ✅ 카테고리별 키워드 랭킹 저장
save_to_json(category_keywords, "category_keywords_ranking.json")

print("✅ 각 카테고리별 키워드 랭킹이 'category_keywords_ranking.json' 파일에 저장되었습니다.")

# ✅ 전체 데이터를 한 번에 분석하여 키워드 랭킹 추출
if len(all_documents) >= 2:  # 최소 두 개의 단어가 있어야 함
    wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)
    keywords, rank, graph = wordrank_extractor.extract(all_documents, beta, max_iter)

    # 상위 100개 키워드 추출
    top_keywords = sorted(keywords.items(), key=lambda x: x[1], reverse=True)[:100]
    save_to_json(top_keywords, "all_keywords_ranking.json")

    print("✅ 전체 키워드 랭킹이 'all_keywords_ranking.json' 파일에 저장되었습니다.")
else:
    print("⚠️ 전체 데이터에 단어가 부족하여 키워드 랭킹을 생성할 수 없음.")


⚠️  Pets & Animals 카테고리에 단어가 부족하여 키워드 추출을 건너뜀
데이터 저장: data/category_keywords_ranking.json
✅ 각 카테고리별 키워드 랭킹이 'category_keywords_ranking.json' 파일에 저장되었습니다.
데이터 저장: data/all_keywords_ranking.json
✅ 전체 키워드 랭킹이 'all_keywords_ranking.json' 파일에 저장되었습니다.


'\n    \nmin_count = 10   # 단어의 최소 출현 빈도수 (그래프 생성 시)\nmax_length = 10 # 단어의 최대 길이\nwordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)\n\ndata = load_json(\'data/konlpy_data.json\')\n\ndocuments = list(data.values())  # 각 영상의 댓글을 리스트로 저장\n\nbeta = 0.85    # PageRank의 감쇄 계수\nmax_iter = 10  # 반복 횟수\n\nkeywords, rank, graph = wordrank_extractor.extract(documents, beta, max_iter)\n\ntop_keywords = sorted(keywords.items(), key=lambda x: x[1], reverse=True)[:100]\nsave_to_json(top_keywords,"all_keywords_ranking.json")    \n    '

#카테고리별 키워드 랭킹 추출 ver2 (바로 위의 코드와 비슷함) (category_ranking 디렉토리에 카테고리별로 키워드 랭킹이 json파일로 생성되는 코드)

In [69]:
import os
import json
from krwordrank.word import KRWordRank

# KRWordRank 설정
min_count = 10   # 단어의 최소 출현 빈도수
max_length = 10  # 단어의 최대 길이
beta = 0.85      # PageRank의 감쇄 계수
max_iter = 10    # 반복 횟수

# 입력 디렉토리 (all_categories)
input_dir = "all_categories"

# 출력 디렉토리 (category_ranking) 생성
output_dir = "category_ranking"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 각 카테고리별 키워드 랭킹 추출
for filename in os.listdir(input_dir):
    if filename.endswith(".json"):
        category_path = os.path.join(input_dir, filename)
        
        # JSON 파일 로드
        with open(category_path, "r", encoding="utf-8") as f:
            data = json.load(f)
        
        category = filename.replace(".json", "")  # 파일명에서 확장자 제거하여 카테고리명으로 사용
        text = data[0] if data else ""  # 리스트 내 첫 번째 요소(문자열) 가져오기
        
        # 텍스트를 공백 단위로 분리하여 문서 리스트 생성
        documents = text.split(" ")

        # 문서 내 단어가 2개 이상 있어야 KRWordRank 실행 가능
        if len(documents) < 2:
            print(f"⚠️  {category} 카테고리에 단어가 부족하여 키워드 추출을 건너뜀")
            continue

        """
        ✅ 각 카테고리별 키워드 랭킹 추출
        """
        wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)
        keywords, rank, graph = wordrank_extractor.extract(documents, beta, max_iter)

        # 상위 100개 키워드 추출
        top_keywords = sorted(keywords.items(), key=lambda x: x[1], reverse=True)[:100]

        # 결과 저장 (각 카테고리별 JSON 파일을 `category_ranking` 폴더에 저장)
        ranking_file = os.path.join(output_dir, f"{category}_ranking.json")
        with open(ranking_file, "w", encoding="utf-8") as f:
            json.dump(top_keywords, f, ensure_ascii=False, indent=4)

        print(f"✅ {category} 카테고리 키워드 랭킹이 '{ranking_file}' 파일에 저장되었습니다.")


✅ Film & Animation 카테고리 키워드 랭킹이 'category_ranking/Film & Animation_ranking.json' 파일에 저장되었습니다.
✅ Music 카테고리 키워드 랭킹이 'category_ranking/Music_ranking.json' 파일에 저장되었습니다.
⚠️  Pets & Animals 카테고리에 단어가 부족하여 키워드 추출을 건너뜀
✅ Entertainment 카테고리 키워드 랭킹이 'category_ranking/Entertainment_ranking.json' 파일에 저장되었습니다.
✅ News & Politics 카테고리 키워드 랭킹이 'category_ranking/News & Politics_ranking.json' 파일에 저장되었습니다.
✅ Gaming 카테고리 키워드 랭킹이 'category_ranking/Gaming_ranking.json' 파일에 저장되었습니다.
✅ Sports 카테고리 키워드 랭킹이 'category_ranking/Sports_ranking.json' 파일에 저장되었습니다.
✅ Science & Technology 카테고리 키워드 랭킹이 'category_ranking/Science & Technology_ranking.json' 파일에 저장되었습니다.


# 제목, 태그 가중치

In [12]:
data = load_json('data/raw_video_data.json')

In [13]:
title_tag = merge_title_tags(data)
print(title_tag[0])

김어준의 겸손은힘들다 뉴스공장 2025년 2월 17일 월요일 [강기정, 노영희, 박선원, 김경호, 박범계, 여론조사]


In [14]:
cleaned_texts = []

cleaned_texts = [clean_text(text) for text in title_tag]
    
cleaned_texts

ko_spacing = Spacing()

merged_sentences = [ko_spacing(text) for text in cleaned_texts]

merged_sentences





NameError: name 'Spacing' is not defined

In [18]:
# Kiwi를 이용한 명사 추출
kiwi_nouns_sentences = []

for text in merged_sentences:
    tokens = kiwi.tokenize(text)
    nouns = [token.form for token in tokens if token.tag in ["NNG", "NNP"] and len(token.form) > 1]
    kiwi_nouns_sentences.append(nouns)

kiwi_nouns_sentences

NameError: name 'merged_sentences' is not defined

In [20]:
merged_sentences = []

for values in kiwi_nouns_sentences:
    if isinstance(values, list):  # 값이 리스트인지 확인
        merged_sentence = " ".join(
            s for s in values if s.strip() and len(s.strip()) > 1
        )  # 빈 문자열 & 한 글자 제외 후 공백으로 연결
        merged_sentences.append(merged_sentence)
    


beta = 0.85    # PageRank의 감쇄 계수
max_iter = 10  # 반복 횟수

keywords, rank, graph = wordrank_extractor.extract(merged_sentences, beta, max_iter)

top_keywords = sorted(keywords.items(), key=lambda x: x[1], reverse=True)[:100]

ValueError: ('The graph should consist of at least two nodes\n', 'The node size of inserted graph is 0')

In [21]:
top_keywords

[('광주', 21.883339764024786),
 ('대통령', 21.14930802419712),
 ('국민', 21.066524360917278),
 ('민주', 17.903521408605034),
 ('중국', 14.755495150088827),
 ('미국', 14.219984383747393),
 ('나라', 13.290342295229914),
 ('사람', 12.697506902207595),
 ('우리', 12.120483967025589),
 ('탄핵', 12.114412133709308),
 ('대한', 11.135607329155505),
 ('한동훈', 10.879634026849658),
 ('언론', 10.203989812207837),
 ('윤석열', 9.996447768514912),
 ('한국', 8.879613386251465),
 ('자유', 8.581780161186199),
 ('정치', 8.448722047613371),
 ('생각', 8.13896711204735),
 ('인간', 7.869204905101948),
 ('트럼프', 7.204134168729392),
 ('내란', 7.20330227348747),
 ('지금', 6.771218567348587),
 ('진짜', 6.766817801477181),
 ('좌파', 6.467655625686199),
 ('정말', 6.44997889860016),
 ('이재명', 6.442539967645999),
 ('계엄', 6.384078296097432),
 ('집회', 6.263202683852292),
 ('방송', 6.197539372900395),
 ('시민', 6.101414643916003),
 ('쓰레기', 5.9595224050726365),
 ('김건희', 5.930262026673098),
 ('응원', 5.789553527904718),
 ('거짓', 5.788991450295141),
 ('국회', 5.730767645232271),
 ('

# TF-IDF

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# ✅ 예제 키워드 리스트 (제목 + 태그 조합)
data = load_json('data/kiwi_data.json')

documents = list(data.values())  # 각 영상 댓글을 리스트로 저장

# ✅ TF-IDF 모델 적용
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)

# ✅ 키워드별 TF-IDF 점수 계산
feature_names = vectorizer.get_feature_names_out()
word_tfidf_scores = tfidf_matrix.sum(axis=0).A1
sorted_indices = word_tfidf_scores.argsort()[::-1]  # 중요도 높은 순으로 정렬
keywords_ranked = [(feature_names[i], word_tfidf_scores[i]) for i in sorted_indices]

# ✅ 상위 10개 키워드 출력
df_keywords = pd.DataFrame(keywords_ranked, columns=["키워드", "TF-IDF 점수"])
print(df_keywords.head(50))

     키워드  TF-IDF 점수
0     국민   0.312915
1     광주   0.268098
2     나라   0.267983
3    민주당   0.259020
4    대통령   0.238910
5     미국   0.204320
6     중국   0.182256
7   대한민국   0.177315
8     감사   0.140772
9     언론   0.134911
10    탄핵   0.133877
11    한국   0.130659
12   한동훈   0.128016
13    생각   0.124569
14   윤석열   0.119742
15    인간   0.115260
16   트럼프   0.103654
17    좌파   0.100206
18    의원   0.098368
19    정치   0.093197
20   이재명   0.091128
21    집회   0.088485
22    내란   0.088370
23    검찰   0.086646
24    방송   0.085153
25    헌재   0.084003
26    계엄   0.081705
27    응원   0.078487
28    국가   0.076994
29  부정선거   0.076879
30    자유   0.075500
31   전라도   0.075040
32   쓰레기   0.073086
33    국회   0.070558
34    보수   0.068605
35    수사   0.068375
36   거짓말   0.066881
37    정신   0.065962
38    구속   0.063778
39    소리   0.062054
40    기자   0.060790
41    장성   0.059411
42   김현정   0.057803
43    북한   0.057458
44    극우   0.055734
45  광주시민   0.055389
46    문제   0.054815
47   변호사   0.054240
48   김건희   0.053321


# 키워드

In [78]:
data = load_json('data/kiwi_data.json')

# Load the raw video data
raw_data = load_json('data/raw_video_data.json')

# Extract view count and like count for each video id
view_like_counts = {}
for video_id, text in data.items():
    for category, videos in raw_data.items():
        for video in videos:
            if video["video_id"] == video_id:
                view_like_counts[video_id] = {
                    "view_count": video["view_count"],
                    "like_count": video["like_count"],
                    "text": text
                }
                break

save_to_json(view_like_counts, 'view_like_counts.json')

데이터 저장: data/view_like_counts.json


# keyword 좋아요, 조회수

In [26]:
data = load_json('data/view_like_counts.json')

from collections import defaultdict
import pandas as pd


# ✅ 키워드별로 조회수 & 좋아요를 저장할 딕셔너리
keyword_stats = defaultdict(lambda: {"view_count": 0, "like_count": 0, "등장 횟수": 0})

# ✅ 각 비디오에서 키워드별 조회수 & 좋아요 점수 합산
for video_id, info in data.items():
    text = info["text"]
    view_count = info["view_count"]
    like_count = info["like_count"]

    # 🔥 키워드 빈도 계산
    word_list = text.split()
    word_counts = defaultdict(int)
    for word in word_list:
        word_counts[word] += 1

    # 🔥 키워드별 점수 부여 (비디오의 점수를 해당 키워드에 분배)
    for word, count in word_counts.items():
        keyword_stats[word]["view_count"] += (view_count * count) / len(word_list)
        keyword_stats[word]["like_count"] += (like_count * count) / len(word_list)
        keyword_stats[word]["등장 횟수"] += count

# ✅ 키워드별 정렬 (조회수 기준)
sorted_keywords = sorted(keyword_stats.items(), key=lambda x: x[1]["view_count"], reverse=True)

# ✅ 데이터프레임 생성
df_keywords = pd.DataFrame([(k, v["view_count"], v["like_count"], v["등장 횟수"]) for k, v in sorted_keywords],
                           columns=["키워드", "조회수", "좋아요", "등장 횟수"])

# ✅ 상위 10개 키워드 출력
print(df_keywords.head(100))


Empty DataFrame
Columns: [키워드, 조회수, 좋아요, 등장 횟수]
Index: []


In [27]:
from krwordrank.word import KRWordRank
from collections import defaultdict
import pandas as pd

# ✅ KRWordRank를 적용할 텍스트 리스트 생성
texts = [info["text"] for info in data.values()]

print(texts)
# ✅ KRWordRank 모델 적용
wordrank_extractor = KRWordRank(min_count=1, max_length=10, verbose=False)
keywords, rank, graph = wordrank_extractor.extract(texts, beta=0.85, max_iter=10)

print(keywords)

# ✅ 키워드별 조회수 & 좋아요 반영할 딕셔너리
keyword_stats = defaultdict(lambda: {"view_count": 0, "like_count": 0, "점수": 0})

# ✅ 각 비디오에서 키워드별 조회수 & 좋아요 점수 합산
for video_id, info in data.items():
    text = info["text"]
    view_count = info["view_count"]
    like_count = info["like_count"]

    # 🔥 KRWordRank에서 추출한 키워드가 해당 문장에 포함되어 있는지 확인
    for keyword in keywords.keys():
        if keyword in text:
            keyword_stats[keyword]["view_count"] += view_count
            keyword_stats[keyword]["like_count"] += like_count
            keyword_stats[keyword]["점수"] += rank.get(keyword, 0) * (view_count * 0.7 + like_count * 0.3)  # ✅ KeyError 방지

# ✅ 키워드별 정렬 (점수 기준)
sorted_keywords = sorted(keyword_stats.items(), key=lambda x: x[1]["점수"], reverse=True)

# ✅ 데이터프레임 생성
df_keywords = pd.DataFrame([(k, v["view_count"], v["like_count"], v["점수"]) for k, v in sorted_keywords],
                           columns=["키워드", "조회수", "좋아요", "점수"])

# ✅ 상위 10개 키워드 출력
print(df_keywords.head(10))



[]


ValueError: ('The graph should consist of at least two nodes\n', 'The node size of inserted graph is 0')

# 인기동영상의 키워드에는 가중치 부여

kiwi_nouns_video_comments 댓글을 4등분 후 댓글 평탄화
예시
{
    "News & Politics": [
        {
            "video_id": "IC3iNhz02l0",
            "nouns": [
                [
                    "윤석열",
                    "변호인",....


In [15]:

import json

# ✅ JSON 파일 불러오기
file_path = "data/kiwi_nouns_video_comments.json"

with open(file_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# ✅ 카테고리별 4등분 및 평탄화
ranked_groups = {}

for category, videos in data.items():
    total_videos = len(videos)
    quarter_size = max(1, total_videos // 4)  # 최소 1개 유지

    # ✅ 4개 그룹으로 나누기
    ranked_groups[category] = {
        "1_25": videos[:quarter_size],  # 상위 25%
        "25_50": videos[quarter_size : quarter_size * 2],  # 25% ~ 50%
        "50_75": videos[quarter_size * 2 : quarter_size * 3],  # 50% ~ 75%
        "75_100": videos[quarter_size * 3 :]  # 75% ~ 100%
    }

# ✅ 각 그룹별 평탄화 진행
flattened_groups = {}



for category, groups in ranked_groups.items():
    flattened_groups[category] = {}

    for group_name, group_videos in groups.items():
        # ✅ 명사(nouns) 리스트를 평탄화
        all_nouns = [
            word for video in group_videos if isinstance(video, dict) and "nouns" in video
            for noun_list in video["nouns"]
            for word in noun_list
        ]
        flattened_groups[category][group_name] = all_nouns

# ✅ 결과 저장
output_path = "data/flattened_nouns_groups.json"
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(flattened_groups, f, indent=4, ensure_ascii=False)

print(f"✅ 데이터가 '{output_path}'에 저장되었습니다!")


✅ 데이터가 'data/flattened_nouns_groups.json'에 저장되었습니다!


평탄화된 각 그룹마다 noun의 문자열 만들기.

예시 
{
    "News & Politics": {
        "1_25": "윤석열 변호인 이야기 쓰레기 느낌 처리 나라 장원 진술 거짓 프로젝트 초등 아이 아이 평생 추억 가족 단위 계획 생각 형제 나라 일반 우쭈쭈 생각 트럼프 형제 형제 생각 김어준 자기 과시 확인 진상

In [16]:
import json

# ✅ JSON 파일 로드
file_path = "data/flattened_nouns_groups.json"

with open(file_path, "r", encoding="utf-8") as f:
    flattened_data = json.load(f)

# ✅ 각 그룹별 명사 리스트를 하나의 문자열로 변환
group_texts = {}

for category, groups in flattened_data.items():
    group_texts[category] = {}

    for group_name, all_nouns in groups.items():
        # ✅ 명사 리스트를 공백으로 연결하여 문자열로 변환
        group_text = " ".join(all_nouns)
        group_texts[category][group_name] = group_text

# ✅ 결과 저장
output_path = "data/group_texts.json"
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(group_texts, f, indent=4, ensure_ascii=False)

print(f"✅ 각 그룹별 문자열 변환 완료! '{output_path}'에 저장되었습니다.")


✅ 각 그룹별 문자열 변환 완료! 'data/group_texts.json'에 저장되었습니다.


각 카테고리의 각 그룹을 categories 디렉토리에 json파일로 저장

In [17]:
import json
import os

# ✅ JSON 파일 로드
file_path = "data/group_texts.json"
output_dir = "data/categories"  # 저장될 디렉토리

# ✅ 저장할 디렉토리가 없으면 생성
os.makedirs(output_dir, exist_ok=True)

with open(file_path, "r", encoding="utf-8") as f:
    group_texts = json.load(f)  # 전체 데이터 로드

# ✅ 각 카테고리별 구역을 개별 JSON 파일로 저장
for category, groups in group_texts.items():
    for group_name, text in groups.items():
        # ✅ 파일명 생성 (예: News & Politics_1_25.json)
        safe_category = category.replace(" ", "_")  # 공백 제거
        file_name = f"{safe_category}_{group_name}.json"
        file_path = os.path.join(output_dir, file_name)

        # ✅ JSON 저장
        with open(file_path, "w", encoding="utf-8") as f:
            json.dump(text, f, indent=4, ensure_ascii=False)

        print(f"✅ {file_name} 저장 완료!")

print("✅ 모든 카테고리의 구역 JSON 파일 저장이 완료되었습니다!")


✅ News_&_Politics_1_25.json 저장 완료!
✅ News_&_Politics_25_50.json 저장 완료!
✅ News_&_Politics_50_75.json 저장 완료!
✅ News_&_Politics_75_100.json 저장 완료!
✅ Film_&_Animation_1_25.json 저장 완료!
✅ Film_&_Animation_25_50.json 저장 완료!
✅ Film_&_Animation_50_75.json 저장 완료!
✅ Film_&_Animation_75_100.json 저장 완료!
✅ Music_1_25.json 저장 완료!
✅ Music_25_50.json 저장 완료!
✅ Music_50_75.json 저장 완료!
✅ Music_75_100.json 저장 완료!
✅ Pets_&_Animals_1_25.json 저장 완료!
✅ Pets_&_Animals_25_50.json 저장 완료!
✅ Pets_&_Animals_50_75.json 저장 완료!
✅ Pets_&_Animals_75_100.json 저장 완료!
✅ Sports_1_25.json 저장 완료!
✅ Sports_25_50.json 저장 완료!
✅ Sports_50_75.json 저장 완료!
✅ Sports_75_100.json 저장 완료!
✅ Gaming_1_25.json 저장 완료!
✅ Gaming_25_50.json 저장 완료!
✅ Gaming_50_75.json 저장 완료!
✅ Gaming_75_100.json 저장 완료!
✅ Entertainment_1_25.json 저장 완료!
✅ Entertainment_25_50.json 저장 완료!
✅ Entertainment_50_75.json 저장 완료!
✅ Entertainment_75_100.json 저장 완료!
✅ Science_&_Technology_1_25.json 저장 완료!
✅ Science_&_Technology_25_50.json 저장 완료!
✅ Science_&_Technology_50_75.js

===============결국 실패, 왜인지 모르겠지만, 순위가 겹침==============================

In [18]:
import json
import os
from krwordrank.word import KRWordRank

# ✅ 데이터 디렉토리 설정
input_dir = "/Users/melon/soynlp_training_data/youtube/scripts/data/categories"      # 원본 JSON 파일이 있는 디렉토리
output_dir = "data/ranked_keywords"  # 키워드 랭킹 결과 저장 디렉토리

# ✅ 저장할 디렉토리가 없으면 생성
os.makedirs(output_dir, exist_ok=True)

# ✅ KRWordRank 설정
min_count = 5   # 최소 등장 횟수
max_length = 10 # 최대 단어 길이
beta = 0.85     # PageRank 감쇄 계수
max_iter = 10     # 반복 횟수

wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)

# ✅ 디렉토리 내 JSON 파일 하나씩 읽어오기
json_files = [f for f in os.listdir(input_dir) if f.endswith(".json")]


for file_name in json_files:
    input_path = os.path.join(input_dir, file_name)
    
    # ✅ JSON 파일 로드
    with open(input_path, "r", encoding="utf-8") as f:
        text = json.load(f)  # 텍스트 로드


    # ✅ KRWordRank 실행
    try:

        keywords, _, _ = wordrank_extractor.extract([text], beta, max_iter)
        # ✅ KRWordRank 실행 후 확인
        if keywords is None:
            print(f"⚠️ {file_name}: 키워드 추출 실패 (None 반환). 원본 데이터를 저장합니다.")
            with open(f"data/debug_{file_name}", "w", encoding="utf-8") as f:
                json.dump(text, f, indent=4, ensure_ascii=False)
            continue
        print(f"✅ {file_name}: KRWordRank 실행 완료 (추출된 키워드 개수: {len(keywords)})")


        if not keywords:
            print(f"⚠️ {file_name}: 키워드 추출 실패. 건너뜀.")
            continue

        # ✅ 개별 키워드 랭킹 JSON 파일 저장
        output_file_name = file_name.replace(".json", "_ranking.json")  # 파일명 변경
        output_path = os.path.join(output_dir, output_file_name)

        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(keywords, f, indent=4, ensure_ascii=False)

        print(f"✅ {output_file_name} 저장 완료!")

    except Exception as e:
        print(f"🚨 {file_name}: KRWordRank 실행 중 오류 발생: {e}")
        continue

print("✅ 모든 구역의 키워드 랭킹 추출이 완료되었습니다!")


✅ Film_&_Animation_75_100.json: KRWordRank 실행 완료 (추출된 키워드 개수: 221)
✅ Film_&_Animation_75_100_ranking.json 저장 완료!
🚨 Film_&_Animation_1_25.json: KRWordRank 실행 중 오류 발생: 'NoneType' object has no attribute 'items'
✅ Entertainment_25_50.json: KRWordRank 실행 완료 (추출된 키워드 개수: 270)
✅ Entertainment_25_50_ranking.json 저장 완료!
🚨 Entertainment_1_25.json: KRWordRank 실행 중 오류 발생: 'NoneType' object has no attribute 'items'
✅ Science_&_Technology_1_25.json: KRWordRank 실행 완료 (추출된 키워드 개수: 937)
✅ Science_&_Technology_1_25_ranking.json 저장 완료!
🚨 Film_&_Animation_25_50.json: KRWordRank 실행 중 오류 발생: 'NoneType' object has no attribute 'items'
✅ Entertainment_50_75.json: KRWordRank 실행 완료 (추출된 키워드 개수: 18)
✅ Entertainment_50_75_ranking.json 저장 완료!
🚨 News_&_Politics_75_100.json: KRWordRank 실행 중 오류 발생: 'NoneType' object has no attribute 'items'
✅ Music_75_100.json: KRWordRank 실행 완료 (추출된 키워드 개수: 229)
✅ Music_75_100_ranking.json 저장 완료!
🚨 Gaming_75_100.json: KRWordRank 실행 중 오류 발생: 'NoneType' object has no attribute 'items'

각 구역의 키워드 랭킹에서 상위 50개만 추출

In [19]:
import json
import os

# ✅ 데이터 디렉토리 설정
input_dir = "data/ranked_keywords"  # 원본 키워드 랭킹 JSON 파일 디렉토리
output_dir = "data/top50_keywords"  # 상위 50개 키워드 저장 디렉토리

# ✅ 저장할 디렉토리가 없으면 생성
os.makedirs(output_dir, exist_ok=True)

# ✅ 구역별 가중치 설정
weight_mapping = {
    "1_25": 4,
    "25_50": 3,
    "50_75": 2,
    "75_100": 1
}

# ✅ 디렉토리 내 JSON 파일 가져오기
json_files = [f for f in os.listdir(input_dir) if f.endswith("_ranking.json")]

# ✅ 각 파일별 상위 50개 키워드 추출 및 가중치 추가
for file_name in json_files:
    input_path = os.path.join(input_dir, file_name)

    # ✅ JSON 파일 로드
    with open(input_path, "r", encoding="utf-8") as f:
        keyword_ranking = json.load(f)  # 키워드 랭킹 데이터 로드 (딕셔너리 형태)

    # ✅ 빈 데이터 방지
    if not keyword_ranking:
        print(f"⚠️ {file_name}: 데이터가 부족하여 상위 50개 추출을 건너뜀.")
        continue

    print(f"🔍 Processing: {file_name} (총 키워드 개수: {len(keyword_ranking)})")

    # ✅ 상위 50개 키워드만 추출 (점수 기준 정렬 후 키워드만 가져옴)
    top_50_keywords = list(sorted(keyword_ranking, key=keyword_ranking.get, reverse=True)[:50])

    # ✅ 가중치 적용
    # 파일명에서 구역명 추출 (예: "News_&_Politics_1_25_ranking.json" → "1_25")
    for zone in weight_mapping.keys():
        if zone in file_name:
            weight = weight_mapping[zone]
            break
    else:
        print(f"⚠️ {file_name}: 알 수 없는 구역, 기본 가중치 1 적용")
        weight = 1

    # ✅ {키워드: 가중치} 형태로 변환
    weighted_keywords = {keyword: weight for keyword in top_50_keywords}

    # ✅ 개별 JSON 파일로 저장
    output_file_name = file_name.replace("_ranking.json", "_top50.json")  # 파일명 변경
    output_path = os.path.join(output_dir, output_file_name)

    with open(output_path, "w", encoding="utf-8") as f:
        json.dump(weighted_keywords, f, indent=4, ensure_ascii=False)

    print(f"✅ {output_file_name} 저장 완료! (상위 50개 키워드 + 가중치 {weight})")

print("✅ 모든 구역의 상위 50개 키워드 추출이 완료되었습니다!")


🔍 Processing: Entertainment_50_75_ranking.json (총 키워드 개수: 18)
✅ Entertainment_50_75_top50.json 저장 완료! (상위 50개 키워드 + 가중치 2)
🔍 Processing: Entertainment_25_50_ranking.json (총 키워드 개수: 270)
✅ Entertainment_25_50_top50.json 저장 완료! (상위 50개 키워드 + 가중치 3)
🔍 Processing: News_&_Politics_75_100_ranking.json (총 키워드 개수: 1513)
✅ News_&_Politics_75_100_top50.json 저장 완료! (상위 50개 키워드 + 가중치 1)
🔍 Processing: News_&_Politics_1_25_ranking.json (총 키워드 개수: 1597)
✅ News_&_Politics_1_25_top50.json 저장 완료! (상위 50개 키워드 + 가중치 4)
🔍 Processing: Science_&_Technology_1_25_ranking.json (총 키워드 개수: 937)
✅ Science_&_Technology_1_25_top50.json 저장 완료! (상위 50개 키워드 + 가중치 4)
🔍 Processing: Gaming_1_25_ranking.json (총 키워드 개수: 447)
✅ Gaming_1_25_top50.json 저장 완료! (상위 50개 키워드 + 가중치 4)
🔍 Processing: Science_&_Technology_25_50_ranking.json (총 키워드 개수: 586)
✅ Science_&_Technology_25_50_top50.json 저장 완료! (상위 50개 키워드 + 가중치 3)
🔍 Processing: Music_75_100_ranking.json (총 키워드 개수: 229)
✅ Music_75_100_top50.json 저장 완료! (상위 50개 키워드 + 가중치 1)
🔍 P

In [72]:
import json
import os

# ✅ 데이터 로드
ranking_file = "data/all_keywords_ranking.json"  # 전체 키워드 랭킹 파일
weighted_dir = "data/top50_keywords"        # 구역별 가중치 파일들이 저장된 디렉토리
output_file = "final_keywords_ranking.json"  # 최종 랭킹 결과 저장 파일

# ✅ 전체 키워드 랭킹 로드 (기본 점수 포함)
with open(ranking_file, "r", encoding="utf-8") as f:
    base_ranking = dict(json.load(f))  # 리스트를 딕셔너리 형태로 변환

# ✅ 디렉토리 내 가중치 파일 가져오기
weighted_files = [f for f in os.listdir(weighted_dir) if f.endswith("_top50.json")]

# ✅ 키워드별 최종 점수 계산
final_ranking = base_ranking.copy()  # 기존 점수를 유지하며 업데이트할 딕셔너리

for file_name in weighted_files:
    file_path = os.path.join(weighted_dir, file_name)

    # ✅ 구역별 가중치 JSON 파일 로드
    with open(file_path, "r", encoding="utf-8") as f:
        weighted_keywords = json.load(f)  # {키워드: 가중치} 형태의 데이터

    print(f"🔍 Processing: {file_name} (키워드 개수: {len(weighted_keywords)})")

    # ✅ 각 키워드에 가중치를 추가
    for keyword, weight in weighted_keywords.items():
        if keyword in final_ranking:
            final_ranking[keyword] += weight  # 기존 점수 + 가중치
        else:
            final_ranking[keyword] = weight  # 새로운 키워드면 가중치만 적용

# ✅ 최종 키워드 랭킹 정렬
final_sorted_ranking = sorted(final_ranking.items(), key=lambda x: x[1], reverse=True)

# ✅ JSON 파일로 저장
with open(output_file, "w", encoding="utf-8") as f:
    json.dump(final_sorted_ranking, f, indent=4, ensure_ascii=False)

print(f"✅ 최종 키워드 랭킹이 '{output_file}' 파일로 저장되었습니다!")


🔍 Processing: Entertainment_50_75_top50.json (키워드 개수: 18)
🔍 Processing: Music_50_75_top50.json (키워드 개수: 35)
🔍 Processing: Entertainment_25_50_top50.json (키워드 개수: 50)
🔍 Processing: Music_25_50_top50.json (키워드 개수: 50)
🔍 Processing: Science_&_Technology_25_50_top50.json (키워드 개수: 50)
🔍 Processing: News_&_Politics_75_100_top50.json (키워드 개수: 50)
🔍 Processing: Gaming_1_25_top50.json (키워드 개수: 50)
🔍 Processing: Film_&_Animation_50_75_top50.json (키워드 개수: 30)
🔍 Processing: Music_1_25_top50.json (키워드 개수: 50)
🔍 Processing: News_&_Politics_25_50_top50.json (키워드 개수: 50)
🔍 Processing: News_&_Politics_50_75_top50.json (키워드 개수: 50)
🔍 Processing: Music_75_100_top50.json (키워드 개수: 50)
🔍 Processing: Science_&_Technology_1_25_top50.json (키워드 개수: 50)
🔍 Processing: News_&_Politics_1_25_top50.json (키워드 개수: 50)
🔍 Processing: Film_&_Animation_75_100_top50.json (키워드 개수: 50)
🔍 Processing: Entertainment_75_100_top50.json (키워드 개수: 50)
✅ 최종 키워드 랭킹이 'final_keywords_ranking.json' 파일로 저장되었습니다!
