In [None]:
from pymongo import MongoClient
from datetime import datetime, timezone
from collections import defaultdict

# MongoDB 연결
client = MongoClient("mongodb://localhost:27017/")
collection = client["keyword"]["keyword"]

category_keyword_scores = defaultdict(lambda: defaultdict(float))
skipped = 0

for doc in collection.find():
    try:
        category = doc.get("category")
        view_count = doc.get("view_count", 0)
        published_str = doc.get("published_at")
        timestamp = doc.get("timestamp")
        combined_score = doc.get("combined_score", {})

        if not (category and published_str and timestamp and combined_score):
            skipped += 1
            continue

        published_at = datetime.fromisoformat(published_str)
        collected_at = timestamp if isinstance(timestamp, datetime) else datetime.fromisoformat(timestamp)


        # 🛠️ timezone 통일
        if collected_at.tzinfo is None:
            collected_at = collected_at.replace(tzinfo=timezone.utc)
        
        hours = (collected_at - published_at).total_seconds() / 3600

        if hours <= 0:
            skipped += 1
            continue

        view_speed = view_count / hours

        for keyword, score in combined_score.items():
            category_keyword_scores[category][keyword] += view_speed * score

    except Exception as e:
        print("⚠️ 오류 발생:", e)
        skipped += 1
        continue

# 정렬해서 최종 결과 만들기
final_result = {}
for category, keywords in category_keyword_scores.items():
    sorted_keywords = sorted(keywords.items(), key=lambda x: x[1], reverse=True)
    final_result[category] = [{"keyword": k, "score": round(s, 2)} for k, s in sorted_keywords[:100]]

print("✅ 카테고리별 키워드 랭킹 계산 완료!")
print(f"⏭️ 스킵된 문서 수: {skipped}")


✅ 카테고리별 키워드 랭킹 계산 완료!
⏭️ 스킵된 문서 수: 14


In [18]:
for category, keywords in final_result.items():
    print(f"\n📂 카테고리 {category} 상위 키워드:")
    for rank, item in enumerate(keywords[:5], start=1):
        print(f"  {rank:2d}. #{item['keyword']}  (score: {item['score']})")



📂 카테고리 25 상위 키워드:
   1. #윤석열  (score: 541488063.32)
   2. #이재명  (score: 467381680.16)
   3. #민주당  (score: 422285487.58)
   4. #미국  (score: 399266036.19)
   5. #중국  (score: 345567238.26)

📂 카테고리 10 상위 키워드:
   1. #아이유  (score: 92069597.06)
   2. #사랑해  (score: 82001190.24)
   3. #아이브  (score: 71289808.95)
   4. #임영웅  (score: 60704116.17)
   5. #카라  (score: 59483201.39)

📂 카테고리 17 상위 키워드:
   1. #이정후  (score: 91223214.01)
   2. #손흥민  (score: 66249797.3)
   3. #앤서니  (score: 52775002.35)
   4. #데이비스  (score: 51649453.15)
   5. #일본  (score: 50300019.05)

📂 카테고리 20 상위 키워드:
   1. #유튜브  (score: 89759613.66)
   2. #Nintendo  (score: 86241681.3)
   3. #Direct  (score: 86241681.3)
   4. #Switch  (score: 55502370.44)
   5. #인트  (score: 46982285.6)

📂 카테고리 28 상위 키워드:
   1. #애플  (score: 28437108.54)
   2. #갤럭시  (score: 25942328.38)
   3. #삼성  (score: 25031080.23)
   4. #중국  (score: 23639332.13)
   5. #아이폰  (score: 22470571.48)


# 하루 랭킹

In [32]:
from pymongo import MongoClient
from datetime import datetime, timezone, timedelta
from collections import defaultdict

# 🔧 날짜 설정: 2025년 4월 15일 하루
target_date = datetime(2025, 4, 17, tzinfo=timezone.utc)
next_day = target_date + timedelta(days=1)

# 🔧 MongoDB 연결
client = MongoClient("mongodb://localhost:27017/")
collection = client["keyword"]["keyword"]

# 🔧 랭킹 계산을 위한 딕셔너리
category_keyword_scores = defaultdict(lambda: defaultdict(float))     # 키워드 누적 점수
category_keyword_counts = defaultdict(lambda: defaultdict(int))       # 키워드 등장 횟수
skipped = 0

# 🔧 누적/평균 균형 조절 파라미터
alpha = 0.5  # 0이면 누적 중심, 1이면 평균 중심 (추천: 0.3 ~ 0.6)

# 🔍 MongoDB에서 해당 날짜 문서 조회
query = {
    "timestamp": {
        "$gte": target_date,
        "$lt": next_day
    }
}

for doc in collection.find(query):
    try:
        category = doc.get("category")
        view_count = doc.get("view_count", 0)
        published_str = doc.get("published_at")
        timestamp = doc.get("timestamp")
        combined_score = doc.get("combined_score", {})

        # 필수 필드 누락 시 스킵
        if not (category and published_str and timestamp and combined_score):
            skipped += 1
            continue

        # 시간 처리 (UTC 기준)
        published_at = datetime.fromisoformat(published_str)
        collected_at = timestamp if isinstance(timestamp, datetime) else datetime.fromisoformat(timestamp)
        if collected_at.tzinfo is None:
            collected_at = collected_at.replace(tzinfo=timezone.utc)

        # 시간 간격 계산
        hours = (collected_at - published_at).total_seconds() / 3600
        if hours <= 0:
            skipped += 1
            continue

        # 조회수 증가 속도 계산
        view_speed = view_count / hours

        # 키워드별 점수 누적 + 등장 횟수 누적
        for keyword, score in combined_score.items():
            weighted_score = view_speed * score
            category_keyword_scores[category][keyword] += weighted_score
            category_keyword_counts[category][keyword] += 1

    except Exception as e:
        print("⚠️ 오류 발생:", e)
        skipped += 1
        continue

# ✅ 최종 결과 계산 (α 적용)
final_result = {}
for category in category_keyword_scores:
    result = []
    for keyword in category_keyword_scores[category]:
        total_score = category_keyword_scores[category][keyword]
        count = category_keyword_counts[category][keyword]
        adjusted_score = total_score / (count ** alpha)  # 핵심: α 가중 평균
        result.append((keyword, adjusted_score))

    # 정렬 및 상위 100개 추출
    sorted_keywords = sorted(result, key=lambda x: x[1], reverse=True)
    final_result[category] = [{"keyword": k, "score": round(s, 2)} for k, s in sorted_keywords[:100]]

# ✅ 결과 출력
print(f"\n✅ [{target_date.date()}] 기준 카테고리별 키워드 랭킹 계산 완료")
print(f"⏭️ 스킵된 문서 수: {skipped}")

# 예시 출력: 뉴스 카테고리(25)
print("\n📂 뉴스 카테고리 (25) 상위 키워드:")
for i, item in enumerate(final_result.get("25", [])[:30], start=1):
    print(f"  {i}. #{item['keyword']} (score: {item['score']})")



✅ [2025-04-17] 기준 카테고리별 키워드 랭킹 계산 완료
⏭️ 스킵된 문서 수: 2

📂 뉴스 카테고리 (25) 상위 키워드:
  1. #한덕수 (score: 9721782.32)
  2. #이재명 (score: 9711265.54)
  3. #윤석열 (score: 9574945.65)
  4. #지귀 (score: 9339561.36)
  5. #이지은 (score: 8538241.81)
  6. #뉴스타파 (score: 8138596.86)
  7. #이국종 (score: 7858347.93)
  8. #탈조선 (score: 7857004.37)
  9. #민주당 (score: 7830281.22)
  10. #미국 (score: 7815171.16)
  11. #중국 (score: 7225495.27)
  12. #김건희 (score: 6872413.15)
  13. #권성동 (score: 6816044.13)
  14. #부남 (score: 6520111.93)
  15. #김정환 (score: 5985514.4)
  16. #검찰 (score: 5926310.67)
  17. #광해군 (score: 5821528.51)
  18. #하판락 (score: 5807415.47)
  19. #국회 (score: 5763188.46)
  20. #안진걸 (score: 5398442.55)
  21. #최상목 (score: 5380380.32)
  22. #이완 (score: 5360661.3)
  23. #조국 (score: 5335295.78)
  24. #언론 (score: 5332967.36)
  25. #트럼프 (score: 5068058.36)
  26. #홍준표 (score: 4895544.39)
  27. #김성훈 (score: 4731062.35)
  28. #신장식 (score: 4558481.07)
  29. #황병국 (score: 4346741.29)
  30. #한동훈 (score: 4282926.07)


# 일주일 랭킹

In [33]:
from pymongo import MongoClient
from datetime import datetime, timezone, timedelta
from collections import defaultdict

# 🔧 날짜 설정: 2025년 4월 11일부터 1주일간
start_date = datetime(2025, 4, 11, tzinfo=timezone.utc)
end_date = start_date + timedelta(days=7)

# 🔧 MongoDB 연결
client = MongoClient("mongodb://localhost:27017/")
collection = client["keyword"]["keyword"]

# 🔧 랭킹 계산을 위한 딕셔너리
category_keyword_scores = defaultdict(lambda: defaultdict(float))
category_keyword_counts = defaultdict(lambda: defaultdict(int))
skipped = 0

# 🔧 누적/평균 균형 조절 파라미터
alpha = 0.5  # 누적-평균 균형 조절

# 🔍 MongoDB에서 일주일 간 데이터 조회
query = {
    "timestamp": {
        "$gte": start_date,
        "$lt": end_date
    }
}

for doc in collection.find(query):
    try:
        category = doc.get("category")
        view_count = doc.get("view_count", 0)
        published_str = doc.get("published_at")
        timestamp = doc.get("timestamp")
        combined_score = doc.get("combined_score", {})

        if not (category and published_str and timestamp and combined_score):
            skipped += 1
            continue

        published_at = datetime.fromisoformat(published_str)
        collected_at = timestamp if isinstance(timestamp, datetime) else datetime.fromisoformat(timestamp)
        if collected_at.tzinfo is None:
            collected_at = collected_at.replace(tzinfo=timezone.utc)

        hours = (collected_at - published_at).total_seconds() / 3600
        if hours <= 0:
            skipped += 1
            continue

        view_speed = view_count / hours

        for keyword, score in combined_score.items():
            weighted_score = view_speed * score
            category_keyword_scores[category][keyword] += weighted_score
            category_keyword_counts[category][keyword] += 1

    except Exception as e:
        print("⚠️ 오류 발생:", e)
        skipped += 1
        continue

# ✅ 최종 결과 계산 (α 가중 평균 적용)
final_result = {}
for category in category_keyword_scores:
    result = []
    for keyword in category_keyword_scores[category]:
        total_score = category_keyword_scores[category][keyword]
        count = category_keyword_counts[category][keyword]
        adjusted_score = total_score / (count ** alpha)
        result.append((keyword, adjusted_score))

    sorted_keywords = sorted(result, key=lambda x: x[1], reverse=True)
    final_result[category] = [{"keyword": k, "score": round(s, 2)} for k, s in sorted_keywords[:100]]

# ✅ 결과 출력
print(f"\n✅ [{start_date.date()} ~ {end_date.date()}] 일주일 기준 카테고리별 키워드 랭킹 계산 완료")
print(f"⏭️ 스킵된 문서 수: {skipped}")

# 예시 출력: 뉴스 카테고리(25)
print("\n📂 뉴스 카테고리 (25) 상위 키워드:")
for i, item in enumerate(final_result.get("25", [])[:30], start=1):
    print(f"  {i}. #{item['keyword']} (score: {item['score']})")



✅ [2025-04-11 ~ 2025-04-18] 일주일 기준 카테고리별 키워드 랭킹 계산 완료
⏭️ 스킵된 문서 수: 4

📂 뉴스 카테고리 (25) 상위 키워드:
  1. #이국종 (score: 14667815.57)
  2. #이재명 (score: 14126704.15)
  3. #윤석열 (score: 13977912.88)
  4. #탈조선 (score: 13684728.17)
  5. #중국 (score: 11970113.4)
  6. #미국 (score: 11671427.26)
  7. #한덕수 (score: 11379134.13)
  8. #민주당 (score: 10925941.56)
  9. #김건희 (score: 8738823.97)
  10. #이지은 (score: 8538241.81)
  11. #뉴스타파 (score: 8321460.67)
  12. #트럼프 (score: 7483491.49)
  13. #지귀 (score: 7479143.86)
  14. #국회 (score: 7467966.7)
  15. #한동훈 (score: 7258167.55)
  16. #홍준표 (score: 7174578.51)
  17. #검찰 (score: 7024941.69)
  18. #언론 (score: 6910241.43)
  19. #부남 (score: 6520111.93)
  20. #김문수 (score: 5940577.76)
  21. #일본 (score: 5866751.26)
  22. #광해군 (score: 5821528.51)
  23. #하판락 (score: 5807415.47)
  24. #국가 (score: 5702890.15)
  25. #선거 (score: 5356769.83)
  26. #최상목 (score: 5228913.02)
  27. #투표 (score: 4998953.26)
  28. #싱크 (score: 4986092.74)
  29. #남천동 (score: 4928317.9)
  30. #김정환 (score: 489

In [34]:
from pymongo import MongoClient
import requests

# 🔧 설정
YOUTUBE_API_KEY = "AIzaSyDKlMcyK3peJ-woNyOLuMt5MCW_uZpOL0g"  # OpenAI 키 아님 주의
YOUTUBE_VIDEO_API = "https://www.googleapis.com/youtube/v3/videos"
YOUTUBE_CHANNEL_API = "https://www.googleapis.com/youtube/v3/channels"

# MongoDB 연결
client = MongoClient("mongodb://localhost:27017/")
db = client["keyword"]
collection = db["keyword"]

# 1. video_id 목록 가져오기
video_ids = [doc['video_id'] for doc in collection.find({}, {'video_id': 1})]

for video_id in video_ids:
    # 2. video_id로 channelId 조회
    video_params = {
        "part": "snippet",
        "id": video_id,
        "key": YOUTUBE_API_KEY
    }
    video_resp = requests.get(YOUTUBE_VIDEO_API, params=video_params).json()

    try:
        channel_id = video_resp['items'][0]['snippet']['channelId']
    except (IndexError, KeyError):
        print(f"[❌] video_id {video_id} → 채널 ID 조회 실패")
        continue

    # 3. channelId로 subscriberCount 조회
    channel_params = {
        "part": "statistics",
        "id": channel_id,
        "key": YOUTUBE_API_KEY
    }
    channel_resp = requests.get(YOUTUBE_CHANNEL_API, params=channel_params).json()

    try:
        subscribers = int(channel_resp['items'][0]['statistics']['subscriberCount'])
        print(f"[✅] video_id: {video_id} → 구독자 수: {subscribers}")
        
        # 4. MongoDB에 업데이트
        collection.update_one(
            {"video_id": video_id},
            {"$set": {"subscriberCount": subscribers}}
        )

    except (IndexError, KeyError):
        print(f"[❌] channel_id {channel_id} → 구독자 수 조회 실패")


[✅] video_id: 7IdEdSp9ads → 구독자 수: 5560000
[✅] video_id: ivifKXLTFNw → 구독자 수: 2100000
[✅] video_id: XuMrShxaV48 → 구독자 수: 1210000
[✅] video_id: V-HLuURD8LA → 구독자 수: 1740000
[✅] video_id: OJtFIBwtYLI → 구독자 수: 1570000
[✅] video_id: uUS2gvN653w → 구독자 수: 2410000
[✅] video_id: -_G5Gy9xwuE → 구독자 수: 819000
[✅] video_id: K4VDC3iN5jE → 구독자 수: 1360000
[✅] video_id: RtNkTi3ddqY → 구독자 수: 2400000
[✅] video_id: vT1ZQfF6ijo → 구독자 수: 584000
[✅] video_id: wHoZgO_dBlc → 구독자 수: 85600
[✅] video_id: bjJZgC5yXLs → 구독자 수: 848000
[✅] video_id: x4XqnIgRVDw → 구독자 수: 1670000
[✅] video_id: zxMuSzSLGCI → 구독자 수: 4960000
[✅] video_id: WiptcQxyJGk → 구독자 수: 1670000
[✅] video_id: -N0I4iAQxxI → 구독자 수: 270000
[✅] video_id: oOQe0bhiHJw → 구독자 수: 3260000
[✅] video_id: Sp6o2Hr4hnU → 구독자 수: 666000
[✅] video_id: k8NDkBsvPm4 → 구독자 수: 822000
[✅] video_id: T3xnPKNZJlQ → 구독자 수: 2390000
[✅] video_id: m2f5jsrz7MU → 구독자 수: 2470000
[✅] video_id: 88f_qFpkMdg → 구독자 수: 2690000
[✅] video_id: tq7RGn82uDg → 구독자 수: 49000
[❌] video_id MhvLKJWJ