In [10]:
# 중간저장용 코드
import requests
import pandas as pd
import time
import os

# 🔐 API 키 불러오기
with open("tmdb_key.txt", "r") as f:
    API_KEY = f.read().strip()

BASE_URL = 'https://api.themoviedb.org/3'
DRAMA_GENRE_ID = 18

# 대상 국가 및 연도
target_countries = {
    'South Korea': 'KR',
    'United States': 'US',
    'United Kingdom': 'GB',
    'Japan': 'JP'
}
years = list(range(2020, 2025))

# 중복 방지용 ID 모음
seen_ids = set()

# 저장할 파일명
output_file = "top20_tv_dramas_ko_2020_2024.csv"

def get_top_tv_shows(country_code, year):
    url = f"{BASE_URL}/discover/tv"
    params = {
        'api_key': API_KEY,
        'language': 'ko-KR',
        'sort_by': 'popularity.desc',
        'with_original_country': country_code,
        'first_air_date_year': year,
        'page': 1
    }

    shows = []
    while len(shows) < 20:
        response = requests.get(url, params=params)
        data = response.json()

        if 'results' not in data or not data['results']:
            break

        for item in data['results']:
            if len(shows) >= 20:
                break
            if DRAMA_GENRE_ID not in item.get('genre_ids', []):
                continue

            tv_id = item['id']
            if tv_id in seen_ids:
                continue

            details = get_tv_details(tv_id, country_code)
            if details:
                shows.append(details)
                seen_ids.add(tv_id)

        params['page'] += 1
        time.sleep(0.25)

    if len(shows) < 20:
        print(f"⚠️ {country_code} {year}: {len(shows)}편만 수집됨")
    return shows

def get_tv_details(tv_id, country_code):
    url = f"{BASE_URL}/tv/{tv_id}"
    params = {'api_key': API_KEY, 'language': 'ko-KR'}
    res = requests.get(url, params=params).json()

    production_countries = [c['iso_3166_1'] for c in res.get('production_countries', [])]
    if country_code not in production_countries:
        return None

    return {
        'tmdb_id': tv_id,
        '제목': res.get('name'),
        '줄거리': res.get('overview'),
        '인기도': res.get('popularity'),
        '평점': res.get('vote_average'),
        '투표수': res.get('vote_count'),
        '시청등급': get_content_rating(tv_id, country_code),
        '방영연도': res.get('first_air_date', '')[:4],
        '제작국가': country_code
    }

def get_content_rating(tv_id, country_code):
    url = f"{BASE_URL}/tv/{tv_id}/content_ratings"
    params = {'api_key': API_KEY}
    res = requests.get(url, params=params).json()
    for entry in res.get('results', []):
        if entry.get('iso_3166_1') == country_code:
            return entry.get('rating')
    return None

# ✅ 수집 및 중간 저장 루프
for country_name, country_code in target_countries.items():
    for year in years:
        print(f"📺 수집 중: {country_name} - {year}")
        top_shows = get_top_tv_shows(country_code, year)

        if not top_shows:
            continue

        temp_df = pd.DataFrame(top_shows)

        if os.path.exists(output_file):
            temp_df.to_csv(output_file, mode='a', header=False, index=False, encoding="utf-8-sig")
        else:
            temp_df.to_csv(output_file, index=False, encoding="utf-8-sig")
# 중간 저장 시 파일이 이미 있으면 헤더 생략
if os.path.exists(output_file):
    temp_df.to_csv(output_file, mode='a', header=False, index=False, encoding="utf-8-sig")
else:
    temp_df.to_csv(output_file, index=False, encoding="utf-8-sig")

print("✅ 전체 수집 완료! 결과 파일:", output_file)


📺 수집 중: South Korea - 2020
📺 수집 중: South Korea - 2021
📺 수집 중: South Korea - 2022
📺 수집 중: South Korea - 2023
📺 수집 중: South Korea - 2024
📺 수집 중: United States - 2020
📺 수집 중: United States - 2021
📺 수집 중: United States - 2022
📺 수집 중: United States - 2023
📺 수집 중: United States - 2024
📺 수집 중: United Kingdom - 2020
📺 수집 중: United Kingdom - 2021
📺 수집 중: United Kingdom - 2022
📺 수집 중: United Kingdom - 2023
📺 수집 중: United Kingdom - 2024
📺 수집 중: Japan - 2020
📺 수집 중: Japan - 2021
📺 수집 중: Japan - 2022
📺 수집 중: Japan - 2023
📺 수집 중: Japan - 2024
✅ 전체 수집 완료! 결과 파일: top20_tv_dramas_ko_2020_2024.csv


In [20]:
import os
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "C:/Users/soyoun/Downloads/translate-key.json"


In [27]:
# OMDB 줄거리 통합 후에 구글 클라우드 api로 번역
!pip install google-cloud-translate

import pandas as pd
import requests
import os
import time
from google.cloud import translate_v2 as translate

# 🔐 API 키 불러오기
with open("tmdb_key.txt") as f: tmdb_key = f.read().strip()
with open("omdb_key.txt") as f: omdb_key = f.read().strip()

# 🔐 Google 인증 키 환경변수 등록
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "C:/Users/soyoun/Downloads/translate-key.json"

# ✅ 번역 클라이언트
gcp_translate_client = translate.Client()

# ✅ 함수 1: TMDB ID → IMDb ID
def get_imdb_id(tmdb_id):
    try:
        url = f"https://api.themoviedb.org/3/tv/{tmdb_id}/external_ids"
        res = requests.get(url, params={"api_key": tmdb_key})
        return res.json().get("imdb_id")
    except:
        return None

# ✅ 함수 2: IMDb ID → OMDb 영어 줄거리
def get_omdb_plot(imdb_id):
    try:
        url = f"http://www.omdbapi.com/?apikey={omdb_key}&i={imdb_id}&plot=full"
        res = requests.get(url)
        return res.json().get("Plot")
    except:
        return None

# ✅ 함수 3: 영어 → 한글 번역
def translate_to_korean(text):
    try:
        if not text: return None
        result = gcp_translate_client.translate(text, target_language='ko')
        return result['translatedText']
    except:
        return None

# ✅ 데이터 불러오기
df = pd.read_csv("top20_tv_dramas_ko_2020_2024.csv")
df["imdb_id"] = None
df["omdb_plot_en"] = None
df["omdb_plot_ko"] = None

# ✅ 전체 처리 루프
for i, row in df.iterrows():
    tmdb_id = row["tmdb_id"]

    imdb_id = get_imdb_id(tmdb_id)
    plot_en = get_omdb_plot(imdb_id)
    plot_ko = translate_to_korean(plot_en)

    df.at[i, "imdb_id"] = imdb_id
    df.at[i, "omdb_plot_en"] = plot_en
    df.at[i, "omdb_plot_ko"] = plot_ko

    print(f"🎬 {i+1}/{len(df)} - {row['제목']} 완료")
    time.sleep(1.2)  # API 호출 제한 보호

# ✅ 결과 저장
df.to_csv("translated_dramas.csv", index=False, encoding="utf-8-sig")
print("✅ 번역 완료: translated_dramas.csv 저장됨")


🎬 1/420 - 여신강림 완료
🎬 2/420 - 18 어게인 완료
🎬 3/420 - 경이로운 소문 완료
🎬 4/420 - 브람스를 좋아하세요 완료
🎬 5/420 - 이태원 클라쓰 완료
🎬 6/420 - 아무도 모른다 완료
🎬 7/420 - 구미호뎐 완료
🎬 8/420 - 위험한 약속 완료
🎬 9/420 - 설국열차 완료
🎬 10/420 - 사이코지만 괜찮아 완료
🎬 11/420 - 펜트하우스 완료
🎬 12/420 - 편의점 샛별이 완료
🎬 13/420 - 우리, 사랑했을까 완료
🎬 14/420 - 좀비탐정 완료
🎬 15/420 - 슬기로운 의사생활 완료
🎬 16/420 - 철인왕후 완료
🎬 17/420 - 반의반 완료
🎬 18/420 - 기막힌 유산 완료
🎬 19/420 - 암행어사: 조선비밀수사단 완료
🎬 20/420 - 한 번 다녀왔습니다 완료
🎬 21/420 - 오징어 게임 완료
🎬 22/420 - 모범택시 완료
🎬 23/420 - 달리와 감자탕 완료
🎬 24/420 - 해피니스 완료
🎬 25/420 - 그 해 우리는 완료
🎬 26/420 - 구경이 완료
🎬 27/420 - 어느 날 완료
🎬 28/420 - 빈센조 완료
🎬 29/420 - 오월의 청춘 완료
🎬 30/420 - 지금, 헤어지는 중입니다 완료
🎬 31/420 - 연모 완료
🎬 32/420 - 안녕? 나야! 완료
🎬 33/420 - 미치지 않고서야 완료
🎬 34/420 - 마이 네임 완료
🎬 35/420 - 대박부동산 완료
🎬 36/420 - 더 로드: 1의 비극 완료
🎬 37/420 - 마녀식당으로 오세요 완료
🎬 38/420 - 갯마을 차차차 완료
🎬 39/420 - 라켓소년단 완료
🎬 40/420 - 어느 날 우리 집 현관으로 멸망이 들어왔다 완료
🎬 41/420 - 약한영웅 완료
🎬 42/420 - 으라차차 내 인생 완료
🎬 43/420 - 지금 우리 학교는 완료
🎬 44/420 - 3인칭 복수 완료
🎬 45/420 - Flower of Evil 완료
🎬 46/420 - 커튼콜: 나무

In [29]:
#줄거리 병합
import pandas as pd

# CSV 파일 읽기
df = pd.read_csv("translated_dramas.csv")

# '줄거리'와 'omdb_plot_ko'를 결합하여 'plot' 컬럼 생성
df["plot"] = df["줄거리"].fillna("") + " " + df["omdb_plot_ko"].fillna("")

# 결과를 같은 이름으로 저장 (덮어쓰기)
df.to_csv("translated_dramas_plot.csv", index=False, encoding="utf-8-sig")


In [35]:
#인물 분류
import pandas as pd

# 파일 불러오기
df = pd.read_csv("translated_dramas_plot.csv")

# 키워드 기반 중심인물 판단 함수
def check_keywords(text, keywords):
    if pd.isna(text):
        return False
    return any(keyword in text for keyword in keywords)

# ✅ 한글 키워드 정의
female_keywords = ["그녀", "여자", "여성", "소녀", "딸", "엄마", "어머니", "여신"]
male_keywords = ["그", "남자", "남성", "소년", "아들", "아빠", "아버지"]
lgbtq_keywords = ["게이", "레즈비언", "트랜스젠더", "퀴어", "성소수자", "논바이너리"]
disabled_keywords = ["장애인", "휠체어", "시각장애", "청각장애", "지체장애", "절단", "지적장애", "자폐"]
elderly_keywords = ["노인", "노령", "할아버지", "할머니", "은퇴한", "고령자"]

# Boolean 컬럼 생성
df["여성"] = df["plot"].apply(lambda x: check_keywords(x, female_keywords))
df["남성"] = df["plot"].apply(lambda x: check_keywords(x, male_keywords))
df["성소수자"] = df["plot"].apply(lambda x: check_keywords(x, lgbtq_keywords))
df["장애인"] = df["plot"].apply(lambda x: check_keywords(x, disabled_keywords))
df["노령층"] = df["plot"].apply(lambda x: check_keywords(x, elderly_keywords))

# 중심인물 요약 컬럼 생성
def get_main_character(row):
    tags = []
    for attr in ["여성", "남성", "성소수자", "장애인", "노령층"]:
        if row[attr]:
            tags.append(attr)
    return ", ".join(tags) if tags else "미분류"

df["main_character"] = df.apply(get_main_character, axis=1)

# 결과 저장
df.to_csv("translated_dramas_with_main_character.csv", index=False, encoding="utf-8-sig")
print("✅ 중심인물 분류 완료: translated_dramas_with_main_character.csv 저장됨")


✅ 중심인물 분류 완료: translated_dramas_with_main_character.csv 저장됨


In [36]:
df['main_character'].value_counts()

main_character
남성              169
여성, 남성          139
미분류              78
여성               17
여성, 남성, 장애인       4
여성, 남성, 성소수자      3
여성, 남성, 노령층       2
남성, 노령층           2
남성, 성소수자          2
장애인               2
남성, 장애인           1
성소수자              1
Name: count, dtype: int64

In [None]:
import requests
import time

# 🔐 TMDB API 키 불러오기
with open("tmdb_key.txt") as f:
    tmdb_key = f.read().strip()

# 🎬 주연 배우 이름 수집 함수 (영어 이름)
def get_main_cast_name(tmdb_id):
    url = f"https://api.themoviedb.org/3/tv/{tmdb_id}/credits?api_key={tmdb_key}&language=en-US"
    try:
        response = requests.get(url)
        if response.status_code == 200:
            data = response.json()
            if data["cast"]:
                return data["cast"][0]["name"]  # 첫 번째 인물 이름 (영어)
    except Exception as e:
        print(f"오류: {tmdb_id} → {e}")
    return None

# 🔄 cast 컬럼 추가
df["cast"] = df["tmdb_id"].apply(get_main_cast_name)
time.sleep(0.5)  # 호출 제한 보호용

# 💾 결과 저장
df.to_csv("translated_dramas_with_cast.csv", index=False, encoding="utf-8-sig")
print("✅ 'cast' 컬럼이 추가된 CSV 파일 저장 완료")
