In [1]:
import requests
import pandas as pd
import time
API_KEY = '738f8682fc5143163b145d03a2016b0b'  
BASE_URL = 'https://api.themoviedb.org/3'
IMG_BASE = 'https://image.tmdb.org/t/p/w500'

# Lấy danh sách phim top-rated từ TMDB
def get_top_rated_movies(total_movies=200):
    movies = []
    page = 1
    while len(movies) < total_movies:
        url = f"{BASE_URL}/movie/top_rated"
        params = {
            'api_key': API_KEY,
            'language': 'en-US',
            'page': page
        }
        response = requests.get(url, params=params)
        data = response.json()

        if 'results' not in data:
            print("Có lỗi khi gọi API:", data)
            break

        movies += data['results']
        page += 1
        time.sleep(0.2)  # Tránh bị rate limit (giới hạn gọi API)

    return movies[:total_movies]

# Lấy thông tin chi tiết phim
def get_movie_details(movie_id):
    url = f"{BASE_URL}/movie/{movie_id}"
    params = {
        'api_key': API_KEY,
        'append_to_response': 'credits'
    }
    response = requests.get(url, params=params)
    return response.json()

# Lưu thông tin phim vào CSV
def save_top_rated_to_csv(filename='top_200_movies.csv', total=200):
    top_movies = get_top_rated_movies(total)
    movie_list = []

    for idx, movie in enumerate(top_movies):
        print(f"Đang xử lý phim {idx+1}/{total}: {movie['title']}")
        details = get_movie_details(movie['id'])

        info = {
            'Title': details.get('title'),
            'Original Title': details.get('original_title'),
            'Overview': details.get('overview'),
            'Release Date': details.get('release_date'),
            'Genres': ', '.join([g['name'] for g in details.get('genres', [])]),
            'Runtime': details.get('runtime'),
            'Rating': details.get('vote_average'),
            'Vote Count': details.get('vote_count'),
            'Tagline': details.get('tagline'),
            'Poster Link': IMG_BASE + details['poster_path'] if details.get('poster_path') else '',
            'Backdrop Link': IMG_BASE + details['backdrop_path'] if details.get('backdrop_path') else '',
            'Budget': details.get('budget'),
            'Revenue': details.get('revenue'),
            'Language': details.get('original_language'),
            'Production Companies': ', '.join([c['name'] for c in details.get('production_companies', [])]),
            'Cast': ', '.join([cast['name'] for cast in details.get('credits', {}).get('cast', [])[:5]]),
            'Director': ', '.join([crew['name'] for crew in details.get('credits', {}).get('crew', []) if crew['job'] == 'Director']),
        }

        movie_list.append(info)
        time.sleep(0.2)  # Delay nhẹ giữa các requests

    # Ghi vào file CSV
    df = pd.DataFrame(movie_list)
    df.to_csv(filename, index=False, encoding='utf-8-sig')
    print(f"✅ Đã lưu {len(movie_list)} phim vào file '{filename}'")

# Chạy chính
if __name__ == '__main__':
    save_top_rated_to_csv()


Đang xử lý phim 1/200: The Shawshank Redemption
Đang xử lý phim 2/200: The Godfather
Đang xử lý phim 3/200: The Godfather Part II
Đang xử lý phim 4/200: Schindler's List
Đang xử lý phim 5/200: 12 Angry Men
Đang xử lý phim 6/200: Spirited Away
Đang xử lý phim 7/200: Dilwale Dulhania Le Jayenge
Đang xử lý phim 8/200: The Dark Knight
Đang xử lý phim 9/200: The Green Mile
Đang xử lý phim 10/200: Parasite
Đang xử lý phim 11/200: Pulp Fiction
Đang xử lý phim 12/200: Your Name.
Đang xử lý phim 13/200: The Lord of the Rings: The Return of the King
Đang xử lý phim 14/200: Forrest Gump
Đang xử lý phim 15/200: The Good, the Bad and the Ugly
Đang xử lý phim 16/200: GoodFellas
Đang xử lý phim 17/200: Seven Samurai
Đang xử lý phim 18/200: Interstellar
Đang xử lý phim 19/200: Grave of the Fireflies
Đang xử lý phim 20/200: Life Is Beautiful
Đang xử lý phim 21/200: Fight Club
Đang xử lý phim 22/200: Cinema Paradiso
Đang xử lý phim 23/200: City of God
Đang xử lý phim 24/200: Psycho
Đang xử lý phim 25/20