In [None]:
import time
import pandas as pd
from googleapiclient.discovery import build
from datetime import timedelta
import isodate

def parse_duration(duration):
    try:
        parsed_duration = isodate.parse_duration(duration)
        return parsed_duration.total_seconds()
    except:
        return 0

def get_youtube_service():
    api_keys = ['AIzaSyABnAkGOwwfFp0zSYuxh5qBclovq8dIG48']
    for api_key in api_keys:
        try:
            youtube = build('youtube', 'v3', developerKey=api_key)
            return youtube
        except:
            continue
    raise Exception("All API keys failed or quota exceeded")

def get_video_durations_batch(df, video_ids, batch_size=50):
    durations = {}
    total_requests = len(video_ids)
    print(f"Tổng số yêu cầu API: {total_requests}, cần {total_requests} đơn vị quota.")

    for i in range(0, len(video_ids), batch_size):
        batch_ids = video_ids[i:i + batch_size]
        try:
            youtube = get_youtube_service()
            request = youtube.videos().list(
                part='contentDetails',
                id=','.join(batch_ids)
            )
            response = request.execute()

            for item in response.get('items', []):
                video_id = item['id']
                duration = item['contentDetails']['duration']
                durations[video_id] = parse_duration(duration)

            for video_id in batch_ids:
                if video_id not in durations:
                    print(f"Không tìm thấy video {video_id}")
                    durations[video_id] = 0

            if i % (batch_size * 10) == 0:
                df['video_durations'] = df['video_id'].map(durations).fillna(0)
                df[df['video_durations'] != 0].to_csv('CAvideos_filtered_with_durations_partial.csv', index=False)
                print(f"Đã lưu kết quả trung gian tại video {i}/{total_requests}")

            time.sleep(0.05)  # Nghỉ 0.05 giây giữa các yêu cầu để tránh vượt quota

        except Exception as e:
            print(f"Lỗi khi lấy thời lượng cho batch {i//batch_size + 1}: {e}")
            for video_id in batch_ids:
                durations[video_id] = 0
                print(f"Không tìm thấy video {video_id} do lỗi")

    df['video_durations'] = df['video_id'].map(durations).fillna(0)
    df[df['video_durations'] != 0].to_csv('CAvideos_filtered_with_durations_partial.csv', index=False)
    print("Đã lưu kết quả trung gian cuối cùng")

    return durations

def main():
    df = pd.read_csv('CAvideos.csv')
    video_ids = df['video_id'].unique().tolist()
    durations = get_video_durations_batch(df, video_ids)
    df['video_durations'] = df['video_id'].map(durations)

    df_filtered = df[df['video_durations'] != 0]

    # Lưu file CSV cuối cùng
    df_filtered.to_csv('CAvideos_filtered_with_durations_2.csv', index=False)
    print(f"Đã lưu file CSV cuối cùng với {len(df_filtered)} video")

if __name__ == "__main__":
    main()

Tổng số yêu cầu API: 24427, cần 24427 đơn vị quota.
Không tìm thấy video 5qpjK5DgCt4
Không tìm thấy video 43sm-QwLcx4
Không tìm thấy video jVpp2BUtMoY
Không tìm thấy video _A5Z00E5gx8
Đã lưu kết quả trung gian tại video 0/24427
Không tìm thấy video oo_xQyxgNpg
Không tìm thấy video 0kErOtN3q_w
Không tìm thấy video MLQLOOUO84Y
Không tìm thấy video 9B-q8h31Bpk
Không tìm thấy video 0PkVodF5QQ8
Không tìm thấy video xfmqmmBTRXw
Không tìm thấy video F5mzb086QM8
Không tìm thấy video 5lC4IlTjVxk
Không tìm thấy video RbcGCMtlluQ
Không tìm thấy video 1UE5Dq1rvUA
Không tìm thấy video MBjVXkS-vuY
Không tìm thấy video 0aYWB3d7bJ8
Không tìm thấy video pmJQ4KwliX4
Không tìm thấy video W-m1930mh1s
Không tìm thấy video xiS6rSvxl-M
Không tìm thấy video lHcXhBojpeQ
Không tìm thấy video fppmc_xzE7Y
Không tìm thấy video A0XvRL-sLVg
Không tìm thấy video _QHEPUKBn9g
Không tìm thấy video GjP_A1Q1sjM
Không tìm thấy video RqoTMr9eVOU
Không tìm thấy video ijJPFowBsBc
Không tìm thấy video SSLxfJ9rWeA
Không tìm thấ