### 1. Setup

In [None]:
import numpy as np
import pandas as pd
import requests
from datetime import datetime
import nbformat

### 2. Get Trending Videos

In [None]:
def get_categories(api_key):
    """
    Lấy danh sách các danh mục video phổ biến trên YouTube tại Việt Nam.
    Hàm này gửi một yêu cầu GET tới API của YouTube để lấy danh sách các danh mục video phổ biến
    tại Việt Nam và trả về một từ điển chứa ID danh mục và tên danh mục tương ứng.
    Args:
        api_key (str): Khóa API của YouTube để xác thực yêu cầu.
    Returns:
        dict: Một từ điển chứa ID danh mục (str) làm khóa và tên danh mục (str) làm giá trị.
    """
    
    params = {
        'part': 'snippet',
        'chart':'mostPopular',
        'regionCode':'VN',
        'key':api_key
    }
    response = requests.get(url='https://www.googleapis.com/youtube/v3/videoCategories',params=params)
    data_json = response.json()
    data = {}
    if "items" in data_json:
        for item in data_json["items"]:
            category_id = item["id"]
            category_name = item["snippet"]["title"]
            data.update({category_id:category_name})
    return data

In [None]:
def calculate_trending_time(published_time, current_time):
    """
    Tính toán thời gian trending từ thời điểm xuất bản đến thời điểm hiện tại.
    Args:
        published_time (str): Thời gian xuất bản dưới dạng chuỗi ISO 8601.
        current_time (datetime): Thời gian hiện tại dưới dạng đối tượng datetime.
    Returns:
        str: Chuỗi định dạng "DD:HH:MM" biểu thị số ngày, giờ và phút từ thời điểm xuất bản đến thời điểm hiện tại.
        None: Nếu published_time là None.
    """
    
    if published_time != None:
        published_datetime = datetime.fromisoformat(published_time[:-1]) 
        trending_duration = current_time - published_datetime
        days = trending_duration.days
        hours, remainder = divmod(trending_duration.seconds, 3600)
        minutes, _ = divmod(remainder, 60)
        return f"{days:02d}:{hours:02d}:{minutes:02d}"
    return None


In [None]:
def filter_columns(api_key, data_json):
    data = []
    categories = get_categories(api_key)
    current_time = datetime.now() 
    for item in data_json['items']:
        item_data = {}
        item_data.update({'id': item.get('id')})
        item_data.update({'publishedAt': item['snippet'].get('publishedAt')})
        item_data.update({'channelId': item['snippet'].get('channelId')})
        item_data.update({'title': item['snippet'].get('title')})
        item_data.update({'channelTitle': item['snippet'].get('channelTitle')})
        item_data.update({'tags': item['snippet'].get('tags')})
        item_data.update({'category': categories[item['snippet'].get('categoryId')]})
        item_data.update({'liveBroadcastContent': item['snippet'].get('liveBroadcastContent')})
        item_data.update({'defaultLanguage': item['snippet'].get('defaultLanguage')})
        item_data.update({'defaultAudioLanguage': item['snippet'].get('defaultAudioLanguage')})
        item_data.update({'viewCount': item['statistics'].get('viewCount')})
        item_data.update({'likeCount': item['statistics'].get('likeCount')})
        item_data.update({'favoriteCount': item['statistics'].get('favoriteCount')})
        item_data.update({'commentCount': item['statistics'].get('commentCount')})
        trending_time = calculate_trending_time(item['snippet'].get('publishedAt'), current_time)
        if trending_time is not None:
            item_data.update({'trending_time': trending_time})
            
        data.append(item_data)

    return data


In [6]:
def filter_data(data_df):
    pass

In [None]:
def get_trending_videos(api_key,regionCode=None, max_results=50):
    params = {
        'part': 'snippet, statistics',
        'chart':'mostPopular',
        'regionCode':regionCode,
        'maxResults' : max_results,
        'key':api_key
    }
    response = requests.get(url='https://www.googleapis.com/youtube/v3/videos',params=params)
    data_json = response.json()
    data = filter_columns(api_key,data_json)
    data_df = pd.DataFrame(data)
    data_df.to_csv('Data/trending_videos.csv')
    return data_df

In [8]:
api_key = 'AIzaSyD62vGXCRcS9ZTktlFWALDb-5tmnpewW1w'
trending_videos = get_trending_videos(api_key,'VN',50)