### 1. Cài đặt thư viện

In [249]:
# %pip install kagglehub isodate pandas requests os

In [250]:
import kagglehub
import pandas as pd
import requests
import os
from isodate import parse_duration

### 2. Hàm lấy dữ liệu từ Kaggle

In [251]:
def get_trending_videos():
    path = kagglehub.dataset_download("asaniczka/trending-youtube-videos-113-countries")
    namefile = '/trending_yt_videos_113_countries.csv'
    trending_videos = pd.read_csv(path+namefile)
    return trending_videos

### 3. Hàm lấy dữ liệu từ YoutubeAPI

In [208]:
def get_categories(api_key:str):
    params = {
        'part': 'snippet',
        'chart': 'mostPopular',
        'regionCode': 'VN',
        'key': api_key
    }
    response = requests.get(url='https://www.googleapis.com/youtube/v3/videoCategories',params=params)
    data_json = response.json()
    categories = {}
    if "items" in data_json:
        for item in data_json["items"]:
            category_id = item["id"]
            category_name = item["snippet"]["title"]
            categories.update({category_id:category_name})
    return categories

In [253]:
def get_dates(time:str):
    duration = parse_duration(time)
    formatted_time = str(duration)
    return formatted_time

In [254]:
def get_video_info(api_key:str, video_id:str):
    categories = get_categories(api_key)
    category = None
    duration = None
    published_at = None
    params = {
        'part': ['snippet','contentDetails','status'],
        'id':video_id,
        'key': api_key
    }
    response = requests.get(url='https://www.googleapis.com/youtube/v3/videos',params=params)
    data_json = response.json()
    if "items" in data_json:
        for item in data_json["items"]:
            category = categories.get(item["snippet"]["categoryId"])
            duration = get_dates(item['contentDetails']['duration'])
            published_at = item['snippet']['publishedAt']
    return [video_id,category,duration,published_at]

In [255]:
def get_video_info_list(api_key:str, list_video_id:pd.Series):
    video_id = []
    category = []
    duration = []
    published_at = []
    for item in list_video_id:
        res = get_video_info(api_key,item)
        video_id.append(res[0])
        category.append(res[1])
        duration.append(res[2])
        published_at.append(res[3])
    df = pd.DataFrame({
        'video_id': video_id,
        'category': category,
        'duration': duration,
        'published_at': published_at
    })
    return df

### 4. Lọc dữ liệu

#### a. Lấy dữ liệu từ Kaggle

In [256]:
if os.path.exists('Data/VN_trending_videos.csv'):
    trending_videos = pd.read_csv('Data/VN_trending_videos.csv').iloc[:, 1:]
else:
    trending_videos = get_trending_videos()
    trending_videos = trending_videos.loc[trending_videos['country'] == 'VN']
    trending_videos.to_csv('Data/VN_trending_videos.csv',index=False)

#### b. Lấy vùng dữ liệu từ tháng 11-2023 đến 10-2024

In [257]:
start_date = '2023-11-01'
end_date = '2024-10-31'

trending_videos = trending_videos[(trending_videos['snapshot_date'] >= start_date) & (trending_videos['snapshot_date'] <= end_date)]

Unnamed: 0,title,channel_name,daily_rank,daily_movement,weekly_movement,snapshot_date,country,view_count,like_count,comment_count,description,thumbnail_url,video_id,channel_id,video_tags,kind,publish_date,langauge
600,2 Ngày 1 Đêm Lễ Hội 2024 - Tập 69: Dương Lâm t...,ĐÔNG TÂY PROMOTION OFFICIAL,1,0,49,2024-10-31,VN,7410489,108974,7204,2 Ngày 1 Đêm Lễ Hội 2024 - Tập 69: Dương Lâm t...,https://i.ytimg.com/vi/krJbgklRtec/mqdefault.jpg,krJbgklRtec,UCFMEYTv6N64hIL9FlQ_hxBw,"dong tay promotion, đông tây promotion, tvshow...",youtube#video,2024-10-27 00:00:00+00:00,vi
601,"Rap Việt 2024 Tập 6: Bigteam 2.0 xuất trận ""gi...",Vie Channel,2,0,48,2024-10-31,VN,4927069,104848,6962,"Rap Việt 2024 Tập 6: Bigteam 2.0 xuất trận ""gi...",https://i.ytimg.com/vi/i0RPJmHLj3s/mqdefault.jpg,i0RPJmHLj3s,UCkna2OcuN1E6u5I8GVtdkOw,"vie channel, rapper, underground, the rapper, ...",youtube#video,2024-10-26 00:00:00+00:00,vi
602,Minecraft nhưng Bạn Cho Mình Hiệu Ứng Để Thoát...,VIỆT BỰA ヅ,3,2,47,2024-10-31,VN,1848582,195705,253,★ Facebook (Chính chủ): https://www.facebook.c...,https://i.ytimg.com/vi/Zat3bmUtveA/mqdefault.jpg,Zat3bmUtveA,UCZEDQbrQqkoBhPJLWI2C0OA,"việt bựa official, game horror, game funny, vi...",youtube#video,2024-10-26 00:00:00+00:00,vi
603,Đón giám đốc thăm viện | Nhà điên vui nhộn tập...,Tôm channel officical,4,-1,46,2024-10-31,VN,1591045,26831,52,---------------------------- / ---------------...,https://i.ytimg.com/vi/QSCKQdY2YPQ/mqdefault.jpg,QSCKQdY2YPQ,UCFb_w06wI_rHs2w-5Jt2vSg,"tôm, tôm official, tôm channel official, tôm t...",youtube#video,2024-10-28 00:00:00+00:00,vi
604,Anh ổn ko? 🤣,Dalin Vlog,5,8,45,2024-10-31,VN,1670332,39496,283,,https://i.ytimg.com/vi/K2laGp8f__w/mqdefault.jpg,K2laGp8f__w,UCzguJYzi-zE-XvSXcTRPxkQ,,youtube#video,2024-10-26 00:00:00+00:00,en-US
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18763,Simp Gái 808 | Low G | Rap Nhà Làm,Rap Nhà Làm,46,0,4,2023-11-01,VN,2875092,92537,6701,Simp Gái 808 | Low G | Rap Nhà Làm\nStream NOW...,https://i.ytimg.com/vi/6aBnhxRvmok/mqdefault.jpg,6aBnhxRvmok,UC45m9oJs2omQOkifqZCdvJQ,"simp gái, low g, low g rap nha lam, simp gái l...",youtube#video,2023-10-17 00:00:00+00:00,vi
18764,Mấy bạn có thấy anh trai người yêu mình quá đá...,Hoàng Tiến Nghị,47,-5,3,2023-11-01,VN,399190,49870,172,💎Shop Chính Thức và Duy Nhất Của Nghị: https:/...,https://i.ytimg.com/vi/NKnLBI9ghm8/mqdefault.jpg,NKnLBI9ghm8,UCtSTZieKEwz21Kkgz5gWUKQ,"hoàng tiến nghị, hoang tien nghi, tien nghi, t...",youtube#video,2023-10-27 00:00:00+00:00,vi
18765,Thầy giáo thế này học sinh không bỏ học ngày n...,ZUNEZX UNISEX,48,-4,2,2023-11-01,VN,5027084,131979,391,#Zunezx #short #shorts #mixmatch #allblack\n#z...,https://i.ytimg.com/vi/XywuqG-HXQQ/mqdefault.jpg,XywuqG-HXQQ,UCklZKNakn7dv4Q8uc4SwpQw,"zune zx entertainment, zunezx unisex, zunezx t...",youtube#video,2023-10-15 00:00:00+00:00,vi
18766,Ai bắt nạt em thì alo anh sẽ có mặt #tkh0112 #...,Huy Khang,49,-2,1,2023-11-01,VN,1992625,44013,189,"✔ Đăng ký kênh Huy Khang, Like và Nhấn chuông ...",https://i.ytimg.com/vi/OP416pj1l5Q/mqdefault.jpg,OP416pj1l5Q,UCir4cu2u6q8vK7hOBNjpGEg,"huy khang, huykhangtran119, huy khang tiktok, ...",youtube#video,2023-10-18 00:00:00+00:00,


#### c. Lấy dữ liệu từ YoutubeAPI

In [214]:
api_key = 'AIzaSyD62vGXCRcS9ZTktlFWALDb-5tmnpewW1w'

In [215]:
categories = get_categories(api_key)

In [216]:
if os.path.exists('Data/api_data.csv'):
    api_data = pd.read_csv('Data/api_data.csv').iloc[:, 1:]
else:
    trending_videos_drop_duplicates = trending_videos.drop_duplicates(subset='video_id')
    api_data = get_video_info_list(api_key,trending_videos_drop_duplicates.loc[::,'video_id'])
    api_data.to_csv('Data/api_data.csv')

#### d. Xoá những cột không cần thiết

In [217]:
trending_videos = trending_videos.drop(['thumbnail_url','kind','description','publish_date'],axis=1)

#### e. Ghép data từ 2 bảng

In [218]:
trending_videos = pd.merge(trending_videos,api_data,on='video_id',how='inner')

#### f. Xoá những video bị xoá

In [219]:
trending_videos = trending_videos.dropna(subset=['duration'])

#### g. Thêm những cột cần thiết

In [220]:
trending_videos['snapshot_date'] = pd.to_datetime(trending_videos['snapshot_date'])
trending_videos['published_at'] = pd.to_datetime(trending_videos['published_at']).dt.tz_convert('Asia/Ho_Chi_Minh').dt.strftime('%Y-%m-%d %H:%M:%S')

In [221]:
trending_videos['trending_time'] = (trending_videos['snapshot_date']+pd.Timedelta(days=1)) - trending_videos.groupby('video_id')['snapshot_date'].transform('min')

#### h. Xuất ra csv

In [222]:
trending_videos.to_csv('Data/trending_videos.csv')

In [223]:
trending_videos_unique = trending_videos.loc[trending_videos.groupby('video_id')['snapshot_date'].idxmax()]
trending_videos_unique.to_csv('Data/trending_videos_unique.csv', index=False)