In [1]:
import pandas as pd
from datetime import datetime, timedelta
from apiclient.discovery import build

YOUTUBE_DEVELOPER_KEY = 'AIzaSyBYOWoFmf3cG5Ez653Qdmw9xHmchEMz4Ys'

youtube = build('youtube', 'v3', developerKey=YOUTUBE_DEVELOPER_KEY)

In [2]:
def get_channel(channel_name):
    return youtube.search().list(q=channel_name, type='channel', part='id,snippet').execute()['items'][0]


def get_videos(channel_id, part='id,snippet', limit=10):
    res = youtube.channels().list(id=channel_id, 
                                  part='contentDetails').execute()
    playlist_id = res['items'][0]['contentDetails']['relatedPlaylists']['uploads']
    
    videos = []
    next_page_token = None
    
    while 1:
        res = youtube.playlistItems().list(playlistId=playlist_id, 
                                           part=part, 
                                           maxResults=min(limit, 50),
                                           pageToken=next_page_token).execute()
        videos += res['items']
        next_page_token = res.get('nextPageToken')
        
        if next_page_token is None or len(videos) >= limit:
            break

    return videos

def get_videos_stats(video_ids):
    stats = []
    for i in range(0, len(video_ids), 50):
        res = youtube.videos().list(id=','.join(video_ids[i:i+50]),
                                   part='statistics').execute()
        stats += res['items']
        
    return stats

def parse_count(video):
    return video['id'],video['statistics']['viewCount']

def parse_publish_date(video):
    return video['snippet']['resourceId']['videoId'],datetime.strptime(video['snippet']['publishedAt'], "%Y-%m-%dT%H:%M:%S.000Z"),video['snippet']['title']

In [3]:
channel_name = 'ABKCOVEVO'
channel_id = get_channel(channel_name)['id']['channelId']
channel_id

'UC7WtKoUUbElX4Om6eHtSSWQ'

In [3]:
channel_id = 'UCC6bs2IgkJ99AEEteX4sJdA'

In [4]:
videos = get_videos(channel_id, limit=6500)
videos

[{'kind': 'youtube#playlistItem',
  'etag': 'opAETXXPuXwJIBEW7o1recznY30',
  'id': 'VVVDNmJzMklna0o5OUFFRXRlWDRzSmRBLlZHSldKNlpIRXZB',
  'snippet': {'publishedAt': '2022-06-24T08:53:14Z',
   'channelId': 'UCC6bs2IgkJ99AEEteX4sJdA',
   'title': 'แสดงธรรม  การเจริญสติ #หลวงพ่อสุรศักดิ์ เขมรังสี',
   'description': '#หลวงพ่อสุรศักดิ์ #เขมรังสี #วัดมเหยงคณ์ #พระนครศรีอยุธยา #พระครูเกษมธรรมทัต #พระภาวนาเขมคุณ  วิ.\nหลวงพ่อสุรศักดิ์ เขมรังสี มีนามเดิมว่า สุรศักดิ์ เกิดเมื่อวันที่ 3 ธันวาคม 2494 ณ ต.นครหลวง อ.นครหลวง อยุธยา บิดามารดาชื่อ บัวขาว-มณี เพ็งอาทิตย์ อาชีพรับจ้าง ได้รับการศึกษาขั้นปฐมวัยระดับประถมและมัธยมศึกษาปีที่ 3 ที่โรงเรียนนครหลวงวิทยากร โรงเรียนนครหลวงพิบูลย์ประเสริฐวิทย์และโรงเรียนอุดมรัชวิทยา\nต่อมาในปี 2518 หลวงพ่อได้อุปสมบทเป็นพระภิกษุสงฆ์ ณ วัดพร้าวโสภณาราม ต.นครหลวง อยุธยา โดยมีพระครูอดุลธรรมประกาศ เป็นพระอุปัชฌาย์ ได้รับฉายาว่า “เขมรังสี” (ประทีปธรรมนำความสงบและหลุดพ้น)\nข้อมูลเพิ่มเติม https://watmahaeyong.or.th/biography-surasak-kemarangsri/\n*************************

In [5]:
video_ids = list(map(lambda x:x['snippet']['resourceId']['videoId'], videos))
len(video_ids)

4327

In [6]:
stats = get_videos_stats(video_ids)
len(stats)

4327

In [7]:
most_viewed = sorted(stats, key=lambda x:int(x['statistics']['viewCount']), reverse=True)

In [8]:
counts = [parse_count(video) for video in most_viewed]
len(counts)

4327

In [9]:
df_count = pd.DataFrame(data = counts , columns=['videoId','viewCount'])
df_count.head(11)

Unnamed: 0,videoId,viewCount
0,Eytv9SMO-IU,2336444
1,FjZiQNdFM_s,1672989
2,DrIMTgymwrU,1581274
3,vWkpPn0_0OY,1448243
4,k1p1RXWk8aI,1274178
5,DJTW6FsYlHg,1016364
6,ar2AQRgtzgU,901148
7,oNyz5DnUAQE,696435
8,fOJbQOS9420,694745
9,_KRvqFoMeyg,604548


In [10]:
df_count["viewCount"] = df_count["viewCount"].astype("float")

In [11]:
df_count.sort_values(by=['viewCount'],ascending=[False]).head()

Unnamed: 0,videoId,viewCount
0,Eytv9SMO-IU,2336444.0
1,FjZiQNdFM_s,1672989.0
2,DrIMTgymwrU,1581274.0
3,vWkpPn0_0OY,1448243.0
4,k1p1RXWk8aI,1274178.0


In [12]:
df_count.to_excel('c:\\a8\\excel\\namo 125.xlsx')

In [13]:
publish_dates = [parse_publish_date(video) for video in videos]
len(publish_dates)

ValueError: time data '2022-06-24T08:53:14Z' does not match format '%Y-%m-%dT%H:%M:%S.000Z'

In [21]:
df_date = pd.DataFrame(data = publish_dates , columns=['videoId','publishedAt','title'])
df_date.head()

NameError: name 'publish_dates' is not defined

In [22]:
dfd = pd.merge(df_date, df_count, on='videoId', how='inner')
dfd.info()

NameError: name 'df_date' is not defined

In [23]:
dfd.sort_values(by=['publishedAt'],ascending=[False]).head()

NameError: name 'dfd' is not defined

In [24]:
df_count_date = pd.merge(df_count, df_date, how='inner', on='videoId')
df_count_date.head(10)

NameError: name 'df_date' is not defined

In [18]:
df_count_date.to_excel('c:\\aab\\excel\\traversy media.xlsx')