## 1. Import Libraries for Scraping Data YouTube Comments and Create API based on Google YouTube Data API

In [9]:
"""
Melakukan proses import library pandas untuk membuat data-data komentar dari hasil web scraping menjadi DataFrame
serta juga meng-import library khusus yang dimiliki oleh Google API Client agar dapat mengambil informasi/data dari
video komentar debat capres-cawapres babak pertama pada channel YouTube KPU RI menggunakan API yang akan didapatkan dari
salah satu service pada Google Cloud Platform yaitu YouTube Data API v3
"""
import pandas as pd
from googleapiclient.discovery import build

In [10]:
"""
Mendefinisikan resource utama/sumber daya dari Google API Client seperti nama layanan atas API yang digunakan,
kode API dan tipe versi pada nama service yang digunakan sehingga dengan resource tersebut,
Google API dapat melakukan proses pengambilan (scraping) data/informasi pada serangkaian
komentar utama (bukan teks komentar yang bersifat balasan/reply dari suatu komentar) yang ada di dalam video debat
capres-cawapres babak pertama Republik Indonesia tahun 2024 yang di-upload oleh channel YouTube KPU RI menggunakan
API yang telah berhasil dibuat dan didapatkan dari CREDENTIALS YouTube Data API v3 yang ada di dalam Google Cloud Platform
"""

API_Service_Name = "youtube" # Merupakan nama service yang digunakan untuk generate kode API
API_Version_Name = "v3" # Merupakan jenis/tipe versi dari nama service dalam menghasilkan kode API (YouTube Data API v3)
API_Key = "AIzaSyCTEBkjSYN0dPHA95Oipoks9A9b8aIOZb8" # Meng-copy kode API dari CREDENTIALS pada YouTube Data API v3


"""
Menyimpan 3 variabel yang menyimpan resource utama dari Google API Client yang sebelumnya
telah didefinisikan seperti nama service API (API_Version_Name), versi API Youtube yang digunakan (API_Version_Name)
serta kunci/kode API (API_Key) yang telah dibuat dan didapatkan melalui CREDENTIALS
YouTube Data API v3 yang ada di dalam Google Cloud Platform Console yaitu 
dan disimpan di dalam variabel bernama "youtube_scrape_comment_objects"
"""
youtube_scrape_comment_objects = build(API_Service_Name, API_Version_Name, developerKey = API_Key)

Code script diatas merupakan proses inisialisasi API Key yang telah berhasil didapatkan melalui Google Cloud Platform dengan pilihan service yakni YouTube Data API v3. Maka dari itu nama service API yang digunakan (API_Service_Name) ditulis sebagai "youtube" karena service/layanan Google pada Google Cloud Platform yang digunakan di dalam penelitian kali ini adalah sebuah video yang ter-upload pada media sosial YouTube dan versi API yang digunakan adalah versi ketiga dari API YouTube Data sehingga nilai dari variabel API_Version_Name yang disimpan adalah "v3".

Selain itu, untuk mendapatkan kunci API dari layanan yang bernama "youtube", pertama-tama saya harus masuk ke dalam service YouTube Data API v3 di dalam Google Cloud Platform dan mengaktifkan (enable) service tersebut dan memilih fitur/opsi CREDENTIALS karena API Key berada di dalam fitur tersebut. Jadi dapat disimpulkan kalau untuk membuat API Key agar dapat mengambil data-data yang ada di dalam suatu video YouTube seperti komentar dari 1 video YouTube, Playlist, Subscription, dll., maka terlebih dahulu harus mengaktifkan service YouTube Data API v3 di dalam Google Cloud Platform dan kemudian membuat/generate API Key di dalam opsi CREDENTIALS. Jika API sudah berhasil dibuat, maka kita dapat meng-copy API tersebut untuk diletakkan di dalam variabel. Pada code script diatas, API yang berhasil didapatkan disimpan di dalam variabel yang bernama "API_KEY".

Di samping itu, fungsi build pada library googleapiclient.discovery merupakan sebuah Software Development Kits (SDKs) yang telah disediakan oleh Google agar para developer/scientist dapat mengakses semua layanan berbasis Google melalui API seperti video/konten YouTube, BigQuery, dll. Jadi dapat disimpulkan bahwasanya dengan mendefinisikan nama layanan Google yang akan digunakan dan API yang telah didapatkan berdasarkan layanan yang akan digunakan, maka setiap orang diseluruh dunia dapat mengakses dan mendapatkan data-data atau informasi dunia melalui layanan Google. Seperti pada penelitian kali ini yang sumber datanya merupakan data-data komentar dari video debat babak pertama capres-cawapres yang di-upload oleh channel KPU RI yang ada di dalam media sosial YouTube.

## 2. Request Access to Retrieve Main Comments Data Objects on YouTube Video based on API Key, API Service Name, and API Version

In [11]:
"""
Melakukan proses permintaan kepada Google Client dengan menggunakan API yang sudah
di=generate oleh CREDENTIALS dan disimpan di dalam variabel "youtube_scrape_comment_objects"
(bersamaan dengan nama service dan jenis versi dari service yang digunakan)
untuk dapat mengambil 100 data/informasi (sesuai jumlah batasan/limit data komentar yang dapat
diambil dari komentar pada konten video YouTube menggunakan API dari Google Client) pada serangkaian komentar utama
tentang debat capres-cawapres babak pertama Republik Indonesia tahun 2024 yang di-upload oleh
channel YouTube KPU RI berdasarkan dari ID yang dimiliki oleh video tersebut
"""

video_youtube_data_request = youtube_scrape_comment_objects.commentThreads().list(
    part = "snippet", # snippet pada parameter part adalah objek list dari seluruh elemen yang dimiliki oleh komentar utama
    videoId = "yNO0YS846kU", # Merupakan ID dari video debat babak pertama capres-cawapres yang di-upload oleh channel KPU RI 
    maxResults = 100, # Jumlah informasi komentar yang akan terambil dari video debat pertama namun 100 data adalah batasannya
    order = "time", # Nilai time pada parameter order adalah urutan tanggal dan waktu terbaru hingga terlama dari komentar
)


"""
Menjalankan proses permintaan untuk mendapatkan seluruh elemen/objek dari 100 rangkaian komentar
paling terbaru hingga terlama dari video ID yaitu yNO0YS846kU yang merupakan ID video dari debat
capres-cawapres babak pertama yang di-upload oleh YouTube channel KPU RI yyang telah dibuat dan disimpan
pada variabel "video_youtube_data_request"
"""
video_youtube_data_response = video_youtube_data_request.execute()

Berikut adalah penjelasan mengenai code script diatas berikut ini:

1. youtube_scrape_comment_objects merupakan sebuah nama variabel yang berisikan parameter-parameter beserta nilainya yang berfungsi sebagai tempat menyimpan resource utama Google Client serta API dari YouTube untuk dapat mengakses data-data dan informasi yang dimiliki oleh suatu konten video YouTube seperti informasi video, komentar di dalam suatu video, playlist dari suatu channel, dll, dengan memanfaatkan kode API (API KEY) yang didapatkan melalui Google Cloud Platform dengan cara membuat credentials API di dalam salah satu service Google Cloud Platform yaitu YouTube Data API v3.

2. commentThreads merupakan suatu sumber daya dari YouTube Data API yang berisikan objek/elemen atas informasi-informasi dari komentar utama (teks komentar yang bukan menjadi komentar balasan) dari suatu video di YouTube. Salah satu contoh informasi yang terdapat di dalam komentar utama adalah teks komentar yang dibuat oleh user/penonton dari video tersebut bukan teks komentar yang menanggapi/merespon komentar utama. Atau identitas nama user/akun YouTube yang berkomentar di video tersebut sebagai bentuk pendapat atas video yang ditonton.

3. Parameter "part" bertujuan untuk mendapatkan banyak objek list properti yang dipisahkan oleh tanda koma (comma-separated list) dari sumber daya yang dimiliki oleh service YouTube Data API v3 yang membentuk komentar paling utama (komentar teratas) dari suatu video. Sedangkan "snippet" pada parameter "part" bertujuan untuk mendapatkan objek detail dasar tentang elemen-elemen/item dari komentar utama sebagai bentuk respon API YouTube terhadap permintaan dalam mengambil objek-objek data dari sebuah konten video berdasarkan video id yang didefinisikan pada parameter "videoId". Salah satu contoh detail dasar dari komentar utama seperti channel id sebagai identitas unik dari suatu channel yang ada di media sosial YouTube.

4. Parameter videoId merupakan sebuah identitas unik dari video (ID dari suatu konten video YouTube) yang informasi dasarnya ingin diambil (data scraping) untuk kebutuhan yang berbeda-beda. Sebagai contohnya pada penelitian kali ini, saya ingin menggunakan video tentang debat babak pertama capres-cawapres Republik Indonesia tahun 2024 dari channel YouTube KPU RI dan video tersebut memiliki alamat URL yakni https://www.youtube.com/watch?v=yNO0YS846kU. Jadi ID video "yNO0YS846kU" diambil dari URL pada video tersebut yang letaknya setelah v=.

2. Parameter maxResult merupakan sebuah parameter yang secara spesifik bertujuan untuk mengambil jumlah kuantitas dari data/informasi komentar utama yang ingin diambil dari suatu konten video di media sosial YouTube berdasarkan ID unik yang didefinisikan pada parameter videoId. Tetapi kuantitas jumlah data/informasi komentar yang dapat diambil menggunakan API dari service Google Client hanya 100 data saja, tidak bisa lebih dari 100 data. Sehingga karena penelitian kali ini akan mengambil lebih dari 100 data, maka diperlukan tahapan/teknik pengulangan supaya data komentar yang terambil dapat melebihi 100 data. Tahapan untuk mengambil data lebih dari 100 data akan dilakukan setelah berhasil mendapatkan 100 data komentar (berdasarkan jumlah maksimal data komentar yang dapat diambil menggunakan API Google YouTube v3).

4. Parameter order merupakan sebuah parameter yang dimiliki oleh fungsi commentThreads() yang bertujuan untuk menentukan urutan data komentar yang ingin diambil (di-scraping) sebagai permintaan/request dari Google API Client terhadap komentar yang dimiliki oleh konten-konten video yang berada di media sosial YouTube. Konten video tersebut ditentukan oleh video ID yang dimiliki oleh parameter videoId. Parameter order memiliki 2 nilai yang valid yaitu time dan relevance. Jika nilai dari parameter order adalah time, maka urutan data komentar yang diambil akan terdiri dari komentar-komentar yang paling baru dibuat pada video tersebut berdasarkan tanggal dan waktu dari setiap teks komentar. Sebagai contoh jika terdapat teks komentar seperti "X, Y dan Z adalah jenis-jenis huruf yang ada di dalam Alfabet" dibuat di tanggal 29 April tahun 2024 dan teks komentar lainnya adalah "11.81, 74.76 dan 87.12 merupakan salah satu contoh angka bilangan desimal" yang dibuat di tanggal 14 April tahun 2024, maka urutan data teks komentar yang tersimpan lebih dulu yang berada paling atas dari urutan data adalah teks komentar yang berbunyi "X, Y dan Z adalah jenis-jenis huruf yang ada di dalam Alfabet" dan selanjutnya yaitu teks komentar yakni "11.81, 74.76 dan 87.12 merupakan salah satu contoh angka bilagan desimal". Jadi pada dasarnya nilai time di dalam parameter order akan mengurutkan rangkaian komentar utama dari suatu konten video di media sosial YouTube (berdasarkan video id) berdasarkan tingkat paling terbaru hingga paling terlama atas tanggal dan waktu dari komentar tersebut dibuat oleh penonton dari video tersebut.

In [12]:
"""
Menampilkan seluruh objek serta elemen yang dimiliki oleh 100 rangkaian komentar utama
(teks komentar yang bukan merupakan balasan/reply dari suatu komentar) dari video debat babak pertama
capres-cawapres yang ditayangkan oleh channel YouTube KPU RI yang berhasil di-scraping
menggunakan API Key dari service Google Cloud Console yaitu YouTube Data API v3
"""
video_youtube_data_response

{'kind': 'youtube#commentThreadListResponse',
 'etag': 'mt3Zl21f5YbukQKQXCLs8xzIiYo',
 'nextPageToken': 'Z2V0X25ld2VzdF9maXJzdC0tQ2dnSWdBUVZGN2ZST0JJRkNJa2dHQUFTQlFpSUlCZ0FFZ1VJaHlBWUFCSUZDSjBnR0FFU0JRaW9JQmdBR0FBaURnb01DSUdtNnF3R0VLRGRrODRD',
 'pageInfo': {'totalResults': 100, 'resultsPerPage': 100},
 'items': [{'kind': 'youtube#commentThread',
   'etag': '-v745yj-4UFdnSQEUgRMns0ww_o',
   'id': 'Ugys7eN2WLUWwLv3Uhd4AaABAg',
   'snippet': {'channelId': 'UCVdSz86o9q2cQKvAQ5QhOYg',
    'videoId': 'yNO0YS846kU',
    'topLevelComment': {'kind': 'youtube#comment',
     'etag': 'bPRyhJoWGrF-Iq3g-tf1hkMr-cI',
     'id': 'Ugys7eN2WLUWwLv3Uhd4AaABAg',
     'snippet': {'channelId': 'UCVdSz86o9q2cQKvAQ5QhOYg',
      'videoId': 'yNO0YS846kU',
      'textDisplay': ')))))) D ))))))',
      'textOriginal': ')))))) D ))))))',
      'authorDisplayName': '@UjangSupardi-wl2ku',
      'authorProfileImageUrl': 'https://yt3.ggpht.com/ytc/AIdro_mppDQFPIUwJsfv3s7whDFxWLr475ssGE5SOmiZ0hT-rSSNAdEVrRPVqDi7lp5BBF

## 3. Define Main Items (Video ID, Total Reply of Count, Comment ID, Text of Comment, Total of Comment Like, Name of Account Commenting, etc) from Video YouTube based on Video ID in YouTube

In [13]:
"""
Mendefinisikan beberapa elemen item yang membentuk serangkaian komentar utama yang akan digunakan
sebagai kolom di dalam DataFrame berdasarkan ID video YouTube yang sebelumnya telah didefinisikan
pada "video_youtube_data_request" (saat ini permintaan tersebut telah diterima sebagai respon dan disimpan
di dalam "video_youtube_data_response") dengan mengambil 100 data/informasi dari serangkaian komentar utama di dalam video
debat capres-cawapres Republik Indonesia babak pertama yang di-upload oleh channel YouTube KPU RI
"""

list_first_video_debate_kpuri = [] # Sebuah empty list untuk menyimpan beberapa elemen item dari serangkaian komentar utama


for item in video_youtube_data_response["items"]:
    video_id = item["snippet"]["videoId"] # Mendapatkan ID video debat babak pertama capres-cawapres yang di-upload oleh KPU RI
    total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan dari suatu teks komentar utama
    comment_id = item["id"] # Mendapatkan seluruh ID dari setiap rangkaian komentar utama dari video debat babak pertama
    
    
    """
    Mendapatkan seluruh elemen item per masing-masing komentar utama yang menjadi struktur pembentuk dasar dari komentar utama
    berdasarkan video ID yang sebelumnya telah diinisialisasikan.
    Jenis objek yang menjadi struktur/rangkaian detail atas masing-masing komentar utama adalah channel ID,
    teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
    nama akun user yang berkomentar di dalam video tersebut, dll
    
    Perlu diketahui jika elemen item yang terdapat pada top level comment dan commentThreads() berbeda tetapi
    dapat digabungkan menjadi satu kesatuan. Elemen seperti video id,
    jumlah user yang membalas/merespon teks komentar utama, dan lainnya
    termasuk di dalam elemen item yang dimiliki oleh commentThreads()
    karena sifatnya adalah informasi general dari rangkaian komentar utama
    
    Sedangkan elemen item yang dimiliki oleh top level comment lebih bersifat informasi yang spesifik yang dimiliki oleh
    masing-masing komentar utama atau komentar balasan atas komentar utama.
    Elemen item seperti nama user/akun yang berkomentar, isi atas masing-masing teks komentar yang dibuat oleh
    setiap akun yang berkomentar, jumlah user yang menyukai isi dari teks komentar utama, dan lainnya
    termasuk ke dalam item-item yang dimiliki oleh top level comment
    """
    comment_items = item["snippet"]["topLevelComment"]["snippet"]
    
    
    """
    Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_first_video_debate_kpuri" yang akan
    berisikan beberapa objek item/elemen dari serangkaian komentar utama seperti ID video,
    ID Channel yang mem-publish/meng-upload video tersebut, nama akun user yang berkomentar beserta teks komentar,
    tanggal pembuatan komentar untuk video tersebut,
    jumlah total like sebagai bentuk respon setuju pada komentar yang telah dibuat oleh user, dll.
     
    Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "comment_id" dan "comment_items"
    termasuk ke dalam elemen utama yang akan dimasukkan ke dalam list kosong (empty list) yang bernama
    "list_first_video_debate_kpuri" yang nantinya list yang bernama "list_first_video_debate_kpuri"
    akan menjadi struktur kolom di dalam Pandas DataFrame
    """
        
    list_first_video_debate_kpuri.append([
        video_id, # Memasukkan ID video debat pertama capres-cawapres yang di-upload oleh channel YouTube KPU RI ke dalam list
        comment_items["channelId"], # Memasukkan ID yang dimiliki oleh channel YouTube KPU RI ke dalam variabel list
        comment_id, # Memasukkan ID masing-masing komentar yang dibuat oleh para penonton video debat pertama ke dalam list
        comment_items["authorDisplayName"], # Memasukkan nama akun YouTube yang berkomentar di video debat ke dalam empty list
        comment_items["textDisplay"], # Memasukkan 100 teks komentar utama pada video pertama dari channel KPU RI ke dalam list
        comment_items["likeCount"], # Memasukkan jumlah total like yang diterima oleh teks komentar utama ke dalam variabel list
        total_reply_count, # Memasukkan jumlah total balasan (reply) yang diterima oleh teks komentar utama ke dalam list
        comment_items["authorChannelUrl"], # Memasukkan URL/link channel akun YouTube para penonton video debat pertama ke list
        comment_items["publishedAt"], # Memasukkan tanggal dan waktu saat pertama kali teks komentar utama dibuat oleh user
        comment_items["updatedAt"] # Memasukkan tanggal dan waktu saat suatu teks komentar mengalami perubahan (update) tulisan
    ])

"""
Menampilkan jumlah data yang dimiliki oleh variabel list "list_first_video_debate_kpuri"
setelah dilakukan proses penyaringan elemen item dari serangkaian komentar utama
Saat ini variabel list "list_first_video_debate_kpuri" memiliki 100 rangkaian data komentar dan 10 objek elemen
yang menyimpan 100 data. Sepuluh objek tersebut adalah elemen-elemen yang telah dimasukkan ke dalam variabel list
"""

print("Jumlah Data yang Dimiliki oleh Variabel List 'list_first_video_debate_kpuri' sebelum Proses Looping adalah",
      len(list_first_video_debate_kpuri))

Jumlah Data yang Dimiliki oleh Variabel List 'list_first_video_debate_kpuri' sebelum Proses Looping adalah 100


Jika hanya menggunakan code script diatas saja maka data komentar yang didapatkan hanya berjumlah 100 data saja karena jumlah maksimal untuk mengambil data komentar dari suatu konten video YouTube dengan menggunakan Google YouTube API dibatasi hanya 100 data. Maka dari itu karena menurut saya 100 data sangat tidak cukup untuk penelitian kali ini, maka saya akan mengambil data komentar dari video debat capres-cawapres babak pertama dari YouTube channel KPU RI lebih dari 100 data komentar.

Untuk mengatasi permasalahan ini, saya akan melakukan proses looping/pengulangan permintaan untuk mengambil data komentar lebih dari 100 data. Jumlah data yang saya inginkan pada penelitian kali ini berjumlah sebanyak 4.000 data dari 7.046 komentar sehingga permintaan yang code script dibawah ini akan mengulangi permintaan mengambil data sebanyak 4.000 data komentar yang akan ditempatkan di dalam 10 kolom/object/elemen utama dari video debat capres-cawapres babak pertama yang di-upload oleh channel YouTube KPU RI. Sepuluh kolom/elemen utama yang akan membentuk DataFrame adalah kolom elemen "videoId", "channelId", "id" sebgaai comment_id, "authorDisplayName", "textDisplay", "likeCount", "totalReplyCount", "authorChannelUrl", "publishedAt", dan "updatedAt".

Sebagai catatan dan pengingat bahwasanya saat ini objek list yang bernama "list_first_video_debate_kpuri" baru memiliki 100 rangkaian data/informasi komentar dan akan dilakukan proses pengulangan permintaan hingga variabel list "list_first_video_debate_kpuri" memiliki 4.000 data komentar beserta elemen-elemen utamanya. Agar dapat mengambil data komentar sebanyak 4.000 data, maka saya akan menerapkan teknik TokenPagination.

TokenPagination merupakan cara untuk mengambil data-data yang berada di halaman selanjutnya (data yang bukan berada di halaman utama/halaman paling awal dari suatu konten/informasi). TokenPagination yang akan digunakan di dalam penelitian kali ini memiliki tujuan untuk mendapatkan data-data komentar seperti teks komentar, data nama akun/user yang berkomentar, tanggal pembuatan komentar, dsb, yang berada di halaman-halaman berikutnya atau halaman setelah 100 data paling awal (data yang menjadi batasan maksimal/limit yang dapat diambil menggunakan YouTube Data API v3).

In [15]:
"""
Menampilkan seluruh data dari beberapa elemen item pada rangkaian komentar utama yang terdapat
di dalam variabel list "list_first_video_debate_kpuri" yang sumber data komentarnya berasal dari video
debat capres-cawapres babak pertama yang ditayangkan oleh channel Youtube KPU RI yang memiliki ID Video yNO0YS846kU
"""

list_first_video_debate_kpuri

[['yNO0YS846kU',
  'UCVdSz86o9q2cQKvAQ5QhOYg',
  'Ugys7eN2WLUWwLv3Uhd4AaABAg',
  '@UjangSupardi-wl2ku',
  ')))))) D ))))))',
  0,
  0,
  'http://www.youtube.com/@UjangSupardi-wl2ku',
  '2024-04-29T15:30:09Z',
  '2024-04-29T15:30:09Z'],
 ['yNO0YS846kU',
  'UCVdSz86o9q2cQKvAQ5QhOYg',
  'Ugz41rIjdLc7VI_iDNt4AaABAg',
  '@UjangSupardi-wl2ku',
  ')))))) R - BO ))))))',
  0,
  0,
  'http://www.youtube.com/@UjangSupardi-wl2ku',
  '2024-04-29T15:29:49Z',
  '2024-04-29T15:29:49Z'],
 ['yNO0YS846kU',
  'UCVdSz86o9q2cQKvAQ5QhOYg',
  'UgxO9-4C2z-EuzQYE-54AaABAg',
  '@UjangSupardi-wl2ku',
  'Music<br>TV NASIONAL<br><br>::::::::::::::::::::::::::::::::::::::::::::::::::::<br>Senin, 6 Mei | <a href="https://www.youtube.com/watch?v=yNO0YS846kU&amp;t=1020">17:00</a> WIB LIVE<br>;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;',
  0,
  0,
  'http://www.youtube.com/@UjangSupardi-wl2ku',
  '2024-04-27T21:47:18Z',
  '2024-04-27T21:47:18Z'],
 ['yNO0YS846kU',
  'UCVdSz86o9q2cQKvAQ5QhOYg',
  'UgxiP