## 1. Import Libraries for Scraping Data YouTube Comments and Create API based on Google YouTube Data API

In [11]:
# Meng-import library yang akan digunakan dalam penelitian kali ini (mengambil data komentar dari salah satu video Youtube)
import pandas as pd
from googleapiclient.discovery import build

In [12]:
"""
Menginisialisasi resource/sumber daya Google API Client atas objek yang akan digunakan
untuk mengambil beberap data komentar dari konten video YouTube yang di-upload oleh channel YouTube Najwa Shihab
tentang debat keempat capres-cawapres menggunakan service dari Google Cloud Platform yaitu YouTube Data API v3
dengan memanfaatkan API Key yang dihasilkan oleh CREDENTIALS service YouTube Data API v3
"""

API_Service_Name = "youtube" # youtube pada API_Service_Name mengartikan jika nama service yang digunakan pada penelitian ini
API_Version_Name = "v3" # v3 mengartikan bahwa jenis versi API dari service yang bernama youtube (YouTube Data API v3)
API_Key = "AIzaSyAEA0OfmhGVO186BkPfDeqglHj6tHclS3Q" # Sebuah API key yang di-generate oleh CREDENTIALS YouTube Data API v3

# Menyimpan 3 variabel objek resource yang telah didefinisikan ke dalam variabel bernama "youtube_scrape_comment_objects"
youtube_scrape_comment_objects = build(API_Service_Name, API_Version_Name, developerKey = API_Key)

Code script diatas merupakan proses inisialisasi API Key yang telah berhasil didapatkan melalui Google Cloud Platform dengan pilihan service yakni YouTube Data API v3. Maka dari itu nama service API yang digunakan (API_Service_Name) ditulis sebagai "youtube" karena service/layanan Google pada Google Cloud Platform yang digunakan di dalam penelitian kali ini adalah sebuah video yang ter-upload pada media sosial YouTube dan versi API yang digunakan adalah versi ketiga dari API YouTube Data sehingga nilai dari variabel API_Version_Name yang disimpan adalah "v3".

Selain itu, untuk mendapatkan kunci API dari layanan yang bernama "youtube", pertama-tama saya harus masuk ke dalam service YouTube Data API v3 di dalam Google Cloud Platform dan mengaktifkan (enable) service tersebut dan memilih fitur/opsi CREDENTIALS karena API Key berada di dalam fitur tersebut. Jadi dapat disimpulkan kalau untuk membuat API Key agar dapat mengambil data-data yang ada di dalam suatu video YouTube seperti komentar dari 1 video YouTube, Playlist, Subscription, dll., maka terlebih dahulu harus mengaktifkan service YouTube Data API v3 di dalam Google Cloud Platform dan kemudian membuat/generate API Key di dalam opsi CREDENTIALS. Jika API sudah berhasil dibuat, maka kita dapat meng-copy API tersebut untuk diletakkan di dalam variabel. Pada code script diatas, API yang berhasil didapatkan disimpan di dalam variabel yang bernama "API_KEY".

Di samping itu, fungsi build pada library googleapiclient.discovery merupakan sebuah Software Development Kits (SDKs) yang telah disediakan oleh Google agar para developer/scientist dapat mengakses semua layanan berbasis Google melalui API seperti video/konten YouTube, BigQuery, dll. Jadi dapat disimpulkan bahwasanya dengan mendefinisikan nama layanan Google yang akan digunakan dan API yang telah didapatkan berdasarkan layanan yang akan digunakan, maka setiap orang dapat mengakses dan mendapatkan data-data atau informasi yang berada diseluruh dunia melalui layanan Google. Seperti pada penelitian kali ini yang sumber datanya merupakan data-data komentar dari suatu video yang di-upload oleh suatu channel YouTube.

## 2. Request Access to Retrieve Main Comments Data Objects on YouTube Video based on API Key, API Service Name, and API Version

In [13]:
"""
Melakukan proses permintaan (request) untuk mengambil
data-data komentar utama/komentar paling pertama alias komentar yang bukan komentar balasan dari video
tentang debat capres-cawapres keempat Republik Indonesia tahun 2024 yang di-upload oleh
channel YouTube Najwa Shihab berdasarkan identifikasi unik (ID) dari video tersebut
berdasarkan jumlah limit yang mampu diambil menggunakan service Youtube Data API v3 yaitu hanya 100 komentar
"""

video_youtube_request = youtube_scrape_comment_objects.commentThreads().list(
    order = "time", # Permintaan untuk mendapatkan/mengakses data komentar dari teks komentar paling baru pada video YouTube
    videoId = "tEbRB5xxOPI", # Sebuah ID yang dimiliki oleh video debat keempat capres-cawapres yang di-upload oleh Najwa Shihab
    part = "snippet", # Nilai snippet merupakan objek list yang berisikan seluruh elemen pada komentar utama dari video tersebut
    maxResults = 100 # Jumlah limit/batasan data yang dapat diambil menggunakan API dari service GCP yakni YouTube Data API v3
)

"""
Menjalankan permintaan yang dimiliki oleh variabel "video_youtube_request"
untuk mendapatkan 100 komentar dari video dengan ID tEbRB5xxOPI
"""
video_youtube_response = video_youtube_request.execute()

Berikut adalah penjelasan mengenai code script diatas berikut ini:

1. youtube_scrape_comment_objects merupakan sebuah nama variabel yang berisikan parameter-parameter beserta nilai yang berfungsi sebagai Google Data API untuk dapat mengakses data-data YouTube seperti video, komentar pada suatu video, playlist, dll, dengan memanfaatkan kunci API (API KEY) yang didapatkan melalui Google Cloud Platform dengan cara membuat credentials API di dalam salah satu service Google Cloud Platform yaitu YouTube Data API v3.

2. commentThreads merupakan suatu sumber daya dari YouTube Data API yang berisikan objek/elemen atas informasi-informasi yang meliputi rangkaian yang membentuk komentar utama dari video tersebut. Salah satu contoh rangkaian pembentuk komentar utama adalah teks komentar paling pertama yang dibuat oleh user/penonton dari video tersebut. Bukan teks komentar yang menanggapi/merespon komentar utama.

3. Parameter "part" bertujuan untuk mendapatkan banyak daftar (list) properti yang dipisahkan oleh tanda koma (comma-separated list) dari sumber daya yang dimiliki oleh service YouTube Data API v3 yang membentuk komentar paling utama (komentar teratas) dari suatu video. Sedangkan "snippet" pada parameter "part" bertujuan untuk mendapatkan objek/detail dasar tentang rangkaian yang membentuk struktur komentar utama sebagai bentuk respon API YouTube terhadap permintaan dalam pengambilan objek-objek data dari sebuah konten video berdasarkan video id yang didefinisikan pada parameter "videoId".

4. Parameter videoId merupakan sebuah ID unik dari video yang konten dari video tersebut ingin diambil dan dilakukan proses penelitian (data scraping). Pada penelitian kali ini, saya ingin menggunakan video tentang debat keempat capres-cawapres Republik Indonesia tahun 2024 dari channel YouTube Najwa Shihab dan video tersebut memiliki alamat URL yakni https://www.youtube.com/watch?v=tEbRB5xxOPI. Jadi ID video "tEbRB5xxOPI" diambil dari URL pada video tersebut yang letaknya setelah v=.

5. Parameter maxResult merupakan sebuah parameter yang secara spesifik bertujuan untuk mengambil jumlah data komentar yang akan diambil dari suatu konten video YouTube berdasarkan ID unik dari video tetapi jumlah data/jumlah komentar yang dapat diambil dari video tersebut hanya 100 data saja, tidak bisa lebih dari 100 data. Sehingga karena penelitian kali ini akan mengambil lebih dari 100 data, maka diperlukan tahapan pengulangan supaya komentar yang dapat diambil lebih dari 100 data. Tahapan untuk mengambil data lebih dari 100 data akan dilakukan setelah berhasil mendapatkan 100 data komentar (berdasarkan jumlah maksimal data komentar yang dapat diambil menggunakan API Google YouTube v3).

In [14]:
"""
Menampilkan seluruh objek/elemen dari komentar utama yang berhasil
diambil menggunakan API Key dari service Youtube Data API v3
"""
video_youtube_response

{'kind': 'youtube#commentThreadListResponse',
 'etag': '7cVloTKn6pksi018FOzvihPvw4A',
 'nextPageToken': 'Z2V0X25ld2VzdF9maXJzdC0tQ2dnSWdBUVZGN2ZST0JJRkNJZ2dHQUFTQlFpZElCZ0JFZ1VJcUNBWUFCSUZDSWtnR0FBU0JRaUhJQmdBR0FBaURnb01DTVRRN3EwR0VLaUUtZGtC',
 'pageInfo': {'totalResults': 100, 'resultsPerPage': 100},
 'items': [{'kind': 'youtube#commentThread',
   'etag': 'kVqxUjRCV1OfqAJSzvBzaeE3vLM',
   'id': 'UgwTpSK1hjkTNQlcT894AaABAg',
   'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA',
    'videoId': 'tEbRB5xxOPI',
    'topLevelComment': {'kind': 'youtube#comment',
     'etag': '4mPJoxR5AxLMlUOctEtq7XPykuQ',
     'id': 'UgwTpSK1hjkTNQlcT894AaABAg',
     'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA',
      'videoId': 'tEbRB5xxOPI',
      'textDisplay': 'Timestamp<br><br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=10">0:10</a> Start<br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=225">3:45</a> JCC sesi wawancara<br><a href="https://www.youtube.com/watch?v=tEb

## 3. Define Main I (Video ID, Total of Reply, Comment ID, Text of Comment, Total of Comment Like, Name of Account Commenting, etc) from Video YouTube based on ID Video YouTube

In [15]:
"""
Mendefinisikan/menyeleksi item-item yang membentuk komentar utama yang akan digunakan
sebagai kolom di dalam DataFrame berdasarkan ID video YouTube yang sebelumnya telah didefinisikan
pada "video_youtube_data_request" (saat ini permintaan tersebut telah diterima sebagai respon)
dengan mengambil 100 data komentar utama dari video
debat keempat capres-cawapres yang di-upload oleh channel YouTube Najwa Shihab
"""

list_fourth_video_debate_najwashihab = [] # Mendefinisikan sebuah empty list untuk menyimpan item-item dari hasil data scraping

for item in video_youtube_response["items"]:
    video_id = item["snippet"]["videoId"] # Mendapatkan ID video debat keempat capres-cawapres yang di-upload oleh Najwa Shihab
    total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan/reply dari komentar utama
    comment_id = item["id"] # Mendapatkan seluruh ID dari setiap teks komentar utama dari video debat keempat capres-cawapres
    
    """
    Mendapatkan objek/elemen item utama yang menjadi struktur pembentuk dasar dari komentar utama
    berdasarkan video ID yang sebelumnya telah diinisialisasikan.
    Jenis objek yang menjadi struktur/rangkaian detail komentar utama adalah seperti channel ID,
    teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
    nama akun user yang berkomentar di dalam video tersebut, dll
    """
    comment_items = item["snippet"]["topLevelComment"]["snippet"]
    
    
    """
    Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_fourth_video_debate_najwashihab" yang akan
    berisikan item-item utama seperti ID video, ID Channel yang mem-publish/meng-upload video tersebut,
    nama akun user yang berkomentar beserta teks komentar, tanggal pembuatan komentar untuk video tersebut,
    jumlah total like sebagai bentuk respon setuju pada komentar yang telah dibuat oleh user, dll.
     
    Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "comment_id" dan "comment_items"
    termasuk ke dalam elemen utama dan akan dimasukkan ke dalam list kosong (empty list) yang bernama
    "list_fourth_video_debate_najwashihab" yang nantinya list yang bernama "list_fourth_video_debate_najwashihab"
    akan menjadi struktur kolom di dalam Pandas DataFrame
    """
     
    list_fourth_video_debate_najwashihab.append([
        video_id, # Memasukkan ID video debat keempat capres-cawapres yang di-upload oleh channel Najwa Shihab ke dalam list
        comment_items["authorChannelId"], # Memasukkan ID dari channel Youtube Najwa Shihab ke dalam variabel list
        comment_id, # Memasukkan ID dari masing-masing teks komentar yang dibuat oleh user/penonton dari video debat keempat
        comment_items["authorDisplayName"], # Memasukkan nama-nama akun Youtube yang berkomentar atas video debat keempat
        comment_items["textDisplay"], # Memasukkan teks komentar utama (bukan teks komentar bersifat balasan) ke dalam list
        comment_items["likeCount"], # Memasukkan jumlah total like ke list sebagai bentuk respon setuju/menyukai komentar utama
        total_reply_count, # Memasukkan jumlah total balasan yang diterima oleh teks komentar utama ke dalam variabel list 
        comment_items["authorChannelUrl"], # Memasukkan URL/link channel akun profile Youtube para penonton video debat keempat
        comment_items["publishedAt"], # Memasukkan tanggal dan waktu saat teks komentar utama dibuat oleh penonton video
        comment_items["updatedAt"] # Memasukkan tanggal dan waktu saat teks komentar utama mengalami perubahan isi komentar
    ])
    
# Menampilkan jumlah data dan jumlah item yang dimiliki oleh variabel list "list_fourth_video_debate_najwashihab"
print("Jumlah Data yang Dimiliki oleh Variabel List 'list_fourth_video_debate_najwashihab' sebelum Proses Looping adalah",
      len(list_fourth_video_debate_najwashihab))

Jumlah Data yang Dimiliki oleh Variabel List 'list_fourth_video_debate_najwashihab' sebelum Proses Looping adalah 100


Jika hanya menggunakan code script diatas saja maka data komentar yang didapatkan hanya berjumlah 100 data saja karena jumlah maksimal untuk mengambil data komentar dari suatu video YouTube dengan Google YouTube API dibatasi hanya 100 data. Maka dari itu karena menurut saya 100 data sangat tidak cukup untuk penelitian kali ini, maka saya akan mengambil data komentar dari video debat capres-cawapres keempat dari YouTube channel Najwa Shihab lebih dari 100 data komentar.

Untuk mengatasi permasalahan ini, saya akan melakukan proses looping/pengulangan permintaan untuk mengambil data komentar lebih dari 100 data. Jumlah data yang saya inginkan pada penelitian kali ini adalah 4.500 data sehingga permintaan yang code script dibawah ini akan mengulangi permintaan mengambil data sebanyak 4.500 data komentar beserta 10 kolom/object/elemen utama dari video debat capres-cawapres keempat yang di-upload oleh channel YouTube Najwa Shihab. Sepuluh kolom/elemen utama yang akan membentuk DataFrame adalah kolom elemen "videoId", "channelId", "id" sebgaai comment_id, "authorDisplayName", "textDisplay", "likeCount", "totalReplyCount", "authorChannelUrl", "publishedAt", dan "updatedAt".

Sebagai catatan dan pengingat bahwasanya saat ini objek list yang bernama "list_fourth_video_debate_najwashihab" baru memiliki 100 data komentar saja dan akan dilakukan proses pengulangan permintaan hingga variabel list "list_fourth_video_debate_najwashihab" memiliki 4.500 data komentar beserta elemen-elemen utamanya. Agar dapat mengambil data komentar sebanyak 4.500 data, maka saya akan menerapkan teknik TokenPagination.

TokenPagination merupakan cara untuk mengambil data-data yang berada di halaman selanjutnya (data yang bukan berada di halaman utama/halaman paling awal dari suatu konten/informasi). TokenPagination yang akan digunakan di dalam penelitian kali ini memiliki tujuan untuk mendapatkan data-data komentar seperti teks komentar, data nama akun/user yang berkomentar, tanggal pembuatan komentar, dsb, yang berada di halaman-halaman berikutnya atau halaman setelah 100 data paling awal (data yang menjadi batasan maksimal/limit yang dapat diambil menggunakan YouTube Data API v3).

In [16]:
list_fourth_video_debate_najwashihab[:5]

[['tEbRB5xxOPI',
  {'value': 'UCk4R0mpsUsiwuz1AP4-9F0g'},
  'UgwTpSK1hjkTNQlcT894AaABAg',
  '@sandigustiana',
  'Timestamp<br><br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=10">0:10</a> Start<br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=225">3:45</a> JCC sesi wawancara<br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=1702">28:22</a> Narasumber Abdur, Coki, Fico<br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=2785">46:25</a> Video call bersama 03<br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=2979">49:39</a> Video call bersama 01<br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=3448">57:28</a> Video call bersama 02<br><br>JCC<br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=3674">1:01:14</a> Opening<br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=3874">1:04:34</a> Pasangan 01 masuk<br><a href="https://www.youtube.com/watch?v=tEbRB5xxOPI&amp;t=3935">1:05:35</a> Pasangan 02 m