## 1. Import Libraries for Scraping Data YouTube Comments and Create API based on Google YouTube Data API

In [19]:
"""
Meng-import library yang akan digunakan untuk mengambil beberapa data komentar dari konten
video di media YouTube menggunakan API dari salah satu service Google Cloud Platform yaitu YouTube Data API v3
"""
import pandas as pd
from googleapiclient.discovery import build

In [20]:
"""
Menginisialisasikan resource/sumber daya dari Google API Client untuk melakukan proses data/web scraping
tentang komentar-komentar yang ada di video debat kelima capres-cawapres Republik Indonesia tahun 2024 yang di-upload
oleh channel YouTube Najwa Shihab menggunakan API dari service YouTube Data API v3 yang dimiliki oleh Google Cloud Platform/GCP
"""

"""
Nilai 'youtube' mengartikan bahwa API yang digunakan dalam penelitian ini berasal dari sebuah
layanan/service dari Google Cloud Platform yang bernama youtube atau YouTube Data API
"""
API_Service_Name = "youtube"


"""
Nilai v3 pada API_Version_Name menunjukkan bahwa jenis versi yang digunakan oleh
service yang bernama youtube adalah versi ketiga dari sebuah layanan di Google Cloud Platform yang bernama YouTube
karena API yang digunakan pada penelitian ini berasal dari service YouTube Data API v3
"""
API_Version_Name = "v3"


"""
Sebuah kunci API (API Key) yang akan digunakan untuk mendapatkan elemen informasi dari komentar utama dalam bentuk object list
Informasi yang terdapat di komentar utama yang akan di-scraping/diambil untuk penelitian ini adalah
informasi seperti nama user/penonton yang berkomentar, isi atau teks komentar yang dibuat oleh penonton,
tanggal dan waktu dari masing-masing teks komentar dibuat, dll
"""
API_Key = "AIzaSyAEA0OfmhGVO186BkPfDeqglHj6tHclS3Q"

# Menyimpan 3 variabel resource/sumber daya yang akan digunakan untuk mengambil informasi komentar dari konten video YouTube
youtube_scrape_comment_objects = build(API_Service_Name, API_Version_Name, developerKey = API_Key)

Code script diatas merupakan proses inisialisasi API Key yang telah berhasil didapatkan melalui Google Cloud Platform dengan pilihan service yakni YouTube Data API v3. Maka dari itu nama service API yang digunakan (API_Service_Name) ditulis sebagai "youtube" karena service/layanan Google pada Google Cloud Platform yang digunakan di dalam penelitian kali ini adalah sebuah video yang ter-upload pada media sosial YouTube dan versi API yang digunakan adalah versi ketiga dari API YouTube Data sehingga nilai dari variabel API_Version_Name yang disimpan adalah "v3".

Selain itu, untuk mendapatkan kunci API dari layanan yang bernama "youtube", pertama-tama saya harus masuk ke dalam service YouTube Data API v3 di dalam Google Cloud Platform dan mengaktifkan (enable) service tersebut dan memilih fitur/opsi CREDENTIALS karena API Key berada di dalam fitur tersebut. Jadi dapat disimpulkan kalau untuk membuat API Key agar dapat mengambil data-data yang ada di dalam suatu video YouTube seperti komentar dari 1 video YouTube, Playlist, Subscription, dll., maka terlebih dahulu harus mengaktifkan service YouTube Data API v3 di dalam Google Cloud Platform dan kemudian membuat/generate API Key di dalam opsi CREDENTIALS. Jika API sudah berhasil dibuat, maka kita dapat meng-copy API tersebut untuk diletakkan di dalam variabel. Pada code script diatas, API yang berhasil didapatkan disimpan di dalam variabel yang bernama "API_KEY".

Di samping itu, fungsi build pada library googleapiclient.discovery merupakan sebuah Software Development Kits (SDKs) yang telah disediakan oleh Google agar para developer/scientist dapat mengakses semua layanan berbasis Google melalui API seperti video/konten YouTube, BigQuery, dll. Jadi dapat disimpulkan bahwasanya dengan mendefinisikan nama layanan Google yang akan digunakan dan API yang telah didapatkan berdasarkan layanan yang akan digunakan, maka setiap orang diseluruh dunia dapat mengakses dan mendapatkan data-data atau informasi dunia melalui layanan Google. Seperti pada penelitian kali ini yang sumber datanya merupakan data-data komentar dari video debat kelima capres-cawapres yang di-upload oleh channel YouTube Najwa Shihab.

## 2. Request Access to Retrieve Main Comments Data Objects on YouTube Video based on API Key, API Service Name, and API Version

In [21]:
"""
Melakukan proses permintaan (request) kepada Google untuk dapat mengambil
data-data komentar utama/komentar paling pertama alias komentar yang bukan komentar balasan dari video di layanan Youtube
tentang debat kelima capres-cawapres Republik Indonesia tahun 2024 yang di-upload oleh
channel YouTube Najwa Shihab berdasarkan identifikasi unik (ID) dari video tersebut
berdasarkan jumlah limit yang mampu diambil menggunakan API dari service Youtube Data API v3 yaitu hanya 100 komentar
"""
video_youtube_request = youtube_scrape_comment_objects.commentThreads().list(
    part = "snippet", # Nilai snippet merupakan objek list yang berisikan seluruh elemen pada komentar utama dari video tersebut
    videoId = "JFl2fOTBNIE", # Sebuah ID dari video debat kelima capres-cawapres yang di-upload oleh channel Najwa Shihab
    order = "time", # Relevansi informasi dari teks komentar yang dibuat berdasarkan komentar terbaru hingga terlama pada video 
    maxResults = 100 # Jumlah data komentar yang akan di-scraping dari video YouTube (jumlah maksimal data yang dapat diambil)
)


"""
Mengeksekusi/menjalankan request yang telah dibuat dan disimpan pada variabel "video_youtube_request"
untuk mendapatkan 100 data komentar utama dari video ID JFl2fOTBNIE&t=925s dengan relevansi
tanggal dan waktu pembuatan komentar dari terbaru hingga tanggal dan waktu komentar terlama
"""
video_youtube_response = video_youtube_request.execute()

Berikut adalah penjelasan mengenai code script diatas berikut ini:

1. youtube_scrape_comment_objects merupakan sebuah nama variabel yang berisikan parameter-parameter beserta nilainya yang berfungsi sebagai tempat menyimpan resource utama Google Client serta API dari Youtube untuk dapat mengakses data-data dan informasi yang dimiliki oleh suatu konten YouTube seperti informasi video, komentar di dalam suatu video, playlist dari suatu channel, dll, dengan memanfaatkan kunci API (API KEY) yang didapatkan melalui Google Cloud Platform dengan cara membuat credentials API di dalam salah satu service Google Cloud Platform yaitu YouTube Data API v3.

2. commentThreads merupakan suatu sumber daya dari YouTube Data API yang berisikan objek/elemen atas informasi-informasi dari komentar utama (teks komentar yang bukan menjadi komentar balasan) dari suatu video di YouTube. Salah satu contoh informasi yang terdapat di dalam komentar utama adalah teks komentar yang dibuat oleh user/penonton dari video tersebut bukan teks komentar yang menanggapi/merespon komentar utama. Atau identitas nama user/akun YouTube yang berkomentar di video tersebut sebagai bentuk pendapat atas video yang ditonton.

3. Parameter "part" bertujuan untuk mendapatkan banyak objek list properti yang dipisahkan oleh tanda koma (comma-separated list) dari sumber daya yang dimiliki oleh service YouTube Data API v3 yang membentuk komentar paling utama (komentar teratas) dari suatu video. Sedangkan "snippet" pada parameter "part" bertujuan untuk mendapatkan objek detail dasar tentang elemen-elemen/item dari komentar utama sebagai bentuk respon API YouTube terhadap permintaan dalam mengambil objek-objek data dari sebuah konten video berdasarkan video id yang didefinisikan pada parameter "videoId". Salah satu contoh detail dasar dari komentar utama seperti channel id sebagai identitas unik dari suatu channel yang ada di media sosial YouTube.

4. Parameter videoId merupakan sebuah identitas unik dari video (ID dari suatu konten video YouTube) yang informasi dasarnya ingin diambil (data scraping) untuk kebutuhan yang berbeda-beda. Sebagai contohnya pada penelitian kali ini, saya ingin menggunakan video tentang debat kelima capres-cawapres Republik Indonesia tahun 2024 dari channel YouTube Najwa Shihab dan video tersebut memiliki alamat URL yakni https://www.youtube.com/watch?v=JFl2fOTBNIE. Jadi ID video "JFl2fOTBNIE" diambil dari URL pada video tersebut yang letaknya setelah v=.

5. Parameter maxResult merupakan sebuah parameter yang secara spesifik bertujuan untuk mengambil jumlah kuantitas dari data/informasi komentar utama yang ingin diambil dari suatu konten video di media sosial YouTube berdasarkan ID unik yang didefinisikan pada parameter videoId. Tetapi kuantitas jumlah data/informasi komentar yang dapat diambil menggunakan API dari service Google Client hanya 100 data saja, tidak bisa lebih dari 100 data. Sehingga karena penelitian kali ini akan mengambil lebih dari 100 data, maka diperlukan tahapan/teknik pengulangan supaya data komentar yang terambil dapat melebihi 100 data. Tahapan untuk mengambil data lebih dari 100 data akan dilakukan setelah berhasil mendapatkan 100 data komentar (berdasarkan jumlah maksimal data komentar yang dapat diambil menggunakan API Google YouTube v3).

In [22]:
video_youtube_response

{'kind': 'youtube#commentThreadListResponse',
 'etag': 're4rIzXvLVSJKtGD7otYfhFCSXg',
 'nextPageToken': 'Z2V0X25ld2VzdF9maXJzdC0tQ2dnSWdBUVZGN2ZST0JJRkNJZ2dHQUFTQlFpSElCZ0FFZ1VJaVNBWUFCSUZDS2dnR0FBU0JRaWRJQmdCR0FBaURnb01DSmE2a2E0R0VOQ2dpTEFC',
 'pageInfo': {'totalResults': 100, 'resultsPerPage': 100},
 'items': [{'kind': 'youtube#commentThread',
   'etag': 'xnS7COshQ3kCwtNnlpm2SOZYyr4',
   'id': 'UgxO0I8sSSENAKPHl2x4AaABAg',
   'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA',
    'videoId': 'JFl2fOTBNIE',
    'topLevelComment': {'kind': 'youtube#comment',
     'etag': '8Vq5bTMowB873fRZTFZSNBakRf4',
     'id': 'UgxO0I8sSSENAKPHl2x4AaABAg',
     'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA',
      'videoId': 'JFl2fOTBNIE',
      'textDisplay': 'Bpjs mohon d ganti KIS ,krn buat rakyat miskin/kurang mampu/yg tdk mempunyai pekerjaan tetap sangat terbebani.🙏',
      'textOriginal': 'Bpjs mohon d ganti KIS ,krn buat rakyat miskin/kurang mampu/yg tdk mempunyai pekerjaan tetap sangat 

## 3. Define Main Items (Video ID, Total of Reply, Comment ID, Text of Comment, Total of Comment Like, Name of Account Commenting, etc) from Video YouTube based on ID Video in YouTube

In [23]:
"""
Mendefinisikan/menyeleksi item-item yang membentuk komentar utama yang akan digunakan
sebagai kolom di dalam DataFrame berdasarkan ID video YouTube yang sebelumnya telah didefinisikan
pada "video_youtube_request" (saat ini permintaan tersebut telah diterima sebagai respon)
dengan mengambil 100 data pertama dari komentar utama di video
debat kelima capres-cawapres yang di-upload oleh channel YouTube Najwa Shihab
"""

list_fifth_video_debate_najwashihab = [] # Sebuah empty list untuk menyimpan objek-objek item atas komentar utama dari scraping

for item in video_youtube_response["items"]:
    video_id = item["snippet"]["videoId"] # Mendapatkan ID video debat kelima capres-cawapres yang di-upload oleh Najwa Shihab
    total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan yang diterima oleh komentar utama
    comment_id = item["id"] # Mendapatkan seluruh ID dari setiap teks komentar utama dari video debat kelima capres-cawapres
    
    
    """
    Mendapatkan seluruh elemen item per masing-masing komentar utama yang menjadi struktur pembentuk dasar dari komentar utama
    berdasarkan video ID yang sebelumnya telah diinisialisasikan.
    Jenis objek yang menjadi struktur/rangkaian detail atas masing-masing komentar utama adalah channel ID,
    teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
    nama akun user yang berkomentar di dalam video tersebut, dll
    
    Perlu diketahui jika elemen item yang terdapat pada top level comment dan commentThreads() berbeda tetapi
    dapat digabungkan menjadi satu kesatuan. Elemen seperti video id,
    jumlah user yang membalas/merespon teks komentar utama, dan lainnya
    termasuk di dalam elemen item yang dimiliki oleh commentThreads()
    karena sifatnya adalah informasi general dari rangkaian komentar utama
    
    Sedangkan elemen item yang dimiliki oleh top level comment lebih bersifat informasi yang spesifik yang dimiliki oleh
    masing-masing komentar utama dan komentar balasan atas komentar utama.
    Elemen item seperti nama user/akun yang berkomentar, isi atas masing-masing teks komentar yang dibuat oleh
    setiap akun yang berkomentar, jumlah user yang menyukai isi dari teks komentar utama, dan lainnya
    termasuk ke dalam item-item yang dimiliki oleh top level comment
    """
    comment_items = item["snippet"]["topLevelComment"]["snippet"]
    
    
    """
    Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_fifth_video_debate_najwashihab" yang akan
    berisikan beberapa objek item/elemen dari komentar utama seperti ID video,
    ID Channel yang mem-publish/meng-upload video tersebut, nama akun user yang berkomentar beserta teks komentar,
    tanggal pembuatan komentar untuk video tersebut,
    jumlah total like sebagai bentuk respon setuju pada komentar yang telah dibuat oleh user, dll.
     
    Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "comment_id" dan "comment_items"
    termasuk ke dalam elemen utama yang akan dimasukkan ke dalam list kosong (empty list) yang bernama
    "list_fifth_video_debate_najwashihab" yang nantinya list yang bernama "list_fifth_video_debate_najwashihab"
    akan menjadi struktur kolom di dalam Pandas DataFrame
    """
    
    list_fifth_video_debate_najwashihab.append([
        video_id, # Memasukkan ID video debat kelima capres-cawapres yang di-upload oleh channel Najwa Shihab ke dalam list
        comment_items["channelId"], # Memasukkan ID dari channel YouTube Najwa Shihab ke dalam variabel list
        comment_id, # Memasukkan ID dari masing-masing teks komentar yang dibuat oleh user/penonton dari video debat kelima
        comment_items["authorDisplayName"], # Memasukkan nama-nama akun YouTube yang berkomentar atas video debat kelima
        comment_items["textDisplay"], # Memasukkan teks komentar utama (bukan teks komentar bersifat balasan) ke dalam list
        comment_items["likeCount"], # Memasukkan jumlah total like ke list sebagai bentuk respon setuju/menyukai komentar utama
        total_reply_count, # Memasukkan jumlah total balasan yang diterima oleh teks komentar utama ke dalam variabel list
        comment_items["authorChannelUrl"], # Memasukkan URL/link channel akun profile YouTube para penonton video debat kelima
        comment_items["publishedAt"], # Memasukkan tanggal dan waktu saat teks komentar utama dibuat oleh penonton video
        comment_items["updatedAt"]  # Memasukkan tanggal dan waktu saat teks komentar utama mengalami perubahan isi komentar
    ])
    
# Menampilkan jumlah data dan jumlah item yang dimiliki oleh variabel list "list_fifth_video_debate_najwashihab"
print("Jumlah Data yang Dimiliki oleh Variabel List 'list_fifth_video_debate_najwashihab' sebelum Proses Looping adalah ",
      len(list_fifth_video_debate_najwashihab))

Jumlah Data yang Dimiliki oleh Variabel List 'list_fifth_video_debate_najwashihab' sebelum Proses Looping adalah  100


In [24]:
list_fifth_video_debate_najwashihab

[['JFl2fOTBNIE',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'UgxO0I8sSSENAKPHl2x4AaABAg',
  '@agussuprianto6220',
  'Bpjs mohon d ganti KIS ,krn buat rakyat miskin/kurang mampu/yg tdk mempunyai pekerjaan tetap sangat terbebani.🙏',
  0,
  0,
  'http://www.youtube.com/@agussuprianto6220',
  '2024-03-06T04:46:26Z',
  '2024-03-06T04:46:26Z'],
 ['JFl2fOTBNIE',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'UgxA9q4dMZBYn0KJW4t4AaABAg',
  '@agussuprianto6220',
  'Siapapun yg akan menjadi presiden/misi &amp; visi  sbg mandat dan menjalankan amanah rakyat dn untuk mensejahterakan rakyatnya adalah:<br>1.memberantas koropsi.<br>2.menyediakan lapangan kerja yg cukup<br>3.harga/kususnya sandang,pangan dn papan dan biaya sekolah/pendidikan tdk mahal dn bs terjangkau untuk rakyatnya.<br>4.pelayanan kesehatan terjangkau untuk rakyat(progam kis dll)<br>5.lansia dijamin negara.<br>6.berantas pinjaman2 diluar OJK seperti rentenir dn suku bunga tinggi ,yg sangat mensengsarajan rakyat yg kurang/tidak mampu.<br>Agar menuju rakyat i