## 1. Import Libraries for Scraping Data YouTube Comments and Create API based on Google YouTube Data API

In [23]:
"""
Meng-import library yang akan digunakan untuk mengambil data-data
komentar dari suatu video YouTube melalui API Google yang dimiliki oleh service YouTube Data API
"""
import pandas as pd
from googleapiclient.discovery import build # library yang dapat menyediakan data-data dari Google service (YouTube Data API)

In [24]:
"""
Melakukan proses inisialisasi resource/sumber daya atas suatu objek yang akan digunakan
untuk mengambil data-data komentar dari suatu video YouTube tentang debat capres-cawapres
menggunakan salah satu layanan Google yaitu YouTube Data API v3 dan menyediakan kunci API (API Key) yang didapatkan
setelah melakukan proses pembuatan kunci API melalui opsi Credentials di dalam Google Cloud Platform
"""

API_Service_Name = "youtube" # Nama service yang digunakan pada penelitian kali bersumber dari media YouTube

API_Version_Name = "v3" # Merupakan nama versi dari service yang digunakan untuk dapat menghasilkan API Key dari Credentials

"""
Mendefinisikan sebuah API dari service Google yakni YouTube untuk dapat
mengakses & mendapatkan seluruh data yang tersimpan di dalam konten video YouTube
"""
API_Key = "AIzaSyAEA0OfmhGVO186BkPfDeqglHj6tHclS3Q"

# Menyimpan 3 objek resource yang telah didefinisikan ke dalam variabel bernama "youtube_scrape_comment_objects"
youtube_scrape_comment_objects = build(API_Service_Name, API_Version_Name, developerKey = API_Key)

Code script diatas saya melakukan proses inisialisasi API key yang telah berhasil didapatkan melalui Google Cloud Platform dengan pilihan service yakni YouTube Data API v3. Maka dari itu nama service API yang digunakan (API_Service_Name) ditulis sebagai "youtube" karena service Google yang akan digunakan di dalam penelitian kali ini adalah media sosial Youtube dan dan versi API yang digunakan adalah versi ketiga dari API YouTube sehingga nilai dari variabel (API_Version_Name) yang disimpan adalah "v3".

Untuk mendapatkan kunci API dari layanan yang bernama "youtube", pertama-tama saya harus masuk ke dalam service YouTube Data API v3 di dalam Google Cloud Platform dan mengaktifkan (enable) service tersebut dan memilih fitur/opsi CREDENTIALS karena API Key berada di dalam fitur tersebut.

Jadi dapat disimpulkan kalau untuk membuat API Key agar dapat mengambil data-data yang ada di dalam YouTube, maka terlebih dahulu harus mengaktifkan service YouTube Data API v3 di dalam Google Cloud Platform dan kemudian membuat API Key di dalam opsi CREDENTIALS dan jika API sudah berhasil dibuat, maka kita dapat meng-copy API tersebut untuk diletakkan di dalam variabel. Pada code script diatas, API yang berhasil didapatkan disimpan di dalam variabel yang bernama "API_KEY".

Di samping itu, fungsi build pada library googleapiclient.discovery merupakan sebuah Software Development Kits (SDKs) yang telah disediakan oleh Google agar para developer/scientist dapat mengakses semua layanan berbasis Google melalui API. Jadi dapat disimpulkan bahwasanya dengan mendefinisikan nama layanan Google yang akan digunakan dan API yang telah didapatkan berdasarkan layanan yang akan digunakan, maka setiap orang dapat mengakses dan mendapatkan data-data atau informasi yang berada diseluruh dunia melalui layanan Google. Seperti pada penelitian kali ini yang sumber datanya merupakan data-data komentar dari suatu video yang di-upload oleh suatu channel YouTube.

## 2. Request Access to Retrieve Main Comment Data Objects on YouTube Video based on API Key, API Service Name, and API Version

In [25]:
"""
Melakukan proses permintaan untuk dapat mengambil objek/item atas data-data komentar utama dari suatu video
YouTube berdasarkan identifikasi unik dari video tersebut yaitu Video ID
tentang debat kedua capres-cawapres 2024 dari Channel YouTube Najwa Shihab dengan mengambil
jumlah maksimal data komentar yang dapat diambil menggunakan Google YouTube Data API v3 yaitu hanya sebanyak 100 data saja
"""

video_youtube_request = youtube_scrape_comment_objects.commentThreads().list(
    order = "time", # Permintaan untuk mendapatkan tanggal dan waktu komentar paling terbaru berdasarkan video ID dari YouTube
    part = "snippet", # Nilai snippet merupakan objek list yang berisikan detail-detail yang membentuk komentar utama
    videoId = "p-vbZkT3Yck", # Sebuah ID video debat capres-cawapres kedua yang di-upload oleh channel YouTube Najwa Shihab
    maxResults = 100 # Jumlah maksimal data yang hanya dapat diambil dari media YouTube menggunakan layanan YouTube Data API v3
)

"""
Membuat variabel bernama "video_youtube_response" yang berfungsi untuk menjalankan/mengeksekusi
perintah pengambilan data video komentar YouTube dengan ID video p-vbZkT3Yck berdasarkan jumlah
maksimal data komentar yang dapat diambil dengan Google YouTube Data API yaitu hanya 100 komentar
"""
video_youtube_response = video_youtube_request.execute()

Berikut adalah penjelasan mengenai code script diatas berikut ini:

1. youtube_scrape_comment_objects merupakan sebuah nama variabel yang berisikan parameter-parameter beserta nilai yang berfungsi sebagai Google Data API untuk dapat mengakses data-data YouTube seperti video, komentar pada suatu video, playlist, dll, dengan memanfaatkan kode kunci API (API KEY) yang didapatkan melalui Google Cloud Platform dengan cara membuat credentials API di dalam service YouTube Data API v3. 

2. commentThread merupakan suatu sumber daya dari YouTube Data API yang berisikan informasi-informasi tentang data komentar utama dari suatu video dan komentar yang menanggapi komentar utama dari video tersebut. Komentar balasan/komentar tanggapan ini bersifat opsional dan tidak banyak suatu komentar ditanggapi/direspon dengan komentar lainnya.

3. Parameter "part" bertujuan untuk mendapatkan satu/lebih dari satu daftar (list) properti yang dipisahkan oleh tanda koma (comma-separated list) dari sumber daya YouTube Data API yakni commentThread yang dipisahkan oleh tanda koma yang akan diikutsertakan dalam merespon YouTube Data API. Sedangkan "snippet" pada parameter "part" bertujuan untuk mendapatkan objek elemen yang berisikan detail dasar yang membentuk struktur/rangkaian komentar utama sebagai bentuk respon API YouTube terhadap permintaan dalam pengambilan data dari suatu video YouTube berdasarkan video id yang didefinisikan pada parameter "videoId".

4. Parameter videoId merupakan sebuah ID unik dari video yang konten dari video tersebut ingin diambil dan dilakukan proses penelitian (data scraping). Pada penelitian kali ini, saya ingin menggunakan video tentang debat capres-cawapres kedua tahun 2024 dari channel YouTube Najwa Shihab dan video tersebut memiliki alamat URL yakni https://www.youtube.com/watch?v=p-vbZkT3Yck. Jadi ID video "p-vbZkT3Yck" diambil dari URL pada video tersebut yang letaknya setelah **v=**.

5. Parameter maxResult merupakan sebuah parameter yang secara spesifik bertujuan untuk mengambil jumlah data komentar dari suatu konten video YouTube berdasarkan ID unik dari video tetapi jumlah data/jumlah komentar yang dapat diambil dari video tersebut hanya 100 data saja, tidak bisa lebih dari 100 data. Sehingga karena penelitian kali ini akan mengambil lebih dari 100 data, maka diperlukan tahapan pengulangan supaya komentar yang dapat diambil lebih dari 100 data. tahapan untuk melakukan proses pengambilan data lebih dari 100 data akan dilakukan setelah berhasil mendapatkan 100 data komentar (berdasarkan jumlah maksimal data komentar yang dapat diambil menggunakan API Google YouTube).

In [26]:
"""
Menampilkan objek-objek item yang telah berhasil diambil sebagai bentuk respon atas
permintaan/request untuk mendapatkan data-data dari video YouTube yang memiliki ID p-vbZkT3Yck
"""
print(video_youtube_response)

{'kind': 'youtube#commentThreadListResponse', 'etag': '74maspxGuxPW96hXATq8Rqi6-CY', 'nextPageToken': 'Z2V0X25ld2VzdF9maXJzdC0tQ2dnSWdBUVZGN2ZST0JJRkNJa2dHQUFTQlFpb0lCZ0FFZ1VJaUNBWUFCSUZDSjBnR0FFU0JRaUhJQmdBR0FBaURnb01DTDdZeHF3R0VNRHlsWVlE', 'pageInfo': {'totalResults': 100, 'resultsPerPage': 100}, 'items': [{'kind': 'youtube#commentThread', 'etag': 'mZIIN0I3nKURXoVz20sL7DwRVmQ', 'id': 'UgxPpfKYSb5WYqrgRfF4AaABAg', 'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA', 'videoId': 'p-vbZkT3Yck', 'topLevelComment': {'kind': 'youtube#comment', 'etag': 'kJjl8F9SVE0IG5ZLY8IcD1Knx_0', 'id': 'UgxPpfKYSb5WYqrgRfF4AaABAg', 'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA', 'videoId': 'p-vbZkT3Yck', 'textDisplay': '❤', 'textOriginal': '❤', 'authorDisplayName': '@bimatri3158', 'authorProfileImageUrl': 'https://yt3.ggpht.com/ytc/AIdro_lRKORihJjTIu__YxziBkRkKc62xcZh6InpGnJ3LC0=s48-c-k-c0x00ffffff-no-rj', 'authorChannelUrl': 'http://www.youtube.com/@bimatri3158', 'authorChannelId': {'value': 'UCpnl1

## 3. Define Main Items (Video ID, Total of Reply, Comment ID, Text of Comment, Total of Comment Like, Name of Account Commenting, etc) from Video YouTube based on ID Video YouTube

In [27]:
"""
Mendefinisikan item/elemen utama yang membentuk komentar utama
berdasarkan ID video YouTube yang sebelumnya telah didefinisikan pada commentThreads()
dan mengambil 100 data/item yang membentuk komentar teratas/komentar paling utama pada video
debat capres kedua tahun 2024 dari channel YouTube Najwa Shihab
"""

# Mendefinisikan sebuah list kosong (empty list) untuk tempat menampung data-data hasil scraping dari video YouTube
list_second_video_debate_najwashihab = [] # Sebuah empty list yang bernama "list_second_video_debate_najwashihab"

for item in video_youtube_response["items"]:
    video_id = item["snippet"]["videoId"] # Mendapatkan ID video tentang debat capres kedua di channel YouTube Najwa Shihab
    total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan (reply) dari komentar utama
    comment_id = item["id"] # Menapatkan ID komentar yang bersifat unik untuk mengidentifikasi setiap komentar pada video
    
    """
    Mendapatkan objek utama yang menjadi struktur pembentuk atas komentar utama
    berdasarkan video ID yang sebelumnya telah diinisialisasikan.
    Jenis objek yang menjadi struktur/rangkaian detail atas komentar paling atas/utama seperti channel ID,
    teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
    nama akun user yang berkomentar di dalam video tersebut, dll
    """
    comment_items = item["snippet"]["topLevelComment"]["snippet"]
    
    
    """
    Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_second_video_debate_najwashihab" yang akan
    berisikan item-item utama seperti ID video, ID Channel yang mem-publish video tersebut, nama akun user yang berkomentar
    beserta teks komentar, tanggal pembuatan komentar untuk video tersebut, jumlah total like sebagai bentuk respon setuju
    pada komentar yang telah dibuat oleh user, dll.
     
    Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "comment_id" dan "comment_items"
    termasuk ke dalam elemen utama dan akan dimasukkan ke dalam variabel list kosong (empty list) yaitu
    "list_second_video_debate_najwashihab" yang nantinya list yang bernama "list_second_video_debate_najwashihab"
    akan menjadi struktur/pondasi dasar dari pembentuk kolom/atribut di dalam Pandas DataFrame
    """
    
    list_second_video_debate_najwashihab.append([
        video_id, # Memasukkan ID video yang sebelumnya telah diinisialisasikan pada variabel list kosong
        comment_items["channelId"], # Mendapatkan & memasukkan ID channel YouTube yang memposting video tersebut
        comment_id, # Memasukkan ID komentar yang bersifat unik sebagai identifikasi dari masing-masing teks komentar
        comment_items["authorDisplayName"], # Mendapatkan & memasukkan nama-nama akun YouTube/user yang berkomentar
        comment_items["textDisplay"], # Memasukkan teks komentar paling atas (komentar paling utama) ke dalam variabel list
        comment_items["likeCount"], # Memasukkan jumlah total like sebagai bentuk respon setuju atas komentar utama
        total_reply_count, # Memasukkan jumlah total reply/balasan terhadap komentar utama
        comment_items["authorChannelUrl"], # Mendapatkan & memasukkan URL channel YouTube dari setiap user yang berkomentar
        comment_items["publishedAt"], # Mendapatkan & memasukkan tanggal dan waktu saat pertama kalinya komentar dibuat
        comment_items["updatedAt"] # Mendapatkan tanggal dan waktu saat terakhir kali teks komentar diubah oleh user
    ])
    
# Menampilkan jumlah data yang dimiliki oleh "list_second_video_debate_najwashihab" sebelum dilakukan proses pengulangan
print("Jumlah Data yang Saat ini Dimiliki oleh List 'list_second_video_debate_najwashihab' sebelum Proses Pengulangan adalah",
      len(list_second_video_debate_najwashihab))

Jumlah Data yang Saat ini Dimiliki oleh List 'list_second_video_debate_najwashihab' sebelum Proses Pengulangan adalah 100


Jika hanya menggunakan code script diatas saja maka data komentar yang didapatkan hanya berjumlah 100 data saja karena jumlah maksimal untuk mengambil data komentar dari suatu video YouTube dengan Google YouTube API dibatasi hanya 100 data. Maka dari itu karena menurut saya 100 data sangat tidak cukup untuk penelitian kali ini, maka saya akan mengambil data komentar dari video debat capres-cawapres kedua dari YouTube channel Najwa Shihab lebih dari 100 data komentar.

Untuk mengatasi permasalahan ini, saya akan melakukan proses looping/pengulangan permintaan untuk mengambil data komentar lebih dari 100 data. Jumlah data yang saya inginkan pada penelitian kali ini adalah 4.500 data sehingga permintaan yang code script dibawah ini akan mengulangi permintaan mengambil data sebanyak 4.500 data komentar beserta 10 kolom/object/elemen utama dari video debat capres-cawapres kedua yang di-upload oleh channel YouTube Najwa Shihab. Sepuluh kolom/elemen utama yang akan membentuk DataFrame adalah kolom elemen "videoId", "channelId", "id" sebgaai comment_id, "authorDisplayName", "textDisplay", "likeCount", "totalReplyCount", "authorChannelUrl", "publishedAt", dan "updatedAt".

Sebagai catatan dan pengingat bahwasanya saat ini objek list yang bernama "list_second_video_debate_najwashihab" baru memiliki 100 data komentar saja dan akan dilakukan proses pengulangan permintaan hingga objek list "list_second_video_debate_najwashihab" memiliki 4.500 data komentar beserta elemen-elemen utamanya. Agar dapat mengambil data komentar sebanyak 4.500 data, maka saya akan menerapkan teknik TokenPagination.

TokenPagination merupakan cara untuk mengambil data-data yang berada di halaman selanjutnya (data yang bukan berada di halaman utama/halaman paling awal dari suatu konten/informasi). TokenPagination yang akan digunakan di dalam penelitian kali ini memiliki tujuan untuk mendapatkan data-data komentar seperti teks komentar, data nama akun/user yang berkomentar, tanggal pembuatan komentar, dsb, yang berada di halaman-halaman berikutnya atau halaman setelah 100 data paling awal (data yang menjadi batasan maksimal/limit yang dapat diambil menggunakan YouTube Data API v3).

In [28]:
"""
Mengambil data komentar yang berada di halaman-halaman berikutnya
(data video komentar yang diambil tidak termasuk ke dalam 100 data yang sebelumnya telah berhasil di-scrapping)
"""

next_page_data_scraping = 4500 # Jumlah data komentar yang ingin diambil dari video YouTube yang memiliki ID p-vbZkT3Yck

while len(list_second_video_debate_najwashihab) < next_page_data_scraping:
    """
    Mendapatkan data-data komentar pada video YouTube debat kedua calon
    Presiden-Wakil Presiden Indonesia dari channel YouTube Najwa Shihab yang berada di halaman
    berikutnya (data-data setelah baris ke-100/indeks baris data ke-99)
    
    Di samping itu, "video_youtube_response" merupakan variabel yang menjalankan
    perintah untuk mendapatkan 100 data komentar dari video ID yang telah didefinisikan pada commentThreads.
    Itu berarti jumlah data yang akan diambil pada halaman-halaman berikutnya berjumlah 100 data komentar
    """
    try:
        nextPageToken = video_youtube_response["nextPageToken"]
    except KeyError:
        break
    nextPageToken = video_youtube_response["nextPageToken"]
    
    
    """
    Melakukan proses pengambilan objek kembali menggunakan fungsi "commentThreads()" atas data-data
    komentar utama dari suatu video YouTube berdasarkan identifikasi unik dari video tersebut yaitu ID Video yang membahas
    tentang debat capres-cawapres 2024. Namun yang membedakan antara "commentThreads()" sebelumnya dengan saat ini
    adalah jika "commentThreads()" sebelumnya hanya dapat mengambil jumlah maksimal data komentar yang ditentukan oleh
    Google YouTube Data API. Walaupun kita menginginkan lebih dari 100 data sehingga kita mendefinisikan nilai pada
    parameter "maxResults" yakni 1500/10000 data komentar tetapi hasil akhirnya tidak berpengaruh terhadap jumlah data
    yang berhasil diambil dengan teknik data scraping pada video YouTube
    
    Maka dari itu dengan menggunakan parameter baru yang terdapat di dalam "commentThreads()" yaitu parameter "pageToken"
    dengan nilai yakni nextPageToken, proses pengambilan data komentar lebih dari 100 sangat memungkinkan untuk dilakukan
    sebab nilai nextPageToken akan melakukan proses identifikasi/mencari dan mengambil data
    komentar yang berada di halaman berikutnya dari hasil komentar yang dapat diambil
    (hasil komentar yang dapat diambil yakni hanya 100 data saja sesuai dengan jumlah maksimal yang dimiliki oleh parameter
    maxResults di dalam Google YouTube Data API) sampai kondisi 4500 data berhasil terpenuhi (melakukan proses pengulangan)
    """
    nextRequest = youtube_scrape_comment_objects.commentThreads().list(
        order = "time", # Permintaan untuk mendapatkan tanggal dan waktu komentar paling terbaru dari video
        part = "snippet", # snippet pada parameter part menyimpan objek detail komentar utama dalam list
        videoId = "p-vbZkT3Yck", # Sebuah ID video capres-cawapres pertama yang di-upload oleh channel YouTube Najwa Shihab
        maxResults = 4500, # Jumlah data yang ingin diambil setelah 100 data sebelumnya berhasil diambil
        pageToken = nextPageToken # Data yang diambil berasal dari halaman-halaman berikutnya sampai kondisi 4500 data terpenuhi
    )
    
    """
    Menjalankan proses permintaan untuk dapat mengambil data-data komentar yang berada
    di halaman-halaman berikutnya (selain 100 data komentar yang telah berhasil diambil) dari video
    debat capres-cawapres kedua yang di-upload oleh Channel YouTube Najwa Shihab yang memiliki ID video yaitu p-vbZkT3Yck
    """
    video_youtube_response = nextRequest.execute()
    
    
    for item in video_youtube_response["items"]:
        video_id = item["snippet"]["videoId"] # Mendapatkan ID video tentang debat capres kedua di channel YouTube Najwa Shihab
        total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan (reply) dari komentar utama
        comment_id = item["id"] # Menapatkan ID komentar yang bersifat unik untuk mengidentifikasi setiap komentar pada video

        """
        Mendapatkan objek utama yang menjadi struktur pembentuk atas komentar utama
        berdasarkan video ID yang sebelumnya telah diinisialisasikan.
        Jenis objek yang menjadi struktur/rangkaian detail atas komentar paling atas/utama seperti channel ID,
        teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
        nama akun user yang berkomentar di dalam video tersebut, dll
        """
        comment_items = item["snippet"]["topLevelComment"]["snippet"]
    
        """
        Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_second_video_debate_najwashihab" yang akan
        berisikan item-item utama seperti ID video, ID Channel yang mem-publish video tersebut, nama akun user yang berkomentar
        beserta teks komentar, tanggal pembuatan komentar untuk video tersebut, jumlah total like sebagai bentuk respon setuju
        pada komentar yang telah dibuat oleh user, dll.

        Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "comment_id" dan "comment_items"
        termasuk ke dalam elemen utama dan akan dimasukkan ke dalam variabel list kosong (empty list) yaitu
        "list_second_video_debate_najwashihab" yang nantinya list yang bernama "list_second_video_debate_najwashihab"
        akan menjadi struktur/pondasi dasar dari pembentuk kolom/atribut di dalam Pandas DataFrame
        """
        list_second_video_debate_najwashihab.append([
            video_id, # Memasukkan ID video yang sebelumnya telah diinisialisasikan pada variabel list kosong
            comment_items["channelId"], # Mendapatkan & memasukkan ID channel YouTube yang memposting video tersebut
            comment_id, # Memasukkan ID komentar yang bersifat unik sebagai identifikasi dari masing-masing teks komentar
            comment_items["authorDisplayName"], # Mendapatkan & memasukkan nama-nama akun YouTube/user yang berkomentar
            comment_items["textDisplay"], # Memasukkan teks komentar paling atas (komentar paling utama) ke dalam variabel list
            comment_items["likeCount"], # Memasukkan jumlah total like sebagai bentuk respon setuju atas komentar utama
            total_reply_count, # Memasukkan jumlah total reply/balasan terhadap komentar utama
            comment_items["authorChannelUrl"], # Mendapatkan & memasukkan URL channel YouTube dari setiap user yang berkomentar
            comment_items["publishedAt"], # Mendapatkan & memasukkan tanggal dan waktu saat pertama kalinya komentar dibuat
            comment_items["updatedAt"] # Mendapatkan tanggal dan waktu saat terakhir kali teks komentar diubah oleh user
    ])
    
# Menampilkan jumlah data yang dimiliki oleh "list_second_video_debate_najwashihab" sebelum dilakukan proses pengulangan
print("Jumlah Data yang Saat ini Dimiliki oleh List 'list_second_video_debate_najwashihab' sebelum Proses Pengulangan adalah",
      len(list_second_video_debate_najwashihab))

Jumlah Data yang Saat ini Dimiliki oleh List 'list_second_video_debate_najwashihab' sebelum Proses Pengulangan adalah 4500


Berdasarkan hasil output pada script code diatas, dapat diketahui bahwa proses pengambilan 4500 data komentar dari video debat calon Wakil Presiden Indonesia tahun 2024 dari channel YouTube Najwa Shihab telah berhasil dilakukan dan seluruh baris data tersebut disimpan di dalam list yang bernama "list_second_video_debate_najwashihab". Untuk saat ini seluruh baris data (termasuk teks komentar) yang dikirimkan sebagai bentuk respon atas video debat yang dilakukan oleh para penonton video tersebut masih bersifat array 2 dimensi.

Maka dari itu proses selanjutnya saya akan menjadikan data-data yang tersimpan di dalam list array menjadi sebuah DataFrame pandas sehingga akan dapat memudahkan proses analisis selanjutnya. Tetapi sebelum menjadikan "list_second_video_debate_najwashihab" menjadi sebuah DataFrame, saya akan menampilkan beberapa hasil data yang telah berhasil diambil dari video YouTube debat kedua calon Presiden-Wakil Presiden Republik Indonesia tahun 2024 dari channel YouTube Najwa Shihab yang berada di URL berikut:

https://www.youtube.com/watch?v=p-vbZkT3Yck

In [29]:
"""
Menampilkan 12 object list data komentar yang pengambilan data komentar
bersumber dari video debat kedua capres-cawapres yang di-upload oleh channel YouTube Najwa Shihab
"""
list_second_video_debate_najwashihab[:12]

[['p-vbZkT3Yck',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'UgxPpfKYSb5WYqrgRfF4AaABAg',
  '@bimatri3158',
  '❤',
  0,
  0,
  'http://www.youtube.com/@bimatri3158',
  '2024-03-23T13:05:57Z',
  '2024-03-23T13:05:57Z'],
 ['p-vbZkT3Yck',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'UgyUttCdTrDuHz8bXjR4AaABAg',
  '@upiakcimok5191',
  'hidup gibran...anak muda yg   berprestasi yg hebat..walaupun masih muda tp otaknya melebihi otaknya mafut yg sok pintar',
  0,
  0,
  'http://www.youtube.com/@upiakcimok5191',
  '2024-03-03T11:22:25Z',
  '2024-03-03T11:22:25Z'],
 ['p-vbZkT3Yck',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'Ugwt1MUV7t4VoaFdGIt4AaABAg',
  '@novalina6097',
  'Kenangan  sebelum pilpres  Tahun 2024  Manusia  rame  dekat  dekat bgt  dari malasya  dalam Bahagia  Besar  diri kita Seribu  pemuda,   tok Show ga berarti  benturan ga jelas, harap Bahagia  dalam  adil dan merata,   Proyek  pembangunan  merata  pasti Bisa, mengenali  Sungguh  masalah  hidup  setiap Manusia  tetaplah Doa Seluruh Dunia pasti Tahu  daerah  pu

In [30]:
"""
Menjadikan data-data dari setiap objek item yang tersimpan di dalam list "list_second_video_debate_najwashihab"
seperti video id, channel id, comment_id, nama user yang berkomentar beserta teks komentarnya,
jumlah likes dan total balasan/reply untuk suatu teks komentar,
tanggal dibuat dan tanggal perubahan atas suatu teks komentar dan URL channel/akun YouTube user yang berkomentar pada video
menjadi sebuah tipe data DataFrame dan disimpan di dalam sebuah variabel DataFrame bernama "second_video_debate_df"
"""
second_video_debate_df = pd.DataFrame(list_second_video_debate_najwashihab,
                                      columns=["video_id", "channel_id", "comment_id", "author",
                                               "text_comment", "like_count", "total_reply",
                                               "channel_url", "published_date", "updated_date"])

second_video_debate_df.tail(18) # Menampilkan 18 data terbawah dari variabel DataFrame "second_video_debate_df"

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
4482,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,UgxHgx_M77AjKqEIbtx4AaABAg,@libralim8048,Itu ibu susi mantan menteri yang dibawah kanan?,0,0,http://www.youtube.com/@libralim8048,2023-12-22T17:05:00Z,2023-12-22T17:05:00Z
4483,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,Ugw91FXv9dWshp9NJ1p4AaABAg,@aryowibowo1908,Dagang SATE MADURA AJA PAK MAHFUD. KAN SUDAH B...,1,0,http://www.youtube.com/@aryowibowo1908,2023-12-22T17:04:59Z,2023-12-22T17:04:59Z
4484,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,UgwJQXtHLepxdFE1AaV4AaABAg,@user-gi7sl7lx6s,"Namanya juga capres paslon,muluk2 manis2 jnjin...",0,0,http://www.youtube.com/@user-gi7sl7lx6s,2023-12-22T17:04:45Z,2023-12-22T17:04:45Z
4485,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,UgwyrBKe4E92zEPV1OZ4AaABAg,@babasazal,"Debat level SMA, gak berkualitas. Ngapain soal...",0,0,http://www.youtube.com/@babasazal,2023-12-22T17:04:23Z,2023-12-22T17:04:23Z
4486,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,Ugx2dIDuZBXkIt6Jsfl4AaABAg,@wahyubasjaratu4728,"gua lebih kesel sama yang cewek, ngeselin bang...",0,0,http://www.youtube.com/@wahyubasjaratu4728,2023-12-22T17:04:07Z,2023-12-22T17:04:07Z
4487,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,Ugwo8V-piReHTQ2IKTt4AaABAg,@user-er2jh5nz9h,Arti regulasi itu saja si gibran itu gatau,0,0,http://www.youtube.com/@user-er2jh5nz9h,2023-12-22T17:04:05Z,2023-12-22T17:04:05Z
4488,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,Ugw8IpTMdRvP8ox12XR4AaABAg,@imamlofe,Ternyata mas gibran suhu,0,0,http://www.youtube.com/@imamlofe,2023-12-22T17:03:58Z,2023-12-22T17:03:58Z
4489,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,UgyEqYapRtXVzoAuJv54AaABAg,@herumdr2089,Saya bantu jawab pertanyaan cak imin terhadap ...,4,0,http://www.youtube.com/@herumdr2089,2023-12-22T17:03:58Z,2023-12-22T17:03:58Z
4490,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,Ugznp_j-Au1tbn6juPZ4AaABAg,@tarysurati2975,Menit 1.42 timses 3 mah mengakualitas gobar ap...,0,0,http://www.youtube.com/@tarysurati2975,2023-12-22T17:03:57Z,2023-12-22T17:03:57Z
4491,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,UgwcxGop2ccbBddxTxt4AaABAg,@muhammadramdhani9849,Amit2 banyak buzzer 02,1,0,http://www.youtube.com/@muhammadramdhani9849,2023-12-22T17:03:50Z,2023-12-22T17:03:50Z


## 4. Exploratory Dimension of DataFrame using Pandas Library

In [31]:
# Menampilkan nama-nama kolom yang dimiliki oleh variabel DataFrame "second_video_debate_df"
second_video_debate_df.columns

Index(['video_id', 'channel_id', 'comment_id', 'author', 'text_comment',
       'like_count', 'total_reply', 'channel_url', 'published_date',
       'updated_date'],
      dtype='object')

In [32]:
# Menampilkan jumlah data dan jumlah kolom yang saat ini dimiliki oleh DataFrame dari hasil proses scraping pada video YouTube
second_video_debate_df.shape

(4500, 10)

Berdasarkan hasil tersebut dapat diketahui bahwa proses pengambilan data komentar sebanyak 4500 komentar telah berhasil dilakukan dan 4500 komentar tersebut disimpan di dalam 10 kolom yang saat ini dimiliki oleh variabel DataFrame "second_video_debate_df". Sepuluh nama kolom yang dimiliki oleh variabel DataFrame "second_video_debate_df" yang menjadi tempat tersimpannya 4500 data diantaranya adalah sebagai berikut:

1. Kolom "video_id" yang menyimpan identitas unik suatu konten video YouTube.
2. Kolom "channel_id" yang merupakan identitas unik suatu channel YouTube yang meng-upload konten video. Pada penelitian kali ini karena nilai pada kolom "channel_id" adalah UCo8h2TY_uBkAVUIc14m_KCA maka dapat disimpulkan bahwa nilai unik tersebut menjadi representasi atas nama channel dari pemilik video ID yang tersimpan di dalam kolom "video_id" yakni Najwa Shihab channel.
3. Kolom "comment_id" merupakan sebuah kolom yang menyimpan identitas unik berupa ID dari masing-masing teks komentar yang ada di dalam video id.
4. Kolom "author" merupakan kolom yang menyimpan nilai nama-nama user/nama akun YouTube yang berkomentar pada video tersebut.
5. Kolom "text_comment" merupakan kolom yang menyimpan setiap teks komentar yang telah dibuat oleh masing-masing penonton pada video tersebut.
6. Kolom "like_count" merupakan kolom yang menyimpan jumlah like (suka/setuju) sebagai bentuk respon setuju atas komentar utama.
7. Kolom "total_reply" merupakan kolom yang menyimpan jumlah balasan (reply) sebagai bentuk respon untuk memperkuat pendapat komentar utama atau sebagai bentuk ketidaksetujuan atas komentar utama sehingga user yang tidak setuju tersebut mengirimkan teks komentar lainnya.
8. Kolom "channel_url" merupakan sebuah kolom yang menyimpan link akun profile YouTube yang berkomentar pada video tersebut.
9. Kolom "published_date" merupakan kolom yang menyimpan tanggal dan waktu dari pembuatan teks komentar pertama kali (tanpa adanya perubahan isi di dalam komentar yang dilakukan oleh user/penonton.
10. Kolom "updated_data" merupakan kolom yang menyimpan data tanggal dan waktu dari perubahan isi teks komentar yang hanya dapat dilakukan oleh user yang memiliki teks komentar tersebut.

In [33]:
# Menampilkan tipe data yang dimiliki oleh 10 kolom pada variabel DataFrame "second_video_debate_df"
second_video_debate_df.dtypes

video_id          object
channel_id        object
comment_id        object
author            object
text_comment      object
like_count         int64
total_reply        int64
channel_url       object
published_date    object
updated_date      object
dtype: object

Hasil pada code script diatas menunjukkan bahwasanya variabel DataFrame "second_video_youtube_df" hanya memiliki 2 tipe data saja yaitu tipe data object yang dapat diasumsikan sebagai tipe data string karena nilai yang terkandung di dalam string adalah data-data seperti teks, simbol-simbol/karakter spesial, dan tipe data integer (int yang merupakan tipe data untuk angka bilangan bulat seperti 18, 197, 41, 7, dll.

Selain itu jika diamati dan diperhatikan kembali, pada kolom "published_date" dan "updated_date" juga memiliki tipe data string/object. Padahal seharusnya jika data tersebut merupakan data yang menunjukkan tanggal dan waktu dari suatu kejadian maka data tersebut disimpan pada tipe data datetime. Maka dari itu karena terdapat ketidakcocokan antara data yang disimpan dengan tipe data, saya akan melakukan proses perubahan tipe data yang dimiliki oleh kolom "published_date" dan "updated_date" dari string/object menjadi tipe data datetime.

In [34]:
# Mengubah tipe data untuk kolom "published_date" dan "updated_date" dari tipe data Object/String menjadi datetime
def update_data_type_into_datetime(second_video_debate_df):
    second_video_debate_df["published_date"] = pd.to_datetime(second_video_debate_df["published_date"],
                                                              format = "%Y-%m-%d %H:%M:%S").dt.tz_convert(None)
    
    second_video_debate_df["updated_date"] = pd.to_datetime(second_video_debate_df["updated_date"],
                                                            format = "%Y-%m-%d %H:%M:%S").dt.tz_convert(None)
    
    return update_data_type_into_datetime

update_data_type_into_datetime(second_video_debate_df)

"""
# Menampilkan kembali apakah tipe data pada kolom "published_date" dan "updated_date"
telah berhasil diubah menjadi tipe data datetime dari tipe data sebelumnya yaitu Object (String)
"""
second_video_debate_df.dtypes

video_id                  object
channel_id                object
comment_id                object
author                    object
text_comment              object
like_count                 int64
total_reply                int64
channel_url               object
published_date    datetime64[ns]
updated_date      datetime64[ns]
dtype: object

In [35]:
"""
Menampilkan 4 data teratas yang dimiliki oleh variabel DataFrame "second_video_debate_df" setelah tipe data
pada kolom "published_date" dan "updated_date" diubah dari Object/String menjadi Datetime
"""
second_video_debate_df.head(4)

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
0,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,UgxPpfKYSb5WYqrgRfF4AaABAg,@bimatri3158,❤,0,0,http://www.youtube.com/@bimatri3158,2024-03-23 13:05:57,2024-03-23 13:05:57
1,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,UgyUttCdTrDuHz8bXjR4AaABAg,@upiakcimok5191,hidup gibran...anak muda yg berprestasi yg h...,0,0,http://www.youtube.com/@upiakcimok5191,2024-03-03 11:22:25,2024-03-03 11:22:25
2,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,Ugwt1MUV7t4VoaFdGIt4AaABAg,@novalina6097,Kenangan sebelum pilpres Tahun 2024 Manusia...,0,0,http://www.youtube.com/@novalina6097,2024-03-01 23:28:58,2024-03-02 00:07:26
3,p-vbZkT3Yck,UCo8h2TY_uBkAVUIc14m_KCA,UgxcYexqHkI5RjKtMRF4AaABAg,@user-gj1ib9lc6b,Amin aja dulu prabowo gibran,0,0,http://www.youtube.com/@user-gj1ib9lc6b,2024-02-24 14:19:31,2024-02-24 14:19:31


In [36]:
# Menampilkan berbagai jenis informasi yang terdapat di dalam variabel DataFrame "second_debate_najwashihab_df"
second_video_debate_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4500 entries, 0 to 4499
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   video_id        4500 non-null   object        
 1   channel_id      4500 non-null   object        
 2   comment_id      4500 non-null   object        
 3   author          4500 non-null   object        
 4   text_comment    4500 non-null   object        
 5   like_count      4500 non-null   int64         
 6   total_reply     4500 non-null   int64         
 7   channel_url     4500 non-null   object        
 8   published_date  4500 non-null   datetime64[ns]
 9   updated_date    4500 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int64(2), object(6)
memory usage: 351.7+ KB


Berdasarkan output yang didapatkan dari fungsi "info()", kita dapat mengetahui beberapa informasi yang penting terkait variabel DataFrame "second_video_debate_df" diantaranya adalah sebagai berikut:

1. Variabel "second_video_debate_df" merupakan sebuah objek berupa DataFrame yang berisikan kumpulan data yang didalamnya terdapat baris dan kolom (dataset) dari hasil proses pengambilan data-data komentar dari video YouTube debat kedua calon Presiden-Wakil Presiden Republik Indonesia yang diunggah/ditayangkan oleh channel YouTube Najwa Shihab.


2. Variabel DataFrame "second_video_debate_df" memiliki jumlah data/baris sebanyak 4.500 data yang terdiri dari teks komentar yang dikirimkan oleh penonton video tersebut, nama akun yang berkomentar, tanggal dan waktu dari komentar tersebut dibuat, dll. Selain itu, DataFrame "second_video_debate_df" memiliki 10 kolom yang diantaranya adalah kolom "video_id", "channel_id", "comment_id", "author", "text_comment", "like_count", "total_reply", "channel_url", "published_date" dan terakhir adalah kolom "updated_date".


3. Masing-masing kolom yang ada di dalam DataFrame "second_video_debate_df" tidak memiliki nilai NaN (Not a Number) atau nilai yang hilang/missing value sehingga dapat disimpulkan bahwasanya sepuluh kolom yang ada di dalam "second_video_debate_df", setiap barisnya memiliki seluruh elemen nilai data yang didapatkan melalui hasil proses scraping komentar pada video YouTube.


4. Pada DataFrame "second_video_debate_df" terdapat 3 jenis tipe data yang berbeda. Tipe data yang pertama adalah tipe data Integer untuk setiap kolom yang memiliki nilai data bersifat yang angka atau numerik. Data numerik/data angka dibedakan menjadi 2 jenis bilangan angka yaitu bilangan bulat dan bilangan desimal. Angka bilangan bulat direpresentasikan sebagai tipe data Integer dan angka bilangan desimal direpresentasikan sebagai tipe data Float. Karena pada DataFrame "second_video_debate_df" hanya memiliki 2 kolom saja yang bertipe data Integer, yaitu kolom "like_count" dan "total_reply", di mana kedua kolom tersebut memiliki nilai angka bilangan bulat, maka kolom tersebut bertipe data Integer bukan Float. Tipe data yang kedua adalah tipe data Datetime dan hanya 2 kolom saja yang memiliki tipe data Datetime yaitu kolom "published_date" dan "updated_date". Tipe data yang ketiga yang dimiliki oleh variabel DataFrame "second_video_debate_df" adalah tipe data Object/String. tipe data Object/String adalah representasi dari nilai-nilai data teks, simbol-simbol maupun karakter spesial yang dimiliki oleh suatu kolom di dalam DataFrame. Secara jumlah, tipe data Object/String pada variabel DataFrame "second_video_debate_df" dimiliki oleh 6 kolom (terbanyak diantara tipe data Integer ataupun Datetime) yaitu kolom "video_id", "channel_id", "comment_id", "author", "text_comment" dan kolom "channel_url".

In [37]:
# Menampilkan jumlah data komentar yang terduplikasi pada variabel DataFrame "second_video_debate_df"
print("Mencari Jumlah Data Duplikat pada DataFrame: ")
print("Jumlah Data yang Dikategorikan sebagai Data Duplikat pada Variabel DataFrame 'second_video_debate_df' adalah",
      second_video_debate_df.duplicated().sum())

Mencari Jumlah Data Duplikat pada DataFrame: 
Jumlah Data yang Dikategorikan sebagai Data Duplikat pada Variabel DataFrame 'second_video_debate_df' adalah 0


## 5. Export Variabel DataFrame into Spreadsheet Dataset Format (Microsoft Excel)

In [38]:
"""
Menyimpan 4500 data komentar dari hasil web scraping pada video debat
capres-cawapres kedua yang di-upload oleh Channel YouTube Najwa Shihab
"""
second_video_debate_df.to_excel("Results of Data Exports from DataFrame/Export Comments Data from Second Video Debate.xlsx",
                                index=False, header=True)

Berdasarkan hasil code script diatas maka dapat diketahui bahwa saya telah berhasil melakukan proses penyimpanan (export) 4.500 data komentar yang sebelumnya berhasil di-scraping (diambil) dari video debat capres-cawapres kedua yang di-upload oleh Channel Youtube Najwa Shihab dan seluruh data beserta kolomnya disimpan di dalam variabel DataFrame yang bernama "second_video_debate_df" ke dalam extension file yaitu Microsoft Excel yang memiliki format/jenis data yaitu Spreadsheet (.xlsx).