## 1. Import Libraries for Scraping Data YouTube Comments and Create API based on Google YouTube Data API

In [1]:
"""
Melakukan proses inisialisasi (import) library yang akan digunakan
untuk mengambil data-data komentar dari sebuah video yang berada di sosial media YouTube
menggunakan API dari service/layanan Google Cloud Platform, YouTube Data API v3
"""
import pandas as pd
from googleapiclient.discovery import build # Sebuah library pada Python yang bertujuan untuk memanfaatkan layanan Google

In [2]:
"""
Melakukan proses inisialisasi resource atas objek/elemen utama dari client yang akan dimanfaatkan
untuk proses pengambilan data-data komentar dari suatu video YouTube yang di-upload oleh channel Najwa Shihab
tentang debat capres-cawapres ketiga menggunakan salah satu service dari Google Cloud Platform yaitu YouTube Data API v3
dengan memanfaatkan API yang dihasilkan oleh CREDENTIALS pada service YouTube Data API v3
"""

API_Service_Name = "youtube" # Nama service dari Google Cloud Platform yang digunakan pada penelitian ini adalah youtube
API_Version_Name = "v3" # Jenis versi API dari service yang digunakan dari Google Cloud Platform yaitu YouTube Data API v3
API_Key = "AIzaSyAEA0OfmhGVO186BkPfDeqglHj6tHclS3Q" # Merupakan sebuah kunci API (API Key) dari CREDENTIALS YouTube Data API v3

# Menyimpan 3 variabel objek resource yang telah didefinisikan ke dalam variabel bernama "youtube_scrape_comment_objects"
youtube_scrape_comment_objects = build(API_Service_Name, API_Version_Name, developerKey = API_Key)

Code script diatas adalah proses di mana saya melakukan inisialisasi API Key yang telah berhasil didapatkan melalui Google Cloud Platform dengan pilihan service yakni YouTube Data API v3. Maka dari itu nama service API yang digunakan (API_Service_Name) ditulis sebagai "youtube" karena service/layanan Google pada Google Cloud Platform yang digunakan di dalam penelitian kali ini adalah sebuah video yang ter-upload pada media sosial YouTube dan dan versi API yang digunakan adalah versi ketiga dari API YouTube Data sehingga nilai dari variabel (API_Version_Name) yang disimpan adalah "v3".

Untuk mendapatkan kunci API dari layanan yang bernama "youtube", pertama-tama saya harus masuk ke dalam service YouTube Data API v3 di dalam Google Cloud Platform dan mengaktifkan (enable) service tersebut dan memilih fitur/opsi CREDENTIALS karena API Key berada di dalam fitur tersebut. Jadi dapat disimpulkan kalau untuk membuat API Key agar dapat mengambil data-data yang ada di dalam suatu video YouTube seperti komentar dari 1 video YouTube, Playlist, Subscription, dll., maka terlebih dahulu harus mengaktifkan service YouTube Data API v3 di dalam Google Cloud Platform dan kemudian membuat/generate API Key di dalam opsi CREDENTIALS. Jika API sudah berhasil dibuat, maka kita dapat meng-copy API tersebut untuk diletakkan di dalam variabel. Pada code script diatas, API yang berhasil didapatkan disimpan di dalam variabel yang bernama "API_KEY".

Di samping itu, fungsi build pada library googleapiclient.discovery merupakan sebuah Software Development Kits (SDKs) yang telah disediakan oleh Google agar para developer/scientist dapat mengakses semua layanan berbasis Google melalui API seperti video/konten YouTube, BigQuery, dll. Jadi dapat disimpulkan bahwasanya dengan mendefinisikan nama layanan Google yang akan digunakan dan API yang telah didapatkan berdasarkan layanan yang akan digunakan, maka setiap orang dapat mengakses dan mendapatkan data-data atau informasi yang berada diseluruh dunia melalui layanan Google. Seperti pada penelitian kali ini yang sumber datanya merupakan data-data komentar dari suatu video yang di-upload oleh suatu channel YouTube.

## 2. Request Access to Retrieve Main Comment Data Objects on YouTube Video based on API Key, API Service Name, and API Version

In [3]:
"""
Melakukan proses permintaan untuk mengambil objek/item atas data-data
komentar utama (teks komentar yang bukan komentar balasan) dari video tentang
debat capres-cawapres ketiga Republik Indonesia tahun 2024 yang di-upload oleh
channel YouTube Najwa Shihab berdasarkan identifikasi unik (ID) dari video
tersebut dengan jumlah hanya 100 data komentar (sesuai dengan limit pengambilan
data komentar dari service YouTube Data API v3)
"""

video_youtube_request = youtube_scrape_comment_objects.commentThreads().list(
    order = "time", # Permintaan untuk mendapatkan tanggal dan waktu komentar paling terbaru berdasarkan ID video dari YouTube
    part = "snippet", # Nilai snippet merupakan objek list yang berisikan detail-detail komentar utama (komentar teratas)
    videoId = "Sbjsg3AFx00", # Sebuah ID video dari YouTube tentang debat capres-cawapres ketiga dari channel Najwa Shihab
    maxResults = 100 # Jumlah maksimal data yang dapat diambil jika menggunakan service Google yaitu YouTube Data API v3
)

"""
Membuat variabel bernama "video_youtube_data_response" sebagai respon untuk
menjalankan/mengeksekusi perintah pengambilan data komentar dari video YouTube
dengan ID yakni Sbjsg3AFx00 berdasarkan 100 data komentar sesuai dengan
jumlah maksimal data yang dapat diambil menggunakan YouTube Data API v3
"""
video_youtube_response = video_youtube_request.execute()

Berikut adalah penjelasan mengenai code script diatas berikut ini:

1. youtube_scrape_comment_objects merupakan sebuah nama variabel yang berisikan parameter-parameter beserta nilai yang berfungsi sebagai Google Data API untuk dapat mengakses data-data YouTube seperti video, komentar pada suatu video, playlist, dll, dengan memanfaatkan kunci API (API KEY) yang didapatkan melalui Google Cloud Platform dengan cara membuat credentials API di dalam salah satu service Google Cloud Platform yaitu YouTube Data API v3.

2. commentThread merupakan suatu sumber daya dari YouTube Data API yang berisikan objek/elemen atas informasi-informasi yang meliputi rangkaian yang membentuk komentar utama dari video tersebut. Salah satu contoh rangkaian pembentuk komentar utama adalah teks komentar paling pertama yang dibuat oleh user/penonton dari video tersebut. Bukan teks komentar yang menanggapi/merespon komentar utama. 

3. Parameter "part" bertujuan untuk mendapatkan satu/lebih dari satu daftar (list) properti yang dipisahkan oleh tanda koma (comma-separated list) dari sumber daya pada service YouTube Data API yang membentuk komentar paling pertama (komentar teratas) dari suatu video. Sedangkan "snippet" pada parameter "part" bertujuan untuk mendapatkan objek elemen yang berisikan detail dasar yang membentuk struktur/rangkaian komentar utama sebagai bentuk respon API YouTube terhadap permintaan dalam pengambilan data dari video YouTube berdasarkan video id yang didefinisikan pada parameter "videoId".

4. Parameter videoId merupakan sebuah ID unik dari video yang konten dari video tersebut ingin diambil dan dilakukan proses penelitian (data scraping). Pada penelitian kali ini, saya ingin menggunakan video tentang debat capres-cawapres ketiga tahun 2024 dari channel YouTube Najwa Shihab dan video tersebut memiliki alamat URL yakni https://www.youtube.com/watch?v=Sbjsg3AFx00. Jadi ID video "Sbjsg3AFx00" diambil dari URL pada video tersebut yang letaknya setelah v=.

5. Parameter maxResult merupakan sebuah parameter yang secara spesifik bertujuan untuk mengambil jumlah data komentar dari suatu konten video YouTube berdasarkan ID unik dari video tetapi jumlah data/jumlah komentar yang dapat diambil dari video tersebut hanya 100 data saja, tidak bisa lebih dari 100 data. Sehingga karena penelitian kali ini akan mengambil lebih dari 100 data, maka diperlukan tahapan pengulangan supaya komentar yang dapat diambil lebih dari 100 data. tahapan untuk melakukan proses pengambilan data lebih dari 100 data akan dilakukan setelah berhasil mendapatkan 100 data komentar (berdasarkan jumlah maksimal data komentar yang dapat diambil menggunakan API Google YouTube).

In [4]:
# Menampilkan seluruh objek item yang telah berhasil diambil melalui video YouTube dengan ID Sbjsg3AFx00
print(video_youtube_response)

{'kind': 'youtube#commentThreadListResponse', 'etag': 'kUIsUYLcwpnbIE-e8zKrakpbxQQ', 'nextPageToken': 'Z2V0X25ld2VzdF9maXJzdC0tQ2dnSWdBUVZGN2ZST0JJRkNJa2dHQUFTQlFpSUlCZ0FFZ1VJaHlBWUFCSUZDSjBnR0FFU0JRaW9JQmdBR0FBaURRb0xDS21kakswR0VQalZfbE0=', 'pageInfo': {'totalResults': 100, 'resultsPerPage': 100}, 'items': [{'kind': 'youtube#commentThread', 'etag': 'cG0Gb-KZXt-m4cWryYRkgJOfMuI', 'id': 'Ugy8vro7x0UYS7ozktl4AaABAg', 'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA', 'videoId': 'Sbjsg3AFx00', 'topLevelComment': {'kind': 'youtube#comment', 'etag': 'v0IAj1D_3I2YJswbdLEzPDA5aPU', 'id': 'Ugy8vro7x0UYS7ozktl4AaABAg', 'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA', 'videoId': 'Sbjsg3AFx00', 'textDisplay': 'all in 02', 'textOriginal': 'all in 02', 'authorDisplayName': '@user-wl4ji6hv4u', 'authorProfileImageUrl': 'https://yt3.ggpht.com/ytc/AIdro_lwpv9k3XSI36FbQHufA_aStU6N8ycVcjX2YzBVJ9mQ0kcoexjZ1MiaZAq-_8NwW1Zafg=s48-c-k-c0x00ffffff-no-rj', 'authorChannelUrl': 'http://www.youtube.com/@use

## 3. Define Main Items (Video ID, Total of Reply, Comment ID, Text of Comment, Total of Comment Like, Name of Account Commenting, etc) from Video YouTube based on ID Video YouTube

In [5]:
"""
Mendefinisikan/menyeleksi item-item yang membentuk komentar
paling atas/komentar utama yang akan digunakan (sebagai pembentuk kolom di DataFrame)
berdasarkan ID video YouTube yang sebelumnya telah didefinisikan pada "video_youtube_data_response"
dan mengambil 100 data komentar utama dari video debat capres-cawapres ketiga yang di-upload oleh channel YouTube Najwa Shihab
"""

# Mendefinisikan empty list sebagai tempat untuk menampung item-item/atribut data dari hasil scraping pada video YouTube
list_third_video_debate_najwashihab = []

for item in video_youtube_response["items"]:
    video_id = item["snippet"]["videoId"] # Mendapatkan ID video debat capres ketiga di channel YouTube Najwa Shihab
    total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan (reply) dari komentar utama
    comment_id = item["id"] # Mendapatkan ID komentar yang bersifat unik untuk mengidentifikasi setiap komentar pada video
    
    """
    Mendapatkan objek utama yang menjadi struktur pembentuk atas komentar utama
    berdasarkan video ID yang sebelumnya telah diinisialisasikan.
    Jenis objek yang menjadi struktur/rangkaian detail atas komentar paling atas/utama seperti channel ID,
    teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
    nama akun user yang berkomentar di dalam video tersebut, dll
    
    Perlu diketahui jika elemen item yang terdapat pada top level comment dan commentThreads() berbeda tetapi
    dapat digabungkan menjadi satu kesatuan. Elemen seperti video id,
    jumlah user yang membalas/merespon teks komentar utama, dan lainnya
    termasuk di dalam elemen item yang dimiliki oleh commentThreads()
    karena sifatnya adalah informasi general dari rangkaian komentar utama
    
    Sedangkan elemen item yang dimiliki oleh top level comment lebih bersifat informasi yang spesifik yang dimiliki oleh
    masing-masing komentar utama dan komentar balasan atas komentar utama.
    Elemen item seperti nama user/akun yang berkomentar, isi atas masing-masing teks komentar yang dibuat oleh
    setiap akun yang berkomentar, jumlah user yang menyukai isi dari teks komentar utama, dan lainnya
    termasuk ke dalam item-item yang dimiliki oleh top level comment
    """
    comment_items = item["snippet"]["topLevelComment"]["snippet"]
    
    
    """
    Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_third_video_debate_najwashihab" yang akan
    berisikan item-item utama seperti ID video, ID Channel yang mem-publish video tersebut, nama akun user yang berkomentar
    beserta teks komentar, tanggal pembuatan komentar untuk video tersebut, jumlah total like sebagai bentuk respon setuju
    pada komentar yang telah dibuat oleh user, dll.
     
    Catatan tambahan bahwasanya variabel "video_id", "total_reply_count",
    "comment_id" dan "comment_items" termasuk ke dalam elemen utama dan akan dimasukkan
    ke dalam variabel list kosong (empty list) yaitu "list_third_video_debate_najwashihab"
    yang nantinya list yang bernama "list_third_video_debate_najwashihab" akan menjadi struktur kolom di dalam Pandas DataFrame
    """
    
    list_third_video_debate_najwashihab.append([
        video_id, # Memasukkan ID video yang sebelumnya telah diinisialisasikan pada variabel list kosong
        comment_items["channelId"], # Mendapatkan & memasukkan ID channel YouTube yang memposting video tersebut
        comment_id, # Memasukkan ID komentar yang bersifat unik sebagai identifikasi dari masing-masing teks komentar
        comment_items["authorDisplayName"], # Mendapatkan & memasukkan nama-nama akun YouTube/user yang berkomentar
        comment_items["textDisplay"], # Memasukkan teks komentar paling atas (komentar paling utama) ke dalam variabel list
        comment_items["likeCount"], # Memasukkan jumlah total like sebagai bentuk respon setuju atas komentar utama
        total_reply_count, # Memasukkan jumlah total reply/balasan terhadap komentar utama
        comment_items["authorChannelUrl"], # Mendapatkan & memasukkan URL channel YouTube dari setiap user yang berkomentar
        comment_items["publishedAt"], # Mendapatkan & memasukkan tanggal dan waktu saat pertama kalinya komentar dibuat
        comment_items["updatedAt"] # Mendapatkan tanggal dan waktu saat terakhir kali teks komentar di-update oleh user
    ])
    
# Menampilkan jumlah data yang dimiliki oleh "list_third_video_debate_najwashihab" sebelum dilakukan proses looping
print("Jumlah Data yang Saat ini Dimiliki oleh List 'list_third_video_debate_najwashihab' sebelum Proses Pengulangan adalah",
      len(list_third_video_debate_najwashihab))

Jumlah Data yang Saat ini Dimiliki oleh List 'list_third_video_debate_najwashihab' sebelum Proses Pengulangan adalah 100


Jika hanya menggunakan code script diatas saja maka data komentar yang didapatkan hanya berjumlah 100 data saja karena jumlah maksimal untuk mengambil data komentar dari suatu video YouTube dengan Google YouTube API dibatasi hanya 100 data. Maka dari itu karena menurut saya 100 data sangat tidak cukup untuk penelitian kali ini, maka saya akan mengambil data komentar dari video debat capres-cawapres ketiga dari YouTube channel Najwa Shihab lebih dari 100 data komentar.

Untuk mengatasi permasalahan ini, saya akan melakukan proses looping/pengulangan permintaan untuk mengambil data komentar lebih dari 100 data. Jumlah data yang saya inginkan pada penelitian kali ini adalah 4.500 data sehingga permintaan yang code script dibawah ini akan mengulangi permintaan mengambil data sebanyak 4.500 data komentar beserta 10 kolom/object/elemen utama dari video debat capres-cawapres ketiga yang di-upload oleh channel YouTube Najwa Shihab. Sepuluh kolom/elemen utama yang akan membentuk DataFrame adalah kolom elemen "videoId", "channelId", "id" sebgaai comment_id, "authorDisplayName", "textDisplay", "likeCount", "totalReplyCount", "authorChannelUrl", "publishedAt", dan "updatedAt".

Sebagai catatan dan pengingat bahwasanya saat ini objek list yang bernama "list_third_video_debate_najwashihab" baru memiliki 100 data komentar saja dan akan dilakukan proses pengulangan permintaan hingga variabel list "list_third_video_debate_najwashihab" memiliki 4.500 data komentar beserta elemen-elemen utamanya. Agar dapat mengambil data komentar sebanyak 4.500 data, maka saya akan menerapkan teknik TokenPagination.

TokenPagination merupakan cara untuk mengambil data-data yang berada di halaman selanjutnya (data yang bukan berada di halaman utama/halaman paling awal dari suatu konten/informasi). TokenPagination yang akan digunakan di dalam penelitian kali ini memiliki tujuan untuk mendapatkan data-data komentar seperti teks komentar, data nama akun/user yang berkomentar, tanggal pembuatan komentar, dsb, yang berada di halaman-halaman berikutnya atau halaman setelah 100 data paling awal (data yang menjadi batasan maksimal/limit yang dapat diambil menggunakan YouTube Data API v3).

In [6]:
"""
Melakukan proses pengambilan komentar dari video debat capres-cawapres
ketiga yang berada di halaman-halaman lainnya (selain 100 data yang sudah berhasil diambil)
"""

next_page_data_scraping = 4500 # Jumlah data komentar selain halaman utama yang ingin diambil dari video debat ketiga


while len(list_third_video_debate_najwashihab) < next_page_data_scraping:
    """
    Mendapatkan data-data komentar pada video YouTube debat ketiga calon
    Presiden-Wakil Presiden Indonesia dari channel YouTube Najwa Shihab yang berada di halaman
    berikutnya (data-data setelah baris ke-100/indeks baris data ke-99)
    
    Di samping itu, "video_youtube_response" merupakan variabel yang menjalankan
    perintah untuk mendapatkan 100 data komentar dari video ID yang telah didefinisikan pada commentThreads.
    Itu berarti jumlah data yang akan diambil pada halaman-halaman berikutnya berjumlah 100 data komentar
    """
    try:
        nextPageToken = video_youtube_response["nextPageToken"]
    except KeyError:
        break
    nextPageToken = video_youtube_response["nextPageToken"]
    
    
    """
    Melakukan proses pengambilan objek kembali menggunakan fungsi "commentThreads()" atas data-data
    komentar utama dari video YouTube berdasarkan identifikasi unik dari video tersebut yaitu ID Video yang membahas
    tentang debat capres-cawapres 2024. Namun yang membedakan antara "commentThreads()" sebelumnya dengan saat ini
    adalah jika "commentThreads()" sebelumnya hanya dapat mengambil jumlah maksimal data komentar yang ditentukan oleh
    Google YouTube Data API. Walaupun kita menginginkan lebih dari 100 data sehingga kita mendefinisikan nilai pada
    parameter "maxResults" yakni 4.500, 8000 komentar, dll., komentar tetapi hasil akhirnya
    tidak berpengaruh terhadap jumlah data yang berhasil diambil dengan teknik data scraping pada video YouTube
    
    Maka dari itu dengan menggunakan parameter baru yang terdapat di dalam "commentThreads()" yaitu parameter "pageToken"
    dengan nilai yakni nextPageToken, proses pengambilan data komentar lebih dari 100 sangat memungkinkan untuk dilakukan
    sebab nilai nextPageToken akan melakukan proses identifikasi/mencari dan mengambil data
    komentar yang berada di halaman berikutnya dari hasil komentar yang dapat diambil
    (hasil komentar yang dapat diambil yakni hanya 100 data saja sesuai dengan jumlah maksimal yang dimiliki oleh parameter
    """
    nextRequest = youtube_scrape_comment_objects.commentThreads().list(
        order = "time", # Permintaan untuk mendapatkan tanggal dan waktu komentar paling terbaru dari ID video
        part = "snippet", # snippet pada parameter part berfungsi untuk menyimpan objek detail dari komentar utama di dalam list
        videoId = "Sbjsg3AFx00", # Sebuah ID video dari Youtube tentang debat capres-cawapres ketiga dari channel Najwa Shihab
        #maxResults = 4500, # Jumlah data yang ingin diambil setelah 100 data sebelumnya berhasil diambil
        pageToken = nextPageToken # Data yang diambil berasal dari halaman selain 100 data yang sudah berhasil diambil
    )
    
    """
    Menjalankan proses permintaan untuk dapat mengambil data-data komentar yang berada
    di halaman-halaman berikutnya (selain 100 data komentar yang telah berhasil diambil) dari video
    debat capres-cawapres ketiga yang di-upload oleh Channel YouTube Najwa Shihab yang memiliki ID video yaitu Sbjsg3AFx00
    """
    video_youtube_response = nextRequest.execute()
    
    
    for item in video_youtube_response["items"]:
        video_id = item["snippet"]["videoId"] # Mendapatkan ID video tentang debat capres ketiga di channel YouTube Najwa Shihab
        total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan (reply) dari komentar utama
        comment_id = item["id"] # Mendapatkan ID komentar yang bersifat unik untuk mengidentifikasi setiap komentar pada video
        
        
        """
        Mendapatkan objek utama yang menjadi struktur pembentuk atas komentar utama
        berdasarkan video ID yang sebelumnya telah diinisialisasikan.
        Jenis objek yang menjadi struktur/rangkaian detail atas komentar paling atas/utama seperti channel ID,
        teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
        nama akun user yang berkomentar di dalam video tersebut, dll
        
        Perlu diketahui jika elemen item yang terdapat pada top level comment dan commentThreads() berbeda tetapi
        dapat digabungkan menjadi satu kesatuan. Elemen seperti video id,
        jumlah user yang membalas/merespon teks komentar utama, dan lainnya
        termasuk di dalam elemen item yang dimiliki oleh commentThreads()
        karena sifatnya adalah informasi general dari rangkaian komentar utama

        Sedangkan elemen item yang dimiliki oleh top level comment lebih bersifat informasi yang spesifik yang dimiliki oleh
        masing-masing komentar utama dan komentar balasan atas komentar utama.
        Elemen item seperti nama user/akun yang berkomentar, isi atas masing-masing teks komentar yang dibuat oleh
        setiap akun yang berkomentar, jumlah user yang menyukai isi dari teks komentar utama, dan lainnya
        termasuk ke dalam item-item yang dimiliki oleh top level comment
        """
        comment_items = item["snippet"]["topLevelComment"]["snippet"]
        
        
        """
        Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_third_video_debate_najwashihab" yang akan
        berisikan item-item utama seperti ID video, ID Channel yang mem-publish video tersebut, nama akun user yang berkomentar
        beserta teks komentar, tanggal pembuatan komentar untuk video tersebut, jumlah total like sebagai bentuk respon setuju
        pada komentar yang telah dibuat oleh user, dll.

        Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "comment_id" dan "comment_items"
        termasuk ke dalam elemen utama dan akan dimasukkan ke dalam variabel list kosong (empty list) yaitu
        "list_third_video_debate_najwashihab" yang nantinya list yang bernama "list_third_video_debate_najwashihab"
        akan menjadi struktur/pondasi dasar dari pembentuk kolom/atribut di dalam Pandas DataFrame
        """
        list_third_video_debate_najwashihab.append([
            video_id, # Memasukkan ID video yang sebelumnya telah diinisialisasikan pada variabel list kosong
            comment_items["channelId"], # Mendapatkan & memasukkan ID channel YouTube yang memposting video tersebut
            comment_id, # Memasukkan ID komentar yang bersifat unik sebagai identifikasi dari masing-masing teks komentar
            comment_items["authorDisplayName"], # Mendapatkan & memasukkan nama-nama akun YouTube/user yang berkomentar
            comment_items["textDisplay"], # Memasukkan teks komentar paling atas (komentar paling utama) ke dalam variabel list
            comment_items["likeCount"], # Memasukkan jumlah total like sebagai bentuk respon setuju atas komentar utama
            total_reply_count, # Memasukkan jumlah total reply/balasan terhadap komentar utama
            comment_items["authorChannelUrl"], # Mendapatkan & memasukkan URL channel YouTube dari setiap user yang berkomentar
            comment_items["publishedAt"], # Mendapatkan & memasukkan tanggal dan waktu saat pertama kalinya komentar dibuat
            comment_items["updatedAt"] # Mendapatkan tanggal dan waktu saat terakhir kali teks komentar diubah oleh user
        ])
        
# Menampilkan jumlah data yang dimiliki oleh "list_third_video_debate_najwashihab" setelah dilakukan proses looping
print("Jumlah Data yang Saat ini Dimiliki oleh List 'list_third_video_debate_najwashihab' setelah Proses Pengulangan adalah",
      len(list_third_video_debate_najwashihab))

Jumlah Data yang Saat ini Dimiliki oleh List 'list_third_video_debate_najwashihab' setelah Proses Pengulangan adalah 4500


Berdasarkan hasil output pada script code diatas, dapat diketahui bahwa proses pengambilan 4.500 data komentar dari video debat calon Presiden Indonesia babak kedua tahun 2024 dari channel YouTube Najwa Shihab telah berhasil dilakukan dan seluruh baris data tersebut disimpan di dalam list yang bernama "list_third_video_debate_najwashihab". Untuk saat ini seluruh baris data (termasuk teks komentar) yang dikirimkan sebagai bentuk respon atas video debat yang dilakukan oleh para penonton video tersebut masih bersifat array 2 dimensi.

Maka dari itu proses selanjutnya saya akan menjadikan data-data yang tersimpan di dalam list array menjadi sebuah DataFrame pandas sehingga akan dapat memudahkan proses analisis selanjutnya. Tetapi sebelum menjadikan "list_third_video_debate_najwashihab" menjadi sebuah DataFrame, saya akan menampilkan beberapa hasil data yang telah berhasil diambil dari video YouTube debat ketiga calon Presiden-Wakil Presiden Republik Indonesia tahun 2024 dari channel YouTube Najwa Shihab yang berada di URL berikut:

https://www.youtube.com/watch?v=Sbjsg3AFx00

In [7]:
"""
Menampilkan 6 data komentar yang bersumber dari video debat ketiga debat
capres-cawapres yang di-upload oleh YouTube Najwa Shihab yang saat ini masih
bersifat array objek 2 dimensi yang disimpan di dalam list "list_third_video_debate_najwashihab"
"""
list_third_video_debate_najwashihab[:6]

[['Sbjsg3AFx00',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'Ugy8vro7x0UYS7ozktl4AaABAg',
  '@user-wl4ji6hv4u',
  'all in 02',
  1,
  0,
  'http://www.youtube.com/@user-wl4ji6hv4u',
  '2024-03-05T05:03:40Z',
  '2024-03-05T05:03:40Z'],
 ['Sbjsg3AFx00',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'UgwdoJI0vueAXvzlZMh4AaABAg',
  '@mustafashaleh4150',
  '<a href="https://www.youtube.com/watch?v=Sbjsg3AFx00&amp;t=11576">3:12:56</a> penilaian ganjar Prabowo 5 dan anies 11/100',
  3,
  0,
  'http://www.youtube.com/@mustafashaleh4150',
  '2024-02-20T01:57:28Z',
  '2024-02-20T01:57:28Z'],
 ['Sbjsg3AFx00',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'Ugx2wsQOy0rrsChTyxV4AaABAg',
  '@IseanwarsadadAmangzian-rw9xe',
  'P Prabowo p Ganjar jadikan Mentri pertahanan p Prabowo',
  0,
  0,
  'http://www.youtube.com/@IseanwarsadadAmangzian-rw9xe',
  '2024-02-18T18:33:16Z',
  '2024-02-18T18:33:16Z'],
 ['Sbjsg3AFx00',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'UgzCWNn3TpHUjY3DTH54AaABAg',
  '@bobamochi2679',
  'Love Pak Anies!',
  0,
  0,
  'http://w

In [8]:
"""
Menjadikan data-data dari setiap objek item yang tersimpan di dalam list "list_third_video_debate_najwashihab"
seperti video id, channel id, comment_id, nama user yang berkomentar beserta teks komentarnya,
jumlah likes dan total balasan/reply untuk suatu teks komentar,
tanggal dibuat dan tanggal perubahan atas suatu teks komentar dan URL channel/akun YouTube user yang berkomentar pada video
menjadi sebuah tipe data DataFrame dan disimpan di dalam sebuah variabel DataFrame bernama "third_video_debate_df"
"""
third_video_debate_df = pd.DataFrame(list_third_video_debate_najwashihab,
                                     columns=["video_id", "channel_id", "comment_id", "author",
                                               "text_comment", "like_count", "total_reply",
                                               "channel_url", "published_date", "updated_date"])

third_video_debate_df.tail(9) # Menampilkan 18 data terbawah dari variabel DataFrame "third_video_debate_df"

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
4491,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,Ugy3icEtEEbN-DOEDmV4AaABAg,@user-oq9rl3xy3n,Pak prabowo itu bkn org yg suka show off. Sifa...,23,4,http://www.youtube.com/@user-oq9rl3xy3n,2024-01-07T16:31:38Z,2024-01-07T16:31:38Z
4492,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgwlMlI8du1NcgWKUw14AaABAg,@user-px7is1hv2c,DKI apakah omdo haha,0,0,http://www.youtube.com/@user-px7is1hv2c,2024-01-07T16:31:35Z,2024-01-07T16:31:35Z
4493,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxydKEbvtUQSFfYP9F4AaABAg,@nurdinbinmahmur1658,Branding gEmoy hancur lebur 🤣,3,0,http://www.youtube.com/@nurdinbinmahmur1658,2024-01-07T16:31:15Z,2024-01-07T16:31:15Z
4494,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxYtUZbGNbIVwPFAbJ4AaABAg,@user-px7is1hv2c,Ganjar r1,0,0,http://www.youtube.com/@user-px7is1hv2c,2024-01-07T16:30:52Z,2024-01-07T16:30:52Z
4495,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgwPJV2qwoVryJKzD4l4AaABAg,@fathanmubina6273,Partai pendukung paslon 2 langsung rapat opsi ...,5,0,http://www.youtube.com/@fathanmubina6273,2024-01-07T16:30:32Z,2024-01-07T16:30:32Z
4496,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxKZ6lG3sZOlNuT2Ep4AaABAg,@labeneamata9905,Ada Yg lupa joget gak sih??,2,0,http://www.youtube.com/@labeneamata9905,2024-01-07T16:30:29Z,2024-01-07T16:30:29Z
4497,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,Ugy7xg3vbsiuQJUTqs14AaABAg,@renoharyanto3947,Gua suka malam ini pak prabowo di goreng 01 &a...,36,7,http://www.youtube.com/@renoharyanto3947,2024-01-07T16:30:18Z,2024-01-07T16:30:18Z
4498,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxGUHWPHXCB7IpG7hJ4AaABAg,@uyeere1810,"01 smart ,02 emosian bingung anti kritik, 03 c...",19,2,http://www.youtube.com/@uyeere1810,2024-01-07T16:29:59Z,2024-01-07T16:29:59Z
4499,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxvMsqICMcKg57YPZJ4AaABAg,@wahyuabdillah8100,Sumpah MVP kali ini pak ganjar. Awal-awal slow...,154,2,http://www.youtube.com/@wahyuabdillah8100,2024-01-07T16:29:58Z,2024-01-07T16:29:58Z


## 4. Exploratory Dimension of DataFrame using Pandas Library

In [9]:
# Menampilkan nama-nama kolom yang dimiliki oleh variabel DataFrame "third_video_debate_df"
third_video_debate_df.columns

Index(['video_id', 'channel_id', 'comment_id', 'author', 'text_comment',
       'like_count', 'total_reply', 'channel_url', 'published_date',
       'updated_date'],
      dtype='object')

In [10]:
# Menampilkan jumlah baris data dan kolom yang dimiliki oleh variabel DataFrame "third_video_debate_df"
third_video_debate_df.shape

(4500, 10)

Berdasarkan hasil tersebut dapat diketahui bahwa proses pengambilan data komentar sebanyak 4.500 komentar telah berhasil dilakukan dan 4.500 komentar tersebut disimpan di dalam 10 kolom yang saat ini dimiliki oleh variabel DataFrame "third_video_debate_df". Sepuluh nama kolom yang dimiliki oleh variabel DataFrame "third_video_debate_df" yang menjadi tempat tersimpannya 4.500 data diantaranya adalah sebagai berikut:

1. Kolom "video_id" yang menyimpan identitas unik suatu konten video YouTube.
2. Kolom "channel_id" yang merupakan identitas unik suatu channel YouTube yang meng-upload konten video. Pada penelitian kali ini karena nilai pada kolom "channel_id" adalah UCo8h2TY_uBkAVUIc14m_KCA maka dapat disimpulkan bahwa nilai unik tersebut menjadi representasi atas nama channel dari pemilik video ID yang tersimpan di dalam kolom "video_id" yakni Najwa Shihab channel.
3. Kolom "comment_id" merupakan sebuah kolom yang menyimpan identitas unik berupa ID dari masing-masing teks komentar yang ada di dalam video id.
4. Kolom "author" merupakan kolom yang menyimpan nilai nama-nama user/nama akun YouTube yang berkomentar pada video tersebut.
5. Kolom "text_comment" merupakan kolom yang menyimpan setiap teks komentar yang telah dibuat oleh masing-masing penonton pada video tersebut.
6. Kolom "like_count" merupakan kolom yang menyimpan jumlah like (suka/setuju) sebagai bentuk respon setuju atas komentar utama.
7. Kolom "total_reply" merupakan kolom yang menyimpan jumlah balasan (reply) sebagai bentuk respon untuk memperkuat pendapat komentar utama atau sebagai bentuk ketidaksetujuan atas komentar utama sehingga user yang tidak setuju tersebut mengirimkan teks komentar lainnya.
8. Kolom "channel_url" merupakan sebuah kolom yang menyimpan link akun profile YouTube yang berkomentar pada video tersebut.
9. Kolom "published_date" merupakan kolom yang menyimpan tanggal dan waktu dari pembuatan teks komentar pertama kali (tanpa adanya perubahan isi di dalam komentar yang dilakukan oleh user/penonton.
10. Kolom "updated_data" merupakan kolom yang menyimpan data tanggal dan waktu dari perubahan isi teks komentar yang hanya dapat dilakukan oleh user yang memiliki teks komentar tersebut.

In [11]:
"""
Menampilkan jumlah data yang hilang (missing value) yang dimiliki oleh
masing-masing kolom pada DataFrame "third_video_debate_df"
"""
third_video_debate_df.isnull().sum()

video_id          0
channel_id        0
comment_id        0
author            0
text_comment      0
like_count        0
total_reply       0
channel_url       0
published_date    0
updated_date      0
dtype: int64

In [12]:
# Menampilkan seluruh tipe data yang dimiliki oleh masing-masing kolom dari variabel DataFrame "third_video_debate_df"
third_video_debate_df.dtypes

video_id          object
channel_id        object
comment_id        object
author            object
text_comment      object
like_count         int64
total_reply        int64
channel_url       object
published_date    object
updated_date      object
dtype: object

Hasil pada code script diatas menunjukkan bahwasanya variabel DataFrame "third_video_youtube_df" hanya memiliki 2 tipe data saja yaitu tipe data object yang dapat diasumsikan sebagai tipe data string karena nilai yang terkandung di dalam string adalah data-data seperti teks, simbol-simbol/karakter spesial, dan tipe data integer (int yang merupakan tipe data untuk angka bilangan bulat seperti 18, 197, 41, 7, dll.

Selain itu jika diamati dan diperhatikan kembali, pada kolom "published_date" dan "updated_date" juga memiliki tipe data string/object. Padahal seharusnya jika data tersebut merupakan data yang menunjukkan tanggal dan waktu dari suatu kejadian, maka data tersebut seharusnya disimpan pada tipe data datetime. Maka dari itu karena terdapat ketidakcocokan antara data yang disimpan dengan tipe data, saya akan melakukan proses perubahan tipe data yang dimiliki oleh kolom "published_date" dan "updated_date" dari string/object menjadi tipe data datetime.

In [13]:
"""
Mengubah tipe data sekaligus format data yang dimiliki oleh kolom
"published_date" dan "updated_kolom" dari tipe data object/string menjadi tipe data datetime
"""
def change_data_type_into_datetime(third_video_debate_df):
    third_video_debate_df["published_date"] = pd.to_datetime(third_video_debate_df["published_date"],
                                                             format="%Y-%m-%d %H:%M:%S").dt.tz_convert(None)
    third_video_debate_df["updated_date"] = pd.to_datetime(third_video_debate_df["updated_date"],
                                                           format="%Y-%m-%d %H:%M:%S").dt.tz_convert(None)
    
    return change_data_type_into_datetime

change_data_type_into_datetime(third_video_debate_df)

third_video_debate_df.dtypes

video_id                  object
channel_id                object
comment_id                object
author                    object
text_comment              object
like_count                 int64
total_reply                int64
channel_url               object
published_date    datetime64[ns]
updated_date      datetime64[ns]
dtype: object

In [14]:
"""
Menampilkan 19 data terbawah yang dimiliki oleh variabel DataFrame "third_video_debate_df" setelah tipe data
pada kolom "published_date" dan "updated_date" diubah dari Object/String menjadi Datetime
"""
third_video_debate_df.tail(19)

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
4481,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgyINRNx5wKIrf7ZZvJ4AaABAg,@EkaPutra-ej7jl,"Terlalu fakta 02, gk omon omon omon omon doang 😂",0,0,http://www.youtube.com/@EkaPutra-ej7jl,2024-01-07 16:33:17,2024-01-07 16:33:17
4482,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgwFdr4Ki52E6t9n_fF4AaABAg,@user-ec3od4jf5k,Tegas sama emosi beda kan ?,1,0,http://www.youtube.com/@user-ec3od4jf5k,2024-01-07 16:33:00,2024-01-07 16:33:00
4483,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxGfJcye2dPfR8rZwp4AaABAg,@bersatupastibisa4039,AKU SIH NOMER 2 KARENA KENAPA ADA PRABOWO DAN ...,5,0,http://www.youtube.com/@bersatupastibisa4039,2024-01-07 16:32:36,2024-01-07 16:32:36
4484,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgyjrfmMQ55cBz1JBO14AaABAg,@nayiskandi8305,Pokpnua kota ttp AMIN presiden cerdas punya et...,5,0,http://www.youtube.com/@nayiskandi8305,2024-01-07 16:32:24,2024-01-07 16:32:24
4485,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,Ugz0Q6QUwhdWirTVgJ94AaABAg,@yulviarini3625,Pak prabowo sehat selalu dan semoga dimudahkan...,11,0,http://www.youtube.com/@yulviarini3625,2024-01-07 16:32:17,2024-01-07 16:32:17
4486,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,Ugz0uI7OR9Lbk1n0ikd4AaABAg,@yudhidwi8125,Tetap prabowo✌️,2,0,http://www.youtube.com/@yudhidwi8125,2024-01-07 16:32:14,2024-01-07 16:32:14
4487,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgyPi8fpURdYKXT0LGh4AaABAg,@ivanrismawan54,"Gemoy nya udah luntur, ngambek ga mau salaman ...",9,0,http://www.youtube.com/@ivanrismawan54,2024-01-07 16:31:52,2024-01-07 16:31:52
4488,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgwZ1CDFZBn0o9C6LaV4AaABAg,@ugansopyan8143,Visi misi 01 adalah menyinggung,2,0,http://www.youtube.com/@ugansopyan8143,2024-01-07 16:31:51,2024-01-07 16:31:51
4489,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgzYOuOD8MRLIz5itad4AaABAg,@rizieqnasrullah5335,Suporter hanya membuat gaduh,2,0,http://www.youtube.com/@rizieqnasrullah5335,2024-01-07 16:31:45,2024-01-07 16:31:45
4490,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxBGQBYI6p6zVO7AhR4AaABAg,@yusufabdurrauf7429,Udahlah 1 putaran saja.. 1 saja yah.. kalau 2 ...,2,0,http://www.youtube.com/@yusufabdurrauf7429,2024-01-07 16:31:42,2024-01-07 16:31:42


In [15]:
# Menampilkan informasi-informasi yang terdapat di dalam DataFrame "third_video_debate_df"
third_video_debate_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4500 entries, 0 to 4499
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   video_id        4500 non-null   object        
 1   channel_id      4500 non-null   object        
 2   comment_id      4500 non-null   object        
 3   author          4500 non-null   object        
 4   text_comment    4500 non-null   object        
 5   like_count      4500 non-null   int64         
 6   total_reply     4500 non-null   int64         
 7   channel_url     4500 non-null   object        
 8   published_date  4500 non-null   datetime64[ns]
 9   updated_date    4500 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int64(2), object(6)
memory usage: 351.7+ KB


Berdasarkan output yang didapatkan dari fungsi "info()", kita dapat mengetahui beberapa informasi yang penting terkait variabel DataFrame "third_video_debate_df" diantaranya adalah sebagai berikut:

1. Variabel "third_video_debate_df" merupakan sebuah objek berupa DataFrame yang berisikan kumpulan data yang didalamnya terdapat baris dan kolom (dataset) dari hasil proses pengambilan data-data komentar dari video YouTube debat ketiga calon Presiden-Wakil Presiden Republik Indonesia yang diunggah/ditayangkan oleh channel YouTube Najwa Shihab.

2. Variabel DataFrame "third_video_debate_df" memiliki jumlah data/baris sebanyak 4.500 data yang terdiri dari teks komentar yang dikirimkan oleh penonton video tersebut, nama akun yang berkomentar, tanggal dan waktu dari komentar tersebut dibuat, dll. Selain itu, DataFrame "third_video_debate_df" memiliki 10 kolom yang diantaranya adalah kolom "video_id", "channel_id", "comment_id", "author", "text_comment", "like_count", "total_reply", "channel_url", "published_date" dan terakhir adalah kolom "updated_date".

3. Masing-masing kolom yang ada di dalam DataFrame "third_video_debate_df" tidak memiliki nilai NaN (Not a Number) atau nilai yang hilang/missing value sehingga dapat disimpulkan bahwasanya sepuluh kolom yang ada di dalam "third_video_debate_df", setiap barisnya memiliki seluruh elemen nilai data yang didapatkan melalui hasil proses scraping komentar pada video YouTube.

4. Pada variabel DataFrame "third_video_debate_df" terdapat 3 jenis tipe data yang berbeda. Tipe data yang pertama adalah tipe data Integer untuk setiap kolom yang memiliki nilai data bersifat yang angka atau numerik. Data numerik/data angka dibedakan menjadi 2 jenis bilangan angka yaitu bilangan bulat dan bilangan desimal. Angka bilangan bulat direpresentasikan sebagai tipe data Integer dan angka bilangan desimal direpresentasikan sebagai tipe data Float. Karena pada DataFrame "third_video_debate_df" hanya memiliki 2 kolom saja yang bertipe data Integer, yaitu kolom "like_count" dan "total_reply", di mana kedua kolom tersebut memiliki nilai angka bilangan bulat, maka kolom tersebut bertipe data Integer bukan Float. Tipe data yang kedua adalah tipe data Datetime dan hanya 2 kolom saja yang memiliki tipe data Datetime yaitu kolom "published_date" dan "updated_date". Tipe data yang ketiga yang dimiliki oleh variabel DataFrame "third_video_debate_df" adalah tipe data Object/String. tipe data Object/String adalah representasi dari nilai-nilai data teks, simbol-simbol maupun karakter spesial yang dimiliki oleh suatu kolom di dalam DataFrame. Secara jumlah, tipe data Object/String pada variabel DataFrame "third_video_debate_df" dimiliki oleh 6 kolom (terbanyak diantara tipe data Integer ataupun Datetime) yaitu kolom "video_id", "channel_id", "comment_id", "author", "text_comment" dan kolom "channel_url".

In [16]:
# Menampilkan jumlah data komentar yang terduplikasi pada variabel DataFrame "third_video_debate_df"
print("Mencari Jumlah Data Duplikat pada DataFrame: ")
print("Jumlah Data yang Dikategorikan sebagai Data Duplikat pada Variabel DataFrame 'third_video_debate_df' adalah",
      third_video_debate_df.duplicated().sum())

Mencari Jumlah Data Duplikat pada DataFrame: 
Jumlah Data yang Dikategorikan sebagai Data Duplikat pada Variabel DataFrame 'third_video_debate_df' adalah 0


In [17]:
"""
Mengubah urutan data yang dimiliki oleh variabel DataFrame "third_video_debate_df"
berdasarkan jumlah like terbanyak hingga jumlah like paling sedikit yang didapatkan/diterima oleh suatu teks komentar
diantara 4.500 data komentar pada video debat ketiga capres-cawapres Indonesia di channel YouTube Najwa Shihab
"""
third_video_debate_df = third_video_debate_df.sort_values("like_count", ascending = False)

third_video_debate_df.head(39)

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
4242,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,Ugx6mhUfDOUhd65fWyh4AaABAg,@udinlamidun9716,Siapa yg setuju 3 capres di undang bertiga di ...,3971,333,http://www.youtube.com/@udinlamidun9716,2024-01-07 17:03:53,2024-01-09 23:18:49
4347,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,Ugw1wHlLE405w38TGhx4AaABAg,@ameliaachtar1904,"Mudah2an pemilunya jujur, jadi sesuai pilihan ...",1396,54,http://www.youtube.com/@ameliaachtar1904,2024-01-07 16:47:46,2024-01-07 16:47:46
4221,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,Ugwru57KZMbtoy1Y-Wp4AaABAg,@MuhammadDermawanSusanto,Pak Anies sadar bahwa Pak Prabowo secara teori...,1203,130,http://www.youtube.com/@MuhammadDermawanSusanto,2024-01-07 17:07:29,2024-01-07 17:07:29
3143,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxrCbnzIEfsCua9aLZ4AaABAg,@idincelebez3554,Sangat setujuh sekali kalau mereka debat terbu...,985,32,http://www.youtube.com/@idincelebez3554,2024-01-07 21:49:21,2024-01-07 21:49:21
4155,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,Ugz511t5jjNh-dMbJux4AaABAg,@Sekarepe_deweke,Jujur saja sejak debat awal sampai sampai deba...,556,47,http://www.youtube.com/@Sekarepe_deweke,2024-01-07 17:18:30,2024-01-07 17:18:30
2004,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgyCTTzakp21i32wylN4AaABAg,@lukiabizar478,Ayo mata Najwa bedah semua isi kepala 3 capres...,550,17,http://www.youtube.com/@lukiabizar478,2024-01-08 06:24:10,2024-01-08 06:24:10
3146,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxKZjD-QTaKFcBohId4AaABAg,@bowshay2808,"Siapa saja boleh bertanya , setiap pemimpin ha...",500,46,http://www.youtube.com/@bowshay2808,2024-01-07 21:45:59,2024-01-07 21:45:59
3620,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgyYNNtGgN2vZAVW1g14AaABAg,@anaomi236,Saya menonton ini dari Finlandia dengan suhu -...,491,51,http://www.youtube.com/@anaomi236,2024-01-07 18:43:22,2024-01-07 18:43:22
3870,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgwYUC_MRp6NPULTGQN4AaABAg,@hafitisandono6508,tentang kerjasama selatan2 hanya jawabannya An...,485,22,http://www.youtube.com/@hafitisandono6508,2024-01-07 18:01:07,2024-01-07 18:01:07
4417,Sbjsg3AFx00,UCo8h2TY_uBkAVUIc14m_KCA,UgxFCpTaXIQXZdKP5T54AaABAg,@hannasorayana,Saya pendukung 01 AMIN tp sy akui 03 bagus mlm...,478,35,http://www.youtube.com/@hannasorayana,2024-01-07 16:39:28,2024-01-07 16:39:28


## 5. Export Variable DataFrame into Spreadsheet Dataset Format (Microsoft Excel)

In [18]:
"""
Menyimpan 4.500 data komentar dari hasil web scraping pada
video debat ketiga capres-cawapres yang di-upload oleh Channel YouTube Najwa Shihab
"""
third_video_debate_df.to_excel("Results of Data Exports from DataFrame/Export Comments Data from 3rd Debate Video.xlsx",
                               index = False, header=True)