## 1. Import Libraries for Scraping Data YouTube Comments and Create API based on Google YouTube Data API

In [1]:
"""
Meng-import library-library yang akan digunakan untuk mengambil data-data
komentar dari video YouTube dengan bantuan Google YouTube API
"""
import pandas as pd
from googleapiclient.discovery import build # Library & module yang dapat generate data-data atas suatu layanan dari Google

In [2]:
"""
Melakukan proses inisialisasi sumber daya atas objek dari sisi client yang akan digunakan untuk mengambil data-data
komentar dari suatu video YouTube tentang debat capres-cawapres menggunakan Google YouTube Data API v3
serta meletakkan kunci API yang telah didapatkan setelah melakukan proses pembuatan kunci API (API Key)
pada Credentials Google Cloud Platform
"""

"""
API_Service_Name dengan nilai "YouTube" merupakan sebuah request/permintaan
untuk dapat mengakses ke Google YouTube API yang berada di dalam Console dari Google Cloud Platform
"""
API_Service_Name = "youtube"

"""
API_Version dengan nilai "v3" berarti bahwasanya Google YouTube API yang akan digunakan
untuk mengambil data komentar dari video YouTube merupakan versi ketiga dari YouTube Data API
"""
API_Version = "v3"

"""
API_KEY merupakan fungsi untuk menampung hasil pembuatan credential untuk
kunci API (API Key) yang dibuat menggunakan Google YouTube Data API V3
"""
API_KEY = "AIzaSyAEA0OfmhGVO186BkPfDeqglHj6tHclS3Q"

# Menyimpan objek beserta API dari Google YouTube Data API di dalam variabel yang bernama "youtube_scrape_comment_objects"
youtube_scrape_comment_objects = build(API_Service_Name, API_Version, developerKey = API_KEY)

Berdasarkan code script diatas dilakukan proses inisialisasi API Key yang telah berhasil didapatkan melalui Google Cloud Platform dengan pilihan service adalah YouTube Data API v3. Maka dari itu nama service API yang digunakan ditulis dan disimpan di dalam variabel bernama "API_Service_Name" yaitu "youtube" dan versi API yang digunakan oleh nama service API (youtube) yang digunakan adalah versi ketiga (v3) dari Youtube Data API.

Untuk mendapatkan kunci API maka saya harus masuk ke dalam service YouTube Data API v3 dan mengaktifkan service tersebut dengan mengaktifkan (enable) service tersebut dan memiliki opsi CREDENTIALS karena API Key berada di dalam opsi tersebut. Jadi dapat disimpulkan kalau untuk membuat API Key agar dapat mengambil data dari YouTube, maka harus terlebih dahulu mengaktifkan service YouTube Data API v3 dan kemudian membuat API Key di dalam opsi CREDENTIALS dan meng-copy API tersebut untuk diletakkan di dalam variabel. Pada code script diatas, API yang berhasil didapatkan disimpan di dalam variabel yang bernama "API_KEY".

Di samping itu, module build pada library googleapiclient.discovery merupakan sebuah Software Development Kits (SDKs) yang telah disediakan oleh Google agar para developer/scientist dapat mengakses semua layanan berbasis Google melalui API. Jadi dapat disimpulkan bahwasanya dengan mendefinisikan nama layanan Google yang akan digunakan dan API yang telah didapatkan berdasarkan layanan yang digunakan, maka setiap orang dapat mengakses dan mendapatkan data-data general/umum yang berada di layanan Google. Seperti pada penelitian kali ini yang sumber datanya merupakan data komentar dari suatu video YouTube.

## 2. Request Access to Retrieve Main Comment Data Objects on YouTube Video based on API Key, API Service Name, and API Version

In [3]:
"""
Melakukan proses permintaan untuk dapat mengambil objek/item atas data-data komentar utama dari suatu video
YouTube berdasarkan identifikasi unik dari video tersebut yaitu Video ID
tentang debat pertama capres-cawapres 2024 dari Channel Youtube Najwa Shihab dengan mengambil
jumlah maksimal data komentar yang dapat diambil menggunakan Google Youtube Data API v3 yaitu hanya sebanyak 100 data saja
"""

video_youtube_request = youtube_scrape_comment_objects.commentThreads().list(
    order = "time", # Tanggal dan waktu komentar yang di-request untuk diambil adalah komentar terbaru yang dibuat oleh user
    part = "snippet", # Nilai snippet merupakan objek list yang berisikan detail-detail yang membentuk komentar utama
    videoId = "gUz_MgdwKg0", # Sebuah ID video debat capres-cawapres pertama yang di-upload oleh channel YouTube Najwa Shihab
    maxResults = 100 # YouTube API hanya mengizinkan untuk mengambil maksimal 100 data komentar saja dari suatu video YouTube
)

"""
Membuat variabel bernama "video_youtube_response" yang berfungsi untuk menjalankan/mengeksekusi
perintah pengambilan data video komentar YouTube dengan ID video gUz_MgdwKg0 berdasarkan jumlah
maksimal data komentar yang dapat diambil dengan Google YouTube Data API yaitu hanya 100 komentar
"""
video_youtube_response = video_youtube_request.execute() 

Berikut adalah penjelasan mengenai code script diatas berikut ini:

1. youtube_scrape_comment_objects merupakan sebuah nama variabel yang berisikan parameter-parameter beserta nilai yang berfungsi sebagai Google Data API untuk dapat mengakses data-data YouTube seperti video, komentar pada suatu video, playlist, dll, dengan memanfaatkan kode kunci API (API KEY) yang didapatkan melalui Google Cloud Platform dengan cara membuat credentials API di dalam service YouTube Data API v3. 

2. commentThread merupakan suatu sumber daya dari YouTube Data API yang berisikan informasi-informasi tentang data komentar utama dari suatu video dan komentar yang menanggapi komentar utama dari video tersebut. Komentar balasan/komentar tanggapan ini bersifat opsional dan tidak banyak suatu komentar ditanggapi/direspon dengan komentar lainnya.

3. Parameter "part" bertujuan untuk mendapatkan satu/lebih dari satu daftar (list) properti yang dipisahkan oleh tanda koma (comma-separated list) dari sumber daya YouTube Data API yakni commentThread yang dipisahkan oleh tanda koma yang akan diikutsertakan dalam merespon YouTube Data API. Sedangkan "snippet" pada parameter "part" bertujuan untuk mendapatkan objek elemen yang berisikan detail dasar yang membentuk struktur/rangkaian komentar utama sebagai bentuk respon API YouTube terhadap permintaan dalam pengambilan data dari suatu video YouTube berdasarkan video id yang didefinisikan pada parameter "videoId".

4. Parameter videoId merupakan sebuah ID unik dari video yang konten dari video tersebut ingin diambil dan dilakukan proses penelitian (data scraping). Pada penelitian kali ini, saya ingin menggunakan video tentang debat capres-cawapres pertama tahun 2024 dari channel YouTube Najwa Shihab dan video tersebut memiliki alamat URL yakni https://www.youtube.com/watch?v=gUz_MgdwKg0. Jadi ID video "gUz_MgdwKg0" diambil dari URL pada video tersebut yang letaknya setelah **v=**.

5. Parameter maxResult merupakan sebuah parameter yang secara spesifik bertujuan untuk mengambil jumlah data komentar dari suatu konten video YouTube berdasarkan ID unik dari video tetapi jumlah data/jumlah komentar yang dapat diambil dari video tersebut hanya 100 data saja, tidak bisa lebih dari 100 data. Sehingga karena penelitian kali ini akan mengambil lebih dari 100 data, maka diperlukan tahapan pengulangan supaya komentar yang dapat diambil lebih dari 100 data. tahapan untuk melakukan proses pengambilan data lebih dari 100 data akan dilakukan setelah berhasil mendapatkan 100 data komentar (berdasarkan jumlah maksimal data komentar yang dapat diambil menggunakan API Google YouTube).

In [4]:
"""
Menampilkan objek-objek item yang berhasil diambil pada
variabel YouTube video response setelah permintaan objek berhasil dijalankan
"""
print(video_youtube_response)

{'kind': 'youtube#commentThreadListResponse', 'etag': 'bZenOqOmmuqBzr3W2bpM6uaAIFA', 'nextPageToken': 'Z2V0X25ld2VzdF9maXJzdC0tQ2dnSWdBUVZGN2ZST0JJRkNJZ2dHQUFTQlFpSklCZ0FFZ1VJaHlBWUFCSUZDS2dnR0FBU0JRaWRJQmdCR0FBaURnb01DTW1pdXF3R0VMaVQ0cnND', 'pageInfo': {'totalResults': 100, 'resultsPerPage': 100}, 'items': [{'kind': 'youtube#commentThread', 'etag': 'LtAoj3olx9rgvBi6YsYAHRP_jnM', 'id': 'Ugx8GXSEXY0Bqz0zUUt4AaABAg', 'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA', 'videoId': 'gUz_MgdwKg0', 'topLevelComment': {'kind': 'youtube#comment', 'etag': 'wCF6RS0nU7hIV2C8HoLNjvJyy8U', 'id': 'Ugx8GXSEXY0Bqz0zUUt4AaABAg', 'snippet': {'channelId': 'UCo8h2TY_uBkAVUIc14m_KCA', 'videoId': 'gUz_MgdwKg0', 'textDisplay': 'Padahal baru bisa lihat debat capres sekarang, entah kenapa hati ini mulai awal yakin memilih pak Anies ❤', 'textOriginal': 'Padahal baru bisa lihat debat capres sekarang, entah kenapa hati ini mulai awal yakin memilih pak Anies ❤', 'authorDisplayName': '@nanahusna1197', 'authorProfil

## 3. Define Main Items (Video ID, Total of Reply, Comment ID, Text of Comment, Total of Comment Like, Name of Account Commenting, etc) from Video Comments based on ID Video YouTube

In [5]:
"""
Mendefinisikan item/elemen utama yang membentuk komentar utama
berdasarkan ID video Youtube yang sebelumnya telah didefinisikan pada commentThreads()
dan mengambil 100 data/item yang membentuk komentar teratas/komentar paling utama pada video
debat capres pertama tahun 2024 dari channel Youtube Najwa Shihab
"""

# Mendefinisikan sebuah list kosong (empty list) untuk tempat menampung data-data hasil scraping dari video YouTube
list_first_video_debate_najwashihab = [] # Sebuah empty list yang bernama "list_first_video_debate_najwashihab"

for item in video_youtube_response["items"]:
    video_id = item["snippet"]["videoId"] # Mendapatkan ID video tentang debat capres pertama di channel YouTube Najwa Shihab
    total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan (reply) dari komentar utama
    comment_id = item["id"] # Menapatkan ID komentar yang bersifat unik untuk mengidentifikasi setiap komentar pada video
    
    """
    Mendapatkan objek utama yang menjadi struktur pembentuk atas komentar utama
    berdasarkan video ID yang sebelumnya telah diinisialisasikan.
    Jenis objek yang menjadi struktur/rangkaian detail atas komentar paling atas/utama seperti channel ID,
    teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
    nama akun user yang berkomentar di dalam video tersebut, dll
    """
    comment_items = item["snippet"]["topLevelComment"]["snippet"]
    
    """
    Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_first_video_debate_najwashihab" yang akan
    berisikan item-item utama seperti ID video, ID Channel yang mem-publish video tersebut, nama akun user yang berkomentar
    beserta teks komentar, tanggal pembuatan komentar untuk video tersebut, jumlah total like sebagai bentuk respon setuju
    pada komentar yang telah dibuat oleh user, dll.    
    
    Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "commend_id" dan "comment_items"
    termasuk ke dalam elemen utama dan akan dimasukkan ke dalam variabel list kosong (empty list) yaitu
    "list_first_video_debate_najwashihab" yang nantinya list yang bernama "list_first_video_debate_najwashihab"
    akan menjadi struktur/pondasi dasar dari pembentuk kolom/atribut di dalam Pandas DataFrame
    """
    list_first_video_debate_najwashihab.append([
        video_id, # Memasukkan ID video yang sebelumnya telah diinisialisasikan pada variabel list kosong
        comment_items["channelId"], # Mendapatkan & memasukkan ID channel YouTube yang memposting video tersebut
        comment_id, # Memasukkan ID komentar yang bersifat unik sebagai identifikasi dari masing-masing teks komentar
        comment_items["authorDisplayName"], # Mendapatkan & memasukkan nama-nama akun YouTube/user yang berkomentar
        comment_items["textDisplay"], # Memasukkan teks komentar paling atas (komentar paling utama) ke dalam variabel list
        comment_items["likeCount"], # Memasukkan jumlah total like sebagai bentuk respon setuju atas komentar utama
        total_reply_count, # Memasukkan jumlah total reply/balasan terhadap komentar utama
        comment_items["authorChannelUrl"], # Mendapatkan & memasukkan URL channel YouTube dari setiap user yang berkomentar
        comment_items["publishedAt"], # Mendapatkan & memasukkan tanggal dan waktu saat pertama kalinya komentar dibuat
        comment_items["updatedAt"] # Mendapatkan tanggal dan waktu saat terakhir kali teks komentar diubah oleh user
    ])
    
# Menampilkan jumlah data yang dimiliki oleh "list_first_video_debate_najwashihab" sebelum dilakukan proses pengulangan    
print("Jumlah Data yang Saat ini Dimiliki oleh List 'list_first_video_debate_najwashihab' sebelum Proses Pengulangan adalah",
      len(list_first_video_debate_najwashihab))

Jumlah Data yang Saat ini Dimiliki oleh List 'list_first_video_debate_najwashihab' sebelum Proses Pengulangan adalah 100


Jika hanya menggunakan code script diatas saja maka data komentar yang didapatkan hanya berjumlah 100 data saja karena jumlah maksimal untuk mengambil data komentar dari suatu video YouTube dengan Google YouTube API dibatasi hanya 100 data. Maka dari itu karena menurut saya 100 data sangat tidak cukup untuk penelitian kali ini, maka saya akan mengambil data komentar dari video debat capres-cawapres pertama dari YouTube channel Najwa Shihab sebanyak 6.500 data.

Untuk mengatasi permasalahan ini, saya akan melakukan proses looping/pengulangan permintaan dalam mengambil data komentar untuk mendapatkan jumlah data komentar lebih dari 100 data. Jumlah data yang diinginkan adalah 6.500 data sehingga permintaan yang code script dibawah ini akan mengulang permintaan hingga 6.500 data komentar berhasil diambil dari video debat capres-cawapres pertama dari YouTube channel Najwa Shihab.

Sebagai catatan dan pengingat bahwasanya saat ini list "list_first_video_debate_najwashihab" baru memiliki 100 data komentar saja dan akan dilakukan proses pengulangan hingga variabel list "list_first_video_debate_najwashihab" memiliki 6.500 data komentar. Proses pengambilan data komentar hingga jumlah datanya sesuai yang diinginkan akan menggunakan proses pengulangan hingga kondisi yang diinginkan (jumlah data komentar yang diambil berjumlah 6.500 data) berhasil terpenuhi. Agar dapat mengambil data komentar sebanyak 6.500 data, saya akan menerapkan TokenPagination.

TokenPagination merupakan cara untuk mengambil data-data yang berada di halaman selanjutnya (data yang bukan berada di halaman utama/halaman paling awal dari suatu konten/informasi). TokenPagination yang akan digunakan di dalam penelitian kali ini memiliki tujuan untuk mendapatkan data-data komentar seperti teks komentar, data nama akun/user yang berkomentar, tanggal pembuatan komentar, dsb, yang berada di halaman-halaman berikutnya atau halaman setelah 100 data paling awal (data yang menjadi batasan maksimal/limit yang dapat diambil menggunakan YouTube Data API v3).

In [6]:
"""
Mengambil data komentar yang berada di halaman-halaman berikutnya
(data video komentar yang diambil tidak termasuk ke dalam 100 data yang sebelumnya telah berhasil di-scrapping)
"""

total_data_scraping = 6500 # Jumlah data komentar yang ingin diambil dari video ID gUz_MgdwKg0

while len(list_first_video_debate_najwashihab) < total_data_scraping:
    """
    Mendapatkan data-data komentar pada video YouTube debat pertama calon
    Presiden Indonesia dari channel YouTube Najwa Shihab yang berada di halaman
    berikutnya (data-data setelah baris ke-100/indeks baris data ke-99)
    
    Di samping itu, "video_youtube_response" merupakan variabel yang menjalankan
    perintah untuk mendapatkan 100 data komentar dari video ID yang telah didefinisikan pada commentThreads.
    Itu berarti jumlah data yang akan diambil pada halaman-halaman berikutnya berjumlah 100 data komentar
    """
    try:
        nextPageToken = video_youtube_response["nextPageToken"]
    except KeyError:
        break
    nextPageToken = video_youtube_response["nextPageToken"]
    
    
    """
    Melakukan proses pengambilan objek kembali menggunakan fungsi "commentThreads()" atas data-data
    komentar utama dari suatu video YouTube berdasarkan identifikasi unik dari video tersebut yaitu ID Video yang membahas
    tentang debat capres-cawapres 2024. Namun yang membedakan antara "commentThreads()" sebelumnya dengan saat ini
    adalah jika "commentThreads()" sebelumnya hanya dapat mengambil jumlah maksimal data komentar yang ditentukan oleh
    Google YouTube Data API. Walaupun kita menginginkan lebih dari 100 data sehingga kita mendefinisikan nilai pada
    parameter "maxResults" yakni 1500/10000 data komentar tetapi hasil akhirnya tidak berpengaruh terhadap jumlah data
    yang berhasil diambil dengan teknik data scraping pada video YouTube
    
    Maka dari itu dengan menggunakan parameter baru yang terdapat di dalam "commentThreads()" yaitu parameter "pageToken"
    dengan nilai yakni nextPageToken, proses pengambilan data komentar lebih dari 100 sangat memungkinkan untuk dilakukan
    sebab nilai nextPageToken akan melakukan proses identifikasi/mencari dan mengambil data
    komentar yang berada di halaman berikutnya dari hasil komentar yang dapat diambil
    (hasil komentar yang dapat diambil yakni hanya 100 data saja sesuai dengan jumlah maksimal yang dimiliki oleh parameter
    maxResults di dalam Google YouTube Data API) sampai kondisi 6.500 data berhasil terpenuhi (melakukan proses pengulangan)
    """
    nextRequest = youtube_scrape_comment_objects.commentThreads().list(
        order = "time", # Permintaan untuk mendapatkan tanggal dan waktu komentar paling terbaru dari video
        part = "snippet", # snippet pada parameter part menyimpan objek detail komentar utama dalam list
        videoId = "gUz_MgdwKg0", # Sebuah ID video capres-cawapres pertama yang di-upload oleh channel YouTube Najwa Shihab
        #maxResults = 6500, # Jumlah data yang ingin diambil setelah 100 data sebelumnya berhasil diambil
        pageToken = nextPageToken # Data selanjutnya akan diambil dari halaman-halaman selain halaman paling awal dari video
    )
    
    """
    Menjalankan proses permintaan untuk dapat mengambil data-data komentar yang berada
    di halaman-halaman berikutnya (selain 100 data komentar yang telah berhasil diambil) dari video
    debat capres-cawapres kedua yang di-upload oleh Channel YouTube Najwa Shihab yang memiliki ID video yaitu gUz_MgdwKg0
    """
    video_youtube_response = nextRequest.execute()
    
    
    for item in video_youtube_response["items"]:
        video_id = item["snippet"]["videoId"] # Mendapatkan ID video yang bertema debat capres di channel YouTube Najwa Shihab
        total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan (reply) dari komentar utama
        comment_id = item["id"] # Menapatkan ID komentar yang bersifat unik untuk mengidentifikasi setiap komentar pada video
    
        """
        Mendapatkan objek utama yang menjadi struktur pembentuk/rangkaian objek
        detail atas komentar utama berdasarkan video ID yang sebelumnya telah diinisialisasikan
        Jenis objek yang menjadi struktur/rangkaian detail atas komentar paling atas/utama seperti channel ID,
        teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
        nama akun user yang berkomentar di dalam video tersebut, dll
        """
        comment_items = item["snippet"]["topLevelComment"]["snippet"]
    
        """
        Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_first_video_debate_najwashihab" yang akan
        berisikan item-item utama seperti ID video, ID Channel yang mem-publish video tersebut, nama akun user yang berkomentar
        beserta teks komentar, tanggal pembuatan komentar untuk video tersebut, jumlah total like sebagai bentuk respon setuju
        pada komentar yang telah dibuat oleh user, dll.    

        Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "comment_id" dan "comment_items"
        termasuk ke dalam elemen utama dan akan dimasukkan ke dalam variabel
        list kosong (empty list) yang bernama "list_first_video_debate_najwashihab" yang nantinya list yang
        bernama "list_first_video_debate_najwashihab" akan menjadi struktur kolom/atribut dari Pandas DataFrame
        """
        list_first_video_debate_najwashihab.append([
            video_id, # Memasukkan ID video yang sebelumnya telah diinisialisasikan pada variabel list kosong
            comment_items["channelId"], # Mendapatkan & memasukkan ID channel yang memposting video tersebut
            comment_id, # Memasukkan ID komentar yang bersifat unik sebagai identifikasi dari masing-masing teks komentar
            comment_items["authorDisplayName"], # Mendapatkan & memasukkan nama-nama akun YouTube/user yang berkomentar
            comment_items["textDisplay"], # Memasukkan teks komentar paling atas (komentar paling utama) ke dalam variabel list
            comment_items["likeCount"], # Memasukkan jumlah total like sebagai bentuk respon setuju atas komentar utama
            total_reply_count, # Memasukkan jumlah total reply/balasan terhadap komentar utama
            comment_items["authorChannelUrl"], # Mendapatkan & memasukkan URL channel YouTube dari setiap user yang berkomentar
            comment_items["publishedAt"], # Mendapatkan & memasukkan tanggal dan waktu saat pertama kalinya komentar dibuat
            comment_items["updatedAt"] # Mendapatkan tanggal dan waktu saat terakhir kali teks komentar diubah oleh user
        ])
        
# Menampilkan jumlah data yang dimiliki oleh "list_first_video_debate_najwashihab" setelah dilakukan proses pengulangan 
print("Jumlah Data yang Saat ini Dimiliki oleh List 'list_first_video_debate_najwashihab' setelah Proses Pengulangan adalah",
      len(list_first_video_debate_najwashihab))

Jumlah Data yang Saat ini Dimiliki oleh List 'list_first_video_debate_najwashihab' setelah Proses Pengulangan adalah 6500


Berdasarkan hasil output pada script code diatas, dapat diketahui bahwa proses pengambilan 6.500 data komentar dari sebuah video tentang debat calon Presiden Indonesia tahun 2024 dari channel YouTube Najwa Shihab telah berhasil dilakukan dan seluruh baris data tersebut disimpan di dalam list yang bernama "list_first_video_debate_najwashihab". Untuk saat ini seluruh baris data (termasuk teks komentar) yang dikirimkan oleh para penonton video tersebut masih bersifat array 2 dimensi. Maka dari itu proses selanjutnya adalah menjadikan data-data yang tersimpan di dalam list array menjadi sebuah DataFrame pandas sehingga akan dapat memudahkan proses analisis selanjutnya. Tetapi sebelum menjadikan "list_first_video_debate_najwashihab" menjadi sebuah DataFrame, saya akan menampilkan beberapa hasil data yang telah berhasil diambil dari video YouTube debat pertama calon Presiden Republik Indonesia tahun 2024 dari channel YouTube Najwa Shihab yang berada di URL berikut:

https://www.youtube.com/watch?v=gUz_MgdwKg0

In [7]:
"""
Menampilkan hasil dari proses pengambilan data komentar dari video debat
pertama capres-cawapres 2024 yang bersumber dari channel YouTube Najwa Shihab
yang disimpan di dalam list "list_first_video_debate_najwashihab" sebanyak 8 komentar
"""
list_first_video_debate_najwashihab[:8]

[['gUz_MgdwKg0',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'Ugx8GXSEXY0Bqz0zUUt4AaABAg',
  '@nanahusna1197',
  'Padahal baru bisa lihat debat capres sekarang, entah kenapa hati ini mulai awal yakin memilih pak Anies ❤',
  0,
  0,
  'http://www.youtube.com/@nanahusna1197',
  '2024-04-17T12:57:02Z',
  '2024-04-17T12:57:02Z'],
 ['gUz_MgdwKg0',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'Ugy-_2_SwGgghOZFHWN4AaABAg',
  '@user-qf9nw7xo8g',
  'Saya kesini lagi',
  1,
  0,
  'http://www.youtube.com/@user-qf9nw7xo8g',
  '2024-03-09T02:42:22Z',
  '2024-03-09T02:42:22Z'],
 ['gUz_MgdwKg0',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'UgwlSU3SqsYWcJ7Q36t4AaABAg',
  '@user-8154',
  'Lagi nyari ketika statement Bung Maman viral di SHORT &quot;Pak Prabowo bukan Superman......&quot;',
  0,
  0,
  'http://www.youtube.com/@user-8154',
  '2024-03-07T15:17:25Z',
  '2024-03-07T15:17:25Z'],
 ['gUz_MgdwKg0',
  'UCo8h2TY_uBkAVUIc14m_KCA',
  'UgyiBXCeEd1QrYN6Lvd4AaABAg',
  '@fasmaulmursolina9902',
  'ronde 2 mana ya',
  0,
  0,
  'http://www.y

In [8]:
"""
Menjadikan data-data dari setiap objek item yang tersimpan di dalam list "list_first_video_debate_najwashihab"
seperti video id, channel id, comment_id, nama user yang berkomentar beserta teks komentarnya,
jumlah likes dan total balasan/reply untuk suatu teks komentar,
tanggal dibuat dan tanggal perubahan atas suatu teks komentar dan URL channel/akun YouTube user yang berkomentar pada video
menjadi sebuah tipe data DataFrame dan disimpan di dalam sebuah variabel DataFrame bernama "first_video_debate_df"
"""
first_video_debate_df = pd.DataFrame(list_first_video_debate_najwashihab,
                                     columns=["video_id", "channel_id", "comment_id", "author",
                                              "text_comment", "like_count", "total_reply",
                                              "channel_url", "published_date", "updated_date"])

first_video_debate_df.head(8) # Menampilkan 8 data teratas dari variabel DataFrame "first_video_debate_df"

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
0,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugx8GXSEXY0Bqz0zUUt4AaABAg,@nanahusna1197,"Padahal baru bisa lihat debat capres sekarang,...",0,0,http://www.youtube.com/@nanahusna1197,2024-04-17T12:57:02Z,2024-04-17T12:57:02Z
1,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugy-_2_SwGgghOZFHWN4AaABAg,@user-qf9nw7xo8g,Saya kesini lagi,1,0,http://www.youtube.com/@user-qf9nw7xo8g,2024-03-09T02:42:22Z,2024-03-09T02:42:22Z
2,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgwlSU3SqsYWcJ7Q36t4AaABAg,@user-8154,Lagi nyari ketika statement Bung Maman viral d...,0,0,http://www.youtube.com/@user-8154,2024-03-07T15:17:25Z,2024-03-07T15:17:25Z
3,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgyiBXCeEd1QrYN6Lvd4AaABAg,@fasmaulmursolina9902,ronde 2 mana ya,0,0,http://www.youtube.com/@fasmaulmursolina9902,2024-03-03T14:01:17Z,2024-03-03T14:01:17Z
4,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugz_-9zRGd4pfQnSZRN4AaABAg,@bobamochi2679,Bismillah Anies Baswedan. Salam perubahan!,0,0,http://www.youtube.com/@bobamochi2679,2024-02-23T21:13:45Z,2024-02-23T21:13:45Z
5,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgzyDbYdQzNTHIp7Nsd4AaABAg,@muhammadhasan3622,Kok bisa si orang orang-orang pada dukung prabowo,1,0,http://www.youtube.com/@muhammadhasan3622,2024-02-18T12:55:19Z,2024-02-18T12:55:19Z
6,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgxC2HQYbEXdjwUx-wJ4AaABAg,@aeyshamy457,pas 02 ngomong di potong mulu 😅,0,0,http://www.youtube.com/@aeyshamy457,2024-02-16T15:58:47Z,2024-02-16T15:58:47Z
7,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgzGgTHA9rVeKWAimjp4AaABAg,@RageboySaputra,Enak banget ya ngomong harus ada pendekatan se...,3,2,http://www.youtube.com/@RageboySaputra,2024-02-15T23:36:35Z,2024-02-15T23:36:35Z


## 4. Exploratory Dimension of DataFrame using Pandas Library

In [9]:
# Menampilkan nama-nama kolom yang dimiliki oleh variabel DataFrame "first_video_debate_df"
first_video_debate_df.columns

Index(['video_id', 'channel_id', 'comment_id', 'author', 'text_comment',
       'like_count', 'total_reply', 'channel_url', 'published_date',
       'updated_date'],
      dtype='object')

In [10]:
# Menampilkan jumlah data dan jumlah kolom yang saat ini dimiliki oleh DataFrame dari hasil proses scraping pada video YouTube
first_video_debate_df.shape

(6500, 10)

Berdasarkan hasil tersebut dapat diketahui bahwa proses pengambilan data komentar sebanyak 6.500 komentar telah berhasil dilakukan dan 6.500 komentar tersebut disimpan di dalam 10 kolom yang saat ini dimiliki oleh variabel DataFrame "first_video_debate_df". Sepuluh nama kolom yang dimiliki oleh variabel DataFrame "first_video_debate_df" yang menjadi tempat tersimpannya 6.500 data diantaranya adalah sebagai berikut:

1. Kolom "video_id" yang menyimpan identitas unik suatu konten video YouTube.
2. Kolom "channel_id" yang merupakan identitas unik suatu channel YouTube yang meng-upload konten video. Pada penelitian kali ini karena nilai pada kolom "channel_id" adalah UCo8h2TY_uBkAVUIc14m_KCA maka dapat disimpulkan bahwa nilai unik tersebut menjadi representasi atas nama channel dari pemilik video ID yang tersimpan di dalam kolom "video_id" yakni Najwa Shihab channel.
3. Kolom "comment_id" merupakan sebuah kolom yang menyimpan identitas unik berupa ID dari masing-masing teks komentar yang ada di dalam video id.
4. Kolom "author" merupakan kolom yang menyimpan nilai nama-nama user/nama akun YouTube yang berkomentar pada video tersebut. Sebagai contoh pada indeks data ke-6 (atau pada baris data ketujuh), nama akun @aeyshamy457 telah mengirimkan pendapatnya yang bersifat teks komentar pada video debat capres pertama yang di-upload oleh channel YouTube Najwa Shihab.
5. Kolom "text_comment" merupakan kolom yang menyimpan setiap teks komentar yang telah dibuat oleh masing-masing penonton pada video tersebut.
6. Kolom "like_count" merupakan kolom yang menyimpan jumlah like (suka/setuju) sebagai bentuk respon setuju atas komentar utama.
7. Kolom "total_reply" merupakan kolom yang menyimpan jumlah balasan (reply) sebagai bentuk respon untuk memperkuat pendapat komentar utama atau sebagai bentuk ketidaksetujuan atas komentar utama sehingga user yang tidak setuju tersebut mengirimkan teks komentar lainnya.
8. Kolom "channel_url" merupakan sebuah kolom yang menyimpan link akun profile YouTube yang berkomentar pada video tersebut. Sebagai contoh pada indeks data ke-5 (atau pada baris data keenam), user dengan nama akun YouTube yakni @muhammadhasan3622 memiliki link profile yang dapat dikunjungi melalui link http://www.youtube.com/@muhammadhasan3622.
9. Kolom "published_date" merupakan kolom yang menyimpan tanggal dan waktu dari pembuatan teks komentar pertama kali (tanpa adanya perubahan isi di dalam komentar yang dilakukan oleh user/penonton.
10. Kolom "updated_data" merupakan kolom yang menyimpan data tanggal dan waktu dari perubahan isi teks komentar yang hanya dapat dilakukan oleh user yang memiliki teks komentar tersebut.

In [11]:
# Menampilkan jumlah data yang hilang (missing value) dari masing-masing kolom pada DataFrame "first_video_debate_df"
first_video_debate_df.isnull().sum()

video_id          0
channel_id        0
comment_id        0
author            0
text_comment      0
like_count        0
total_reply       0
channel_url       0
published_date    0
updated_date      0
dtype: int64

In [12]:
# Menampilkan tipe data yang dimiliki oleh 10 kolom pada variabel DataFrame "first_video_debate_df"
first_video_debate_df.dtypes

video_id          object
channel_id        object
comment_id        object
author            object
text_comment      object
like_count         int64
total_reply        int64
channel_url       object
published_date    object
updated_date      object
dtype: object

Hasil pada code script diatas menunjukkan bahwasanya variabel DataFrame "first_video_youtube_df" hanya memiliki 2 tipe data saja yaitu tipe data object yang dapat diasumsikan sebagai tipe data string karena nilai yang terkandung di dalam string adalah data-data seperti teks, simbol-simbol/karakter spesial, dan tipe data integer (int yang merupakan tipe data untuk angka bilangan bulat seperti 18, 197, 41, 7, dll.

Selain itu jika diamati dan diperhatikan kembali, pada kolom "published_date" dan "updated_date" juga memiliki tipe data string/object. Padahal seharusnya jika data tersebut merupakan data yang menunjukkan tanggal dan waktu dari suatu kejadian maka data tersebut disimpan pada tipe data datetime. Maka dari itu karena terdapat ketidakcocokan antara data yang disimpan dengan tipe data, saya akan melakukan proses perubahan tipe data yang dimiliki oleh kolom "published_date" dan "updated_date" dari string/object menjadi tipe data datetime.

In [13]:
# Mengubah tipe data untuk kolom "published_date" dan "updated_date" dari tipe data Object/String menjadi datetime
def update_data_type_into_datetime(first_video_debate_df):
    first_video_debate_df["published_date"] = pd.to_datetime(first_video_debate_df["published_date"],
                                                            format = "%Y-%m-%d %H:%M:%S").dt.tz_convert(None)
    first_video_debate_df["updated_date"] = pd.to_datetime(first_video_debate_df["updated_date"],
                                                           format = "%Y-%m-%d %H:%M:%S").dt.tz_convert(None)
    
    return update_data_type_into_datetime

update_data_type_into_datetime(first_video_debate_df)

"""
# Menampilkan kembali apakah tipe data pada kolom "published_date" dan "updated_date"
telah berhasil diubah menjadi tipe data datetime dari tipe data sebelumnya yaitu Object (String)
"""
first_video_debate_df.dtypes

video_id                  object
channel_id                object
comment_id                object
author                    object
text_comment              object
like_count                 int64
total_reply                int64
channel_url               object
published_date    datetime64[ns]
updated_date      datetime64[ns]
dtype: object

In [14]:
"""
Menampilkan 27 data teratas yang dimiliki oleh variabel DataFrame "first_video_debate_df" setelah tipe data
pada kolom "published_date" dan "updated_date" diubah dari Object/String menjadi Datetime
"""
first_video_debate_df.head(27)

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
0,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugx8GXSEXY0Bqz0zUUt4AaABAg,@nanahusna1197,"Padahal baru bisa lihat debat capres sekarang,...",0,0,http://www.youtube.com/@nanahusna1197,2024-04-17 12:57:02,2024-04-17 12:57:02
1,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugy-_2_SwGgghOZFHWN4AaABAg,@user-qf9nw7xo8g,Saya kesini lagi,1,0,http://www.youtube.com/@user-qf9nw7xo8g,2024-03-09 02:42:22,2024-03-09 02:42:22
2,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgwlSU3SqsYWcJ7Q36t4AaABAg,@user-8154,Lagi nyari ketika statement Bung Maman viral d...,0,0,http://www.youtube.com/@user-8154,2024-03-07 15:17:25,2024-03-07 15:17:25
3,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgyiBXCeEd1QrYN6Lvd4AaABAg,@fasmaulmursolina9902,ronde 2 mana ya,0,0,http://www.youtube.com/@fasmaulmursolina9902,2024-03-03 14:01:17,2024-03-03 14:01:17
4,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugz_-9zRGd4pfQnSZRN4AaABAg,@bobamochi2679,Bismillah Anies Baswedan. Salam perubahan!,0,0,http://www.youtube.com/@bobamochi2679,2024-02-23 21:13:45,2024-02-23 21:13:45
5,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgzyDbYdQzNTHIp7Nsd4AaABAg,@muhammadhasan3622,Kok bisa si orang orang-orang pada dukung prabowo,1,0,http://www.youtube.com/@muhammadhasan3622,2024-02-18 12:55:19,2024-02-18 12:55:19
6,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgxC2HQYbEXdjwUx-wJ4AaABAg,@aeyshamy457,pas 02 ngomong di potong mulu 😅,0,0,http://www.youtube.com/@aeyshamy457,2024-02-16 15:58:47,2024-02-16 15:58:47
7,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgzGgTHA9rVeKWAimjp4AaABAg,@RageboySaputra,Enak banget ya ngomong harus ada pendekatan se...,3,2,http://www.youtube.com/@RageboySaputra,2024-02-15 23:36:35,2024-02-15 23:36:35
8,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugw9TMxKCcKqoM7r9WF4AaABAg,@user-jo3nc8bx5s,Memang selalu ada yang jago drama. Dan kenyata...,0,0,http://www.youtube.com/@user-jo3nc8bx5s,2024-02-15 21:07:34,2024-02-15 21:07:34
9,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgxvyO2LJM9zTk9IaSJ4AaABAg,@user-jo3nc8bx5s,Jujur saya disini Karena mencari statement mas...,1,0,http://www.youtube.com/@user-jo3nc8bx5s,2024-02-15 21:02:03,2024-02-15 21:02:03


In [15]:
# Menampilkan berbagai jenis informasi yang terdapat di dalam variabel DataFrame "first_debate_najwashihab_df"
first_video_debate_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6500 entries, 0 to 6499
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   video_id        6500 non-null   object        
 1   channel_id      6500 non-null   object        
 2   comment_id      6500 non-null   object        
 3   author          6500 non-null   object        
 4   text_comment    6500 non-null   object        
 5   like_count      6500 non-null   int64         
 6   total_reply     6500 non-null   int64         
 7   channel_url     6500 non-null   object        
 8   published_date  6500 non-null   datetime64[ns]
 9   updated_date    6500 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int64(2), object(6)
memory usage: 507.9+ KB


Berdasarkan output yang didapatkan dari fungsi "info()", kita dapat mengetahui beberapa informasi yang penting terkait variabel DataFrame "first_video_debate_df" diantaranya adalah sebagai berikut:

1. Variabel "first_video_debate_df" merupakan sebuah objek berupa DataFrame yang berisikan kumpulan data yang didalamnya terdapat baris dan kolom (dataset) dari hasil proses pengambilan data-data komentar dari video YouTube debat pertama calon Presiden-Wakil Presiden Republik Indonesia yang diunggah/ditayangkan oleh channel YouTube Najwa Shihab.


2. Variabel DataFrame "first_video_debate_df" memiliki jumlah data/baris sebanyak 6.500 data yang terdiri dari teks komentar yang dikirimkan oleh penonton video tersebut, nama akun yang berkomentar, tanggal dan waktu dari komentar tersebut dibuat, dll. Selain itu, DataFrame "first_video_debate_df" memiliki 10 kolom yang diantaranya adalah kolom "video_id", "channel_id", "comment_id", "author", "text_comment", "like_count", "total_reply", "channel_url", "published_date" dan terakhir adalah kolom "updated_date".


3. Masing-masing kolom yang ada di dalam DataFrame "first_video_debate_df" tidak memiliki nilai NaN (Not a Number) atau nilai yang hilang/missing value sehingga dapat disimpulkan bahwasanya sepuluh kolom yang ada di dalam "first_video_debate_df", setiap barisnya memiliki seluruh elemen nilai data yang didapatkan melalui hasil proses scraping komentar pada video YouTube.


4. Pada DataFrame "first_video_debate_youtube" terdapat 3 jenis tipe data yang berbeda. Tipe data yang pertama adalah tipe data Integer untuk setiap kolom yang memiliki nilai data bersifat yang angka atau numerik. Data numerik/data angka dibedakan menjadi 2 jenis bilangan angka yaitu bilangan bulat dan bilangan desimal. Angka bilangan bulat direpresentasikan sebagai tipe data Integer dan angka bilangan desimal direpresentasikan sebagai tipe data Float. Karena pada DataFrame "first_video_debate_df" hanya memiliki 2 kolom saja yang bertipe data Integer, yaitu kolom "like_count" dan "total_reply", di mana kedua kolom tersebut memiliki nilai angka bilangan bulat, maka kolom tersebut bertipe data Integer bukan Float. Tipe data yang kedua adalah tipe data Datetime dan hanya 2 kolom saja yang memiliki tipe data Datetime yaitu kolom "published_date" dan "updated_date". Tipe data yang ketiga yang dimiliki oleh variabel DataFrame "first_video_debate_df" adalah tipe data Object/String. tipe data Object/String adalah representasi dari nilai-nilai data teks, simbol-simbol maupun karakter spesial yang dimiliki oleh suatu kolom di dalam DataFrame. Secara jumlah, tipe data Object/String pada variabel DataFrame "first_video_debate_df" dimiliki oleh 6 kolom (terbanyak diantara tipe data Integer ataupun Datetime) yaitu kolom "video_id", "channel_id", "comment_id", "author", "text_comment" dan kolom "channel_url".

In [16]:
# Menampilkan jumlah data komentar yang terduplikasi pada variabel DataFrame "first_video_debate_df"
print("Mencari Jumlah Data Duplikat pada DataFrame: ")
print("Jumlah Data yang Dikategorikan sebagai Data Duplikat pada Variabel DataFrame 'first_video_debate_df' adalah",
      first_video_debate_df.duplicated().sum())

Mencari Jumlah Data Duplikat pada DataFrame: 
Jumlah Data yang Dikategorikan sebagai Data Duplikat pada Variabel DataFrame 'first_video_debate_df' adalah 0


In [17]:
"""
Mengubah urutan data yang dimiliki oleh variabel DataFrame "first_video_debate_df"
berdasarkan jumlah like terbanyak hingga jumlah like paling sedikit yang didapatkan/diterima oleh suatu teks komentar
diantara 6.500 data komentar pada video debat pertama capres-cawapres Indonesia di channel YouTube Najwa Shihab
"""
first_video_debate_df = first_video_debate_df.sort_values("like_count", ascending = False)

first_video_debate_df.head(28)

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
4631,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgxfMHgX25B2b3jkO4B4AaABAg,@zakishofi3442,"Saya bukan pendukung siapapun, tapi terimakasi...",3183,91,http://www.youtube.com/@zakishofi3442,2023-12-12 21:22:08,2023-12-12 21:22:08
6453,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgzKC1PcDJZk7TvQ_Qh4AaABAg,@UmmuAzizah2010,Maa syaa Allaah Pak Anies ❤❤❤❤ <br>Terima kasi...,1542,23,http://www.youtube.com/@UmmuAzizah2010,2023-12-12 16:27:52,2023-12-12 16:27:52
4671,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugxtzzc3zKJ8nY3Sg7F4AaABAg,@nursusilo7298,Tak terbantahkan Pak Anis cards yg paling siap...,1501,91,http://www.youtube.com/@nursusilo7298,2023-12-12 21:00:05,2023-12-12 21:00:05
5535,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugypp7MrvLOhoz9GGUV4AaABAg,@abisopiyan8628,Saya dan keluarga berkat debat pertama ini ras...,1452,54,http://www.youtube.com/@abisopiyan8628,2023-12-12 17:49:04,2023-12-12 17:49:04
3016,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgyzdGCruWPoVqZjMul4AaABAg,@chickennoodles1740,"🇲🇨 <a href=""https://www.youtube.com/watch?v=gU...",1131,49,http://www.youtube.com/@chickennoodles1740,2023-12-13 06:02:33,2023-12-13 06:02:33
3682,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgzwCUAh7kTbyV3l5TJ4AaABAg,@rizkyardianto984,Pujian untuk Anies Baswedan tidak hanya pada k...,846,22,http://www.youtube.com/@rizkyardianto984,2023-12-13 02:41:08,2023-12-13 02:41:08
4691,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgyiaczdlSQXVU7ENiF4AaABAg,@mobagamers9698,"Anies pintar ngomong, pintar kerja, pintar eks...",734,51,http://www.youtube.com/@mobagamers9698,2023-12-12 20:50:24,2023-12-12 20:50:24
4046,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,Ugz3Ja25EuCHn4fM-YR4AaABAg,@inisaifu772,"Luar biasa bgt sih Pak Anies, tenang dan santu...",622,27,http://www.youtube.com/@inisaifu772,2023-12-13 00:50:42,2023-12-13 00:50:42
5467,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgyJcr0RGkoHDQHzfK54AaABAg,@bangbedil8168,"Jatuh hati sama anies, cerdas dan lugas serta ...",543,7,http://www.youtube.com/@bangbedil8168,2023-12-12 17:59:00,2023-12-12 17:59:00
3681,gUz_MgdwKg0,UCo8h2TY_uBkAVUIc14m_KCA,UgzwjQRVhC1iRpJ871x4AaABAg,@rizkyardianto984,Anies Baswedan pantas mendapat pujian. Kepemim...,536,6,http://www.youtube.com/@rizkyardianto984,2023-12-13 02:41:17,2023-12-13 02:41:17


## 5. Export Variabel DataFrame into Spreadsheet Dataset Format (Microsoft Excel)

In [18]:
"""
Menyimpan 6.500 data komentar dari hasil web scraping pada video debat
capres-cawapres pertama yang di-upload oleh Channel YouTube Najwa Shihab
"""
first_video_debate_df.to_excel("Results of Data Exports from DataFrame/Export Comments Data from 1st Video Debate.xlsx",
                               index=False, header=True)

Berdasarkan hasil code script diatas maka dapat diketahui bahwa saya telah berhasil melakukan proses penyimpanan (export) 6.500 data komentar yang sebelumnya berhasil di-scraping (diambil) dari video debat capres-cawapres pertama yang di-upload oleh Channel Youtube Najwa Shihab dan seluruh data beserta kolom disimpan di dalam variabel DataFrame yang bernama "first_video_debate_df" ke dalam extension file yai Microsoft Excel yang memiliki format data yaitu .xlsx.