## 1. Import Libraries for Scraping Data YouTube Comments and Create API based on Google YouTube Data API

In [1]:
"""
Meng-import Pandas Library serta sebuah library dari Google Client untuk dapat
mengambil informasi-informasi/data komentar utama dari sebuah video
YouTube dengan API resource dari Google service yaitu YouTube Data API v3
"""
import pandas as pd
from googleapiclient.discovery import build

In [2]:
"""
Menginisialisasikan resource/sumber daya dari Google API Client untuk
melakukan proses pengambilan data/informasi (web scraping)
tentang komentar-komentar utama (bukan sebuah teks komentar yang bersifat balasan/reply) yang ada di video
debat pertama capres-cawapres Republik Indonesia tahun 2024 yang di-upload
oleh channel YouTube KOMPASTV menggunakan API dari service YouTube Data API v3 yang dimiliki oleh Google Cloud Platform Console
"""

"""
Nilai 'youtube' mengartikan bahwa API yang digunakan dalam penelitian ini berasal dari sebuah
layanan/service dari Google Cloud Platform yang bernama youtube atau YouTube Data API karena
data-data yang akan digunakan di dalam penelitian kali ini pada dasarnya merupakan data-data dari komentar utama
pada sebuah video debat capres-cawapres babak pertama yang di-upload oleh channel YouTube KOMPASTV
"""
API_Service_Name = "youtube"


"""
Nilai v3 yang tersimpan pada variabel API_Version_Name mengartikan jika jenis/tipe
versi API yang digunakan oleh nama service yakni youtube
(sesuai dengan nama service yang tersimpan pada variabel API_Service_Name)
merupakan versi ketiga dari sebuah layanan yang berada di dalam Google
Cloud Platform Console yaitu YouTube Data API v3
"""
API_Version_Name = "v3"


"""
Merupakan sebuah nilai/kunci API yang didapatkan dari proses generate API Key pada CREDENTIALS
di dalam service YouTube Data API v3 dari Google Cloud Platform Console agar dapat mengakses
objek/elemen-elemen yang tersimpan di dalam YouTube (playlist video, video komentar, channel YouTube, dll)
"""
API_Key = "AIzaSyC7xHw2L7e_bJ-zCRyOKxwB3Drje2f4zd4"


"""
Menyimpan 3 variabel objek resource yang telah didefinisikan seperti nama service API (API_Version_Name),
versi API Youtube yang digunakan (API_Version_Name) serta nilai kunci API (API_Key)
di dalam variabel bernama "youtube_scrape_comment_objects"
"""
youtube_scrape_comment_objects =build(API_Service_Name, API_Version_Name, developerKey = API_Key)

Code script diatas merupakan proses inisialisasi API Key yang telah berhasil didapatkan melalui Google Cloud Platform dengan pilihan service yakni YouTube Data API v3. Maka dari itu nama service API yang digunakan (API_Service_Name) ditulis sebagai "youtube" karena service/layanan Google pada Google Cloud Platform yang digunakan di dalam penelitian kali ini adalah sebuah video yang ter-upload pada media sosial YouTube dan versi API yang digunakan adalah versi ketiga dari API YouTube Data sehingga nilai dari variabel API_Version_Name yang disimpan adalah "v3".

Selain itu, untuk mendapatkan kunci API dari layanan yang bernama "youtube", pertama-tama saya harus masuk ke dalam service YouTube Data API v3 di dalam Google Cloud Platform dan mengaktifkan (enable) service tersebut dan memilih fitur/opsi CREDENTIALS karena API Key berada di dalam fitur tersebut. Jadi dapat disimpulkan kalau untuk membuat API Key agar dapat mengambil data-data yang ada di dalam suatu video YouTube seperti komentar dari 1 video YouTube, Playlist, Subscription, dll., maka terlebih dahulu harus mengaktifkan service YouTube Data API v3 di dalam Google Cloud Platform dan kemudian membuat/generate API Key di dalam opsi CREDENTIALS. Jika API sudah berhasil dibuat, maka kita dapat meng-copy API tersebut untuk diletakkan di dalam variabel. Pada code script diatas, API yang berhasil didapatkan disimpan di dalam variabel yang bernama "API_KEY".

Di samping itu, fungsi build pada library googleapiclient.discovery merupakan sebuah Software Development Kits (SDKs) yang telah disediakan oleh Google agar para developer/scientist dapat mengakses semua layanan berbasis Google melalui API seperti video/konten YouTube, BigQuery, dll. Jadi dapat disimpulkan bahwasanya dengan mendefinisikan nama layanan Google yang akan digunakan dan API yang telah didapatkan berdasarkan layanan yang akan digunakan, maka setiap orang diseluruh dunia dapat mengakses dan mendapatkan data-data atau informasi dunia melalui layanan Google. Seperti pada penelitian kali ini yang sumber datanya merupakan data-data komentar dari video debat pertama capres-cawapres yang di-upload oleh channel YouTube KOMPASTV.

## 2. Request Access to Retrieve Main Comments Data Objects on YouTube Video based on API Key, API Service Name, and API Version

In [3]:
"""
Melakukan proses request kepada Google Client menggunakan API yang sudah
di=generate dan disimpan di dalam variabel "youtube_scrape_comment_objects"
untuk dapat mengambil 100 data/informasi (sesuai jumlah batasan/limit data komentar yang dapat
diambil dari komentar pada konten video Youtube menggunakan API dari Google Client) pada komentar utama
alias komentar yang bukan merupakan komentar balasan dari konten video Youtube tentang
debat capres-cawapres babak pertama Republik Indonesia tahun 2024 yang di-upload oleh
channel YouTube KOMPASTV berdasarkan dari ID yang dimiliki oleh video tersebut
"""

video_youtube_data_request = youtube_scrape_comment_objects.commentThreads().list(
    part = "snippet", # snippet pada parameter part adalah objek list dari seluruh elemen yang dimiliki oleh komentar utama
    videoId = "zB0RvKAc2kw", # Sebuah ID dari konten video debat pertama capres-cawapres yang di-upload oleh channel KOMPASTV 
    order = "time", # time pada parameter order mengartikan urutan komentar yang akan diambil dari yang terbaru hingga terlama  
    maxResults = 100 # Jumlah komentar yang akan diambil dari video debat pertama (sesuai jumlah limit di Google API Client)
)


"""
Mengeksekusi/menjalankan request yang telah dibuat dan disimpan pada variabel "video_youtube_data_request"
untuk mendapatkan 100 data/informasi komentar utama dari video ID zB0RvKAc2kw dengan relevansi
tanggal dan waktu komentar terbaru komentar terlama dari video debat babak pertama capres-cawapres di KOMPASTV
"""
video_youtube_data_response = video_youtube_data_request.execute()

Berikut adalah penjelasan mengenai code script diatas berikut ini:

1. youtube_scrape_comment_objects merupakan sebuah nama variabel yang berisikan parameter-parameter beserta nilainya yang berfungsi sebagai tempat menyimpan resource utama Google Client serta API dari YouTube untuk dapat mengakses data-data dan informasi yang dimiliki oleh suatu konten YouTube seperti informasi video, komentar di dalam suatu video, playlist dari suatu channel, dll, dengan memanfaatkan kunci API (API KEY) yang didapatkan melalui Google Cloud Platform dengan cara membuat credentials API di dalam salah satu service Google Cloud Platform yaitu YouTube Data API v3.

2. commentThreads merupakan suatu sumber daya dari YouTube Data API yang berisikan objek/elemen atas informasi-informasi dari komentar utama (teks komentar yang bukan menjadi komentar balasan) dari suatu video di YouTube. Salah satu contoh informasi yang terdapat di dalam komentar utama adalah teks komentar yang dibuat oleh user/penonton dari video tersebut bukan teks komentar yang menanggapi/merespon komentar utama. Atau identitas nama user/akun YouTube yang berkomentar di video tersebut sebagai bentuk pendapat atas video yang ditonton.

3. Parameter "part" bertujuan untuk mendapatkan banyak objek list properti yang dipisahkan oleh tanda koma (comma-separated list) dari sumber daya yang dimiliki oleh service YouTube Data API v3 yang membentuk komentar paling utama (komentar teratas) dari suatu video. Sedangkan "snippet" pada parameter "part" bertujuan untuk mendapatkan objek detail dasar tentang elemen-elemen/item dari komentar utama sebagai bentuk respon API YouTube terhadap permintaan dalam mengambil objek-objek data dari sebuah konten video berdasarkan video id yang didefinisikan pada parameter "videoId". Salah satu contoh detail dasar dari komentar utama seperti channel id sebagai identitas unik dari suatu channel yang ada di media sosial YouTube.

4. Parameter videoId merupakan sebuah identitas unik dari video (ID dari suatu konten video YouTube) yang informasi dasarnya ingin diambil (data scraping) untuk kebutuhan yang berbeda-beda. Sebagai contohnya pada penelitian kali ini, saya ingin menggunakan video tentang debat pertama capres-cawapres Republik Indonesia tahun 2024 dari channel YouTube KOMPASTV dan video tersebut memiliki alamat URL yakni https://www.youtube.com/watch?v=zB0RvKAc2kw. Jadi ID video "zB0RvKAc2kw" diambil dari URL pada video tersebut yang letaknya setelah v=.

5. Parameter maxResult merupakan sebuah parameter yang secara spesifik bertujuan untuk mengambil jumlah kuantitas dari data/informasi komentar utama yang ingin diambil dari suatu konten video di media sosial YouTube berdasarkan ID unik yang didefinisikan pada parameter videoId. Tetapi kuantitas jumlah data/informasi komentar yang dapat diambil menggunakan API dari service Google Client hanya 100 data saja, tidak bisa lebih dari 100 data. Sehingga karena penelitian kali ini akan mengambil lebih dari 100 data, maka diperlukan tahapan/teknik pengulangan supaya data komentar yang terambil dapat melebihi 100 data. Tahapan untuk mengambil data lebih dari 100 data akan dilakukan setelah berhasil mendapatkan 100 data komentar (berdasarkan jumlah maksimal data komentar yang dapat diambil menggunakan API Google YouTube v3).

6. Parameter order merupakan sebuah parameter yang dimiliki oleh fungsi commentThreads() yang bertujuan untuk menentukan urutan data komentar yang ingin diambil (di-scraping) sebagai permintaan/request dari Google API Client terhadap komentar yang dimiliki oleh konten-konten video yang berada di media sosial YouTube. Konten video tersebut ditentukan oleh video ID yang dimiliki oleh parameter videoId. Parameter order memiliki 2 nilai yang valid yaitu time dan relevance. Jika nilai dari parameter order adalah time, maka urutan data komentar yang diambil akan terdiri dari komentar-komentar yang paling baru dibuat pada video tersebut berdasarkan tanggal dan waktu dari setiap teks komentar. Sebagai contoh jika terdapat teks komentar seperti "A, B, C merupakan huruf" dibuat di tanggal 1 Januari tahun 2024 dan teks komentar lainnya adalah "1, 2, 3 merupakan angka" yang dibuat di tanggal 24 April tahun 2024, maka urutan data teks komentar yang tersimpan lebih dulu yang berada paling atas dari urutan data adalah teks komentar yang berbunyi "1, 2, 3 merupakan angka" dan setelahnya adalah "A, B, C merupakan huruf". Jadi pada dasarnya nilai time di dalam parameter order akan mengurutkan rangkaian komentar dari suatu konten video di media sosial YouTube (berdasarkan video id) yang berhasil diambil dari rangkaian komentar paling terbaru hingga rangkaian komentar paling terlama berdasarkan tanggal dan waktu pembuatan pada teks komentar utama.

In [4]:
"""
Menampilkan seluruh objek serta elemen dari 100 data/informasi pada rangkaian komentar utama
(teks komentar yang bukan merupakan balasan/reply dari suatu komentar) dari video debat pertama
capres-cawapres yang ditayangkan oleh channel YouTube KOMPASTV yang berhasil di-scraping
menggunakan API Key dari service Google Cloud Console yaitu YouTube Data API v3
"""
video_youtube_data_response

{'kind': 'youtube#commentThreadListResponse',
 'etag': '2Anc9yRUX1Xy2klSN6uetr8SnpY',
 'nextPageToken': 'Z2V0X25ld2VzdF9maXJzdC0tQ2dnSWdBUVZGN2ZST0JJRkNLZ2dHQUFTQlFpZElCZ0JFZ1VJaUNBWUFCSUZDSWtnR0FBU0JRaUhJQmdBR0FBaURnb01DT3V5dWE0R0VPam5rcEFE',
 'pageInfo': {'totalResults': 100, 'resultsPerPage': 100},
 'items': [{'kind': 'youtube#commentThread',
   'etag': 'orzQa_fuNx4c0NuxphIXUFMrhn8',
   'id': 'Ugw6mZXdeMcRiq26xY14AaABAg',
   'snippet': {'channelId': 'UC5BMIWZe9isJXLZZWPWvBlg',
    'videoId': 'zB0RvKAc2kw',
    'topLevelComment': {'kind': 'youtube#comment',
     'etag': 'ea-PkeQwBjYfug0mpFTvDsHQQvQ',
     'id': 'Ugw6mZXdeMcRiq26xY14AaABAg',
     'snippet': {'channelId': 'UC5BMIWZe9isJXLZZWPWvBlg',
      'videoId': 'zB0RvKAc2kw',
      'textDisplay': '😅iooooiu',
      'textOriginal': '😅iooooiu',
      'authorDisplayName': '@RioManopo-cu4yj',
      'authorProfileImageUrl': 'https://yt3.ggpht.com/ytc/AIdro_kICLEWVz_Df11W9j2QDfrHNDDg1x_VaLwS8b0VSK2HbsRDCJlZlRWUA-jL7XAQ5mwfAg=s48-c-k-c0x0

## 3. Define Main Items (Video ID, Total of Reply, Comment ID, Text of Comment, Total of Comment Like, Name of Account Commenting, etc) from Video YouTube based on ID Video in YouTube

In [5]:
"""
Mendefinisikan beberapa elemen item yang membentuk objek komentar utama yang akan digunakan sebagai kolom di dalam DataFrame
berdasarkan ID video YouTube yang sebelumnya telah didefinisikan pada "video_youtube_data_request"
(saat ini permintaan tersebut telah diterima sebagai respon dan disimpan di dalam "video_youtube_data_response")
dengan mengambil 100 data rangkaian komentar utama di dalam video
debat capres-cawapres Republik Indonesia babak pertama yang di-upload oleh channel YouTube KOMPASTV
"""

# Mendefinisikan sebuah list kosong (empty list) untuk menampung elemen-elemen data yang menyusun rangkaian pada komentar utama
list_first_video_debate_kompastv = [] # Empty list untuk menyimpan beberapa elemen data dari rangkaian komentar utama

for item in video_youtube_data_response["items"]:
    video_id = item["snippet"]["videoId"] # Mendapatkan ID video debat pertama capres-cawapres yang di-upload oleh KOMPASTV
    total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan yang diterima oleh komentar utama
    comment_id = item["id"] # Mendapatkan seluruh ID dari setiap komentar utama dari video debat pertama capres-cawapres
    
    
    """
    Mendapatkan seluruh elemen item per masing-masing komentar utama yang menjadi struktur pembentuk dasar dari komentar utama
    berdasarkan video ID yang sebelumnya telah diinisialisasikan.
    Jenis objek yang menjadi struktur/rangkaian detail atas masing-masing komentar utama adalah channel ID,
    teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
    nama akun user yang berkomentar di dalam video tersebut, dll
    
    Perlu diketahui jika elemen item yang terdapat pada top level comment dan commentThreads() berbeda tetapi
    dapat digabungkan menjadi satu kesatuan. Elemen seperti video id,
    jumlah user yang membalas/merespon teks komentar utama, dan lainnya
    termasuk di dalam elemen item yang dimiliki oleh commentThreads()
    karena sifatnya adalah informasi general dari rangkaian komentar utama
    
    Sedangkan elemen item yang dimiliki oleh top level comment lebih bersifat informasi yang spesifik yang dimiliki oleh
    masing-masing komentar utama atau komentar balasan atas komentar utama.
    Elemen item seperti nama user/akun yang berkomentar, isi atas masing-masing teks komentar yang dibuat oleh
    setiap akun yang berkomentar, jumlah user yang menyukai isi dari teks komentar utama, dan lainnya
    termasuk ke dalam item-item yang dimiliki oleh top level comment
    """
    comment_items = item["snippet"]["topLevelComment"]["snippet"]
    
    
    """
    Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_first_video_debate_kompastv" yang akan
    berisikan beberapa objek item/elemen dari serangkaian komentar utama seperti ID video,
    ID Channel yang mem-publish/meng-upload video tersebut, nama akun user yang berkomentar beserta teks komentar,
    tanggal pembuatan komentar untuk video tersebut,
    jumlah total like sebagai bentuk respon setuju pada komentar yang telah dibuat oleh user, dll.
     
    Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "comment_id" dan "comment_items"
    termasuk ke dalam elemen utama yang akan dimasukkan ke dalam list kosong (empty list) yang bernama
    "list_first_video_debate_kompastv" yang nantinya list yang bernama "list_first_video_debate_kompastv"
    akan menjadi struktur kolom di dalam Pandas DataFrame
    """
        
    list_first_video_debate_kompastv.append([
        video_id, # Memasukkan ID video debat pertama capres-cawapres yang di-upload oleh channel YouTube KOMPASTV ke dalam list
        comment_items["channelId"], # Memasukkan ID yang dimiliki oleh channel YouTube KOMPASTV ke dalam variabel list
        comment_id, # Memasukkan ID dari seluruh komentar yang dibuat oleh user/penonton dari video debat pertama ke dalam list
        comment_items["authorDisplayName"], # Memasukkan seluruh nama akun YouTube yang berkomentar ke dalam empty list
        comment_items["textDisplay"], # Memasukkan teks komentar utama (bukan teks komentar yang bersifat balasan) ke dalam list
        comment_items["likeCount"], # Memasukkan jumlah total yang menyukai isi teks komentar utama ke dalam list
        total_reply_count, # Memasukkan jumlah total balasan yang diterima oleh teks komentar utama ke dalam empty list
        comment_items["authorChannelUrl"], # Memasukkan URL/link channel akun YouTube para penonton video debat pertama ke list
        comment_items["publishedAt"], # Memasukkan tanggal dan waktu saat teks komentar utama dibuat pertama kali oleh user
        comment_items["updatedAt"] # Memasukkan tanggal dan waktu saat teks komentar utama mengalami perubahan isi ke dalam list
    ])
    
"""
Menampilkan jumlah data yang dimiliki oleh variabel list "list_first_video_debate_kompastv"
setelah dilakukan proses penyaringan elemen item dari serangkaian komentar utama
"""
print("Jumlah Data yang Dimiliki oleh Variabel List 'list_first_video_debate_kompastv' sebelum Proses Looping adalah",
      len(list_first_video_debate_kompastv))

Jumlah Data yang Dimiliki oleh Variabel List 'list_first_video_debate_kompastv' sebelum Proses Looping adalah 100


Jika hanya menggunakan code script diatas saja maka data komentar yang didapatkan hanya berjumlah 100 data saja karena jumlah maksimal untuk mengambil data komentar dari suatu konten video YouTube dengan menggunakan Google YouTube API dibatasi hanya 100 data. Maka dari itu karena menurut saya 100 data sangat tidak cukup untuk penelitian kali ini, maka saya akan mengambil data komentar dari video debat capres-cawapres babak pertama dari YouTube channel KOMPASTV lebih dari 100 data komentar.

Untuk mengatasi permasalahan ini, saya akan melakukan proses looping/pengulangan permintaan untuk mengambil data komentar lebih dari 100 data. Jumlah data yang saya inginkan pada penelitian kali ini adalah 10.500 data sehingga permintaan yang code script dibawah ini akan mengulangi permintaan mengambil data sebanyak 10.500 data komentar yang akan ditempatkan di dalam 10 kolom/object/elemen utama dari video debat capres-cawapres babak pertama yang di-upload oleh channel YouTube KOMPASTV. Sepuluh kolom/elemen utama yang akan membentuk DataFrame adalah kolom elemen "videoId", "channelId", "id" sebgaai comment_id, "authorDisplayName", "textDisplay", "likeCount", "totalReplyCount", "authorChannelUrl", "publishedAt", dan "updatedAt".

Sebagai catatan dan pengingat bahwasanya saat ini objek list yang bernama "list_first_video_debate_kompastv" baru memiliki 100 data/informasi komentar dan akan dilakukan proses pengulangan permintaan hingga variabel list "list_first_video_debate_kompastv" memiliki 10.500 data komentar beserta elemen-elemen utamanya. Agar dapat mengambil data komentar sebanyak 10.500 data, maka saya akan menerapkan teknik TokenPagination.

TokenPagination merupakan cara untuk mengambil data-data yang berada di halaman selanjutnya (data yang bukan berada di halaman utama/halaman paling awal dari suatu konten/informasi). TokenPagination yang akan digunakan di dalam penelitian kali ini memiliki tujuan untuk mendapatkan data-data komentar seperti teks komentar, data nama akun/user yang berkomentar, tanggal pembuatan komentar, dsb, yang berada di halaman-halaman berikutnya atau halaman setelah 100 data paling awal (data yang menjadi batasan maksimal/limit yang dapat diambil menggunakan YouTube Data API v3).

In [6]:
"""
Menampilkan 100 data/informasi dari beberapa elemen item pada rangkaian komentar utama yang terdapat
di dalam variabel list "list_first_video_debate_kompastv" yang sumber data komentarnya berasal dari video
debat capres-cawapres babak pertama yang ditayangkan oleh channel Youtube KOMPASTV yang memiliki ID Video zB0RvKAc2kw
"""
list_first_video_debate_kompastv

[['zB0RvKAc2kw',
  'UC5BMIWZe9isJXLZZWPWvBlg',
  'Ugw6mZXdeMcRiq26xY14AaABAg',
  '@RioManopo-cu4yj',
  '😅iooooiu',
  0,
  0,
  'http://www.youtube.com/@RioManopo-cu4yj',
  '2024-05-01T06:55:06Z',
  '2024-05-01T06:55:06Z'],
 ['zB0RvKAc2kw',
  'UC5BMIWZe9isJXLZZWPWvBlg',
  'UgyqcoxE2XJHDzpILl94AaABAg',
  '@muhammadrizki1063',
  'Sebenarnya debat ini bukan mencari hasil,tapi mencari kekirangan kandidat.',
  0,
  0,
  'http://www.youtube.com/@muhammadrizki1063',
  '2024-04-30T01:35:08Z',
  '2024-04-30T01:35:08Z'],
 ['zB0RvKAc2kw',
  'UC5BMIWZe9isJXLZZWPWvBlg',
  'UgzJ-Kx6ULuqnUl7unJ4AaABAg',
  '@dzakyramdn',
  'aku tim ganjar',
  0,
  0,
  'http://www.youtube.com/@dzakyramdn',
  '2024-04-09T11:35:40Z',
  '2024-04-09T11:35:40Z'],
 ['zB0RvKAc2kw',
  'UC5BMIWZe9isJXLZZWPWvBlg',
  'UgyJwjM2-KsYGDVvVyR4AaABAg',
  '@wanensaibani9204',
  'Pak frabowo semangat',
  0,
  0,
  'http://www.youtube.com/@wanensaibani9204',
  '2024-04-09T06:35:25Z',
  '2024-04-09T06:35:25Z'],
 ['zB0RvKAc2kw',
  'UC5BMIWZ

In [7]:
"""
Melakukan proses pengambilan lebih dari 100 data komentar dari video debat pertama
capres-cawapres yang di-upload dan ditayangkan melalui channel YouTube KOMPASTV
"""

next_page_data_scraping = 10500 # Jumlah data komentar yang ingin diambil dari video debat pertama menggunakan looping request

while len (list_first_video_debate_kompastv) < next_page_data_scraping:
    """
    Mendapatkan data-data komentar pada video YouTube debat pertama calon
    Presiden-Wakil Presiden Indonesia dari channel YouTube KOMPASTV yang berada di halaman
    berikutnya (data-data setelah baris ke-100/indeks baris data ke-99)
    
    Di samping itu, "video_youtube_response" merupakan variabel yang menjalankan
    perintah untuk mendapatkan 100 data komentar dari video ID yang telah didefinisikan pada commentThreads().
    Itu berarti jumlah data yang akan diambil pada halaman-halaman berikutnya berjumlah 100 data komentar
    """
    try:
        nextPageToken = video_youtube_data_response["nextPageToken"]
    except KeyError:
        break
    nextPageToken = video_youtube_data_response["nextPageToken"]
    
    
    """
    Melakukan proses pengambilan objek kembali menggunakan fungsi "commentThreads()" atas data-data
    komentar utama dari video YouTube berdasarkan identifikasi unik dari video tersebut yaitu ID Video yang membahas
    tentang debat capres-cawapres 2024. Namun yang membedakan antara "commentThreads()" sebelumnya dengan saat ini
    adalah jika "commentThreads()" sebelumnya hanya dapat mengambil jumlah maksimal data komentar yang ditentukan oleh
    Google YouTube Data API. Walaupun kita menginginkan lebih dari 100 data sehingga kita mendefinisikan nilai pada
    parameter "maxResults" yakni 5600 komentar, 17.250 teks komentar, 9.800 komentar, dll., tetapi hasil akhirnya
    tidak berpengaruh terhadap jumlah data yang berhasil diambil dengan teknik data scraping pada video YouTube.
    Karena pada dasarnya service YouTube Data API v3 memiliki limit/batasan jumlah data yang dapat diambil dari
    suatu konten video YouTube yaitu hanya 100 komentar.
    
    Maka dari itu dengan menggunakan parameter baru yang terdapat di dalam "commentThreads()" yaitu parameter "pageToken"
    dengan nilai yakni nextPageToken, proses pengambilan data komentar lebih dari 100 sangat memungkinkan untuk dilakukan
    sebab nilai nextPageToken akan melakukan proses identifikasi/mencari dan mengambil data
    komentar yang berada di halaman berikutnya dari hasil komentar yang dapat diambil
    (hasil komentar yang dapat diambil yakni hanya 100 data saja sesuai dengan jumlah maksimal yang dimiliki oleh parameter
    """
    nextRequest = youtube_scrape_comment_objects.commentThreads().list(
        part = "snippet", # snippet pada parameter part adalah objek list dari seluruh elemen yang dimiliki oleh komentar utama
        videoId = "zB0RvKAc2kw", # ID dari konten video debat pertama capres-cawapres yang di-upload oleh channel KOMPASTV
        order = "time", # Permintaan untuk mendapatkan tanggal dan waktu komentar paling terbaru dari ID video
        pageToken = nextPageToken # Data selanjutnya akan diambil dari halaman-halaman selain halaman paling awal dari video
        #maxResults = 10500, # Jumlah data yang ingin diambil setelah 100 data berhasil di-scraping (sesuai dengan limit API)
    )
    
    
    """
    Mengeksekusi proses permintaan untuk dapat mengambil data-data komentar yang berada
    di halaman-halaman berikutnya (selain 100 data komentar yang telah berhasil diambil pada script sebelumnya) dari video
    debat capres-cawapres pertama yang di-upload oleh Channel YouTube KOMPASTV yang memiliki ID video yaitu zB0RvKAc2kw
    """
    video_youtube_data_response = nextRequest.execute()
    
    
    for item in video_youtube_data_response["items"]:
        video_id = item["snippet"]["videoId"] # Mendapatkan ID video debat pertama capres-cawapres
        total_reply_count = item["snippet"]["totalReplyCount"] # Mendapatkan jumlah total balasan/reply dari komentar utama
        comment_id = item["id"] # Mendapatkan seluruh ID dari setiap teks komentar utama dari video debat pertama

        
        """
        Mendapatkan objek/elemen item utama yang menjadi struktur pembentuk dasar dari komentar utama
        berdasarkan video ID yang sebelumnya telah diinisialisasikan.
        Jenis objek yang menjadi struktur/rangkaian detail komentar utama adalah seperti channel ID,
        teks komentar, jumlah like pada komentar tersebut, tanggal dan waktu dibuatnya komentar,
        nama akun user yang berkomentar di dalam video tersebut, dll
        
        Perlu diketahui jika elemen item yang terdapat pada top level comment dan commentThreads() berbeda tetapi
        dapat digabungkan menjadi satu kesatuan. Elemen seperti video id,
        jumlah user yang membalas/merespon teks komentar utama, dan lainnya
        termasuk di dalam elemen item yang dimiliki oleh commentThreads()
        karena sifatnya adalah informasi general dari rangkaian komentar utama

        Sedangkan elemen item yang dimiliki oleh top level comment lebih bersifat informasi yang spesifik yang dimiliki oleh
        masing-masing komentar utama dan komentar balasan atas komentar utama.
        Elemen item seperti nama user/akun yang berkomentar, isi atas masing-masing teks komentar yang dibuat oleh
        setiap akun yang berkomentar, jumlah user yang menyukai isi dari teks komentar utama, dan lainnya
        termasuk ke dalam item-item yang dimiliki oleh top level comment
        """
        comment_items = item["snippet"]["topLevelComment"]["snippet"]


        """
        Memasukkan atribut/elemen utama ke dalam variabel list kosong yaitu "list_first_video_debate_kompastv" yang akan
        berisikan item-item utama seperti ID video, ID Channel yang mem-publish/meng-upload video tersebut,
        nama akun user yang berkomentar beserta teks komentar, tanggal pembuatan komentar untuk video tersebut,
        jumlah total like sebagai bentuk respon setuju pada komentar yang telah dibuat oleh user, dll.

        Catatan tambahan bahwasanya variabel "video_id", "total_reply_count", "comment_id" dan "comment_items"
        termasuk ke dalam elemen utama dan akan dimasukkan ke dalam list kosong (empty list) yang bernama
        "list_first_video_debate_kompastv" yang nantinya list yang bernama "list_first_video_debate_kompastv"
        akan menjadi struktur kolom di dalam Pandas DataFrame
        """

        list_first_video_debate_kompastv.append([
            video_id, # Memasukkan ID video debat pertama capres-cawapres yang di-upload oleh channel YouTube KOMPASTV
            comment_items["channelId"], # Memasukkan ID yang dimiliki oleh channel YouTube KOMPASTV ke dalam variabel list
            comment_id, # Memasukkan ID dari seluruh komentar yang dibuat oleh penonton video debat pertama ke dalam list
            comment_items["authorDisplayName"], # Memasukkan seluruh nama akun YouTube yang berkomentar ke dalam empty list
            comment_items["textDisplay"], # Memasukkan teks komentar utama ke dalam list
            comment_items["likeCount"], # Memasukkan jumlah total yang menyukai isi teks komentar utama ke dalam list
            total_reply_count, # Memasukkan jumlah total balasan yang diterima oleh teks komentar utama ke dalam empty list
            comment_items["authorChannelUrl"], # Memasukkan URL/link channel akun YouTube para penonton video debat pertama
            comment_items["publishedAt"], # Memasukkan tanggal dan waktu saat teks komentar utama dibuat pertama kali oleh user
            comment_items["updatedAt"] # Memasukkan tanggal dan waktu saat teks komentar utama mengalami perubahan isi
        ])
        
"""
Menampilkan jumlah data/informasi yang berhasil diambil menggunakan teknik web scraping
setelah melakukan proses looping terhadap request data komentar utama yang terdapat
di video debat pertama capres-cawapres pada channel Youtube KOMPASTV
"""
print("Jumlah Data yang Dimiliki oleh Variabel List 'list_first_video_debate_kompastv' setelah Proses Looping adalah",
      len(list_first_video_debate_kompastv))

Jumlah Data yang Dimiliki oleh Variabel List 'list_first_video_debate_kompastv' setelah Proses Looping adalah 10500


In [8]:
"""
Menampilkan seluruh data/informasi dari penyeleksian beberapa elemen item pada rangkaian komentar utama yang terdapat
di dalam variabel list "list_first_video_debate_kompastv" yang saat ini memiliki 10.500 data/informasi
komentar dengan sumber data komentarnya berasal dari video debat capres-cawapres babak
pertama yang ditayangkan oleh channel Youtube KOMPASTV yang memiliki ID Video zB0RvKAc2kw
"""
list_first_video_debate_kompastv

[['zB0RvKAc2kw',
  'UC5BMIWZe9isJXLZZWPWvBlg',
  'Ugw6mZXdeMcRiq26xY14AaABAg',
  '@RioManopo-cu4yj',
  '😅iooooiu',
  0,
  0,
  'http://www.youtube.com/@RioManopo-cu4yj',
  '2024-05-01T06:55:06Z',
  '2024-05-01T06:55:06Z'],
 ['zB0RvKAc2kw',
  'UC5BMIWZe9isJXLZZWPWvBlg',
  'UgyqcoxE2XJHDzpILl94AaABAg',
  '@muhammadrizki1063',
  'Sebenarnya debat ini bukan mencari hasil,tapi mencari kekirangan kandidat.',
  0,
  0,
  'http://www.youtube.com/@muhammadrizki1063',
  '2024-04-30T01:35:08Z',
  '2024-04-30T01:35:08Z'],
 ['zB0RvKAc2kw',
  'UC5BMIWZe9isJXLZZWPWvBlg',
  'UgzJ-Kx6ULuqnUl7unJ4AaABAg',
  '@dzakyramdn',
  'aku tim ganjar',
  0,
  0,
  'http://www.youtube.com/@dzakyramdn',
  '2024-04-09T11:35:40Z',
  '2024-04-09T11:35:40Z'],
 ['zB0RvKAc2kw',
  'UC5BMIWZe9isJXLZZWPWvBlg',
  'UgyJwjM2-KsYGDVvVyR4AaABAg',
  '@wanensaibani9204',
  'Pak frabowo semangat',
  0,
  0,
  'http://www.youtube.com/@wanensaibani9204',
  '2024-04-09T06:35:25Z',
  '2024-04-09T06:35:25Z'],
 ['zB0RvKAc2kw',
  'UC5BMIWZ

In [9]:
"""
Menjadikan data-data dari setiap elemen item yang tersimpan di dalam variabel list "list_first_video_debate_kompastv"
seperti video id, channel id, comment_id, nama user yang berkomentar beserta teks komentarnya,
jumlah likes dan total balasan/reply untuk suatu teks komentar,
tanggal dibuat dan tanggal perubahan atas suatu teks komentar dan URL channel/akun YouTube user yang berkomentar pada video
menjadi sebuah data yang berformat DataFrame (tabular data dalam bentuk tabel yang memiliki struktur kolom dan baris)
dan disimpan di dalam sebuah variabel DataFrame bernama "first_video_debate_df"
"""

first_video_debate_df = pd.DataFrame(list_first_video_debate_kompastv, columns=["video_id", "channel_id", "comment_id",
                                                                                "author", "text_comment", "like_count",
                                                                                "total_reply", "channel_url", "published_date",
                                                                                "updated_date"])
"""
Menampilkan 17 data teratas yang dimiliki oleh variabel DataFrame "first_video_debate_df"
(sebelumnya informasi/data pada komentar utama dari debat capres-cawapres babak pertama yang berhasil
di-scraping dari channel YouTuube KOMPASTV dan disimpan di dalam variabel list_first_video_debate_kompastv)
"""
first_video_debate_df.head(17)

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
0,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,Ugw6mZXdeMcRiq26xY14AaABAg,@RioManopo-cu4yj,😅iooooiu,0,0,http://www.youtube.com/@RioManopo-cu4yj,2024-05-01T06:55:06Z,2024-05-01T06:55:06Z
1,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgyqcoxE2XJHDzpILl94AaABAg,@muhammadrizki1063,"Sebenarnya debat ini bukan mencari hasil,tapi ...",0,0,http://www.youtube.com/@muhammadrizki1063,2024-04-30T01:35:08Z,2024-04-30T01:35:08Z
2,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgzJ-Kx6ULuqnUl7unJ4AaABAg,@dzakyramdn,aku tim ganjar,0,0,http://www.youtube.com/@dzakyramdn,2024-04-09T11:35:40Z,2024-04-09T11:35:40Z
3,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgyJwjM2-KsYGDVvVyR4AaABAg,@wanensaibani9204,Pak frabowo semangat,0,0,http://www.youtube.com/@wanensaibani9204,2024-04-09T06:35:25Z,2024-04-09T06:35:25Z
4,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgwpJ-lswT5ElOY5yhB4AaABAg,@DimasanugrahAnugerah,Anies memang cerdas ❤❤❤,0,0,http://www.youtube.com/@DimasanugrahAnugerah,2024-04-01T09:06:07Z,2024-04-01T09:06:07Z
5,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgzCiKkhqF4PN49pKhN4AaABAg,@Muhammadzaki-mv8gn,"Mengenai masalah angin, Prabowo malah bilang m...",0,0,http://www.youtube.com/@Muhammadzaki-mv8gn,2024-03-29T22:11:30Z,2024-03-29T22:11:30Z
6,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgxnoaqYYbr4061J5MN4AaABAg,@wakrudi8577,😮kasih beras gratis,0,0,http://www.youtube.com/@wakrudi8577,2024-03-28T17:26:05Z,2024-03-28T17:26:05Z
7,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgxwEOOlz5L678bWWUZ4AaABAg,@ALCHANNEL1988,Kebanyakan senyum dan tertawa Paslon 01.. Pant...,0,0,http://www.youtube.com/@ALCHANNEL1988,2024-03-26T15:08:46Z,2024-03-26T15:08:46Z
8,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,Ugz5AdLaIWlqXLitkfp4AaABAg,@eghysangkala2211,Dari dulu hukum itu tajam kebawa tumpul ke ata...,0,0,http://www.youtube.com/@eghysangkala2211,2024-03-24T19:30:04Z,2024-03-24T19:30:04Z
9,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgxfOZalO3pOdqeYqdJ4AaABAg,@user-om6jk3pq2e,Aku memilih. Pak. Perabowo,0,0,http://www.youtube.com/@user-om6jk3pq2e,2024-03-18T05:23:51Z,2024-03-18T05:23:51Z


## 4. Exploratory Dimension of DataFrame using Pandas Library

In [10]:
"""
Menampilkan jumlah misisng value/nilai data yang hilang dari masing-masing
kolom yang dimiliki oleh variabel DataFrame "first_video_debate_df"
"""
first_video_debate_df.isnull().sum()

video_id          0
channel_id        0
comment_id        0
author            0
text_comment      0
like_count        0
total_reply       0
channel_url       0
published_date    0
updated_date      0
dtype: int64

In [11]:
# Menampilkan nama-nama kolom yang dimiliki oleh variabel DataFrame "first_video_debate_df"
first_video_debate_df.columns

Index(['video_id', 'channel_id', 'comment_id', 'author', 'text_comment',
       'like_count', 'total_reply', 'channel_url', 'published_date',
       'updated_date'],
      dtype='object')

In [12]:
# Menampilkan jumlah baris data dan kolom yang dimiliki oleh variabel DataFrame "first_video_debate_df"
first_video_debate_df.shape

(10500, 10)

Berdasarkan hasil tersebut dapat diketahui bahwa proses pengambilan data komentar sebanyak 10.500 komentar telah berhasil dilakukan dan 10.500 komentar tersebut disimpan di dalam 10 kolom yang saat ini dimiliki oleh variabel DataFrame "first_video_debate_df". Sepuluh nama kolom yang dimiliki oleh variabel DataFrame "first_video_debate_df" yang menjadi tempat tersimpannya 10.500 data diantaranya adalah sebagai berikut:

1. Kolom "video_id" yang menyimpan identitas unik suatu konten video YouTube.
2. Kolom "channel_id" yang merupakan identitas unik suatu channel YouTube yang meng-upload konten video. Pada penelitian kali ini karena nilai pada kolom "channel_id" adalah UC5BMIWZe9isJXLZZWPWvBlg maka dapat disimpulkan bahwa nilai unik tersebut menjadi representasi atas nama channel dari pemilik video ID yang tersimpan di dalam kolom "video_id" yakni KOMPASTV YouTube channel.
3. Kolom "comment_id" merupakan sebuah kolom yang menyimpan identitas unik berupa ID dari masing-masing teks komentar yang ada di dalam video id.
4. Kolom "author" merupakan kolom yang menyimpan nilai nama-nama user/nama akun YouTube yang berkomentar pada video tersebut.
5. Kolom "text_comment" merupakan kolom yang menyimpan setiap teks komentar yang telah dibuat oleh masing-masing penonton pada video tersebut.
6. Kolom "like_count" merupakan kolom yang menyimpan jumlah like (suka/setuju) sebagai bentuk respon setuju atas komentar utama.
7. Kolom "total_reply" merupakan kolom yang menyimpan jumlah balasan (reply) sebagai bentuk respon untuk memperkuat pendapat komentar utama atau sebagai bentuk ketidaksetujuan atas komentar utama sehingga user yang tidak setuju tersebut mengirimkan teks komentar lainnya.
8. Kolom "channel_url" merupakan sebuah kolom yang menyimpan link akun profile YouTube yang berkomentar pada video tersebut.
9. Kolom "published_date" merupakan kolom yang menyimpan tanggal dan waktu dari pembuatan teks komentar pertama kali (tanpa adanya perubahan isi di dalam komentar yang dilakukan oleh user/penonton.
10. Kolom "updated_data" merupakan kolom yang menyimpan data tanggal dan waktu dari perubahan isi teks komentar yang hanya dapat dilakukan oleh user yang memiliki teks komentar tersebut.

In [13]:
# Menampilkan tipe data yang dimiliki oleh masing-masing kolom pada variabel DataFrame "first_video_debate_df"
first_video_debate_df.dtypes

video_id          object
channel_id        object
comment_id        object
author            object
text_comment      object
like_count         int64
total_reply        int64
channel_url       object
published_date    object
updated_date      object
dtype: object

Hasil pada code script diatas menunjukkan bahwasanya variabel DataFrame "first_video_debate_df" hanya memiliki 2 tipe data saja yaitu tipe data Object yang dapat disimpulkan sebagai tipe data String karena nilai yang terkandung di dalam tipe data String adalah data-data seperti teks, simbol-simbol/karakter spesial, dan tipe data integer (int yang merupakan tipe data untuk angka bilangan bulat seperti 18, 197, 41, 7, dll.

Selain itu jika diamati dan diperhatikan kembali, pada kolom "published_date" dan "updated_date" juga memiliki tipe data String/Object. Padahal seharusnya jika data tersebut merupakan data yang menunjukkan tanggal dan waktu dari suatu kejadian, maka data tersebut seharusnya disimpan pada tipe data Datetime. Maka dari itu karena terdapat ketidakcocokan/kesalahan format data yang disimpan sekaligus tipe data pada kolom "pubslished_date" dan "updated_date", saya akan melakukan proses perubahan tipe data yang dimiliki oleh kolom "published_date" dan "updated_date" dari yang semula memiliki tipe data String/Object menjadi tipe data Datetime.

In [14]:
"""
Mengubah tipe data dan format nilai data yang dimiliki oleh kolom
"published_date" dan "updated_date" pada variabel DataFrame "first_video_debate_df"
dari yang memiliki tipe data Object/String menjadi tipe data Datetime
"""
def change_data_type_into_datetime(first_video_debate_df):
    first_video_debate_df["published_date"] = pd.to_datetime(first_video_debate_df["published_date"],
                                                             format = "%Y-%m-%d %H:%M:%S").dt.tz_convert(None)
    
    first_video_debate_df["updated_date"] = pd.to_datetime(first_video_debate_df["updated_date"],
                                                           format = "%Y-%m-%d %H:%M:%S").dt.tz_convert(None)
    
    return change_data_type_into_datetime

change_data_type_into_datetime(first_video_debate_df)


"""
Menampilkan kembali tipe data yang dimiliki oleh kolom "published_date" dan "updated_date"
pada variabel DataFrame "first_video_debate_df"
setelah dilakukan proses perubahan tipe data dan format nilai datanya
menjadi Datetime (data yang menunjukkan tanggal dan waktu dari suatu kejadian di dalam dataset)
"""
first_video_debate_df.dtypes

video_id                  object
channel_id                object
comment_id                object
author                    object
text_comment              object
like_count                 int64
total_reply                int64
channel_url               object
published_date    datetime64[ns]
updated_date      datetime64[ns]
dtype: object

In [15]:
"""
Menampilkan 37 data teratas yang dimiliki oleh variabel DataFrame "first_video_debate_df" untuk mengecek apakah nilai data
di dalam kolom "published_date" dan "updated_date" berhasil diubah menjadi format data bertipe data Datetime
"""
first_video_debate_df.head(37)

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
0,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,Ugw6mZXdeMcRiq26xY14AaABAg,@RioManopo-cu4yj,😅iooooiu,0,0,http://www.youtube.com/@RioManopo-cu4yj,2024-05-01 06:55:06,2024-05-01 06:55:06
1,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgyqcoxE2XJHDzpILl94AaABAg,@muhammadrizki1063,"Sebenarnya debat ini bukan mencari hasil,tapi ...",0,0,http://www.youtube.com/@muhammadrizki1063,2024-04-30 01:35:08,2024-04-30 01:35:08
2,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgzJ-Kx6ULuqnUl7unJ4AaABAg,@dzakyramdn,aku tim ganjar,0,0,http://www.youtube.com/@dzakyramdn,2024-04-09 11:35:40,2024-04-09 11:35:40
3,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgyJwjM2-KsYGDVvVyR4AaABAg,@wanensaibani9204,Pak frabowo semangat,0,0,http://www.youtube.com/@wanensaibani9204,2024-04-09 06:35:25,2024-04-09 06:35:25
4,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgwpJ-lswT5ElOY5yhB4AaABAg,@DimasanugrahAnugerah,Anies memang cerdas ❤❤❤,0,0,http://www.youtube.com/@DimasanugrahAnugerah,2024-04-01 09:06:07,2024-04-01 09:06:07
5,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgzCiKkhqF4PN49pKhN4AaABAg,@Muhammadzaki-mv8gn,"Mengenai masalah angin, Prabowo malah bilang m...",0,0,http://www.youtube.com/@Muhammadzaki-mv8gn,2024-03-29 22:11:30,2024-03-29 22:11:30
6,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgxnoaqYYbr4061J5MN4AaABAg,@wakrudi8577,😮kasih beras gratis,0,0,http://www.youtube.com/@wakrudi8577,2024-03-28 17:26:05,2024-03-28 17:26:05
7,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgxwEOOlz5L678bWWUZ4AaABAg,@ALCHANNEL1988,Kebanyakan senyum dan tertawa Paslon 01.. Pant...,0,0,http://www.youtube.com/@ALCHANNEL1988,2024-03-26 15:08:46,2024-03-26 15:08:46
8,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,Ugz5AdLaIWlqXLitkfp4AaABAg,@eghysangkala2211,Dari dulu hukum itu tajam kebawa tumpul ke ata...,0,0,http://www.youtube.com/@eghysangkala2211,2024-03-24 19:30:04,2024-03-24 19:30:04
9,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgxfOZalO3pOdqeYqdJ4AaABAg,@user-om6jk3pq2e,Aku memilih. Pak. Perabowo,0,0,http://www.youtube.com/@user-om6jk3pq2e,2024-03-18 05:23:51,2024-03-18 05:23:51


In [16]:
"""
Menampilkan jumlah total data duplikat pada variabel DataFrame "first_video_debate_df"
Data duplikat merupakan data yang memiliki kemiripan yang sangat
sama persis dengan antara satu baris data dengan baris data lainnya
"""

print("Mencari Jumlah Data Duplikat pada DataFrame: ")
print("Jumlah Data Duplikat yang Dimiliki oleh Variabel DataFrame 'first_video_debate_df' adalah",
      first_video_debate_df.duplicated().sum())

Mencari Jumlah Data Duplikat pada DataFrame: 
Jumlah Data Duplikat yang Dimiliki oleh Variabel DataFrame 'first_video_debate_df' adalah 0


In [17]:
"""
Menampilkan beberapa informasi yang terdapat di dalam DataFrame "first_video_debate_df"
seperti informasi mengenai tipe data pada masing-masing kolom, jumlah data yang dimiliki oleh DataFrame, dll
"""
first_video_debate_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10500 entries, 0 to 10499
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   video_id        10500 non-null  object        
 1   channel_id      10500 non-null  object        
 2   comment_id      10500 non-null  object        
 3   author          10500 non-null  object        
 4   text_comment    10500 non-null  object        
 5   like_count      10500 non-null  int64         
 6   total_reply     10500 non-null  int64         
 7   channel_url     10500 non-null  object        
 8   published_date  10500 non-null  datetime64[ns]
 9   updated_date    10500 non-null  datetime64[ns]
dtypes: datetime64[ns](2), int64(2), object(6)
memory usage: 820.4+ KB


Berdasarkan output yang didapatkan dari fungsi "info()", kita dapat mengetahui beberapa informasi yang penting terkait variabel DataFrame "first_video_debate_df" diantaranya adalah sebagai berikut:

1. Variabel "first_video_debate_df" merupakan sebuah objek berupa DataFrame yang berisikan kumpulan data yang didalamnya terdapat baris dan kolom (dataset) dari hasil proses pengambilan data-data komentar dari video YouTube debat pertama calon Presiden-Wakil Presiden Republik Indonesia yang diunggah/ditayangkan oleh channel YouTube KOMPASTV.

2. Variabel DataFrame "first_video_debate_df" memiliki jumlah data/baris sebanyak 10.500 data yang terdiri dari teks komentar yang dikirimkan oleh penonton video tersebut, nama akun yang berkomentar, tanggal dan waktu dari komentar tersebut dibuat, dll. Selain itu, DataFrame "first_video_debate_df" memiliki 10 kolom yang diantaranya adalah kolom "video_id", "channel_id", "comment_id", "author", "text_comment", "like_count", "total_reply", "channel_url", "published_date" dan terakhir adalah kolom "updated_date".

3. Masing-masing kolom yang ada di dalam DataFrame "first_video_debate_df" tidak memiliki nilai NaN (Not a Number) atau nilai yang hilang/missing value sehingga dapat disimpulkan bahwasanya sepuluh kolom yang ada di dalam variabel DataFrame "first_video_debate_df", setiap barisnya memiliki seluruh elemen nilai data yang didapatkan melalui hasil proses scraping komentar pada video YouTube yang ditayangkan oleh channel YouTube KOMPASTV.

4. Pada variabel DataFrame "first_video_debate_df" terdapat 3 jenis tipe data yang berbeda. Tipe data yang pertama adalah tipe data Integer untuk setiap kolom yang memiliki nilai data bersifat yang angka atau numerik. Data numerik/data angka dibedakan menjadi 2 jenis bilangan angka yaitu bilangan bulat dan bilangan desimal. Angka bilangan bulat direpresentasikan sebagai tipe data Integer dan angka bilangan desimal direpresentasikan sebagai tipe data Float. Karena pada DataFrame "first_video_debate_df" hanya memiliki 2 kolom saja yang bertipe data Integer, yaitu kolom "like_count" dan "total_reply", di mana kedua kolom tersebut memiliki nilai angka bilangan bulat, maka kolom tersebut bertipe data Integer bukan Float. Tipe data yang kedua adalah tipe data Datetime dan hanya 2 kolom saja yang memiliki tipe data Datetime yaitu kolom "published_date" dan "updated_date". Tipe data yang ketiga yang dimiliki oleh variabel DataFrame "first_video_debate_df" adalah tipe data Object/String. tipe data Object/String adalah representasi dari nilai-nilai data teks, simbol-simbol maupun karakter spesial yang dimiliki oleh suatu kolom di dalam DataFrame. Secara jumlah, tipe data Object/String pada variabel DataFrame "first_video_debate_df" dimiliki oleh 6 kolom (terbanyak diantara tipe data Integer ataupun Datetime) yaitu kolom "video_id", "channel_id", "comment_id", "author", "text_comment" dan kolom "channel_url".

In [18]:
"""
Mengubah urutan data yang dimiliki oleh variabel DataFrame "first_video_debate_df" berdasarkan jumlah total like
terbanyak hingga jumlah like paling sedikit yang didapatkan/diterima oleh suatu teks komentar utama
diantara 10.500 data komentar yang ada di dalam video debat pertama capres-cawapres Indonesia di channel YouTube KOMPASTV
"""
first_video_debate_df = first_video_debate_df.sort_values(by=["like_count"],
                                                          ascending = False, ignore_index = True)

# Mengecek sekaligus menampilkan urutan 10 data teratas yang memiliki jumlah total like komentar utama terbanyak (Descending)
first_video_debate_df.head(10)

Unnamed: 0,video_id,channel_id,comment_id,author,text_comment,like_count,total_reply,channel_url,published_date,updated_date
0,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgzTOJaoDFAy69VEmW54AaABAg,@alkhasanisani3619,Anies pinter ngomong<br>Ganjar pinter jawab<br...,772,154,http://www.youtube.com/@alkhasanisani3619,2023-12-13 13:26:17,2023-12-13 13:26:17
1,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgzmTSpOSPp8Aaid8tN4AaABAg,@MrGaming-fg9qu,Indonesia tidak kekurangan orang orang pintar&...,608,44,http://www.youtube.com/@MrGaming-fg9qu,2023-12-23 15:19:21,2023-12-23 15:19:21
2,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgytfyaQRBKOJD1MWmJ4AaABAg,@desyanggraeni9380,Disaat Ganjar dan Anies saling menyerang Prabo...,474,86,http://www.youtube.com/@desyanggraeni9380,2023-12-15 09:21:02,2023-12-15 09:21:36
3,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgyMdksVHA_TUd0b8zZ4AaABAg,@aprianisalam7842,Pak Prabowo memang kurang dr hal seperti pak g...,449,77,http://www.youtube.com/@aprianisalam7842,2023-12-14 12:31:52,2023-12-14 12:31:52
4,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgzKN65yuzOuwoV25xR4AaABAg,@nanananina-eg5vo,Jendral tidak dilatih untuk merangkai kata2 ma...,431,56,http://www.youtube.com/@nanananina-eg5vo,2023-12-17 03:43:34,2023-12-17 03:43:34
5,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgwkGCjnkn4qiL2pUq54AaABAg,@RidhoRamadhan-gm6rp,Saya tau rasanya menjadi orang seperti pak pro...,409,28,http://www.youtube.com/@RidhoRamadhan-gm6rp,2023-12-27 14:30:09,2023-12-27 14:30:09
6,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgwHT6Z026fOcLqsxT54AaABAg,@user-mf1tc7co8s,"Pak prabowo tu keras , disiplin karena mantan ...",337,46,http://www.youtube.com/@user-mf1tc7co8s,2023-12-14 01:33:20,2023-12-14 01:33:20
7,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgwEn2xOZrliv0jvyhp4AaABAg,@nanasepdiana5531,Pak prabowo tidak pandai merangkai kata - kata...,330,38,http://www.youtube.com/@nanasepdiana5531,2023-12-26 08:02:26,2023-12-26 08:02:26
8,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,UgwpSjBjJZnKzyn5PmN4AaABAg,@FauzanFikli,Saya yakin .pak Prabowo sudah tahu keadaan neg...,318,36,http://www.youtube.com/@FauzanFikli,2023-12-15 16:14:53,2023-12-15 16:14:53
9,zB0RvKAc2kw,UC5BMIWZe9isJXLZZWPWvBlg,Ugz0wZUiNXc6ccaFu7J4AaABAg,@titisuchan3357,"P Prabowo tidak menjatuhkan lawan,,tetap legow...",312,51,http://www.youtube.com/@titisuchan3357,2023-12-15 09:35:11,2023-12-15 09:35:11


## 5. Export Variable DataFrame into Spreadsheet Format (Microsot Excel)

In [19]:
"""
Menyimpan/mengeksport 10.500 data komentar utama dari hasil web scraping pada
video debat pertama capres-cawapres Republik Indonesia tahun 2024 yang di-upload oleh Channel YouTube KOMPASTV
"""
first_video_debate_df.to_excel("Results of Data Exports from DataFrame/Export Comments Data from 1st Video Debate.xlsx",
                               index = False, header = True)

Berdasarkan hasil code script diatas maka dapat diketahui bahwa saya telah berhasil melakukan proses penyimpanan (export) 10.500 data komentar yang sebelumnya berhasil di-scraping (diambil) dari video debat capres-cawapres babak pertama yang di-upload oleh Channel Youtube KOMPASTV dan seluruh data beserta kolomnya disimpan di dalam variabel DataFrame yang bernama "first_video_debate_df" ke dalam extension file yaitu Microsoft Excel yang memiliki format/jenis data yaitu Spreadsheet (.xlsx).