# 📊 Analisis Trending YouTube Indonesia Tahun 2022 🇮🇩  



> 🎥 **Bagaimana sebuah video bisa masuk ke daftar trending di YouTube Indonesia?** <br>
Apa faktor yang mempengaruhinya? Dalam notebook ini, saya akan menganalisis **video trending YouTube sepanjang tahun 2022** untuk mengungkap **pola, tren, dan insight menarik** yang bisa bermanfaat bagi kreator, peneliti, maupun penggemar data! 📈🔥


 <br>


## 🧐 Apa yang Dianalisis?


> ✅ Distribusi Like, Comment, View, dan Duration 📊  
✅ Log Scale Distribusi Like, Comment, View, dan Duration 🔍  
✅ Korelasi Like, Comment, View, dan Duration 📈  
✅ Kuantitas Video Berdasarkan Kualitas 🎥  
✅ Kuantitas Video Berdasarkan Keberadaan Caption 📝  
✅ Kuantitas Video Berdasarkan Kategori 🎭🎶🎮  
✅ Median View Berdasarkan Kategori 📊  
✅ Engagement Berdasarkan Kategori ❤️💬  
✅ Kuantitas Video Berdasarkan Umur Video ⏳  
✅ Kuantitas Video Berdasarkan Hari Upload Video 📅  
✅ Kuantitas Video Berdasarkan Lama Trendingnya 🔥  
✅ Kuantitas Kategori Berdasarkan Lama Trendingnya 📊  
✅ Video Trending YouTube Teratas Tahun 2022 🏆  
✅ Channel Dengan Kemunculan Video Terbanyak di Trending 🎬  
✅ Keyword Teratas pada Judul Video Trending 🔠  
✅ Tag Teratas pada Video Trending 🏷️  
✅ Rasio Huruf Kapital pada Judul Video Trending 🔤

<br>

## 📂 Dataset yang Digunakan  
Dataset yang digunakan pada project ini bersumber dari [Kaggle](https://www.kaggle.com/datasets/syahrulhamdani/indonesias-trending-youtube-video-statistics), yang merupakan kumpulan data video trending YouTube Indonesia pada tahun 2022. Setelah melalui tahap pra-proses, data yang digunakan berupa **68.747 data video** yang memiliki struktur sebagai berikut.  

### **📑 Struktur Dataset**  
| Kolom | Deskripsi |
|--------|----------------------------------------------|
| `video_id` | ID unik untuk setiap video 🎞️ |
| `publish_time` | Waktu video diunggah (UTC) ⏳ |
| `channel_id` | ID unik untuk setiap channel 📡 |
| `videoTitle` | Judul video trending 📝 |
| `description` | Deskripsi video ℹ️ |
| `thumbnail_url` | URL thumbnail video 🖼️ |
| `channel_name` | Nama channel yang mengunggah video 🎬 |
| `tags` | Tag yang digunakan dalam video 🏷️ |
| `category_id` | ID kategori video 🎭 |
| `duration` | Durasi video dalam format waktu ⏱️ |
| `definition` | Resolusi video (HD atau SD) 🔍 |
| `caption` | Apakah video memiliki caption/subtitle? 🎭 |
| `view` | Jumlah views video 📊 |
| `like` | Jumlah likes video ❤️ |
| `comment` | Jumlah komentar video 💬 |
| `trending_time` | Waktu ketika video mulai trending (UTC) ⏳ |
| `durationSec` | Durasi video dalam detik ⏱️ |
| `categoryTitle` | Nama kategori video 🎭 |

<br>



## 🛠️ Tools & Teknologi yang Digunakan  


> 💻 **Python** (Pandas, Matplotlib, Seaborn) untuk analisis data  
  📊 **Google Colab** sebagai platform utama  
  📂 **Dataset dalam format CSV**  

<br>



## 📢 Jelajahi Notebook Ini!  


> Klik tombol **Run All** ▶️ untuk menjalankan analisis dan melihat hasilnya! 🚀  
<br>Jika notebook ini bermanfaat, jangan lupa untuk **memberikan komentar atau membagikannya!**  
Terima kasih telah mampir! 🌟📊🎥

<br>


##🛠️ **Persiapan Project**

In [None]:
# @title 🔧 Instalasi Library {"display-mode":"form"}
! pip install isodate
! pip install Sastrawi

Collecting isodate
  Downloading isodate-0.7.2-py3-none-any.whl.metadata (11 kB)
Downloading isodate-0.7.2-py3-none-any.whl (22 kB)
Installing collected packages: isodate
Successfully installed isodate-0.7.2
Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [None]:
# @title 🔧 Import Library {"display-mode":"form"}
import isodate
import json
import nltk
import io
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

##📝 **Persiapan Dataset**

In [None]:
# @title 🗃️ Koneksi Google Drive {"display-mode":"form"}
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# @title 🗃️ Import Dataset {"display-mode":"form"}
raw_data = pd.read_csv('/content/drive/MyDrive/Portofolio Data Analyst/trending.csv')
raw_data.head(5)

  raw_data = pd.read_csv('/content/drive/MyDrive/Portofolio Data Analyst/trending.csv')


Unnamed: 0,video_id,publish_time,channel_id,title,description,thumbnail_url,thumbnail_width,thumbnail_height,channel_name,tags,...,caption,license_status,allowed_region,blocked_region,view,like,dislike,favorite,comment,trending_time
0,,2021-02-05T09:00:34Z,UCEf_Bc-KVd7onSeifS3py9g,aespa 에스파 'Forever (약속)' MV,"aespa's new single ""Forever"" is out!\nListen a...",,,,SMTOWN,,...,True,True,,,7806846.0,857902.0,24078.0,0,94961.0,2021-02-07 05:46:51.832614+00:00
1,,2021-02-04T15:54:08Z,UCYEa4_MC7OFjcWrO6SO-u8g,[FULL] Siapa di Balik Kudeta AHY? | Dua Sisi t...,"Jakarta, https://www.tvonenews.com - Ketua umu...",,,,Indonesia Lawyers Club,"['tvone', 'tv one', 'tvonenews', 'indonesia la...",...,False,True,,,885038.0,6765.0,1263.0,0,6365.0,2021-02-07 05:46:51.832649+00:00
2,,2021-02-06T03:00:22Z,UCu12RxQjRQyh79YBYvEDkOg,CABRIOLET CHALLENGE: TANTANGAN MENGGODA (7/12),Road Party Season 2: Cabriolet Challenge\n\nEp...,,,,Motomobi,"['MotoMobi', 'Mobil', 'motor', 'review', 'indo...",...,False,True,,,889708.0,47895.0,532.0,0,8785.0,2021-02-07 05:46:51.832664+00:00
3,,2021-02-05T20:26:08Z,UCCuzDCoI3EUOo_nhCj4noSw,With Windah Basudara & Hans,Join this channel to get access to perks:\nhtt...,,,,yb,,...,False,True,,,1006854.0,91973.0,3967.0,0,12957.0,2021-02-07 05:46:51.832678+00:00
4,,2021-02-03T23:14:54Z,UC14UlmYlSNiQCBe9Eookf_A,🤯 LATE COMEBACK DRAMA! | HIGHLIGHTS | Granada ...,"With just two minutes to play, Barça looked to...",,,,FC Barcelona,"['FC Barcelona', 'برشلونة،', 'Fútbol', 'FUTBOL...",...,False,True,,,6275035.0,218131.0,4289.0,0,12799.0,2021-02-07 05:46:51.832730+00:00


In [None]:
# @title ℹ️ Informasi Dataset {"display-mode":"form"}
raw_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 172347 entries, 0 to 172346
Data columns (total 27 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   video_id           119225 non-null  object 
 1   publish_time       172347 non-null  object 
 2   channel_id         172347 non-null  object 
 3   title              172347 non-null  object 
 4   description        165692 non-null  object 
 5   thumbnail_url      119225 non-null  object 
 6   thumbnail_width    119225 non-null  float64
 7   thumbnail_height   119225 non-null  float64
 8   channel_name       172347 non-null  object 
 9   tags               147148 non-null  object 
 10  category_id        172347 non-null  int64  
 11  live_status        172347 non-null  object 
 12  local_title        172347 non-null  object 
 13  local_description  165692 non-null  object 
 14  duration           172347 non-null  object 
 15  dimension          172347 non-null  object 
 16  de



> Dataset awal memiliki `172.347 baris` dan `27 kolom` yang tentu tidak digunakan semuanya. Pada analisis kali ini kita hanya menggunakan data yang video trending pada rentang 1 tahun pada tahun tertentu saja serta beberapa kolom tertentu saja.



In [None]:
# @title 📁 Seleksi Kolom Dataset {"display-mode":"form"}
raw_data = raw_data.drop(columns=['thumbnail_width', 'thumbnail_height',
                                'live_status', 'local_title', 'local_description',
                                'dimension', 'license_status', 'allowed_region',
                                'blocked_region', 'dislike', 'favorite'])

raw_data['publish_time'] = pd.to_datetime(raw_data['publish_time'])
raw_data['trending_time'] = pd.to_datetime(raw_data['trending_time'], format='ISO8601', errors='coerce')

trending_2022 = raw_data[raw_data['trending_time'].dt.year == 2022]
trending_2022.shape
trending_2022.info()

<class 'pandas.core.frame.DataFrame'>
Index: 69292 entries, 57659 to 126950
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype              
---  ------         --------------  -----              
 0   video_id       69292 non-null  object             
 1   publish_time   69292 non-null  datetime64[ns, UTC]
 2   channel_id     69292 non-null  object             
 3   title          69292 non-null  object             
 4   description    66752 non-null  object             
 5   thumbnail_url  69292 non-null  object             
 6   channel_name   69292 non-null  object             
 7   tags           59290 non-null  object             
 8   category_id    69292 non-null  int64              
 9   duration       69292 non-null  object             
 10  definition     69292 non-null  object             
 11  caption        69292 non-null  bool               
 12  view           69290 non-null  float64            
 13  like           68898 non-null  float64        



>  Seperti yang telah dijelaskan pada sel sebelumnya. Pada penelitian kali ini kita tidak membutuhkan kolom `thumbnail_width`, `thumbnail_height`, `live_status`, `local_title`, `local_description`, `dimension`, `license_status`, `allowed_region`, `blocked_region`, `dislike`, `favorite`. Sehingga 11 kolom tersebut dihapus dari dataset. Kemudian untuk kolom `publish_time` dan `trending_time` yang semula bertipe data `object` diubah tipe datanya menjadi `datetime64`, agar datanya dapat diolah. Serta pemilihan data dilakukan untuk data dengan rentang 1 tahun pada tahun `2022` saja. Sehingga data yang digunakan untuk saat ini sebanyak `69.292 baris` saja






In [None]:
# @title 📁 Kustomisasi Dataset {"display-mode":"form"}
trending_2022 = trending_2022.rename(columns={"title":"videoTitle"})



> Dataset yang telah ada harus dikustomisasi pada beberapa bagian untuk memenuhi kebutuhan pada Analisis Data yang akan dilakukan. Kustomisasi yang dilakukan berupa mengubah nama kolom yang semula ```title ``` menjadi ```videoTitle ```







In [None]:
# @title 📁 Penambahan Kolom {"display-mode":"form"}

trending_2022['durationSec'] = trending_2022['duration'].apply(lambda x: isodate.parse_duration(x).total_seconds())

# Parse the category id and title from the json file, then store them in a dictionary.
with open("/content/drive/MyDrive/Portofolio Data Analyst/category.json", "r") as file:
    category_json = json.load(file)
category_dict = {}
i = len(category_json['items'])
for i in range(i):
    id = int(category_json['items'][i]['id'])
    title = category_json['items'][i]['snippet']['title']
    category_dict[id] = title

# Make a new column to store categoryTitle
trending_2022['categoryTitle'] = trending_2022["category_id"].map(category_dict)

trending_2022.info()

<class 'pandas.core.frame.DataFrame'>
Index: 69292 entries, 57659 to 126950
Data columns (total 18 columns):
 #   Column         Non-Null Count  Dtype              
---  ------         --------------  -----              
 0   video_id       69292 non-null  object             
 1   publish_time   69292 non-null  datetime64[ns, UTC]
 2   channel_id     69292 non-null  object             
 3   videoTitle     69292 non-null  object             
 4   description    66752 non-null  object             
 5   thumbnail_url  69292 non-null  object             
 6   channel_name   69292 non-null  object             
 7   tags           59290 non-null  object             
 8   category_id    69292 non-null  int64              
 9   duration       69292 non-null  object             
 10  definition     69292 non-null  object             
 11  caption        69292 non-null  bool               
 12  view           69290 non-null  float64            
 13  like           68898 non-null  float64        



> Untuk mempermudah proses analisis, diperlukan kolom tambahan yang berupa keterangan spesifik dari variabel tertentu. Seperti `durationSec` yang merupakan bentuk per detik dari kolom duration, serta kolom `categoryTitle` yang merupakan nama kategori sesuai dengan id kategori suatu data.



##⛓️‍💥 **Cek & Handling Missing Values**

In [None]:
# @title 🔬 Pengecekan Missing Values {"display-mode":"form"}
trending_2022.isnull().sum()

Unnamed: 0,0
video_id,0
publish_time,0
channel_id,0
videoTitle,0
description,2540
thumbnail_url,0
channel_name,0
tags,10002
category_id,0
duration,0




> Kekosongan data pada beberapa kolom tersebut dapat disebabkan oleh beberapa hal, antara lain sebagai berikut:
*   Kolom `descrption` dan `tags`. Deskripsi dan Tag bukanlah merupakan hal yang wajib ada saat pengunggahan video pada YouTube. Sehingga wajar apabila ada beberapa item yang bernilai `null`.
*   Kolom `view`. Kemungkinan terdapat video live streaming yang menyebabkan view dari video tersebut tidak terhitung. Hal ini membuat beberapa item pada kolom ini bernilai `null`.
*   Kolom `like` dan `comment`. Pada YouTube, jumlah like dapat disembunyikan oleh kreator, begitu pula dengan komentar yang dapat dinonaktifkan dalam sebuah video. Sehingga terdapat beberapa item pada kolom tersebut bernilai `null`.
*   Kolom `categoryTitle`. Kemungkinan terdapat nama kategori yang tidak sesuai dengan id kategori yang ada. Sehingga menyebabkan beberapa item bernilai `null`







In [None]:
# @title 🔨 Handling categoryTitle {"display-mode":"form"}
print("Id Kategori yang bernilai kosong adalah : ", trending_2022[trending_2022['categoryTitle'].isnull()]['category_id'].unique())

# category_id of 29 represent Nonprofits & Activism
trending_2022['categoryTitle'] = trending_2022['categoryTitle'].fillna("Nonprofits & Activism")

Id Kategori yang bernilai kosong adalah :  [29]




> Ternyata kategori dengan id 29 tidak terdapat pada dictionary yang telah dibuat sebelumnya. Kategori dengan id ini bernama `Nonprofits & Activism`. Sehingga null values yang terdapat pada kolom `categoryTitle` langsung diisi seluruhnya dengan nama kategori tersebut.



In [None]:
# @title 🔨 Null Value Pada Kolom View {"display-mode":"form"}
trending_2022[trending_2022['view'].isnull()]

Unnamed: 0,video_id,publish_time,channel_id,videoTitle,description,thumbnail_url,channel_name,tags,category_id,duration,definition,caption,view,like,comment,trending_time,durationSec,categoryTitle
71399,iPEQN8XD9_Q,2022-03-11 15:54:51+00:00,UCiormkBf3jm6mfb7k0yPbKA,🔴 [Live In HD] ONE: LIGHTS OUT,Fans are in for a spectacular show on 11 March...,https://i.ytimg.com/vi/iPEQN8XD9_Q/hqdefault.jpg,ONE Championship,"['Fights', 'ONE', 'ONEFC', 'ONE Championship',...",17,PT4H28M1S,hd,False,,,365.0,2022-03-12 06:01:24.671164+00:00,16081.0,Sports
71651,iPEQN8XD9_Q,2022-03-11 15:54:51+00:00,UCiormkBf3jm6mfb7k0yPbKA,🔴 [Live In HD] ONE: LIGHTS OUT,Fans are in for a spectacular show on 11 March...,https://i.ytimg.com/vi/iPEQN8XD9_Q/hqdefault.jpg,ONE Championship,"['Fights', 'ONE', 'ONEFC', 'ONE Championship',...",17,PT4H28M1S,hd,False,,,435.0,2022-03-13 06:01:39.732263+00:00,16081.0,Sports




> Seperti yang telah dijelaskan sebelumnya. Ternyata terdapat `dua video live streaming` yang view nya tidak terhitung pada dataset. Sehingga menyebabkan adanya nulll values pada kolom view nya.



In [None]:
# @title 🔨Handling Kolom View {"display-mode":"form"}
trending_2022 = trending_2022.dropna(subset=['view'])


> Untuk mengatasi kedua item yang value nya bernilai null tersebut. Kedua item tersebut langsung `dihapus saja dari dataset`.



In [None]:
# @title 🔨 Handling Kolom Lainnya {"display-mode":"form"}
trending_2022[['description', 'tags']] = trending_2022[['description', 'tags']].fillna('Tidak Ditulis')

trending_2022 = trending_2022.dropna(subset=['like', 'comment'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  trending_2022[['description', 'tags']] = trending_2022[['description', 'tags']].fillna('Tidak Ditulis')




> Untuk Missing Values pada kolom `description` dan `tags`, dilakukan pengisian dengan keterangan **"Tidak Ditulis"**. Karena data dari kedua kolom tersebut akan digunakan dalam analisa ini. Sedangkan untuk Missing Values pada kolom `like` dan `comment` dihapus saja karena sudah tidak diperlukan lagi.



In [None]:
# @title ℹ️ Informasi Akhir Dataset {"display-mode":"form"}
trending_2022.info()

<class 'pandas.core.frame.DataFrame'>
Index: 68747 entries, 57659 to 126950
Data columns (total 18 columns):
 #   Column         Non-Null Count  Dtype              
---  ------         --------------  -----              
 0   video_id       68747 non-null  object             
 1   publish_time   68747 non-null  datetime64[ns, UTC]
 2   channel_id     68747 non-null  object             
 3   videoTitle     68747 non-null  object             
 4   description    68747 non-null  object             
 5   thumbnail_url  68747 non-null  object             
 6   channel_name   68747 non-null  object             
 7   tags           68747 non-null  object             
 8   category_id    68747 non-null  int64              
 9   duration       68747 non-null  object             
 10  definition     68747 non-null  object             
 11  caption        68747 non-null  bool               
 12  view           68747 non-null  float64            
 13  like           68747 non-null  float64        



> Setelah melalui pra proses. Dataset telah siap digunakan dalam langkah selanjutnya. Dataset yang siap digunakan ini terdiri atas `18 kolom` dan `68.747 baris`.



##**📚 Frekuensi Update Data Video**

In [None]:
# @title 📊 Histogram {"display-mode":"form"}
video_perhari = trending_2022.groupby(trending_2022['trending_time'].dt.date)['video_id'].count()
video_perhari_df = video_perhari.reset_index()
video_perhari_df.columns = ['trending_time', 'video_id']

# Membuat plot line
fig = px.line(video_perhari_df,
              title="Frekuensi Update Data Video",
              x='trending_time',
              y='video_id',
              labels={"trending_time": "Tanggal", "video_id": "Jumlah Video"})

# Modifikasi title agar center
fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=800,
                  )

# Modifikasi xticks agar tahun 2022 dihilangkan
fig.update_layout(xaxis=dict(tickformat='%b %d'))

# Mengubah warna garis menjadi pink dan tema pink
fig.update_traces(line_color='#FD78B5')
fig.update_layout(template='plotly')

# Menambahkan anotasi untuk video paling sedikit
min_video_date = video_perhari_df.loc[video_perhari_df['video_id'].idxmin(), 'trending_time']
min_video_count = video_perhari_df['video_id'].min()
fig.add_annotation(
    x=min_video_date,
    y=min_video_count,
    text=f"Video paling sedikit pada {min_video_date.strftime('%d %b')} ({min_video_count})",
    showarrow=True,
    arrowhead=2,
    arrowcolor='grey',
    ax=150,
    ay=-40,
    font=dict(color="grey", size=12)
)
fig.add_annotation(xref='paper', yref="paper", x=0.5, y=1.13, font_size=14,
                   text="<i>Video Trending Diupdate Hampir Setiap hari Selama Setahun</i>", showarrow=False)

fig.show()

**Penjelasan**


---



> Jumlah video trending yang diperbarui hampir setiap hari selama setahun, dengan angka yang cukup konsisten, sekitar 190-200 video per hari. Namun, terdapat penurunan signifikan pada 25 Juli yang mencatatkan jumlah terendah, hanya 130 video. Penurunan ini mungkin disebabkan oleh gangguan sistem, perubahan algoritma YouTube, atau faktor musiman yang mempengaruhi jumlah video trending. **Secara keseluruhan, meskipun ada fluktuasi, sistem trending YouTube tetap aktif dan diperbarui secara konsisten sepanjang tahun**.

---

##🤝 **Distribusi Like, Comment, View, dan Duration**



> Distribusi Like, Comment, View, dan Duration mengacu pada penyebaran atau distribusi jumlah like, komentar, tampilan view, dan durasi video di YouTube. Analisis distribusi ini bertujuan untuk menggambarkan bagaimana data ini tersebar di seluruh video, baik yang memiliki interaksi tinggi maupun rendah.
Dengan menganalisis distribusi dari masing-masing faktor ini, kita dapat memperoleh wawasan mengenai tren umum di platform YouTube, pola interaksi pengguna, serta hubungan antara durasi video dan tingkat engagement yang diterima.











In [None]:
# @title 📊 Histogram {"display-mode":"form"}
distribusi = trending_2022[['like', 'comment', 'view', 'durationSec']]
colName = ['Like', 'Comment', 'View', 'Duration (Sec)']
distribusi.columns = colName

subplot_titles = ["<b>Distribusi {}</b>".format(col) for col in colName]

fig = make_subplots(rows=2, cols=2, subplot_titles=subplot_titles, vertical_spacing=0.15)
n = 0
for row in range(1, 3):
    for col in range(1, 3):
        fig.add_histogram(x=distribusi[colName[n]],row=row, col=col,
                          hovertemplate='%{x}<br>Jumlah : %{y:.0f}</br><extra></extra>')
        fig.update_xaxes(title="{}".format(colName[n]), row=row, col=col)
        n += 1
fig.update_layout(
    title={'text': "Distribusi Like, Comment, View, dan Duration",
           'x': 0.5,
           'xanchor': 'center',
           'font_family': 'Arial Black',
           'font_size': 20,
           },
    height=700,
    width=900, showlegend=False
    )
fig.add_annotation(xref='paper', yref="paper", x=0.5, y=1.085, font_size=12,
                   text="<i>Distribusi condong ke kanan karena banyak terdapat outlier dalam data</i>", showarrow=False)
fig.show()

**Penjelasan**

---
> Seperti yang terlihat pada grafik diatas, Distribusi dari Like, Comment, View dan Duration cenderung condong ke kanan dikarenakan **adanya banyak outlier dalam data yang bernilai besar**. Untuk mengatasi hal tersebut, kita dapat **memvisualisasikan distribusi menggunakan skala log.**

---


## 🔍 **Log Scale Distribusi Like, Comment, View, dan Duration**



> Dengan menggunakan log scale, kita dapat lebih mudah menganalisis perbedaan antara video dengan jumlah interaksi yang sangat besar dan yang lebih kecil. Log scale juga membantu untuk melihat tren atau pola yang tidak begitu jelas jika data hanya dipandang dalam skala linier. Analisis ini memberikan wawasan tentang distribusi video berdasarkan engagement dan durasi, memungkinkan kita untuk memahami bagaimana video dengan performa sangat baik (baik dari sisi view, like, comment, maupun durasi) tersebar, serta perbandingan antara video-video yang sangat populer dan yang kurang populer.



In [None]:
# @title 📊 Histogram {"display-mode":"form"}
# Fungsi untuk mengubah format angka
def format_angka(angka):
    angka = float('{:.3g}'.format(angka))
    counter = 0
    unit = ['', 'K', 'M', 'B', 'T']
    while abs(angka) >= 1000:
        counter += 1
        angka /= 1000.0
    return '{}{}'.format('{:f}'.format(angka).rstrip('0').rstrip('.'), unit[counter])

#transformasi data.
log_distribusi = distribusi.apply(np.log10)
log_median = log_distribusi.median()
median = (10 ** log_median).map(format_angka)
subplot_titles = ["<b>Distribusi Lognormal {}</b>".format(col) for col in colName]

#Membuat grafik
fig = make_subplots(rows=2, cols=2, subplot_titles=subplot_titles)
n = 0

for row in range(1, 3):
    for col in range(1, 3):
        fig.add_histogram(x=log_distribusi[colName[n]], row=row, col=col,
                          hovertemplate = '%{x}<br>Jumlah : %{y:.0f}</br><extra></extra>')
        fig.update_xaxes(title="log<sub>10</sub>({})".format(colName[n]), row=row, col=col)
        fig.add_vline(x=log_median[n], line_dash="dot", line_color='#333333', line_width=1.5,
                      row=row, col=col)
        fig.add_annotation(x=log_median[n], y=0, yanchor="bottom", font_size=14,
                   text="Median: {}".format(median[n]), showarrow=False,
                   row=row, col=col, font_color='white')
        n += 1

fig.update_layout(
    title={'text': "Distribusi Lognormal Like, Comment, View, dan Duration",
           'x': 0.5,
           'xanchor': 'center',
           'font_family': 'Arial Black',
           'font_size': 20,
           },
    height=600,
    width=900, showlegend=False
    )

fig.add_annotation(xref='paper', yref="paper", x=0.5, y=1.11, font_size=12,
                   text="<i>Dengan skala log, distribusi cenderung normal kecuali pada duration</i>", showarrow=False)

fig.show()


Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). To access a value by position, use `ser.iloc[pos]`


Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). To access a value by position, use `ser.iloc[pos]`


Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). To access a value by position, use `ser.iloc[pos]`



**Penjelasan**

---


> Dengan skala logaritmik, **jumlah view, like, dan comment semuanya berdistribusi normal, namun tidak dengan durasi.** Durasi dalam satuan detik memiliki distribusi bimodal (puncak sekitar ~250 dan ~1000 detik), yang menunjukkan adanya video dengan durasi pendek dan panjang. Nilai median mewakili **kecenderungan sentral dari video yang masuk trending.**

---



##📈 **Korelasi Like, Comment, View, dan Duration**



> Korelasi Like, Comment, View, dan Duration mengacu pada analisis hubungan antara empat faktor utama yang mempengaruhi popularitas dan keterlibatan video di YouTube: jumlah like, komentar, tampilan (view), dan durasi video.
Dengan menganalisis korelasi antara faktor-faktor ini, kita dapat memahami apakah video dengan durasi lebih panjang cenderung mendapatkan lebih banyak like, komentar, dan view, atau apakah ada pola tertentu yang menunjukkan hubungan positif atau negatif antar faktor tersebut. Analisis ini juga memberikan wawasan mengenai konten yang cenderung mendorong lebih banyak interaksi dan bagaimana audiens berinteraksi dengan berbagai jenis video di platform.











In [None]:
# @title 📊 Diagram Korelasi {"display-mode":"form"}

# correlation between numerical columns
corr_distribusi = distribusi.corr()

# mask the upper triangle of the correlation matrix with NaN
mask = np.triu(np.ones_like(corr_distribusi, dtype=bool))
corr_distribusi = corr_distribusi.mask(mask)

fig = px.imshow(corr_distribusi, color_continuous_scale='sunsetdark',
                x=corr_distribusi.index, y=corr_distribusi.columns, text_auto=True,
                labels={"color":"R"}, title="Correlation Heatmap")
fig.update_traces(xgap=1, ygap=1)
fig.data[0].texttemplate = '%{z:.2f}'
fig.data[0].hovertemplate = 'x : %{x}<br>y : %{y}<br>R : %{z:.2f}<extra></extra>'
fig.update_layout(xaxis_showgrid=False, yaxis_showgrid=False)
fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.13, font_size=14,
                   text="<i>Like, Comment, dan View memiliki korelasi satu sama lain</i>", showarrow=False)
fig.update_layout(
    title={'text': "Korelasi Like, Comment, View, dan Duration",
           'x': 0.5,
           'xanchor': 'center',
           'font_family': 'Arial Black',
           'font_size': 20,
           },
    width=700
    )
fig.update_layout(
    xaxis=dict(

        showline=True,  # Menampilkan garis pada x-axis
        linecolor='darkgrey',  # Warna garis x-axis
        linewidth=1.5  # Ketebalan garis
    ),
    yaxis=dict(

        showline=True,  # Menampilkan garis pada y-axis
        linecolor='darkgrey',  # Warna garis y-axis
        linewidth=1.5  # Ketebalan garis
    ),
    template='plotly_white'
)
fig.show()

**Penjelasan**

---


> Terdapat korelasi positif yang sangat tinggi antara jumlah like dan view, korelasi positif yang tinggi antara like dan comment, dan korelasi positif yang sedang antara view dan comment. Ini berarti bahwa jumlah like, view, dan comment saling berhubungan satu sama lain, sementara durasi tidak memiliki korelasi yang sama dengan yang lainnya. Dengan kata lain, **durasi tidak mempengaruhi jumlah like, view, atau comment secara signifikan**.
---

##🎥 **Kuantitas Video Berdasarkan Kualitas**



> Kuantitas Video Berdasarkan Kualitas mengacu pada analisis jumlah video yang muncul di halaman trending YouTube berdasarkan kualitas resolusi video. Dengan memeriksa perbedaan jumlah video yang diunggah dalam masing-masing kualitas, kita dapat mengidentifikasi apakah video dengan resolusi HD lebih sering muncul di trending dibandingkan dengan video beresolusi SD. Analisis ini memberikan wawasan tentang bagaimana kualitas visual video dapat memengaruhi daya tarik dan popularitas video di platform.










In [None]:
# @title 📊 Diagram Batang {"display-mode":"form"}
vidquality_df = trending_2022.groupby('definition').count()['video_id']

fig = px.bar(
            vidquality_df,
            title = "Kuantitas Video Berdasarkan Kualitas",
            labels = {"definition":"Kualitas Video", "value":"Jumlah Video"},
            text_auto = True,
            color = vidquality_df.index,
            hover_data = {"variable":False,"value":":d"},
            )

fig.update_traces(texttemplate="%{y:.0f}")
fig.data[0].x[0]='HD (>=720P)'
fig.data[1].x[0]='SD (<=480P)'
fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.17, font_size=14,
                   text="<i>Kebanyakan Video Trending Beresolusi HD</i>", showarrow=False)
fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=450,
                  height=450,
                  showlegend=False,
                  )
fig.show()

**Penjelasan**

---
> **Video dengan resolusi SD** (resolusi 480p atau lebih rendah) **memiliki kemungkinan yang jauh lebih kecil untuk muncul di halaman trending**, sementara video dengan resolusi HD (resolusi 720p atau lebih tinggi) lebih sering muncul halaman trending.
---

##📝 **Kuantitas Video Berdasarkan Keberadaan Caption**



> Kuantitas Video Berdasarkan Keberadaan Caption mengacu pada analisis jumlah video yang muncul di halaman trending YouTube dan apakah video tersebut menyertakan caption atau tidak. Dengan memeriksa video yang memiliki caption dibandingkan dengan yang tidak, kita dapat melihat apakah video dengan caption memiliki peluang lebih tinggi untuk muncul di trending. Analisis ini memberikan wawasan tentang peran caption dalam meningkatkan visibilitas dan interaksi video di platform.



In [None]:
# @title 📊 Diagram Batang {"display-mode":"form"}
caption_df = trending_2022.groupby('caption').count()['video_id']

fig = px.bar(
            caption_df,
            title = "Kuantitas Video Keberadaan Caption",
            labels = {"caption":"Ada Tidaknya Caption", "value":"Jumlah Video"},
            text_auto = True,
            color = caption_df.index,
            hover_data = {"variable":False,"value":":d"},
            color_discrete_sequence=px.colors.sequential.Agsunset
            )

fig.update_traces(texttemplate="%{y:.0f}")
fig.data[0].x[0]='Ada Caption'
fig.data[1].x[0]='Tidak Ada Caption'
fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_yaxes(showline=True, linecolor='darkgrey')
fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.17, font_size=14,
                   text="<i>Kebanyakan Video Trending Memiliki Caption</i>", showarrow=False)
fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=450,
                  height=450,
                  showlegend=False,
                  )
fig.show()

**Penjelasan**

---
> Ternyata, terdapat cukup banyak video yang trending tanpa caption disamping video yang memiliki caption. Hal ini menunjukkan bahwa **ketersediaan caption tampaknya bukanlah faktor penting untuk sebuah video bisa menjadi trending.** Jadi, meskipun video tidak memiliki caption, video tersebut masih bisa menjadi trending, sementara video dengan caption tidak selalu lebih unggul.
---

##🎭 **Kuantitas Video Berdasarkan Kategori**



> Kuantitas Video Berdasarkan Kategori mengacu pada analisis jumlah video yang termasuk dalam berbagai kategori yang muncul di halaman trending YouTube. Dengan memeriksa distribusi video berdasarkan kategori, kita dapat mengidentifikasi kategori yang paling sering muncul dalam daftar video trending. Analisis ini memberikan wawasan tentang jenis konten yang paling banyak menarik perhatian audiens dan bagaimana YouTube menampilkan video dari berbagai genre di halaman trending.



In [None]:
# @title 📊 Diagram Batang Horizontal {"display-mode":"form"}
category_df = trending_2022.groupby('categoryTitle').count()['video_id']
rata_rata = category_df.mean()

fig = px.bar(
            category_df,
            title="Kuantitas Video Berdasarkan Kategori",
            labels={"value":"Jumlah Video", "categoryTitle":"Kategori"},
            orientation='h',
            text_auto=True,
            color='value',
            color_continuous_scale="purp")

fig.data[0].textposition = 'outside'
fig.update_xaxes(range=[0, 23000], showline=True, linecolor='darkgrey')
fig.update_yaxes(categoryorder='total ascending', showline=True, linecolor='darkgrey')

fig.add_vline(x=rata_rata, line_width=1.5, line_dash="dash", line_color="#FD78B5")
fig.add_annotation(x=rata_rata, xanchor="left", y=0.5, text="Rata-Rata", showarrow=False,
                   font_color="#FD78B5", textangle=90)

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=700,
                  showlegend=False,
                  coloraxis_showscale=False,
                  template='plotly_white'
                  )

fig.add_annotation(xref='paper', yref="paper", x=0.4, y=1.13, font_size=14,
                   text="<i>Kategori Entertainment dan Music Mendominasi Video Trending</i>", showarrow=False)
fig.show()

**Penjelasan**

---
> Kategori yang paling populer di halaman trending adalah *Entertainment* dan *Music*, karena video dari kategori ini paling sering muncul disana. Kategori *People & Blogs, Gaming, dan Sports* juga cukup populer. Sementara itu, video dari kategori *Nonprofits & Activism* dan *Travel & Events* sangat jarang muncul di halaman trending. Jadi, **video dengan kategori tertentu memiliki peluang lebih besar untuk menjadi trending dibandingkan dengan kategori lainnya**.

---

##🎮 **Median View Berdasarkan Kategori**



> Median View Berdasarkan Kategori mengacu pada analisis views rata-rata yang diterima oleh video dalam berbagai kategori di YouTube, dengan menggunakan median sebagai ukuran statistik. Dengan memeriksa median tampilan per kategori, kita dapat mengetahui kategori mana yang memiliki performa lebih stabil dalam hal jumlah tampilan. Analisis ini membantu untuk memahami preferensi audiens terhadap jenis konten tertentu dan memberikan wawasan tentang kategori yang secara konsisten menarik perhatian pemirsa.



In [None]:
# @title 📊 Diagram Batang Horizontal {"display-mode":"form"}
view_df = trending_2022.groupby('categoryTitle')['view'].median().sort_values()
median = view_df.median()

fig = px.bar(
            view_df,
            title="Median View Berdasarkan Kategori",
            labels={"value":"Median View", "categoryTitle":"Kategori"},
            orientation='h',
            text_auto=True,
            color='value',
            color_continuous_scale="purp")

fig.data[0].texttemplate = '%{x:.3s}'
fig.data[0].textposition = 'outside'
fig.update_xaxes(range=[0, 1800000],showline=True, linecolor='darkgrey')
fig.update_yaxes(showline=True, linecolor='darkgrey')

fig.add_vline(x=median, line_width=1.5, line_dash="dash", line_color="#FD78B5")
fig.add_annotation(x=median, xanchor="left", y=0.5, text="Median", showarrow=False,
                   font_color="#FD78B5", textangle=90)

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=700,
                  showlegend=False,
                  coloraxis_showscale=False,
                  template='plotly_white'
                  )

fig.add_annotation(xref='paper', yref="paper", x=0.4, y=1.13, font_size=14,
                   text="<i>Kategori Science & Technology Memiliki Median View Yang Tertinggi</i>", showarrow=False)

fig.show()

**Penjelasan**


---


> Peringkat kategori berdasarkan frekuensi kemunculan video di halaman trending dan jumlah tampilan median (view count) tidaklah sama. Video dengan kategori *Science & Technology, Pets & Animals,* dan *Comedy* cenderung memiliki lebih banyak *views* meskipun tidak sering muncul di halaman trending. Sebaliknya, video dengan kategori *Gaming* cenderung memiliki lebih sedikit *views* meskipun sering muncul di halaman trending. Hal ini menunjukkan bahwa **video dari kategori tertentu yang sering muncul di trending tidak selalu mendapatkan jumlah** *views* **yang lebih tinggi**, sementara beberapa **kategori yang mungkin jarang muncul di trending, bisa saja mendapatkan lebih banyak perhatian dari penonton**.
---

##❤️ **Engagement Berdasarkan Kategori**



> Engagement Berdasarkan Kategori mengacu pada analisis interaksi (seperti like, komentar, dan share) yang diterima oleh video di berbagai kategori di YouTube. Dengan memeriksa tingkat engagement di setiap kategori, kita dapat mengetahui kategori mana yang paling banyak menarik perhatian audiens dan mendorong interaksi. Analisis ini memberikan wawasan tentang preferensi audiens terhadap konten dalam kategori tertentu dan membantu memahami apa yang mendorong keterlibatan lebih besar di platform.



In [None]:
# @title 📊 Scatter Plot {"display-mode":"form"}

temp_df = trending_2022[['video_id', 'categoryTitle']].copy()
temp_df['like_view_ratio'] = (trending_2022['like']/trending_2022['view'])
temp_df['comment_view_ratio'] = (trending_2022['comment']/trending_2022['view'])
lv_median = temp_df['like_view_ratio'].median()
cv_median = temp_df['comment_view_ratio'].median()

engagement = temp_df.groupby('categoryTitle')[['like_view_ratio', 'comment_view_ratio']].median()
engagement['appearances'] = trending_2022.groupby('categoryTitle').count()['video_id']

fig = px.scatter(engagement, x="like_view_ratio", y='comment_view_ratio', color=engagement.index,
                 title="Engagement Berdasarkan Kategori", size='appearances', opacity=0.6,
                 hover_data={"like_view_ratio":":.4f", "comment_view_ratio":":.5f"},
                 labels={"like_view_ratio":"Median Like per View", "comment_view_ratio":"Median Comment per View",
                         "categoryTitle":"Kategori"},
                 )

fig.update_traces(marker_sizemin=3, marker_line_width=0.5, marker_line_color="black")
fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_yaxes(showline=True, linecolor='darkgrey')

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=800,
                  )

fig.add_hline(y=cv_median, line_width=0.75, line_dash="dash", line_color="gray")
fig.add_annotation(x=0.090, xanchor="right", y=cv_median, yanchor="bottom",
                   text="Overall Median", showarrow=False, font_color='gray')
fig.add_vline(x=lv_median, line_width=0.75, line_dash="dash", line_color="gray")
fig.add_annotation(x=lv_median, xanchor="right", y=0.0066, yanchor="top",
                   text="Overall Median", showarrow=False, font_color='gray',
                   textangle=90)

fig.add_annotation(x=1, xref='paper', xanchor="right", y=1, yref='paper', yanchor="top",
                   text="High Comment<br>High Like", showarrow=False, font_color='gray',
                   align='right', font_size=10)
fig.add_annotation(x=0, xref='paper', xanchor="left", y=1, yref='paper', yanchor="top",
                   text="High Comment<br>Low Like", showarrow=False, font_color='gray',
                   align='left', font_size=10)
fig.add_annotation(x=1, xref='paper', xanchor="right", y=0, yref='paper', yanchor="bottom",
                   text="Low Comment<br>High Like", showarrow=False, font_color='gray',
                   align='right', font_size=10)
fig.add_annotation(x=0, xref='paper', xanchor="left", y=0, yref='paper', yanchor="bottom",
                   text="Low Comment<br>Low Like", showarrow=False, font_color='gray',
                   align='left', font_size=10)

fig.add_annotation(x=0.079, xanchor="center", y=0.00510, align='left',
                   text="Nonprofits<br>& Activism", showarrow=False, font_color='black')
fig.add_annotation(x=0.016, xanchor="center", y=0.0013,
                   text="Sports", showarrow=False, font_color='black')
fig.add_annotation(x=0.0095, xanchor="center", y=0.00305, align='left',
                   text="News &<br>Politics", showarrow=False, font_color='black')

fig.add_annotation(xref='x domain', yref="y domain", x=0.6, y=1.13, font_size=14,
                   text="<i>Rasio Engagement Per View Bervariasi Pada Tiap Kategori</i>", showarrow=False)
fig.show()

**Penjelasan**

---
> Setiap kategori video memiliki rasio engagement yang berbeda-beda.
  *   Video dengan kategori *Nonprofits & Activism* cenderung memiliki engagement per jumlah tayangan yang sangat tinggi. Namun, perlu dicatat bahwa jumlah sampel untuk kategori ini sangat kecil, sehingga hasilnya mungkin kurang mewakili secara keseluruhan.
  *   Video dengan kategori *Sports* cenderung memiliki engagement per jumlah tayangan yang lebih rendah dibanding kategori lainnya.
  *   Video dengan kategori *News & Politics* umumnya memiliki rasio like per view yang rendah, tetapi memiliki rasio komentar per view yang cukup tinggi.
<br><br> Secara keseluruhan, hal ini menunjukkan bahwa **tingkat keterlibatan audiens berbeda tergantung pada jenis konten yang ditampilkan**.

---

##⏳ **Kuantitas Video Berdasarkan Umur Video**



> Kuantitas Video Berdasarkan Umur Video mengacu pada analisis jumlah video yang muncul di halaman trending YouTube berdasarkan usia atau waktu sejak video tersebut diunggah. Dengan memeriksa umur video, kita dapat melihat bagaimana video yang lebih baru atau yang lebih lama memiliki peluang berbeda untuk muncul di trending. Analisis ini membantu untuk memahami pola popularitas dan bagaimana algoritma YouTube memperhitungkan faktor waktu dalam menampilkan video yang trending.



In [None]:
# @title 📊 Histogram {"display-mode":"form"}

#Mempersiapkan data yang akan divisualisasikan
umur_video = (trending_2022['trending_time'] - trending_2022['publish_time']).dt.days

#Membuat histogram dari data yang telah dipersiapkan
fig = px.histogram(umur_video, title='Kuantitas Video Berdasarkan Umur Video',
                   labels={'value':'Jarak Waktu Upload dan Waktu Trending'})

fig.update_traces(hovertemplate="Hari : %{x}<br>Jumlah Video : %{y}<extra></extra>")
fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_yaxes(title='Jumlah Hari', showline=True, linecolor='darkgrey')

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=700,
                  showlegend=False,
                  )

fig.add_shape(type="circle",
              xref="x", yref="y",
              x0=0.2, y0=4750,
              x1=1.8, y1=5100,
              line_color="black",
              line_width=1.5
)

fig.add_annotation(x=2, xanchor="left", y=4950,
                   text="1 Hari", showarrow=False, font_color='black')

fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.13, font_size=14,
                   text="<i>Video yang baru di Upload Mendominasi</i>", showarrow=False)

fig.show()

**Penjelasan**

---



> Video yang berumur 1 hari paling sering muncul di halaman trending, sementara semakin lama umur video, semakin kecil kemungkinan video tersebut muncul di sana. Selain itu, video juga jarang menjadi trending sebelum 1 hari sejak diunggah, karena dibutuhkan waktu hingga lebih banyak orang mulai menontonnya. Hal ini menunjukkan bahwa **video cenderung mencapai puncak popularitas dalam 1 hari pertama, dan setelah itu peluangnya untuk tetap trending akan menurun**.

---

##📅 **Kuantitas Video Berdasarkan Hari Upload Video**



> Kuantitas Video Berdasarkan Hari Upload Video mengacu pada analisis jumlah video yang diunggah pada hari-hari tertentu dalam seminggu. Dengan memeriksa hari unggah video, kita dapat melihat apakah ada pola terkait dengan hari-hari tertentu yang lebih banyak menghasilkan video trending. Analisis ini memberikan wawasan mengenai perilaku audiens dan bagaimana hari tertentu dapat mempengaruhi potensi viralitas atau popularitas video di platform YouTube.



In [None]:
# @title 📊 Diagram Batang {"display-mode":"form"}

#Mempersiapkan data yang akan divisualisasikan
day_df = trending_2022['publish_time'].dt.tz_convert('Asia/Jakarta').dt.dayofweek.value_counts().sort_index()
dayname = {0:"Senin", 1:"Selasa", 2:"Rabu", 3:"Kamis", 4:"Jumat", 5:"Sabtu", 6:"Minggu"}
day_df = day_df.rename(dayname)

#Membuat custom warna untuk diagram batang
colors = ['lightgrey' if v != day_df.max() else '#FD78B5' for v in day_df]

#Membuat diagram batang dari data yang telah dipersiapkan
fig = px.bar(
            day_df,
            title = "Kuantitas Video Berdasarkan Hari Upload Video",
            labels = {"publish_time":"Hari Upload", "value":"Jumlah Video"},
            text_auto = True,
            hover_data = {"variable":False},
            )

fig.data[0].textposition = 'outside'
fig.update_traces(hovertemplate="Hari : %{x}<br>Jumlah : %{y}<extra></extra>", marker_color=colors)
fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_yaxes(showline=True, linecolor='darkgrey')
fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.13, font_size=14,
                   text="<i>Kebanyakan Video Trending Diupload Pada hari Jumat</i>", showarrow=False)
fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=700,
                  showlegend=False,
                  template='plotly_white'
                  )
fig.show()

**Penjelasan**

---


> **Video yang dipublikasikan pada hari Jumat lebih sering muncul di halaman trending dibandingkan video yang dipublikasikan pada hari lainnya**. Hal ini dapt terjadi karena video yang berumur 1-2 hari paling sering muncul di halaman trending, sementara orang biasanya memiliki lebih banyak waktu luang pada hari Sabtu dan Minggu, sehingga kemungkinan besar mereka lebih banyak menonton video pada hari-hari tersebut.

---

##⏰ **Kuantitas Video Berdasarkan Jam Upload Video**



> Kuantitas Video Berdasarkan Jam Upload Video mengacu pada analisis jumlah video yang diunggah ke YouTube pada jam-jam tertentu dan bagaimana jam unggah tersebut mempengaruhi kemunculannya di halaman trending. Dengan memeriksa jam unggah video, kita dapat melihat pola tertentu, seperti apakah video yang diunggah pada waktu tertentu. Analisis ini juga memberikan wawasan tentang waktu terbaik untuk mengunggah video agar memperoleh lebih banyak interaksi dan visibilitas, serta bagaimana audiens YouTube merespons konten pada jam-jam tertentu.



In [None]:
# @title 📊 Histogram {"display-mode":"form"}

#Mempersiapkan data yang akan divisualisasikan
time_df = trending_2022['publish_time'].dt.tz_convert('Asia/Jakarta').dt.hour

#Membuat histogram dari data yang telah dipersiapkan
fig = px.histogram(time_df, title='Kuantitas Video Berdasarkan Jam Upload Video',
                   labels={'value':'Jam Upload Video'})

fig.update_traces(hovertemplate="Jam : %{x}.00<br>Jumlah : %{y}<extra></extra>")
fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_yaxes(title='Jumlah Video', showline=True, linecolor='darkgrey')

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=700,
                  showlegend=False,
                  template='plotly_white'
                  )

fig.add_vrect(
    x0=15, x1=20,
    fillcolor="#FD78B5", opacity=0.4,
    layer="below", line_width=0,
)

fig.add_annotation(x=16, y=8100,
            text="16:00-16:59",
            showarrow=True,
            arrowhead=2, ax=-20, ay=-30)
fig.add_annotation(x=19, y=8900,
            text="19:00-19:59",
            showarrow=True,
            arrowhead=2, ax=20, ay=-30)

fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.13, font_size=14,
                   text="<i>Kebanyakan Video Trending Diupload Pada Sore Hari</i>", showarrow=False)
fig.show()

**Penjelasan**

---


> **Video yang dipublikasikan pada sore hari (16:00-20:00) lebih sering muncul di halaman trending dibandingkan waktu lainnya**, dengan dua puncak sekitar pukul 16:00 dan 19:00. Kemungkinan besar, hal ini terjadi karena orang umumnya memiliki lebih banyak waktu luang pada sore hingga malam hari, sehingga mengunggah video pada waktu tersebut dapat menarik lebih banyak penonton.

---


##🔥 **Kuantitas Video Berdasarkan Lama Trendingnya**


> Kuantitas Video Berdasarkan Lama Trendingnya mengacu pada jumlah video yang tetap berada di halaman trending YouTube selama periode waktu tertentu. Analisis ini membantu untuk memahami berapa lama video-video tertentu bertahan dalam posisi trending, apakah hanya untuk beberapa jam, beberapa hari, atau bahkan lebih lama. Dengan melihat pola ini, kita dapat mengidentifikasi video yang memiliki daya tarik jangka panjang atau yang cepat memudar popularitasnya.

In [None]:
# @title 📊 Histogram {"display-mode":"form"}

#Mempersiapkan data yang akan divisualisasikan
lama_tren = trending_2022['video_id'].value_counts()

#Membuat histogram dari data yang telah dipersiapkan
fig = px.histogram(lama_tren, title='Kuantitas Video Berdasarkan Lama Trendingnya',
                   labels={'value':'Hari'})

fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_yaxes(title='Jumlah Video', showline=True, linecolor='darkgrey')
fig.update_traces(hovertemplate="Jumlah Video : %{y}<br>Lama Trending : %{x} Hari<extra></extra>")

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=700,
                  showlegend=False,
                  template='plotly_white'
                  )

fig.add_vrect(
    x0=29.5, x1=37.5,
    fillcolor="#FD78B5", opacity=0.4,
    layer="below", line_width=0,
)

fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.13, font_size=14,
                   text="<i>Beberapa Video Trending Selama Lebih Dari 30 Hari</i>", showarrow=False)

fig.show()

**Penjelasan**


---


> Jumlah video yang bertahan halaman trending cenderung menurun seiring berjalannya waktu. Hal ini dapat terjadi karena sulit bagi sebuah video untuk tetap viral dalam jangka waktu yang lama. Menariknya, **ada beberapa video yang dapat bertahan di halaman trending selama lebih dari 30 hari**.

---


##📒 **Kuantitas Kategori Berdasarkan Lama Trendingnya**



> Kuantitas Kategori Berdasarkan Lama Trendingnya mengacu pada analisis durasi video-video dalam berbagai kategori bertahan di halaman trending YouTube. Dengan memeriksa lama video berada di trending, kita dapat mengelompokkan kategori-kategori tertentu yang memiliki daya tarik lebih lama dibandingkan yang lainnya. Analisis ini membantu memahami dinamika popularitas konten dan memberikan wawasan tentang topik atau genre yang memiliki daya tarik jangka panjang di platform.



In [None]:
# @title 📊 Density Heatmap Plot {"display-mode":"form"}

#Mempersiapkan data yang akan divisualisasikan
kat_lama_tren = trending_2022.groupby('categoryTitle')['video_id'].value_counts().to_frame().reset_index()
kat_lama_tren.rename(columns={'count': 'Hari'}, inplace=True)

#Membuat density plot untuk visualisasi data
fig = px.density_heatmap(kat_lama_tren, x="Hari", y="categoryTitle",
                         color_continuous_scale='purp', range_color=[0,50],
                         title="Kuantitas Kategori Berdasarkan Lama Trendingnya",
                         labels={"categoryTitle":"Category"})

fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_yaxes(title='Kategori', showline=True, linecolor='darkgrey')
fig.update_traces(hovertemplate="Lama Trending : %{x} Hari<br>Kategori : %{y}<br>Jumlah : %{z}<extra></extra>")

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=700,
                  coloraxis_colorbar_title="Jumlah",
                  template='plotly_white'
                  )

fig.add_shape(type="rect",
              xref="paper", yref="y",
              x0=-0.22, y0=2.5,
              x1=-0.01, y1=3.5,
              opacity=0.4,
              fillcolor="#FD78B5",
              line_color="#FD78B5",
)
fig.add_shape(type="rect",
              xref="paper", yref="y",
              x0=-0.09, y0=6.5,
              x1=-0.01, y1=7.5,
              opacity=0.4,
              fillcolor="#FD78B5",
              line_color="#FD78B5",
)

fig.add_annotation(xref='paper', yref="paper", x=1.185, y=0.937, font_size=12,
                   text="+", showarrow=False)
fig.add_annotation(xref='x domain', yref="y domain", x=0.4, y=1.13, font_size=14,
                   text="<i>Video Dengan Kategori Music & Entertainment Trending Lebih Lama</i>", showarrow=False)

fig.show()

**Penjelasan**


---


> Sebagian besar video yang muncul lebih dari 30 hari berasal dari kategori *Entertainment* dan *Music*, yang berarti **video dalam kategori ini dapat memiliki tren yang lebih panjang dibandingkan dengan kategori lainnya**. Beberapa video dalam kategori *People & Blogs* juga memiliki jumlah kemunculan ulang yang tinggi.

---


##🏆 **Video Trending Youtube Teratas Tahun 2022**



> Video Trending YouTube Teratas Tahun 2022 merujuk pada daftar video yang paling banyak mendapat perhatian dan interaksi pada tahun tersebut di platform YouTube. Video-video ini muncul di halaman trending karena memiliki tingkat penayangan, interaksi, dan pembicaraan yang tinggi, baik dari segi komentar, like, maupun share. Analisis terhadap video-video trending ini memberikan wawasan mengenai jenis konten yang paling diminati oleh audiens, tren yang berkembang, serta pola perilaku penonton selama tahun tersebut. Faktor-faktor seperti viralitas, topik populer, atau bahkan kolaborasi dengan influencer turut mempengaruhi posisi video pada tren ini.



In [None]:
# @title 📊 Tabel Markdown {"display-mode":"form"}
video_trending = trending_2022['video_id'].value_counts()
top_video = video_trending[video_trending==video_trending.max()].index
top_video_df = trending_2022.query('video_id in @top_video').drop_duplicates(subset='video_id', keep='last')
top_video_df = top_video_df[['videoTitle', 'channel_name', 'categoryTitle', 'thumbnail_url']]

def generate_md_table(vid_infos_df):
    print("| Judul Video | Channel | Kategori | Thumbnail |")
    print("| :---------: | :-----: | :------: | :-------: |")
    for index, info in top_video_df.iterrows():
        new_info = "|".join(list(info.values))
        new_info = new_info.replace("https","![thumnbail](https") + ")"
        print("|", new_info ,"|")

generate_md_table(top_video_df)

| Judul Video | Channel | Kategori | Thumbnail |
| :---------: | :-----: | :------: | :-------: |
| Yura Yunita - Tutur Batin (Official Music Video)|YURA YUNITA|Music|![thumnbail](https://i.ytimg.com/vi/hLz4xOo7MGQ/hqdefault.jpg) |
| Yeni Inka - PECAH SERIBU (Official MV) Hanya Dia Yang Ada Diantara Jantung Hati|Aneka Safari Records|Music|![thumnbail](https://i.ytimg.com/vi/vuijmH64lrU/hqdefault.jpg) |
| TANGMO NIDA: UPDATE PENEMUAN BUKTI2 TERBARU!! | #NERROR [Part 2]|Nessie Judge|Comedy|![thumnbail](https://i.ytimg.com/vi/jhrcAzwjWm0/hqdefault.jpg) |
| HEBOH PAK MUH JUALAN BAKSO MERCON FULL CABE RAWIT GONDRONG!! 1 JAM LANGSUNG ABESS!!|Farida Nurhan|People & Blogs|![thumnbail](https://i.ytimg.com/vi/EwJYJsnv94c/hqdefault.jpg) |
| PANTJORAN STREET FOOD  FT. JESS NOLIMIT & SISCA KOHL|Jessica Jane|Entertainment|![thumnbail](https://i.ytimg.com/vi/FGCx2WBgBYQ/hqdefault.jpg) |
| MUKBANG (FT. MONSTER MUKBANG) SAMYANG 7 BUNGKUS, TELOR 10 BUTIR, KFC 1 BUCKET & SPAM 2 KALENG!!|Jonathan Liandi|E

| Judul Video | Channel | Kategori | Thumbnail |
| :---------: | :-----: | :------: | :-------: |
| Yura Yunita - Tutur Batin (Official Music Video)|YURA YUNITA|Music|![thumnbail](https://i.ytimg.com/vi/hLz4xOo7MGQ/hqdefault.jpg) |
| Yeni Inka - PECAH SERIBU (Official MV) Hanya Dia Yang Ada Diantara Jantung Hati|Aneka Safari Records|Music|![thumnbail](https://i.ytimg.com/vi/vuijmH64lrU/hqdefault.jpg) |
| TANGMO NIDA: UPDATE PENEMUAN BUKTI2 TERBARU!! #NERROR [Part 2]|Nessie Judge|Comedy|![thumnbail](https://i.ytimg.com/vi/jhrcAzwjWm0/hqdefault.jpg) |
| HEBOH PAK MUH JUALAN BAKSO MERCON FULL CABE RAWIT GONDRONG!! 1 JAM LANGSUNG ABESS!!|Farida Nurhan|People & Blogs|![thumnbail](https://i.ytimg.com/vi/EwJYJsnv94c/hqdefault.jpg) |
| PANTJORAN STREET FOOD  FT. JESS NOLIMIT & SISCA KOHL|Jessica Jane|Entertainment|![thumnbail](https://i.ytimg.com/vi/FGCx2WBgBYQ/hqdefault.jpg) |
| MUKBANG (FT. MONSTER MUKBANG) SAMYANG 7 BUNGKUS, TELOR 10 BUTIR, KFC 1 BUCKET & SPAM 2 KALENG!!|Jonathan Liandi|Entertainment|![thumnbail](https://i.ytimg.com/vi/6ycmgzMMWqw/hqdefault.jpg) |
| JEJE PENGHUNI STASIUN DUKUH ATAS, PERNAH CABUT DARI RUMAH???|Fuji an|Entertainment|![thumnbail](https://i.ytimg.com/vi/sJkojTQhUyc/hqdefault.jpg) |
| Toleransi antar tetangga di Korea🇰🇷.. 🤦🏻‍♂️|Korea Reomit|People & Blogs|![thumnbail](https://i.ytimg.com/vi/3xRRa0AjP3w/hqdefault.jpg) |

**Penjelasan**


---


> **Semua video di atas bertahan selama 37 hari di halaman trending.** Seperti yang telah terlihat sebelumnya, video dalam kategori *Entertainment*, *Music*, dan *People & Blogs* cenderung memiliki jumlah kemunculan ulang yang lebih tinggi dibandingkan dengan kategori lainnya.

---


##🎬 **Channel Dengan Kemunculan Video Terbanyak Di Trending**



> Channel dengan Kemunculan Video Terbanyak di Trending mengacu pada analisis terhadap channel-channel yang paling sering menampilkan video mereka di halaman trending. Dengan memeriksa channel-channel ini, kita dapat mengidentifikasi konten yang konsisten menarik perhatian audiens dan mendapatkan posisi trending. Hal ini memberikan wawasan tentang strategi pembuatan konten, konsistensi dalam kualitas video, serta daya tarik dari channel tersebut yang berhasil menonjol di tengah banyaknya video yang terunggah. Analisis ini juga bisa menunjukkan pola dalam perilaku pengguna, di mana channel tertentu mungkin lebih sering muncul karena genre atau tema konten yang sedang populer.



In [None]:
# @title 📊 Diagram Batang Horizontal {"display-mode":"form"}
top_channels = trending_2022.groupby(['channel_id', 'channel_name']).count()['video_id'].sort_values(ascending=False)
top_channels = top_channels[:10].reset_index()

list_kategori = []
for id in top_channels['channel_id']:
    unique_videos = trending_2022.query('channel_id == @id').drop_duplicates(subset='video_id')
    category = unique_videos['categoryTitle'].max()
    list_kategori.append(category)
top_channels['Kategori'] = list_kategori

fig = px.bar(top_channels, y='channel_name', x="video_id", text_auto=True, color='Kategori',
             title="Channel Dengan Kemunculan Video Terbanyak Di Trending",
             labels={"video_id":"Kemunculan Video Di Trending", "channel_name":"Nama Channel"},
             hover_data={"Kategori": True}
             )

fig.update_yaxes(categoryorder='total ascending', showline=True, linecolor='darkgrey')
fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_traces(
                  marker_line_width=0.2,
                  marker_line_color="black",
                  )

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=800,
                  template='plotly_white'
                  )

fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.13, font_size=14,
                   text="<i>Kategori Entertaintment Lebih Mendominasi</i>", showarrow=False)

fig.show()

**Penjelasan**


---


> Dari 10 channel teratas dengan jumlah kemunculan video terbanyak di halaman trending, **channel YouTube dengan kategori *Entertainment* dan *Music* mendominasi**. Menariknya, konten video dari channel Nihongo Mantappu yang notabene merupakan channel dengan kategori *People & Blogs* menjadi yang paling sering muncul pada halaman trending. Disisi lain, SMTOWN adalah satu-satunya channel YouTube non-Indonesia dalam daftar tersebut.

---


##🔠 **Keyword Teratas Pada Judul Video Trending**



> Keyword Teratas pada Judul Video Trending mengacu pada analisis kata kunci yang paling sering muncul di judul video yang muncul di halaman trending YouTube. Dengan memeriksa kata kunci yang paling umum digunakan, kita dapat mengidentifikasi topik atau tema yang paling banyak menarik perhatian audiens. Keyword ini bisa mencerminkan tren populer, seperti nama selebriti, acara besar, atau topik viral yang sedang hangat dibicarakan.



In [None]:
# @title 📊 Tree Map Diagram {"display-mode":"form"}
tokenizer = nltk.RegexpTokenizer(r"\w+")
stop_words_id = StopWordRemoverFactory().get_stop_words()
stop_words_en = stopwords.words('english')
stop_words = set(stop_words_id + stop_words_en)
stop_words.update(['part'])

# Function to remove stopwords
def clean_gram(gram, stop_words):
    for word in gram:
        if word in stop_words:
            return False
    return True

# Function to convert bigram from set into string
def stringify_bigram(bigram):
    str_bigram = str(bigram).replace("(","").replace(")","").replace("'","").replace(",","").title()
    return str_bigram

# Konversi Judul menjadi huruf kecil, dan split menjadi kata per kata
titles = trending_2022['videoTitle'].str.lower()
# Buat list bigrams (kombinasi dua kata)
titles = titles.apply(lambda x: tokenizer.tokenize(x))
titles = titles.apply(lambda x: (list(nltk.bigrams(x))))

titles_bigrams_count = titles.explode().value_counts()
titles_bigrams_count = titles_bigrams_count.reset_index()
titles_bigrams_count.columns = ['Bigram', 'Appearances']
filter = titles_bigrams_count['Bigram'].apply(lambda x: clean_gram(x, stop_words))
titles_bigrams_count = titles_bigrams_count[filter]
titles_bigrams_count['Bigram'] = titles_bigrams_count['Bigram'].apply(stringify_bigram)

# Make a top 20 list and categorize the bigrams
top_20_bigrams = titles_bigrams_count[:20].reset_index(drop=True)
top_20_bigrams['Category'] = ["Music"] * 20
top_20_bigrams.loc[[6, 7, 11, 12, 13],'Category'] = 'Other'
filter = top_20_bigrams['Category'] == 'Music'
top_20_bigrams.loc[filter, 'Music Genre'] = "Non-specific"
top_20_bigrams.loc[[4, 5, 15, 17, 18, 19],'Music Genre'] = 'Dangdut'
top_20_bigrams.loc[[16],'Music Genre'] = 'Kpop'
top_20_bigrams = top_20_bigrams.fillna('NA')

fig = px.treemap(top_20_bigrams,
                 path=[px.Constant('<b>Keywords</b>'), 'Bigram'],
                 values='Appearances',
                 color='Music Genre',
                 color_discrete_map={'(?)':'#87e1e1', 'Dangdut':'#ffd154', 'NA':'#15cf6b' ,'Kpop':'#d9590f' , 'Non-specific':'#1F77B4' },
                 title='20 Keyword Teratas Pada Judul Video Trending')

fig.update_traces(textinfo='label+value',
                  hovertemplate='Keyword: %{label}<br>Jumlah: %{value}<br>Music Genre: %{customdata[0]}<extra></extra>',
                  marker_line_width=2
                  )

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  height = 700,
                  width=800,
                  template='plotly_white'
                  )

fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=-0.04, font_size=12,
                   text= "🟦: Musik (Umum)     🟨: Dangdut     🟥: Kpop     🟩: Lainnya (Bukan Musik)", showarrow=False)
fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=-0.08, font_size=12,
                   text= "Angka Menunjukan Jumlah Kemunculan Video Trending", showarrow=False)
fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.09, font_size=14,
                   text="<i>Mayoritas Keyword Teratas Berhubungan dengan Kategori Musik dan Genre Dangdut</i>", showarrow=False)

fig.show()

**Penjelasan**


---

> **Banyak keyword judul teratas yang terkait dengan musik**, hal ini dapat terjadi disebabkan oleh dua berikut ini:
  *   Video dengan kategori *Music* sering muncul di halaman trending.
  *   Video dengan kategori *Music* sering mencantumkan istilah serupa dalam judulnya.
<br><br> Selain itu, terdapat beberapa keyword yang terkait dengan konten Dangdut, yang menunjukkan popularitas musik Dangdut pada tahun 2022.

---


##🏷️ **Tag Teratas Pada Video Trending**



> Tag Teratas pada Video Trending mengacu pada analisis tag yang paling sering digunakan pada video yang muncul di halaman trending. Dengan memeriksa tag yang sering muncul pada video trending, kita dapat mengidentifikasi topik, tren, atau kata kunci yang paling menarik perhatian audiens. Hal ini juga memberikan wawasan tentang bagaimana konten yang sedang populer di platform dapat dikaitkan dengan pencarian dan preferensi pengguna.



In [None]:
# @title 📊 Diagram Batang {"display-mode":"form"}

# Ekstrak tag dari setiap kolom dan split
tags = trending_2022['tags'].str.lower()
tags = tags.str.replace("[", "").str.replace("]", "").str.replace("'", "")
tags = tags.str.split(", ")
tag_count = tags.explode().value_counts()
tag_count = tag_count.drop('tidak ditulis')
tag_count = tag_count[:10]
tag_count.index = tag_count.index.str.title()

fig = px.bar(tag_count, title="10 Tag Teratas Pada Video Trending",
             labels={"value":"Jumlah", "tags":"Tags"}, color='value',
             color_continuous_scale="purp", text_auto=True, width=750)

fig.data[0].x = [s.replace('Denny Caknan', 'Denny<br>Caknan') for s in fig.data[0].x]
fig.update_yaxes(showline=True, linecolor='darkgrey')
fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_traces(hovertemplate="Tags : %{x}<br>Jumlah : %{y}<extra></extra>")

fig.add_vrect(
              x0=2.5,
              x1=9.5,
              fillcolor="#FD78B5",
              opacity=0.4,
              line_width=0,
              layer='below')

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=800,
                  template='plotly_white',
                  showlegend=False,
                  coloraxis_showscale=False
                  )

fig.add_annotation(x=6, y=4500,
                   text="Tags berhubungan dengan music dan entertainment", showarrow=False)
fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.13, font_size=14,
                   text="<i>Tag teratas didominasi oleh music dan entertainment</i>", showarrow=False)

fig.show()

**Penjelasan**


---


> **Menambahkan tag dapat meningkatkan peringkat video di hasil pencarian yang diharapkan dapat menarik lebih banyak penonton.** Karena sebagian besar video trending berasal dari Indonesia, maka wajar jika Indonesia menjadi tag yang paling sering muncul di video trending. Tag kedua dan ketiga (trending dan viral) tidak terlalu deskriptif, namun mungkin dapat meningkatkan visibilitas konten. Sisa tag lainnya sebagian besar terkait dengan *Entertainment* dan *Music*, yang lebih spesifik dalam menggambarkan isi video. Dangdut adalah genre musik, dan Denny Caknan adalah kreator konten musik Dangdut. Lucu berarti *funny* dalam bahasa Inggris.
---




##🔤 **Rasio Huruf Kapital Pada Judul Video Trending**



> Rasio Huruf Kapital pada Judul Video Trending mengacu pada proporsi huruf kapital yang digunakan dalam judul video yang muncul di halaman trending. Analisis ini bertujuan untuk mengidentifikasi apakah ada pola khusus terkait penggunaan huruf kapital dalam menarik perhatian audiens atau mempengaruhi peringkat video di halaman trending. Dengan memeriksa frekuensi penggunaan huruf kapital, kita dapat memperoleh wawasan tentang strategi penulisan judul yang mungkin lebih efektif dalam menarik perhatian atau memenuhi preferensi algoritma platform seperti YouTube.






In [None]:
# @title 📊 Histogram {"display-mode":"form"}
vidtitle = trending_2022[['videoTitle']].copy()
vidtitle['huruf'] = vidtitle['videoTitle'].str.findall('[a-zA-Z]')
vidtitle['kapital'] = vidtitle['videoTitle'].str.findall('[A-Z]')
vidtitle['jumlah_huruf'] = vidtitle['huruf'].apply(lambda x: len(x))
vidtitle['jumlah_kapital'] = vidtitle['kapital'].str.len()
vidtitle['rasio'] = vidtitle['jumlah_kapital'] / vidtitle['jumlah_huruf']

fig = px.histogram(vidtitle['rasio'], title="Rasio Huruf Kapital Pada Judul Video Trending",
                   labels={"value":"Rasio Huruf Kapital"}, nbins=25,)

fig.update_xaxes(showline=True, linecolor='darkgrey')
fig.update_yaxes(title='Jumlah Video', showline=True, linecolor='darkgrey')
fig.update_traces(hovertemplate="Rasio : %{x}<br>Jumlah Video : %{y}<extra></extra>")

fig.update_layout(
                  title={'x': 0.5,
                        'xanchor': 'center',
                        'font_family': 'Arial Black',
                        'font_size': 18,
                        },
                  width=800,
                  template='plotly_white',
                  showlegend=False,
                  )

fig.add_annotation(xref='x domain', yref="y domain", x=0.5, y=1.13, font_size=14,
                   text="<i>Video dengan huruf kapital diseluruh judulnya mendominasi trending</i>", showarrow=False)
fig.add_annotation(x=1, y=20500,
                  text="Video dengan huruf kapital diseluruh judulnya",
                  showarrow=True,
                  arrowhead=2, ax=-200, ay=0)

fig.show()

**Penjelasan**


---


> Terdapat dua mode untuk rasio huruf kapital dalam judul, yaitu satu dengan rasio 0.125-0.225 dan yang lainnya dengan rasio 0.95-1. Sepertinya, **judul yang sepenuhnya menggunakan huruf kapital dapat membantu video untuk mendapatkan lebih banyak perhatian**.

---


##🎬 **Penutup**


###💡 **Kesimpulan**

Dalam analisis ini, kita telah mengeksplorasi berbagai faktor yang berkontribusi terhadap munculnya video di halaman Trending YouTube Indonesia tahun 2022. Dari distribusi data hingga pola keterlibatan pengguna, beberapa temuan utama dapat disimpulkan:

*   **Engagement dan Korelasi** 📈 : Terdapat hubungan erat antara jumlah views, likes, dan comments, tetapi durasi video tidak berpengaruh signifikan terhadap popularitas.
*   **Kategori dan Resolusi** 🎭🎵 : Video dari kategori Entertainment dan Music mendominasi trending, sementara resolusi HD lebih sering muncul dibandingkan SD.
*   **Waktu dan Hari Publikasi** ⏳📆 : Video yang diunggah pada sore hari (16:00-20:00) dan hari Jumat memiliki peluang lebih besar untuk masuk trending.
*   **Daya Tahan di Trending** 🔥 : Sebagian besar video hanya bertahan sebentar di trending, tetapi kategori tertentu seperti Entertainment dan Music memiliki umur trending yang lebih lama.
*   **Keyword, Tag, dan Format Judul** 🔤🏷️ : Penggunaan kata kunci yang relevan, tag yang strategis, dan huruf kapital dalam judul dapat meningkatkan daya tarik sebuah video.

###💡 **Implikasi dan Saran**

Hasil analisis ini dapat memberikan wawasan bagi kreator konten untuk meningkatkan peluang videonya masuk Trending di YouTube Indonesia. Dengan memahami pola engagement, memilih waktu unggah yang optimal, serta menggunakan strategi judul dan tag yang efektif, kreator dapat mengoptimalkan visibilitas kontennya.

Penelitian ini masih dapat dikembangkan lebih lanjut, misalnya dengan menganalisis sentimen komentar atau pola distribusi algoritma YouTube yang lebih kompleks. Semoga notebook ini bermanfaat bagi para peneliti data, kreator konten, maupun siapa saja yang tertarik memahami tren YouTube Indonesia! 🚀📹