# EDA Datasets Youtube

## Datasets Yang Digunakan
</br></br>
Datasets yang digunakan adalah datasets video Youtube yang bersumber dari Kaggle dengan link sebagai berikut : <br>https://www.kaggle.com/datasnaek/youtube-new yang diupload oleh Mitchell J.

Datasets ini mencakup 200+ data video yang dianggap mengalami 'daily trending' per harinya oleh YouTube yang diambil sejak -. 

Untuk menentukan trending tidaknya video, YouTube menggunakan berbagai kombinasi faktor seperti berapa jumlah view, jumlah share, jumlah komentar, jumlah likes, dan lain sebagainya. Tetapi perlu digarisbawahi bahwa menurut majalah ternama Variety dengan link artikel sebagai berikut http://variety.com/2017/digital/news/youtube-2017-top-trending-videos-music-videos-1202631416/ <b>video yang dianggap mengalami trend oleh YouTube bukanlah video yang memiliki viewer terbanyak</b>.

Datasets tersebut diambil dengan menggunakan YouTube API dari sourcecode yang berasal dari link sebagai berikut :
https://github.com/DataSnaek/Trending-YouTube-Scraper

Datasets yang digunakan dalam eksplorasi dibatasi menjadi 3 wilayah/region Canada (CA), Great Britain (GB), dan United States (US).


Jenis dari datasets dari ketiga region tersebut adalah sama yaitu : <b>
 - Data video dengan format .csv <br>
 - Data kategori dengan format .json</b>

## Import library dan load datasets
Import library <b>Pandas</b> dan library lain yang diperlukan untuk membaca datasets .csv dan .json. <br/><br/>
Datasets yang diload adalah sebagai berikut : <b>
- CA_category_id.json
- CAvideos.csv
- GB_category_id.json
- GBvideos.csv
- US_category_id.json
- USvideos.csv </b>

Datasets tersebut diubah menjadi dataframe terlebih dahulu dengan library Pandas agar dapat diolah.

In [1]:
#Import library
import pandas as pd
import json as js
from pandas.io.json import json_normalize

#import matplotlib
import matplotlib.pyplot as plt

import numpy as np

# import seaborn
import seaborn as sns
%matplotlib inline

In [2]:
#load datasets CA
dfCAvideos = pd.read_csv("datasets/CAvideos.csv")
with open("datasets/CA_category_id.json") as file:    
    jsCAcategory = js.load(file)

#Load datasets GB
dfGBvideos = pd.read_csv("datasets/GBvideos.csv")
with open("datasets/GB_category_id.json") as file:    
    jsGBcategory = js.load(file)
    
#Load datasets US
dfUSvideos = pd.read_csv("datasets/USvideos.csv")
with open("datasets/US_category_id.json") as file:    
    jsUScategory = js.load(file)

# set option agar float dapat ditampilkan seluruhnya
pd.set_option('float_format', '{:f}'.format)

In [3]:
dfCAvideos.dtypes

video_id                  object
trending_date             object
title                     object
channel_title             object
category_id                int64
publish_time              object
tags                      object
views                      int64
likes                      int64
dislikes                   int64
comment_count              int64
thumbnail_link            object
comments_disabled           bool
ratings_disabled            bool
video_error_or_removed      bool
description               object
dtype: object

In [4]:
dfGBvideos.dtypes

video_id                  object
trending_date             object
title                     object
channel_title             object
category_id                int64
publish_time              object
tags                      object
views                      int64
likes                      int64
dislikes                   int64
comment_count              int64
thumbnail_link            object
comments_disabled           bool
ratings_disabled            bool
video_error_or_removed      bool
description               object
dtype: object

In [5]:
dfUSvideos.dtypes

video_id                  object
trending_date             object
title                     object
channel_title             object
category_id                int64
publish_time              object
tags                      object
views                      int64
likes                      int64
dislikes                   int64
comment_count              int64
thumbnail_link            object
comments_disabled           bool
ratings_disabled            bool
video_error_or_removed      bool
description               object
dtype: object

## Dataset Video
Dataset video adalah dataset video YouTube yang terdiri dari kolom sebagai berikut :
 - <b>video_id</b> (ID Video) </br>
 - <b>trending_date</b> (Tanggal Trending) </br>
 - <b>title</b> (Judul Video) </br>
 - <b>channel_title</b> (Nama Channel)</br>
 - <b>category_id</b> (ID Kategori) </br>
 - <b>publish_time</b> (Tanggal Upload) <br>
 - <b>tags</b> (Tag-tag) </br>
 - <b>views</b> (Jumlah Penonton) </br>
 - <b>likes</b> (Jumlah yang Menyukai Video) </br>
 - <b>dislikes</b> (Jumlah yang Tidak Menyukai Video) </br>
 - <b>comment_count</b> (Jumlah Komentar) </br>
 - <b>thumbnail_link</b> (Link Thumbnail) </br>
 - <b>comments_disabled</b> (Status Kolom Komentar) </br>
 - <b>ratings_disabled</b> (Status Rating) </br>
 - <b>video_error_or_removed</b> (Status Video Error/Dihapus) </br>
 - <b>description</b> (Deskripsi Video)
 
Dataset video dari 3 region adalah sebagai berikut :
- CAvideos.csv (dataset video region Canada)
- GBvideos.csv (dataset video region Great Britain)
- USvideos.csv (dataset video region United States)

Karena ke-3nya berformat .csv maka dapat diubah menjadi dataframe dengan sintaks pd.read_csv seperti yang dilakukan di cell sebelumnya.

#### Karena kolom trending_date pada semua data video adalah string dengan format year.month.day (contoh : 17.11.14), maka objek dari kolom tersebut perlu diubah menjadi bentuk datetime

In [6]:
dfCAvideos['trending_date'] =  pd.to_datetime(dfCAvideos['trending_date'], format='%y.%d.%m')
dfGBvideos['trending_date'] =  pd.to_datetime(dfGBvideos['trending_date'], format='%y.%d.%m')
dfUSvideos['trending_date'] =  pd.to_datetime(dfUSvideos['trending_date'], format='%y.%d.%m')

### Data Video Region Canada
Berikut adalah data video dari region Canada :

In [7]:
dfCAvideos.head()

Unnamed: 0,video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description
0,n1WpP7iowLc,2017-11-14,Eminem - Walk On Water (Audio) ft. Beyoncé,EminemVEVO,10,2017-11-10T17:00:03.000Z,"Eminem|""Walk""|""On""|""Water""|""Aftermath/Shady/In...",17158579,787425,43420,125882,https://i.ytimg.com/vi/n1WpP7iowLc/default.jpg,False,False,False,Eminem's new track Walk on Water ft. Beyoncé i...
1,0dBIkQ4Mz1M,2017-11-14,PLUSH - Bad Unboxing Fan Mail,iDubbbzTV,23,2017-11-13T17:00:00.000Z,"plush|""bad unboxing""|""unboxing""|""fan mail""|""id...",1014651,127794,1688,13030,https://i.ytimg.com/vi/0dBIkQ4Mz1M/default.jpg,False,False,False,STill got a lot of packages. Probably will las...
2,5qpjK5DgCt4,2017-11-14,"Racist Superman | Rudy Mancuso, King Bach & Le...",Rudy Mancuso,23,2017-11-12T19:05:24.000Z,"racist superman|""rudy""|""mancuso""|""king""|""bach""...",3191434,146035,5339,8181,https://i.ytimg.com/vi/5qpjK5DgCt4/default.jpg,False,False,False,WATCH MY PREVIOUS VIDEO ▶ \n\nSUBSCRIBE ► http...
3,d380meD0W0M,2017-11-14,I Dare You: GOING BALD!?,nigahiga,24,2017-11-12T18:01:41.000Z,"ryan|""higa""|""higatv""|""nigahiga""|""i dare you""|""...",2095828,132239,1989,17518,https://i.ytimg.com/vi/d380meD0W0M/default.jpg,False,False,False,I know it's been a while since we did this sho...
4,2Vv-BfVoq4g,2017-11-14,Ed Sheeran - Perfect (Official Music Video),Ed Sheeran,10,2017-11-09T11:04:14.000Z,"edsheeran|""ed sheeran""|""acoustic""|""live""|""cove...",33523622,1634130,21082,85067,https://i.ytimg.com/vi/2Vv-BfVoq4g/default.jpg,False,False,False,🎧: https://ad.gt/yt-perfect\n💰: https://atlant...


In [8]:
dfCAvideos.shape

(40881, 16)

Berdasarkan pengecekan data video dari region Canada memiliki dimensi <b>40881 baris x 16 kolom</b>.

### Data Video Region Great Britain
Berikut adalah data video dari region Great Britain :

In [9]:
dfGBvideos.head()

Unnamed: 0,video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description
0,Jw1Y-zhQURU,2017-11-14,John Lewis Christmas Ad 2017 - #MozTheMonster,John Lewis,26,2017-11-10T07:38:29.000Z,"christmas|""john lewis christmas""|""john lewis""|...",7224515,55681,10247,9479,https://i.ytimg.com/vi/Jw1Y-zhQURU/default.jpg,False,False,False,Click here to continue the story and make your...
1,3s1rvMFUweQ,2017-11-14,Taylor Swift: …Ready for It? (Live) - SNL,Saturday Night Live,24,2017-11-12T06:24:44.000Z,"SNL|""Saturday Night Live""|""SNL Season 43""|""Epi...",1053632,25561,2294,2757,https://i.ytimg.com/vi/3s1rvMFUweQ/default.jpg,False,False,False,Musical guest Taylor Swift performs …Ready for...
2,n1WpP7iowLc,2017-11-14,Eminem - Walk On Water (Audio) ft. Beyoncé,EminemVEVO,10,2017-11-10T17:00:03.000Z,"Eminem|""Walk""|""On""|""Water""|""Aftermath/Shady/In...",17158579,787420,43420,125882,https://i.ytimg.com/vi/n1WpP7iowLc/default.jpg,False,False,False,Eminem's new track Walk on Water ft. Beyoncé i...
3,PUTEiSjKwJU,2017-11-14,Goals from Salford City vs Class of 92 and Fri...,Salford City Football Club,17,2017-11-13T02:30:38.000Z,"Salford City FC|""Salford City""|""Salford""|""Clas...",27833,193,12,37,https://i.ytimg.com/vi/PUTEiSjKwJU/default.jpg,False,False,False,Salford drew 4-4 against the Class of 92 and F...
4,rHwDegptbI4,2017-11-14,Dashcam captures truck's near miss with child ...,Cute Girl Videos,25,2017-11-13T01:45:13.000Z,[none],9815,30,2,30,https://i.ytimg.com/vi/rHwDegptbI4/default.jpg,False,False,False,Dashcam captures truck's near miss with child ...


In [10]:
dfGBvideos.shape

(38916, 16)

Berdasarkan pengecekan data video dari region Great Britain memiliki dimensi <b>38916 baris x 16 kolom</b>.

### Data Video Region Great Britain
Berikut adalah data video dari region Great Britain :

In [11]:
dfUSvideos.head()

Unnamed: 0,video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description
0,2kyS6SvSYSE,2017-11-14,WE WANT TO TALK ABOUT OUR MARRIAGE,CaseyNeistat,22,2017-11-13T17:13:01.000Z,SHANtell martin,748374,57527,2966,15954,https://i.ytimg.com/vi/2kyS6SvSYSE/default.jpg,False,False,False,SHANTELL'S CHANNEL - https://www.youtube.com/s...
1,1ZAPwfrtAFY,2017-11-14,The Trump Presidency: Last Week Tonight with J...,LastWeekTonight,24,2017-11-13T07:30:00.000Z,"last week tonight trump presidency|""last week ...",2418783,97185,6146,12703,https://i.ytimg.com/vi/1ZAPwfrtAFY/default.jpg,False,False,False,"One year after the presidential election, John..."
2,5qpjK5DgCt4,2017-11-14,"Racist Superman | Rudy Mancuso, King Bach & Le...",Rudy Mancuso,23,2017-11-12T19:05:24.000Z,"racist superman|""rudy""|""mancuso""|""king""|""bach""...",3191434,146033,5339,8181,https://i.ytimg.com/vi/5qpjK5DgCt4/default.jpg,False,False,False,WATCH MY PREVIOUS VIDEO ▶ \n\nSUBSCRIBE ► http...
3,puqaWrEC7tY,2017-11-14,Nickelback Lyrics: Real or Fake?,Good Mythical Morning,24,2017-11-13T11:00:04.000Z,"rhett and link|""gmm""|""good mythical morning""|""...",343168,10172,666,2146,https://i.ytimg.com/vi/puqaWrEC7tY/default.jpg,False,False,False,Today we find out if Link is a Nickelback amat...
4,d380meD0W0M,2017-11-14,I Dare You: GOING BALD!?,nigahiga,24,2017-11-12T18:01:41.000Z,"ryan|""higa""|""higatv""|""nigahiga""|""i dare you""|""...",2095731,132235,1989,17518,https://i.ytimg.com/vi/d380meD0W0M/default.jpg,False,False,False,I know it's been a while since we did this sho...


In [12]:
dfUSvideos.shape

(40949, 16)

Berdasarkan pengecekan data video dari region United States memiliki dimensi <b>40849 baris x 16 kolom</b>.

### Menemukan Jumlah Video Yang Trending Per Hari

Dilakukan gruping berdasarkan trending_date terlebih dahulu, kemudian dilakukan count untuk mengetahui berapa row data dalam satu hari trending_date

In [13]:
#membuat dataframe baru dengan count yang menghitung berapa row data muncul berdasarkan trending_date pada datasets df videos
dfCAPerDay = pd.DataFrame(dfCAvideos.groupby('trending_date').count().reset_index())
dfGBPerDay = pd.DataFrame(dfGBvideos.groupby('trending_date').count().reset_index())
dfUSPerDay = pd.DataFrame(dfUSvideos.groupby('trending_date').count().reset_index())

dfCAPerDay.head()

Unnamed: 0,trending_date,video_id,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description
0,2017-11-14,200,200,200,200,200,200,200,200,200,200,200,200,200,200,194
1,2017-11-15,200,200,200,200,200,200,200,200,200,200,200,200,200,200,197
2,2017-11-16,200,200,200,200,200,200,200,200,200,200,200,200,200,200,193
3,2017-11-17,200,200,200,200,200,200,200,200,200,200,200,200,200,200,197
4,2017-11-18,200,200,200,200,200,200,200,200,200,200,200,200,200,200,193


In [14]:
#dilakukan filtering karena hanya membutuhkan 2 kolom saja
dfCAPerDay = dfCAPerDay.filter(['trending_date', 'video_id'])
dfGBPerDay = dfCAPerDay.filter(['trending_date', 'video_id'])
dfUSPerDay = dfCAPerDay.filter(['trending_date', 'video_id'])

#rename kolom menjadi counter
dfCAPerDay.columns = ['trending_date', 'counter']
dfGBPerDay.columns = ['trending_date', 'counter']
dfUSPerDay.columns = ['trending_date', 'counter']

dfCAPerDay.head(5)

Unnamed: 0,trending_date,counter
0,2017-11-14,200
1,2017-11-15,200
2,2017-11-16,200
3,2017-11-17,200
4,2017-11-18,200


#### Jumlah Video Per Hari Canada

In [15]:
dfCAPerDay["counter"].min()

171

In [16]:
dfCAPerDay["counter"].max()

200

In [17]:
dfCAPerDay["counter"].mean()

199.41951219512194

#### Jumlah Video Per Hari Great Britain

In [18]:
dfGBPerDay["counter"].min()

171

In [19]:
dfGBPerDay["counter"].max()

200

In [20]:
dfGBPerDay["counter"].mean()

199.41951219512194

#### Jumlah Video Per Hari United States

In [21]:
dfUSPerDay["counter"].min()

171

In [22]:
dfUSPerDay["counter"].max()

200

In [23]:
dfUSPerDay["counter"].mean()

199.41951219512194

### Jumlah Hari Masing-masing Region

CA

In [24]:
dfCAPerDay.shape

(205, 2)

In [25]:
dfCAPerDay['trending_date'].min()

Timestamp('2017-11-14 00:00:00')

In [26]:
dfCAPerDay['trending_date'].max()

Timestamp('2018-06-14 00:00:00')

GB

In [27]:
dfGBPerDay.shape

(205, 2)

In [28]:
dfGBPerDay['trending_date'].min()

Timestamp('2017-11-14 00:00:00')

US

In [29]:
dfUSPerDay.shape

(205, 2)

In [30]:
dfUSPerDay['trending_date'].min()

Timestamp('2017-11-14 00:00:00')

In [31]:
dfCAPerDay['trending_date'].max()

Timestamp('2018-06-14 00:00:00')

<b>------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</b>

## Dataset Kategori
Dataset kategori adalah dataset kategori video di Youtube.

Dataset kategori dari 3 region tersebut adalah :
- CA_category_id.json (dataset kategori video region Canada)
- GB_category_id.json (dataset kategori video region Great Britain)
- US_category_id.json (dataset kategori video region United States)

Karena dataset berformat .json maka perlu dilakukan transformasi untuk mengubahnya menjadi dataframe.

Mari melihat isi dari file kategori .json dari region Canada sebagai contoh.

In [32]:
jsCAcategory

{'kind': 'youtube#videoCategoryListResponse',
 'etag': '"ld9biNPKjAjgjV7EZ4EKeEGrhao/1v2mrzYSYG6onNLt2qTj13hkQZk"',
 'items': [{'kind': 'youtube#videoCategory',
   'etag': '"ld9biNPKjAjgjV7EZ4EKeEGrhao/Xy1mB4_yLrHy_BmKmPBggty2mZQ"',
   'id': '1',
   'snippet': {'channelId': 'UCBR8-60-B28hp2BmDPdntcQ',
    'title': 'Film & Animation',
    'assignable': True}},
  {'kind': 'youtube#videoCategory',
   'etag': '"ld9biNPKjAjgjV7EZ4EKeEGrhao/UZ1oLIIz2dxIhO45ZTFR3a3NyTA"',
   'id': '2',
   'snippet': {'channelId': 'UCBR8-60-B28hp2BmDPdntcQ',
    'title': 'Autos & Vehicles',
    'assignable': True}},
  {'kind': 'youtube#videoCategory',
   'etag': '"ld9biNPKjAjgjV7EZ4EKeEGrhao/nqRIq97-xe5XRZTxbknKFVe5Lmg"',
   'id': '10',
   'snippet': {'channelId': 'UCBR8-60-B28hp2BmDPdntcQ',
    'title': 'Music',
    'assignable': True}},
  {'kind': 'youtube#videoCategory',
   'etag': '"ld9biNPKjAjgjV7EZ4EKeEGrhao/HwXKamM1Q20q9BN-oBJavSGkfDI"',
   'id': '15',
   'snippet': {'channelId': 'UCBR8-60-B28hp2BmDPdnt

Berdasarkan pengecekan tersebut, dataset kategori memiliki susunan sebagai berikut :
 - kind<br>
 - etag<br>
 - id<br>
 - items<br>
 - snippet<br>
 - title<br>
 - assignable<br>

Kemudian ditemukan bahwa items adalah suatu list yang berisi kind, etag, id, snippet, title dan assignable.

### Mentransformasi data kategori JSON menjadi dataframe
Untuk keperluan analisis, yang dibutuhkan di sini adalah id kategori dan title / nama kategori. Maka 2 hal tersebut yang akan diekstrak kemudian dimasukkan ke dalam dataframe.

#### Normalisasi list items di data kategori
Karena yang dibutuhkan adalah id dan title di dalam list items, maka items harus dinormalisasi dengan menggunakan sintaks <b>json_normalize()</b>.
Dengan json_normalize, Pandas dapat mengambil objek JSON yang bersarang dan mengubahnya menjadi dataframe.

In [33]:
jsCAcatitem = json_normalize(jsCAcategory['items'])
jsGBcatitem = json_normalize(jsGBcategory['items'])
jsUScatitem = json_normalize(jsUScategory['items'])

Mari ambil contoh items yang telah dinormalisasi dari data kategori region Canada

In [34]:
jsCAcatitem.head()

Unnamed: 0,kind,etag,id,snippet.channelId,snippet.title,snippet.assignable
0,youtube#videoCategory,"""ld9biNPKjAjgjV7EZ4EKeEGrhao/Xy1mB4_yLrHy_BmKm...",1,UCBR8-60-B28hp2BmDPdntcQ,Film & Animation,True
1,youtube#videoCategory,"""ld9biNPKjAjgjV7EZ4EKeEGrhao/UZ1oLIIz2dxIhO45Z...",2,UCBR8-60-B28hp2BmDPdntcQ,Autos & Vehicles,True
2,youtube#videoCategory,"""ld9biNPKjAjgjV7EZ4EKeEGrhao/nqRIq97-xe5XRZTxb...",10,UCBR8-60-B28hp2BmDPdntcQ,Music,True
3,youtube#videoCategory,"""ld9biNPKjAjgjV7EZ4EKeEGrhao/HwXKamM1Q20q9BN-o...",15,UCBR8-60-B28hp2BmDPdntcQ,Pets & Animals,True
4,youtube#videoCategory,"""ld9biNPKjAjgjV7EZ4EKeEGrhao/9GQMSRjrZdHeb1OEM...",17,UCBR8-60-B28hp2BmDPdntcQ,Sports,True


#### Memasukkan isi dari items ke dalam dataframe
items dari semua dataset kategori dari ke-3 region dimasukkan menjadi dataframe agar mudah untuk dikelola

In [35]:
dfCAcategory = jsCAcatitem
dfGBcategory = jsGBcatitem
dfUScategory = jsUScatitem

<b>------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</b>

### Mentransformasi Data kategori Menjadi ID dan Nama Kategori Saja
ID dan nama category/snippet title dibutuhkan untuk dimerge dengan dataframe video. Maka harus dilakukan drop pada kolom yang tidak diperlukan pada dataframe.

In [36]:
dfCAcategory1 = dfCAcategory.drop(['etag','kind','snippet.assignable','snippet.channelId'], axis=1)
dfGBcategory1 = dfGBcategory.drop(['etag','kind','snippet.assignable','snippet.channelId'], axis=1)
dfUScategory1 = dfUScategory.drop(['etag','kind','snippet.assignable','snippet.channelId'], axis=1)

In [37]:
dfCAcategory1.head()

Unnamed: 0,id,snippet.title
0,1,Film & Animation
1,2,Autos & Vehicles
2,10,Music
3,15,Pets & Animals
4,17,Sports


kolom snippet.title direname menjadi title agar tidak membingungkan.

In [38]:
dfCAcategory1.rename(columns={'snippet.title': 'category'}, inplace=True)
dfGBcategory1.rename(columns={'snippet.title': 'category'}, inplace=True)
dfUScategory1.rename(columns={'snippet.title': 'category'}, inplace=True)

### Data Kategori Video Region Canada
Berikut adalah data kategori video region Canada setelah diubah menjadi dataframe :

In [39]:
dfCAcategory1

Unnamed: 0,id,category
0,1,Film & Animation
1,2,Autos & Vehicles
2,10,Music
3,15,Pets & Animals
4,17,Sports
5,18,Short Movies
6,19,Travel & Events
7,20,Gaming
8,21,Videoblogging
9,22,People & Blogs


In [40]:
dfCAcategory1.shape

(31, 2)

Berdasarkan pengecekan data kategori region Canada memiliki dimensi <b>31 baris x 2 kolom</b>.

### Data Kategori Video Region Great Britain
Berikut adalah data kategori video region Great Britain setelah diubah menjadi dataframe :

In [41]:
dfGBcategory1

Unnamed: 0,id,category
0,1,Film & Animation
1,2,Autos & Vehicles
2,10,Music
3,15,Pets & Animals
4,17,Sports
5,18,Short Movies
6,19,Travel & Events
7,20,Gaming
8,21,Videoblogging
9,22,People & Blogs


In [42]:
dfGBcategory1.shape

(31, 2)

Berdasarkan pengecekan data kategori region Great Britain memiliki dimensi <b>31 baris x 2 kolom</b>.

### Data Kategori Video Region United States
Berikut adalah data kategori video region Great Britain setelah diubah menjadi dataframe :

In [43]:
dfUScategory1

Unnamed: 0,id,category
0,1,Film & Animation
1,2,Autos & Vehicles
2,10,Music
3,15,Pets & Animals
4,17,Sports
5,18,Short Movies
6,19,Travel & Events
7,20,Gaming
8,21,Videoblogging
9,22,People & Blogs


In [44]:
dfUScategory1.shape

(32, 2)

<b>------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</b>

Berdasarkan pengecekan data kategori region Canada memiliki dimensi <b>31 baris x 2 kolom</b>.

### Persamaan & Perbedaan Data Kategori dari 3 region
Berdasarkan pengecekan dataframe kategori region Canada dan Great Britain adalah identik, sedangkan dataframe kategori dari United States berbeda dari keduanya.

In [45]:
dfCAcategory1.equals(dfGBcategory1)

True

In [46]:
dfGBcategory1.equals(dfUScategory1)

False

In [47]:
dfCek = pd.concat([dfCAcategory1,dfGBcategory1,dfUScategory1]).drop_duplicates(keep=False)
dfCek

Unnamed: 0,id,category
16,29,Nonprofits & Activism


Perbedaan yang didapatkan dengan melakukan concat adalah dataframe kategori United States memiliki satu title tambahan yaitu "Nonprofits & Activism" pada index ke-16.

Maka dari itu diputuskan bahwa data kategori dari 3 region ini <b>di-merge menjadi 1 dataframe</b> saja dengan pd.merge(x,y) dengan keterangan sebagai berikut :
- x = dataframe kategori US
- y = dataframe kategori CA

<b>------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</b>

### Merge Data Kategori

In [48]:
#merge
dfCategory = pd.merge(dfCAcategory1,dfUScategory1, how="right")

Dataframe 3 region disatukan menjadi dataframe <b>dfCategory</b>.

<b>------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</b>

### Sortir Data Kategori

Setelah dilakukan merge, didapatkan bahwa "id" tidak berurutan. Maka dari itu dilakukan sorting/sortir dengan .sort_values(). Tetapi agar dapat disortir, kolom "id" harus di-state terlebih dahulu bahwa data di kolom tersebut bertipe integer. Setelah, "id" disortir, perlu dilakukan pengindeksan ulang agar index menjadi berurutan kembali.

Berikut adalah <b>Data Kategori Utama</b> :

In [49]:
#Menstate kolom id sebagai data bertipe integer agar dapat disortir
dfCategory['id'] = dfCategory['id'].astype('int')

#Sortir
dfCategory.sort_values("id", ascending=True, inplace=True)

#Pengindexan ulang
dfCategory = dfCategory.reset_index(drop=True)

print("")
print("DATA KATEGORI UTAMA")

dfCategory


DATA KATEGORI UTAMA


Unnamed: 0,id,category
0,1,Film & Animation
1,2,Autos & Vehicles
2,10,Music
3,15,Pets & Animals
4,17,Sports
5,18,Short Movies
6,19,Travel & Events
7,20,Gaming
8,21,Videoblogging
9,22,People & Blogs


In [50]:
dfCategory.shape

(32, 2)

Berdasarkan pengecekan data kategori memiliki dimensi <b>32 baris x 2 kolom</b>

<b>------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</b>

## Membuat Ulang Data Kategori Sesuai Dengan Kategori Yang Ditemukan di Dataframe Videos

In [51]:
# drop kolom yang tidak perlu

#Canada
dfCA = dfCAvideos.drop([
    'trending_date','channel_title','publish_time','tags','thumbnail_link','comments_disabled','ratings_disabled',
  'video_error_or_removed','description'], axis=1)

#Great Britain
dfGB = dfGBvideos.drop([
    'trending_date','channel_title','publish_time','tags','thumbnail_link','comments_disabled','ratings_disabled',
  'video_error_or_removed','description'], axis=1)

#United States
dfUS = dfUSvideos.drop([
    'trending_date','channel_title','publish_time','tags','thumbnail_link','comments_disabled','ratings_disabled',
    'video_error_or_removed','description'], axis=1)

In [52]:
# mengelompokan berdasarkan id kategori
gCAvideo = dfCA.groupby('category_id')
gGBvideo = dfGB.groupby('category_id')
gUSvideo = dfUS.groupby('category_id')

#### Menemukan value unique pada id kategori region Canada
Kategori yang ada pada data video region Canada adalah kategori dengan ID :
 1, 2, 10, 15, 17, 19, 20, 22, 23, 24, 25, 26, 27, 28, 29, 30, 43

In [53]:
# menemukan value yang unik pada id kategori region canada
dfCA.category_id.unique()

a = dfCA.category_id.unique()
a.sort(axis=0)
a

array([ 1,  2, 10, 15, 17, 19, 20, 22, 23, 24, 25, 26, 27, 28, 29, 30, 43],
      dtype=int64)

#### ID Kategori yang tidak ada di region Canada adalah sebagai berikut :

In [54]:
sCat_ca = pd.Series(a)

print (pd.concat([dfCategory['id'],sCat_ca]).drop_duplicates(keep=False).to_string(index=False))

 18
 21
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 44


#### Menemukan value unique pada id kategori region Great Britain
Kategori yang ada pada data video region Great Britain adalah kategori dengan ID :
 1, 2, 10, 15, 17, 19, 20, 22, 23, 24, 25, 26, 27, 28, 29, 30, 43

In [55]:
# menemukan value yang unik pada id kategori region great britain
dfGB.category_id.unique()

b = dfGB.category_id.unique()
b.sort(axis=0)
b

array([ 1,  2, 10, 15, 17, 19, 20, 22, 23, 24, 25, 26, 27, 28, 29, 43],
      dtype=int64)

#### Kategori yang tidak ada di region Great Britain adalah sebagai berikut :

In [56]:
sCat_gb = pd.Series(b)

print (pd.concat([dfCategory['id'],sCat_gb]).drop_duplicates(keep=False).to_string(index=False))

 18
 21
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 44


#### Menemukan value unique pada id kategori region United States
Kategori yang ada pada data video region United States adalah kategori dengan ID :
 1, 2, 10, 15, 17, 19, 20, 22, 23, 24, 25, 26, 27, 28, 29, 30, 43

In [57]:
# menemukan value yang unik pada id kategori region us
dfUS.category_id.unique()

c = dfUS.category_id.unique()
c.sort(axis=0)
c

array([ 1,  2, 10, 15, 17, 19, 20, 22, 23, 24, 25, 26, 27, 28, 29, 43],
      dtype=int64)

#### Kategori yang tidak ada di region United States adalah sebagai berikut :

In [58]:
sCat_us = pd.Series(c)

print (pd.concat([dfCategory['id'],sCat_us]).drop_duplicates(keep=False).to_string(index=False))

 18
 21
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 44


In [59]:
# membuat data list dari array
data_cat_ca = {'id': dfCA.category_id.unique()}
data_cat_gb = {'id': dfGB.category_id.unique()} 
data_cat_us = {'id': dfUS.category_id.unique()} 

# memasukan data kategori ke dataframe
dfCAcat = pd.DataFrame(data_cat_ca)
dfGBcat = pd.DataFrame(data_cat_gb)
dfUScat = pd.DataFrame(data_cat_us)

In [60]:
# melakukan merge data kategori canada dengan dataframe kategori utama
dfCAcat1 = pd.merge(dfCategory,dfCAcat)
print("")
print("DATA KATEGORI DI CANADA")
dfCAcat1


DATA KATEGORI DI CANADA


Unnamed: 0,id,category
0,1,Film & Animation
1,2,Autos & Vehicles
2,10,Music
3,15,Pets & Animals
4,17,Sports
5,19,Travel & Events
6,20,Gaming
7,22,People & Blogs
8,23,Comedy
9,24,Entertainment


In [61]:
# melakukan merge data kategori great britain dengan dataframe kategori utama
dfGBcat1 = pd.merge(dfCategory,dfGBcat)
print("")
print("DATA KATEGORI DI GREAT BRITAIN")
dfGBcat1


DATA KATEGORI DI GREAT BRITAIN


Unnamed: 0,id,category
0,1,Film & Animation
1,2,Autos & Vehicles
2,10,Music
3,15,Pets & Animals
4,17,Sports
5,19,Travel & Events
6,20,Gaming
7,22,People & Blogs
8,23,Comedy
9,24,Entertainment


In [62]:
# melakukan merge data kategori united states dengan dataframe kategori utama
dfUScat1 = pd.merge(dfCategory,dfUScat)
print("")
print("DATA KATEGORI DI UNITED STATES")
dfUScat1


DATA KATEGORI DI UNITED STATES


Unnamed: 0,id,category
0,1,Film & Animation
1,2,Autos & Vehicles
2,10,Music
3,15,Pets & Animals
4,17,Sports
5,19,Travel & Events
6,20,Gaming
7,22,People & Blogs
8,23,Comedy
9,24,Entertainment


In [63]:
dfGBcat1.equals(dfUScat1)

True

In [64]:
dfGBcat1.equals(dfCAcat1)

False

### Ditemukan bahwa kategori video yang ada di data video Great Britain dan United States adalah identik, yaitu :
- 1	(Film & Animation)
- 2	(Autos & Vehicles)
- 10 (Music)
- 15 (Pets & Animals)
- 17 (Sports)
- 19 (Travel & Events)
- 20 (Gaming)
- 22 (People & Blogs)
- 23 (Comedy)
- 24 (Entertainment)
- 25 (News & Politics)
- 26 (Howto & Style)
- 27 (Education)
- 28 (Science & Technology)
- 29 (Nonprofits & Activism)
- 43 (Shows)

### Sedangkan data video Canada memiliki 1 kategori yang berbeda dari Great Britain dan United States, yaitu :
- 30 (Movies)

<b>------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------</b>

Pada tahap ini eksplorasi tiap negara akan dilakukan 3 notebook terpisah untuk memudahkan eksplorasi ke depannya.
Maka dari itu dataframe video di mana kolom trending date telah dibentuk ulang menjadi datetime serta kategori keseluruhan dan dataframe kategori setiap negara yang telah dibentuk ulang berdasarkan kategori yang memang ditemukan di dataframe video masing-masing negara perlu di-ekspor dengan format .csv agar dapat digunakan di notebook yang berbeda.

In [65]:
#Videos
dfCAvideos.to_csv(r'datasets\CAVideos-fixed.csv')
dfGBvideos.to_csv(r'datasets\GBVideos-fixed.csv')
dfUSvideos.to_csv(r'datasets\USVideos-fixed.csv')

#Categories
dfCategory.to_csv(r'datasets\Categories.csv')
dfCAcat1.to_csv(r'datasets\CACategories.csv')
dfGBcat1.to_csv(r'datasets\GBCategories.csv')
dfUScat1.to_csv(r'datasets\USCategories.csv')