# Step 1: Collecting the data

In [32]:
# Import standard libraries
import importlib
import numpy as np
from dotenv import load_dotenv

In [33]:
# Import .env variables
load_dotenv()

True

In [34]:
# Import self-written libraries
from lib import youtube, helpers

# Automatically reload libraries when changes are made
importlib.reload(youtube)
importlib.reload(helpers);

## 1.1 Retrieve data for hypothesis 1

Video’s met een expliciete CTA om een comment achter te laten, genereren significant meer comments dan video’s zonder die CTA.

In [35]:
# Get data for hypothesis 1
video_ids = np.array(['GYtUhykvOos','PkmUT16Um_0','JxWT-zYtcGg','rJbiY3S69ek','ewUjvz3nDj4','BDq4yJCRFcE','ih7RQ5lFwIY','Wm-Yk5bK_fk','4efyusOrx14','PUztndRNSU8','1QsVq3vlZsk'])  # These are the 11 video's selected for the experiment

# Get information about each video and calculate the corresponding metrics
exp_videos = youtube.get_generic_info(video_ids)
exp_metrics = youtube.get_metrics_over_time(exp_videos)
exp_videos = exp_videos.merge(exp_metrics, how='inner', on='id').set_index('id')
exp_videos.drop(columns=['publish_date_y'], inplace=True)
exp_videos.rename(columns={'publish_date_x': 'publish_date'}, inplace=True)

# Add manual annotations to the data
exp_videos['has_CTA'] = np.array([False, True, True, False, True, True, False, False, True, False, True])
exp_videos['is_beta'] = np.array([None, False, False, None, True, True, None, None, False, None, True])
exp_videos['university'] = np.array(['KUL', 'VUB', 'UA', 'VUB', 'UG', 'UG', 'UA', 'UG', 'VUB', 'UG', 'UA'])
exp_videos['gender'] = np.array([0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1]) # F=0, M=1
exp_videos['has_ambassador'] = np.array([True, True, False, False, False, False, False, False, False, False, False])

In [36]:
# Show data
exp_videos

Unnamed: 0_level_0,title,publish_date,duration,views,likes,dislikes,shares,comments,engagement,views_24h,...,engagement_rate_1w,engagement_rate_2w,engagement_rate_1m,engagement_rate_2m,engagement_rate_3m,has_CTA,is_beta,university,gender,has_ambassador
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
GYtUhykvOos,Is het erg als tieners bijna nooit met vriende...,2024-12-01T07:00:09Z,10:59,4359,101,2,51,13,3.74,1860,...,4.4,4.29,4.11,3.81,3.66,False,,KUL,0,True
PkmUT16Um_0,Hoe kan je helpen als je buur ernstig ziek is?...,2024-12-08T09:00:27Z,16:15,2021,37,0,30,3,3.46,851,...,4.62,4.16,4.02,3.25,3.43,True,False,VUB,0,True
JxWT-zYtcGg,Hoe zorgt Trump ervoor dat we minder eenzaam z...,2024-12-10T06:00:16Z,17:01,2254,40,5,23,2,2.66,831,...,2.61,2.6,2.89,2.87,2.74,True,False,UA,0,False
rJbiY3S69ek,Hoe kan je tijdens een superleuke vakantie toc...,2024-12-15T09:00:48Z,16:27,1263,23,1,26,1,3.88,560,...,5.64,5.38,5.17,4.79,4.51,False,,VUB,0,False
ewUjvz3nDj4,Waarom is een vlam niet vierkant? #dww24,2024-12-17T09:00:40Z,16:46,2123,45,2,28,4,3.53,750,...,4.11,4.06,3.82,3.74,3.72,True,True,UG,1,False
BDq4yJCRFcE,Waarom bestaat de winter?,2024-12-22T08:00:08Z,10:03,2120,52,0,18,9,3.73,1103,...,4.18,4.0,3.83,3.69,3.65,True,True,UG,0,False
ih7RQ5lFwIY,Waarom spelen bandjes op kerstmarkten zo vals?,2024-12-24T08:00:38Z,12:00,5997,107,0,100,10,3.62,1534,...,3.68,3.6,3.59,3.61,3.56,False,,UA,1,False
Wm-Yk5bK_fk,Waarom is eten met een korstje lekkerder?,2024-12-29T09:00:28Z,12:48,2000,49,0,21,1,3.55,1003,...,3.36,3.66,3.61,3.56,3.55,False,,UG,1,False
4efyusOrx14,Helpt zebradrinken tegen een kater? #dww24,2024-12-31T09:00:04Z,13:15,2955,68,3,41,7,3.82,1086,...,4.59,4.28,4.06,3.97,3.77,True,False,VUB,0,False
PUztndRNSU8,Is het een goed idee om te trouwen met je best...,2025-01-05T09:00:22Z,14:44,4688,108,0,112,4,4.78,1605,...,5.1,4.99,4.89,4.97,4.83,False,,UG,0,False


In [37]:
# Save data to Excel file
exp_videos.to_excel('../output/exp_videos.xlsx')

## 1.2 Retrieve data for hypothesis 2 and 3

### 1.2.1 Retrieving video data

Data verzameling voor de video's van 2019 tot 2024.

In [38]:
# Get videos from 2019 tot 2024
video_ids = youtube.get_video_ids_in_period('2019-01-01', '2024-12-31')
len(video_ids)

496

In [39]:
# Get video data
videos = youtube.get_generic_info(np.array(video_ids))
videos.head()

Unnamed: 0_level_0,title,publish_date,duration,views,likes,dislikes,shares,comments,engagement
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
yan_6zQUIxg,Kan je een vallende ster voorspellen?,2024-09-01T08:00:40Z,10:41,3099,116,1,51,28,6.26
Gg4EbXPQx5A,Hoe kan je zijn wie je echt bent? #dewarmsteweek,2021-12-20T15:00:15Z,15:33,18982,263,8,653,8,4.83
wlp4sxJv2ZA,Is kernfusie de energiebron van de toekomst?,2021-02-04T15:00:21Z,15:43,19394,155,17,242,15,2.04
yA9m1rrgw5Y,CORONA: Waarom is het zo moeilijk om te zeggen...,2020-04-09T16:00:34Z,1:25,3832,29,5,33,1,1.51
AM3xRmezvdw,Kan je proper zijn zonder zeep?,2023-12-17T06:30:03Z,8:45,28102,184,6,115,7,1.07


In [40]:
videos.tail()

Unnamed: 0_level_0,title,publish_date,duration,views,likes,dislikes,shares,comments,engagement
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
BaGHfkhKobs,Daarom klinkt kerstmuziek altijd vals!,2024-12-25T10:00:14Z,0:16,636,10,2,3,0,1.73
dAwn-DgYYxs,Energiecrisis opgelost? #geothermie #WetenSNAP,2022-09-26T14:00:12Z,1:27,2595,35,4,30,2,2.43
cZUc6AD5E_g,KENNISMAKERS 3: Hoe werkt je brein je tegen al...,2023-01-07T19:24:08Z,49:27,13457,187,4,269,15,3.47
LpSlzN0uJ-I,Waarom blijven voetbaltalenten best in België?,2020-08-27T14:00:04Z,13:12,5674,41,4,42,3,1.45
yfYia2oRJUg,Mag je straks geen eigen kleren meer hebben?,2020-12-23T15:00:21Z,13:48,5460,52,18,110,10,2.82


In [41]:
# Get metrics for each video and over multiple time intervals
metrics = youtube.get_metrics_over_time(videos)
metrics.head()

Unnamed: 0,id,publish_date,views_24h,views_1w,views_2w,views_1m,views_2m,views_3m,likes_24h,likes_1w,...,comments_2w,comments_1m,comments_2m,comments_3m,engagement_rate_24h,engagement_rate_1w,engagement_rate_2w,engagement_rate_1m,engagement_rate_2m,engagement_rate_3m
0,yan_6zQUIxg,2024-09-01T08:00:40Z,1193,1874,2222,2503,2712,2813,74,91,...,25,25,25,25,10.23,7.9,7.25,6.79,6.53,6.43
1,Gg4EbXPQx5A,2021-12-20T15:00:15Z,4203,8885,9868,10709,11403,11835,92,136,...,9,10,11,11,6.35,5.21,5.1,5.28,5.23,5.18
2,wlp4sxJv2ZA,2021-02-04T15:00:21Z,2052,5243,5737,6352,6990,7492,49,61,...,11,11,11,12,3.65,2.0,2.18,2.19,2.42,2.48
3,yA9m1rrgw5Y,2020-04-09T16:00:34Z,943,1944,2313,2557,2830,2949,19,25,...,2,2,2,2,3.71,2.62,2.29,2.11,1.94,1.87
4,AM3xRmezvdw,2023-12-17T06:30:03Z,2623,18322,21411,22539,23333,23768,62,85,...,4,4,4,4,3.47,0.72,0.7,0.71,0.75,0.79


In [42]:
# Merge both dataframes together and remove/rename duplicate columns
videos = videos.merge(metrics, how='inner', on='id').set_index('id')
videos.drop(columns=['publish_date_y'], inplace=True)
videos.rename(columns={'publish_date_x': 'publish_date'}, inplace=True)

In [43]:
# Show video data
videos.head

<bound method NDFrame.head of                                                          title  \
id                                                               
yan_6zQUIxg              Kan je een vallende ster voorspellen?   
Gg4EbXPQx5A   Hoe kan je zijn wie je echt bent? #dewarmsteweek   
wlp4sxJv2ZA       Is kernfusie de energiebron van de toekomst?   
yA9m1rrgw5Y  CORONA: Waarom is het zo moeilijk om te zeggen...   
AM3xRmezvdw                    Kan je proper zijn zonder zeep?   
...                                                        ...   
BaGHfkhKobs             Daarom klinkt kerstmuziek altijd vals!   
dAwn-DgYYxs     Energiecrisis opgelost? #geothermie #WetenSNAP   
cZUc6AD5E_g  KENNISMAKERS 3: Hoe werkt je brein je tegen al...   
LpSlzN0uJ-I     Waarom blijven voetbaltalenten best in België?   
yfYia2oRJUg       Mag je straks geen eigen kleren meer hebben?   

                     publish_date duration  views  likes  dislikes  shares  \
id                               

In [44]:
# Save data to Excel file
videos.to_excel('../output/videos.xlsx')

### 1.2.2 Retrieving comments data

Data verzameling voor de comments van de video's van 2019 tot 2024.

In [45]:
# Get comments for the videos from the previous step
comments = youtube.get_video_comments(videos)
len(comments)

❌ Error fetching comments for video uimIND9pQsQ: <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/commentThreads?part=snippet%2Creplies&videoId=uimIND9pQsQ&maxResults=100&textFormat=plainText&alt=json returned "The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></code> parameter has disabled comments.". Details: "[{'message': 'The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></code> parameter has disabled comments.', 'domain': 'youtube.commentThread', 'reason': 'commentsDisabled', 'location': 'videoId', 'locationType': 'parameter'}]">
❌ Error fetching comments for video 3UPtmzhPlW0: <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/commentThreads?part=snippet%2Creplies&videoId=3UPtmzhPlW0&maxResults=100&textFormat=plainText&alt=json returned "The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a>

7453

In [46]:
# Anonymize comments
comments = helpers.anonymize_comments(comments)

In [47]:
# Translate comments to English using Google Translate API
comments_nl = comments['comment_nl'].tolist()
comments_google = [helpers.translate_with_google(comment) for comment in comments_nl]
comments['en_google'] = comments_google

❌ Translation error: zonder naar zijn betoog te luisteren - JA, er bestaat Vlaams dna ... het is natuurlijk weer het verhaal van de blinde en de olifant, want dna werd de schatkaart en het brein begon ermee te spelen - gelukkig spring ik niet gemakkelijk op die speed boot en werkte mijn man in de quality control ... dna is kwaliteitszorg op product niveau - dankzij ons dna zijn we gewapend tegen allerlei kwalen, die we in het verleden gezamenlijk hebben overwonnen, het zit dus in ons systeem en kosmische tijd behoedt on voor bokkensprongen, want het duurt 100.000 jaar om iets op structureel niveau te veranderen ... het is dus eerder een kwestie van ego's die denken het licht uitgevonden te hebben en wat dat betreft heeft de wetenschapper de priester vervangen, maar je kan voor hetzelfde geld logisch blijven denken en die doom denkers bewust maken van het collectieve systeem - de mens is nog lang niet uitgezongen. De ene golf breekt over een zich terugtrekkende golf - het rationeel auti

In [48]:
# Translate comments to English using DeepL API
comments_nl = comments['comment_nl'].tolist()
comments_deepl = [helpers.translate_with_deepl(comment) for comment in comments_nl]
comments['en_deepl'] = comments_deepl

In [49]:
# Show comments data
comments.head()

Unnamed: 0,id,comment_id,parent_comment_id,author,published_at,like_count,comment_nl,is_reply,en_google,en_deepl
0,yan_6zQUIxg,UgywvSy7jh5Z-u5zIWd4AaABAg,,User1,2024-09-03T20:48:41Z,0,🌚🌚🌚🌚Super interessant!,False,🌚🌚🌚🌚Super interesting!,🌚🌚🌚🌚Super interesting!
1,yan_6zQUIxg,UgwVO27fhz-QFdEIATN4AaABAg,,User2,2024-09-02T10:17:54Z,0,"Wat een getalenteerd duo! Meer van dit, Univer...",False,"What a talented duo! More of this, University ...","What a talented duo! More of this, University ..."
2,yan_6zQUIxg,UgzygMPkH5pffJv91kp4AaABAg,,User3,2024-09-01T21:42:04Z,0,Zo interessant!!! 🤓,False,So interesting !!! 🤓,So interesting!!! 🤓
3,yan_6zQUIxg,UgzaNQ1Ec_9RdYCBijt4AaABAg,,User4,2024-09-01T21:39:13Z,0,Zoveel nieuwe dingen geleerd!!,False,Learned so many new things !!,So many new things learned!!!
4,yan_6zQUIxg,UgyGW4znhNjrdGCiqbh4AaABAg,,User4,2024-09-01T21:38:25Z,0,,False,,


In [50]:
# Save data to Excel file
comments.to_excel('../output/comments.xlsx')