# Step 1: Collecting the data

In [2]:
# Import standard libraries
import importlib
import numpy as np
from dotenv import load_dotenv

In [3]:
# Import .env variables
load_dotenv()

True

In [4]:
# Import self-written libraries
from lib import youtube, helpers

# Automatically reload libraries when changes are made
importlib.reload(youtube)
importlib.reload(helpers);

## 1.1 Retrieve data for hypothesis 1

Video’s met een expliciete CTA om een comment achter te laten, genereren significant meer comments dan video’s zonder die CTA.

In [4]:
# Get data for hypothesis 1
video_ids = np.array(['GYtUhykvOos','PkmUT16Um_0','JxWT-zYtcGg','rJbiY3S69ek','ewUjvz3nDj4','BDq4yJCRFcE','ih7RQ5lFwIY','Wm-Yk5bK_fk','4efyusOrx14','PUztndRNSU8','1QsVq3vlZsk'])  # These are the 11 video's selected for the experiment

# Get information about each video and calculate the corresponding metrics
exp_videos = youtube.get_generic_info(video_ids)
exp_metrics = youtube.get_metrics_over_time(exp_videos)
exp_videos = exp_videos.merge(exp_metrics, how='inner', on='id').set_index('id')
exp_videos.drop(columns=['publish_date_y'], inplace=True)
exp_videos.rename(columns={'publish_date_x': 'publish_date'}, inplace=True)

# Add manual annotations to the data
exp_videos['has_CTA'] = np.array([False, True, True, False, True, True, False, False, True, False, True])
exp_videos['is_beta'] = np.array([None, False, False, None, True, True, None, None, False, None, True])
exp_videos['university'] = np.array(['KUL', 'VUB', 'UA', 'VUB', 'UG', 'UG', 'UA', 'UG', 'VUB', 'UG', 'UA'])
exp_videos['gender'] = np.array([0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1]) # F=0, M=1
exp_videos['has_ambassador'] = np.array([True, True, False, False, False, False, False, False, False, False, False])

In [5]:
# Show data
exp_videos

Unnamed: 0_level_0,title,publish_date,duration,views,likes,dislikes,shares,comments,engagement,views_24h,...,engagement_rate_1w,engagement_rate_2w,engagement_rate_1m,engagement_rate_2m,engagement_rate_3m,has_CTA,is_beta,university,gender,has_ambassador
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
GYtUhykvOos,Is het erg als tieners bijna nooit met vriende...,2024-12-01T07:00:09Z,10:59,4138,100,2,50,13,3.89,1860,...,4.4,4.29,4.11,3.81,3.66,False,,KUL,0,True
PkmUT16Um_0,Hoe kan je helpen als je buur ernstig ziek is?...,2024-12-08T09:00:27Z,16:15,1956,36,0,28,3,3.43,851,...,4.62,4.16,4.02,3.25,3.43,True,False,VUB,0,True
JxWT-zYtcGg,Hoe zorgt Trump ervoor dat we minder eenzaam z...,2024-12-10T06:00:16Z,17:01,2124,40,5,20,2,2.68,831,...,2.61,2.6,2.89,2.87,2.75,True,False,UA,0,False
rJbiY3S69ek,Hoe kan je tijdens een superleuke vakantie toc...,2024-12-15T09:00:48Z,16:27,1138,23,1,24,1,4.13,560,...,5.64,5.38,5.17,4.79,,False,,VUB,0,False
ewUjvz3nDj4,Waarom is een vlam niet vierkant? #dww24,2024-12-17T09:00:40Z,16:46,2027,45,2,27,4,3.65,750,...,4.11,4.06,3.82,3.74,,True,True,UG,1,False
BDq4yJCRFcE,Waarom bestaat de winter?,2024-12-22T08:00:08Z,10:03,2013,52,0,16,9,3.83,1103,...,4.18,4.0,3.83,3.69,,True,True,UG,0,False
ih7RQ5lFwIY,Waarom spelen bandjes op kerstmarkten zo vals?,2024-12-24T08:00:38Z,12:00,5950,108,0,99,10,3.65,1534,...,3.68,3.6,3.59,3.61,,False,,UA,1,False
Wm-Yk5bK_fk,Waarom is eten met een korstje lekkerder?,2024-12-29T09:00:28Z,12:48,1858,49,0,15,1,3.5,1003,...,3.36,3.66,3.61,3.56,,False,,UG,1,False
4efyusOrx14,Helpt zebradrinken tegen een kater? #dww24,2024-12-31T09:00:04Z,13:15,2769,67,3,40,6,3.97,1086,...,4.59,4.28,4.06,3.97,,True,False,VUB,0,False
PUztndRNSU8,Is het een goed idee om te trouwen met je best...,2025-01-05T09:00:22Z,14:44,4239,104,0,101,4,4.93,1605,...,5.1,4.99,4.89,4.97,,False,,UG,0,False


In [6]:
# Save data to Excel file
exp_videos.to_excel('../output/exp_videos.xlsx')

## 1.2 Retrieve data for hypothesis 2 and 3

### 1.2.1 Retrieving video data

Data verzameling voor de video's van 2019 tot 2024.

In [5]:
# Get videos from 2019 tot 2024
video_ids = youtube.get_video_ids_in_period('2019-01-01', '2024-12-31')
len(video_ids)

418

In [6]:
# Get video data
videos = youtube.get_generic_info(np.array(video_ids))
videos.head()

Unnamed: 0_level_0,title,publish_date,duration,views,likes,dislikes,shares,comments,engagement
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
KNNAUcLMJpo,Veggie 🥕 of vlees 🍖?,2024-07-25T07:35:04Z,0:19,987,12,3,3,1,1.32
KCc98U0fVJ8,Zomerpodcast opnemen op het Nerdland Festival!...,2022-06-22T20:47:49Z,0:21,1011,21,1,1,0,2.08
bl9LxOG4kV8,Zitten we in een financiële bubbel? #WetenSNAP,2022-10-31T15:00:08Z,1:55,1763,28,0,9,1,2.16
fn1dz5Xez0E,Bestaan bijna - doodervaringen echt?,2024-11-02T13:30:21Z,0:41,846,25,0,4,1,3.55
2Uw331k0AdE,Leer je beter wanneer je beweegt?,2024-09-12T14:29:09Z,0:34,1304,38,1,8,1,3.53


In [7]:
# Get metrics for each video and over multiple time intervals
metrics = youtube.get_metrics_over_time(videos)
metrics.head()

❌ Error fetching video data for video sEsc81gmhag on 2020-05-11: <HttpError 500 when requesting https://youtubeanalytics.googleapis.com/v2/reports?ids=channel%3D%3DUC7WpOKbKfzOOnD0PyUN_SYg&startDate=2020-03-12&endDate=2020-05-11&metrics=views%2Clikes%2Cdislikes%2Cshares%2Ccomments&filters=video%3D%3DsEsc81gmhag&alt=json returned "Internal error encountered.". Details: "[{'message': 'Internal error encountered.', 'domain': 'global', 'reason': 'backendError'}]">
❌ Error fetching video data for video NyNcDxMvzHA on 2022-07-06: <HttpError 500 when requesting https://youtubeanalytics.googleapis.com/v2/reports?ids=channel%3D%3DUC7WpOKbKfzOOnD0PyUN_SYg&startDate=2022-06-22&endDate=2022-07-06&metrics=views%2Clikes%2Cdislikes%2Cshares%2Ccomments&filters=video%3D%3DNyNcDxMvzHA&alt=json returned "An internal error has occurred.". Details: "[{'message': 'An internal error has occurred.', 'domain': 'global', 'reason': 'internalError'}]">


Unnamed: 0,id,publish_date,views_24h,views_1w,views_2w,views_1m,views_2m,views_3m,likes_24h,likes_1w,...,comments_2w,comments_1m,comments_2m,comments_3m,engagement_rate_24h,engagement_rate_1w,engagement_rate_2w,engagement_rate_1m,engagement_rate_2m,engagement_rate_3m
0,KNNAUcLMJpo,2024-07-25T07:35:04Z,575,755,802.0,858,920.0,939.0,7,9,...,1.0,1,1.0,1.0,1.22,1.46,1.37,1.4,1.3,1.28
1,KCc98U0fVJ8,2022-06-22T20:47:49Z,206,341,364.0,397,448.0,484.0,5,7,...,0.0,0,0.0,0.0,1.94,1.76,1.65,1.76,2.01,1.86
2,bl9LxOG4kV8,2022-10-31T15:00:08Z,502,1011,1104.0,1181,1242.0,1284.0,14,23,...,1.0,1,1.0,1.0,3.59,2.67,2.45,2.29,2.25,2.26
3,fn1dz5Xez0E,2024-11-02T13:30:21Z,447,599,643.0,719,777.0,794.0,16,20,...,1.0,1,1.0,1.0,4.03,4.17,4.04,4.03,3.86,3.78
4,2Uw331k0AdE,2024-09-12T14:29:09Z,705,1009,1074.0,1131,1225.0,1247.0,20,30,...,1.0,1,1.0,1.0,3.83,3.77,3.72,3.71,3.59,3.69


In [8]:
# Merge both dataframes together and remove/rename duplicate columns
videos = videos.merge(metrics, how='inner', on='id').set_index('id')
videos.drop(columns=['publish_date_y'], inplace=True)
videos.rename(columns={'publish_date_x': 'publish_date'}, inplace=True)

In [9]:
# Show video data
videos.head

<bound method NDFrame.head of                                                          title  \
id                                                               
KNNAUcLMJpo                               Veggie 🥕 of vlees 🍖?   
KCc98U0fVJ8  Zomerpodcast opnemen op het Nerdland Festival!...   
bl9LxOG4kV8     Zitten we in een financiële bubbel? #WetenSNAP   
fn1dz5Xez0E               Bestaan bijna - doodervaringen echt?   
2Uw331k0AdE                  Leer je beter wanneer je beweegt?   
...                                                        ...   
h6_3wsOakvk                        Heb jij een normale vagina?   
4tFn6iEP59M  Bestaat de G spot? Meer #wetenschap op univers...   
AHlYHNFCxKE  Waarom kan de zomer niet zonder wespen, plakke...   
MhbCdTaGt6k  Bepaalt het standje of je een jongen of een me...   
C3INoqCqwjE     Moet je kunnen klaarkomen zoals in pornofilms?   

                     publish_date duration  views  likes  dislikes  shares  \
id                               

In [15]:
# Save data to Excel file
videos.to_excel('../output/videos.xlsx')

### 1.2.2 Retrieving comments data

Data verzameling voor de comments van de video's van 2019 tot 2024.

In [11]:
# Get comments for the videos from the previous step
comments = youtube.get_video_comments(videos)
len(comments)

❌ Error fetching comments for video s6zIqrn-3W8: <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/commentThreads?part=snippet%2Creplies&videoId=s6zIqrn-3W8&maxResults=100&textFormat=plainText&alt=json returned "The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></code> parameter has disabled comments.". Details: "[{'message': 'The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></code> parameter has disabled comments.', 'domain': 'youtube.commentThread', 'reason': 'commentsDisabled', 'location': 'videoId', 'locationType': 'parameter'}]">


6594

In [12]:
# Anonymize comments
comments = helpers.anonymize_comments(comments)

In [13]:
# Translate comments to English
comments_nl = comments['comment_nl'].tolist()
comments_en = [helpers.translate_to_english(comment) for comment in comments_nl]
comments['comment_en'] = comments_en

❌ Translation error: Mijn oplossing voor de hele problematiek rond meer of minder 'begaafd' zijn is het Flat Earth Model - weg met de hiërarchie en de promoties, want je krijgt een functie binnen een groot veld. Het model vindt z'n kleinste vorm in het concept van een zorgteam binnen het koninklijk atheneum aan de Rooseveltplaats - een multidisciplinair team dat gecuretteerd wordt uit de diverse bestaande zorgcentra en gesubsidieerde activiteiten. De basis zit in mijn werk binnen het Atelier en wat ze vertelt over een verkeerd imago creëren, herinnerde mij aan het 'kookatelier', niet dat ik gelijk de messen ging uitdelen, maar ik keek naar de kinderen, die niet altijd even enthousiast waren over ons 'menu'. Toen we na de vakantie bij elkaar kwamen om het eerste halfjaar werken met ateliers en homogene niveau-groepen te evalueren, viel gelijk het doek over mijn bijdrage, want ik had een paramedisch diploma en moest maar therapeutisch werken, terwijl dat niet verder van een normaal leerp

In [14]:
# Show comments data
comments.head()

Unnamed: 0,id,comment_id,parent_comment_id,author,published_at,like_count,comment_nl,is_reply,comment_en
0,KNNAUcLMJpo,Ugzc2tT_j0zGzUcmI-d4AaABAg,,User1,2024-07-30T12:13:39Z,0,Je hebt het helemaal niet nodig😅. Ik heb altij...,False,You don't need it at all😅. I have always had s...
1,bl9LxOG4kV8,UgwIEstA0YJWflmon2p4AaABAg,,User2,2022-10-31T15:33:50Z,1,besluiten te scheiden te scheiden omdat het ni...,False,decide to separate because it is no longer liv...
2,fn1dz5Xez0E,UgwtObJVEW2m0wx_aHt4AaABAg,,User3,2024-11-09T17:31:37Z,2,Geniet van je leven het kan elk moment gedaan ...,False,Enjoy your life it may be done any time 💀
3,2Uw331k0AdE,UgwpwYoe9VFw21f4lsZ4AaABAg,,User3,2024-09-12T14:30:07Z,1,Geweldig\nDie studenten toch.,False,Great\nThose students anyway.
4,GqVjUd2vUjM,UgzxWKVSjKn9R7mQDqt4AaABAg,,User3,2024-09-09T14:25:07Z,0,Keileuk,False,Keogeuk


In [16]:
# Save data to Excel file
comments.to_excel('../output/comments.xlsx')