# Data Collectie

In deze notebook wordt alle nodige data verzameld om de verdere analyses te kunnen uitvoeren.<br>
Elk van de analyses vindt plaats in een aparte notebook.b

## Stap 1: Klaarzetten van de notebook.

In deze stap worden alle nodige libraries ingeladen en klaargezet.<br>
Dit vereenvoudigt het verdere verloop van de notebook.

In [80]:
# Importeer standaard libraries
import importlib
import numpy as np
from dotenv import load_dotenv

In [81]:
# Importeer .env variables
load_dotenv()

True

In [82]:
# Importeer zelfgeschreven libraries
from lib import youtube, helpers

# Automatisch herladen van libraries bij aanpassingen
importlib.reload(youtube)
importlib.reload(helpers);

## Stap 2: Ophalen van de data.

In deze stap wordt gebruik gemaakt van de YouTube APIs (Data en Analytics) om de nodige data op te halen.<br>
Deze data wordt vervolgens in een pandas dataframe geplaatst om verder te bewerken.<br>
Verder wordt de data ook manueel geannoteerd, conform de methodologie van de masterproef.<br>
Uiteindelijk wordt iedere dataset opgeslagen in een apart Excel-bestand, zodat dit in de volgende stappen kan worden ingeladen.

### 2.1 Video Data

In [83]:
# Definieer de lijst van geselecteerde video's.
# Gebruik hierbij de video_id (deel van de URL) van de video's die je wil analyseren.
video_ids = np.array(['GYtUhykvOos','PkmUT16Um_0','JxWT-zYtcGg','rJbiY3S69ek','ewUjvz3nDj4','BDq4yJCRFcE','ih7RQ5lFwIY','Wm-Yk5bK_fk','4efyusOrx14','PUztndRNSU8','1QsVq3vlZsk'])

In [84]:
# Gebruik de YouTube Data API om generieke informatie op te halen over de video.
# Dit is data zoals: title, publish_date, metrics op het moment van ophalen ...
generic_data = youtube.get_generic_info(video_ids)

In [85]:
# Gebruik de YouTube Analytics API om metrics op te halen over verschillende tijdsintervallen heen.
# De tijdsintervallen zijn steeds gerekend vanaf de publicatie van de video.
# De tijdsintervallen zijn: 24, 1w, 2w, 1m, 2m, 3m (meer is niet mogelijk, gezien de duur van de masterproef)
metrics = youtube.get_metrics_over_time(generic_data)

In [86]:
# Voeg de data van generic_data en metrics samen in één dataframe.
videos = generic_data.merge(metrics, how='inner', on='id').set_index('id')

# Publish_date_x en publish_date_y zijn dubbele kolommen, verwijder één van beide en hernoem de andere.
videos.drop(columns=['publish_date_y'], inplace=True)
videos.rename(columns={'publish_date_x': 'publish_date'}, inplace=True)

In [87]:
# Voeg manuele annotaties toe aan de data.
# Deze annotaties zijn nodig om de analyses correct te kunnen uitvoeren.
videos['has_CTA'] = np.array([False, True, True, False, True, True, False, False, True, False, True])
videos['is_beta'] = np.array([None, False, False, None, True, True, None, None, False, None, True])
videos['university'] = np.array(['KUL', 'VUB', 'UA', 'VUB', 'UG', 'UG', 'UA', 'UG', 'VUB', 'UG', 'UA'])
videos['gender'] = np.array([0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1]) # F=0, M=1
videos['has_ambassador'] = np.array([True, True, False, False, False, False, False, False, False, False, False])

In [88]:
# Toon de dataframe videos
videos

Unnamed: 0_level_0,title,publish_date,duration,views,likes,dislikes,shares,comments,engagement,views_24h,...,engagement_rate_1w,engagement_rate_2w,engagement_rate_1m,engagement_rate_2m,engagement_rate_3m,has_CTA,is_beta,university,gender,has_ambassador
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
GYtUhykvOos,Is het erg als tieners bijna nooit met vriende...,2024-12-01T07:00:09Z,10:59,4127,99,2,50,13,3.88,1860,...,4.4,4.29,4.11,3.81,3.66,False,,KUL,0,True
PkmUT16Um_0,Hoe kan je helpen als je buur ernstig ziek is?...,2024-12-08T09:00:27Z,16:15,1953,36,0,28,3,3.43,851,...,4.62,4.16,4.02,3.25,3.44,True,False,VUB,0,True
JxWT-zYtcGg,Hoe zorgt Trump ervoor dat we minder eenzaam z...,2024-12-10T06:00:16Z,17:01,2120,40,5,20,2,2.69,831,...,2.61,2.6,2.89,2.87,2.75,True,False,UA,0,False
rJbiY3S69ek,Hoe kan je tijdens een superleuke vakantie toc...,2024-12-15T09:00:48Z,16:27,1136,23,1,24,1,4.14,560,...,5.64,5.38,5.17,4.79,,False,,VUB,0,False
ewUjvz3nDj4,Waarom is een vlam niet vierkant? #dww24,2024-12-17T09:00:40Z,16:46,2023,45,2,27,4,3.66,750,...,4.11,4.06,3.82,3.74,,True,True,UG,1,False
BDq4yJCRFcE,Waarom bestaat de winter?,2024-12-22T08:00:08Z,10:03,2005,52,0,16,9,3.84,1103,...,4.18,4.0,3.83,3.69,,True,True,UG,0,False
ih7RQ5lFwIY,Waarom spelen bandjes op kerstmarkten zo vals?,2024-12-24T08:00:38Z,12:00,5949,108,0,99,10,3.65,1534,...,3.68,3.6,3.59,3.61,,False,,UA,1,False
Wm-Yk5bK_fk,Waarom is eten met een korstje lekkerder?,2024-12-29T09:00:28Z,12:48,1853,48,0,15,1,3.45,1003,...,3.36,3.66,3.61,3.56,,False,,UG,1,False
4efyusOrx14,Helpt zebradrinken tegen een kater? #dww24,2024-12-31T09:00:04Z,13:15,2760,67,3,40,6,3.99,1086,...,4.59,4.28,4.06,3.97,,True,False,VUB,0,False
PUztndRNSU8,Is het een goed idee om te trouwen met je best...,2025-01-05T09:00:22Z,14:44,4218,104,0,101,4,4.95,1605,...,5.1,4.99,4.89,4.97,,False,,UG,0,False


In [89]:
# Sla de data op in een Excel bestand
videos.to_excel('../output/videos.xlsx')

### 2.2 Comments Data

In [44]:
# Maak gebruik van de videos dataframe om de comments op te halen.
comments = youtube.get_video_comments(videos)

In [45]:
# In de comments staan persoonsnamen, deze worden verwijderd om privacy te garanderen.
# De handler voor de Universiteit van Vlaanderen wordt wel behouden.
comments = helpers.anonymize_comments(comments)

In [46]:
# De comments zijn NL, maar gezien de beperkte hoeveelheid data, is het niet mogelijk om een model te trainen.
# Daarom werd gekozen om de comments te vertalen naar het Engels m.b.v. Google Translate.
# Deze vertaalde comments kunnen daarna verder opgenomen worden in een sentiment analyse met VADER.
comments_nl = comments['comment_nl'].tolist()
comments_en = [helpers.translate_to_english(comment) for comment in comments_nl]
comments['comment_en'] = comments_en

In [47]:
# Toon de dataframe comments
comments.head()

Unnamed: 0,id,comment_id,parent_comment_id,author,published_at,like_count,comment_nl,is_reply,comment_en
0,GYtUhykvOos,UgwgDxZ0r0BFkJLKYP14AaABAg,,@UniversiteitvanVlaanderen,2024-12-01T08:59:16Z,2,Voel jij je ook soms eenzaam? Of ben wel vaak ...,False,Do you sometimes feel lonely? Or am often not ...
1,GYtUhykvOos,UgwC9fuK93PSKktjkxh4AaABAg,,User1,2024-12-11T07:33:10Z,2,ik heb ook een verhaal. mijn eenzaamheid is ni...,False,I also have a story. My loneliness is not that...
2,GYtUhykvOos,UgwC9fuK93PSKktjkxh4AaABAg.ABu0SmM1ulIABwrojaD6Sm,UgwC9fuK93PSKktjkxh4AaABAg,@UniversiteitvanVlaanderen,2024-12-12T10:06:38Z,0,Wat een mooi en ook warm verhaal. Dankjewel da...,True,What a beautiful and also warm story. Thank yo...
3,GYtUhykvOos,UgzokIGytUWEUq-xNDZ4AaABAg,,User2,2024-12-08T11:06:17Z,3,Er zijn dus jongeren die zich niet gelukkig vo...,False,So there are young people who don't feel happy...
4,GYtUhykvOos,UgzokIGytUWEUq-xNDZ4AaABAg.ABmfTAkhK-jABws0aLr-Mi,UgzokIGytUWEUq-xNDZ4AaABAg,@UniversiteitvanVlaanderen,2024-12-12T10:08:23Z,2,Dat is zeker iets wat we ook nog eens aan een ...,True,That is certainly something we also have to as...


In [48]:
# Sla de data op in een Excel bestand
comments.to_excel('../output/comments.xlsx')