In [1]:
import plotly.graph_objs as go
import plotly.express as px
import pandas as pd

## Introduction

Sociale media hebben een groot impact op de wereld achtergelaten, sinds het begin van de 21e eeuw is er een nieuwe manier van leven ontstaan: het digitale leven. Mensen van over de hele wereld kunnen nu in real time delen wat zij doen, en hoe hun leven eruitziet.
Wat in eerste instantie een hele handige uitvinding bleek te zijn, brengt echter meerdere perspectieven met zich mee. Al snel bleek namelijk dat je niet per se alle kanten van je leven op sociale media hoeft te zetten. Het werd al snel een trend om voornamelijk de beste kanten te laten zien, en de mindere kanten van je leven privé te houden.

In ons onderzoek gaan we kijken naar de impact van deze sociale media op de mentale gezondheid onder jong volwassenen. De illusies die sociale media met zich meebrengt zouden namelijk een negatief zelfbeeld kunnen veroorzaken bij jong volwassenen. Wij waren benieuwd of er een correlatie te vinden viel tussen de mentale gezondheid en de opkomst van sociale media. Ondanks dat we misschien in eerste instantie een negatief beeld schetsen, zou het echter ook zomaar de andere kant op kunnen gaan.

Sociale media creeërde ook kansen op zowel sociaal- als werkgebied, nog nooit eerder konden jongeren zo snel met elkaar communiceren. Het zorgt voor kansen op zowel het gebied van liefde als vriendschap, en bracht een hele hoop nieuwe banen in de markt. Met behulp van slimme algoritmes kun je als creatieveling je werk aan miljoenen mensen laten zien, en dat helemaal gratis. Jong volwassenen kunnen ook veel gemakkelijker mensen vinden die dezelfde interesses delen, en hierdoor juist dat buitengesloten gevoel tegen gaan.

Kortom gezegd, er zijn meerdere perspectieven die in eerste instantie erg logisch lijken te zijn. Hierom zijn wij benieuwd wat de data te zeggen heeft.


### Visualisaties

##### Elke uitleg geldt voor de dataset die zich eronder bevindt

**Uitleg:** Deze dataset (https://longreads.cbs.nl/jeugdmonitor-2022/welzijn-van-jongvolwassenen/) van het CBS (Centraal Bureau van Statistiek) gaat over het welzijn van jongeren, van 1997 tot 2021 is er onderzoek gedaan naar dit welzijn. Jongeren konden eerlijk aangeven of zij gelukkig of tevreden zijn met hun leven. De leeftijdsgroepen zijn opgesplitst in jongeren tussen 18-25, en mensen die boven de 18 zijn (algemene bevolking). De variabelen zijn: 'Category', 'Tevredenheid, 18 jaar of ouder', Tevredenheid, 18 tot 25 jaar', 'Geluk, 18 jaar of ouder', 'Geluk, 18 tot 25 jaar'. Category geeft het jaartal aan waarvan de data is opgenomen. De andere variabelen geven het percentage aan van de Nederlandse bevolking en jongvolwassenen dat zich zo voelt. De dataset is te downloaden op de webpagina van het CBS als de link is gevolgd. 
<br>
<br>
**Preprocessing:** Om deze dataset te gebruiken hoefde er niet enorm veel aan de dataset aangepast te worden. Het enige wat wel moest veranderen was dat de getallen er eerst als percentages instonden, waardoor python het niet herkende als een integer, maar als een string. Nadat dit was aangepast naar de getallen die equivalent zijn aan die percentages kon de dataset gebruikt worden voor een lijngrafiek die over tijd laat zien hoe de groepen zich voelen. 

In [2]:
gl = pd.read_csv('10-Copy1.1.1-geluk-en-tevredenheid.csv')

gl


Unnamed: 0,Category,"Tevredenheid, 18 jaar of ouder","Tevredenheid, 18 tot 25 jaar","Geluk, 18 jaar of ouder","Geluk, 18 tot 25 jaar"
0,1997,0.841,0.848,0.882,0.911
1,1998,0.854,0.849,0.89,0.909
2,1999,0.848,0.846,0.884,0.898
3,2000,0.858,0.855,0.891,0.908
4,2001,0.859,0.857,0.893,0.909
5,2002,0.844,0.814,0.88,0.887
6,2003,0.845,0.846,0.878,0.907
7,2004,0.843,0.841,0.878,0.906
8,2005,0.839,0.828,0.874,0.876
9,2006,0.844,0.85,0.888,0.905


In [30]:

trace1 = go.Scatter(x = gl['Category'], 
                    y = gl['Tevredenheid, 18 jaar of ouder'], 
                    mode = 'lines + markers', 
                    name = 'Tevredenheid, 18 jaar of ouder', 
                    marker = dict(color = 'lightblue'))
trace2 = go.Scatter(x = gl['Category'], 
                    y = gl['Tevredenheid, 18 tot 25 jaar'], 
                    mode = 'lines + markers', 
                    name = 'Tevredenheid, 18 tot 25 jaar',
                   marker = dict(color = 'blue'))
trace3 = go.Scatter(x = gl['Category'], 
                    y = gl['Geluk, 18 tot 25 jaar'], 
                    mode = 'lines + markers', 
                    name = 'Geluk, 18 tot 25 jaar',
                   marker = dict(color = 'green'))
trace4 = go.Scatter(x = gl['Category'], 
                    y = gl['Geluk, 18 jaar of ouder'], 
                    mode = 'lines + markers', 
                    name = 'Geluk, 18 jaar of ouder',
                   marker = dict(color = 'lightgreen'))

Layout = go.Layout(title = 'Tevredenheid en geluk',
                  xaxis = dict(title = 'Jaren', gridcolor = 'lightgrey'),
                  yaxis = dict(title = 'Percentage mensen dat zich zo voelt', tickformat = ',.0%', range = [0.7, 1], gridcolor = 'lightgrey'),
                   font = dict(family = 'Georgia', color = 'Black'),
                   plot_bgcolor = 'white',
                   paper_bgcolor = 'white',
    )
                  

fig = go.Figure(data = [trace1, trace2, trace4, trace3], layout = Layout)
fig.update_layout(
    xaxis=dict(
        rangeselector=dict(
            buttons=list([
                dict(count=1,
                     label="1y",
                     step="year",
                     stepmode="backward"),
                dict(count=5,
                     label="5y",
                     step="year",
                     stepmode="backward"),
                dict(step="all")
            ])
        ),
        rangeslider=dict(
            visible=True
        ),
        type="date"
    )
)

fig.add_annotation(
    xref="paper", yref="paper",
    x=0.5, y=-0.57,
    text="Op de x-axis is de tijd in jaren te zien. Op de y-axis is het percentage vanaf 70% te zien. <br> In deze lijngrafiek is te zien dat zowel het geluks- als tevredenheidsgevoel afnemen.",
    showarrow=False,
)
    
fig.show()

**Uitleg:** De dataset (https://www.pewresearch.org/internet/fact-sheet/social-media/?tabId=tab-81867c91-92ad-45b8-a964-a2a894f873ef) van Pewresearch die voor de visualizatie hieronder is gebruikt, laat per een aantal maanden het percentage van de bevolking van de Verenigde Staten zien die verschillende sociale media hebben gebruikt. Dit wordt aangegeven in percentages. De variabelen zijn: 'Year', 'Facebook', Pinterest', 'Instagram', 'LinkDin', 'Twitter', 'Snapchat', 'YouTube', 'WhatsApp', 'Reddit', 'TikTok', 'Nextdoor'. Het variabele 'Year' geeft de datum aan waarvan de data is opgenomen. De andere varibalen geven aan hoeveel procent van de social media gebruikers dat specifieke platform gebruikt. De dataset is te downloaden op de site die via de link is vermeld.
<br>
<br>
**Preprocessing:** Voordat de dataset gebruikt kon worden moest er enorm veel worden opgeschoond. Er stond namelijk tekst in de csv file waardoor de file in eerste instantie niet gelezen kon worden en de komma's stonden op de verkeerde plek. Ook stonden er enorm veel nrgbs waardes in. Deze moesten aangepast worden naar NaN's zodat deze gebruikt konden worden. Verder moest ook het kolom 'Year' worden aangepast naar een format waardoor ik het naar een daadwerkelijke datum om kon zetten en op die manier makkelijker te gebruiken was voor de x-as. 

In [4]:
df = pd.read_csv('test-Copy1.csv')
df[df.columns[1:]] = df[df.columns[1:]].replace('%', '', regex=True).astype(float) / 100
df['Year'] = pd.to_datetime(df['Year'])
df_filtered = df.dropna()
df_filtered = df_filtered.sort_values(by='Year', ascending=False)
df

Unnamed: 0,Year,Facebook,Pinterest,Instagram,LinkedIn,Twitter,Snapchat,YouTube,WhatsApp,Reddit,TikTok,Nextdoor
0,2012-08-05,0.54,0.1,0.09,0.16,0.13,,,,,,
1,2012-08-07,,,,0.14,,,,,,,
2,2012-12-09,,0.13,0.11,0.13,,,,,,,
3,2012-12-16,0.57,,,,,,,,,,
4,2013-05-19,,,,0.15,,,,,,,
5,2013-07-14,,,,0.16,,,,,,,
6,2013-09-16,0.57,0.17,0.14,0.17,0.14,,,,,,
7,2013-09-30,,,,0.16,,,,,,,
8,2014-01-26,,,,0.16,,,,,,,
9,2014-09-21,0.58,0.22,0.21,0.23,0.19,,,,,,


In [36]:
trace1 = go.Scatter(x = df['Year'], 
                    y = df['Facebook'], 
                    mode = 'lines + markers', 
                    name = 'Facebook', 
                    marker = dict(color = 'blue'),
                   connectgaps=True)
trace2 = go.Scatter(x = df['Year'], 
                    y = df['Pinterest'], 
                    mode = 'lines + markers', 
                    name = 'Pinterest', 
                    marker = dict(color = '#FF6F6F'),
                   connectgaps=True)
trace3 = go.Scatter(x = df['Year'], 
                    y = df['Instagram'], 
                    mode = 'lines + markers', 
                    name = 'Instagram', 
                    marker = dict(color = 'pink'),
                   connectgaps=True)
trace4 = go.Scatter(x = df['Year'], 
                    y = df['LinkedIn'], 
                    mode = 'lines + markers', 
                    name = 'LinkedIn', 
                    marker = dict(color = 'darkblue'),
                   connectgaps=True)
trace5 = go.Scatter(x = df['Year'], 
                    y = df['Twitter'], 
                    mode = 'lines + markers', 
                    name = 'Twitter', 
                    marker = dict(color = 'lightblue'),
                   connectgaps=True)
trace6 = go.Scatter(x = df['Year'], 
                    y = df['Snapchat'], 
                    mode = 'lines + markers', 
                    name = 'Snapchat', 
                    marker = dict(color = 'yellow'),
                   connectgaps=True)
trace7 = go.Scatter(x = df['Year'], 
                    y = df['YouTube'], 
                    mode = 'lines + markers', 
                    name = 'YouTube', 
                    marker = dict(color = 'red'),
                   connectgaps=True)
trace8 = go.Scatter(x = df['Year'], 
                    y = df['WhatsApp'], 
                    mode = 'lines + markers', 
                    name = 'WhatsApp', 
                    marker = dict(color = 'green'),
                   connectgaps=True)
trace9 = go.Scatter(x = df['Year'], 
                    y = df['Reddit'], 
                    mode = 'lines + markers', 
                    name = 'Reddit', 
                    marker = dict(color = 'orange'),
                   connectgaps=True)
trace10 = go.Scatter(x = df['Year'], 
                    y = df['TikTok'], 
                    mode = 'lines + markers', 
                    name = 'TikTok', 
                    marker = dict(color = 'black'),
                    connectgaps=True)
trace11 = go.Scatter(x = df['Year'], 
                    y = df['Nextdoor'], 
                    mode = 'lines + markers', 
                    name = 'Nextdoor', 
                    marker = dict(color = 'lightgreen'),
                    connectgaps=True)

new_Layout = go.Layout(title = 'Totaal gebruik verschillende sociale media door bevolking Verenigde Staten',
                      xaxis = dict(title = 'Jaartallen', tickmode='linear', dtick = 'M12', gridcolor = 'lightgray'),
                      yaxis = dict(title = 'Percentage gebruik sociale media', tickformat = ',.0%', range = [0, 1], gridcolor = 'lightgray'),
                      font = dict(family = 'Georgia', color = 'Black'),
                      plot_bgcolor = 'white',
                      paper_bgcolor = 'white')
new_fig = go.Figure(data = [trace1, trace2, trace3, trace4, trace5, trace6, trace7, trace8, trace9, trace10, trace11], 
                    layout = new_Layout)
    
new_fig.add_annotation(
    xref="paper", yref="paper",
    x=0.5, y=-0.22,
    text="Op de x-axis is de tijd in jaren te zien. <br> Op de y-axis is het percentage van het aantal sociale media gebruikers dat een bepaald platform gebruikt. Hieruit is af te lezen dat het gebruik in totaal stijgt.",
    showarrow=False,
)
    
new_fig.show()

**Uitleg:** Deze dataset (https://www.pewresearch.org/internet/fact-sheet/social-media/?tabId=tab-81867c91-92ad-45b8-a964-a2a894f873ef) van Pewresearch geeft weer hoeveel procent van de bevolking van de Verenigde Staten sociale media gebruikt. Dit geven ze aan in verschillende leeftijdsgroepen, namelijk: 18-29, 30-49, 50-64, 65+. De data is om een bepaald aantal maanden/jaren opgenomen en dit wordt in de variabele 'Year' laten zien. De leeftijdsgroepen zijn de andere variabelen en deze laten zien hoeveel van een bepaalde leeftijdsgroep sociale media gebruikt. Dit wordt aangegeven in percentages. De datasets zijn te downloaden op de site die bij dit stuk is vermeld.
<br>
<br>
**Preprocessing:** Voor deze dataset hoefde alleen de percentage tekens achter de getallen weggehaald worden en dan de percentages equivalent zetten aan hun numerieke waarden. Daarna kon de dataset worden gebruikt.

In [6]:
dc = pd.read_csv('social-Copy1.csv')
dc['Year'] = pd.to_datetime(dc['Year'])
dc

Unnamed: 0,Year,18-29,30-49,50-64,65+
0,2005-03-21,0.07,0.06,0.04,0.03
1,2005-12-08,0.16,0.09,0.05,0.02
2,2006-08-31,0.41,0.06,0.03,0.0
3,2008-05-11,0.6,0.21,0.07,0.02
4,2008-08-10,0.65,0.27,0.1,0.03
5,2008-08-31,0.68,0.27,0.09,0.02
6,2008-12-04,0.67,0.3,0.12,0.02
7,2008-12-20,0.59,0.28,0.08,0.03
8,2009-04-19,0.7,0.42,0.2,0.05
9,2009-09-14,0.67,0.44,0.21,0.06


In [37]:
trace1 = go.Scatter(x = dc['Year'],
                   y = dc['18-29'],
                   name = '18-29',
                   mode = 'lines + markers',
                   marker = dict(color = 'darkblue')
                   )

trace2 = go.Scatter(x = dc['Year'],
                   y = dc['30-49'],
                   name = '30-49',
                   mode = 'lines + markers',
                   marker = dict(color = 'mediumblue')
                   )

trace3 = go.Scatter(x = dc['Year'],
                   y = dc['50-64'],
                   name = '50-64',
                   mode = 'lines + markers',
                   marker = dict(color = 'blue')
                   )

trace4 = go.Scatter(x = dc['Year'],
                   y = dc['65+'],
                   name = '65+',
                   mode = 'lines + markers',
                   marker = dict(color = 'steelblue')
                   )

social_layout = go.Layout(title = 'Sociale media gebruik per leeftijdsgroep in de Verenigde Staten',
                          xaxis = dict(title = 'Jaren', gridcolor = 'lightgray'),
                         yaxis = dict(title = 'Percentage mensen', tickformat = ',.0%', range = [0, 1], gridcolor = 'lightgray'),
                         font = dict(family = 'Georgia', color = 'Black'),
                        plot_bgcolor = 'white',
                       paper_bgcolor = 'white' 
                         )

social_figure = go.Figure(data = [trace1, trace2, trace3, trace4], layout = social_layout)

social_figure.add_annotation(
    xref="paper", yref="paper",
    x=0.5, y=-0.22,
    text="Op de x-axis is de tijd te zien in jaren. Op de y-axis is het percentage mensen te zien dat sociale media gebruikt. <br> Hieruit is af te lezen dat er een flinke stijging is geweest en nog steeds gaande is.",
    showarrow=False,
)

social_figure.show()

**Uitleg:** De volgende dataset is een mix van de dataset van Pewresearch die het sociale media gebruik per leeftijdsgroep aangeeft, en de dataset die het geluk en tevredenheid van zowel jongvolwassenen als de hele bevolking weergeeft (https://www.pewresearch.org/internet/fact-sheet/social-media/?tabId=tab-81867c91-92ad-45b8-a964-a2a894f873ef). Van de eerstbenoemde dataset is de volgende data gebruikt: het percentage 18-29 jarigen die sociale media gebruikt over de jaren heen. Van de laatstbenoemde dataset is de volgende data gebruikt: het geluksgevoel van 18-25 jarigen over de jaren heen (https://longreads.cbs.nl/jeugdmonitor-2022/welzijn-van-jongvolwassenen/). De periode van tijd die hiervoor is gebruikt is gedaan vanaf het begin van de laatstbenoemde dataset, omdat er dan ook een zichtbaar verschil te zien is tussen het geluksgevoel van de tijd voor en na sociale media. De variabelen die in deze dataset staan zijn: 'Category', 'Geluk, 18 tot 25 jaar', '18-29'. Het variabele 'Category' geeft het jaar aan waarvan de data is opgenomen. De andere variabelen geven het percentage van de leeftijdsgroepen aan dat zich zo voelt. De datasets zijn te downloaden op de site van de links die aan dit stuk tekst zijn toegevoegd.
<br>
<br>
**Preprocessing:** Deze dataset is gemaakt in een zelfgemaakte csv file. De data die erin staat komt precies overeen met de data van de twee datasets die hiervoor zijn gebruikt. Het enige wat niet overeen komt is de data van de tweede kolom, omdat er bij die dataset van de jaren 2005 en 2008 t/m 2013 meerdere datapunten waren in die jaren. Om deze reden heb ik van die jaren een gemiddelde genomen en in deze dataset gezet. Verder werkt de dataset naar behoren.

In [8]:
cr = pd.read_csv('correlatie-Copy1.csv')
cr_filtered = cr.dropna()
cr_filtered = cr_filtered.sort_values(by='Category', ascending=False)
cr

Unnamed: 0,Category,"Geluk, 18 tot 25 jaar",18-29
0,1997,0.911,
1,1998,0.909,
2,1999,0.898,
3,2000,0.908,
4,2001,0.909,
5,2002,0.887,
6,2003,0.907,
7,2004,0.906,
8,2005,0.876,0.115
9,2006,0.905,0.41


In [42]:
data = [
    go.Bar(x = cr['Category'],
          y = cr['18-29'],
          name = 'Gebruik van sociale media door jongvolwassenen',
          legendgroup = 'Gebruik van sociale media door jongvolwassenen',
          marker = dict(color = '#147db1')
          ),
    go.Bar(x = cr['Category'],
          y = cr['Geluk, 18 tot 25 jaar'],
          name = 'Geluk jongvolwassenen',
          legendgroup = 'Geluk jongvolwassenen',
          marker = dict(color = '#3a4f6d')
          )
]

x_layout = go.Layout(title = 'Geluk vs sociale media gebruik van jongvolwassenen door de jaren heen',
                    xaxis = dict(title = 'Jaren', 
                                gridcolor = 'lightgray'
                                ),
                    yaxis = dict(title = 'Percentage mensen', 
                                 tickformat = ',.0%',
                                range = [0, 1],
                                gridcolor = 'lightgray'),
                    font = dict(family = 'Georgia', 
                                color = 'Black'),
                    plot_bgcolor = 'white',
                    paper_bgcolor = 'white' 
                    )

x_figure = go.Figure(data = data, layout = x_layout)

x_figure.update_layout(
    xaxis=dict(
        rangeselector=dict(
            buttons=list([
                dict(count=1,
                     label="1y",
                     step="year",
                     stepmode="backward"),
                dict(count=5,
                     label="5y",
                     step="year",
                     stepmode="backward"),
                dict(step="all")
            ])
        ),
        rangeslider=dict(
            visible=True
        ),
        type="date"
    )
)

x_figure.add_annotation(
    xref="paper", yref="paper",
    x=0.5, y=-0.57,
    text="Op de x-axis is de tijd te zien in jaren. Op de y-axis is het percentage mensen te zien dat zich gelukkig voelt<br> en sociale media gebruikt. Hieruit is af te lezen dat het geluk daalt sinds naarmate het sociale media gebruik toenam.",
    showarrow=False,
)

x_figure.show()

**Uitleg:** De volgende dataset (https://opendata.cbs.nl/statline/portal.html?_la=nl&_catalog=CBS&tableId=81487ned&_theme=16) geeft het aantal banen weer van werknemers die tot maximaal 130% van het voor zijn of haar leeftijd geldende wettelijk minimumloon of minder verdienen.

aan Deze werkgelegenheidstabel bevat gegevens over het aantal banen van werknemers, die tot maximaal 130% van het voor zijn of haar leeftijd geldende wettelijk minimumloon of minder verdienen. De gegevens zijn verder uit te splitsen naar diverse kenmerken van de werknemer (geslacht, leeftijd of nationaliteit) en cao-sector (SBI 2008). 

<br>
<br>
**Preprocessing:** 

In [10]:
werk = pd.read_csv('plswerk.csv', sep = ';')
werk

Unnamed: 0,ID,KenmerkenWerknemer,CaoSector,Perioden,TotaalBanen_1
0,0,T001006,T001020,2009,7818.7
1,1,T001006,T001020,2010,7859.8
2,2,T001006,T001020,2011,7926.8
3,3,T001006,T001020,2012,7872.1
4,4,T001006,T001020,2013,7745.8
5,5,T001006,T001020,2014,7706.0
6,6,T001006,T001020,2015,7782.5
7,7,T001006,T001020,2016,7892.5
8,8,T001006,T001020,2017,8096.0
9,9,T001006,T001020,2018,8324.2


In [43]:
import plotly.graph_objects as go

start_year = 2014
end_year = 2021
selected_data = werk[(werk['Perioden'] >= start_year) & (werk['Perioden'] <= end_year)]

werkd = go.Scatter(x=selected_data['Perioden'], 
                   y=selected_data['TotaalBanen_1'],
                   marker = dict(color = '#3a4f6d'))

werklayout = go.Layout(
    title='Groei aantal banen Nederland 2014 - 2021',
    xaxis=dict(title='Tijd in jaren', gridcolor='gray'),
    yaxis=dict(title='Aantal banen x1000', gridcolor='gray'),
    paper_bgcolor='white',
    plot_bgcolor='white',
    font=dict(family='Georgia', color='Black')
)

werkfigure = go.Figure(data=werkd, layout=werklayout)

werkfigure.add_annotation(
    xref="paper", yref="paper",
    x=0.5, y=-0.22,
    text="Op de x-axis is de tijd in jaren weergegeven. Op de y-axis is het aantal banen weergegeven in Nederland.<br> Hieruit is af te lezen dat het aantal banen in Nederland is gestegen.",
    showarrow=False,
)

werkfigure.show()


In [12]:
link = pd.read_csv('LinkDin.csv')
link

Unnamed: 0,Date,"""Revenue ($bn)"""
0,2010,0.24
1,2011,0.52
2,2012,0.97
3,2013,1.52
4,2014,2.21
5,2015,2.98
6,2016,2.97
7,2017,4.5
8,2018,6.02
9,2019,7.13


Age-usage.csv gemiddelde gepakt vanaf 2022 per leeftijd vanwege gebrek aan data

## Werkverdeling
* Introductie: Lex
* Argumenten:
  * Argument 1:
    * Visualisatie: Simon
    * Geschreven: Chen
    * Bedacht: Chen
  * Argument 2:
    * Visualisatie: Simon
    * Geschreven: Chen
    * Bedacht: Chen
  * Argument 3:
    * Visualisatie: Chen
    * Geschreven: Chen
    * Bedacht: Chen
  * Argument 4:
    * Visualisatie: Lex
    * Geschreven: Lex
    * Bedacht: Lex
  * Argument 5:
    * Visualisatie: 
    * Geschreven: 
    * Bedacht: 
  * Argument 6:
    * Visualisatie: 
    * Geschreven: 
    * Bedacht: 
* Perspectieven: Lex
* Reflectie: Chen, Lex, Simon
* Werkverdeling: Simon