## Stemmen voor alles behalve de stem
### Een visuele analyse van het stemgedrag bij het Eurovisie Songfestival

Ieder jaar, zo halverwege mei, verbindt het Eurovisie Songfestival muziekliefhebbers van over heel Europa. Het festival werd voor het eerst gehouden in 1956 met slechts zeven deelnemende landen. Vandaag de dag doen er elk jaar rond de veertig landen mee. Ieder land treedt op met een zelfgeschreven nummer, waarna er via stemming van een jury en televoting een winnaar wordt bepaald. Ieder land reikt punten uit waarbij 50 procent via televoting en 50 procent via een jury bepaald worden. Tot 2016 gaf een land 1 tot en met 8, 10 en 12 punten aan andere landen. Vanaf 2016 werden dit twee sets, één namens de jury en één namens televoting. Het land dat wint, krijgt de eer om het jaar daarop het Eurovisie Songfestival te organiseren. Dat is voor een land een mooi moment van nation building, en kan financiële voordelen bieden op de lange en korte termijn. Het winnen van het Eurovisie Songfestival is dus een gewichtige zaak. Daarom is het interessant om te weten welke factoren het meeste effect hebben op het stemgedrag van de jury en het publiek. Onderstaande figuur geeft de punten weer die de landen gehaald hebben over de jaren.

In [1]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import csv
import statistics as st
import numpy as np

color_blind_red, color_blind_green, color_blind_blue = '#d95f02', '#1b9e77', '#7570b3'

ModuleNotFoundError: No module named 'plotly'

In [None]:
# Importeer het dataframe met de punten die gegeven zijn per songfestival
euro_df = pd.read_csv('eurovision_song_contest_1975_2019.csv')
euro_df.columns=[column.strip() for column in euro_df.columns]
# euro_df.head()

In [None]:
# Kaart van de ontwikkeling van het gemiddelde van de punten in de finale per land
def total_per_year(dataframe):
    """
    Berekent de totale hoeveelheid punten die een land per jaar in de finale van het eurovisie
    van de vakjury heeft gekregen.
    """

    # Maak een lege dictionary aan voor het opslaan van de data
    total_year = {}
    
    # Itereer over de dataframe met gegeven punten
    for index, row in dataframe.iterrows():

        # Controleer of er een finale gezongen werd en of de punten gegeven zijn door
        # de vakjury
        if row[1] == 'f' and row[3] == 'J':

            # Controleer of het land al in het dictionary staat
            if row[5] in total_year:

                # Controleer of het jaar al bij het land staat
                if row[0] in total_year[row[5]]:

                    # Als het jaar al aanwezig is bij het land, worden de punten opgeteld
                    total_year[row[5]][row[0]] += row[6]

                # Als het jaar nog niet aanwezig is wordt het jaar toegevoegd aan het dictionary
                # van het land
                else:
                    total_year[row[5]].update({row[0]: row[6]})

            # Als het land nog niet in het dictionary staat, wordt een nieuwe key aangemaakt met
            # daarin weer een dictionary van het jaar en het aantal punten dat behaald is
            else:
                total_year.update({row[5]: {row[0]:row[6]}})

    # Maak een dataframe om het dictionary in te kunnen zetten
    total_per_year_df = pd.DataFrame({'Country':[], 'Year':[], 'Points':[]})

    # Voeg alle elementen van het dictionary per land toe aan het dataframe
    for country, euro_df in total_year.items():
        for year, score in euro_df.items():
            total_per_year_df.loc[len(total_per_year_df)] = [country, year, score]

    # Sorteer het dataframe zodanig dat er slices per land gesorteerd op jaar ontstaan
    # Dit garandeert goed verloop van de functie voor de gemiddeldes
    sorted_df = total_per_year_df.sort_values(['Country' , 'Year'], ascending=[True, True], ignore_index=True)

    return sorted_df

def development_of_mean(dataframe):
    """
    Berekent de verandering van het gemiddelde totale aantal punten dat een land per jaar heeft gekregen.
    Elk jaar wordt dus het gemiddelde geupdate naar het nieuwe aantal punten dat is behaald, tenzij
    er niet is deelgenomen aan de finale. In dat geval wordt hetzelfde gemiddelde nog eens toegevoegd
    om gaten in de uiteindelijke grafiek te voorkomen. De functie vult ook de waardes aan tot het jaar
    2019, zodat de grafiek bij het eindpunt van de animatie alle uiteindelijke gemiddeldes bevat.
    """

    # Creëer een dataframe met de totale aantal punten per land per jaar
    total_per_year_df = total_per_year(dataframe)

    # Maak een dictionary met het eerste land, jaar en punten 
    mean_per_year = {total_per_year_df.iloc[0,0] : {total_per_year_df.iloc[0,1]: total_per_year_df.iloc[0,2]}}

    # Maak counters om de gemiddelden mee te kunnen berekenen
    total_years = 0
    total_points = total_per_year_df.iloc[0,2]

    # Loop over het dataframe met totale aantal punten, sla de eerste rij over
    for index, row in total_per_year_df[1:].iterrows():
        # Controleer of het land hetzelfde is als in de rij ervoor
        if row[0] == total_per_year_df.iloc[index - 1, 0]:

            # Als het land hetzelfde is, controleer of het jaar maar één verschilt
            # Zo niet, vul dan de missende jaren aan met het bestaande gemmiddelde
            if row[1] != (total_per_year_df.iloc[index - 1, 1] + 1):
                for year in range(total_per_year_df.iloc[index - 1, 1] + 1, row[1]):
                    mean_per_year[row[0]].update({year : (total_points / total_years)})

            # Vul het dict aan met het jaar en het nieuwe gemiddelde
            total_points += row[2]
            total_years += 1
            mean_per_year[row[0]].update({row[1] : (total_points / total_years)})        

        else:

            # Als het land niet hetzelfde is als de rij ervoor, controleer of het laatst aangevulde jaar 2019 is
            # Zo niet, vul dan het dict aan met hetzelfde gemiddelde tot 2019
            if total_per_year_df.iloc[index - 1, 1] != 2019:
                for year in range(total_per_year_df.iloc[index - 1, 1] + 1, 2020):
                    mean_per_year[total_per_year_df.iloc[index - 1, 0]].update({year : (total_points / total_years)})

            # Update het dict met het nieuwe land, jaar en aantal punten
            mean_per_year.update({row[0]: {row[1] : row[2]}})

            # Zet het totale aantal punten naar het ereste aantal punten en zet het aantal jaren op 1
            total_points = row[2]
            total_years = 1

    # Maak een dataframe om het dictionary in te kunnen zetten
    mean_per_year_df = pd.DataFrame({'Country':[], 'Year':[], 'Points':[]})

    # Itereer over het dictionary om de waardes in het dataframe te zetten
    for country, euro in mean_per_year.items():
        for year, score in euro.items():
            mean_per_year_df.loc[len(mean_per_year_df)] = [country, year, score]

    return mean_per_year_df

# Creëer een dataframe met het gemiddelde aantal punten per jaar
mean_per_year = development_of_mean(euro_df)

year_order = [year for year in range(1957, 2020)]

# Creëer een figuur met een wereldkaart waar per jaar de gemiddelde punten op worden laten zien
fig_per_year = px.choropleth(mean_per_year, 
                    category_orders={'Year': year_order},
                    locationmode='country names', 
                    locations='Country', 
                    color='Points',
                    animation_frame='Year',
                    title='Gemiddelde van totale aantal punten in de finale per land per jaar',
                    height=700,
                    color_continuous_scale=['#1E88E5', '#FFC107', '#FF005D'],
                    labels={'Country': 'Land', 'Year': 'Jaar', 'Points': 'Gemiddeld aantal punten'})

fig_per_year.add_annotation(dict(font=dict(color='black',size=15),
                                        x=0,
                                        y=-0.12,
                                        showarrow=False,
                                        text="Figuur 1: Een geoplot die het gemiddeld gehaalde aantal punten van landen in de finale weergeeft per jaar",
                                        textangle=0,
                                        xanchor='left',
                                        xref="paper",
                                        yref="paper"))
# Laat het figuur zien
fig_per_year.show() 
            

### Culturele factoren
Door sommigen wordt opgemerkt dat stemgedrag tijdens het Eurovisie Songfestival meer afhankelijk is van culturele, politieke of willekeurige factoren dan van pure muzikale voorkeur. Aan de ene kant lijkt het alsof er op landen wordt gestemd, in plaats van op nummers.  Opvallend is bijvoorbeeld dat er 'voting blocks' zijn. Dat zijn clusters van landen die elk jaar weer veel op elkaar stemmen.

In [None]:
east_block = sorted(['Belarus', 'Bulgaria', 'Czech Republic', 'Hungary', 'Poland', 'Moldova', 'Romania', 'Russia', 'Slovakia','Ukraine'])
west_block = sorted(['Belgium', 'France', 'Germany', 'Luxembourg', 'Austria', 'Monaco', 'The Netherlands','Switzerland', 'United Kingdom', 'Ireland'])
southern_block = sorted(['Albania', 'Bosnia & Herzegovina', 'Croatia', 'Greece', 'Italy', 'Malta', 'Montenegro', 'North Macedonia', 'Portugal', 'San Marino', 'Serbia', 'Slovenia', 'Spain'])
scandinavia = sorted(['Denmark', 'Finland', 'Iceland', 'Norway', 'Sweden'])
baltic_states = sorted(['Estonia', 'Latvia', 'Lithuania'])
benelux = sorted(['The Netherlands', 'Belgium', 'Luxembourg'])
balkan_states = sorted(['Albania', 'Bosnia & Herzegovina', 'Bulgaria', 'Greece', 'Montenegro', 'North Macedonia', 'Croatia', 'Serbia', 'Serbia & Montenegro'])
outside_europe = sorted(['Cyprus', 'Armenia', 'Australia', 'Israel', 'Azerbaijan'])

def mean_points_from(countries):
    list_of_lists_points = []
    for from_country in countries:
        list_points = []
        for to_country in countries:
            if from_country == to_country:
                list_points.append(np.nan)
            else:
                points = euro_df.loc[(euro_df['From country'] == from_country) & (euro_df['To country'] == to_country), 'Points'].mean()
                list_points.append(points)
        list_of_lists_points.append(list_points)
    return list_of_lists_points

fig = go.Figure()

fig.add_trace(go.Heatmap(
                   z=mean_points_from(balkan_states),
                   x=balkan_states,
                   y=balkan_states,
                   colorscale=['#1E88E5', '#FFC107', '#FF005D'],
                   visible=False,
                   colorbar=dict(len=1, y=0.5),
                   zmin=0,
                   zmax=12
))

fig.add_trace(go.Heatmap(
                   z=mean_points_from(baltic_states),
                   x=baltic_states,
                   y=baltic_states,
                   colorscale=['#1E88E5', '#FFC107', '#FF005D'],
                   visible=False,
                   colorbar=dict(len=1, y=0.5),
                   zmin=0,
                   zmax=12
))

fig.add_trace(go.Heatmap(
                   z=mean_points_from(benelux),
                   x=benelux,
                   y=benelux,
                   colorscale=['#1E88E5', '#FFC107', '#FF005D'],
                   visible=True,
                   colorbar=dict(len=1, y=0.5),
                   zmin=0,
                   zmax=12
))

fig.add_trace(go.Heatmap(
                   z=mean_points_from(outside_europe),
                   x=outside_europe,
                   y=outside_europe,
                   colorscale=['#1E88E5', '#FFC107', '#FF005D'],
                   visible=False,
                   colorbar=dict(len=1, y=0.5),
                   zmin=0,
                   zmax=12
))

fig.add_trace(go.Heatmap(
                   z=mean_points_from(east_block),
                   x=east_block,
                   y=east_block,
                   colorscale=['#1E88E5', '#FFC107', '#FF005D'],
                   visible=False,
                   colorbar=dict(len=1, y=0.5),
                   zmin=0,
                   zmax=12
))

fig.add_trace(go.Heatmap(
                   z=mean_points_from(scandinavia),
                   x=scandinavia,
                   y=scandinavia,
                   colorscale=['#1E88E5', '#FFC107', '#FF005D'],
                   visible=False,
                   colorbar=dict(len=1, y=0.5),
                   zmin=0,
                   zmax=12
))

fig.add_trace(go.Heatmap(
                   z=mean_points_from(west_block),
                   x=west_block,
                   y=west_block,
                   colorscale=['#1E88E5', '#FFC107', '#FF005D'],
                   visible=False,
                   colorbar=dict(len=1, y=0.5),
                   zmin=0,
                   zmax=12
))

fig.add_trace(go.Heatmap(
                   z=mean_points_from(southern_block),
                   x=southern_block,
                   y=southern_block,
                   colorscale=['#1E88E5', '#FFC107', '#FF005D'],
                   visible=False,
                   colorbar=dict(len=1, y=0.5),
                   zmin=0,
                   zmax=12

))

fig.update_layout(
    xaxis=dict(
        scaleanchor='y',
        scaleratio=1,
        title='Land dat punten ontvangt',
        automargin=False,
        title_standoff=225,
        tickangle=45
    ),
    yaxis=dict(
        constrain='domain',
        title='Land dat punten geeft',
        automargin=False,
        title_standoff=225,
        tickangle=0
        ),
    autosize=False,
    margin=dict(t=50, b=150, l=150, r=0),
    height=575,
    width=800
)


fig.update_layout(
    updatemenus=[
        dict(
            buttons=list([
                dict(
                    args=[{"visible": [False, False, True, False, False, False, False, False]}],
                    label="Benelux",
                    method="update"
                ),
                dict(
                    args=[{"visible": [True, False, False, False, False, False, False, False]}],
                    label="Balkan",
                    method="update"
                ),
                dict(
                    args=[{"visible": [False, True, False, False, False, False, False, False]}],
                    label="Baltische staten",
                    method="update"
                ),
                dict(
                    args=[{"visible": [False, False, False, True, False, False, False, False]}],
                    label="Niet Europese landen",
                    method="update"
                ),
                dict(
                    args=[{"visible": [False, False, False, False, True, False, False, False]}],
                    label="Oostblok",
                    method="update"
                ),
                dict(
                    args=[{"visible": [False, False, False, False, False, True, False, False]}],
                    label="Scandinavië",
                    method="update"
                ),
                dict(
                    args=[{"visible": [False, False, False, False, False, False, True, False]}],
                    label="West Europa",
                    method="update"
                ),
                dict(
                    args=[{"visible": [False, False, False, False, False, False, False, True]}],
                    label="Zuid Europa",
                    method="update"
                ),
            ]),
            type='buttons',
            direction="down",
            pad={"r": 10, "t": 10},
            showactive=True,
            x=1.3,
            xanchor="left",
            y=.9,
            yanchor="top"
        ),
    ]
)

fig.update_layout(
    title_text="Gemiddelde hoeveelheid punten gegeven tussen landen"
)

fig.show()

Dit fenomeen heeft waarschijnlijk een culturele oorzaak. Het kan zijn dat mensen meer geneigd zijn om te stemmen op landen die een culturele gelijkenis hebben met hun eigen land. Dat is niet zo vreemd, want culturele gelijkenis kan ervoor zorgen dat de liedjes beter aansluiten bij hun belevingswereld of voorkeuren. Om aan te tonen dat het stemgedrag van landen beïnvloed wordt door culturele gelijkenissen tussen landen, is het effect van drie belangrijke culturele aspecten onderzocht. Dit zijn gelijkenis van de taal, gelijkenis van de geografische locatie en gelijkenis van de politieke geschiedenis. Aan de andere kant lijkt het alsof stemgedrag vooral wordt beïnvloed door willekeurige factoren die eigenlijk irrelevant zijn voor de muziek zelf. 

Om aan te tonen dat het stemgedrag van landen beïnvloed wordt door culturele gelijkenissen kijken we naar drie belangrijke culturele aspecten. Gelijkenis van de taal, gelijkenis van de geografische locatie en gelijkenis van de politieke geschiedenis. 

In [None]:
# vervang landcodes met landnamen via csv file 
df = pd.read_csv('dist_cepii.csv', sep=';')
csv_file = 'cc3_cn.csv'

# Create an empty dictionary
cc3_cn = {}

# Read the CSV file and populate the dictionary
with open(csv_file, 'r', newline='') as csvfile:
    reader = csv.reader(csvfile)
    next(reader)  # Skip the header row
    for row in reader:
        code, country = row
        cc3_cn[code] = country

df = df.replace({"iso_o": cc3_cn} | {"iso_d": cc3_cn})

# lijst met landen die ooit meededen importeren
with open('landen_die_ooit_meededen.txt') as landen_file:
    landen = landen_file.readlines()
    landen = [land.strip('\n') for land in landen]
    landen = [land.strip('\ufeff') for land in landen]

# filteren op landen die ooit meededen met het songfestival
land_relatie_df = df[df['iso_o'].isin(landen)]
land_relatie_df = land_relatie_df[land_relatie_df['iso_d'].isin(landen)]

# dataframe met data over de onderlinge stemmen opschonen
votes_df = pd.read_csv('votes.csv', sep=';')
cleaned_votes_df = votes_df.drop(columns=['(semi-) final', 'Edition', 'Duplicate']) # kolommmen verwijderen
cleaned_votes_df.replace({'The Netherands': 'The Netherlands', 'F.Y.R. Macedonia':'North Macedonia', 'Macedonia':'North Macedonia'}, inplace=True) #land namen hetzelfde maken
tele_votes_df = cleaned_votes_df[cleaned_votes_df['Jury or Televoting'].isin(['J'])] # alle jury votes verwijderen

# alle kolommen niet relevante kolommen verwijderen. 
land_taal_df = land_relatie_df.drop(columns=['colony', 'comcol', 'curcol', 'col45', 'smctry', 'distcap', 'distw', 'distwces'])
land_taal_df['dist'] = land_taal_df['dist'].str.replace(',', '.')

# voeg de dataframes samen gebaseerd op de kolommen die de landen aangeven
taal_en_votes_df = pd.merge(tele_votes_df, land_taal_df, left_on=['From country', 'To country'], right_on=['iso_o', 'iso_d'])
taal_votes_televoting_df = taal_en_votes_df.drop(columns=['iso_o', 'iso_d', 'Jury or Televoting'])

In [None]:
# berekenen van gemiddelde en mediaan voor landen die wel of niet dezelfde taal hebben en wel of niet aanliggend zijn
mean_contig = taal_en_votes_df[taal_en_votes_df['contig']==1]['Points      '].mean()
mean_non_contig = taal_en_votes_df[taal_en_votes_df['contig']==0]['Points      '].mean()
median_contig = taal_en_votes_df[taal_en_votes_df['contig']==1]['Points      '].median()
median_non_contig =taal_en_votes_df[taal_en_votes_df['contig']==0]['Points      '].median()

mean_comlang = taal_en_votes_df[taal_en_votes_df['comlang_off']==1]['Points      '].mean()
mean_non_comlang = taal_en_votes_df[taal_en_votes_df['comlang_off']==0]['Points      '].mean()
median_comlang = taal_en_votes_df[taal_en_votes_df['comlang_off']==1]['Points      '].median()
median_non_comlang = taal_en_votes_df[taal_en_votes_df['comlang_off']==0]['Points      '].median()

fig = go.Figure()

# maak alle individuele grafieken
fig.add_trace(
    go.Bar(name='Waar',
           x=['Naburig', 'Zelfde taal'],
           y=[mean_contig, mean_comlang],
           visible=True)
)

fig.add_trace(
    go.Bar(name='Niet waar',
           x=['Naburig', 'Zelfde taal'],
           y=[mean_non_contig, mean_non_comlang],
           visible=True)
)

fig.add_trace(
    go.Bar(name='Waar',
           x=['Naburig', 'Zelfde taal'],
           y=[median_contig, median_comlang],
           visible=False)
)

fig.add_trace(
    go.Bar(name='Niet waar',
           x=['Naburig', 'Zelfde taal'],
           y=[median_non_contig, median_non_comlang],
           visible=False)
)

# update de layout van algemene grafiek
fig.update_layout(
    width=600,
    height=700,
    autosize=False,
    margin=dict(t=40, b=20, l=0, r=0),
    template="plotly_white",
    title='Gemiddelde hoeveelheid punten gegeven door landen <br> die naburig zijn of dezelfde taal hebben',
    yaxis=dict(
        title="Gemiddelde hoeveelheid gegeven punten"
            )
)

# voeg een dropdown box toe waar kan worden gekozen tussen de paren van grafieken
fig.update_layout(
    updatemenus=[
        dict(
            buttons=list([
                dict(
                    args=[{"visible": [True, True, False, False]}, {"yaxis.title.text": "Gemiddelde hoeveelheid gegeven punten"}],
                    label="Gemiddelde",
                    method="update"
                ),
                dict(
                    args=[{"visible": [False, False, True, True]}, {"yaxis.title.text": "Mediaan van de gegeven punten"}],
                    label="Mediaan",
                    method="update"
                )
            ]),
            direction="down",
            pad={"r": 10, "t": 10},
            showactive=True,
            x=1.05,
            xanchor="left",
            y=.9,
            yanchor="top"
        ),
    ]
)
fig.show()

Bovenstaand figuur toont aan dat landen die eenzelfde officiële taal delen, elkaar ongeveer twee keer zo veel punten toekennen.Aangezien taal een cultureel goed is toont deze correlatie aan dat culturele gelijkenis een positieve invloed heeft op het aantal toegekende punten tussen landen onderling. 

Uit figuur X blijkt dat naburige landen meer op elkaar stemmen dan op niet-aangrenzende landen. Naburigheid is een indicatie van een culturele overeenkomst. Deze correlatie geeft aan dat culturele gelijkenis een positief effect heeft op het toekennen van punten. 


In [None]:
df_oostblok = pd.read_csv("oostblok.csv")
df_eurovision = pd.read_csv("eurovision_song_contest_1975_2019.csv")
df_eurovision.columns = [column.strip() for column in df_eurovision.columns]

# search oostblok country votes
df_eurovision = pd.merge(left=df_eurovision, right=df_oostblok, how="left", left_on="From country", right_on="Land")
df_eurovision = df_eurovision.rename(columns={"Oostblok" : "from-oostblok"})

# search oostblok country voting receivers
df_eurovision = pd.merge(left=df_eurovision, right=df_oostblok, how="left", left_on="To country", right_on="Land")
df_eurovision = df_eurovision.rename(columns={"Oostblok" : "to-oostblok"})

# remove the land columns
df_eurovision = df_eurovision.drop(columns=["Land_x", "Land_y"])

nob_nob_points_list = []
nob_ob_points_list = []
ob_ob_points_list = []
ob_nob_points_list = []

for i in range(1975, 2019):   
    nob_to_nob = df_eurovision[(df_eurovision['from-oostblok'] == 'Nee') & (df_eurovision['to-oostblok'] =='Nee') & (df_eurovision["Edition"] =='{i}f'.format(i=i))& (euro_df['Jury or Televoting'] == 'J')]["Points"]
    nob_nob_points = nob_to_nob.sum()

    nob_to_ob = df_eurovision[(df_eurovision['from-oostblok'] == 'Nee') & (df_eurovision['to-oostblok'] =='Ja') & (df_eurovision["Edition"] =='{i}f'.format(i=i))& (euro_df['Jury or Televoting'] == 'J')]["Points"]
    nob_ob_points = nob_to_ob.sum()

    ob_to_ob = df_eurovision[(df_eurovision['from-oostblok'] == 'Ja') & (df_eurovision['to-oostblok'] =='Ja') & (df_eurovision["Edition"] =='{i}f'.format(i=i))& (euro_df['Jury or Televoting'] == 'J')]["Points"]
    ob_ob_points = ob_to_ob.sum()

    ob_to_nob = df_eurovision[(df_eurovision['from-oostblok'] == 'Ja') & (df_eurovision['to-oostblok'] =='Nee') & (df_eurovision["Edition"] =='{i}f'.format(i=i))& (euro_df['Jury or Televoting'] == 'J')]["Points"]
    ob_nob_points = ob_to_nob.sum()

    nob_nob_points_list.append(nob_nob_points)
    nob_ob_points_list.append(nob_ob_points)
    ob_ob_points_list.append(ob_ob_points)
    ob_nob_points_list.append(ob_nob_points)

trace1 = go.Scatter(x=list(range(1975, 2019)), y=nob_nob_points_list, mode='lines', name='Niet-Oostblok naar Niet-Oostblok', line=dict(color='blue'))
trace2 = go.Scatter(x=list(range(1975, 2019)), y=nob_ob_points_list, mode='lines', name='Niet-Oostblok naar Oostblok', line=dict(color='blue', dash='10'))
trace3 = go.Scatter(x=list(range(1975, 2019)), y=ob_ob_points_list, mode='lines', name='Oostblok naar Oostblok', line=dict(color='red', dash='10'))
trace4 = go.Scatter(x=list(range(1975, 2019)), y=ob_nob_points_list, mode='lines', name='Oostblok naar Niet-Oostblok', line=dict(color='red'))

# Create the data list
data = [trace1, trace2, trace3, trace4]

# Create the layout
layout = go.Layout(title='Stemgedrag Oostblok en Niet-Oostblok landen', 
                   xaxis=dict(title='Jaar'), 
                   yaxis=dict(title='Ontvangen punten'))

# Create the figure
ob_fig = go.Figure(data=data, layout=layout)

ob_fig.add_annotation(dict(font=dict(color='black',size=15),
                                        x=-0,
                                        y=-0.27,
                                        showarrow=False,
                                        text="Figuur 5: Weergave van de jaarlijkse verdeling aantal stemmen van Oostblok en Niet-Oosblok landen aan zichzelf en elkaar",
                                        textangle=0,
                                        xanchor='left',
                                        xref="paper",
                                        yref="paper"))
# Display the figure
ob_fig.show()


Om de gelijkheid van politieke geschiedenis te kunnen toetsen als variabele hebben we gekeken naar het oostblok. Landen die onderdeel zijn geweest van het oostblok hebben een gelijke politieke geschiedenis gehad, of in ieder geval dezelfde politieke invloed. Figuur X toont aan dat het niet uitmaakt of er sprake is van een gemeenschappelijke politieke geschiedenis. Deze culturele variabele heeft dus geen impact op het stemgedrag van landen. 

### Conclusie
Culturele aspecten als taal en naburigheid hebben dus impact op het stemgedrag van landen. Een gemeenschappelijke geschiedeinis zoals de Oostblok landen hebben lijkst geen invloed te hebben.

### Niet-culturele factoren
Overige factoren die niets met muziek te maken hebben zijn onder andere queerness van de artiest, of landen in dezelfde semi-final hebben gezeten en X.

In [None]:
# Punten database inladen en opschonen
votes_df = pd.read_csv('votes.csv', sep=';') # inladen
votes_df = votes_df.drop(columns=['(semi-) final', 'Edition', 'Duplicate']) # kolommmen verwijderen
votes_df.replace({'The Netherands': 'The Netherlands', 'F.Y.R. Macedonia':'North Macedonia', 'Macedonia':'North Macedonia'}, inplace=True) #landen naar standaard namen veranderen
votes_df = votes_df[votes_df['Jury or Televoting'].isin(['J'])] # alle tele votes verwijderen

# Seksualiteit dataframe inladen en opschonen
sexuality_df = pd.read_csv("Seksualiteit.csv", encoding= 'unicode_escape', header=None)
header = ['Name', 'Country', 'Year', 'Song title', 'Sexuality', 'Points', 'Place']
sexuality_df.columns = header  # Header toevoegen
sexuality_df['Country'] = sexuality_df['Country'].apply(str.strip)
sexuality_df.replace({'Netherlands': 'The Netherlands', 'Bosnia and Herzegovina': 'Bosnia & Herzegovina'}, inplace=True) # Landen naar standaard namen veranderen

# gender database uitlezen en opschonen
gender_df = pd.read_csv('song_data.csv', sep=',', encoding= 'unicode_escape')
gender_df = gender_df.drop(columns=['race','host_10','age','semi_draw_position', 'final_draw_position', 'artist_name', 'song_name', 'language', 'style', 'direct_qualifier_10', 'main_singers', 'selection', 'key', 'BPM', 'energy', 'danceability', 'happiness', 'loudness', 'acousticness', 'instrumentalness', 'liveness', 'speechiness', 'release_date', 'key_change_10', 'backing_dancers', 'backing_singers', 'backing_instruments', 'instrument_10', 'qualified', 'final_televote_points', 'final_jury_points', 'final_televote_votes', 'final_jury_votes', 'final_place', 'final_total_points', 'semi_place', 'semi_televote_points', 'semi_jury_points', 'semi_total_points', 'favourite_10']) # onnodige kolommen verwijderen
gender_df.replace({'Netherlands': 'The Netherlands', 'Bosnia and Herzegovina':'Bosnia & Herzegovina'}, inplace=True) # landen veranderen naar standaard namen

# merge de punten database en de seksualiteit database op basis van jaar en land en geef aan welke instances in beide dataset voorkwamen
point_sexuality_df = votes_df.merge(sexuality_df, left_on=['To country', 'Year'], right_on=['Country', 'Year'], how='left', indicator=True)

# maak nieuwe kolom voor seksualiteit aan waar alle instances die in de seksualiteit dataset zaten op False worden gezet
point_sexuality_df['Sexuality'] = point_sexuality_df['_merge'] != 'both'
point_sexuality_df['Sexuality'] = point_sexuality_df['Sexuality'].replace(True, 'Straight') # True veranderen naar straight
point_sexuality_df['Sexuality'] = point_sexuality_df['Sexuality'].replace(False, 'Queer') # False veranderen naar Queer
point_sexuality_df = point_sexuality_df.drop(columns=['_merge', 'Name', 'Country', 'Song title', 'Place', 'Points'])

# merge de punten/seksualiteit database met de gender database
point_sexuality_gender_df = pd.merge(point_sexuality_df, gender_df, left_on=['To country', 'Year'], right_on=['country', 'year'], how='left')
point_sexuality_gender_df = point_sexuality_gender_df.drop(columns=['year', 'country'])
point_sexuality_gender_df = point_sexuality_gender_df.dropna(subset=['gender'])

# voorbereiding voor plot maken
genders = ['Female', 'Male'] # genders die worden meegenomen in de plot
sexualities = point_sexuality_gender_df['Sexuality'].unique().tolist() # seksualiteiten die worden meegenomen in de plot

# voeg per gender en seksualiteit combinatie het gemiddelde toe aan een nieuw dataframe
mean_values_dictionary = pd.DataFrame(columns=['Gender', 'Sexuality', 'Mean'])
for gender in genders:
    for sexuality in sexualities:
        list_of_points = point_sexuality_gender_df.loc[(point_sexuality_gender_df['gender'] == gender) & (point_sexuality_gender_df['Sexuality'] == sexuality), 'Points      ']
        new_row = pd.DataFrame({'Gender':[gender], 'Sexuality':[sexuality], 'Mean':[list_of_points.mean()]})
        mean_values_dictionary = pd.concat([mean_values_dictionary, new_row], ignore_index=True)

# plot de het nieuwe dataframe
fig = px.treemap(mean_values_dictionary, path=['Sexuality', 'Gender'], values='Mean',
                  color='Mean',
                  color_continuous_scale='RdBu')
fig.update_layout(margin = dict(t=50, l=25, r=25, b=25))
fig.show()

Bovenstaand figuur toont aan dat er meer punten toegekend worden aan landen met queer artiesten. Zes procent van alle deelnemers is openlijk queer, maar van alle winnaars is dit zestig procent. Hieruit blijkt dat er een positieve correlatie is tussen queerness van een artiest en het aantal stemmen dat dat land krijgt. De stemming wordt dus beïnvloedt door overige, niet culturele factoren. 

In [None]:
details = {'Year': [], 'Punten gegeven <br>door landen uit': [], 'to': [], 'Percentages':[]}

for i in range(2016, 2020):
    candidates_sf1 = euro_df[(euro_df.Edition == '{i}sf1'.format(i=i))]['From country']
    sf1 = list(set(candidates_sf1))

    candidates_sf2 = euro_df[(euro_df.Edition== '{i}sf2'.format(i=i))]['From country']
    sf2 = list(set(candidates_sf2))

    sf1_to_sf1 = euro_df[(euro_df['From country'].isin(sf1)) & (euro_df.Edition =='{i}f'.format(i=i)) & (euro_df['To country'].isin(sf1)) & (euro_df['Jury or Televoting'] == 'J')]['Points']
    s11 = sf1_to_sf1.sum()

    sf1_to_sf2 = euro_df[(euro_df['From country'].isin(sf1)) & (euro_df['To country'].isin(sf2)) & (euro_df.Edition=='{i}f'.format(i=i))& (euro_df['Jury or Televoting'] == 'J')]['Points']
    s12 = sf1_to_sf2.sum()

    sf2_to_sf2 = euro_df[(euro_df['From country'].isin(sf2)) & (euro_df['To country'].isin(sf2)) & (euro_df.Edition=='{i}f'.format(i=i))& (euro_df['Jury or Televoting'] == 'J')]['Points']
    s22 = sf2_to_sf2.sum()

    sf2_to_sf1 = euro_df[(euro_df['From country'].isin(sf2)) & (euro_df['To country'].isin(sf1)) & (euro_df.Edition=='{i}f'.format(i=i))& (euro_df['Jury or Televoting'] == 'J')]['Points']
    s21 = sf2_to_sf1.sum()
   
    all_points = sum([s11,s12,s21,s22])
    percentages = [s11/all_points*100, s12/all_points*100, s21/all_points*100, s22/all_points*100]

    details['Year'] += [i, i, i, i]
    details['Punten gegeven <br>door landen uit'] += ['T', 'T', 'F', 'F']
    details['to'] += ['T', 'F', 'T', 'F']
    details['Percentages'] += percentages

 
# creating a Dataframe object
df = pd.DataFrame(details)

mere_exp_fig = px.box(df, y='Percentages', 
             color='Punten gegeven <br>door landen uit', 
             facet_col='to', 
             facet_col_wrap=2, 
             title = 'Mere-exposure effect tussen de twee halve finales uit Eurovision')

# Update the layout with new subplot titles
mere_exp_fig.update_traces(
    legendgroup='Punten gegeven door',
    name='halve finale 1',
    selector=dict(name='T')
)

mere_exp_fig.update_traces(
    legendgroup='Punten gegeven door',
    name='halve finale 2',
    selector=dict(name='F')
)
mere_exp_fig.update_layout(
    annotations=[
        dict(
            x=0.18,
            y=1.02,
            xref='paper',
            yref='paper',
            text='Punten voor kandidaten uit de 1e halve finale',
            showarrow=False,
            font=dict(size=14)
        ),
        dict(
            x=0.68,
            y=1.02,
            xref='paper',
            yref='paper',
            text='Punten voor kandidaten uit de 2e halve finale',
            showarrow=False,
            font=dict(size=14)
        )
    ]
)
mere_exp_fig.add_annotation(dict(font=dict(color='black',size=15),
                                        x=0,
                                        y=-0.12,
                                        showarrow=False,
                                        text="Figuur 6: Boxplot die aantoont hoe de punten procentueel worden onderverdeeld van en naar landen uit de twee halve finales (HF)",
                                        textangle=0,
                                        xanchor='left',
                                        xref="paper",
                                        yref="paper"))

mere_exp_fig.show()

Figuur X toont aan dat landen die aan dezelfde halve finale hebben deelgenomen elkaar meer punten geven. Dit kan onder andere komen door het exposure-effect, een psychologisch fenomeen dat stelt dat mensen een voorkeur ontwikkelen voor dingen die herkenbaarder zijn [bron]. De kans is groot dat landen alleen naar hun eigen finale kijken en dus eerder geneigd zijn te stemmen op landen die ze vaker hebben gehoord. Dit blijkt ook uit figuur X. Deze correlatie toont aan dat bij het stemmen factoren meespelen die noch op de muziek, noch op de cultuur betrekking hebben.

In [None]:
data1 = pd.read_csv('contestants.csv')

# Bereken het gemiddeld aantal puntne voor plek 1 tot en met 25 in de finale
filtered_data = data1[data1['running_final'] < 26]
average_points = filtered_data.groupby('running_final')['place_final'].mean()

# Eigenschappen van de marker
marker = dict(
        color = average_points.values,
        colorscale = 'Portland_r',
        cmin = average_points.max(),
        cmax = average_points.min(),
        colorbar = dict(title='Aantal punten'),
        size = 15
    )

# Eigenschappen van de lijn
line = dict(
    color = 'grey',
    dash = 'dot'
   
)

# Maak een scattter plot van het gemiddeld aantal punten per afspeelplaats
afspeelplaats = go.Figure(data=go.Scatter(
    x = average_points.index,
    y = average_points.values,
    mode = 'lines + markers',
    marker = marker,
    line = line
))

# Plot het figuur met titel en labels
afspeelplaats.update_layout(title = 'Gemiddeld aantal punten van de afspeelplaatsen in de finale', 
                  xaxis_title='Afspeelplaats', 
                  yaxis_title='Gemiddeld aantal punten')

afspeelplaats.add_annotation(dict(font=dict(color='black',size=15),
                                        x=0,
                                        y=-0.27,
                                        showarrow=False,
                                        text="Figuur 8: Lijngrafiek die aantoont hoeveel punten er gemiddeld behaald worden per afspeelplaats in de finale",
                                        textangle=0,
                                        xanchor='left',
                                        xref="paper",
                                        yref="paper"))



afspeelplaats.show()

Figuur X laat zien dat er grote verschillen zijn tussen de posities waarin nummers gemiddeld eindigen, afhankelijk van hun plek in het programma. Opvallend is dat nummers na de eerste twee posities steeds minder goed presteren. Een mogelijke verklaring is een afnemende interesse in het programma. Op de helft van het programma is de pauze. Na de pauze ontvangen landen gemiddeld weer meer punten, mogelijk door hernieuwde interesse. 

Deze interpretatie van de grafiek wordt ondersteund door eerder onderzoek naar de aandachtsspanne van luisteraars (Bligh, 1998). In dat werk ging het om een hoorcollege met een pauze in het midden. De aandachtsspanne volgt ongeveer dezelfde curve als het gemiddeld aantal punten op het Eurovisie Songfestival. Na de pauze ziet de curve er net wat anders uit. Dit kan komen doordat er sommige jaren een tweede pauze is geweest. Daarnaast neemt de interesse aan het einde juist wat toe, waarschijnlijk omdat de kijkers dan bijna mogen stemmen.

# Conclusie
Welk land volgend jaar de meeste kans heeft om het Eurovisie Songfestival te winnen, is dus afhankelijk van veel meer dan alleen de ingediende nummers. Aan de ene kant hebben de vaste factoren taal en naburigheid invloed. Landen kunnen aan deze factoren niets veranderen, maar deze wellicht wel benutten door erop in te spelen. Het kan bijvoorbeeld helpen om een nummer in de meest gesproken officiële taal van het land te schrijven, of in verschillende talen. Aan de andere kant spelen er factoren mee die elk jaar weer kunnen veranderen, zoals indeling van de semifinals, de programmering en de gender en seksualiteit van de artiesten. Landen hebben geen invloed op de programmering of de indeling van de semifinals en kunnen die factoren dus niet optimaliseren. Wel kunnen ze queer artiesten sturen, omdat die een grotere winkans hebben. 