
###De evolutie van de productiviteit en salarissen van gemiddelde NBA-spelers###

Moad Matoug, 14433672 \
Bart van der Lee, 14464306 \
Thom Varela Nunes, 14609096 \
Melih Metin, 13993208 \
Groep 46

Introductie

Tijdens dit project zullen we kijken naar de (geavanceerde) statistieken van spelers in de National Basketball Association (NBA) en de veranderingen in hun salarissen. De verzamelde gegevens beginnen in het jaar 2000 en eindigen in 2017. Met behulp van deze gegevens zullen we allereerst verschillen visualiseren in wat er van de gemiddelde speler wordt verwacht. Dit zal worden gedaan door te kijken naar het gemiddelde van bepaalde (essentiële) statistieken in elk seizoen. Vervolgens zullen we kijken naar het gemiddelde salaris van deze spelers en het verschil in zowel productiviteit als salaris analyseren. Het doel is om een beter inzicht te krijgen of NBA spelers daadwerkelijk beter worden, en zo ja, of ze eerlijk gecompenseerd worden.

Er is al een lange tijd een algemene trend bezig binnen de NBA, er worden namelijk steeds meer punten gescoord. Dit zou natuurlijk kunnen komen doordat spelers inderdaad beter worden, ze scoren bijvoorbeeld vaker en doen dit ook vaker van buiten de drie-puntlijn. Maar het zou ook kunnen komen door andere factoren, de regels zouden bijvoorbeeld kunnen zijn veranderd waardoor het makkelijker is geworden om meer punten te scoren. Of misschien zijn spelers juist slechter geworden en is het daardoor makkelijker voor de tegenstander om te scoren. Het is dus belangrijk om niet naar maar één of twee statistieken op zichzelf te kijken, dit zorgt er namelijk voor dat het heel makkelijk is om onjuiste conclusies te trekken.

Vanwege deze trend zijn er verschillende discussies ontstaan waarbij men twee polariserende perspectieven heeft. De ene groep zegt namelijk dat de gemiddelde speler niet beter is geworden, maar dat hun salaris vooralsnog omhoog is gegaan. Aan de andere kant zeggen tegenstanders van dat standpunt dat basketbal, net als veel andere sporten, een snel evoluerende sport is waarbij de tempo en de vaardigheden van spelers constant groeit en dat hun salarisverhoging niet gelijk is aan de toename in vaardigheden en productie.


In [None]:
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/bartvdlee/Informatievisualisatie/main/mergedfinal.csv')

In [None]:
#display(df.head())

In [None]:
positions = ['SF', 'SG', 'C', 'PG', 'PF']
filtered_df = df[df['Pos'].isin(positions)]

# Create the box plot
fig = go.Figure()

for position in positions:
    position_df = filtered_df[filtered_df['Pos'] == position]
    fig.add_trace(
        go.Box(
            y=position_df['salary'],
            name=position
        )
    )

# Update the layout
fig.update_layout(
    title='Salary Distribution by Position (Positions: SF, SG, C, PG, PF)',
    xaxis_title='Position',
    yaxis_title='Salary'
)

# Show the plot
fig.show()

Hierboven staat een boxplot met de salarissen van elke positie in basketbal. Hier is het dus ook mogelijk om het verschil tussen posities te zien. Zo krijgen centers en power forwards gemiddeld het hoogste salaris, de reden hiervoor is dat een gemiddelde power forward of center niet per se heel goed hoeft te zijn, bij deze posities gaat het vooral om lengte en kracht. Omdat er bij deze posities dus minder nadruk op de basketbalvaardigheden ligt is het makkelijker om waarde toe te voegen aan je team, vandaar het hogere salaris.


In [None]:
df_2000 = df[df['season'] == 2000]
df_2006 = df[df['season'] == 2006]
df_2011 = df[df['season'] == 2011]
df_2017 = df[df['season'] == 2017]

fig = go.Figure()

fig.add_trace(go.Box(y=df_2000['USG%'], name='2000'))
fig.add_trace(go.Box(y=df_2006['USG%'], name='2006'))
fig.add_trace(go.Box(y=df_2011['USG%'], name='2011'))
fig.add_trace(go.Box(y=df_2017['USG%'], name='2017'))


fig.update_layout(title='Box Plots of Usage Rate % for Different Years',
                  yaxis_title='USG%',
                  xaxis_title='Year')


fig.show()

Een van de andere statistieken waar we naar kunnen kijken is de “usage rating” ofwel het gebruikspercentage. Gebruikspercentage is een statistiek die wordt gebruikt om de mate van betrokkenheid van een speler bij het aanvallende spel van zijn team te meten. Het geeft aan welk percentage van zijn speelminuten een speler gebruikt om daadwerkelijk invloed te hebben op het spel. Er worden verschillende punten bijgehouden zoals aantal schoten, assists en nog veel meer, dit wordt vervolgens bij elkaar opgeteld en gedeeld door het aantal balbezit van zijn team. In het kort, een hoge gebruikspercentage betekent dat een speler veel invloed heeft op de aanval van zijn team en een lage gebruikspercentage betekent dat een speler juist weinig invloed heeft op de aanval van zijn team.

Hierboven is een boxplot grafiek te zien van het gebruikspercentage van een aantal jaren tussen 2000-2017. Er is dus geen duidelijk verschil tussen deze grafieken, dit betekent dat de gebruikspercentages ongeveer gelijk zijn gebleven door de jaren heen. Wat wel opvalt is dat er in 2017 veel meer outliers zijn dan de jaren daarvoor, de outliers worden gerepresenteerd op de grafiek door middel van een puntje. Je zou dus kunnen zeggen dat er meer spelers zijn die noodzakelijk zijn voor hun team, maar je kan hieruit niet de conclusie trekken dat de gemiddelde speler veel beter is geworden, het gemiddelde gebruikspercentage is zelfs iets lager dan die in 2000.


In [None]:
scatter_fig = px.scatter(df, x='salary', y='PER', color='Pos',
                         title='Salary vs. PER', hover_data=['name', 'Tm'])
scatter_fig.update_layout(xaxis_title='Salary', yaxis_title='PER')

scatter_fig.show()

Om te weten of spelers beter zijn geworden is het belangrijk om te weten hoe efficiënt spelers zijn. Een veel gebruikte manier om dit te meten is de Player Efficiency Rating (PER). Bij de PER wordt er gekeken naar hoe efficiënt een speler is tijdens een wedstrijd, statistieken zoals geraakte worpen en gemiste worpen spelen hier een rol maar ook statistieken zoals rebounds en assists.

In de grafiek hierboven is het gemiddelde salaris van NBA spelers en de gemiddelde PER van NBA spelers geplot. Zoals is te zien is er een best duidelijk verband tussen op uitzondering van het jaar 2000. Het is dus tot op zekere hoogte mogelijk om te stellen dat de efficiëntie van een speler invloed heeft op hun salaris, en dat spelers wel gecompenseerd worden voor hun effectiviteit.


In [None]:
#players_grouped = df[['name', 'salary', 'BPM', 'raptor_total', 'WS/48']].groupby(by = 'name').mean()
#players_grouped = players_grouped.reset_index()
#players_grouped['average_skill'] = ((players_grouped['WS/48'] * 10) + players_grouped['BPM']
#                                    + players_grouped['raptor_total']) / 3
#display(players_grouped[['name', 'salary', 'average_skill', 'WS/48', 'BPM', 'raptor_total']].sort_values(by = 'average_skill', ascending = False).head(n=10))

In [None]:
#players_filtered = df[df['MP'] > 50]
#players_grouped = players_filtered[['name', 'salary', 'BPM', 'raptor_total', 'WS/48']].groupby(by = 'name').mean()
#players_grouped = players_grouped.reset_index()
#players_grouped['average_skill'] = ((players_grouped['WS/48'] * 10) + players_grouped['BPM']
#                                    + players_grouped['raptor_total']) / 3
#display(players_grouped[['name', 'salary', 'average_skill', 'WS/48', 'BPM', 'raptor_total']].sort_values(by = 'average_skill', ascending = False).head(n=10))

In [None]:
#display(df[df['name'] == 'Tony Mitchell'])

In [None]:
average_salary_bpm = df[['season', 'salary', 'BPM', 'raptor_total', 'WS/48']].groupby(by = 'season').mean()
average_salary_bpm = average_salary_bpm.reset_index()
display(average_salary_bpm)

salary_values_per_million = [salary / 1000000 for salary in average_salary_bpm['salary']]

data = {'season': average_salary_bpm['season'], 'BPM': average_salary_bpm['BPM'],
        'salary': salary_values_per_million, 'raptor_total': average_salary_bpm['raptor_total'],
        'WS/48': average_salary_bpm['WS/48']}
df_salary_bpm = pd.DataFrame(data)

fig = make_subplots(specs=[[{"secondary_y": True}]])

# Add traces
# fig.add_trace(go.Scatter(x=df_salary_bpm['season'], y=df_salary_bpm['BPM'], name='BPM'),
#               secondary_y=False)

fig.add_trace(go.Scatter(x=df_salary_bpm['season'], y=df_salary_bpm['raptor_total'], name='RAPTOR'),
              secondary_y=False)

# fig.add_trace(go.Scatter(x=df_salary_bpm['season'], y=df_salary_bpm['WS/48'], name='WS/48'),
#               secondary_y=False)

fig.add_trace(go.Scatter(x=df_salary_bpm['season'], y=df_salary_bpm['salary'], name='Salary (in million dollars)'),
              secondary_y=True)

# Add figure title
fig.update_layout(
    title_text="RAPTOR and Salary per season"
)

# Set x-axis title
fig.update_xaxes(title_text="Season")

# Set y-axes titles
fig.update_yaxes(title_text="RAPTOR", secondary_y=False)
fig.update_yaxes(title_text="Salary (per million dollars)", secondary_y=True)

fig.show()

Unnamed: 0,season,salary,BPM,raptor_total,WS/48
0,2000,3910925.0,-0.853741,-0.84213,0.087272
1,2001,3022601.0,-1.973821,-1.653817,0.073283
2,2002,3205077.0,-2.155656,-1.698503,0.070335
3,2003,4361010.0,-1.258503,-1.060484,0.084786
4,2004,6057910.0,-1.384426,-1.078792,0.081971
5,2005,6560201.0,-1.468456,-1.465454,0.080329
6,2006,4006820.0,-2.219483,-1.774812,0.068644
7,2007,3853005.0,-2.086681,-1.611918,0.068389
8,2008,3910839.0,-2.691783,-1.938536,0.056186
9,2009,4457126.0,-2.420646,-1.741015,0.068833


In [None]:
df_season_avg = df.groupby('season').agg({'raptor_total': 'mean', 'salary': 'mean'}).reset_index()

corr_coef = np.corrcoef(df_season_avg['raptor_total'], df_season_avg['salary'])[0, 1]

corr_df = pd.DataFrame({'Raptor': df_season_avg['raptor_total'], 'Salary': df_season_avg['salary']})

fig = px.imshow(corr_df.corr(), zmin=-1, zmax=1, color_continuous_scale='RdBu',
                labels={'x': 'Raptor', 'y': 'Salary', 'color': 'Correlation'},
                title=f'Pearson Correlation: Raptor vs Salary\nCorrelation Coefficient: {corr_coef:.2f}')

fig.show()

In [None]:
df_season_avg = df.groupby('season').agg({'raptor_total': 'mean', 'salary': 'mean'}).reset_index()

corr_coef = df.groupby('season')['raptor_total', 'salary'].corr().iloc[0::2,-1].values

corr_data = pd.DataFrame({'Season': df_season_avg['season'], 'Correlation': corr_coef})

fig = px.line(corr_data, x='Season', y='Correlation',
              labels={'Season': 'Season', 'Correlation': 'Pearson Correlation'},
              title='Pearson Correlation between Mean Raptor and Mean Salary per Season')

fig.show()



Indexing with multiple keys (implicitly converted to a tuple of keys) will be deprecated, use a list instead.



De visualisatie van de data is een lijngrafiek die de gemiddelde salaris van een NBA speler per seizoen en de gemiddelde RAPTOR per seizoen bevat. De ‘Robust Algorithm (using) Player Tracking (and) On/Off Ratings’ is niet een statistiek dat gedurende een NBA-wedstrijd direct ontwikkeld kan worden, maar de statistiek bestaat uit een wiskundige formule om de contributie van een speler te meten. De meting richt zich, net als bijvoorbeeld de BPM, op de offensieve en verdedigende contributie van een speler per 100 bezittingen, vergeleken met een gemiddelde speler in de associatie. De grafiek toont aan dat de gemiddelde RAPTOR niet positief wordt, wat inhoudt dat de negatieve contributies in grotere mate aanwezig zijn vergeleken met de spelers met positieve contributies. Verder is er te zien dat er een indicatie is voor een correlatie tussen de gemiddelde RAPTOR en de gemiddelde salaris. Dit wordt verder ondersteund door de Pearson correlatie van 0.29

In [None]:
# Calculate average efficiency metrics per season
df_season_avg = df.groupby('season').agg({'2P%': 'mean', '2PA': lambda x: (x / df['G']).sum() / df['name'].nunique(),
                                          '3P%': 'mean', '3PA': lambda x: (x / df['G']).sum() / df['name'].nunique(),
                                          'name': 'nunique'}).reset_index()

# Creating subplots with shared y-axis
fig = make_subplots(rows=1, cols=2, shared_yaxes=True, subplot_titles=['Two-Point Attempts', 'Three-Point Attempts'])

# Adding the bar chart for Two-Point Attempts
fig.add_trace(go.Bar(
    x=df_season_avg['season'],
    y=df_season_avg['2PA'],
    name='2PA',
), row=1, col=1)

# Adding the scatter plot for Two-Point Percentage
fig.add_trace(go.Scatter(
    x=df_season_avg['season'],
    y=df_season_avg['2P%'],
    name='2P%',
    mode='markers',
    marker=dict(size=8),
), row=1, col=1)

# Adding the bar chart for Three-Point Attempts
fig.add_trace(go.Bar(
    x=df_season_avg['season'],
    y=df_season_avg['3PA'],
    name='3PA',
), row=1, col=2)

# Adding the scatter plot for Three-Point Percentage
fig.add_trace(go.Scatter(
    x=df_season_avg['season'],
    y=df_season_avg['3P%'],
    name='3P%',
    mode='markers',
    marker=dict(size=8),
), row=1, col=2)

# Updating layout
fig.update_layout(
    title='Efficiency of Average Player per Season (2000-2017)',
    xaxis=dict(title='Season'),
    yaxis=dict(title='Attempts'),
)

# Displaying the chart
fig.show()

## ***TEKST***

In [None]:
mean_df = df.groupby('season').mean()

fig = make_subplots(specs=[[{"secondary_y": True}]])

fig.add_trace(
    go.Scatter(x=mean_df.index, y=mean_df['salary'], name='Mean Salary'),
    secondary_y=False,
)

fig.add_trace(
    go.Scatter(x=mean_df.index, y=mean_df['PER'], name='Mean PER'),
    secondary_y=True,
)

# Set the titles of y-axes
fig.update_yaxes(title_text="Mean Salary", secondary_y=False)
fig.update_yaxes(title_text="Mean PER Score", secondary_y=True)
fig.update_layout(title='Mean Salary & Mean PER')

fig.show()



The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



In [None]:
grouped_df = df.groupby(['season', 'Tm'])['salary'].sum().reset_index()

# Creating a bar chart
fig = px.bar(grouped_df, x='season', y='salary', color='Tm', title='Total Salary by Team per Season')
fig.show()

In [None]:
# Grouping the dataframe by season and calculating the average MP/G and USG%
df_season_avg = df.groupby('season').agg({'MP': 'sum', 'G': 'sum', 'USG%': 'mean'}).reset_index()
df_season_avg['MP/G'] = df_season_avg['MP'] / df_season_avg['G']

# Plotting the scatter plot with color encoding and larger marker size
fig = px.scatter(df_season_avg, x='USG%', y='MP/G', color='season',
                 labels={'USG%': 'Usage Rate', 'MP/G': 'Minutes per Game (MP/G)'},
                 title='Influence of Minutes per Game on Usage Rate per Season (2000-2017)',
                 size_max=50)

# Displaying the chart
fig.show()

In [None]:
# Calculate average BPM per season
df_season_avg = df.groupby('season')['BPM'].mean().reset_index()

# Creating the parallel coordinates plot
fig = px.parallel_coordinates(df_season_avg, color='BPM', color_continuous_scale='Viridis',
                              labels={'season': 'Season', 'BPM': 'Average BPM'},
                              title='Average BPM per Season (2000-2017)')

# Displaying the chart
fig.show()


ChatGPT prompt: I have made a graph comparing the BPM and salary of NBA players, however i want to display the salary in ... per million dollars, how can I change this using plotly

ChatGPT prompt: I want to make a graph which shows the evolution of the average skills of NBA players vs. the increase in salaries. Which type of graph is best to use and how can i best measure the still of NBA players

ChatGPT prompt: How can i use the index as the x axis when making a line chart using plotly express?

ChatGPT prompt: I have this code using plotly in Python, that gives a graph which shows the average BPM and average salary of NBA players over different seasons. The average BPM and the average salary are on the y-axis. The salary is in million dollars and the BPM doesn't have an unit. Can you fix the description on the y-axis to represent the units.
fig = px.line(df_salary_bpm, x='season', y=['BPM', 'salary'],
                 labels={'season': 'Season', 'BPM': 'BPM', 'salary': 'Salary (per million dollars)'},
                 title='BPM and Salary per season')