<a href="https://colab.research.google.com/github/bnnguyen/DESLab_ML_training_2024/blob/main/Deslab_2024_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Cách trực quan hóa dữ liệu - Project mẫu về dữ liệu người chơi bóng rổ



In [None]:
# imports for data processing and analytics
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None)

# imports for data visualization
import matplotlib.pyplot as plt
import seaborn as sns # library for more advanced plots
import plotly.express as px # library for interactive plots
%matplotlib inline
# makes graphs inline, always useful to put when using matplotlib

## Phân tích và trực quan hóa dữ liệu (sử dụng Matplotlib và Seaborn)

In [None]:
data_url = "https://raw.githubusercontent.com/arjun-prabhakar/crimson-data-science/main/NBAplayerTotals2020.csv"
basketballData = pd.read_csv(data_url)
basketballData.head()

### Player Efficiency Rating (PER)

Tạo một biểu đồ thanh có 20 người chơi hàng đầu về PER trên trục x và PER tương ứng của họ trên trục y bằng Matplotlib (xem ví dụ sử dụng Seaborn bên dưới)

In [None]:
#Modified DF
sortedPER = basketballData.sort_values(['PER'], ascending=False)
PERtop20 = sortedPER.head(20)

In [None]:
#Matplotlib Pyplot
plt.figure(figsize=(30, 10))
plt.bar(PERtop20['Player'], PERtop20['PER'])
plt.xlabel('Player')
plt.ylabel('Player Efficiency Rating (PER)')
plt.title('Top 20 Players in the NBA by PER')
plt.xticks(rotation=30, ha='center')
plt.show()

In [None]:
#Example in Seaborn with Matplotlib
fig, ax = plt.subplots(figsize=(7, 10))
plt.title('Top 20 Players in NBA by PER')
sns.set_color_codes("pastel")
sns.barplot(x="PER", y="Player", data=PERtop20, color="g")

Bây giờ sắp xếp dữ liệu theo cột VA theo thứ tự giảm dần và lấy 20 VA hàng đầu. Sử dụng công cụ này để vẽ biểu đồ EWA cho phép chúng ta có được 20 cầu thủ hàng đầu tại NBA theo EWA.

In [None]:
# Sort based on VA and get the first 20 rows from this sorted dataframe
sortedVA = basketballData.sort_values(['VA'], ascending=False)
VAtop20 = sortedVA.head(20)
#MatPlotLib Pyplot
plt.figure(figsize=(30, 10))
plt.bar(VAtop20['Player'], VAtop20['EWA'])
plt.xlabel('Player')
plt.ylabel('Estimated Wins Added (EWA)')
plt.title('Top 20 Players in the NBA by EWA')
plt.xticks(rotation=30, ha='center')
plt.show()

In [None]:
#Example of bar plot with the help of Seaborn
fig, ax = plt.subplots(figsize=(7, 10))
plt.title('Top 20 Players in NBA by EWA')
sns.set_color_codes("pastel")
sns.barplot(x="EWA", y="Player", data=VAtop20, color="g")

In [None]:
#Now plot the bottom 20 players using Seaborn with Matplotlib (really similar to the previous cell)
VAbottom20 = sortedVA.tail(20)
VAbottom20 = VAbottom20.sort_values(by = 'EWA', ascending=True)

# Uncomment the code below after specifying the bottom 20 players above this line
fig, ax = plt.subplots(figsize=(7, 10))
plt.title('Bottom 20 Players in NBA by EWA')
sns.set_color_codes("pastel")
sns.barplot(x="EWA", y="Player", data=VAbottom20, color="r")

In [None]:
# Looking at a Pair Plot
basic_stats = ['Pos','PTS', 'AST', 'TRB', 'STL', 'BLK']
sns.set_color_codes("pastel")
sns.set(style="ticks", color_codes=True)
sns.set_style('darkgrid')
sns.pairplot(basketballData[basic_stats], hue = 'Pos', palette = 'husl')

## Tạo biểu đồ trực quan tương tác được với Plotly

In [None]:
#Another graphing library is Plotly which we can use for interactive graphs
fig = px.scatter(basketballData, x='PTS', y='AST', hover_data = ['Player'])
fig.update_layout(title_text = 'Points vs. Assists for 2020 NBA Players')

In [None]:
#Using Pyplot, create a scatterplot that shows the FG percentage versus the Estimated Wins Added for 2020 NBA Players
fig = px.scatter(basketballData, x='EWA', y='FG%', hover_data = ['Player', 'Pos'], color='3P%', color_continuous_scale='viridis')
fig.update_layout(title_text = 'Field Goals % vs. Estimated Wins Added for 2020 NBA Players')

In [None]:
#Using Pyplot, now create a scatterplot that shows the Personal Fouls versus the Total Points for 2020 NBA Players
fig = px.scatter(basketballData, x='PF', y='PTS', hover_data = ['Player', 'Pos'], color='EWA', color_continuous_scale='viridis')
fig.update_layout(title_text = 'Personal Fouls vs. Total Points for 2020 NBA Players')

In [None]:
fig = px.scatter_matrix(basketballData, dimensions=["PTS", "TRB", "AST"], title="2020 NBA Players", hover_data = ['Player'], color='Pos')
fig.show()