# Football Data Analytics


ฟุตบอลเป็นกีฬาชนิดหนึ่งซึ่งได้รับความนิยมมากที่สุดในปัจจุบัน  ซึ่งปัจจัยสำคัญที่ส่งผลต่อการแข่งขันนั้นมีหลายประการ ไม่ว่าจะเป็นจำนวนการส่งบอลการสกัดการดวลกันหรือแม้แต่สถิติรับบอลหรือบอลที่เข้าประตู ทางกลุ่มของเราจึงได้เล็งเห็นถึงความสำคัญและความน่าสนใจของชุดข้อมูลจึงได้ทำการนำมาวิเคราะห์เชิงลึกเพื่อพิสูจน์ข้อเท็จจริงต่างๆจากชุดข้อมูลที่มี 

ข้อมูล ณ วันที่ 9 มีนาคม 2566

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
pd.set_option('display.max_columns', None)

การเพิ่ม field ต่างๆจะทำให้การวิเคราะห์ง่ายขึ้น และสามารถใช้งานและวิเคราะห์ข้อมูลได้หลากหลายมากขึ้น                                                                         

- xG/90 [float]: จำนวนการทำเข้าประตูที่คาดว่าจะสามารถทำได้ ใน 90 นาที                                                                                                             

- (Gls-xG)/90 [float]: ความแตกต่างระหว่างจำนวนการทำประตูที่ทำได้จริง กับ  จำนวนการทำเข้าประตูที่คาดว่าจะสามารถทำได้ ใน 90 นาที                               

- KP/90 [float]: จำนวน Key pass ที่สามารถทำได้ ใน 90 นาที                                                                                                                                                                                              

- Ast/90 [float]: จำนวน assist ที่สามารถทำได้ ใน 90 นาที                                                                                                                                                                                                      

- xA/90 [float]: จำนวน assist ที่คาดว่าจะสามารถทำได้ ใน 90 นาที    

In [None]:
gk = pd.read_csv('goalkeepers.csv')
df = pd.read_csv('players_22-23.csv') # ข้อมูลฤดูกาล 2022-2023
df['(Gls-xG)/90'] = df['Gls/90'] - df['xG/90']
df['KP/90'] = round(df['KP'] / df['90s'], 2)
df['xA/90'] = round(df['xA'] / df['90s'], 3)

- ในการวิเคราห์ประเด็นนี้ จะใช้ dataframe ในฤดูกาล 2022 ถึง 2023 ใน Premier League เท่านั้น                                                                                                                               df_prem_mf จะเป็น dataframe ที่เราจะคัดมาเฉพาะแต่ตำแหน่ง กองกลาง (Midfielder)
df_prem_fw จะเป็น dataframe ที่เราจะคัดมาเฉพาะแต่ตำแหน่ง กองหน้า (Forward or Striker)
df_prem_fw_big5 จะเป็น dataframe ที่เราจะคัดมาเฉพาะแต่ตำแหน่ง กองหน้า (Forward or Striker) ที่อยู่ในทีม top 5 ของ English Premier League ในฤดูกาล 2022-2023 ได้แก่ Arsenal, Manchester City, Manchester United, Tottenham และ Liverpool

In [None]:
df_prem = df[df.Comp.str.contains('Premier League')] #Prem only
df_prem_mf = df_prem[(df_prem.Pos.str.startswith('MF') & (df_prem.Starts > 10) )] #Filter Midfield and Playtime
df_prem_fw = df_prem[(df_prem.Pos.str.startswith('FW') 
                                  & (df_prem.Min > 450) & (df_prem.Gls > 2))] #Filter Forward

In [None]:
df_prem_fw_big5 = df_prem_fw[df_prem_fw.Team.isin(['Arsenal', 'Manchester City', 'Manchester Utd', 'Tottenham', 'Liverpool'])]

## อะไรที่ทำให้ Haaland เป็นนักเตะที่ทำประตูได้สูงที่สุดใน Premier League

- top_5 คือ ทีมที่ทำการแข่งขันใน English Premier League ในฤดูกาล 2022-2023 แล้วมีฟอร์มการเล่นของทีมที่โดดเด่นที่สุด                                             ได้แก่ Arsenal, Manchester City, Manchester United, Tottenham และ Liverpool

In [None]:
top_5 = ['Arsenal', 'Manchester City', 'Manchester Utd', 'Tottenham', 'Liverpool']

ข้างล่างนี้คือข้อมูลภาพรวมค่า stats ต่างๆ ของตำแหน่ง กองหน้า (forward) แต่ละคนจาก df_prem_fw_big5 โดยเรียงลำดับจากการทำประตู Gls จากมากไปน้อย

### ภาพรวมการทำประตูของนักเตะใน EPL

จากการสังเกตตาราง pivot table จะสังเกตได้ว่า Erling Haaland นักเตะกองหน้าจากทีม Manchester City ได้ทำประตูไป 27 ประตู ซึ่งมากที่สุดใน English Premier League ฤดูกาล 2022-2023 

In [None]:
df_prem_fw_big5.pivot_table(index=['Name', 'Team', 'Pos'], values=['xG', 'Gls', 'Age', 'MP', 'Starts', 'G/Sh', 'SoT']).sort_values(by='Gls', ascending=False)

### Manchester City ทำประตูได้มากที่สุดใน EPL เช่นกัน

เมื่อเปรียบเทียบผลรวมจำนวนการทำประตูของแต่ละทีมแล้ว ค้นพบว่า Manchester City นั้นทำประตูมากที่สุดใน English Premier League ฤดูกาล 2022-2023  เช่นกัน

In [None]:
df_prem.groupby(by='Team').Gls.sum().sort_values(ascending=False).head(10)

### Erling Haaland ทำประตูไปถึง 42% จากการทำประตูของทั้งทีม

df_mci คือ dataframe ที่คัดเลือกมาเฉพาะ ผู้เล่นจากทีม Manchester City ใน EPL ฤดูกาล 2022-2033
df_mci_fw คือ df_mci ที่คัดเลือกมาเฉพาะนักเตะในตำแหน่ง กองหน้า (forward)

In [None]:
df_mci = df_prem[df_prem.Team == 'Manchester City'] #filter MCI
df_mci_fw = df_mci[df_mci.Pos.str.startswith('FW')] #filter forward

แสดงผลการทำประตูของ ทีม Manchester City ผ่านทาง pie chart, สังเกตได้ว่า Erling Haaland ทำประตูไปถึง 42% จากการทำประตูของทั้งทีม ซึ่งถือว่าเกือบครึ่งของการทำประตูจากทีม Manchester City นั้นมาจากการทำประตูของ Haaland คนเดียว

In [None]:
plt.pie(data=df_mci[df_mci.Gls > 0], x='Gls', labels='Name', autopct='%.0f%%')
plt.title("Manchester City Goal Scorer")

### Erling Haaland อยู่ใน top 5 ผู้ที่ทำประตูเยอะที่สุดใน EPL

top5_gls คือการคัดเลือก กองหน้าที่สามารถทำประตูได้มากที่สุด 5 คนจาก EPL ในฤดูกาล 2022-2023 โดยเลียงลำดับตามจำนวนการทำประตู

In [None]:
top5_gls = df_prem_fw[(df_prem_fw.Starts > 10) 
                            & df_prem_fw.Team.isin(top_5)].sort_values(by='Gls', ascending=False).head(5)
top5_gls[['Name', 'Gls', 'xG', '90s', 'G/Sh']]

เมื่อแสดงผล Coversion Rates หรือว่า อัตราการเปลี่ยนโอกาสยิงให้เป็นประตูของนักเตะ ท็อป 5 ของ EPL 
ยิ่ง Conversion Rates มาก แสดงว่า shot attempt (Sh) ที่นักเตะยิงประตูไป นั้นยิ่งมีโอกาสสูงที่จะเป็นการทำประตู Gls
ซึ่งถึงแม้ Harry Kane จะทำประตูมากกว่า Marcus Rashford แต่เมื่อ conversion rates น้อยกว่าแสดงว่าทุกครั้งที่ Rashford ยิงประตูจึงมีโอกาสที่จะทำประตูหรือยิงเข้าประตูได้มากกว่า Kane นั่นเอง

ที่สำคัญเลยจาก Bar Chart จะสังเกตุได้ว่า Haaland นั้นมี Conversion Rates ที่สูงที่สุดในกองหน้าที่สามารถทำประตูได้มากที่สุด 5 คนจาก EPL

In [None]:
sns.barplot(y='Name', x='G/Sh', data=top5_gls)
plt.title('Conversion Rates of Different Players')
plt.xlabel("Goal/Shot")
plt.ylabel("")

### นักเตะสามารถทำประตูได้ตามที่คาดการหรือไม่

เป็นการเเสดงกราฟแบบจุดมีจุดประสงค์เพื่อให้เห็นการเปรียบเทียบว่า จากการที่ได้คัดเลือกนักเตะที่ทำประตูได้มากที่สุด 5 คน ทั้ง  5 คนมีจำนวนของการทำประตูได้เมื่อเปรียบเทียบกับ ผลคาดคะเนจำนวนการทำประตูก่อนการเเข่งว่ามีโอกาสในการทำประตูได้มากเท่าใด ซึ่งจากตารางจะเห็นว่า นักเตะส่วนมากจะสามารถทำประตูได้มากกว่าที่มีการคาดการเอาไว้ 

In [None]:
sns.scatterplot(x='Gls/90', y='xG/90', data=top5_gls, size='Min', hue='Team', alpha=0.5)
plt.title("Player Goals vs xG")
plt.xlabel("Goals/90")
for i, row in top5_gls.iterrows():
    plt.text(row['Gls/90'] , row['xG/90']-0.025, row['Name'], fontsize=8, ha='center')

 ในตารางนี้จะเเสดงให้เห็นการเปรียบเทียบว่า ผลการทำประตูในเวลา 90 นาทีของนักเตะทั้ง5คนเเละความต่างระหว่างการทำประตูจริงกับผลคาดคะเนนในการเเข่งขัน 90 นาทีนั้นเป็นอย่างไร ซึ่งเราได้ทำเป็นในรูปแบบของกราฟจะทำได้เห็นสิ่งที่น่าสนใจ คือ นักเตะส่วนมากมีการทำประตูที่มากกว่าที่คาดการเอาไว้ เช่นการที่ Eriling  Haaland มีความสามารถที่จะทำประตูกับลูกที่ไม่คาดคิดว่าจะเข้าได้

In [None]:
sns.relplot(data=top5_gls, x='Gls/90', y='(Gls-xG)/90', size='Min', hue='Team')
plt.title("Player Goals vs Above xG")
plt.ylabel("Above xG")
plt.xlabel("Goals/90")
for i, row in top5_gls.iterrows():
    plt.text(row['Gls/90'] , row['(Gls-xG)/90']-0.02, row['Name'], fontsize=8, ha='center')

### Key Pass with Shot creating action

In [None]:
df_prem_mf_top5 =  df_prem_mf[df_prem.Team.isin(top_5)]

### โอกาสในการส่งบอลสำเร็จของทีมชั้นนำ

   ในการแข่งขันสิ่งที่สำคัญที่สุดคือการทำประตูซึ่งการทำประตูนั้น มีแนวโน้มสูงขึ้นเมื่อมีการส่งบอลเพื่อที่จะทำประตูได้สำเร็จ ผู้เล่นแต่ละในแต่ละทีมจะมีการส่งบอลกันไปมาในระหว่างผู้เล่นซึ่งโอกาสในการส่งบอลถ้าสำเร็จก็จะยิ่งเพิ่มโอกาสในการทำประตูในการแข่งขันมีจังหวะหนึ่งซึ่งเป็นโอกาสในการทำประตูแต่จำเป็นจะต้องส่งบอลไปทางผู้เล่นอีกคนหนึ่งที่มีโอกาสในการทำประตูมากที่สุด  ทำให้อัตราการส่งบอลที่เรียกกันว่า key passให้สำเร็จนั้นมีผลต่ออัตราการทำประตู  

In [None]:
sns.relplot(data=df_prem_mf, x='KP/90', y='SCA/90')
plt.ylabel("Shot Creation Action/90")
plt.xlabel("Key Pass/90")
# Shot Creation Action : การสร้างสรรค์โอกาส

- ตารางนี้จะเป็นการเเสดงค่าต่างๆให้เห็นโดยรวม

In [None]:
creation_stat = df_prem_mf.groupby(by='Team')[['TotCmp%', 'SCA/90', 'KP/90']].mean().round(2)

# Rank the teams based on SCA/90 and KP/90
creation_stat['SCA/90 Rank'] = creation_stat['SCA/90'].rank(method='dense', ascending=False).astype(int)
creation_stat['KP/90 Rank'] = creation_stat['KP/90'].rank(method='dense', ascending=False).astype(int)
creation_stat['TotCmp% Rank'] = creation_stat['TotCmp%'].rank(method='dense', ascending=False).astype(int)

# Sort the data by SCA/90
creation_stat = creation_stat.sort_values(by='SCA/90', ascending=False)

creation_stat

### Expected assist and Actual assist

### โอกาสในการทำประตูจากลูกส่งของคนในทีม

- ในการแข่งขันสิ่งที่สำคัญที่สุดคือการทำประตูซึ่งการทำประตูนั้น มีแนวโน้มสูงขึ้นเมื่อมีการส่งบอลเพื่อที่จะทำประตูได้สำเร็จ ผู้เล่นแต่ละในแต่ละทีมจะมีการส่งบอลกันไปมาในระหว่างผู้เล่นซึ่งโอกาสในการส่งบอลถ้าสำเร็จก็จะยิ่งเพิ่มโอกาสในการทำประตูในการแข่งขันมีจังหวะหนึ่งซึ่งเป็นโอกาสในการทำประตูแต่จำเป็นจะต้องส่งบอลไปทางผู้เล่นอีกคนหนึ่งที่มีโอกาสในการทำประตูมากที่สุด  ทำให้อัตราการส่งบอลที่เรียกกันว่า key passให้สำเร็จนั้นมีผลต่ออัตราการทำประตู  

In [None]:
sns.relplot(data=df_prem_mf_top5, x='Ast/90', y='xA/90', hue='Team')
plt.ylabel("xA/90")
plt.xlabel("Assist/90")

## นักเตะคนใดในทีม Liverpool ที่สมควรได้รับเวลาในการเล่นเพิ่ม

### ข้อมูลเริ่มต้นที่ใช้ในการวิเคราะห์

ก่อนอื่นต้องมาดูภาพรวมผลงานของทีม Liverpool ทั้งฤดูกาล 2021-2022 และ ฤดูลกาล 2022-2023 โดย
table_21_22 คือ dataframe ผลงานของทีม Liverpool ฤดูกาล 2021-2022
table_22_23 คือ dataframe ผลงานของทีม Liverpool ฤดูกาล 2022-2023
เราจะสร้าง field ชื่อ 'Season' เพื่อเป็น tag บอกว่าเป็น field ของฤดูกาลไหน
เมื่อเราได้ 2 ตารางแล้วเราจะนำ table_21_22 และ table_22_23 มาเชื่อมกัน บน dataframe ชื่อว่า table
เราจะทำการ drop columns บาง columns ที่เราไม่ได้ใช้ในการวิเคราะห์
ละจะทำการเปลี่ยนชื่อ Column 'Squad' เป็นคำว่า 'Team' เพื่อให้ง่ายต่อความเข้าใจ
xG/90 [float]: xG (expected goal) หารด้วย MP (จำนวน match ที่ได้เล่น โดย 1 matchใช้ระยะเวลา 90 นาที)
เราจึงได้ จำนวนประตูที่คาดว่าจะทำได้ ต่อ 1 match การเล่น
G/90 [float]: GF ( ประดูที่ทำได้ ) หารด้วย MP (จำนวน match ที่ได้เล่น โดย 1 matchใช้ระยะเวลา 90 นาที)
เราจึงได้ จำนวนประตูที่ทำได้ ต่อ 1 match การเล่น

In [None]:
table_21_22 = pd.read_csv('table/table_21-22.csv')
table_22_23 = pd.read_csv('table/table_22-23.csv')
table_21_22['Season'] = '21-22'
table_22_23['Season'] = '22-23'
table = pd.concat([table_21_22, table_22_23])
table = table.drop(columns=['Attendance', 'Top Team Scorer', 'Goalkeeper', 'Notes', 'Last 5',])
table = table.rename(columns={'Squad' : 'Team'})
table['xG/90'] = table.xG / table.MP
table['G/90'] = table.GF / table.MP

ตารางข้างล่างนี้เป็นการแสดงผล stats ต่างๆของทีม Liverpool ได้แก่
Team [str]: ชื่อทีม
Season [str]: ฤดูกาล
MP [int]: จำนวน match ที่เล่น
Pts [int]: แต้มสะสมของทีม
GF [int]: จำนวนประตูที่ทำได้
G/90 [float]: จำนวนประตูที่ทำได้ ต่อ 1 match การเล่น
xG [int]: จำนวนประตูที่คาดว่าจะทำได้
xG/90 [float]: จำนวนประตูที่คาดว่าจะทำได้ ต่อ 1 match การเล่น

### ผลงานในฤดูกาลก่อนดีกว่าฤดูกาลปัจจุบัน

In [None]:
table[table.Team == 'Liverpool'][['Team', 'Season', 'MP', 'Pts', 'GF', 'G/90', 'xG', 'xG/90']]

เราจะเห็นได้ว่าเมื่อเทียบสถิติของทีม Liverpool ระหว่าง 2 ฤดูกาล และจากกราฟข้างล่างนี้ เราจะเห็นได้ว่า
G/90 นั้นลดลงจากฤดูกาลเดิมถึงร้อยละ 27 ซึ่งเป็นสถิติที่ยืนยันได้ว่า Liverpool ในฤดูกาลก่อนนั้นมีผลงานที่ดีกว่า ฤดูกาลปัจจุบัน 

In [None]:
sns.barplot(y='Season', x='G/90', data=table[table.Team == 'Liverpool'])
plt.title("Liverpool's goals per game")
plt.xlabel("Goal/90")
plt.ylabel("Season")

df_22_23_liv คือ dataframe ที่คัดมาเฉพาะทีม Liverpool จากทีมทั้ง Premier League df_22_23_liv_fw คือ dataframe ที่คัดมาเฉพาะทีม Liverpool และ position ตัวรุก half_playtime คือ ระยะเวลาการเล่นครึ่งนึงของผู้เล่นที่ได้เล่นนานที่สุด(นาที) time_mean คือ ระยะเวลาเฉลี่ย

In [None]:
df_liv = df_prem[df_prem.Team == 'Liverpool'] #filter LIV
df_liv_fw = df_liv[df_liv.Pos.str.contains('FW')] #filter forward
half_playtime = df_liv.sort_values(by='Min', ascending=False).head(1)['Min'].iloc[0] / 2 #ระยะเวลาที่เล่นครึ่งนึงของคนที่มากที่สุด
time_mean = df_liv.Min.mean()
time_mean

### กราฟแสดงระยะเวลาในการเล่นของผู้เล่นทีม Liverpool

In [None]:
sns.scatterplot(data=df_liv, x='Age', y='Min')
plt.axhline(time_mean, color='red', label='mean')
plt.axhline(half_playtime, color='green', label='half')
for i, row in df_liv.iterrows():
    plt.text(row['Age'] , row['Min'], row['Name'], fontsize=8, ha='center')
plt.title("Player's Playtime")
plt.ylabel("Minutes")
plt.legend()

สังเกตจากตารางข้างบนเราจะเห็นได้ว่ามีบางผู้เล่นที่ได้เล่นนานกว่าเวลาเฉลี่ยอีก และผู้เล่นที่ได้เล่นน้อยกว่าเวลาเฉลี่ย (เส้นสีแดง) และ มีเส้นสีเขียวที่แบ่งให้เห็นถึงระยะเวลาครึ่งนึง (ครึ่ง match)

df_22_23_liv_low คือ dataframe ที่คัดเฉพาะผู้เล่นที่ได้รับเวลาเล่นน้อยกว่าเวลาเฉลี่ย
df_22_23_liv_high คือ dataframe ที่คัดเฉพาะผู้เล่นที่ได้รับเวลาเล่นมากกว่าเวลาเฉลี่ย
column ชื่อ Playtime บ่งบอกว่าผู้เล่นนั้นได้รับเวลามากกว่า (high) หรือ น้อยกว่าเวลาเฉลี่ย (low)

จากการที่เราสืบค้นและเพื่อทำให้การวิเคราะห์เป็นไปตามเป้าหมายที่วางไว้ การวิเคราะห์เรื่องนี้จึงต้องตัด นักเตะที่มีอาการบาดเจ็บออก ได้แก่
Luis Díaz, Diogo Jota, Naby Keïta, และ Cody Gakpo ทั้งหมด 4 คน, โดยผู้เล่นบาดเจ็บเหล่านี้จะมีผลกับการวิเคราะห์เฉพาะ ผู้เล่นที่ได้รับเวลาเล่นน้อยกว่าเวลาเฉลี่ย
df_22_23_liv_low_ninj คือ dataframe ที่เราจะคัดนักเตะที่บาดเจ็บออกจาก df_22_23_liv_low
df_22_23_liv_fw_low_ninj คือนำ dataframe เดิมมาคัดให้เหลือแค่ตำแหน่ง ตัวรุก
df_22_23_liv_fw_high คือ df_22_23_liv_high ที่คัดเฉพาะตำแหน่ง ตัวรุก

In [None]:
df_liv_low = df_liv[df_liv.Min < time_mean]
df_liv_low['PlayTime'] = 'low'
df_liv_high = df_liv[df_liv.Min >= time_mean]
df_liv_high['PlayTime'] = 'high'
liv_inj = ['Luis', 'Diogo', 'Naby', 'Cody']
df_liv_low_ninj = df_liv_low[~df_liv_low['Name'].str.contains('|'.join(liv_inj))]
df_liv_fw_low_ninj = df_liv_low_ninj[df_liv_low_ninj.Pos.str.contains('FW')]
df_liv_fw_high = df_liv_high[df_liv_high.Pos.str.contains('FW')]
# df_liv_low.sort_values(by='Min', ascending=False)


โดยผู้เล่นที่ได้รับเวลาเล่นน้อยกว่าเวลาเฉลี่ย มีทั้งหมด 15 คน
โดยผู้เล่นที่ได้รับเวลาเล่นมากกว่าเวลาเฉลี่ย มีทั้งหมด 11 คน

In [None]:
df_liv_low.shape

In [None]:
df_liv_low_ninj.shape

ตารางนี้เป็นการแสดงผลผู้เล่นตำแหน่งตัวรุกที่ได้รับเวลาเล่นน้อยกว่าเวลาเฉลี่ย

In [None]:
df_liv_fw_low_ninj[['Name', 'Age', 'Pos', 'Min', 'TotCmp%', 'SCA/90', 'KP/90', 'Gls', 'Gls/90', 'xG', 'xG/90', 'G/Sh', 'Ast', 'xA', 'Ast/90', 'PlayTime']].sort_values(by='Gls/90', ascending=False)

ตารางนี้เป็นการแสดงผลผู้เล่นตำแหน่งตัวรุกที่ได้รับเวลาเล่นมากกว่าเวลาเฉลี่ย

In [None]:
df_liv_fw_high[['Name', 'Age', 'Pos', 'Min', 'TotCmp%', 'SCA/90', 'KP/90', 'Gls', 'Gls/90', 'xG', 'xG/90', 'G/Sh', 'Ast', 'xA', 'Ast/90', 'PlayTime']].sort_values(by='Gls/90', ascending=False)

ตารางนี้เป็นการรวมตารางกันของทั้งผู้เล่นตำแหน่งตัวรุกที่ได้รับเวลาเล่นน้อยกว่าเวลาเฉลี่ย และ ผู้เล่นตำแหน่งตัวรุกที่ได้รับเวลาเล่นมากกว่าเวลาเฉลี่ย

In [None]:
df_pt = pd.concat([df_liv_fw_low_ninj, df_liv_fw_high])
df_pt.pivot_table(index=['Name', 'Pos'], values=['Age', 'Min', 'TotCmp%', 'SCA/90', 'KP/90', 'Gls', 'Gls/90', 'xG', 'xG/90', 'G/Sh', '(Gls-xG)/90', 'PlayTime'])


### Carvalho และ Chamberlain ที่มีโอกาสในการเล่นน้อยกว่าแต่ ผลงานต่อโอากสที่ได้เล่น ดีกว่า Elliott ที่ได้รับโอกาสในการเล่นมากกว่า

เมื่อนำตารางข้างบนมา plot เป็นกราฟ ซึ่งแกน x คือ Gls/90 (อัตราส่วนการทำประตูต่อ 90 นาที) ส่วนแกน y คือ xG/90 (อัตราส่วนการประตูที่คาดว่าจะทำได้ต่อ 90 นาที) โดยจะมี สีของจุดเป็นตัวแบ่งผู้เล่นว่าผู้เล่นใด ได้รับเวลาเล่นมากกว่าหรือน้อยกว่าเวลาเฉลี่ย

จากการสังเกตกราฟ แสดงให้เห็นว่า Fabio Carvalho และ Oxlade-Chamberlain มีผลงานต่อโอกาสที่ดีกว่า Harvey Elliott ทั้งๆที่ทั้งคู่นั้นเป็นนักเตะที่ได้รับเวลาเล่นน้อยกว่าเวลาเฉลี่ยซะอีก แต่กลับกัน Harvey Elliott นั้นได้เวลาการลงเตะมากกว่า 2 คนนั้นที่มีผลงานต่อโอกาสดีกว่า

In [None]:
sns.scatterplot(x='Gls/90', y='xG/90', data=df_pt, hue='PlayTime', alpha=0.5)
plt.title("Player Goals vs xG")
plt.xlabel("Goal/90")
for i, row in df_pt.iterrows():
    plt.text(row['Gls/90'] , row['xG/90']-0.025, row['Name'], fontsize=8, ha='center')

ต่อมาจะเป็นการ plot กราฟแสดงผล Conversion Rates โดย คำนวณมากจากการนำ G/Sh (จำนวนประตูที่ทำได้ / จำนวนการยิงประตู) โดยจะมี สีของจุดเป็นตัวแบ่งผู้เล่นว่าผู้เล่นใด ได้รับเวลาเล่นมากกว่าหรือน้อยกว่าเวลาเฉลี่ย

ยิ่ง Conversion Rates มากยิ่งแปลว่าผู้เล่นนั้นมีศักยภาพในการยิงประตูแล้วทำประตูได้มาก => หรือยิ่ง Conversion Rates มากก็แสดงให้เห็นว่าผู้เล่นนั้นใช้โอกาสได้คุ้มค่า

In [None]:
sns.barplot(y='Name', x='G/Sh', data=df_pt[df_pt['G/Sh'] > 0].sort_values(by='G/Sh', ascending=False), hue='PlayTime')
plt.title('Conversion Rates of Different Players')
plt.xlabel("Goal/Shot")
plt.ylabel("")


### Fabio Carvalho สมควรได้รับเวลาในการลงเล่นมากขึ้น

จากการสังเกตกราฟนั้น จะเห็นได้ว่า Convertion Rates ของ Fabio Carvalho และ Alex Oxlade-Chamberlain มีค่าสูงกว่า Mohamed Salah, Darwin Nunez และ Harvey Elliott ซึ่งเป็นผู้เล่นที่ได้รับเวลาเล่นมากกว่าเวลาเฉลี่ย

จึงสรุปได้ว่าทั้ง Fabio Carvalho และ Alex Oxlade-Chamberlain  สมควรที่จะได้รับเวลาเพิ่มในการลงสนามในแต่ละ match เพราะมี performance ที่ดีกว่าผู้เล่นบางคนที่ได้รับเวลามากกว่านั่นเอง โดยถ้าต้องเลือกเพียงแค่ 1 คนที่สมควรได้รับเวลาในการเล่นเพิ่มมากที่สุด นั่นก็คือ Fabio Carvalho จากการที่เขามี Conversion Rate สูงกว่า Alex Oxlade-Chamberlain




## จุดพีคสุดของผู้รักษาประตูอยู่ที่ช่วงอายุประมาณ 27-31 ปี

- เราจะเริ่มจากการใช้ข้อมูลนักเตะที่เล่นอยู่ใน 5 ลีกยุโรปตั้งแต่ฤดูกาล 2018-2023 และต้องเป็นผู้เล่นที่มี 90s (นาทีในการลงเล่นทั้งฤดูกาลหารด้วย 90) มากกว่า 15 เกม

In [None]:
# We will use the data of the player who exist in all these 5 seasons (Exist in every seasons)

# Group the dataframe by player name
grouped_df = gk.groupby('Player')

# Count the number of unique seasons each player has played in
season_counts = grouped_df['Season'].nunique()

# Filter the dataframe to only include players who have played in all five seasons
filtered_gk = gk[gk['Player'].isin(season_counts[season_counts == 5].index)]

# Filter only the player whose 90s is more than 15 (90s : minutes played divided by 90)
filtered_gk = filtered_gk.loc[filtered_gk['90s'] > 15]

- filtered_gk_18_22 คือ dataframe ที่คัดฤดูกาลที่ 2022-2023 ออกแล้ว

In [None]:
# There are some metrics that's not updated in 2023
filtered_gk_18_22 = filtered_gk.loc[filtered_gk.Season != '22-23']

### หน่วยวัดต่างๆที่เราใช้ในการวิเคราะห์ข้อมูลในประเด็นนี้
- Save Percentage (Save%) [float]: เปอร์เซ็นต์ในการเซฟประตู
- Cleansheet Percentage (CS%) [float]: เปอร์เซ็นต์การเก็บ cleansheet
- Penalty Kicks Save Percentage (PSave%) [float]: เปอร์เซ็นต์ในการเซฟจุดโทษ 
- Defensive action outside of penalty area per 90 minutes (OPA/90) [float]: อัตราส่วนการป้องกันนอกเขตโทษต่อ 90 นาที  
- Post-Shot Expected Goals minus Goals Allowed per 90 minutes (PSxG-GA/90)
   [float]: อัตราส่วนจำนวนประตูที่คาดว่าจะทำได้โดยคำนึงถึงศักยภาพการเซฟประตูของผู้รักษาประตู - ประตูที่เข้าจริง / 90 นาที 
  *cleansheet คือ การที่ทีมไม่เสียประตูเลยในเกมนั้นๆ
#### เพื่อที่จะสามารถระบุผู้รักษาประตูที่ดีได้นั้น เราต้องวิเคราะห์ข้อมูลที่เฉพาะเจาะจง เช่น สไตล์การเล่นของลีกนั้นๆที่แต่ละผู้เล่นอยู่ แต่ในการวิเคราะห์ประเด็นข้างต้นนี้ เราจะโฟกัสและเจาะจงไปที่จุดพีคของผู้รักษาประตูในแต่ละฤดูกาล

### Save% : Save Percentage 
- (Shots on target against - Goals against) / Shots on target against
- (ลูกที่ยิงตรงกรอบ - ลูกที่ยิงเข้า) / ลูกที่ยิงตรงกรอบ

In [None]:
sns.relplot(data=filtered_gk_18_22, x='Age', y='Save%',
           col='Season',
           col_order=['18-19', '19-20', '20-21', '21-22',],
            height=4, aspect=0.8)

- ผู้รักษาประตูที่มี Save% มากที่สุดในแต่ละฤดูกาล

In [None]:
filtered_gk_18_22.loc[filtered_gk_18_22.groupby('Season')['Save%'].idxmax(), ['Player', 'Comp','Age', 'Season', 'Save%', '90s']].sort_values(by='Season', )

- เราจะใช้เปอร์เซ็นไทล์ที่ 95 ของ Save% เพื่อที่จะระบุว่าผู้รักษาประตูคนใดคือหนึ่งในผู้รักษาประตูที่ดีที่สุด 

In [None]:
save_per95 = round(filtered_gk_18_22['Save%'].quantile(0.95), 4)
save_per95

- ผู้รักษาประตูที่ Save% อยู่เหนือเปอร์เซ็นไทล์ที่ 95

In [None]:
top_save = filtered_gk_18_22.loc[filtered_gk_18_22['Save%'] >= save_per95, ['Player', 'Comp','Age', 'Born', 'Season', 'Save%', '90s']].sort_values(by='Season', )
top_save

- ผู้รักษาประตูที่ Save% อยู่เหนือเปอร์เซ็นไทล์ที่ 95 และมีช่วงอายุอยู่ระหว่าง 27 ถึง 31 ปี


In [None]:
top_save_age_27_31 = filtered_gk_18_22.loc[(filtered_gk_18_22['Save%'] >= save_per95) & ((filtered_gk_18_22.Age >= 27) & (filtered_gk_18_22.Age <= 31)), ['Player', 'Comp','Age', 'Born', 'Season', 'Save%', '90s', 'Save%',]].sort_values(by='Season', )
top_save_age_27_31

- ต่อมาเราจะทำการเปรียบเทียบจำนวนผู้รักษาประตูที่เป็นผู้รักษาประตูแนวหน้า กับ จำนวนผู้รักษาประตูที่เป็นผู้รักษาประตูแนวหน้าและมีช่วงอายุอยู่ระหว่าง 27-31 ปี

In [None]:
round((top_save_age_27_31.Player.size / top_save.Player.size) * 100, 2)

- ซึ่งเราจะเห็นได้ว่า ผู้รักษาประตูที่เป็นผู้รักษาประตูแนวหน้าในเรื่องของ Save% และมีช่วงอายุอยู่ระหว่าง 27-31 ปี อยู่ทีประมาณร้อยละ 53.85 ของทั้งหมด

### CS% : Cleansheet Percentage 
(Percentage of match that result in cleansheet)
เปอร์เซ็นต์ในการไม่เสียประตูเลยใน match

In [None]:
# CS% : Cleansheet Percentage (Percentage of match that result in cleansheet)
sns.relplot(data=filtered_gk_18_22, x='Age', y='CS%',
           col='Season',
           col_order=['18-19', '19-20', '20-21', '21-22',],
            height=4, aspect=0.75)
plt.ylabel("Clean Sheet%")

- ผู้เล่นอันดับต้นๆในเรื่องของเปอร์เซ็นต์การเก็บ cleansheet ของแต่ละฤดูกาล

In [None]:
filtered_gk_18_22.loc[filtered_gk_18_22.groupby('Season')['CS%'].idxmax(), ['Player', 'Comp','Age', 'Born', 'Season', 'CS', 'MP', 'CS%',]].sort_values(by='Season', )

In [None]:
cs_per95 = round(filtered_gk_18_22['CS%'].quantile(0.95), 4)
cs_per95

- ผู้รักษาประตูที่มี CS% อยู่เหนือเปอร์เซ็นไทล์ที่ 95 


In [None]:
top_cs = filtered_gk_18_22.loc[filtered_gk_18_22['CS%'] >= cs_per95, ['Player', 'Comp','Age', 'Born', 'Season', 'CS', 'MP', 'CS%',]].sort_values(by='Season', )
top_cs

- ผู้รักษาประตูที่มี CS% อยู่เหนือเปอร์เซ็นไทล์ที่ 95 และมีช่วงอายุอยู่ระหว่าง 27 ถึง 31 ปี

In [None]:
top_cs_age_27_31 = filtered_gk_18_22.loc[(filtered_gk_18_22['CS%'] >= cs_per95) & ((filtered_gk_18_22.Age >= 27) & (filtered_gk_18_22.Age <= 31)), ['Player', 'Comp','Age', 'Born', 'Season', 'CS', 'MP', 'CS%',]].sort_values(by='Season', )
top_cs_age_27_31

In [None]:
round((top_cs_age_27_31.Player.size / top_cs.Player.size) * 100, 2)

- เมื่อเราทำการวิเคราะห์เปอร์เซ็นต์การเก็บ cleansheet, เราก็จะพบว่าผู้รักษาประตูที่มี CS% เป็นอันดับต้นนั้นและอายุอยู่ในช่วง 27-31 ปี มีมากถึง 38.46% ของทั้งหมด ซึ่งเหมือนกันกับ Save% ที่มีมากถึง 53.85%

### PSave% : Penalty Kicks Save Percentage
(Penalty goal against (PKA) / penalty kick attempts (PKatt))
เปอร์เซ็นต์ในการเซฟจุดโทษ


In [None]:
# PSave% : Penalty Kicks Save Percentage
pSave = filtered_gk_18_22.loc[filtered_gk_18_22['PKatt'] >= 5] # we will use the data of the goalkeeper who have attempted the penalty kick more than 4 times
sns.relplot(data=pSave, x='Age', y='PSave%',
           col='Season',
           col_order=['18-19', '19-20', '20-21', '21-22',],
            height=4, aspect=0.75)

ผู้รักษาประตูที่มี PSave% มากสุดอันดับต้นในแต่ละฤดูกาล

นิยามของหน่วยวัดแต่ละหน่วย
- PKatt [float]: "Penalty kicks attempted"
  จำนวนครั้งที่มีการเตะลูกโทษ
- PKA [float]: "Penalty kicks allowed" 
  จำนวนครั้งที่โดนทำประตูได้จากลูกโทษ
- PKsv [float]: "Penalty kicks saved"
  จำนวนครั้งที่สามารถป้องกันลูกโทษได้
- PKm [float]: "Penalty kicks missed"
  จำนวนครั้งที่ผู้ยิง ยิงออกนอกกรอบ
- PSave% [float]: "Penalty save percentage" (penalty shot that missed not included)
  เปอร์เซ็นต์ในการเซฟลูกโทษ (ไม่นับจำนวนครั้งที่ผู้ยิงยิงออกนอกกรอบ)

In [None]:
pSave.loc[pSave.groupby('Season')['PSave%'].idxmax(), ['Player', 'Comp','Age', 'Born', 'Season', 'MP', 'PKatt', 'PKA', 'PKsv', 'PKm', 'PSave%',]].sort_values(by='Season', )

In [None]:
pSave_per95 = round(filtered_gk_18_22['PSave%'].quantile(0.95), 4)
pSave_per95

- ผู้รักษาประตูที่ PSave% อยู่เหนือเปอร์เซ็นต์ไทล์ที่ 95

In [None]:
top_Psave = filtered_gk_18_22.loc[filtered_gk_18_22['PSave%'] >= pSave_per95, ['Player', 'Comp','Age', 'Born', 'Season', 'MP', 'PKatt', 'PKA', 'PKsv', 'PKm', 'PSave%',]].sort_values(by='Season', )
top_Psave

- ผู้รักษาประตูที่ PSave% อยู่เหนือเปอร์เซ็นต์ไทล์ที่ 95 และมีช่วงอายุอยู่ระหว่าง 27 ถึง 31 ปี

In [None]:
top_Psave_age_27_31 = filtered_gk_18_22.loc[(filtered_gk_18_22['PSave%'] >= pSave_per95) & ((filtered_gk_18_22.Age >= 27) & (filtered_gk_18_22.Age <= 31)), ['Player', 'Comp','Age', 'Born', 'Season', 'MP', 'PKatt', 'PKA', 'PKsv', 'PKm', 'PSave%',]].sort_values(by='Season', )
top_Psave_age_27_31

In [None]:
round((top_Psave_age_27_31.Player.size / top_Psave.Player.size) * 100, 2)

- เมื่อเราทำการวิเคราะห์เปอร์เซ็นต์ของการเซฟลูกโทษแล้ว, เราก็จะพบว่าผู้รักษาประตูที่มี PSave% เป็นอันดับต้นนั้นและอายุอยู่ในช่วง 27-31 ปี มีมากถึง 42.86% ของทั้งหมด

### OPA/90 : Defensive action outside of penalty area per 90 minutes

In [None]:
# OPA/90 : Defensive action outside of penalty area per 90 mins
opa = filtered_gk.loc[filtered_gk['#OPA'] > 5]
sns.relplot(data=opa, x='Age', y='#OPA/90',
           col='Season',
           col_order=['18-19', '19-20', '20-21', '21-22', '22-23'],
            height=4, aspect=0.75)

ผู้รักษาประตูที่มี PSave% มากสุดอันดับต้นในแต่ละฤดูกาล

นิยามของหน่วยวัดแต่ละหน่วย
- #OPA [float]: Defensive actions outside penalty area
  การออกมาป้องกันนอกเขตโทษ
- #OPA/90 [float]: Defensive actions outside penalty area per 90 mins
  อัตราส่วนการออกมาป้องกันนอกเขตโทษต่อ 90 นาที
- AvgDist [float]: Average distance of defensive actions
  ระยะทางเฉลี่ยของการป้องกันนอกเขตโทษ

In [None]:
opa.loc[opa.groupby('Season')['#OPA/90'].idxmax(), ['Player', 'Comp','Age', 'Born', 'Season', '90s', '#OPA', '#OPA/90', 'AvgDist']].sort_values(by='Season', )

In [None]:
opa_per95 = round(opa['#OPA/90'].quantile(0.95), 4)
opa_per95

- ผู้รักษาประตูที่ #OPA/90 อยู่เหนือเปอร์เซ็นต์ไทล์ที่ 95 


In [None]:
top_opa = opa.loc[opa['#OPA/90'] >= opa_per95, ['Player', 'Comp','Age', 'Born', 'Season', '90s', '#OPA', '#OPA/90', 'AvgDist',]].sort_values(by='Season', )
top_opa

- ผู้รักษาประตูที่ #OPA/90 อยู่เหนือเปอร์เซ็นต์ไทล์ที่ 95 และมีช่วงอายุอยู่ระหว่าง 27 ถึง 31 ปี


In [None]:
top_opa_age_27_31 = opa.loc[(opa['#OPA/90'] >= opa_per95) & ((filtered_gk_18_22.Age >= 27) & (filtered_gk_18_22.Age <= 31)), ['Player', 'Comp','Age', 'Born', 'Season', '90s', '#OPA', '#OPA/90', 'AvgDist',]].sort_values(by='Season', )
top_opa_age_27_31

In [None]:
round((top_opa_age_27_31.Player.size / top_opa.Player.size) * 100, 2)

- เมื่อเราทำการวิเคราะห์ค่า #OPA/90 แล้ว, เราก็จะพบว่าผู้รักษาประตูที่มี #OPA/90 เป็นอันดับต้นนั้นและอายุอยู่ในช่วง 27-31 ปี มีมากถึง 35.29% ของทั้งหมด


### PSxG - GA / 90 : Post-Shot Expected Goals minus Goals Allowed per 90 minutes
- การที่มีค่า PSxG - GA / 90 มาก แสดงให้เห็นถึงการที่ผู้รักษาประตูนั้นมีความสามารถและทักษะในการเซฟประตูเหนือผู้รักษาประตูทั่วไปซึ่งมีนัยในเรื่องของดวงในแต่ละจังหวะของผู้รักษาประตูด้วยด้วย
- PsXG [float]: จำนวนประตูที่คาดว่าจะทำได้โดยคำนึงถึงศักยภาพการเซฟประตูของผู้รักษาประตู
- PSxG - GA / 90 [float]: จำนวนประตูที่คาดว่าจะทำได้ โดยคำนึงถึงศักยภาพการเซฟประตูของผู้รักษาประตู - ประตูที่สามารถทำได้ / 90 นาที
  โดย PSxG - GA / 90 คือหน่วยวัดหรือค่าสถิติที่มีความเสถียรที่สุดในการที่เราจะระบุได้ว่าผู้รักษาประตูนั้นเป็นผู้รักษาประตูที่ดีหรือแย่

In [None]:
# PSxG - GA / 90 : Post-Shot Expected Goals minus Goals Allowed per 90 minutes
sns.relplot(data=filtered_gk, x='Age', y='PSxG-GA/90',
           col='Season',
           col_order=['18-19', '19-20', '20-21', '21-22', '22-23'],
            height=4, aspect=0.75)
# plot.set(ylabel='PSxG-GA/90')
# plt.show()

- ผู้เล่นอันดับต้นในเรื่อง PSxG-GA/90 ของแต่ละฤดูกาล

นิยามของหน่วยวัดแต่ละหน่วย
- PSxG [float]: Post-shot expected goals
  จำนวนประตูที่คาดว่าจะทำได้โดยคำนึงถึงศักยภาพการเซฟประตูของผู้รักษาประตู
- PSxG/SoT [float]: Post-shot expected goals per shot on target
  จำนวนประตูที่คาดว่าจะทำได้โดยคำนึงถึงศักยภาพการเซฟประตูของผู้รักษาประตู ต่อ การยิงที่เข้าประตู
- PSxG+/- [float]: Post-shot expected goals minus goals allow
  จำนวนประตูที่คาดว่าจะทำได้โดยคำนึงถึงศักยภาพการเซฟประตูของผู้รักษาประตู - ประตูที่ทำได้
- /90 [float]: Post-shot expected goals minus goals allow per 90 mins
  จำนวนประตูที่คาดว่าจะทำได้โดยคำนึงถึงศักยภาพการเซฟประตูของผู้รักษาประตู - ประตูที่ทำได้ต่อ 90 นาที

In [None]:
filtered_gk.loc[filtered_gk.groupby('Season')['PSxG-GA/90'].idxmax(), ['Player', 'Comp','Age', 'Born', 'Season', '90s', 'PSxG', 'PSxG/SoT', 'PSxG+/-', 'PSxG-GA/90', ]].sort_values(by='Season', )

In [None]:
psxg_per95 = round(filtered_gk_18_22['PSxG-GA/90'].quantile(0.95), 4)
psxg_per95

- ผู้รักษาประตูที่ PSxG-GA/90 อยู่เหนือเปอร์เซ็นต์ไทล์ที่ 95

In [None]:
top_psxg = filtered_gk.loc[filtered_gk['PSxG-GA/90'] >= psxg_per95, ['Player', 'Comp','Age', 'Born', 'Season', '90s', 'PSxG', 'PSxG/SoT', 'PSxG+/-', 'PSxG-GA/90', ]].sort_values(by='Season', )
top_psxg

- ผู้รักษาประตูที่ PSxG-GA/90 อยู่เหนือเปอร์เซ็นต์ไทล์ที่ 95 และมีช่วงอายุระหว่าง 27 ถึง 31 ปี

In [None]:
top_psxg_age_27_31 = filtered_gk.loc[(filtered_gk['PSxG-GA/90'] >= psxg_per95) & ((filtered_gk_18_22.Age >= 27) & (filtered_gk_18_22.Age <= 31)), ['Player', 'Comp','Age', 'Born', 'Season', '90s', 'PSxG', 'PSxG/SoT', 'PSxG+/-', 'PSxG-GA/90', ]].sort_values(by='Season', )
top_psxg_age_27_31

In [None]:
round((top_psxg_age_27_31.Player.size / top_psxg.Player.size) * 100, 2)

- เมื่อเราทำการวิเคราะห์ PSxG-GA/90 แล้ว (หน่วยวัดหรือค่าสถิติที่มีความเสถียรที่สุดในการที่เราจะระบุได้ว่าผู้รักษาประตูนั้นเป็นผู้รักษาประตูที่ดีหรือแย่), พบว่าผู้รักษาประตูที่มี PSxG-GA/90 เป็นอันดับต้นและอายุอยู่ในช่วง 27-31 ปี มีมากถึง 57.14% ของทั้งหมด


### สรุปผลการวิเคราะห์

- Save% : 53.85%
- CS% : 38.46%
- PSave% : 42.86
- #OPA/90 : 35.29%
- PSxG-GA/90 : 57.14%

จากสถิติที่เราได้สรุปไว้นี้ ทุกรายการมีค่าเกิน 30% ของประชากรทั้งหมด และสำหรับค่าสถิติทั้งหมดเราใช้เปอร์เซ็นไทล์ที่ 95 เป็นเกณฑ์การวัดว่าใครเป็นผู้รักษาประตูแนวหน้า (เหนือกว่า 95% ของประชากร) ซึ่งหมายความว่า "อายุที่เป็นจุดพีคอาชีพของผู้รักษาประตูอยู่ที่ระหว่าง 27 และ 31 ปี" เป็นความจริงตามที่ได้วิเคราะห์มา


# จัดทำโดย

นายชนิตพล โลหะมงคล 6410406533 : ทำความสะอาดข้อมูล, วิเคราะห์ข้อมูล                                                                                                                                                                                              
นายชยกร เจียรสุวิกานต์ 6410450117 : ทำความสะอาดข้อมูล, วิเคราะห์ข้อมูล                                                                                                                                           
นางสาวแพรวรุ้ง พุดชะวา 6410451253 : จัดทำเอกสารการนำเสนอ, จัดทำรายงาน               
นายอุรวิศ เจียรจินดา 6410406932 : จัดทำเอกสารการนำเสนอ, จัดทำรายงาน 