# การทำ Data Cleaning

พวกเราจะใช้ website จากการปรึกษาอาจารย์ ณ แรกเริ่มเพื่อที่จะศึกษา dataset
โดยเราได้สืบค้นผ่าน website ข้างล่างนี้

https://www.kaggle.com/datasets/vivovinco/20212022-football-player-stats?resource=download

![utf8err](images/image01.png)

- หลังจากนั้นพวกเราจึงพบแหล่งข้อมูล dataset ที่ website ดังกล่างอ้างอิงถึงเลยทำการเปลี่ยนแหล่งที่มาข้อมูล โดย website ดังกล่าวคือ

https://fbref.com/en/comps/9/shooting/Premier-League-Stats

![copy_data](images/image02.png)

- โดยเราจะนำ dataset ที่ต้องการมาว่างใน text editor และทำการแปลงให้กลายเป็นไฟล์ csv

![NotePad](images/image03.png)

- ซึ่งเราต้อง save เป็น UTF-8 with BOM เพื่อที่จะสามารถ import และทำการวิเคราห์ได้

![utf8bom](images/image04.png)

ก่อนที่เราจะสามารถนำข้อมูลมาวิเคราะห์นั้น เราต้องทำ data cleanising ก่อน เป็นกระบวนที่เราจะนำข้อมูลที่ใช้ไม่ได้ออกไป หรือข้อมูลที่ยังไม่เสร็จสมบูรณ์ออกไป เพื่อให้การวิเคราะห์นั้นมีความแม่นยำและตรงตามจุดประสงค์ที่สุด

ข้อมูล ณ วันที่ 9 มีนาคม 2566

In [2]:
import pandas as pd
import seaborn as sns
import os

In [3]:
%matplotlib inline
pd.set_option('display.max_columns', None)

players_22_23

In [4]:
#players_22_23
df_standard23 = pd.read_csv('players_stat/standard(22-23).csv')
df_passing23 = pd.read_csv('players_stat/passing(22-23).csv')
df_creation23 = pd.read_csv('players_stat/creation(22-23).csv')
df_shooting23 = pd.read_csv('players_stat/shooting(22-23).csv')
df_defensive23 = pd.read_csv('players_stat/defensive(22-23).csv')
df_possession23 = pd.read_csv('players_stat/possession(22-23).csv')


นำ dataframe ต่างๆ จากหลากหลาย csv นำเข้ามาใส่ใน list ชื่อ df_list หลังจากนั้นจึงทำการเชื่อมตาราง โดยการรัน loop และทำการ concat

In [5]:
# add all the dataframes to a list
df_list = [df_standard23, df_passing23, df_creation23, df_shooting23, df_defensive23,
           df_possession23]
#loop to concat all df
for df in df_list:
    new_cols = [col for col in df.columns if col not in df_standard23.columns]
    df_standard23 = pd.concat([df_standard23, df[new_cols]], axis=1)

## ส่วนของ Goal Keeper

standard_gk

In [6]:
# Set the directory where the CSV files are located
directory = 'players_stat/keeper/Standard/'

# Initialize an empty list to store the dataframes
dfs = []

# Loop through each file in the directory and load it into a dataframe
for filename in os.listdir(directory):
    if filename.endswith('.csv'):
        # Load the CSV file into a dataframe
        df = pd.read_csv(os.path.join(directory, filename))
        # Add a column to indicate the season (based on the filename)
        df['Season'] = filename[7:12] # ex. 20-21, 21-22
        # Add the dataframe to the list
        dfs.append(df)

# Concatenate all the dataframes into a single dataframe
std_gk = pd.concat(dfs, ignore_index=True)


advance_gk

In [7]:
# Set the directory where the CSV files are located
directory = 'players_stat/keeper/Advance/'

# Initialize an empty list to store the dataframes
dfs = []

# Loop through each file in the directory and load it into a dataframe
for filename in os.listdir(directory):
    if filename.endswith('.csv'):
        # Load the CSV file into a dataframe
        df = pd.read_csv(os.path.join(directory, filename))
        # Add a column to indicate the season (based on the filename)
        df['Season'] = filename[10:15] # ex. 20-21, 21-22
        # Add the dataframe to the list
        dfs.append(df)

# Concatenate all the dataframes into a single dataframe
adv_gk = pd.concat(dfs, ignore_index=True)


- concatenating 2 dataframes

In [8]:
# add all the std_gk, adv_gk to a list
new_cols = [col for col in adv_gk.columns if col not in std_gk.columns]
gk = pd.concat([std_gk, adv_gk[new_cols]], axis=1)

## การจัดการข้อมูลที่ใช้ไม่ได้

เราจะตัดแถวที่ ชื่อนักกีฬาเป็น NaN

In [9]:
# drop rows with NaN player names
df_standard23.dropna(subset=['Player'], inplace=True)

## การแก้ไขชื่อ field ให้สอดคล้องกับการใช้งาน

ต่อไปก็จะเป็นขั้นตอนของการที่เราจะ แก้ไขชื่อ field บางตัวจาก dataframe เริ่มต้น เราจะทำการแยกหมวดหมู่ตาม field  ตาม dataframe เริ่มต้นเพื่อให้ ง่ายต่อการแก้ไขและเพื่อความสะดวกในการใช้งาน และ ความเข้าใจในแต่ละ field 

หา column ที่ชื่อซ้ำ

In [10]:
df_standard23.filter(like='.1').columns.tolist() #Filter the error columns

['Gls.1',
 'Ast.1',
 'G+A.1',
 'G-PK.1',
 'xG.1',
 'xAG.1',
 'npxG.1',
 'npxG+xAG.1',
 'Cmp.1',
 'Att.1',
 'Cmp%.1',
 'PassLive.1',
 'PassDead.1',
 'TO.1',
 'Sh.1',
 'Fld.1',
 'Def.1',
 'Tkl.1']

In [11]:
df_standard23 = df_standard23.rename(columns={"Player": "Name", "Squad": "Team"})
#Passing
df_standard23 = df_standard23.rename(columns={"Cmp": "TotCmp", "Att": "TotAttempt", "Cmp%": "TotCmp%", })
df_standard23 = df_standard23.rename(columns={"Cmp.1": "Cmp.Short", "Cmp.2": "Cmp.Medium", "Cmp.3": "Cmp.Long", })
df_standard23 = df_standard23.rename(columns={"Att.1": "Attempt.Short", "Att.2": "Attempt.Medium", "Att.3": "Attempt.Long", })
df_standard23 = df_standard23.rename(columns={"Cmp%.1": "Cmp%.Short", "Cmp%.2": "Cmp%.Medium", "Cmp%.3": "Cmp%.Long",})
df_standard23 = df_standard23.rename(columns={"Gls.1": "Gls/90"})


In [12]:
# Standard stat
df_standard23 = df_standard23.rename(columns={"Ast.1": "Ast/90",
                                              "G+A.1": "G+A/90",
                                              "G-PK.1": "G-PK/90",
                                              "xG.1": "xG/90",
                                              "xAG.1": "xAG/90",
                                              "npxG.1": "npxG/90",
                                              "npxG+xAG.1": "G-npxG+xAG/90"})
# Goal and Shot Creation
df_standard23 = df_standard23.rename(columns={"PassLive.1": "PassLive.GCA",
                                              "PassDead.1": "PassDead.GCA",
                                              "SCA90": "SCA/90",
                                              "TO.1": "TO.GCA",
                                              "Sh.1": "Sh.GCA",
                                              "Fld.1": "Fld.GCA",
                                              "Def.1": "Def.GCA"})
# Defensive Action
df_standard23 = df_standard23.rename(columns={"Tkl.1": "Tkl.CHLG"})
# Add
df_standard23['Gls-xG'] = df_standard23.Gls - df_standard23.Ast

In [13]:
#GoalKeeper
# renaming columns for better understanding
gk = gk.rename(columns={"Save%.1": "PSave%", 
                        "Att": "AttLaunched", 
                        "Att.1": "AttPasses", 
                        "Att.2": "AttGoalKicks", 
                        "Launch%": "Launch%Passes", 
                        "Launch%.1": "Launch%GoalKicks", 
                        "AvgLen": "AvgLenPasses", 
                        "AvgLen.1": "AvgLenGoalKicks",
                        "/90": "PSxG-GA/90"})

In [14]:
#cut string
df_standard23.Nation = df_standard23.Nation.str.split(n=1).str.get(1)
df_standard23.Comp = df_standard23.Comp.str.split(n=1).str.get(1)
df_standard23.Age = df_standard23.Age.str.split('-').str.get(0)
df_standard23 = df_standard23.drop(['Matches', '-9999'], axis=1)

In [15]:
gk.Nation = gk.Nation.str.split(n=1).str.get(1)
gk.Comp = gk.Comp.str.split(n=1).str.get(1)
gk = gk.drop(['Matches', '-9999'], axis=1)


In [16]:
df_standard23 = df_standard23.set_index('Rk')
gk = gk.set_index('Rk')

## การ export ไฟล์ csv ที่สมบูรณ์

หลังจากการทำ data cleansing แล้วเราจะทำการ export dataframe ออกมาเป็น file csv ที่สมบูรณ์

In [17]:
df_standard23.to_csv('players_22-23.csv', encoding='utf-8')

In [18]:
gk.to_csv('goalkeepers.csv', encoding='utf-8')