# การเตรียมข้อมูล

[แหล่งโน้ตบุ๊กต้นฉบับจาก *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio โดย Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## การสำรวจข้อมูล `DataFrame`

> **เป้าหมายการเรียนรู้:** เมื่อจบส่วนย่อยนี้ คุณควรจะสามารถค้นหาข้อมูลทั่วไปเกี่ยวกับข้อมูลที่จัดเก็บใน pandas DataFrames ได้อย่างคล่องแคล่ว

เมื่อคุณโหลดข้อมูลเข้าสู่ pandas ข้อมูลนั้นมักจะอยู่ในรูปแบบ `DataFrame` อย่างไรก็ตาม หากชุดข้อมูลใน `DataFrame` ของคุณมี 60,000 แถวและ 400 คอลัมน์ คุณจะเริ่มต้นทำความเข้าใจข้อมูลที่คุณกำลังทำงานด้วยได้อย่างไร? โชคดีที่ pandas มีเครื่องมือที่สะดวกในการดูข้อมูลโดยรวมของ `DataFrame` อย่างรวดเร็ว รวมถึงแถวแรกและแถวสุดท้ายบางส่วน

เพื่อสำรวจฟังก์ชันนี้ เราจะนำเข้าไลบรารี scikit-learn ของ Python และใช้ชุดข้อมูลที่โด่งดังซึ่งนักวิทยาศาสตร์ข้อมูลทุกคนเคยเห็นมาหลายร้อยครั้ง: ชุดข้อมูล *Iris* ของนักชีววิทยาชาวอังกฤษ Ronald Fisher ที่ใช้ในงานวิจัยปี 1936 ของเขา "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
เราได้โหลดชุดข้อมูล Iris ลงในตัวแปร `iris_df` ก่อนที่จะเริ่มสำรวจข้อมูล จะเป็นประโยชน์มากหากเราทราบจำนวนจุดข้อมูลที่เรามีและขนาดโดยรวมของชุดข้อมูล การดูปริมาณข้อมูลที่เรากำลังจัดการถือว่าเป็นสิ่งที่มีประโยชน์


In [2]:
iris_df.shape

(150, 4)

ดังนั้น เรากำลังจัดการกับข้อมูลจำนวน 150 แถวและ 4 คอลัมน์ โดยแต่ละแถวแสดงถึงจุดข้อมูลหนึ่งจุด และแต่ละคอลัมน์แสดงถึงคุณลักษณะหนึ่งที่เกี่ยวข้องกับกรอบข้อมูล ดังนั้นโดยพื้นฐานแล้ว มีจุดข้อมูลทั้งหมด 150 จุดที่มีคุณลักษณะ 4 อย่างต่อจุด

`shape` ในที่นี้เป็นแอตทริบิวต์ของกรอบข้อมูล ไม่ใช่ฟังก์ชัน ซึ่งเป็นเหตุผลว่าทำไมมันจึงไม่มีวงเล็บตามท้าย


### `DataFrame.columns`
ตอนนี้เรามาดูข้อมูลใน 4 คอลัมน์กันดีกว่า แต่ละคอลัมน์แสดงถึงอะไรบ้าง? คุณสมบัติ `columns` จะให้ชื่อของคอลัมน์ใน dataframe กับเรา


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

ตามที่เราเห็น มีสี่(4) คอลัมน์ คุณสมบัติ `columns` บอกเราถึงชื่อของคอลัมน์และโดยพื้นฐานแล้วไม่มีอะไรอื่น คุณสมบัตินี้มีความสำคัญเมื่อเราต้องการระบุคุณลักษณะที่ชุดข้อมูลมีอยู่


### `DataFrame.info`
จำนวนข้อมูล (ระบุโดยแอตทริบิวต์ `shape`) และชื่อของฟีเจอร์หรือคอลัมน์ (ระบุโดยแอตทริบิวต์ `columns`) ให้ข้อมูลบางอย่างเกี่ยวกับชุดข้อมูลแก่เรา ตอนนี้เราต้องการเจาะลึกลงไปในชุดข้อมูล ฟังก์ชัน `DataFrame.info()` มีประโยชน์มากสำหรับสิ่งนี้


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


จากนี้ เราสามารถสังเกตได้ดังนี้:
1. ประเภทข้อมูลของแต่ละคอลัมน์: ในชุดข้อมูลนี้ ข้อมูลทั้งหมดถูกจัดเก็บในรูปแบบตัวเลขทศนิยมแบบ 64 บิต
2. จำนวนค่าที่ไม่เป็น Null: การจัดการกับค่าที่เป็น Null เป็นขั้นตอนสำคัญในกระบวนการเตรียมข้อมูล ซึ่งจะถูกจัดการในภายหลังในโน้ตบุ๊ก


### DataFrame.describe()
สมมติว่าเรามีข้อมูลตัวเลขจำนวนมากในชุดข้อมูลของเรา การคำนวณสถิติแบบตัวแปรเดียว เช่น ค่าเฉลี่ย ค่ามัธยฐาน ควอร์ไทล์ ฯลฯ สามารถทำได้กับแต่ละคอลัมน์แยกกัน ฟังก์ชัน `DataFrame.describe()` จะให้สรุปทางสถิติของคอลัมน์ตัวเลขในชุดข้อมูลแก่เรา


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


ผลลัพธ์ด้านบนแสดงจำนวนจุดข้อมูลทั้งหมด ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน ค่าต่ำสุด ควอไทล์ล่าง (25%) ค่ามัธยฐาน (50%) ควอไทล์บน (75%) และค่าสูงสุดของแต่ละคอลัมน์


### `DataFrame.head`
ด้วยฟังก์ชันและคุณสมบัติทั้งหมดที่กล่าวมาข้างต้น เราได้มุมมองระดับสูงของชุดข้อมูลแล้ว เรารู้ว่ามีจำนวนจุดข้อมูลเท่าไร มีจำนวนฟีเจอร์เท่าไร ประเภทข้อมูลของแต่ละฟีเจอร์คืออะไร และจำนวนค่าที่ไม่เป็น null สำหรับแต่ละฟีเจอร์

ตอนนี้ถึงเวลาที่จะดูข้อมูลจริงกันแล้ว ลองมาดูว่าบรรทัดแรกๆ (จุดข้อมูลแรกๆ) ของ `DataFrame` ของเรามีหน้าตาเป็นอย่างไร:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


จากผลลัพธ์ที่นี่ เราสามารถเห็นรายการห้า(5) รายการของชุดข้อมูล หากเราดูที่ดัชนีทางด้านซ้าย เราจะพบว่านี่คือห้าบรรทัดแรก


### แบบฝึกหัด:

จากตัวอย่างที่ให้ไว้ข้างต้น จะเห็นได้ว่าโดยค่าเริ่มต้น `DataFrame.head` จะคืนค่าห้าบรรทัดแรกของ `DataFrame` ในเซลล์โค้ดด้านล่าง คุณสามารถหาวิธีแสดงมากกว่าห้าบรรทัดได้หรือไม่?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
อีกวิธีหนึ่งในการดูข้อมูลคือการดูจากส่วนท้าย (แทนที่จะดูจากส่วนต้น) ฟังก์ชันที่ตรงข้ามกับ `DataFrame.head` คือ `DataFrame.tail` ซึ่งจะคืนค่าห้าบรรทัดสุดท้ายของ `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


ในทางปฏิบัติ การตรวจสอบแถวแรกๆ หรือแถวสุดท้ายของ `DataFrame` อย่างง่ายดายเป็นสิ่งที่มีประโยชน์ โดยเฉพาะเมื่อคุณกำลังมองหาค่าผิดปกติในชุดข้อมูลที่มีการเรียงลำดับ

ฟังก์ชันและคุณสมบัติทั้งหมดที่แสดงไว้ข้างต้นพร้อมตัวอย่างโค้ดช่วยให้เราเข้าใจลักษณะและความรู้สึกของข้อมูลได้

> **ข้อคิดสำคัญ:** เพียงแค่ดูข้อมูลเมตาเกี่ยวกับข้อมูลใน DataFrame หรือค่าชุดแรกและชุดสุดท้าย คุณก็สามารถเข้าใจขนาด รูปร่าง และเนื้อหาของข้อมูลที่คุณกำลังจัดการได้ทันที


### ข้อมูลที่หายไป
มาดูเรื่องข้อมูลที่หายไปกัน ข้อมูลที่หายไปเกิดขึ้นเมื่อไม่มีการบันทึกค่าในบางคอลัมน์

ลองดูตัวอย่าง: สมมติว่ามีคนที่ใส่ใจเรื่องน้ำหนักของตัวเองและไม่กรอกช่องน้ำหนักในแบบสำรวจ ดังนั้นค่าของน้ำหนักสำหรับบุคคลนั้นจะหายไป

ในโลกความเป็นจริง ข้อมูลที่หายไปมักเกิดขึ้นในชุดข้อมูลส่วนใหญ่

**วิธีที่ Pandas จัดการกับข้อมูลที่หายไป**

Pandas มีวิธีจัดการกับข้อมูลที่หายไปอยู่สองวิธี วิธีแรกที่คุณเคยเห็นในส่วนก่อนหน้านี้คือ `NaN` หรือ Not a Number ซึ่งเป็นค่าพิเศษที่เป็นส่วนหนึ่งของข้อกำหนด IEEE floating-point และใช้เพื่อระบุค่าที่หายไปในตัวเลขแบบทศนิยมเท่านั้น

สำหรับค่าที่หายไปที่ไม่ใช่ตัวเลขแบบทศนิยม Pandas ใช้ Python `None` object แม้ว่ามันอาจดูสับสนที่คุณจะพบค่าที่แตกต่างกันสองแบบที่บอกสิ่งเดียวกัน แต่มีเหตุผลทางโปรแกรมที่ดีสำหรับการออกแบบเช่นนี้ และในทางปฏิบัติ การเลือกใช้วิธีนี้ช่วยให้ Pandas สามารถจัดการกับกรณีส่วนใหญ่ได้อย่างมีประสิทธิภาพ อย่างไรก็ตาม ทั้ง `None` และ `NaN` มีข้อจำกัดที่คุณต้องระวังเกี่ยวกับวิธีการใช้งานของมัน


### `None`: ข้อมูลที่ขาดหายซึ่งไม่ใช่ float
เนื่องจาก `None` มาจาก Python จึงไม่สามารถใช้งานในอาร์เรย์ของ NumPy และ pandas ที่ไม่ได้มีชนิดข้อมูลเป็น `'object'` ได้ โปรดจำไว้ว่า อาร์เรย์ของ NumPy (รวมถึงโครงสร้างข้อมูลใน pandas) สามารถมีได้เพียงชนิดข้อมูลเดียวเท่านั้น นี่คือสิ่งที่ทำให้อาร์เรย์เหล่านี้มีพลังมหาศาลสำหรับการทำงานกับข้อมูลขนาดใหญ่และการคำนวณ แต่ก็จำกัดความยืดหยุ่นของมันเช่นกัน อาร์เรย์เหล่านี้จำเป็นต้องปรับชนิดข้อมูลให้เป็น “ตัวกลางที่ต่ำที่สุด” ซึ่งเป็นชนิดข้อมูลที่สามารถครอบคลุมทุกอย่างในอาร์เรย์ได้ เมื่อมี `None` อยู่ในอาร์เรย์ หมายความว่าคุณกำลังทำงานกับออบเจ็กต์ของ Python

ลองดูตัวอย่างอาร์เรย์ต่อไปนี้ (สังเกต `dtype` ของมัน):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

ความจริงเกี่ยวกับการแปลงประเภทข้อมูลแบบ upcast มีผลกระทบสองประการตามมา ประการแรก การดำเนินการจะถูกดำเนินการในระดับของโค้ด Python ที่ถูกตีความแทนที่จะเป็นโค้ด NumPy ที่ถูกคอมไพล์ โดยพื้นฐานแล้ว หมายความว่าการดำเนินการใด ๆ ที่เกี่ยวข้องกับ `Series` หรือ `DataFrames` ที่มี `None` อยู่ในนั้นจะทำงานช้าลง แม้ว่าคุณอาจจะไม่สังเกตเห็นผลกระทบด้านประสิทธิภาพนี้ แต่สำหรับชุดข้อมูลขนาดใหญ่ มันอาจกลายเป็นปัญหาได้

ผลกระทบประการที่สองเกิดจากผลกระทบแรก เนื่องจาก `None` โดยพื้นฐานแล้วจะดึง `Series` หรือ `DataFrame` กลับเข้าสู่โลกของ Python แบบดั้งเดิม การใช้การรวมข้อมูลของ NumPy/pandas เช่น `sum()` หรือ `min()` บนอาร์เรย์ที่มีค่า ``None`` อยู่ในนั้นมักจะทำให้เกิดข้อผิดพลาด:


In [10]:
example1.sum()

TypeError: ignored

**ข้อสำคัญ**: การบวก (และการดำเนินการอื่นๆ) ระหว่างจำนวนเต็มและค่า `None` ไม่สามารถกำหนดได้ ซึ่งอาจจำกัดสิ่งที่คุณสามารถทำได้กับชุดข้อมูลที่มีค่าเหล่านี้


### `NaN`: ค่าลอยตัวที่หายไป

แตกต่างจาก `None`, NumPy (และ pandas ด้วย) รองรับ `NaN` สำหรับการดำเนินการแบบเวกเตอร์ที่รวดเร็วและ ufuncs ข่าวร้ายคือการคำนวณใดๆ ที่ทำกับ `NaN` จะให้ผลลัพธ์เป็น `NaN` เสมอ ตัวอย่างเช่น:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

ข่าวดี: การรวมข้อมูลที่ทำงานบนอาร์เรย์ที่มี `NaN` อยู่ในนั้นจะไม่เกิดข้อผิดพลาด ข่าวร้าย: ผลลัพธ์ไม่ได้มีประโยชน์อย่างสม่ำเสมอ:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### แบบฝึกหัด:


In [11]:
# What happens if you add np.nan and None together?


จำไว้ว่า: `NaN` ใช้สำหรับค่าที่ขาดหายไปของตัวเลขทศนิยมเท่านั้น; ไม่มีค่า `NaN` ที่เทียบเท่าสำหรับจำนวนเต็ม, สตริง หรือบูลีน


### `NaN` และ `None`: ค่าที่เป็น null ใน pandas

แม้ว่า `NaN` และ `None` อาจมีพฤติกรรมที่แตกต่างกันเล็กน้อย แต่ pandas ถูกออกแบบมาให้จัดการกับทั้งสองอย่างแทนกันได้ ลองพิจารณา `Series` ของตัวเลขจำนวนเต็ม:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### การออกกำลังกาย:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


ในกระบวนการปรับเปลี่ยนประเภทข้อมูลเพื่อสร้างความเป็นเอกภาพของข้อมูลใน `Series` และ `DataFrame` ของ pandas จะมีการเปลี่ยนค่าที่หายไประหว่าง `None` และ `NaN` ได้อย่างยืดหยุ่น เนื่องจากคุณสมบัติการออกแบบนี้ จึงอาจเป็นประโยชน์ที่จะมองว่า `None` และ `NaN` เป็นสองรูปแบบที่แตกต่างกันของ "null" ใน pandas จริง ๆ แล้ว วิธีการหลักบางอย่างที่คุณจะใช้ในการจัดการค่าที่หายไปใน pandas ก็สะท้อนแนวคิดนี้ในชื่อของมัน:

- `isnull()`: สร้างหน้ากาก Boolean เพื่อระบุค่าที่หายไป
- `notnull()`: ตรงข้ามกับ `isnull()`
- `dropna()`: ส่งคืนข้อมูลที่ถูกกรอง
- `fillna()`: ส่งคืนสำเนาของข้อมูลที่มีการเติมหรือประมาณค่าที่หายไป

วิธีการเหล่านี้เป็นสิ่งสำคัญที่คุณควรเรียนรู้และทำความคุ้นเคย ดังนั้นเรามาทำความเข้าใจแต่ละวิธีอย่างละเอียดกันเถอะ


### การตรวจจับค่าที่เป็น null

เมื่อเราเข้าใจถึงความสำคัญของค่าที่หายไปแล้ว ขั้นตอนต่อไปคือการตรวจจับค่าที่หายไปในชุดข้อมูลของเรา ก่อนที่จะจัดการกับมัน  
ทั้ง `isnull()` และ `notnull()` เป็นวิธีหลักในการตรวจจับข้อมูลที่เป็น null โดยทั้งสองจะคืนค่ามาสก์แบบ Boolean สำหรับข้อมูลของคุณ


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

ลองดูผลลัพธ์อย่างละเอียด มีอะไรที่ทำให้คุณแปลกใจหรือเปล่า? แม้ว่า `0` จะเป็นค่าศูนย์ในเชิงคณิตศาสตร์ แต่ก็ยังถือว่าเป็นจำนวนเต็มที่สมบูรณ์ และ pandas ก็จัดการกับมันในลักษณะนั้น ส่วน `''` นั้นมีความละเอียดอ่อนกว่าเล็กน้อย แม้ว่าเราใช้มันใน Section 1 เพื่อแสดงถึงค่าข้อความว่างเปล่า แต่จริง ๆ แล้วมันเป็นวัตถุประเภทข้อความ และไม่ได้เป็นตัวแทนของ null ในมุมมองของ pandas

ตอนนี้ ลองเปลี่ยนมุมมองและใช้วิธีการเหล่านี้ในลักษณะที่ใกล้เคียงกับการใช้งานจริง คุณสามารถใช้ Boolean masks โดยตรงเป็นดัชนีของ ``Series`` หรือ ``DataFrame`` ซึ่งมีประโยชน์เมื่อคุณต้องการทำงานกับค่าที่หายไป (หรือค่าที่มีอยู่) แบบแยกส่วน

หากเราต้องการจำนวนรวมของค่าที่หายไป เราสามารถใช้การบวกค่าทั้งหมดใน mask ที่สร้างขึ้นโดยวิธี `isnull()`


In [19]:
example3.isnull().sum()

2

### แบบฝึกหัด:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**ข้อคิดสำคัญ**: ทั้งวิธี `isnull()` และ `notnull()` ให้ผลลัพธ์ที่คล้ายกันเมื่อใช้งานใน DataFrame: พวกมันจะแสดงผลลัพธ์และดัชนีของผลลัพธ์เหล่านั้น ซึ่งจะช่วยคุณได้อย่างมากเมื่อคุณจัดการกับข้อมูลของคุณ.


### การจัดการกับข้อมูลที่หายไป

> **เป้าหมายการเรียนรู้:** เมื่อจบหัวข้อนี้ คุณควรทราบวิธีและเวลาที่เหมาะสมในการแทนที่หรือลบค่าที่เป็น null จาก DataFrames

โมเดล Machine Learning ไม่สามารถจัดการกับข้อมูลที่หายไปได้ด้วยตัวเอง ดังนั้นก่อนที่จะส่งข้อมูลเข้าสู่โมเดล เราจำเป็นต้องจัดการกับค่าที่หายไปเหล่านี้

วิธีการจัดการกับข้อมูลที่หายไปมีผลกระทบที่ละเอียดอ่อน ซึ่งอาจส่งผลต่อการวิเคราะห์ขั้นสุดท้ายและผลลัพธ์ในโลกความเป็นจริง

มีวิธีหลัก ๆ สองวิธีในการจัดการกับข้อมูลที่หายไป:

1.   ลบแถวที่มีค่าที่หายไป
2.   แทนค่าที่หายไปด้วยค่าบางอย่าง

เราจะพูดถึงทั้งสองวิธีนี้ รวมถึงข้อดีและข้อเสียของแต่ละวิธีอย่างละเอียด


### การลบค่าที่เป็น null

ปริมาณข้อมูลที่เราส่งต่อไปยังโมเดลมีผลโดยตรงต่อประสิทธิภาพของมัน การลบค่าที่เป็น null หมายความว่าเรากำลังลดจำนวนจุดข้อมูล และด้วยเหตุนี้จึงลดขนาดของชุดข้อมูล ดังนั้นจึงแนะนำให้ลบแถวที่มีค่าที่เป็น null เมื่อชุดข้อมูลมีขนาดค่อนข้างใหญ่

อีกกรณีหนึ่งอาจเป็นแถวหรือคอลัมน์ที่มีค่าหายไปจำนวนมาก ในกรณีนี้อาจลบออกได้ เพราะมันจะไม่เพิ่มคุณค่ามากนักให้กับการวิเคราะห์ของเรา เนื่องจากข้อมูลส่วนใหญ่ในแถวหรือคอลัมน์นั้นหายไป

นอกเหนือจากการระบุค่าที่หายไปแล้ว pandas ยังมีวิธีที่สะดวกในการลบค่าที่เป็น null จาก `Series` และ `DataFrame` เพื่อดูตัวอย่างการใช้งานนี้ เรามาดูที่ `example3` ฟังก์ชัน `DataFrame.dropna()` ช่วยในการลบแถวที่มีค่าที่เป็น null


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

โปรดทราบว่าสิ่งนี้ควรมีลักษณะเหมือนผลลัพธ์จาก `example3[example3.notnull()]` ความแตกต่างคือแทนที่จะทำการจัดดัชนีบนค่าที่ถูกปิดบังไว้ `dropna` ได้ลบค่าที่หายไปเหล่านั้นออกจาก `Series` `example3`

เนื่องจาก DataFrames มีสองมิติ จึงมีตัวเลือกมากขึ้นสำหรับการลบข้อมูล


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(คุณสังเกตไหมว่า pandas ได้เปลี่ยนประเภทข้อมูลของสองคอลัมน์เป็น float เพื่อรองรับค่า `NaN`?)

คุณไม่สามารถลบค่าหนึ่งค่าออกจาก `DataFrame` ได้ ดังนั้นคุณต้องลบทั้งแถวหรือทั้งคอลัมน์ ขึ้นอยู่กับสิ่งที่คุณกำลังทำ คุณอาจต้องการทำอย่างใดอย่างหนึ่ง และ pandas ก็มีตัวเลือกให้คุณทั้งสองแบบ เนื่องจากในงานด้านวิทยาศาสตร์ข้อมูล คอลัมน์มักจะแทนตัวแปร และแถวแทนการสังเกตข้อมูล คุณจึงมีแนวโน้มที่จะลบแถวของข้อมูลมากกว่า โดยค่าเริ่มต้นของ `dropna()` จะลบทุกแถวที่มีค่า null อยู่ในนั้น:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


หากจำเป็น คุณสามารถลบค่าที่เป็น NA ออกจากคอลัมน์ได้ โดยใช้ `axis=1` เพื่อทำเช่นนั้น:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


โปรดทราบว่าสิ่งนี้อาจทำให้ข้อมูลจำนวนมากที่คุณอาจต้องการเก็บไว้หายไป โดยเฉพาะในชุดข้อมูลขนาดเล็ก หากคุณต้องการลบเฉพาะแถวหรือคอลัมน์ที่มีค่าที่เป็น null หลายค่า หรือแม้กระทั่งทั้งหมด คุณสามารถกำหนดการตั้งค่าเหล่านี้ใน `dropna` โดยใช้พารามิเตอร์ `how` และ `thresh`

โดยค่าเริ่มต้น `how='any'` (หากคุณต้องการตรวจสอบด้วยตัวเองหรือดูว่ามีพารามิเตอร์อื่นๆ ในเมธอดนี้หรือไม่ ให้รัน `example4.dropna?` ในเซลล์โค้ด) คุณสามารถกำหนด `how='all'` เพื่อให้ลบเฉพาะแถวหรือคอลัมน์ที่มีค่าที่เป็น null ทั้งหมด ลองขยายตัวอย่าง `DataFrame` ของเราเพื่อดูการทำงานนี้ในแบบฝึกหัดถัดไป


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> ข้อควรทราบ:
1. การลบค่าที่เป็น null เป็นความคิดที่ดีเฉพาะเมื่อชุดข้อมูลมีขนาดใหญ่พอสมควร
2. สามารถลบทั้งแถวหรือคอลัมน์ได้ หากข้อมูลส่วนใหญ่ในแถวหรือคอลัมน์นั้นหายไป
3. เมธอด `DataFrame.dropna(axis=)` ช่วยในการลบค่าที่เป็น null โดยอาร์กิวเมนต์ `axis` ใช้ระบุว่าจะลบแถวหรือคอลัมน์
4. สามารถใช้อาร์กิวเมนต์ `how` ได้เช่นกัน โดยค่าเริ่มต้นจะตั้งไว้ที่ `any` ซึ่งจะลบเฉพาะแถวหรือคอลัมน์ที่มีค่าที่เป็น null อย่างน้อยหนึ่งค่าเท่านั้น แต่สามารถตั้งค่าเป็น `all` เพื่อระบุว่าจะลบเฉพาะแถวหรือคอลัมน์ที่มีค่าทั้งหมดเป็น null


### แบบฝึกหัด:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


พารามิเตอร์ `thresh` ให้คุณควบคุมได้ละเอียดมากขึ้น: คุณกำหนดจำนวนค่าที่ *ไม่เป็นค่าว่าง* ที่แถวหรือคอลัมน์ต้องมีเพื่อที่จะถูกเก็บไว้:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


ที่นี่ แถวแรกและแถวสุดท้ายถูกลบออก เนื่องจากมีเพียงสองค่าที่ไม่เป็นค่าว่างเท่านั้น


### การเติมค่าที่เป็น null

บางครั้งการเติมค่าที่หายไปด้วยค่าที่อาจเป็นไปได้ก็สมเหตุสมผล มีเทคนิคบางอย่างในการเติมค่าที่เป็น null วิธีแรกคือการใช้ความรู้เฉพาะด้าน (ความรู้เกี่ยวกับหัวข้อที่ชุดข้อมูลนั้นอ้างอิง) เพื่อประมาณค่าที่หายไป

คุณสามารถใช้ `isnull` เพื่อทำสิ่งนี้โดยตรง แต่บางครั้งอาจเป็นงานที่ยุ่งยาก โดยเฉพาะอย่างยิ่งถ้าคุณมีค่าที่ต้องเติมจำนวนมาก เนื่องจากนี่เป็นงานที่พบได้บ่อยในวิทยาศาสตร์ข้อมูล pandas จึงมีฟังก์ชัน `fillna` ซึ่งจะคืนค่าชุด `Series` หรือ `DataFrame` ที่มีค่าที่หายไปถูกแทนที่ด้วยค่าที่คุณเลือก ลองสร้างตัวอย่าง `Series` อีกตัวเพื่อดูว่ามันทำงานอย่างไรในทางปฏิบัติ


### ข้อมูลประเภทหมวดหมู่ (ไม่ใช่ตัวเลข)
ก่อนอื่นเรามาพิจารณาข้อมูลที่ไม่ใช่ตัวเลขกัน ในชุดข้อมูล เรามีคอลัมน์ที่มีข้อมูลประเภทหมวดหมู่ เช่น เพศ, จริงหรือเท็จ เป็นต้น

ในกรณีส่วนใหญ่ เราจะแทนค่าที่หายไปด้วย `mode` ของคอลัมน์นั้น เช่น หากเรามีข้อมูล 100 จุด และ 90 จุดระบุว่า จริง, 8 จุดระบุว่า เท็จ และ 2 จุดไม่ได้กรอกข้อมูล เราสามารถเติมค่าที่หายไป 2 จุดนั้นด้วย "จริง" โดยพิจารณาจากทั้งคอลัมน์

อีกครั้ง เราสามารถใช้ความรู้เฉพาะด้านในกรณีนี้ได้ ลองพิจารณาตัวอย่างการเติมค่าด้วย mode


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


ตอนนี้ มาหาค่าฐานนิยมก่อนที่จะเติมค่า `None` ด้วยค่าฐานนิยม


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

ดังนั้น เราจะแทนที่ None ด้วย True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


ดังที่เราเห็น ค่า null ได้ถูกแทนที่แล้ว ไม่ต้องบอกก็รู้ว่าเราสามารถเขียนอะไรก็ได้แทนที่ `'True'` และมันจะถูกแทนที่


### ข้อมูลตัวเลข
ตอนนี้มาดูข้อมูลตัวเลขกันบ้าง โดยทั่วไปมีสองวิธีที่นิยมใช้ในการแทนค่าที่หายไป:

1. แทนด้วยค่ามัธยฐานของแถว
2. แทนด้วยค่าเฉลี่ยของแถว

เรามักใช้ค่ามัธยฐานในกรณีที่ข้อมูลมีการกระจายแบบเบ้และมีค่าผิดปกติ เนื่องจากค่ามัธยฐานมีความทนทานต่อค่าผิดปกติได้ดี

แต่เมื่อข้อมูลถูกปรับให้เป็นมาตรฐานแล้ว เราสามารถใช้ค่าเฉลี่ยได้ เพราะในกรณีนั้น ค่าเฉลี่ยและค่ามัธยฐานจะมีค่าที่ใกล้เคียงกัน

ก่อนอื่น เรามาลองเลือกคอลัมน์ที่มีการแจกแจงแบบปกติ และเติมค่าที่หายไปด้วยค่าเฉลี่ยของคอลัมน์นั้นกัน


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


ค่าเฉลี่ยของคอลัมน์คือ


In [33]:
np.mean(fill_with_mean[0])

0.0

เติมด้วยค่าเฉลี่ย


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


ดังที่เราเห็น ค่าที่หายไปถูกแทนที่ด้วยค่าเฉลี่ยของมัน


ตอนนี้ลองใช้ DataFrame อีกตัวหนึ่ง และคราวนี้เราจะแทนค่าที่เป็น None ด้วยค่ามัธยฐานของคอลัมน์นั้น


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


ค่ามัธยฐานของคอลัมน์ที่สองคือ


In [36]:
fill_with_median[1].median()

4.0

การเติมด้วยค่ามัธยฐาน


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


ดังที่เราเห็น ค่า NaN ได้ถูกแทนที่ด้วยค่ามัธยฐานของคอลัมน์


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

คุณสามารถเติมค่าที่ว่างทั้งหมดด้วยค่าเดียว เช่น `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> ข้อควรทราบ:
1. การเติมค่าที่หายไปควรทำเมื่อมีข้อมูลน้อยหรือมีวิธีการที่ชัดเจนในการเติมค่าที่หายไป
2. ความรู้เฉพาะด้านสามารถนำมาใช้ในการประมาณค่าเพื่อเติมค่าที่หายไปได้
3. สำหรับข้อมูลประเภทหมวดหมู่ ค่าที่หายไปมักจะถูกแทนด้วยค่าที่พบมากที่สุดในคอลัมน์
4. สำหรับข้อมูลเชิงตัวเลข ค่าที่หายไปมักจะถูกเติมด้วยค่าเฉลี่ย (สำหรับชุดข้อมูลที่ผ่านการปรับให้เป็นมาตรฐาน) หรือค่ามัธยฐานของคอลัมน์


### การออกกำลังกาย:


In [40]:
# What happens if you try to fill null values with a string, like ''?


คุณสามารถ **เติมค่าด้วยค่าก่อนหน้า** สำหรับค่าที่เป็น null ซึ่งหมายถึงการใช้ค่าที่ถูกต้องล่าสุดเพื่อเติมค่าที่เป็น null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

คุณสามารถ **เติมย้อนกลับ** เพื่อกระจายค่าที่ถูกต้องถัดไปย้อนกลับเพื่อเติมค่า null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

ดังที่คุณอาจเดาได้ สิ่งนี้ทำงานในลักษณะเดียวกันกับ DataFrames แต่คุณยังสามารถระบุ `axis` ที่จะใช้เติมค่าที่เป็น null ได้:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


โปรดทราบว่าเมื่อไม่มีค่าก่อนหน้าเพื่อเติมไปข้างหน้า ค่าที่เป็น null จะยังคงอยู่.


### แบบฝึกหัด:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


คุณสามารถสร้างสรรค์วิธีการใช้ `fillna` ได้อย่างหลากหลาย ตัวอย่างเช่น ลองดูที่ `example4` อีกครั้ง แต่คราวนี้เราจะเติมค่าที่หายไปด้วยค่าเฉลี่ยของค่าทั้งหมดใน `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


สังเกตว่าคอลัมน์ที่ 3 ยังคงไม่มีค่า: ทิศทางเริ่มต้นคือการเติมค่าแบบเรียงตามแถว

> **ข้อคิดสำคัญ:** มีหลายวิธีในการจัดการกับค่าที่หายไปในชุดข้อมูลของคุณ กลยุทธ์เฉพาะที่คุณใช้ (การลบออก, การแทนที่, หรือแม้กระทั่งวิธีการแทนที่) ควรขึ้นอยู่กับลักษณะเฉพาะของข้อมูลนั้น คุณจะพัฒนาความเข้าใจที่ดีขึ้นเกี่ยวกับการจัดการค่าที่หายไปเมื่อคุณมีประสบการณ์มากขึ้นในการทำงานและโต้ตอบกับชุดข้อมูล


### การเข้ารหัสข้อมูลเชิงหมวดหมู่

โมเดลการเรียนรู้ของเครื่องสามารถจัดการได้เฉพาะข้อมูลที่เป็นตัวเลขเท่านั้น และไม่สามารถแยกแยะความแตกต่างระหว่าง "ใช่" และ "ไม่ใช่" ได้ แต่สามารถแยกแยะระหว่าง 0 และ 1 ได้ ดังนั้น หลังจากเติมค่าที่หายไปแล้ว เราจำเป็นต้องเข้ารหัสข้อมูลเชิงหมวดหมู่ให้อยู่ในรูปแบบตัวเลขเพื่อให้โมเดลเข้าใจ

การเข้ารหัสสามารถทำได้สองวิธี ซึ่งเราจะพูดถึงในส่วนถัดไป


**การเข้ารหัสป้ายกำกับ**

การเข้ารหัสป้ายกำกับคือการแปลงแต่ละหมวดหมู่ให้เป็นตัวเลข ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลของผู้โดยสารสายการบิน และมีคอลัมน์ที่ระบุชั้นโดยสารของพวกเขาในหมวดหมู่ต่อไปนี้ ['business class', 'economy class', 'first class'] หากทำการเข้ารหัสป้ายกำกับ คอลัมน์นี้จะถูกแปลงเป็น [0,1,2] ลองมาดูตัวอย่างผ่านโค้ดกัน เนื่องจากเราจะเรียนรู้ `scikit-learn` ในสมุดบันทึกถัดไป เราจะยังไม่ใช้มันในที่นี้


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


ในการเข้ารหัสป้ายกำกับในคอลัมน์แรก เราต้องอธิบายการจับคู่จากแต่ละคลาสไปยังตัวเลขก่อนที่จะทำการแทนที่


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


ตามที่เราเห็น ผลลัพธ์ตรงกับสิ่งที่เราคิดว่าจะเกิดขึ้น ดังนั้น เราจะใช้การเข้ารหัสป้ายกำกับเมื่อไหร่? การเข้ารหัสป้ายกำกับจะถูกใช้ในกรณีใดกรณีหนึ่งหรือทั้งสองกรณีดังต่อไปนี้:
1. เมื่อจำนวนหมวดหมู่มีมาก
2. เมื่อหมวดหมู่มีลำดับ


**การเข้ารหัสแบบ One Hot Encoding**

การเข้ารหัสอีกประเภทหนึ่งคือ One Hot Encoding ในการเข้ารหัสประเภทนี้ แต่ละหมวดหมู่ของคอลัมน์จะถูกเพิ่มเป็นคอลัมน์แยกต่างหาก และแต่ละข้อมูลจะได้รับค่า 0 หรือ 1 ขึ้นอยู่กับว่ามันมีหมวดหมู่นั้นหรือไม่ ดังนั้น หากมี n หมวดหมู่ที่แตกต่างกัน จะมีการเพิ่มคอลัมน์ n คอลัมน์เข้าไปใน dataframe

ตัวอย่างเช่น ลองพิจารณาตัวอย่างประเภทที่นั่งในเครื่องบิน หมวดหมู่คือ: ['business class', 'economy class', 'first class'] ดังนั้น หากเราทำการเข้ารหัสแบบ One Hot Encoding จะมีการเพิ่มสามคอลัมน์ต่อไปนี้ลงในชุดข้อมูล: ['class_business class', 'class_economy class', 'class_first class']


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


ให้เราทำการเข้ารหัสแบบ One Hot Encoding ในคอลัมน์ที่ 1


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


แต่ละคอลัมน์ที่ถูกเข้ารหัสแบบ One-hot จะมีค่า 0 หรือ 1 ซึ่งระบุว่าหมวดหมู่นั้นมีอยู่สำหรับจุดข้อมูลนั้นหรือไม่


เราควรใช้การเข้ารหัสแบบ One Hot เมื่อใด? การเข้ารหัสแบบ One Hot ถูกใช้ในกรณีใดกรณีหนึ่งหรือทั้งสองกรณีดังต่อไปนี้:

1. เมื่อจำนวนหมวดหมู่และขนาดของชุดข้อมูลมีขนาดเล็ก
2. เมื่อหมวดหมู่ไม่มีลำดับที่เฉพาะเจาะจง


> ข้อควรทราบ:
1. การเข้ารหัสใช้เพื่อแปลงข้อมูลที่ไม่ใช่ตัวเลขให้เป็นข้อมูลตัวเลข
2. การเข้ารหัสมีสองประเภท ได้แก่ การเข้ารหัสแบบ Label และการเข้ารหัสแบบ One Hot ซึ่งสามารถเลือกใช้ตามความต้องการของชุดข้อมูล


## การลบข้อมูลซ้ำ

> **เป้าหมายการเรียนรู้:** เมื่อจบหัวข้อนี้ คุณควรจะสามารถระบุและลบค่าที่ซ้ำกันจาก DataFrames ได้อย่างมั่นใจ

นอกจากข้อมูลที่หายไปแล้ว คุณมักจะพบข้อมูลที่ซ้ำกันในชุดข้อมูลจริง โชคดีที่ pandas มีวิธีที่ง่ายในการตรวจจับและลบรายการที่ซ้ำกันออกไป


### การระบุค่าซ้ำ: `duplicated`

คุณสามารถตรวจสอบค่าที่ซ้ำกันได้อย่างง่ายดายโดยใช้เมธอด `duplicated` ใน pandas ซึ่งจะคืนค่าหน้ากาก Boolean ที่บ่งบอกว่ารายการใน `DataFrame` เป็นค่าซ้ำของรายการก่อนหน้าหรือไม่ ลองสร้างตัวอย่าง `DataFrame` อีกตัวเพื่อดูการทำงานนี้


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### การลบค่าซ้ำ: `drop_duplicates`
`drop_duplicates` จะคืนค่าข้อมูลสำเนาที่ค่าทั้งหมดใน `duplicated` เป็น `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


ทั้ง `duplicated` และ `drop_duplicates` จะพิจารณาคอลัมน์ทั้งหมดโดยค่าเริ่มต้น แต่คุณสามารถระบุให้พวกมันตรวจสอบเฉพาะชุดย่อยของคอลัมน์ใน `DataFrame` ของคุณได้:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **ข้อคิดสำคัญ:** การลบข้อมูลที่ซ้ำกันเป็นส่วนสำคัญของแทบทุกโครงการด้านวิทยาศาสตร์ข้อมูล ข้อมูลที่ซ้ำกันสามารถเปลี่ยนผลลัพธ์ของการวิเคราะห์และทำให้คุณได้ผลลัพธ์ที่ไม่ถูกต้อง!


## การตรวจสอบคุณภาพข้อมูลในโลกจริง

> **เป้าหมายการเรียนรู้:** เมื่อจบส่วนนี้ คุณควรมีความมั่นใจในการตรวจจับและแก้ไขปัญหาคุณภาพข้อมูลทั่วไปในโลกจริง เช่น ค่าประเภทที่ไม่สอดคล้องกัน ค่าตัวเลขที่ผิดปกติ (ค่าผิดปกติ) และข้อมูลซ้ำที่มีความแตกต่างเล็กน้อย

แม้ว่าค่าที่หายไปและข้อมูลซ้ำแบบตรงตัวจะเป็นปัญหาที่พบได้ทั่วไป แต่ชุดข้อมูลในโลกจริงมักมีปัญหาที่ซับซ้อนมากขึ้น:

1. **ค่าประเภทที่ไม่สอดคล้องกัน**: หมวดหมู่เดียวกันที่สะกดต่างกัน (เช่น "USA", "U.S.A", "United States")
2. **ค่าตัวเลขที่ผิดปกติ**: ค่าผิดปกติที่รุนแรงซึ่งบ่งบอกถึงข้อผิดพลาดในการป้อนข้อมูล (เช่น อายุ = 999)
3. **แถวที่เกือบซ้ำกัน**: บันทึกที่แสดงถึงหน่วยเดียวกันแต่มีความแตกต่างเล็กน้อย

มาสำรวจเทคนิคในการตรวจจับและจัดการกับปัญหาเหล่านี้กันเถอะ


### การสร้างชุดข้อมูลตัวอย่างที่ "ไม่สะอาด"

ก่อนอื่น เรามาสร้างชุดข้อมูลตัวอย่างที่มีปัญหาต่างๆ ซึ่งเรามักพบในข้อมูลจริง:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. การตรวจจับค่าประเภทที่ไม่สอดคล้องกัน

สังเกตว่าคอลัมน์ `country` มีการแสดงผลหลายรูปแบบสำหรับประเทศเดียวกัน เรามาระบุความไม่สอดคล้องเหล่านี้กัน:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### การทำให้ค่าประเภทเป็นมาตรฐาน

เราสามารถสร้างการแมปเพื่อทำให้ค่าประเภทเหล่านี้เป็นมาตรฐานได้ วิธีง่ายๆ คือการแปลงเป็นตัวพิมพ์เล็กและสร้างพจนานุกรมการแมป:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**ทางเลือก: การใช้การจับคู่แบบ Fuzzy**

สำหรับกรณีที่ซับซ้อนมากขึ้น เราสามารถใช้การจับคู่สตริงแบบ Fuzzy ด้วยไลบรารี `rapidfuzz` เพื่อช่วยตรวจจับสตริงที่คล้ายกันโดยอัตโนมัติ:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. การตรวจจับค่าตัวเลขที่ผิดปกติ (Outliers)

เมื่อดูที่คอลัมน์ `age` เราพบค่าที่น่าสงสัยบางค่า เช่น 199 และ -5 ลองใช้วิธีทางสถิติเพื่อตรวจจับค่าผิดปกติเหล่านี้กันเถอะ


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### การใช้วิธี IQR (Interquartile Range)

วิธี IQR เป็นเทคนิคทางสถิติที่มีความทนทานสำหรับการตรวจจับค่าผิดปกติ ซึ่งมีความไวต่อค่าที่สุดขีดน้อยกว่า:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### การใช้วิธี Z-Score

วิธี Z-Score ใช้ในการระบุค่าผิดปกติโดยอ้างอิงจากจำนวนส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### การจัดการค่าผิดปกติ

เมื่อพบค่าผิดปกติ สามารถจัดการได้หลายวิธี:
1. **ลบออก**: ลบแถวที่มีค่าผิดปกติ (หากเป็นข้อผิดพลาด)
2. **จำกัดค่า**: แทนที่ด้วยค่าขอบเขต
3. **แทนที่ด้วย NaN**: ถือว่าเป็นข้อมูลที่หายไปและใช้เทคนิคการเติมข้อมูล
4. **เก็บไว้**: หากเป็นค่าที่สุดโต่งที่ถูกต้อง


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. การตรวจจับแถวที่คล้ายกันมาก

สังเกตว่าชุดข้อมูลของเรามีหลายรายการสำหรับ "John Smith" ที่มีค่าต่างกันเล็กน้อย ลองมาระบุรายการที่อาจเป็นข้อมูลซ้ำกันโดยอิงจากความคล้ายคลึงของชื่อ


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### การค้นหาข้อมูลซ้ำที่คล้ายกันด้วยการจับคู่แบบคลุมเครือ

สำหรับการตรวจจับข้อมูลซ้ำที่ซับซ้อนมากขึ้น เราสามารถใช้การจับคู่แบบคลุมเครือเพื่อค้นหาชื่อที่คล้ายกัน:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### การจัดการข้อมูลซ้ำ

เมื่อระบุข้อมูลซ้ำได้แล้ว คุณต้องตัดสินใจว่าจะจัดการอย่างไร:
1. **เก็บรายการแรกที่พบ**: ใช้ `drop_duplicates(keep='first')`
2. **เก็บรายการสุดท้ายที่พบ**: ใช้ `drop_duplicates(keep='last')`
3. **รวมข้อมูล**: รวมข้อมูลจากแถวที่ซ้ำกัน
4. **ตรวจสอบด้วยตนเอง**: ทำเครื่องหมายเพื่อให้มนุษย์ตรวจสอบ


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### สรุป: กระบวนการทำความสะอาดข้อมูลแบบครบวงจร

มารวมทุกอย่างเข้าด้วยกันเพื่อสร้างกระบวนการทำความสะอาดข้อมูลที่สมบูรณ์:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 แบบฝึกหัดท้าทาย

ถึงเวลาของคุณแล้ว! ด้านล่างนี้คือแถวข้อมูลใหม่ที่มีปัญหาด้านคุณภาพหลายจุด คุณสามารถ:

1. ระบุปัญหาทั้งหมดในแถวนี้
2. เขียนโค้ดเพื่อแก้ไขแต่ละปัญหา
3. เพิ่มแถวที่แก้ไขแล้วลงในชุดข้อมูล

นี่คือข้อมูลที่มีปัญหา:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### ประเด็นสำคัญ

1. **หมวดหมู่ที่ไม่สอดคล้องกัน** เป็นเรื่องปกติในข้อมูลจริง ควรตรวจสอบค่าที่ไม่ซ้ำกันและปรับมาตรฐานด้วยการใช้การจับคู่หรือการจับคู่แบบคลุมเครือ

2. **ค่าผิดปกติ** สามารถส่งผลกระทบต่อการวิเคราะห์ได้อย่างมาก ใช้ความรู้เฉพาะด้านร่วมกับวิธีการทางสถิติ (IQR, Z-score) เพื่อตรวจจับค่าผิดปกติ

3. **ข้อมูลที่เกือบซ้ำกัน** ตรวจจับได้ยากกว่าข้อมูลที่ซ้ำกันแบบตรงไปตรงมา ลองใช้การจับคู่แบบคลุมเครือและการปรับข้อมูลให้เป็นมาตรฐาน (เช่น การเปลี่ยนเป็นตัวพิมพ์เล็ก, การลบช่องว่าง) เพื่อช่วยระบุข้อมูลเหล่านี้

4. **การทำความสะอาดข้อมูลเป็นกระบวนการที่ต้องทำซ้ำ** อาจต้องใช้เทคนิคหลายอย่างและตรวจสอบผลลัพธ์ก่อนที่จะสรุปชุดข้อมูลที่ทำความสะอาดแล้ว

5. **บันทึกการตัดสินใจของคุณ** เก็บข้อมูลเกี่ยวกับขั้นตอนการทำความสะอาดที่คุณใช้และเหตุผลที่ทำ เนื่องจากสิ่งนี้สำคัญต่อการทำซ้ำและความโปร่งใส

> **แนวทางปฏิบัติที่ดีที่สุด:** ควรเก็บสำเนาของข้อมูล "ดิบ" ไว้เสมอ อย่าทับไฟล์ข้อมูลต้นฉบับของคุณ - สร้างเวอร์ชันที่ทำความสะอาดแล้วพร้อมตั้งชื่อไฟล์ให้ชัดเจน เช่น `data_cleaned.csv`



---

**ข้อจำกัดความรับผิดชอบ**:  
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามนุษย์ที่มีความเชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้
