# บทที่ 2: การจัดการและเตรียมข้อมูล (Data Manipulation & Preparation)


---


**บริษัท:** บริษัท แลนด์ แอนด์ เฮ้าส์ จำกัด (มหาชน) | Land & Houses  
**ผู้บรรยาย:** ผู้ช่วยศาสตราจารย์ ดร.วสิศ ลิ้มประเสริฐ  
**วันที่:** 11 พฤศจิกายน 2025



## Executive Summary

บทที่ 2 มุ่งสอนการจัดการและเตรียมข้อมูลโดยใช้ Pandas ซึ่งเป็นเครื่องมือหลักสำหรับงาน Data Science ในงานจริงที่ข้อมูลมาเป็นไฟล์จำนวนมาก เช่น CSV/Excel. ผู้เรียนจะได้เข้าใจความแตกต่างระหว่าง Series และ DataFrame, วิธีการนำเข้าข้อมูลด้วย pd.read_csv / pd.read_excel, และแนวทางการสำรวจข้อมูลเบื้องต้นด้วย head(), info(), describe() เพื่อเป็นนักสืบข้อมูลก่อนวิเคราะห์. 

นอกจากนี้ครอบคลุมเทคนิคสำคัญในการทำความสะอาดข้อมูล เช่น การจัดการค่าว่างด้วย fillna/dropna, การแปลงประเภทข้อมูลด้วย astype/ pd.to_datetime/ pd.to_numeric, และการลบแถว/คอลัมน์ที่ไม่จำเป็นหรือซ้ำซ้อน. สุดท้ายเป็นการเปลี่ยนรูปข้อมูล (filtering, selecting), รวมตาราง (concat, merge) และตัวอย่าง Workshop เชิงปฏิบัติที่สามารถรันได้ทันที เพื่อให้ผู้เรียนพร้อมนำไปใช้กับ Data Pipeline ในงานจริง.

## Key Takeaways

- เข้าใจ DataFrame และ Series และวิธีสร้างจาก List of Dicts
- ใช้ Pandas ในการนำเข้า สำรวจ และทำความสะอาดข้อมูล (fillna, to_datetime, drop_duplicates)
- กรองและรวมข้อมูล (filtering, merge, concat) เพื่อเตรียมข้อมูลสำหรับการวิเคราะห์ต่อไป

## Dependencies & Setup


In [11]:
# ติดตั้ง dependency ที่จำเป็นสำหรับการรันตัวอย่างใน Notebook นี้
# รันเพียงครั้งเดียวใน environment ของคุณ

!pip install pandas openpyxl

Collecting openpyxl
  Using cached openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Using cached et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Using cached openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Using cached et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2/2[0m [openpyxl]━━[0m [32m1/2[0m [openpyxl]
[1A[2KSuccessfully installed et-xmlfile-2.0.0 openpyxl-3.1.5


## Section 2.1 — รู้จักกับ Pandas (Introduction to Pandas)
### Demo (ตัวอย่าง): สร้าง DataFrame จาก List of Dictionaries
สรุป: DataFrame คือโครงสร้างหลัก (ตารางเหมือน Excel) และ Series คือคอลัมน์เดียว ใช้ pd.DataFrame และ pd.Series เพื่อสร้างจาก List of Dicts

In [12]:
import pandas as pd

customer_list = [
    {'cif': 12345, 'name': 'Mr. A', 'dpd': 15},
    {'cif': 12346, 'name': 'Ms. B', 'dpd': 91},
    {'cif': 12347, 'name': 'Mr. C', 'dpd': 0}
]

df_from_list = pd.DataFrame(customer_list)
df_from_list.head()

Unnamed: 0,cif,name,dpd
0,12345,Mr. A,15
1,12346,Ms. B,91
2,12347,Mr. C,0


In [13]:
series = pd.Series([{'cif': 12348,'name': 'Mr. D','dpd': 30},
                            {'cif': 12349,'name': 'Mr. E','dpd': 45}])
series

0    {'cif': 12348, 'name': 'Mr. D', 'dpd': 30}
1    {'cif': 12349, 'name': 'Mr. E', 'dpd': 45}
dtype: object

---

## Section 2.2 — การนำเข้าและสำรวจข้อมูล (Data Acquisition & Exploration)

### 2.2.1 การอ่านข้อมูล (Data Input)

ตัวอย่างการอ่านไฟล์ CSV / Excel ด้วย Pandas

In [14]:
# อ่านไฟล์ CSV / Excel
import pandas as pd

df_tran = pd.read_csv('Transection_20240731.csv', encoding='utf-8-sig', sep='|')
# df_tran = pd.read_excel('Transection_20240731.xlsx')
df_perf = pd.read_excel('Performance.xlsx', sheet_name='Sheet1')


---

### 2.2.2 การสำรวจข้อมูล (Exploration)

ฟังก์ชันสำคัญ: `head()`, `tail()`, `shape`, `info()`, `describe()`, `value_counts()`

In [15]:
# ตัวอย่างการสำรวจเบื้องต้น
print(df_tran.shape)
df_tran.head()

(1116, 73)


Unnamed: 0,FRPDATE,FRLDATE,FORDATE,FMATDATE,FCUSNO,FACCNO,FLNTYP,FACCSTS,FPRODTY,FNPLFDTE,...,FCUSTSIZE,FBUSTYPE,FODTOPUP,FSGMCOD,FCARID00,FDPDUE00,FCOMMFG,FRATING_ORI,FRATING_DTE,FRATING_RP
0,20240731,0,20110620,20250531,92953,7653161903,O,1,AA,0,...,B,56477110,,RSME,A,0,Y,10,20210426.0,9
1,20240731,0,20220325,20250331,81681,9774723846,O,1,AA,0,...,B,56471900,,SME,A,0,Y,9,20220225.0,8
2,20240731,0,20101027,20250228,83867,7735375216,O,1,AA,0,...,B,61681031,,RSME,A,0,Y,9,,10
3,20240731,0,20210324,20250228,37293,4400759345,O,1,AA,0,...,B,52259210,,SME,A,0,Y,8,20210628.0,8
4,20240731,0,20160512,20250831,24128,7035068271,O,1,AA,0,...,B,58551010,,SME,A,0,Y,8,20190920.0,10


In [16]:
# ข้อมูลเชิงสถิติ
# df_tran.describe()
df_tran.describe()

Unnamed: 0,FRPDATE,FRLDATE,FORDATE,FMATDATE,FCUSNO,FACCNO,FACCSTS,FNPLFDTE,FTDRFDTE,FTDRLDTE,...,FDAYPAY,FPRNPAY,FINTPAY,FFEEPAY,FCUSTYPE,FBUSTYPE,FDPDUE00,FRATING_ORI,FRATING_DTE,FRATING_RP
count,1116.0,1116.0,1116.0,1116.0,1116.0,1116.0,1116.0,1116.0,1116.0,1116.0,...,1116.0,1116.0,1116.0,1116.0,1116.0,1116.0,1116.0,1116.0,909.0,1116.0
mean,20240731.0,19739780.0,20209750.0,20423210.0,54622.473118,5567600000.0,1.050179,1249840.0,307902.3,307956.7,...,12.990143,1878063.0,20267.84,0.141953,5890.086022,93397070.0,38.054659,5.967742,20212960.0,5.667563
std,0.0,3050279.0,36376.15,122568.8,25867.942904,2610406000.0,0.289099,4870779.0,2476751.0,2477188.0,...,12.341584,59871920.0,167506.9,4.145663,290.87355,14674550.0,230.610268,2.606105,24747.38,2.34887
min,20240731.0,0.0,20050530.0,20180620.0,10111.0,1010034000.0,1.0,0.0,0.0,0.0,...,0.0,-1131000.0,0.0,0.0,4101.0,52101340.0,0.0,1.0,20140720.0,1.0
25%,20240731.0,20200930.0,20201220.0,20300130.0,32221.0,3356476000.0,1.0,0.0,0.0,0.0,...,1.0,402.325,156.9325,0.0,6001.0,99241010.0,0.0,4.0,20200620.0,4.0
50%,20240731.0,20221010.0,20221010.0,20450720.0,54004.0,5581033000.0,1.0,0.0,0.0,0.0,...,5.0,1843.55,1786.175,0.0,6001.0,99241010.0,0.0,5.0,20220720.0,5.0
75%,20240731.0,20230900.0,20230850.0,20521230.0,77152.75,7814797000.0,1.0,0.0,0.0,0.0,...,27.0,9128.952,8849.005,0.0,6001.0,99242000.0,0.0,7.0,20230530.0,6.0
max,20240731.0,20240730.0,20240730.0,20640610.0,99987.0,9996847000.0,3.0,20240700.0,20240730.0,20240730.0,...,31.0,2000000000.0,4565909.0,137.38,6001.0,99242010.0,3039.0,18.0,20240720.0,18.0


In [17]:
# ดูค่า category
print(df_tran['FPRODTY'].value_counts())

FPRODTY
H1    484
PG    115
PA     83
PP     68
PE     67
P9     57
PC     36
F2     35
P4     29
AA     26
E6     18
TR     17
V2     12
E5     10
FA      7
E2      7
PB      6
E1      5
S2      5
PM      5
D2      5
P8      4
F8      3
PL      2
OT      2
EA      2
F1      2
P1      1
F5      1
D4      1
XV      1
Name: count, dtype: int64


---

## Section 2.3 — การทำความสะอาดข้อมูล (Data Cleaning)

### 2.3.1 การจัดการข้อมูลที่หายไป (Missing Data)

สรุป: ตัดสินใจว่าจะลบแถวที่มีค่าว่างหรือเติมค่า (business rule) เช่น DPD ว่างอาจหมายถึง 0

In [18]:
# ตัวอย่าง fillna
print(f"DPD missing count before: {df_tran['FDPDUE00'].isnull().sum()}")
df_tran.fillna({'FDPDUE00': 0}, inplace=True)
print(f"DPD missing count after: {df_tran['FDPDUE00'].isnull().sum()}")

DPD missing count before: 0
DPD missing count after: 0


---

### 2.3.2 การแปลงประเภทข้อมูล (Type Conversion)

ฟังก์ชันสำคัญ: `astype()`, `pd.to_datetime()`, `pd.to_numeric()`

In [19]:
# แปลงวันที่จากรูปตัวเลข เช่น 20240731
df_tran['FRPDATE'] = pd.to_datetime(df_tran['FRPDATE'], format='%Y%m%d')

# แปลง FNPLFDTE โดยไม่สามารถแปลงได้จะกลายเป็น NaT
df_tran['FNPLFDTE'] = pd.to_datetime(df_tran['FNPLFDTE'], format='%Y%m%d', errors='coerce')

---

### 2.3.3 ลบข้อมูลที่ไม่จำเป็น (Duplicates & Dropping)

In [20]:
# ลบคอลัมน์ Watchlist ที่ไม่จำเป็น
cols_to_drop = [f'FWLSTF{i:02d}' for i in range(1, 31)]
df_tran.drop(columns=cols_to_drop, inplace=True, errors='ignore')

# ลบแถวซ้ำ
df_tran.drop_duplicates(inplace=True)

---

## Section 2.4 — การรวมและจัดรูปข้อมูล (Data Transformation)

### 2.4.1 การเลือกและกรอง (Selecting & Filtering)

In [21]:
# เลือกคอลัมน์
s_principal = df_tran['FPRINCAM']
# เลือก subset
df_subset = df_tran[['FCUSNO', 'FACCNO', 'FPRINCAM', 'FDPDUE00']]
# กรอง DPD > 0
df_overdue = df_tran[df_tran['FDPDUE00'] > 0]
# กรอง NPL (DPD > 90)
df_npl = df_tran.loc[df_tran['FDPDUE00'] > 90]

---

### 2.4.2 การรวมข้อมูล (Combining DataFrames)

สรุป: `pd.concat()` ต่อแนวตั้ง, `pd.merge()` สำหรับการ join (เทียบ VLOOKUP)

In [22]:
# ตัวอย่าง merge (left join)
df_merged = pd.merge(df_tran, df_perf, left_on='FCUSNO', right_on='CIF', how='inner')
df_merged.shape

(266, 46)

In [23]:
df_merged.head()

Unnamed: 0,FRPDATE_x,FRLDATE,FORDATE,FMATDATE,FCUSNO,FACCNO,FLNTYP,FACCSTS,FPRODTY,FNPLFDTE,...,FSGMCOD,FCARID00,FDPDUE00,FCOMMFG,FRATING_ORI,FRATING_DTE,FRATING_RP,FRPDATE_y,CIF,STAGE_CIF
0,2024-07-31,20070323,20070323,20460323,52005,5579906439,L,1,H1,NaT,...,HL,A,0,Y,5,,5,20240731,52005,3
1,2024-07-31,20070323,20070323,20460323,52005,5579906439,L,1,H1,NaT,...,HL,A,0,Y,5,,5,20240831,52005,3
2,2024-07-31,20070323,20070323,20460323,52005,5579906439,L,1,H1,NaT,...,HL,A,0,Y,5,,5,20240930,52005,3
3,2024-07-31,20070323,20070323,20460323,52005,5579906439,L,1,H1,NaT,...,HL,A,0,Y,5,,5,20241031,52005,3
4,2024-07-31,20070323,20070323,20460323,52005,5579906439,L,1,H1,NaT,...,HL,A,0,Y,5,,5,20241130,52005,3


---

## Section 2.5 — Mini-Game: Review Game — Challenge

จับคู่ "สิ่งที่เราอยากทำ" กับ "โค้ด Pandas ที่ถูกต้อง (A–F)" แล้วค่อยเลื่อนไปดูเฉลยด้านล่าง

| สิ่งที่เราอยากทำ (ข้อ) | ตัวเลือกของคุณ (A–F) |
|---|---|
| 1. โหลดไฟล์ Transection_20240731.csv เข้ามาใน Python | ___ |
| 2. รวมตาราง df_tran กับ df_perf โดยใช้ FCUSNO และ CIF เป็นคีย์ | ___ |
| 3. ดูค่าสถิติเบื้องต้น (mean, max, min) ของคอลัมน์ตัวเลข | ___ |
| 4. เลือกเฉพาะแถวที่ FDPDUE01 > 0 | ___ |
| 5. เติม 0 ในช่องว่างของคอลัมน์ FDPDUE01 | ___ |
| 6. แปลงคอลัมน์ FRPDATE เป็น datetime | ___ |

**ตัวเลือกโค้ด (A–F)**

| ตัวอักษร | โค้ดตัวอย่าง |
|---|---|
| A | `df_tran[df_tran['FDPDUE01'] > 0]` |
| B | `df_tran['FDPDUE01'].fillna(0, inplace=True)` |
| C | `pd.merge(df_tran, df_perf, left_on='FCUSNO', right_on='CIF', how='left')` |
| D | `df_tran.describe()` |
| E | `pd.to_datetime(df_tran['FRPDATE'], format='%Y%m%d')` |
| F | `pd.read_csv('Transection_20240731.csv')` |

---


## Review Game — เฉลย

| สิ่งที่เราอยากทำ (ข้อ) | โค้ดที่ถูกต้อง (ตัวอักษร) |
|---|---|
| 1. โหลดไฟล์ Transection_20240731.csv เข้ามาใน Python | F |
| 2. รวมตาราง df_tran กับ df_perf โดยใช้ FCUSNO และ CIF เป็นคีย์ | C |
| 3. ดูค่าสถิติเบื้องต้น (mean, max, min) ของคอลัมน์ตัวเลข | D |
| 4. เลือกเฉพาะแถวที่ FDPDUE01 > 0 | A |
| 5. เติม 0 ในช่องว่างของคอลัมน์ FDPDUE01 | B |
| 6. แปลงคอลัมน์ FRPDATE เป็น datetime | E |

---

### What you learned

- การนำเข้าและสำรวจข้อมูลเบื้องต้นด้วย Pandas
- การจัดการค่าว่าง และการแปลงประเภทวันที่
- การกรองและรวมตารางเพื่อเตรียมข้อมูลสำหรับวิเคราะห์

---
