# Pandas Level 2: Inspection & Cleaning

ในชีวิตจริง ข้อมูลมักจะไม่สวยงาม (Messy Data) เสมอไป
ใน Level 2 นี้ เราจะมาเรียนรู้วิธีจัดการกับ:
1. **Missing Values**: ข้อมูลที่หายไป (NaN)
2. **Duplicates**: ข้อมูลซ้ำ
3. **Data Type Conversion**: แปลงชนิดข้อมูล (เช่น ตัวเลขที่เป็น string ให้เป็น int)
4. **String Operations**: การจัดการข้อความ

In [None]:
import pandas as pd
import numpy as np

<a id='loading'></a>
## 1. Load Messy Data

เราจะโหลดไฟล์ `messy_data.csv` ที่เตรียมไว้ ซึ่งมีทั้ง Missing Values และ Duplicates

In [None]:
df = pd.read_csv('data/messy_data.csv')
print("--- Original Messy Data ---")
display(df)

print("\n--- Info --- (สังเกต Non-Null Count)")
df.info()

<a id='missing'></a>
## 2. Handling Missing Values

ข้อมูลหาย (NaN - Not a Number) เกิดขึ้นได้บ่อย เรามีวิธีจัดการหลักๆ 2 แบบ:
- **ลบทิ้ง (Drop)**: ถ้าหายเยอะเกินไป หรือข้อมูลนั้นไม่สำคัญ
- **แทนที่ (Fill)**: เติมด้วยค่าเฉลี่ย, ค่ามัธยฐาน, หรือค่าคงที่

In [None]:
# 2.1 ตรวจสอบว่าตรงไหนว่างบ้าง
print("Missing Values per column:")
print(df.isnull().sum())

# 2.2 ลบแถวที่มีค่าว่าง (dropna)
df_dropped = df.dropna()
print("\n--- After Drop NA (ลบแถวที่มีช่องว่างทิ้งหมด) ---")
display(df_dropped)

# 2.3 แทนที่ค่าว่าง (fillna)
# เช่น Age หายไป ให้เติมด้วยอายุเฉลี่ย
mean_age = df['Age'].mean()
print(f"\nAverage Age: {mean_age:.2f}")

df_filled = df.copy()
df_filled['Age'] = df_filled['Age'].fillna(mean_age)

# ส่วน City ถ้าหายไป ให้เติมว่า 'Unknown'
df_filled['City'] = df_filled['City'].fillna('Unknown')

print("\n--- After Fill NA (เติม Age ด้วย mean, City ด้วย 'Unknown') ---")
display(df_filled)

<a id='duplicates'></a>
## 3. Handling Duplicates

ข้อมูลซ้ำซ้อนทำให้ผลวิเคราะห์ผิดพลาดได้

In [None]:
print(f"จำนวนแถวซ้ำ: {df.duplicated().sum()}")

# ลบข้อมูลซ้ำ (keep='first' คือเก็บตัวแรกไว้)
df_no_dup = df.drop_duplicates(keep='first')
print("\n--- After remove duplicates ---")
display(df_no_dup)

<a id='types'></a>
## 4. Data Type Conversion

บางครั้งข้อมูลตัวเลขอาจถูกอ่านเป็น String หรือเราอยากเปลี่ยน Floating point เป็น Integer

In [None]:
# สร้าง DataFrame ตัวอย่างที่มีตัวเลขเป็น String
df_types = pd.DataFrame({'Price': ['100', '200', '300'], 'Sold': [10, 20, 30]})
print("--- Original Types ---")
print(df_types.dtypes)

# แปลง Price จาก object (string) เป็น int
df_types['Price'] = df_types['Price'].astype(int)
print("\n--- Converted Types ---")
print(df_types.dtypes)
print(f"Sum Price: {df_types['Price'].sum()}")

<a id='strings'></a>
## 5. String Operations

Pandas มี `.str` accessor ให้เราจัดการข้อความได้ง่ายๆ เหมือน String method ของ Python

In [None]:
# ทำความสะอาดข้อมูลชื่อที่มี Leading/Trailing spaces
df_str = pd.DataFrame({'Name': ['  john  ', 'Alice', 'BOB']})
print("Original Names:", df_str['Name'].tolist())

# 1. strip() ตัดช่องว่างหัวท้าย
df_str['Name_Clean'] = df_str['Name'].str.strip()

# 2. lower() / upper() แปลงตัวพิมพ์
df_str['Name_Upper'] = df_str['Name_Clean'].str.upper()

# 3. contains() ค้นหาคำ
df_str['Has_A'] = df_str['Name_Clean'].str.contains('a', case=False) # case=False ไม่สนตัวพิมพ์เล็กใหญ่

display(df_str)