# Pandas Cleaning - Practice Exam

บททดสอบนี้จะเน้นเรื่องการทำความสะอาดข้อมูล (Data Cleaning) ซึ่งเป็นขั้นตอนที่สำคัญมากในการทำงานจริง
หัวข้อครอบคลุม: Handling Missing Values, Removing Duplicates, Data Type Conversion, String Operations

In [None]:
import pandas as pd
import numpy as np

## 1. Prepare Data

รัน Cell ด้านล่างเพื่อสร้าง DataFrame ที่มีความ "สกปรก" (Messy) สำหรับใช้ในการทดสอบ

In [None]:
raw_data = {
    'Name': ['  Alice', 'Bob  ', 'Charlie', 'Alice', 'David', None, 'Eve'],
    'Age': [25, 30, 35, 25, None, 40, 28],
    'Salary': ['50000', '60000', '70000', '50000', '80000', '90000', '65000'],
    'Dept': ['HR', 'IT', 'Finance', 'HR', 'IT', 'HR', 'Marketing']
}

df = pd.DataFrame(raw_data)
display(df)

## Exercise 1: Handling Duplicates

**โจทย์:**
ตรวจสอบว่ามีข้อมูลซ้ำกี่แถว และทำการลบข้อมูลซ้ำออก โดยเก็บแถวแรกไว้ (keep='first')
เก็บผลลัพธ์ลงในตัวแปร `df_cleaned`

In [None]:
# เขียนโค้ดของคุณที่นี่


<details>
<summary><strong>คลิกเพื่อดูเฉลย (Solution)</strong></summary>

```python
# ตรวจสอบจำนวนแถวซ้ำ
print("Duplicates:", df.duplicated().sum())

# ลบข้อมูลซ้ำ
df_cleaned = df.drop_duplicates(keep='first')
display(df_cleaned)
```
</details>

In [None]:
# พื้นที่สำหรับตรวจคำตอบ
print("Duplicates:", df.duplicated().sum())
df_cleaned = df.drop_duplicates(keep='first')
display(df_cleaned)

## Exercise 2: Handling Missing Values

**โจทย์:**
จาก `df_cleaned` ให้ทำตามขั้นตอนต่อไปนี้:
1. ลบแถวที่คอลัมน์ `Name` มีค่าว่าง (NaN)
2. เติมค่าว่างในคอลัมน์ `Age` ด้วยค่าเฉลี่ย (Mean) ของอายุดั้งเดิม

In [None]:
# เขียนโค้ดของคุณที่นี่


<details>
<summary><strong>คลิกเพื่อดูเฉลย (Solution)</strong></summary>

```python
# 1. ลบแถวที่ Name หาย
df_cleaned = df_cleaned.dropna(subset=['Name'])

# 2. เติม Age ด้วย Mean
mean_age = df_cleaned['Age'].mean()
df_cleaned['Age'] = df_cleaned['Age'].fillna(mean_age)

display(df_cleaned)
```
</details>

In [None]:
# พื้นที่สำหรับตรวจคำตอบ
df_cleaned = df_cleaned.dropna(subset=['Name'])
mean_age = df_cleaned['Age'].mean()
df_cleaned['Age'] = df_cleaned['Age'].fillna(mean_age)
display(df_cleaned)

## Exercise 3: Data Type Conversion

**โจทย์:**
สังเกตคอลัมน์ `Salary` ว่าเป็นชนิด String (object) อยู่ ให้แปลงเป็นชนิด `int`
จากนั้นหาผมรวมเงินเดือนทั้งหมด

In [None]:
# เขียนโค้ดของคุณที่นี่


<details>
<summary><strong>คลิกเพื่อดูเฉลย (Solution)</strong></summary>

```python
# แปลงเป็น int
df_cleaned['Salary'] = df_cleaned['Salary'].astype(int)

print("Info after conversion:")
df_cleaned.info()

print(f"\nTotal Salary: {df_cleaned['Salary'].sum()}")
```
</details>

In [None]:
# พื้นที่สำหรับตรวจคำตอบ
df_cleaned['Salary'] = df_cleaned['Salary'].astype(int)
df_cleaned.info()
print(f"Total Salary: {df_cleaned['Salary'].sum()}")

## Exercise 4: String Operations

**โจทย์:**
ในคอลัมน์ `Name` มีช่องว่างส่วนเกิน (Leading/Trailing spaces) อยู่
1. ใช้คำสั่ง `.str.strip()` เพื่อกำจัดช่องว่าง
2. แปลงชื่อให้เป็นตัวพิมพ์เล็กทั้งหมด (lower case)

In [None]:
# เขียนโค้ดของคุณที่นี่


<details>
<summary><strong>คลิกเพื่อดูเฉลย (Solution)</strong></summary>

```python
# Strip spaces
df_cleaned['Name'] = df_cleaned['Name'].str.strip()

# Lower case
df_cleaned['Name'] = df_cleaned['Name'].str.lower()

display(df_cleaned)
```
</details>

In [None]:
# พื้นที่สำหรับตรวจคำตอบ
df_cleaned['Name'] = df_cleaned['Name'].str.strip()
df_cleaned['Name'] = df_cleaned['Name'].str.lower()
display(df_cleaned)