# การจัดการข้อมูลด้วย Pandas ใน Python
## การปรับแต่งและแปลงข้อมูล
### สรุปบทเรียนที่แล้ว

- เรียนรู้วิธีการเลือกข้อมูลจาก DataFrame และ Series
- การเข้าถึงข้อมูลด้วยวิธีต่าง ๆ
- ความสำคัญของการเลือกข้อมูลที่ถูกต้องเพื่อการวิเคราะห์

### วัตถุประสงค์
- เรียนรู้การใช้ฟังก์ชันสรุปข้อมูล (Summary Functions)
- เข้าใจการใช้ฟังก์ชันแบบไม่ระบุชื่อ (Anonymous Functions)
- เรียนรู้การแปลงข้อมูลด้วย map() และ apply()
- ฝึกปฏิบัติการแปลงข้อมูลในรูปแบบต่าง ๆ

In [None]:
import pandas as pd

reviews = pd.read_csv("datasets/winemag-data-130k-v2.csv", index_col=0)

In [None]:
reviews

## ฟังก์ชันสรุปข้อมูล (Summary Functions)
- ฟังก์ชันที่ช่วยปรับโครงสร้างข้อมูลให้อยู่ในรูปแบบที่เป็นประโยชน์
- ใช้เพื่อวิเคราะห์และทำความเข้าใจข้อมูลอย่างรวดเร็ว
- For example, consider the describe() method:

In [None]:
reviews.describe()

In [None]:
# สำหรับข้อมูลตัวเลข
reviews.points.describe()

In [None]:
# การใช้ describe() กับหลายคอลัมน์สำหรับข้อมูลตัวเลขพร้อมกัน
reviews[['points', 'price']].describe()

In [None]:
# สำหรับข้อมูลประเภทข้อความ
reviews.taster_name.describe()

In [None]:
# การใช้ describe() กับหลายคอลัมน์สำหรับข้อมูลประเภทข้อความพร้อมกัน
reviews[['country', 'taster_name']].describe()

In [None]:
# การใช้ describe() กับหลายคอลัมน์สำหรับข้อมูลผสมพร้อมกัน
reviews[['country','taster_name','points']].describe()

ถ้าเราต้องการข้อมูลสถิติสรุปแบบง่ายๆ เกี่ยวกับคอลัมน์ใน DataFrame หรือ Series โดยทั่วไปจะมีฟังก์ชัน(method) pandas ที่เป็นประโยชน์ซึ่งจะช่วยให้ทำได้ ตัวอย่างเช่น 

In [None]:
# หาค่าเฉลี่ยใช้ mean()
reviews.points.mean()

In [None]:
# ดูค่าที่ไม่ซ้ำใช้ unique()
reviews.taster_name.unique()

In [None]:
# นับจำนวนค่าที่ซ้ำกันใช้ value_counts()
reviews.taster_name.value_counts()

In [None]:
reviews.points.value_counts()

## ฟังก์ชันแบบไม่ระบุชื่อ (Anonymous Functions)
- เรียกอีกอย่างว่า Lambda Function
- เป็นฟังก์ชันที่ไม่จำเป็นต้องมีชื่อ
- เขียนสั้น ๆ ในบรรทัดเดียว
- เหมาะสำหรับฟังก์ชันง่าย ๆ ที่ใช้เพียงครั้งเดียว

In [None]:
# ฟังก์ชันแบบปกติ
def f(x):
    return x**2 + x - 1

In [None]:
# ฟังก์ชันแบบ lambda
g = lambda x: x**2 + x - 1

In [None]:
# ทั้งสองฟังก์ชันให้ผลลัพธ์เหมือนกัน
x = 10
print('f(x) =',f(x))
print('g(x) =',g(x))

In [None]:
# ฟังก์ชัน lambda ที่รับหลายตัวแปร
h = lambda x, y, z: x**2 + y**2 + z**2
 

In [None]:
# ทดสอบการใช้งาน
x, y, z = 0, 1, 1
value = h(x, y, z)
print(value)

## Map คืออะไร?
- Map คือการแปลงค่าจากชุดข้อมูลหนึ่งไปเป็นอีกชุดข้อมูลหนึ่ง
- ใช้ในการสร้างข้อมูลรูปแบบใหม่จากข้อมูลที่มีอยู่
- ใช้ในการแปลงข้อมูลจากรูปแบบหนึ่งไปเป็นอีกรูปแบบหนึ่ง
- Pandas มีวิธีการ Map สองแบบหลัก ๆ: map() และ apply()

### การใช้ map()
- ใช้กับ Series (คอลัมน์เดียว)
- ส่งผ่านค่าแต่ละค่าในคอลัมน์ไปยังฟังก์ชัน
- คืนค่าเป็น Series ใหม่

In [None]:
review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - review_points_mean)

### การใช้ apply()
- ใช้กับ DataFrame ทั้งหมด
- สามารถแปลงข้อมูลทั้งแถวหรือทั้งคอลัมน์
- สามารถทำงานที่ซับซ้อนกว่า map()

In [None]:
def remean_points(row):
    row['points'] = row['points'] - review_points_mean
    return row

In [None]:
reviews.apply(remean_points, axis='columns')

### ความแตกต่างของ axis
- `axis='columns'` หรือ `axis=1`: ทำงานกับแถว
- `axis='index'` หรือ `axis=0`: ทำงานกับคอลัมน์

_**ข้อสังเกต**_   
map() และ apply() จะ return ค่า Series และ DataFrames ที่ถูกแปลงใหม่ตามลำดับ โดยจะไม่แก้ไขข้อมูลเดิมที่เรียกใช้ หากเราดูที่แถวแรกของreviews เราจะเห็นว่ามันยังคงมีค่าคะแนนเดิมอยู่

In [None]:
reviews.head(1)

## การใช้ Operator เพื่อความเร็วในการคำนวณ
- Pandas มีการดำเนินการแมป (mapping) ที่ใช้บ่อยหลายอย่างเป็นฟังก์ชัน built-ins ในตัว
- Pandas เข้าใจการทำงานระหว่าง Series กับ single value
- มีความเร็วสูงกว่าการใช้ map() หรือ apply()

In [None]:
review_points_mean = reviews.points.mean()
reviews.points - review_points_mean

จากคำสั่ง Code ด้านบนนี้ เราจะดำเนินการระหว่างค่าต่างๆ มากมายทางด้านซ้ายมือ (ทุกค่าในซีรีส์) และค่าเดียวทางด้านขวามือ (ค่าเฉลี่ย) Pandas จะพิจารณานิพจน์นี้และคำนวณว่าเราต้องลบค่าเฉลี่ยออกจากค่าทุกค่าในชุดข้อมูล

นอกจากนี้ Pandas ยังเข้าใจด้วยว่าต้องทำอย่างไรหากเราดำเนินการเหล่านี้ระหว่างซีรีส์ที่มีความยาวเท่ากัน ตัวอย่างเช่น วิธีง่ายๆ ในการรวมข้อมูลประเทศและภูมิภาคในชุดข้อมูลคือทำดังต่อไปนี้:

In [None]:
# การผสมข้อมูลด้วย Operator : สามารถใช้กับ Series ที่มีความยาวเท่ากัน
# การรวมข้อมูลประเทศกับภูมิภาค
reviews.country + " - " + reviews.region_1

## ความแตกต่างระหว่าง Operator และ map()/apply()
- Operator: เร็วกว่า แต่ใช้ได้กับการคำนวณพื้นฐาน
- map()/apply(): ยืดหยุ่นกว่า สามารถใช้กับโลจิกที่ซับซ้อน

# Your turn

If you haven't started the exercise, you can now.