# Pandas

## 1. Python และ Pandas
- **Python** คือภาษาโปรแกรมที่ใช้งานง่าย เหมาะกับการวิเคราะห์ข้อมูล
- **Pandas** คือไลบรารีสำหรับจัดการและวิเคราะห์ข้อมูลในรูปแบบตาราง (DataFrame)

## 2. การติดตั้ง Pandas
ใช้คำสั่งนี้ใน Terminal หรือ Jupyter Notebook

In [None]:
!pip install pandas numpy openpyxl

## 3. การนำเข้า Pandas

In [None]:
import pandas as pd
import numpy as np

## 4. โครงสร้างข้อมูลหลักใน Pandas
- **Series** (ข้อมูล 1 มิติ)
- **DataFrame** (ข้อมูล 2 มิติ)

### ตัวอย่างการสร้าง Series

In [None]:
series = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
display(series)

### ตัวอย่างการสร้าง DataFrame

In [None]:
data = {
    'ชื่อ': ['Louis', 'John', 'Smith'],
    'อายุ': [25, 30, 35],
    'ชั้นปี': [1, 2, 3],
    'เพศ': ['ชาย', 'ชาย', 'หญิง'], 
    'คะแนน': [80, 90, 85]
}

df = pd.DataFrame(data)
display(df)

## 5. การอ่านไฟล์ข้อมูล
- รองรับไฟล์ CSV, Excel

In [None]:
# อ่านไฟล์ CSV
df = pd.read_csv('employee_data.csv')
# เขียนไฟล์ CSV
df.to_csv('employee_data_modified.csv', index=False)

# อ่านไฟล์ Excel
df = pd.read_excel('employee_data.xlsx')
# เขียนไฟล์ Excel
df.to_excel('employee_data_modified.xlsx', index=False)

df

## 6. การดูข้อมูลเบื้องต้น

In [None]:
df.head()      # ดู 5 แถวแรก
df.tail()      # ดู 5 แถวสุดท้าย
df.info()      # ดูข้อมูลสรุป (non-null = NaN หรือ None)
df.describe()  # ดูสถิติข้อมูล

## 7. การเลือกข้อมูล (Selection)

In [None]:
# เลือกตามชื่อแถว (column)
df['Last Name']
df[['First Name', 'Last Name', "Salary"]]
print(type(df[['First Name', 'Last Name', "Salary"]]))
df[['First Name', 'Last Name']].to_numpy()
df[['First Name', 'Last Name']].values
df[['First Name', 'Last Name']].values.tolist()

### ข้อแตกต่างระหว่าง numpy กับ array
- มีฟังก์ชันคณิตศาสตร์ครบถ้วน
- เร็วกว่าม ใช้หน่วยตวามจำน้อยกว่า
- เหมาะกับงานคำนวณ/วิเคราะห์ข้อมูล

In [None]:
py_list = [1, 2, 3]
np_array = np.array([1, 2, 3])

# บวกเลข
print(py_list + py_list)      # [1, 2, 3, 1, 2, 3] (ต่อ list)
print(np_array + np_array)    # [2 4 6] (บวกเลขแต่ละตำแหน่ง)

In [None]:
df = pd.read_excel('employee_data.xlsx')
df.loc[100]      # เลือกด้วย label
df.iloc[100]     # เลือกด้วย index

## 8. การกรองข้อมูล (Filtering)

In [None]:
df[df['Position'] == 'Specialist'] # เลือกแถวที่ Department = Specialist
special_condition = df[(df['Position'] == 'Specialist') & (df['Salary'] >= 20000)] # เลือกแถวที่ Department = Specialist และ Salary >= 40000
special_condition
special_condition.count()  # นับจำนวนแถวที่เลือก

## 9. การเพิ่ม/ลบข้อมูล
- how='any' (ค่า default): ลบแถวที่มีค่า NaN อย่างน้อย 1 คอลัมน์  
- how='all': ลบแถวที่ทุกคอลัมน์เป็น NaN  
- thresh=n: ต้องมีข้อมูล (non-NaN) อย่างน้อย n คอลัมน์ ถึงจะไม่ถูกลบ  

In [None]:
df = pd.read_csv('employee_data.csv')

# เพิ่มคอลัมน์ใหม่ df['ชื่อ column'] = ข้อมูลที่ต้องการใส่
df['Senior'] = df['Salary'] >= 40000
# เพิ่มแถว
new_row = {
    'Employee ID': 108,
    'First Name': 'Alex',
    'Last Name': 'Nguyen',
    'Department': 'Finance',
    'Position': 'Analyst',
    'Salary': 45000,
    'Hire Date': '2023-03-10',
    'Senior': True
}

# วิธีที่ 1
df = pd.concat([df, pd.DataFrame([new_row])], ignore_index=True)
# วิธีที่ 2
df.loc[len(df)] = [108, 'Alex', 'Nguyen', 'Finance', 'Analyst', 45000, '2023-03-10', True]

# ลบคอลัมน์ (1 ลบคอลัมน์)
df = df.drop('Senior', axis=1)
df = df.drop('Position', axis=1)
# ลบแถว (0 ลบแถว)
df = df.drop(0, axis=0)
df = df.drop(2, axis=0)
df = df.drop(1001, axis=0)
df


In [None]:
# สร้าง DataFrame ตัวอย่าง
data = {
    'A': [1, 2, np.nan, 4],
    'B': [np.nan, 2, 3, 4],
    'C': [1, np.nan, np.nan, 4],
    'D': [1, 2, 3, 4],
    'E': [np.nan, np.nan, np.nan, np.nan]
}
df = pd.DataFrame(data)
print("ต้นแบบ:")
print(df)

# 1. ลบแถวที่มีค่า NaN อย่างน้อย 1 คอลัมน์ (how='any')
df1 = df.dropna(axis=0, how='any')
print("\nลบแถวที่มี NaN อย่างน้อย 1 คอลัมน์ (how='any'):")
print(df1)

# 2. ลบแถวที่ทุกคอลัมน์เป็น NaN (how='all')
df2 = df.dropna(axis=0, how='all')
print("\nลบแถวที่ทุกคอลัมน์เป็น NaN (how='all'):")
print(df2)

# 3. ลบแถวที่มีข้อมูล (non-NaN) น้อยกว่า 3 คอลัมน์ (thresh=3)
df3 = df.dropna(axis=0, thresh=3)
print("\nลบแถวที่มีข้อมูลน้อยกว่า 3 คอลัมน์ (thresh=3):")
print(df3)

# 4. ลบแถวที่คอลัมน์ 'A' หรือ 'B' เป็น NaN (subset)
df4 = df.dropna(axis=0, subset=['A', 'B'])
print("\nลบแถวที่คอลัมน์ 'A' หรือ 'B' เป็น NaN (subset=['A', 'B']):")
print(df4)

## 10. การจัดกลุ่มข้อมูล (Group By)

In [None]:
df = pd.read_csv('employee_data.csv')

# คำนวณค่าเฉลี่ยของ Salary ตาม Department
df.groupby('Department')['Salary'].mean()
# คำนวณค่าเฉลี่ยของ Salary ตาม Department และ Position
df['Hire Date'] = pd.to_datetime(df['Hire Date'])
salary_by_pos = df[df['Hire Date'] > '2020-01-01']
salary_by_pos.groupby(['Department', 'Position'])['Salary'].mean().to_csv('salary_mean.csv')
salary_by_pos.groupby(['Department', 'Position'])['Salary'].min()
salary_by_pos.groupby(['Department', 'Position'])['Salary'].max()
salary_by_pos.groupby(['Department', 'Position'])['Salary'].median() 

round(df.groupby('Department')['Salary'].mean(), 2)  # ปัดทศนิยม 2 ตำแหน่ง

## 11. การบันทึกข้อมูลออกเป็นไฟล์

In [None]:
df.to_csv('output.csv', index=False)
df.to_excel('output.xlsx', index=False)

## 12. การใช้งาน Pandas กับข้อมูลจริง
- ตัวอย่าง: วิเคราะห์คะแนนนักเรียน, ข้อมูลยอดขาย ฯลฯ

สามารถนำแต่ละหัวข้อไปขยายความและเพิ่มตัวอย่างได้ตามความเหมาะสม