# **Introduction to Pandas and Practices**
1. ตารางข้อมูล (DataFrame)
2. ฟังก์ชันที่ใช้ในการคำนวณค่า BMI และ ภาวะของ BMI
3. การสรุปภาพรวมของข้อมูล (Data Summarization)
4. การคัดกรอง (Filtering) และจัดเรียงข้อมูล (Sorting)
5. การจัดกลุ่มข้อมูล (GroupBy Operations)ุ
6. การทำความสะอาดข้อมูล (Data Cleaning)
7. การเปลี่ยนแปลงข้อมูล (Data Transformation)
8. การจัดการกับข้อมูลที่มีค่าแตกต่างกัน (Normalization and Scaling Data)
9. การนำเข้า (Import) และส่งออก (Export) ข้อมูล

### **1. ตารางข้อมูล (DataFrame)**

In [None]:
import pandas as pd

#-------------------------------------------------------------
# ฟังก์ชันในการสร้าง ตารางข้อมูล (DataFrame)
# ข้อมูลน้ำหนัก (weight) และส่วนสูง (height)
#-------------------------------------------------------------
def get_data():
  data = {'weight': [   70,   77,   77,   77,   80,   70, None],    # ข้อมูลน้ำหนัก (weight)
          'height': [ 2100,  185,  190,  170,  155,  None,  170]}   # ข้อมูลส่วนสูง (height)

  df = pd.DataFrame(data)   # สร้าง DataFrame จากข้อมูล (data) น้ำหนัก (weight) และส่วนสูง (height)
  return df

df = ?()                  # เก็บ ตารางข้อมูล (DataFrame) ไว้ในตัวแปร df
?                         # แสดงข้อมูลใน DataFrame

### **2. ฟังก์ชันที่ใช้ในการคำนวณค่า BMI และ ภาวะของ BMI**

In [None]:
#-------------------------------------------------------------
# ฟังก์ชัน คำนวณค่า BMI
#-------------------------------------------------------------
def bmi_calculator(weight, height):  # น้ำหนัก (kg), ส่วนสูง (cm)

  bmi = weight / ((height/100)**2)    # คำนวณค่า BMI
  bmi = round(bmi, 1)                 # ทศนิยม 1 ตำแหน่ง

  ?                                   # ส่งคืน BMI ที่คำนวณได้

In [None]:
#-------------------------------------------------------------
# ฟังก์ชัน คำนวณค่า ภาวะของ BMI
#-------------------------------------------------------------
def bmi_status(bmi):

  if bmi < 18.5:                        # bmi น้อยกว่า 18.5        : ต่ำกว่าเกณฑ์
    status = 'ต่ำกว่าเกณฑ์'
  elif bmi >= 18.5 and bmi <= 22.9:     # bmi ระหว่าง 18.5 - 22.9  : สมส่วน
    status = 'สมส่วน'
  elif bmi >= 23 and bmi <= 24.9:       # bmi ระหว่าง 23.0 - 24.9  : เกินมาตรฐาน
    status = 'เกินมาตรฐาน'
  elif bmi >= 25 and bmi <= 29.9:       # bmi ระหว่าง 25.0 - 29.9  : โรคอ้วน
    status = 'โรคอ้วน'
  else:                                 # bmi มากกว่า 30.0         : รคอ้วนอันตราย
    status = 'โรคอ้วนอันตราย'

  return status

### **3. การสรุปภาพรวมของข้อมูล (Data Summarization)**

In [None]:
?         # แสดงรายละเอียดของ DataFrame .info()

In [None]:
?    # แสดงค่าสถิติเชิงพรรณา ของ DataFrame .describe()

In [None]:
df[?].value_counts()   # นับจำนวน แยกตามน้ำหนัก (weight)

In [None]:
df['weight'].?          # น้ำหนักเฉลี่ย

### **4. การคัดกรอง (Filtering) และจัดเรียงข้อมูล (Sorting)**

In [None]:
filtered  = df['weight']  < 80   # คัดกรองเฉพาะคนที่มีน้ำหนักน้อยกว่า 80

filtered

In [None]:
filtered  = df['weight'] < ?   # คัดกรองเฉพาะคนที่มีน้ำหนักน้อยกว่า 80

df[?]                           # นำผลที่ได้มาคัดกรองข้อมูลจาก DataFrame (filtered)

In [None]:
df_filtered = df.query('?') # คัดกรองคนที่มีความสูง (height) มากกว่า 200 หรือ (or) มีน้ำหนัก (weight) ต่ำกว่า 77

df_filtered

### **5. การจัดกลุ่มข้อมูล (GroupBy Operations)**

In [None]:
df.?('weight').mean()       # หาค่าเฉลี่ย ตามกลุ่มของน้ำหนัก (weight) .groupby(...)

In [None]:
df.groupby('weight').?      # นับจำนวน แยกตามน้ำหนัก (weight) .count()

### **6. การทำความสะอาดข้อมูล (Data Cleaning)**

#### **6.1 วิธีการที่ 1:** ถ้าเจอค่าว่าง (NaN) ให้ลบแถวนั้นทิ้ง แล้วค่อยแทนค่าว่าง (NaN) ด้วยค่าเฉลี่ย หรือค่ากลางอื่น ๆ

In [None]:
df = ?             # เก็บ ตารางข้อมูล (DataFrame) ไว้ในตัวแปร df -> get_data()

df.dropna(?)     # แสดงผลลัพธ์ ถ้าเราลบแถวที่มีค่าว่าง (NaN) ออก โดยแทนค่าเข้าไปที่เดิม (inplace=True)

clean_df = df.copy()

clean_df['weight'] = df['weight'].fillna(df['weight'].mean())     # แทนค่าน้ำหนัก (weight) ที่มีค่า NaN ด้วยค่าเฉลี่ยของน้ำหนัก (weight)
clean_df['height'] = df['height'].fillna(df['height'].mean())     # แทนค่าส่วนสูง (height) ที่มีค่า NaN ด้วยค่าเฉลี่ยของส่วนสูง (height)

clean_df        # พบว่ามี Outlier ของความสูง (height) ที่ 2100 ซึ่งจะส่งผลต่อการพยากรณ์

#### **6.2 วิธีการที่ 2:** กำจัดข้อมูลผิดปกติ (Outlier) ก่อน แล้วค่อยแทนค่าว่าง (NaN) ด้วยค่าเฉลี่ย หรือค่ากลางอื่น ๆ

In [None]:
df = get_data()                     # เก็บ ตารางข้อมูล (DataFrame) ไว้ในตัวแปร df

Q1 = df['height'].quantile(?)    # การหาควอไทล์ที่ 25 (.25)
Q3 = df['height'].quantile(?)    # การหาควอไทล์ที่ 75 (.75)

IQR = Q3 - Q1                       # ควอไทล์ที่อยู่ระหว่าง 25 - 75

upper_bound = Q3 + 1.5 * IQR        # ขอบเขตบน
lower_bound = Q1 - 1.5 * IQR        # ขอบเขตล่าง

outliers = df[(df['height'] < lower_bound) | (df['height'] > upper_bound)]  # การหาข้อมูลผิดปกติ (Outlier) ที่อยู่นอกช่วง ขอบเขตบน - ล่าง
lower_bound, upper_bound            # (141.875, 216.875)

outliers                            # แสดงข้อมูลผิดปกติ (Outlier)

clean_df = df[~df.index.isin(outliers.index)].copy()  # กรองข้อมูลผิดปกติออกด้วย tilde (~) operator
clean_df.dropna()                                     # กำจัดค่าว่าง (NaN) โดยแทนค่าเข้าไปที่เดิม (inplace=True)

clean_df                            # DataFrame ที่ผ่านการทำความสะอาดข้อมูลแล้ว

#### **6.3 วิธีการที่ไม่ควรทำ** คือ แทนค่าว่าง (NaN) ด้วยค่าเฉลี่ย หรือค่ากลางอื่น ๆ โดยไม่ได้กำจัด Outlier ก่อน

In [None]:
# ให้ระมัดระวังค่าความสูง (height: 2100) ที่เป็น Outlier อันจะส่งผลความเอนเอียงต่อ การแทนข้อมูลที่ศูนย์หายด้วยค่าเฉลี่ย
# clean_df = df.copy()                                              # ทำสำเนาของ DataFrame

# clean_df['weight'] = df['weight'].fillna(df['weight'].mean())     # แทนค่าน้ำหนัก (weight) ที่มีค่า NaN ด้วยค่าเฉลี่ยของน้ำหนัก (weight)
# clean_df['height'] = df['height'].fillna(df['height'].mean())     # แทนค่าส่วนสูง (height) ที่มีค่า NaN ด้วยค่าเฉลี่ยของส่วนสูง (height)

# clean_df

### **7. การเปลี่ยนแปลงข้อมูล (Data Transformation)**

In [None]:
#-----------------------------------------------------------------------------------------------------------------
# คำนวณค่า BMI โดยส่ง น้ำหนัก (weight) และ ความสูง (height) ของ DataFrame ที่ยังไม่ได้ทำความสะอาด ไปที่ฟังก์ชัน bmi_calculator
#-----------------------------------------------------------------------------------------------------------------
clean_df['BMI'] = clean_df.apply(lambda row: bmi_calculator(row['weight'], row['height']), axis=1)  # axis=1 ให้ apply ในแต่ละแถว (axis=0 แต่ละคอลัมน์)

clean_df

In [None]:
#-----------------------------------------------------------------------------------------------------------------
# คำนวณค่า BMI โดยส่ง น้ำหนัก (weight) และ ความสูง (height) ของ DataFrame ที่ทำความสะอาดแล้ว ไปที่ฟังก์ชัน bmi_calculator
#-----------------------------------------------------------------------------------------------------------------
clean_df['BMI'] = clean_df.apply(lambda row: bmi_calculator(row['weight'], row['height']), axis=1)  # axis=1 ให้ apply ในแต่ละแถว (axis=0 แต่ละคอลัมน์)

clean_df

In [None]:
#-----------------------------------------------------------------------------------------------------------------
# คำนวณค่าภาวะของ BMI  โดยส่ง BMI ของ DataFrame ที่ทำความสะอาดแล้ว ไปที่ฟังก์ชัน คำนวณค่า
#-----------------------------------------------------------------------------------------------------------------
clean_df['status'] = clean_df['BMI'].apply(bmi_status)

clean_df

### **8. การจัดการกับข้อมูลที่มีค่าแตกต่างกัน (Normalization and Scaling Data)**

In [None]:
from sklearn.preprocessing import MinMaxScaler  # แปลงตัวเลขให้อยู่ระหว่าง 0-1

weight_scaler = ? # จะทำการแปลงน้ำหนัก (weight)  ให้ตัวเลขอยู่ระหว่าง 0-1 -> MinMaxScaler()
height_scaler = ? # จะทำการแปลงส่วนสูง (height) ให้ตัวเลขอยู่ระหว่าง 0-1  -> MinMaxScaler()

clean_df['weight_scaled'] = weight_scaler.fit_transform(clean_df[['weight']])     # สร้างคอลัมน์ใหม่ของน้ำหนัก (weight) เพื่อเก็บผลการแปลง
clean_df['height_scaled'] = height_scaler.fit_transform(clean_df[['height']])     # สร้างคอลัมน์ใหม่ของส่วนสูง (height) เพื่อเก็บผลการแปลง

clean_df

### **9. การนำเข้า (Import) และส่งออก (Export) ข้อมูล**

In [None]:
# การส่งออก (Export) เพื่อจัดเก็บข้อมูล DataFrame ไว้ในแฟ้มข้อมูล
clean_df.?('clean_bmi.csv')                # บันทึกข้อมูล BMI ลงแฟ้มชื่อ 'clean_bmi.csv' -> to_csv(...)
#clean_df.to_csv('clean_bmi.csv', index=False)  # แก้ปัญหา มีคอลัมน์ "Unnamed: 0" บันทึกข้อมูล BMI ลงแฟ้มชื่อ 'clean_bmi.csv'

clean_df

In [None]:
read_clean_df = pd.read_csv('clean_bmi.csv')      # อ่านข้อมูลจากแฟ้มชื่อ 'clean_bmi.csv'

read_clean_df

In [None]:
#clean_df.corr() # แสดงความสัมพันธ์ระหว่างคอลัมน์ (Features)

ok = clean_df.select_dtypes(include='number').corr() # แสดงความสัมพันธ์ระหว่างคอลัมน์ (Features) โดยเลือกเฉพาะคอลัมน์ที่เป็นตัวเลข

ok

In [None]:
import seaborn as sns             # ใช้สำหรับสร้างแผนภูมิ
import matplotlib.pyplot as plt   # ใช้สำหรับแสดงแผนภูมิ

sns.?(ok, annot=True)             # แสดงแผนภูมิ Heatmap ความสัมพันธ์ (Correlation) ของคอลัมน์ (Features) ที่เป็นตัวเลข -> heatmap(...)
plt.show()

# **การแสดงผลด้วยภาพ (Data Visualization)**

### ฟังก์ชันที่ใช้ในการอ่านข้อมูลบ้าน
* สร้าง DataFrame ของบ้านที่มีข้อมูลครบถ้วน (Complete)


In [None]:
import pandas as pd
# -------------------------------------------------------
# ฟังก์ชันในการสร้าง DataFrame ของบ้านที่มีข้อมูลครบถ้วน (Complete)
# -------------------------------------------------------
def get_house_info():

  # ข้อมูลบ้าน (name) พื้นที่ใช้สอย (size) จำนวนห้อง (room) และราคาบ้าน (price)
  data = {'name':  ['House.1', 'House.2', 'House.3', 'House.4', 'House.5', 'House.6', 'House.7'],
          'size':  [       50,        75,       105,       130,       145,       170,       200],
          'room':  [        2,         2,         3,         4,         4,         5,         6],
          'price': [  500_000, 1_000_000,   650_000, 1_200_000, 1_300_000, 1_850_000, 2_000_000]}

  df = pd.DataFrame(data) # สร้าง DataFrame
  return df


In [None]:
df = get_house_info() # อ่านข้อมูลบ้าน จากฟังก์ชันที่กำหนดไว้

df                    # แสดงผลลัพธ์ที่จัดเก็บใน ตาราง(DataFrame)

### แสดงแผนภูมิ Scatter ความสัมพันธ์ ระหว่างพื้นที่ใช้สอย (size) และราคาบ้าน (price)

In [None]:
# prompt: plot scatter df house

import matplotlib.pyplot as plt       # นำเข้า sub module: matplotlib.pyplot

plt.figure(figsize=(6, 4))            # กำหนดขนาดของรูปภาพ (6 x 4)
plt.scatter(df['size'], df['price'])  # แสดงแผนภูมิ scatter โดยแกน x: ขนาด(size), แกน y: ราคา (price)
plt.xlabel('Size')                    # คำอธิบายแกน X
plt.ylabel('Price')                   # คำอธิบายแกน Y
plt.title('House Price vs. Size')     # คำอธิบาย ชื่อแผนภูมิ

#------------------------------------------------------------------------------
# แสดงตัวเลขแกน Y (ราคา) ในรูปแบบที่ต้องการ
#------------------------------------------------------------------------------
# current_values = plt.gca().get_yticks()
# plt.gca().set_yticks(current_values)
# plt.gca().set_yticklabels(['{:,.0f}'.format(x) for x in current_values])

#plt.grid(True)                       # เส้นกริด (grid)
plt.show()                            # แสดงแผนภูมิ

### แสดงแผนภูมิ Pair Plot ความสัมพันธ์ระหว่าง พื้นที่ใช้สอย (size) จำนวนห้อง (room) และราคาบ้าน (price)

In [None]:
#df.corr()                                # ไม่สามารถแสดงค่าสหสัมพันธ์ Correlation ได้เนื่องจากมีคอลัมน์ ชื่อบ้าน (name) ที่ไม่ได้เป็นตัวเลข

df.select_dtypes(include='number').corr() # แสดงค่าสหสัมพันธ์ (Correlation) ระหว่างคอลัมน์ (Features) โดยเลือกเฉพาะคอลัมน์ที่เป็นตัวเลข

In [None]:
# prompt: another plot for df house

import matplotlib.pyplot as plt     # นำเข้า sub module: matplotlib.pyplot
import seaborn as sns               # นำเข้า module: seaborn

plt.figure(figsize=(8, 4))          # กำหนดขนาดของรูปภาพ (8 x 4)
sns.pairplot(df, vars=['size', 'room', 'price'], diag_kind='kde') # ทดสอบลบ diag_kind='kde' (kernel density estimates) ออก
plt.suptitle('Pairwise Relationships of House Features', y=1)     # การตั้งค่า y=1.02 จะทำให้ชื่อแผนภูมิเลื่อนขึ้นไปอยู่นอกขอบเขตเล็กน้อย
plt.show()                          # แสดงแผนภูมิ

### แสดงแผนภูมิ Bar Chart ความสัมพันธ์ระหว่าง จำนวนนักเรียน (Value) แบ่งตามภูมิภาค (Category)

In [None]:
import pandas as pd               # นำเข้า module: pandas
import matplotlib.pyplot as plt   # นำเข้า sub module: matplotlib.pyplot

data = {'Category': ['North', 'East', 'West', 'South'], # ข้อมูลจำนวนนักเรียนในสาขาแยกแบ่งตามภูมิภาค
        'Value': [100, 35, 15, 25]}

df = pd.DataFrame(data)           # จัดเก็บข้อมูลตาราง (DataFrame)

plt.figure(figsize=(5, 5))        # กำหนดขนาดของรูปภาพ (5 x 5)

# แสดงแผนภูมิ จากจำนวน (Value) แสดงป้ายกำกับเป็น Category รูปแบบตัวเลขจุดทศนิยม 1 ตำแหน่ง และแสดงส่วนแรกเริ่มที่ตำแหน่ง 90 องศา
plt.pie(df['Value'], labels=df['Category'], autopct='%1.1f%%', startangle=90)

plt.title('Total Student Classify by Region') # คำอธิบาย ชื่อแผนภูมิ
#plt.axis('equal')                            # กำหนดให้สเกลในแกน x และ y มีค่าเท่ากันป้องกันการแสดงผลเป็นวงรี
plt.show()

### การสร้างแผนภูมิแท่ง (Bar) และ วงกลม (Pie) ในภาพเดียวกัน (Sub Plot)

In [None]:
# prompt: ช่วยสร้าง subplot ประกอบด้วย bar และ pie chart จากข้อมูล data

import pandas as pd
import matplotlib.pyplot as plt

data = {'Category': ['North', 'East', 'West', 'South'],
        'Value': [100, 35, 15, 25]}

df = pd.DataFrame(data)

fig, axes = plt.subplots(1, 2, figsize=(10, 5)) # สร้างแผนภูมิขนาด 1 แถว, 2 คอลัมน์ ขนาด 10 x 5

#----------------------------------------------------------------------------------------------------------------
# Bar chart
#----------------------------------------------------------------------------------------------------------------
axes[0].bar(df['Category'], df['Value'])        # สร้างแผนภูมิแท่ง ให้แกน x เป็น Category, แกน y เป็น Value
axes[0].set_title('Bar Chart')                  # คำอธิบาย ชื่อแผนภูมิ
axes[0].set_xlabel('Category')                  # คำอธิบายแกน X
axes[0].set_ylabel('Value')                     # คำอธิบายแกน Y

#----------------------------------------------------------------------------------------------------------------
# Pie chart
#----------------------------------------------------------------------------------------------------------------
# แสดงแผนภูมิ จากจำนวน (Value) แสดงป้ายกำกับเป็น Category รูปแบบตัวเลขจุดทศนิยม 1 ตำแหน่ง และแสดงส่วนแรกเริ่มที่ตำแหน่ง 90 องศา
axes[1].pie(df['Value'], labels=df['Category'], autopct='%1.1f%%', startangle=90)

axes[1].set_title('Pie Chart')                  # คำอธิบาย ชื่อแผนภูมิ
axes[1].axis('equal')                           # กำหนดให้สเกลในแกน x และ y มีค่าเท่ากันป้องกันการแสดงผลเป็นวงรี

plt.tight_layout()                              # ลองถาม Gemini ดูว่า คำสั่งนี้ทำงานอย่างไร?
plt.show()

### สร้างแผนภูมิ Histogram ของอายุ (age) ผู้โดยสารของเรือไททานิค

In [None]:
# prompt: plot histogram from titanic dataset using seaborn

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

titanic = sns.load_dataset('titanic')       # อ่านข้อมูลตาราง (DataFrame) ของลูกเรือไททานิค

# -------------------------------------------------------------------------------------------------
# Create a histogram of 'age'
# -------------------------------------------------------------------------------------------------
plt.figure(figsize=(8, 4))                        # กำหนดขนาดของรูปภาพ (8 x 4)
sns.histplot(titanic['age'], kde=True)            # แสดง histogram จากอายุของผู้โดยสาร (age)
plt.title('Distribution of Passenger Ages')       # คำอธิบาย ชื่อแผนภูมิ
plt.xlabel('Age')                                 # คำอธิบายแกน X
plt.ylabel('Frequency')                           # คำอธิบายแกน Y
plt.show()

# -------------------------------------------------------------------------------------------------
# Create a boxplot of 'fare' by 'class'
# -------------------------------------------------------------------------------------------------
plt.figure(figsize=(8, 4))                        # กำหนดขนาดของรูปภาพ (8 x 4)
sns.boxplot(x='class', y='fare', data=titanic)    # แสดง box plot โดยแกน x คือ คลาส แกน y (ราคาตั๋ว)
plt.title('Fare Distribution by Passenger Class') # คำอธิบาย ชื่อแผนภูมิ
plt.xlabel('Class')                               # คำอธิบายแกน X
plt.ylabel('Fare')                                # คำอธิบายแกน X
plt.show()

In [None]:
titanic.info()  # แสดงรายละเอียดโครงสร้างของตาราง (DataFrame) ไททานิค

# การสกัดหา ข้อมูลเชิงลึก (Insight)

#### Python Seaborn Tutorial For Beginners: Start Visualizing Data
https://www.datacamp.com/tutorial/seaborn-python-tutorial <br/>
https://seaborn.pydata.org/tutorial/introduction.html <br/>

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt


tips = sns.load_dataset("tips")         # อ่านข้อมูลทิป (tips)
sns.histplot(data=tips, x="total_bill") # สร้าง histogram จำนวนแท่งเป็นแบบ auto

In [None]:
sns.kdeplot(data=tips, x='total_bill')  # แสดงแผนภูมิ kde: (kernel density estimates)

In [None]:
sns.histplot(data=tips, x="total_bill", bins=20) # ระบุให้จัดกลุ่มข้อมูลทั้งหมด 20 แท่ง

In [None]:
sns.kdeplot(data=tips, x='total_bill')

In [None]:

sns.scatterplot(data=tips, x="total_bill", y="tip", hue="sex")  # แสดงแผนภูมิ scatter โดยแกน x: ค่าใช้จ่าย(total_bill), แกน y:ทิป (tip), จุดสี(เพศ)

plt.xlabel("Total Bill")                              # คำอธิบายแกน X
plt.ylabel("Tip")                                     # คำอธิบายแกน X
plt.title("Relationship between Total Bill and Tip")  # คำอธิบาย ชื่อแผนภูมิ

plt.show()

In [None]:
type(tips)

In [None]:
tips

In [None]:
tips.head()

In [None]:
tips.columns

In [None]:
tips.info()

In [None]:
tips.describe()

#### Seaborn Load Dataset
https://seaborn.pydata.org/generated/seaborn.load_dataset.html <br/>
https://www.tutorialspoint.com/seaborn/seaborn_load_dataset_method.htm <br/>

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

tips = sns.load_dataset("tips")
tips.head()

In [None]:
import pandas as pd

sns.catplot(data=tips, x="sex", y="tip", hue="time", height=5) # แสดง Category Plot แกน x (sex), แกน y (tip), สี (เวลา)
plt.show()

https://www.datacamp.com/tutorial/seaborn-python-tutorial

In [None]:
sns.catplot(data=tips, x='day', y='total_bill')     # แสดง Category Plot แกน x (day), แกน y (total_bill)

In [None]:
# แสดง Category Plot แกน x (day), แกน y (total_bill), สี (smoker), แบ่งคอลัมน์แผนภูมิตามเวลา (time)
sns.catplot(data=tips, x='day', y='total_bill', hue='smoker', col='time')

In [None]:
# แสดง Category Plot แกน x (day), แกน y (total_bill), สี (sex), แบ่งคอลัมน์แผนภูมิตามเวลา (time)
sns.catplot(data=tips, x='day', y='total_bill', hue='sex', col='time')