# Data Management with Pandas

## Pandas Library

Pandas (Panel Data) เป็นเครื่องมือเสริมสำหรับการจัดการบริหาร และสำรวจข้อมูลที่เป็น Dataset โดยเฉพาะ

ทำไมเราควรต้องใช้ Pandas?

> Pandas นั้นมีความาสามารถในการสรุปผลข้อมูลให้อยู่ในรูปที่เข้าใจได้อย่างง่ายดาย และยังมีคำสั่งมากมายที่เข้ามาช่วยจัดการบริหารข้อมูลได้อย่างมีประสิทธิภาพ

## สารบัญ
- [1)  เริ่มทำการ import Pandas library](#import)
- [2)  การสร้างข้อมูลที่เป็น Series และ DataFrame](#create)
- [3)  การอ่านข้อมูลจากภายนอกเข้ามาเป็น DataFrame ด้วย Pandas](#read)
- [4)  การเพิ่มประเภทข้อมูลใหม่ที่ต้องการศึกษาเข้าไปใน DataFrame](#add)
- [5)  การเข้าถึงข้อมูลภายใน DataFrame](#select)
- [6)  ทำการลบข้อมูลภายใน DataFrame](#del)
- [7)  การจัดการกับ Missing Data](#miss)
- [8)  การเชื่อมต่อ DataFrame หลายๆอันเข้าด้วยกัน](#concat)
- [9) การลบชุดข้อมูลย่อยที่เหมือนกัน](#dup)
- [10) ส่วนเสริมการใช้ Pandas](#extension)

### 1. เริ่มทำการ import Pandas library<a id="import"></a>

ในกรณีเดียวกันกับการ import numpy เพื่อให้ง่ายต่อการเรียกใช้เราเลยใช้ "as pd" เพื่อจะทำให้เราพิมพ์เรียกใช้สั้นลงจาก pandas เป็น pd

In [1]:
import pandas as pd

ทำความเข้าใจประเภทลักษณะการเก็บข้อมูลพื้นฐานของ Pandas ซึ่งจะมีตัวหลักๆอยู้ 2 ตัวด้วยกัน ได้แก่

+ **1) Series** จะเป็นการเก็บข้อมูลในรูปแบบที่คล้ายกับ one-dimensional labeled array โดยปกติแล้ว Seires จะเก็บข้อมูลแค่หนึ่งประเภทไว้ 
![Series.png](attachment:Series.png)

**ตัวอย่างเช่น** อายุหรือเพศของผู้เข้าร่วมงานวิจัยทุกคน
![series.PNG](attachment:series.PNG)

+ **2) DataFrame** จะเป็นการเก็บข้อมูลในรูปแบบของตาราง หรือก็คือตารางที่เกิดจาก Seires หลายๆอันมาต่อเรียงกัน
![DataFrame.png](attachment:DataFrame.png)

**ตัวอย่าง**
![df.PNG](attachment:df.PNG)

### 2. การสร้างข้อมูลที่เป็น Series และ DataFrame<a id="create"></a>

In [39]:
import numpy as np #import numpy เพื่อสร้างชุดข้อมูล

ตัวตั้งต้นของ Pandas นั้นจะแปลงมาจากข้อมูลที่เป็น Dictionary
![dic2df.PNG](attachment:dic2df.PNG)

ดังนั้นขั้นต้อนการสร้าง Series และ DataFrame นี่จะเริ่มจากการที่สร้าง Dictionariy ขึ้นมาก่อนแล้วถึงจะแปลงมาเป็น Series และ DataFrame ได้

โดยที่ถ้า Dictionary นั้นมีเพียงแค่ 1 ชุดข้อมูลย่อย จะสามารถแปลงมาเป็น Series ได้เท่านั้น และเมื่อเรามีมากกว่า 2 ชุดข้อมูลย่อยขึนไป เราสามารถนำมาแปลงเป็น DataFrame ได้

<b>2.1 การสร้างข้อมูลประเภท Series</b>

ดังนั้นขั้นต้อนการสร้าง Series และ DataFrame นี่จะเริ่มจากการที่สร้าง Dictionariy ขึ้นมาก่อนแล้วถึงจะแปลงมาเป็น Series และ DataFrame ได้

โดยที่ถ้า Dictionary นั้นมีเพียงแค่ 1 ชุดข้อมูลย่อย จะสามารถแปลงมาเป็น Series ได้เท่านั้น และเมื่อเรามีมากกว่า 2 ชุดข้อมูลย่อยขึนไป เราสามารถนำมาแปลงเป็น DataFrame ได้

In [40]:
#ทำการสร้าง Dictionary ที่มีแค่ 1 ชุดข้อมูลย่อย เดียวสำหรับการสร้าง Series
dictionary_serie = dict()
dictionary_serie['age'] = np.random.randint(8,60, size = 10)
print('Dictionary:', dictionary_serie)

Dictionary: {'age': array([45, 42, 34, 47, 56, 56, 10, 12, 22, 31])}


In [41]:
#ในการสร้าง Series นั้นเราจะใช้คำสั่ง pd.series() โดยภายใน () ให้เราเติมข้อมูลที่เป็น Dictionary ที่เราต้องการแปลงเป็น Series เข้าไป
series = pd.Series(dictionary_serie)
print('Series:')
series

Series:


age    [45, 42, 34, 47, 56, 56, 10, 12, 22, 31]
dtype: object

In [42]:
dic = {"sex":["M","F","F","F","M","M"]}
print(pd.Series(dic))

sex    [M, F, F, F, M, M]
dtype: object


<b>2.2 การสร้างข้อมูลประเภท DataFrame</b>

In [43]:
#ทำการสร้าง Dictionary ที่มีมากกว่า 2 ชุดข้อมูลย่อยขึนไป เดียวสำหรับการสร้าง DataFrame
dictionary_df = dict()
dictionary_df['id'] = np.arange(101,106) 
dictionary_df['age'] = np.random.randint(18,60, size = 5).tolist()
dictionary_df['gender'] = np.random.choice(['male','female'], size = 5).tolist()
dictionary_df['height(cm)'] = np.random.randint(160,192, size = 5).tolist()
dictionary_df['weight(kg)'] = np.random.randint(40,121, size = 5).tolist()
dictionary_df

{'id': array([101, 102, 103, 104, 105]),
 'age': [40, 36, 52, 19, 53],
 'gender': ['female', 'male', 'male', 'male', 'female'],
 'height(cm)': [189, 174, 180, 191, 182],
 'weight(kg)': [65, 86, 69, 115, 46]}

In [44]:
#ในการสร้าง DataFrame นั้นเราจะใช้คำสั่ง pd.DataFrame() โดยภายใน () ให้เราเติมข้อมูลที่เป็น Dictionary ที่เราต้องการแปลงเป็น DataFrame เข้าไป
df = pd.DataFrame(dictionary_df)
df

Unnamed: 0,id,age,gender,height(cm),weight(kg)
0,101,40,female,189,65
1,102,36,male,174,86
2,103,52,male,180,69
3,104,19,male,191,115
4,105,53,female,182,46


#### การอ่านข้อมูลที่เป็น DataFrame นั้นจะมีองค์ประกอบดังนี้

+ Index ตัวระบุลำดับของแต่ละชุดข้อมูลย่อย
+ Attribute/Feature หัวข้อของข้อมูลในแต่ columns
+ Columns แถวในแนวตั้ง
+ Rows แถวในแนวนอน

![df_explain.PNG](attachment:df_explain.PNG)

นอกจากนี้ เรายังสามารถสร้าง DataFrame ด้วย NumPy Array ได้อีกด้วย

In [45]:
data = np.array([['','Col1','Col2'],
                 ['Row1',1,2],
                 ['Row2',3,4]])
df = pd.DataFrame(data=data[1:,1:],
                  index=data[1:,0],
                  columns=data[0,1:])
print("Data:\n", data[1:,1:])
print("Row:", data[1:,0])
print("Column:", data[0,1:])
print("\nDataFrame:")
print(df)

Data:
 [['1' '2']
 ['3' '4']]
Row: ['Row1' 'Row2']
Column: ['Col1' 'Col2']

DataFrame:
     Col1 Col2
Row1    1    2
Row2    3    4


### 3. การอ่านข้อมูลจากภายนอกเข้ามาเป็น DataFrame ด้วย Pandas<a id="read"></a>

เราสามาใช้คำสั่ง pd.read_csv() เพื่ออ่านข้อมูลจากภายนอกที่เป็นไฟล์นามสกุล Comma-Separated Value(csv) ได้โดยภายใน () ให้เติมที่อยู่ของไฟล์นั้นๆที่เราต้องการจะอ่าน

#### NOTE: นอกจากนี้ pandas ยังสามารถอ่านไฟล์ JSON ได้โดยใช้คำสั่ง read_json แต่ไม่ค่อยแนะนำ

In [46]:
#Dataset โหลดมาจาก https://www.kaggle.com/fedesoriano/heart-failure-prediction
df = pd.read_csv('heart.csv')
df

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0
...,...,...,...,...,...,...,...,...,...,...,...,...
913,45,M,TA,110,264,0,Normal,132,N,1.2,Flat,1
914,68,M,ASY,144,193,1,Normal,141,N,3.4,Flat,1
915,57,M,ASY,130,131,0,Normal,115,Y,1.2,Flat,1
916,57,F,ATA,130,236,0,LVH,174,N,0.0,Flat,1


เราสามารถรู้ข้อมูลพื้นฐานเกี่ยวกับข้อมูลภาย DataFrame ได้โดยหารใช้คำสั่ง .info() ด้านหลังตัวแปรที่เก็บ DataFrame ไว้

In [47]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             918 non-null    int64  
 1   Sex             918 non-null    object 
 2   ChestPainType   918 non-null    object 
 3   RestingBP       918 non-null    int64  
 4   Cholesterol     918 non-null    int64  
 5   FastingBS       918 non-null    int64  
 6   RestingECG      918 non-null    object 
 7   MaxHR           918 non-null    int64  
 8   ExerciseAngina  918 non-null    object 
 9   Oldpeak         918 non-null    float64
 10  ST_Slope        918 non-null    object 
 11  HeartDisease    918 non-null    int64  
dtypes: float64(1), int64(6), object(5)
memory usage: 86.2+ KB


เราสามารถดูรูปร่างของ DataFrame ได้เหมือนกับ NumPy โดยการคำสั่ง .shape

In [48]:
df.shape

(918, 12)

เราสามารถนำชื่อ columns หรือ Attribute ทั้งหมดออกมาได้โดยการใช้คำสั่ง .columns

In [49]:
df.columns

Index(['Age', 'Sex', 'ChestPainType', 'RestingBP', 'Cholesterol', 'FastingBS',
       'RestingECG', 'MaxHR', 'ExerciseAngina', 'Oldpeak', 'ST_Slope',
       'HeartDisease'],
      dtype='object')

ในทางกลับกันเราสามารถเขียน DataFrame ที่เรามีอยู่ออกไปเป็น csv ไฟล์ได้เช่นกันโดยใช้คำสั่ง .to_csv() ตามหลัง DataFrame ที่เราต้องการจะบันทึกเป็น csv 
> โดยภายใน () ให้ใส่ชื่อไฟล์ที่เราต้องการจะบันทึกลงไป และให้่ตั้งค่า index = None เพื่อไม่ให้หน้าตา csv ที่ช่อง index ติดไปด้วย 

In [50]:
df.to_csv('heart_copy.csv', index = None)

#### Viewing DataFrame  
ในกรณีที่เราต้องการตรวจข้อมูลที่เป็นข้อมูล 5 ตัวแรก และ 5 ตัวหลังสุด เราสามารถใช้คำสั่ง .head() และ .tail() ตามหลังตัวแปรที่เก็บ DataFrame นั้นๆไว้อยู่ได้ตามลำดับ¶

In [51]:
df.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0


In [52]:
df.tail()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
913,45,M,TA,110,264,0,Normal,132,N,1.2,Flat,1
914,68,M,ASY,144,193,1,Normal,141,N,3.4,Flat,1
915,57,M,ASY,130,131,0,Normal,115,Y,1.2,Flat,1
916,57,F,ATA,130,236,0,LVH,174,N,0.0,Flat,1
917,38,M,NAP,138,175,0,Normal,173,N,0.0,Up,0


ถ้าเราต้องการดูข้อมูลในจำนวนที่มากขึ้นมากกว่า 5 เราสามารถใส่จำนวนข้อมูลที่เราต้องการดูเข้าไปใน () ได้

In [53]:
df.head(10)

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0
5,39,M,NAP,120,339,0,Normal,170,N,0.0,Up,0
6,45,F,ATA,130,237,0,Normal,170,N,0.0,Up,0
7,54,M,ATA,110,208,0,Normal,142,N,0.0,Up,0
8,37,M,ASY,140,207,0,Normal,130,Y,1.5,Flat,1
9,48,F,ATA,120,284,0,Normal,120,N,0.0,Up,0


#### TIPS: เราสามารถแปลง DataFrame ออกมาเป็น List ได้โดยการใช้คำสั่ง .values ด้านหลังตัวแปรที่เก็บ DataFrame ไว้

NOTE: แต่ในกรณีที่เป็นข้อมูลประเภท Series เราสามารถใช้คำสั่ง .tolist() ได้เหมือนกัน

In [54]:
df.values

array([[40, 'M', 'ATA', ..., 0.0, 'Up', 0],
       [49, 'F', 'NAP', ..., 1.0, 'Flat', 1],
       [37, 'M', 'ATA', ..., 0.0, 'Up', 0],
       ...,
       [57, 'M', 'ASY', ..., 1.2, 'Flat', 1],
       [57, 'F', 'ATA', ..., 0.0, 'Flat', 1],
       [38, 'M', 'NAP', ..., 0.0, 'Up', 0]], dtype=object)

#### TIPS: เราสามารถหาข้อมูลทางสถิติเบื่องต้นในแต่ละ Attribute ได้โดยการใช้คำสั่ง .describe() ด้านหลังตัวแปรที่เก็บ DataFrame ไว้

In [55]:
df.describe()

Unnamed: 0,Age,RestingBP,Cholesterol,FastingBS,MaxHR,Oldpeak,HeartDisease
count,918.0,918.0,918.0,918.0,918.0,918.0,918.0
mean,53.510893,132.396514,198.799564,0.233115,136.809368,0.887364,0.553377
std,9.432617,18.514154,109.384145,0.423046,25.460334,1.06657,0.497414
min,28.0,0.0,0.0,0.0,60.0,-2.6,0.0
25%,47.0,120.0,173.25,0.0,120.0,0.0,0.0
50%,54.0,130.0,223.0,0.0,138.0,0.6,1.0
75%,60.0,140.0,267.0,0.0,156.0,1.5,1.0
max,77.0,200.0,603.0,1.0,202.0,6.2,1.0


### 4. การเพิ่มประเภทข้อมูลใหม่ที่ต้องการศึกษาเข้าไปใน DataFrame<a id="add"></a>

In [56]:
#ตัวอย่างข้อมูลที่จะนำมาใช้
df = pd.DataFrame(dictionary_df)
df

Unnamed: 0,id,age,gender,height(cm),weight(kg)
0,101,40,female,189,65
1,102,36,male,174,86
2,103,52,male,180,69
3,104,19,male,191,115
4,105,53,female,182,46


#### เพิ่ม Columns ใหม่เข้าไปใน DataFrame

เราสามารถทำได้เหมือนกับเพิ่มข้อมูลเข้าไปใน Dictionary เพียงแต่จำนวนข้อมูลที่เราใส่เข้าไปต้องมีจำนวนเท่ากับจำนวน rows ของ DataFrame

In [57]:
df['blood_group'] = np.random.choice(['A' ,'B', 'O', 'AB'], size = 5)
df

Unnamed: 0,id,age,gender,height(cm),weight(kg),blood_group
0,101,40,female,189,65,B
1,102,36,male,174,86,AB
2,103,52,male,180,69,O
3,104,19,male,191,115,B
4,105,53,female,182,46,B


#### TIPS: ถ้าเราต้องการ update ข้อมูลทั้ง Column ใหม่เราสามารถเลือกชื่อของ column ที่ปรากฎอยู่แล้วเท่ากับข้อมูลใหม่ที่เราสร้างขึ้นมา

In [58]:
df['blood_group'] = np.random.choice(['A' ,'B', 'O', 'AB'], size = 5)
df

Unnamed: 0,id,age,gender,height(cm),weight(kg),blood_group
0,101,40,female,189,65,A
1,102,36,male,174,86,AB
2,103,52,male,180,69,AB
3,104,19,male,191,115,O
4,105,53,female,182,46,A


### 5. การเข้าถึงข้อมูลภายใน DataFrame<a id="select"></a>

การเข้าถึงข้อมูลนั้นจะแบ่งเป็น 2 ประเภทหลักๆ ได้แก่
+ 1) การเข้าถึงข้อมูลในแต่ละ Rows
+ 2) การเข้าถึงข้อมูลในแต่ละ Columns

In [59]:
#ตัวอย่างข้อมูลที่จะนำมาใช้
df = pd.DataFrame(dictionary_df)
df = df.set_index('id') #ทำการเลื่อนข้อมูลภายใน Attribute 'id' มาเป็น index แทน
df

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,40,female,189,65
102,36,male,174,86
103,52,male,180,69
104,19,male,191,115
105,53,female,182,46


#### 5.1 การเข้าถึงข้อมูลในแต่ละ Rows

การเข้าถึงข้อมูลในแต่ละ Rows นั้นจะแบ่งเป็นสองประเภทรูปแบบ ดังต่อไปนี้

#### 5.1.1 Indexing

การเข้าถึงข้อมูลด้วยการระบุ index โดยตรงนั้นมีหลักการคล้าย Array โดยหากใช้ในการเข้าถึงข้อมูลประเภท DataFrame จะเป็นการระบุ row ที่ต้องการ แต่จะไม่สามารถเจาะจง column ที่ต้องการได้

In [60]:
df[0:3]

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,40,female,189,65
102,36,male,174,86
103,52,male,180,69


**1) Boolean indexing by isin**  
การใช้คำสั่ง isin เพื่อเข้าถึงข้อมูลตามค่าที่กำหนดใน ()  

ตัวอย่าง: ต้องการข้อมูลของเพศหญิง

In [61]:
df[df.gender.isin(['female'])]

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,40,female,189,65
105,53,female,182,46


**2) Boolean indexing by condition**  
การใช้ Boolean indexing โดยใช้เงื่อนไขใน Pandas เป็นวิธีที่มีประสิทธิภาพและยืดหยุ่นในการกรองข้อมูลใน DataFrame

ตัวอย่าง: ต้องการข้อมูลของผู้ที่มีน้ำหนักมากกว่า 80

In [62]:
df[df['weight(kg)'] > 80]

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
102,36,male,174,86
104,19,male,191,115


ตัวอย่างการใช้ Boolean indexing by condition ร่วมกับ isin

In [63]:
df[(df.gender.isin(['male'])) & (df['weight(kg)'] > 80)]

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
102,36,male,174,86
104,19,male,191,115


#### 5.1.2 loc() และ iloc()

**1) loc()** เป็นการเข้าถึงกลุ่มของ row และ column ด้วยวิธีการ label คือการระบุสิ่งที่เราต้องการเพื่อเข้าถึง
โดยในการใช้คำสั่ง loc() นั้นเราต้องทำการระบุ index ที่เราต้องการภายใน () เพื่อดึงข้อมูลที่เราต้องการออกมา

ตัวอย่าง: เราต้องการข้อมูลของคนที่มี id เท่ากับ 105

In [64]:
df.loc[105] #เราสามารถเติม id ไปได้เนื่องจากตอนนี้ index ของเราเป็นค่า id แล้ว

age               53
gender        female
height(cm)       182
weight(kg)        46
Name: 105, dtype: object

ตัวอย่าง: เราต้องการข้อมูลอายุและเพศของคนที่มี id ตั้งแต่ 103 ถึง 105

In [65]:
df.loc[103:105, ['age', 'gender']]

Unnamed: 0_level_0,age,gender
id,Unnamed: 1_level_1,Unnamed: 2_level_1
103,52,male
104,19,male
105,53,female


**2) iloc()** เป็นการเข้าถึงข้อมูลด้วยการระบุ index 
โดยการใช้คำสั่ง iloc() นั้นเราต้องทำการระบุ index ที่เราต้องการภายใน () เพื่อดึงข้อมูลที่เราต้องการออกมา

#### ****แต่รอบนี้ index จะเป็นลำดับของข้อมูล เริ่มตั้งแต่ 0 ไปเรื่อยๆเหมือนหลักการ index ของ List/Array

ตัวอย่าง: เราต้องการข้อมูลของคนที่มี id เท่ากับ 105

In [66]:
df.iloc[4] #เมื่อเราใช้ iloc() index ที่เราใช้จึงเป็นค่าลำดับของข้อมูลแทนซึ่งเริ่มจาก 0 ดังนั้นข้อมูล id ที่ 105 อยู่ในลำดับที่ 4 ดังนั้นใน () เราจึงเติม 4

age               53
gender        female
height(cm)       182
weight(kg)        46
Name: 105, dtype: object

นอกจากนั้นเราสามารถใช้ iloc() ในการ slicing ได้อีกด้วย 

ตัวอย่าง: เราต้องการข้อมูลอายุและเพศของคนที่มี id ตั้งแต่ 103 ถึง 105

In [67]:
df.iloc[2:, [0, 1]] 

Unnamed: 0_level_0,age,gender
id,Unnamed: 1_level_1,Unnamed: 2_level_1
103,52,male
104,19,male
105,53,female


#### 5.2 การเข้าถึงข้อมูลในแต่ละ Columns

การเลือกนำข้อมูลภายใน Column ที่เราสนใจออกมาจาก DataFrame นั้นเราสามารถทำได้โดย
1) เรียกตัวแปรที่เราเก็บ DataFrame แล้วเติมเครื่องหมาย [] ด้านหลัง
2) ภายใน [] ให้ระบุชื่อ column หรือ Attribute ที่เราต้องการลงไปสำรวจ โดยถ้าเราต้องการมากกว่าหนึ่ง columns เราสามารถเติมเป็น List ของชื่อ Columns ที่เราต้องการได้

In [68]:
#ในกรณีที่เราเลือกแค่ column เดียวข้อมูลที่ได้จะถูกจัดอยุ่ในประเภท Series
df['gender']

id
101    female
102      male
103      male
104      male
105    female
Name: gender, dtype: object

In [69]:
intereseted_columns = ['height(cm)', 'weight(kg)']
df[intereseted_columns]

Unnamed: 0_level_0,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1
101,189,65
102,174,86
103,180,69
104,191,115
105,182,46


#### TIPS: ถ้าเราต้องการรู้ว่าเรามีข้อมูลที่หน้าตาเหมือนกันจำนวนเท่าไรภายในหนึ่งประเภทข้อมูลเราสามารถใช้คำสั่ง .value_counts() ได้แต่ต้องใช้กับ Series เท่านั้น

In [70]:
df['gender'].value_counts()

gender
male      3
female    2
Name: count, dtype: int64

#### TIPS: เมื่อเราต้องการ update ข้อมูลทั้งภายใน column หนึ่งเราสามรถทำได้ดังนี้
#### ตัวอย่าง: ทำการบวกน่้ำของทุกคนด้วยเลข 5

In [71]:
#1. ทำการเลือกข้อมูล column 'weight(kg)' ออกมาก่อน
weight = df['weight(kg)'].tolist() #แปลง Series ให้เป็น List

#2. ทำการเปลี่ยนแปลงข้อมูล โดยบวกข้อมูลทุกอันด้วย 5
for i in range(len(weight)):
    weight[i] = weight[i] + 5
    
#3. ทำการ update ข้อมูลที่ column 'weight(kg)'
df['weight(kg)'] = weight
df

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,40,female,189,70
102,36,male,174,91
103,52,male,180,74
104,19,male,191,120
105,53,female,182,51


#### TIPS: เราสามารถจัดเรียงข้อมูลด้วย column ที่เราต้องการได้ด้วยคำสั่ง .sort_values

In [72]:
df.sort_values(by='age')

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
104,19,male,191,120
102,36,male,174,91
101,40,female,189,70
103,52,male,180,74
105,53,female,182,51


### 6. ทำการลบข้อมูลภายใน DataFrame<a id="del"></a>

การลบข้อมูลนั้นจะแบ่งเป็น 2 ประเภทหลักๆ ได้แก่

+ 1) การลบข้อมูลในแต่ละ Rows
+ 2) การลบข้อมูลในแต่ละ Columns

#### 6.1 การลบข้อมูลในแต่ละ Rows

ในการลบข้อมูลนั้นเราจะใช้คำสั่ง .drop() โดยภาย () ให้เติม List ของ index ที่เราต้องการจะนำออกโดย index ในที่จะเป็นกรณีเดียวกับคำสั่ง .loc() ที่จะใช้ index จากค่าที่เป็น index อยู่ ณ ขณะนั้นๆ

In [73]:
#ในกรณีนี้ค่า index เป็นค่า id อยู่เราจึงเติม list ของ id
df.drop([104,105])

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,40,female,189,70
102,36,male,174,91
103,52,male,180,74


#### ข้อควรระวัง: ในการใช้คำสั่งต่างๆที่ทำให้หน้าตาของ DataFrame เปลี่ยนไปนั้นจะต้องมีการนำค่าเข้าไปแทนที่ ไม่เช่นนั้นข้อมูลนั้นๆจะแสดงแบบผลที่เราต้องการ แต่จะไม่ถูกนำไปเก็บแทนที่ของเก่าที่เราต้องการแก่

In [74]:
#จากโค้ดด้านบน id = 104 และ 105 ถูกนำออกจาก DataFrame แต่ไม่มีการแทนค่า ทำให้ข้อมูลต้นทางนั้นยังคงเหมือนเดิม
df

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,40,female,189,70
102,36,male,174,91
103,52,male,180,74
104,19,male,191,120
105,53,female,182,51


In [75]:
#โดยการแทนค่านั้นจะมีสองลักษณะดังนี้
#1 แทนค่าเข้าไปในตัวแปรหลักเลย
df = df.drop([104])

#2 ใช้ปรับค่า inplace เป็น True ภายใน () โดยใส่เป็นค่า inplace = True
df.drop([105], inplace = True)

In [76]:
df

Unnamed: 0_level_0,age,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,40,female,189,70
102,36,male,174,91
103,52,male,180,74


#### 6.2 การลบข้อมูลในแต่ละ Columns

ในการลบข้อมูลนั้นเราจะใช้คำสั่ง .drop() เหมือนเดิมแต่โดยภาย () ให้เติมระบุเป็น columns = list ของชื่อ columns ที่เราต้องการจะเอาออกฅ

In [77]:
df.drop(columns = ['age'], inplace = True)
df

Unnamed: 0_level_0,gender,height(cm),weight(kg)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
101,female,189,70
102,male,174,91
103,male,180,74


### 7. การจัดการกับ Missing Data<a id="miss"></a>

การจัดการกับ Missing Data นั้นมีความสำคัญอย่างมากในกระบวนการวิเคราะห์ข้อมูล เนื่องจากข้อมูลที่ขาดหายไปสามารถส่งผลกระทบต่อการวิเคราะห์ การสร้างโมเดล และการตัดสินใจที่ตามมาได้ ทำให้เราไม่สามารถใช้ประโยชน์จากข้อมูลที่หายไปเหล่านั้นได้
> ดังนั้นเราจึงมีทางเลือกไม่มากในการจัดการกับ Missing Data นั้นคือ การนำข้อมูลที่มี Missing Data ออกไปเลย หรือ แทนค่า Missing Data นั้นด้วยหลักการต่างๆ โดย Missing Data นั้นส่วนมากแล้วจะถูกนำเสนอในรูปแบบอของ NaN ซึ่งไม่เราไม่สามารถนำสิ่งนี้มาต่อยอดอะไรได้เลย

In [78]:
flightData = pd.read_csv('flights.csv')
flightData

Unnamed: 0.1,Unnamed: 0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
0,0,2013,1,1,517,515,,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01T05:00:00Z
1,1,2013,1,1,533,529,4.0,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01T05:00:00Z
2,2,2013,1,1,542,540,,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01T05:00:00Z
3,3,2013,1,1,544,545,-1.0,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01T05:00:00Z
4,4,2013,1,1,554,600,-6.0,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01T06:00:00Z
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
327341,327341,2013,9,30,2240,2245,-5.0,2334,2351,-17,B6,1816,N354JB,JFK,SYR,41,209,22,45,2013-09-30T22:00:00Z
327342,327342,2013,9,30,2240,2250,-10.0,2347,7,-20,B6,2002,N281JB,JFK,BUF,52,301,22,50,2013-09-30T22:00:00Z
327343,327343,2013,9,30,2241,2246,-5.0,2345,1,-16,B6,486,N346JB,JFK,ROC,47,264,22,46,2013-09-30T22:00:00Z
327344,327344,2013,9,30,2307,2255,12.0,2359,2358,1,B6,718,N565JB,JFK,BOS,33,187,22,55,2013-09-30T22:00:00Z


In [79]:
flightData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 327346 entries, 0 to 327345
Data columns (total 20 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   Unnamed: 0      327346 non-null  int64  
 1   year            327346 non-null  int64  
 2   month           327346 non-null  int64  
 3   day             327346 non-null  int64  
 4   dep_time        327346 non-null  int64  
 5   sched_dep_time  327346 non-null  int64  
 6   dep_delay       321132 non-null  float64
 7   arr_time        327346 non-null  int64  
 8   sched_arr_time  327346 non-null  int64  
 9   arr_delay       327346 non-null  int64  
 10  carrier         327346 non-null  object 
 11  flight          327346 non-null  int64  
 12  tailnum         327346 non-null  object 
 13  origin          327346 non-null  object 
 14  dest            327346 non-null  object 
 15  air_time        327346 non-null  int64  
 16  distance        327346 non-null  int64  
 17  hour      

#### 7.1 การตรวจ Missing Data ภายใน DataFrame

เราสามารถใช้ได้ทั้งหมด 3 คำสั่งเพื่อตรวจสอบว่าเรามี Missing Data อยู่ใน DataFrame ของเราไหม โดยทั้งหมดจะต้องเติมหลังตัวแปรที่เก็บ DataFrame ไว้
+ 1) .isnull() และ .isna() จะให้ผลลัพธ์เป็น Boolean ถ้าตำแหน่งใดเป็น True คือข้อมูลนั้นเป็น Missing Data  และ False สำหรับข้อมูลปกติ
+ 2) .notnull() จะให้ผลลัพธ์เป็น Boolean ถ้าตำแหน่งใดเป็น True คือข้อมูลนั้นไม่เป็น Missing Data และ False คือข้อมูลนั้นเป็น Missing Data

In [80]:
flightData.isnull()

Unnamed: 0.1,Unnamed: 0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
0,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
327341,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
327342,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
327343,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
327344,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [81]:
flightData.notnull()

Unnamed: 0.1,Unnamed: 0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
0,True,True,True,True,True,True,False,True,True,True,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,False,True,True,True,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
327341,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
327342,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
327343,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
327344,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True


#### TIPS: เราสามารถใช้ isnull() ต่อหลังจาก column ที่มี Missing Data เพื่อแสดงเฉพาะ row ของชุดข้อมูลที่เป็น Missing Data ได้

In [82]:
flightData[flightData.dep_delay.isnull()]

Unnamed: 0.1,Unnamed: 0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
0,0,2013,1,1,517,515,,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01T05:00:00Z
2,2,2013,1,1,542,540,,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01T05:00:00Z
69,69,2013,1,1,702,700,,1058,1014,44,B6,671,N779JB,JFK,LAX,381,2475,7,0,2013-01-01T07:00:00Z
73,73,2013,1,1,715,713,,911,850,21,UA,544,N841UA,EWR,ORD,156,719,7,13,2013-01-01T07:00:00Z
98,98,2013,1,1,752,750,,1025,1029,-4,UA,477,N511UA,LGA,DEN,249,1620,7,50,2013-01-01T07:00:00Z
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
326863,326863,2013,9,30,1357,1355,,1547,1615,-28,WN,246,N430WN,EWR,PHX,267,2133,13,55,2013-09-30T13:00:00Z
327005,327005,2013,9,30,1610,1608,,1729,1752,-23,B6,1105,N306JB,JFK,ORD,111,740,16,8,2013-09-30T16:00:00Z
327020,327020,2013,9,30,1621,1619,,1856,1919,-23,B6,283,N632JB,JFK,MCO,129,944,16,19,2013-09-30T16:00:00Z
327065,327065,2013,9,30,1702,1700,,1940,1921,19,DL,2042,N346NB,EWR,ATL,99,746,17,0,2013-09-30T17:00:00Z


In [83]:
index_nan = flightData.dep_delay.index[flightData.dep_delay.isnull()] #ใช้คำสั่ง .index เพื่อหา index ของ row ที่มี Missing Data
print(index_nan)

Index([     0,      2,     69,     73,     98,    185,    200,    236,    245,
          325,
       ...
       326581, 326651, 326660, 326741, 326840, 326863, 327005, 327020, 327065,
       327102],
      dtype='int64', length=6214)


#### 7.2 การนำข้อมูลที่มี Missing Data ออกไป

เราสามารถใช้คำสั่ง .dropna() ในการลบข้อมูลย่อยที่มีค่า Missing Data ออกไป

#### NOTE: ในตัวอย่างนี้เราจะไม่ทำการแทนค่า หลังจากลบของออกไปเพื่อนำข้อมูลไปใช้ต่อในหัวย่อยถัดไป

In [84]:
flightData.dropna() #สามารถใช้ inplace = True เพื่อเป็นการแทนค่า

Unnamed: 0.1,Unnamed: 0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
1,1,2013,1,1,533,529,4.0,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01T05:00:00Z
3,3,2013,1,1,544,545,-1.0,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01T05:00:00Z
4,4,2013,1,1,554,600,-6.0,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01T06:00:00Z
5,5,2013,1,1,554,558,-4.0,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01T05:00:00Z
6,6,2013,1,1,555,600,-5.0,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01T06:00:00Z
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
327341,327341,2013,9,30,2240,2245,-5.0,2334,2351,-17,B6,1816,N354JB,JFK,SYR,41,209,22,45,2013-09-30T22:00:00Z
327342,327342,2013,9,30,2240,2250,-10.0,2347,7,-20,B6,2002,N281JB,JFK,BUF,52,301,22,50,2013-09-30T22:00:00Z
327343,327343,2013,9,30,2241,2246,-5.0,2345,1,-16,B6,486,N346JB,JFK,ROC,47,264,22,46,2013-09-30T22:00:00Z
327344,327344,2013,9,30,2307,2255,12.0,2359,2358,1,B6,718,N565JB,JFK,BOS,33,187,22,55,2013-09-30T22:00:00Z


#### 7.3 การแทนค่า Missing data

เราสามารถแทนค่า Missing data ต่างโดยการใช้คำสั่ง .fillna() หลังตัวแปรที่เก็บ DataFrame ไว้อยู่ โดยภายใน () ให้เติมค่าที่เราต้องการจะเติมแทนลงไปสำหรับ Missing Data

In [85]:
#ถ้าทำในกรณีนี้ข้อมูลที่เป็น NaN หรือ Missing Data ทั้งหมดจะโดนแทนด้วย 150 ซึ่งอาจจะทำให้ข้อมูลเราเกิดความไม่คงที่ได้
flightData.fillna(150)

Unnamed: 0.1,Unnamed: 0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
0,0,2013,1,1,517,515,150.0,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01T05:00:00Z
1,1,2013,1,1,533,529,4.0,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01T05:00:00Z
2,2,2013,1,1,542,540,150.0,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01T05:00:00Z
3,3,2013,1,1,544,545,-1.0,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01T05:00:00Z
4,4,2013,1,1,554,600,-6.0,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01T06:00:00Z
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
327341,327341,2013,9,30,2240,2245,-5.0,2334,2351,-17,B6,1816,N354JB,JFK,SYR,41,209,22,45,2013-09-30T22:00:00Z
327342,327342,2013,9,30,2240,2250,-10.0,2347,7,-20,B6,2002,N281JB,JFK,BUF,52,301,22,50,2013-09-30T22:00:00Z
327343,327343,2013,9,30,2241,2246,-5.0,2345,1,-16,B6,486,N346JB,JFK,ROC,47,264,22,46,2013-09-30T22:00:00Z
327344,327344,2013,9,30,2307,2255,12.0,2359,2358,1,B6,718,N565JB,JFK,BOS,33,187,22,55,2013-09-30T22:00:00Z


In [86]:
#ดังนั้นเราควรจะเติม Missing data ของแต่ละ column ด้วยข้อมูลที่มาจากแต่ละ column ไปเลย เช่น Mean, Median และ Mode
#Pandas Series สามารถคำนวณหาค่าทางสถิติเบื่องต้นโดยการเติม .mean() เข้าไปด้านหลังตัวแปร Series
flightData['dep_delay'].fillna(flightData['dep_delay'].mean(), inplace = True) 

flightData

Unnamed: 0.1,Unnamed: 0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
0,0,2013,1,1,517,515,12.759401,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01T05:00:00Z
1,1,2013,1,1,533,529,4.000000,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01T05:00:00Z
2,2,2013,1,1,542,540,12.759401,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01T05:00:00Z
3,3,2013,1,1,544,545,-1.000000,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01T05:00:00Z
4,4,2013,1,1,554,600,-6.000000,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01T06:00:00Z
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
327341,327341,2013,9,30,2240,2245,-5.000000,2334,2351,-17,B6,1816,N354JB,JFK,SYR,41,209,22,45,2013-09-30T22:00:00Z
327342,327342,2013,9,30,2240,2250,-10.000000,2347,7,-20,B6,2002,N281JB,JFK,BUF,52,301,22,50,2013-09-30T22:00:00Z
327343,327343,2013,9,30,2241,2246,-5.000000,2345,1,-16,B6,486,N346JB,JFK,ROC,47,264,22,46,2013-09-30T22:00:00Z
327344,327344,2013,9,30,2307,2255,12.000000,2359,2358,1,B6,718,N565JB,JFK,BOS,33,187,22,55,2013-09-30T22:00:00Z


#### TIPS: นอกจากค่า Mean แล้ว Pandas ยังมีฟังก์ชันในการหาค่าสถิติอื่นๆอีกด้วย

In [87]:
#Median
flightData.dep_delay.median()

-2.0

In [88]:
#Mode
flightData.dep_delay.mode()

0   -5.0
Name: dep_delay, dtype: float64

In [89]:
#Standard Deviation
flightData.dep_delay.std()

40.03877461906709

#### ข้อควรระวัง: ในการใช้คำสั่งต่างทางสถิติต้องใช้กับ Series หรือ DataFrame ที่เป็น Numerical Data เท่านั้น!

### 8. การเชื่อมต่อ DataFrame หลายๆอันเข้าด้วยกัน<a id="concat"></a>

โดยหลักๆแล้วจะมีการเชื่อมต่อ DataFrame เข้าด้วยกันอยู่ 2 ลักษณะ:
+ 1) การนำข้อมูลมาต่อกันเพื่อเพิ่มจำนวนของชุดมูลย่อย (เพิ่ม rows)
+ 2) การนำข้อมูลมาต่อกันเพื่อเพิ่มจำนวนของประเภทของข้อมูลที่ต้องการสำรวจ (เพิ่ม columns)

In [90]:
#ทำการสร้าง ข้อมูลชุดที่ 1
dictionary_df = dict()
dictionary_df['id'] = np.arange(101,106) 
dictionary_df['age'] = np.random.randint(18,60, size = 5).tolist()
dictionary_df['gender'] = np.random.choice(['male','female'], size = 5).tolist()
dictionary_df['height(cm)'] = np.random.randint(160,192, size = 5).tolist()
dictionary_df['weight(kg)'] = np.random.randint(40,121, size = 5).tolist()
df_1 = pd.DataFrame(dictionary_df)
df_1

Unnamed: 0,id,age,gender,height(cm),weight(kg)
0,101,23,female,171,43
1,102,45,female,166,62
2,103,47,male,175,58
3,104,28,female,175,98
4,105,18,female,173,108


In [91]:
#ทำการสร้าง ข้อมูลชุดที่ 2
dictionary_df = dict()
dictionary_df['id'] = np.arange(106,111) 
dictionary_df['age'] = np.random.randint(18,60, size = 5).tolist()
dictionary_df['gender'] = np.random.choice(['male','female'], size = 5).tolist()
dictionary_df['height(cm)'] = np.random.randint(160,192, size = 5).tolist()
dictionary_df['weight(kg)'] = np.random.randint(40,121, size = 5).tolist()
df_2 = pd.DataFrame(dictionary_df)
df_2

Unnamed: 0,id,age,gender,height(cm),weight(kg)
0,106,37,female,161,80
1,107,39,male,174,62
2,108,18,female,184,113
3,109,40,female,173,112
4,110,34,female,187,108


In [92]:
#ทำการสร้าง ข้อมูลชุดที่ 3
dictionary_df = dict()
dictionary_df['id'] = [101,102,103,104]
dictionary_df['Vacine'] = ['Yes','Yes','Yes','No']
df_3 = pd.DataFrame(dictionary_df)
df_3

Unnamed: 0,id,Vacine
0,101,Yes
1,102,Yes
2,103,Yes
3,104,No


#### 9.1 การนำข้อมูลมาต่อกันเพื่อเพิ่มจำนวนของชุดมูลย่อย (เพิ่ม rows)
> เราสามารถใช้คำสั่ง pd.concat() เพื่อทำการต่อ DataFrame เข้าด้วยกันได้เลย โดยภายใน [] ให้เติมเป็น List ของ DataFrame ที่เราต้องการนำมาต่อกัน

In [93]:
df_21 = pd.concat([df_2,df_1])
df_21

Unnamed: 0,id,age,gender,height(cm),weight(kg)
0,106,37,female,161,80
1,107,39,male,174,62
2,108,18,female,184,113
3,109,40,female,173,112
4,110,34,female,187,108
0,101,23,female,171,43
1,102,45,female,166,62
2,103,47,male,175,58
3,104,28,female,175,98
4,105,18,female,173,108


#### TIPS: เราสามารถ sort ข้อมูลภายใน DataFrame ได้โดยการใช้คำสั่ง .sort_value() ตามหลังตัวแปรที่เก็บ DataFrame ไว้ ภายใน () ให้ใส่ชื่อ column ที่เราการจะให้ DataFrame นั้นเรียงตาม
+ โดยปกติจะเป็นการเรียกจากน้อยไปหามากจากการตั้ง ascending = True แต่ถ้าต้องการให้เป็นจากมากไปน้อยให้ตั้ง ascending = False

In [94]:
df_21.sort_values(['id'])

Unnamed: 0,id,age,gender,height(cm),weight(kg)
0,101,23,female,171,43
1,102,45,female,166,62
2,103,47,male,175,58
3,104,28,female,175,98
4,105,18,female,173,108
0,106,37,female,161,80
1,107,39,male,174,62
2,108,18,female,184,113
3,109,40,female,173,112
4,110,34,female,187,108


#### 9.2 การนำข้อมูลมาต่อกันเพื่อเพิ่มจำนวนของประเภทของข้อมูลที่ต้องการสำรวจ (เพิ่ม columns)
> เราสามารถใช้คำสั่ง .merge() ต่อจากตัวแปรที่เราเก็บ DataFrame ที่ต้องการนำไปต่อกับอีก DataFrame โดยภายในวงเล็บให้เติม ตัวแปรที่เก็บ DataFrame ที่เราต้องการจะต่อเข้าด้วยกันไว้

เพื่อทำการรวมข้อมูลกันได้อย่างถูกต้องโดยตรงตัวของแต่ละ id เราเลยเพิ่ม parameters ชื่อ left_on และ right_on เข้าไป
> โดยหน้าที่ของสองตัวนี้จะทำการรับข้อมูลที่จะใช้เชื่อมต่อกันเข้ามาในที่นี้คือ id ระหว่าง 2 DataFrame โดย left_on จะเป็นชื่อตัว column ของ DataFrame ส่วน right_on จะเป็นชื่อตัว column ของ DataFrame ที่ต้องการเอามาต่อ

In [95]:
df_1.merge(df_3, left_on = 'id', right_on = 'id')

Unnamed: 0,id,age,gender,height(cm),weight(kg),Vacine
0,101,23,female,171,43,Yes
1,102,45,female,166,62,Yes
2,103,47,male,175,58,Yes
3,104,28,female,175,98,No


### 9. การลบชุดข้อมูลย่อยที่เหมือนกัน<a id="dup"></a>

In [96]:
#ทำการสร้างชุดข้อมูลเพื่อเป็นตัวอย่าง
df = pd.concat([df_1,df_1])
df.reset_index(drop = True, inplace = True) #ทำการรีเซ็ท index
df

Unnamed: 0,id,age,gender,height(cm),weight(kg)
0,101,23,female,171,43
1,102,45,female,166,62
2,103,47,male,175,58
3,104,28,female,175,98
4,105,18,female,173,108
5,101,23,female,171,43
6,102,45,female,166,62
7,103,47,male,175,58
8,104,28,female,175,98
9,105,18,female,173,108


การทำการลบข้อมูลที่มีความซ้ำกันนั้นเราสามารถใช้คำสั่ง .drop_duplicates() ได้เลยโดยเติมหลัง ตัวแปรที่เก็บข้อมูล DataFrame ไว้

In [97]:
df.drop_duplicates()

Unnamed: 0,id,age,gender,height(cm),weight(kg)
0,101,23,female,171,43
1,102,45,female,166,62
2,103,47,male,175,58
3,104,28,female,175,98
4,105,18,female,173,108


### 10. ส่วนเสริมการใช้ Pandas<a id="extension"></a>

#### 10.1 เมื่อเราทำงานกับ Machine Learning ส่วนใหญ่จะไม่รองรับข้อมูลที่เป็น string ดังนั้นเราต้องเปลี่ยนให้เป็นเลข

Pandas จึงมีคำสั่งในการเปลี่ยน string หรือค่าต่างๆ ให้เป็นค่าที่เราต้องการได้ โดนใช้คำสั่ง .replace() โดยแนะนำให้เติมค่าใน () เป็น Dictionary ที่สามารถระบุได้ว่าค่าตั้งต้นนี้ต้องเปลี่ยนเป็นค่าไหน

In [98]:
df = pd.DataFrame(dictionary_df)
df

Unnamed: 0,id,Vacine
0,101,Yes
1,102,Yes
2,103,Yes
3,104,No


#### ตัวอย่าง: เราต้องการเปลี่ยนคำว่า Yes เป็น 1 และ No เป็น 0

In [99]:
df.replace({'Yes': 1, 'No': 0})

Unnamed: 0,id,Vacine
0,101,1
1,102,1
2,103,1
3,104,0


#### 10.2 ถ้าเราทำการ For Loop ตัวของ DataFrame สิ่งที่เราจะได้ออกมานั้นจะเป็นชื่อของ Columns ภายใน DataFrame นั้นๆ\
> เราสามารถนำไปใช้ต่อยอดในการทำ Data preprocessing ได้ในอนาคตได้

In [100]:
df = pd.read_csv('heart.csv')
df

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0
...,...,...,...,...,...,...,...,...,...,...,...,...
913,45,M,TA,110,264,0,Normal,132,N,1.2,Flat,1
914,68,M,ASY,144,193,1,Normal,141,N,3.4,Flat,1
915,57,M,ASY,130,131,0,Normal,115,Y,1.2,Flat,1
916,57,F,ATA,130,236,0,LVH,174,N,0.0,Flat,1


In [101]:
for col in df:
    print(col)

Age
Sex
ChestPainType
RestingBP
Cholesterol
FastingBS
RestingECG
MaxHR
ExerciseAngina
Oldpeak
ST_Slope
HeartDisease


<b>ตัวอย่าง: ทำการเลือกแค่ Attribute ที่มีค่าประเภทของข้อมูลเป็น object ใน DataFrame ด้านบน</b>

โดยค่า object นั้นจะเป็นข้อมูลประเภทที่ที่ส่วนใหญ่บรรจุค่า string ไว้ด้านใน

In [102]:
object_columns = list()
for col in df:
    #เราสามารถใช้ตำสั่ง dtype หลัง Series เพื่อดูว่า Series นั้นเป็น Series ของข้อมูลประเภทใด
    if df[col].dtype == object: object_columns.append(col)
df[object_columns].head()

Unnamed: 0,Sex,ChestPainType,RestingECG,ExerciseAngina,ST_Slope
0,M,ATA,Normal,N,Up
1,F,NAP,Normal,N,Flat
2,M,ATA,ST,N,Up
3,F,ASY,Normal,Y,Flat
4,M,NAP,Normal,N,Up


#### 10.3 Pandas ยังมีคำสั่งที่เราสามารถสร้าง Corrleation Matrix ขึ้นมาเพื่อดูควสามสัมพันธ์ระหว่างแต่ Attribute
> ทำได้โดยเพียงแค่เติม .corr() หลังจากตัวแปรที่เก็๋บค่าของ DataFrame ไว้ แต่เนื่องจากมีข้อมูลประเภท string ซึ่งไม่รองรับกับฟังก์ชันนี้จึงต้องทำการแปลงเฉพาะข้อมูลที่เป็น numerical data ก่อนด้วยคำสั่ง ._get_numeric_data()

In [103]:
df._get_numeric_data().corr()

Unnamed: 0,Age,RestingBP,Cholesterol,FastingBS,MaxHR,Oldpeak,HeartDisease
Age,1.0,0.254399,-0.095282,0.198039,-0.382045,0.258612,0.282039
RestingBP,0.254399,1.0,0.100893,0.070193,-0.112135,0.164803,0.107589
Cholesterol,-0.095282,0.100893,1.0,-0.260974,0.235792,0.050148,-0.232741
FastingBS,0.198039,0.070193,-0.260974,1.0,-0.131438,0.052698,0.267291
MaxHR,-0.382045,-0.112135,0.235792,-0.131438,1.0,-0.160691,-0.400421
Oldpeak,0.258612,0.164803,0.050148,0.052698,-0.160691,1.0,0.403951
HeartDisease,0.282039,0.107589,-0.232741,0.267291,-0.400421,0.403951,1.0


#### 10.4 การใช้ groupby() เพื่อจัดกลุ่มข้อมูล
> การใช้คำสั่ง groupby() โดยใส่ column ภายใน () เพื่อจัดกลุ่มข้อมูลตามที่กำหนด ตามด้วยกระบวนการทางสถิติเพื่อสามารถสรุปข้อมูลตามกลุ่มที่กำหนดได้ง่ายยิ่งขึ้น

In [104]:
df.groupby('Sex').mean(numeric_only = True)

Unnamed: 0_level_0,Age,RestingBP,Cholesterol,FastingBS,MaxHR,Oldpeak,HeartDisease
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
F,52.492228,132.212435,241.196891,0.134715,146.139896,0.668912,0.259067
M,53.782069,132.445517,187.513103,0.25931,134.325517,0.945517,0.631724


In [105]:
df.groupby('ChestPainType').mean(numeric_only = True)

Unnamed: 0_level_0,Age,RestingBP,Cholesterol,FastingBS,MaxHR,Oldpeak,HeartDisease
ChestPainType,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
ASY,54.959677,133.229839,186.645161,0.284274,128.477823,1.162702,0.790323
ATA,49.242775,130.624277,233.046243,0.109827,150.208092,0.307514,0.138728
NAP,53.310345,130.960591,197.438424,0.20197,143.236453,0.674877,0.35468
TA,54.826087,136.413043,207.065217,0.282609,147.891304,1.036957,0.434783
