# การจัดการข้อมูลขั้นพื้นฐานด้วย `pandas` 

ไลบรารี `pandas` เป็นไลบรารีที่สำคัญที่สุดในวิทยาการข้อมูล (data science) อาจจะนับได้ด้วยซ้ำว่าหลายคนเรียนเขียนโปรแกรมเป็นภาษาไพธอนเพื่อที่จะได้ใช้ `pandas` ได้ 



## การจัดการข้อมูล
รูปแบบของข้อมูลที่เรามักจะเจอและใช้กันคือข้อมูลที่อยู่ในรูปแบบของตาราง (tabular data) ซึ่งเป็นรูปแบบข้อมูลที้ `pandas` มีฟังก์ชันต่าง ๆ ที่ช่วยในการจัดการข้อมูลดังนี้

1. การทำความสะอาดข้อมูล (data cleaning) คือ การคัดแยกข้อมูลที่สกปรกออกไป เช่น ข้อมูลที่สมบูรณ์ สั้นเกินไป ยาวเกินไป ผิดเพี้ยน หรือข้อความมีข้อมูลเราไม่ต้องการเช่น url หรือเครื่องหมายวรรคตอน หรือ สิ่งอื่น ๆ ที่อาจจะทำให้การวิเคราะห์ข้อมูลคลาดเคลื่อนไปได้
2. การวิเคราะห์ข้อมูลเชิงสำรวจ (exploratory data analysis: EDA) คือ การวิเคราะห์เพื่อให้เราเข้าใจข้อมูลคร่าว ๆ เนื่องจากข้อมูลมักจะมีขนาดใหญ่มาก เราไม่สามารถนำข้อมูลออกมาดูได้ทั้งหมด เรามักจะทำ EDA โดยดูว่าข้อมูลมีทั้งหมดที่แถว แต่ละคอลัมน์เก็บข้อมูลอะไรอยู่บ้าง แต่ละคอลัมน์มีค่าสูงสุด ต่ำสุดเท่าไร ถ้าเป็นข้อความ ข้อความที่ยาวสุดยาวกี่ตัวอักษร สั้นสุดกี่ตัวอักษร เป็นต้น 
3. การขยำข้อมูล (data munging หรือ data wrangling) คือ การแปลงข้อมูลจากรูปเดิม นำมาทำความสะอาด และคัดให้เหลืออยู่เฉพาะส่วนที่สำคัญเพื่อนำไปวิเคราะห์ต่อ เช่น ลบคอลัมน์ที่ไม่เกี่ยวข้องกับการวิเคราะห์  เปลี่ยนชื่อคอลัมน์ให้สื่อความหมาย ลบคอลัมน์ที่ซ้ำซ้อนกันออกไป ลบแถวที่มีข้อมูลที่สกปรก คลาดเคลื่อนมากจนใช้การไม่ได้ หรือลบแถวที่ซ้ำซ้อนกันออกไป 

## ฟังก์ชันพื้นฐานที่ควรทราบ

`pandas` มีฟังก์ชันเยอะมากเพื่อรองรับการวิเคราะห์ข้อมูลในรูปแบบที่หลากหลาย ฟังก์ชันที่เราจำเป็นต้องรู้มีดังนี้
1. การสร้าง `DataFrame`
1. โหลดข้อมูลเข้า `DataFrame` จากไฟล์ข้อมูล 
1. เปลี่ยนชื่อคอลัมน์
1. เลือกบางคอลัมน์
1. เลือกบางแถว
1. คำนวณสถิติของแต่ละคอลัมน์
1. การเพิ่มคอลัมน์
1. การเซฟข้อมูลลงใส่ไฟล์

## การสร้าง `DataFrame`
DataFrame คือตาราง ประกอบไปด้วยแถวและคอลัมน์ แต่ละแถวมักจะเป็นหนึ่งหน่วยของการวิเคราะห์ แต่ละคอลัมน์มักจะเป็นลักษณะหรือ feature ต่าง ๆ ของแต่ละแถว

เราสามารถสร้าง `DataFrame` จากดิกชันนารีที่ key เป็นชื่อคอลัมน์ และ value เป็นลิสต์ที่เก็บค่าของแต่ละแถวของคอลัมน์นั้น เราจะต้องระวังเองว่าลิสต์ที่เป็น value ต้องมีความยาวเท่ากันหมด ไม่เช่นนั้นจะได้ข้อความ `ValueError: All arrays must be of the same length`

In [2]:
import pandas as pd
mydata = pd.DataFrame(
    {'student name': ['pang', 'dream', 'tangmay'],
     'age': [20, 19, 19]
    }
)
mydata

Unnamed: 0,student name,age
0,pang,20
1,dream,19
2,tangmay,19


เราสามารถสร้าง `DataFrame` ได้จากลิสต์ของ info dictionary ดิกชันนารีที่ key เป็นชื่อคอลัมน์ และ value เป็นค่าของคอลัมน์นั้น เราต้องระวังเองว่า info dictionary ทุกอันมี key ชุดเดียวกันหมด

In [3]:
mydata = pd.DataFrame(
    [{'student name': 'pang', 'age': 20}, 
     {'student name': 'dream', 'age': 19},
     {'student name':'tangmay', 'age': 19}
    ]
)
mydata

Unnamed: 0,student name,age
0,pang,20
1,dream,19
2,tangmay,19


## โหลดข้อมูลเข้า `DataFrame` จากไฟล์ข้อมูล 
ส่วนใหญ่เราจะอ่านข้อมูลจาก csv file เพราะเป็นประเภทของการจัดเก็บข้อมูลที่นิยมกันในวงการวิทยาการข้อมูล เนื่องจากสามารถเปิดอ่านด้วยโปรแกรม Excel หรือ Google Sheet เพื่อตรวจสอบแก้ไขได้ง่าย 

`pd.read_csv` เป็นคำสั่งที่ใช้อ่านข้อมูลจาก csv ตามชื่อไฟล์ที่ระบุ ชื่อไฟล์จะเป็นไฟล์ที่อยู่บนเครื่อง หรือไฟล์ฝากไว้อยู่บน url ก็ได้ 

In [9]:
d = pd.read_csv('https://datahub.io/machine-learning/iris/r/iris.csv')
d

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


## การเปลี่ยนชื่อคอลัมน์

### เปลี่ยนแค่บางคอลัมน์
คำสั่ง `.rename` ช่วยเปลี่ยนชื่อคอลัมน์จากนั้น return `DataFrame` ใหม่ออกมาอีกชุดที่ชื่อคอลัมน์เปลี่ยนไป เราได้ `DataFrame` แยกออกมาสองชุด เราระบุชื่อคอลัมน์ที่ต้องการเปลี่ยนใน key ของดิกต์ และชื่อใหม่อยู่ใน value ของดิกต์

In [6]:
d.rename(columns = {'sepallength':'Sepal length', 'petallength':'Petal length'})

Unnamed: 0,Sepal length,sepalwidth,Petal length,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


หากต้องการเปลี่ยนชื่อคอลัมน์ใน `DataFrame` ที่เรียก method โดยไม่สร้าง `DataFrame` ชุดใหม่ขึ้นมาให้ระบุว่า `inplace=True` พอเรียก method แล้วจะไม่ return อะไรกลับคืนมา การเปลี่ยนแปลงข้อมูลใน `DataFrame` ในลักษณะนี้เราเรียกว่าการเปลี่ยนแบบ in place

In [55]:
d = pd.read_csv('https://datahub.io/machine-learning/iris/r/iris.csv')
d.rename(columns = {'sepallength':'Sepal length', 'petallength':'Petal length'}, inplace=True)
d

Unnamed: 0,Sepal length,sepalwidth,Petal length,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### เปลี่ยนทุกคอลัมน์
`DataFrame` เก็บลิสต์ของชื่อคอลัมน์ไว้ใน property `.columns` ซึ่งเราสามารถเปลี่ยนค่านี้ได้โดยตรง การเปลี่ยนชื่อคอลัมน์ด้วยวิธีเป็นการเปลี่ยนแบบ in place เช่นกัน

In [15]:
d = pd.read_csv('https://datahub.io/machine-learning/iris/r/iris.csv')
d.columns = ['Sepal length', 'Sepal width' , 'Petal length', 'Petal width', 'Class']
d

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


## การเลือกแค่บางคอลัมน์

ถ้าข้อมูลมีขนาดใหญ่เกินไป เราจะวิเคราะห์ข้อมูลได้ลำบากเนื่องจากข้อมูลจะล้นจอไม่สามารถมองได้สะดวก รวมถึงบางครั้งข้อมูลกินหน่วยความจำในเครื่องของเรามากเกินไป เราสามารถย่อขนาดของข้อมูลลงเลือกหลายคอลัมน์พร้อม ๆ กัน ด้วย `[]` เช่น

In [5]:
d[['class', 'sepallength']]

Unnamed: 0,class,sepallength
0,Iris-setosa,5.1
1,Iris-setosa,4.9
2,Iris-setosa,4.7
3,Iris-setosa,4.6
4,Iris-setosa,5.0
...,...,...
145,Iris-virginica,6.7
146,Iris-virginica,6.3
147,Iris-virginica,6.5
148,Iris-virginica,6.2


การเลือกคอลัมน์โดยระบุชื่อคอลัมน์ในรูปแบบของลิสต์ของสตริงจะคืนค่าเป็น `DataFrame` มาให้ ซึ่งเราสามารถนำไปเรียกคำสั่งอื่น ๆ ต่อไปได้ เพราะฉะนั้น `DataFrame` เดิมไม่มีความเปลี่ยนแปลงใด ๆ เราได้ `DataFrame` มาสองชุด 

เลือกคอลัมน์เดียวโดยการใช้ `[]` แต่ว่าป้อนแค่สตริงที่เป็นชื่อคอลัมน์ที่ต้องการ คำสั่งนี้จะให้รีเทิร์น `Series` กลับมาให้ ไม่ใช่ `DataFrame` ซึ่งจะมีหลาย ๆ `Series` มารวมกันเป็นก้อนเดียว

In [59]:
d = pd.read_csv('https://datahub.io/machine-learning/iris/r/iris.csv')
d.sepallength #d['sepallength']

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepallength, Length: 150, dtype: float64

In [53]:
d.drop(columns=['class'])  #จะเปลี่ยนแบบ in place ก็ได้

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [54]:
d.drop(columns=[x for x in d.columns if 'length' in x]) #จะเปลี่ยนแบบ in place ก็ได้

Unnamed: 0,sepalwidth,petalwidth,class
0,3.5,0.2,Iris-setosa
1,3.0,0.2,Iris-setosa
2,3.2,0.2,Iris-setosa
3,3.1,0.2,Iris-setosa
4,3.6,0.2,Iris-setosa
...,...,...,...
145,3.0,2.3,Iris-virginica
146,2.5,1.9,Iris-virginica
147,3.0,2.0,Iris-virginica
148,3.4,2.3,Iris-virginica


## การเลือกบางแถว 

* `df.sample(frac=0.5)` สุ่มมาครึ่งนึงของแถวทั้งหมด
* `df.sample(n=10)` สุ่มมาสิบตัว
* `df.head(n)` เลือก n แถวแรก
* `df.tail(n)` เลือก n แถวหลัง
* `df.iloc[5:10]` เลือกแถว 5, 6, 7, 8, 9 


In [24]:
d = pd.read_csv('https://datahub.io/machine-learning/iris/r/iris.csv')
d.sample(frac=0.1, random_state=12)

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
40,5.0,3.5,1.3,0.3,Iris-setosa
146,6.3,2.5,5.0,1.9,Iris-virginica
38,4.4,3.0,1.3,0.2,Iris-setosa
99,5.7,2.8,4.1,1.3,Iris-versicolor
143,6.8,3.2,5.9,2.3,Iris-virginica
116,6.5,3.0,5.5,1.8,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
39,5.1,3.4,1.5,0.2,Iris-setosa
135,7.7,3.0,6.1,2.3,Iris-virginica
23,5.1,3.3,1.7,0.5,Iris-setosa


In [19]:
d.sample(frac=0.5, random_state=12).iloc[[0,1,2]] #ตำแหน่งจากบนลงล่าง

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
40,5.0,3.5,1.3,0.3,Iris-setosa
146,6.3,2.5,5.0,1.9,Iris-virginica
38,4.4,3.0,1.3,0.2,Iris-setosa


In [20]:
d.sample(frac=0.5, random_state=12).loc[[0,140, 131]] # ชื่อ (index)

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
140,6.7,3.1,5.6,2.4,Iris-virginica
131,7.9,3.8,6.4,2.0,Iris-virginica


In [22]:
d.head(5)

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [23]:
d.tail(5)

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [51]:
d.iloc[10:20]

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
10,5.4,3.7,1.5,0.2,Iris-setosa
11,4.8,3.4,1.6,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
13,4.3,3.0,1.1,0.1,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
15,5.7,4.4,1.5,0.4,Iris-setosa
16,5.4,3.9,1.3,0.4,Iris-setosa
17,5.1,3.5,1.4,0.3,Iris-setosa
18,5.7,3.8,1.7,0.3,Iris-setosa
19,5.1,3.8,1.5,0.3,Iris-setosa


In [57]:
d.drop([1,2,3,4])

Unnamed: 0,Sepal length,sepalwidth,Petal length,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


## การเลือกแถวแบบใช้บูลีน

In [7]:
d[d['sepallength'] > 7]  # select * from d where sepallength > 7';

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
102,7.1,3.0,5.9,2.1,Iris-virginica
105,7.6,3.0,6.6,2.1,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
109,7.2,3.6,6.1,2.5,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
125,7.2,3.2,6.0,1.8,Iris-virginica
129,7.2,3.0,5.8,1.6,Iris-virginica
130,7.4,2.8,6.1,1.9,Iris-virginica


In [21]:
d[d['class'] == 'Iris-virginica'] # select * from d where class = 'iris-virginica';

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
100,6.3,3.3,6.0,2.5,Iris-virginica
101,5.8,2.7,5.1,1.9,Iris-virginica
102,7.1,3.0,5.9,2.1,Iris-virginica
103,6.3,2.9,5.6,1.8,Iris-virginica
104,6.5,3.0,5.8,2.2,Iris-virginica
105,7.6,3.0,6.6,2.1,Iris-virginica
106,4.9,2.5,4.5,1.7,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
108,6.7,2.5,5.8,1.8,Iris-virginica
109,7.2,3.6,6.1,2.5,Iris-virginica


## คำนวณสถิติของแต่ละคอลัมน์


| method | การใช้ |
|--------|-------|
|`.sum()`| หาผลรวม |
|`.count()`| หาจำนวนแถวที่มีข้อมูลอยู่ |
|`.median()`| หาค่ามัธยฐาน |
|`.mean()`| หาค่าเฉลี่ย |
|`.min()`| หาค่าต่ำสุด |
|`.max()`| หาค่าสูงสุด |
|`.var()`| หาความแปรปรวน (variance) |
|`.std()`| หาค่าเบี่ยงเบนมาตรฐาน (standard deviation) |
|`.describe()`| หาค่าสถิติทั่วไป เช่น ค่าเฉลี่ย ค่าสูงสุด ต่ำสุด ฯลฯ |
|`.value_counts()` | นับว่าพบแต่ละค่ามากน้อยแค่ไหน (หา distribution |

In [38]:
import pandas as pd
mydata = pd.DataFrame(
    {'student name': ['pang', 'dream', 'tangmay', 'paolong','fluke','panyut','bew'],
     'age': [21, 21, 22, 22, 17, 20, 19],
     'attendance': [16, 14, 16, 11, 16, 16, 16]
    }
)
mydata

Unnamed: 0,student name,age,attendance
0,pang,21,16
1,dream,21,14
2,tangmay,22,16
3,paolong,22,11
4,fluke,17,16
5,panyut,20,16
6,bew,19,16


In [39]:
mydata.age.mean()

20.285714285714285

In [40]:
mydata.age.describe()

count     7.000000
mean     20.285714
std       1.799471
min      17.000000
25%      19.500000
50%      21.000000
75%      21.500000
max      22.000000
Name: age, dtype: float64

In [41]:
mydata.describe()

Unnamed: 0,age,attendance
count,7.0,7.0
mean,20.285714,15.0
std,1.799471,1.914854
min,17.0,11.0
25%,19.5,15.0
50%,21.0,16.0
75%,21.5,16.0
max,22.0,16.0


In [42]:
mydata['age'].value_counts()

21    2
22    2
17    1
20    1
19    1
Name: age, dtype: int64

## การสร้าง column เพิ่ม


`apply` คือการใช้ฟังก์ชันที่เขียนขึ้นมาเอง

In [44]:
mydata['old'] = mydata.age > 20
mydata

Unnamed: 0,student name,age,attendance,old
0,pang,21,16,True
1,dream,21,14,True
2,tangmay,22,16,True
3,paolong,22,11,True
4,fluke,17,16,False
5,panyut,20,16,False
6,bew,19,16,False


In [45]:
mydata['age next year'] = mydata['age'] + 1

In [48]:
def plus_one(number):
    return number + 1
mydata['age next year'] = mydata['age'].apply(plus_one)

In [49]:
mydata['age next year'] = mydata['age'].apply(lambda number: number + 1)

In [50]:
mydata

Unnamed: 0,student name,age,attendance,old,age next year
0,pang,21,16,True,22
1,dream,21,14,True,22
2,tangmay,22,16,True,23
3,paolong,22,11,True,23
4,fluke,17,16,False,18
5,panyut,20,16,False,21
6,bew,19,16,False,20
