# เทคนิคการวิเคราะห์ข้อมูลแบบต่างๆ


## ชุดคำสั่ง pandas

1. คำสั่งกำหนดการแสดงกราฟทันที

```sh
%matplotlib notebook
```
> นอกจาก notebook แล้วยังเลือก qt4, qt5 ได้อีกด้วย

2. คำสั่งนำเข้าชุดคำสั่งเพื่อเรียกใช้งานและคำสั่งแสดง เวอร์ชัน

```python
import numpy
import pandas
pandas.__version__
```


3. คำสั่งอ่านข้อมูลจากไฟล์

```python
# คำสั่งอ่านข้อมูล
df = pandas.read_csv('thailand-traffic-data-2017.csv')

# คำสั่งอ่านข้อมูลโดยไม่ใช้ชื่อ column จากไฟล์ และให้อ่านข้ามแถวที่ 0 
data = pandas.read_csv('thailand-traffic-data-2017.csv', header=None, skiprows=[0])
```

4. คำสั่งเลือกข้อมูล (แถว)

```python
# คำสั่งเลือกข้อมูลแถวที่ 0
df[0]

# คำสั่งเลือกข้อมูล 5 แถวแรก (ของทุก column)  แถวหมายเลข 0 ถึงหมายเลข 4
df[0:5] 

# คำสั่งเลือกข้อมูลแถวที่ 5 ถึงแถวที่ 9
df[5:10]

# คำสั่งเลือกข้อมูลแถวที่ 0 ถึงแถวที่ 30 โดยหมายเลขแถวเพิ่มขึ้นทีละ 2
df[0:30:2]
```

5. คำสั่งเลือกข้อมูลขั้นสูง

```python
# คำสั่งเลือกข้อมูล แถวหมายเลข 10 สะดมถ์(column)หมายเลข 2 
data.loc[10, 2]

# คำสั่งเลือกชุดข้อมูลเป็นช่วง
data.loc[3:10, 2:7]

# คำสั่งเลือกชุดข้อมูลเป็น ที่เลือกมาทุกแถวของ สะดมถ์ที่ 2
data.loc[:, 2]
data.loc[0:, 2]

# คำสั่งเลือกมาทุกเฉพาะ แถว 2 ของทุกสะดมถ์
data.loc[2, :]

# คำสั่งเลือกมาทุกเฉพาะ ทุกแถว ของสะดมถ์ที่ 3, 7, 11, 5
data.loc[:, [3,7,11,5]]

# คำสั่งเลือกชุดข้อมูลเป็น ที่เอามาเฉพาะหมายเลขแถว และหมายเลขสะดมถ์เป็นคู่
data.loc[::2, ::2]

# คำสั่งเลือกชุดข้อมูล ทุกแถว ของสะดมถ์ชื่อ 'รวม'
df.loc[:, 'รวม']

# คำสั่งเลือกข้อมูลทุกแถว เฉพาะบางสะดมถ์
df.loc[:, ['ชื่อตอน', 'รถโดยสารขนาดเล็ก', 'รถจักรยานยนต์']]

# คำสั่งเลือกข้อมูลทุกแถว โดยระบุช่วงของสะดมถ์
df.loc[:, 'ชื่อตอน':'รวม']

# ในกรณีที่ต้องการใช้หมายเลขเพื่อระบุ แถว กับ สะดมถ์ ของ df ใช้ iloc
df.iloc[3:9, 1:7]
```

6. คำสั่งลบสะดมถ์

```python
# คำสั่งลบสะดมถ์โดยใช้ชื่อสะดมถ์
del df['รวม']

# คำสั่งลบสะดมถ์โดยใช้หมายเลขสะดมถ์
del data[1]
```

## Classification

เทคนิคการระบุชนิดของดอกกล้วยไม้ตระกูล iris ว่าเป็นพันธ์ใดต่อไปนี้
```txt
0 - setosa
1 - versicolor
2 - virginica
```
โดยใช้ข้อมูล 4 ค่า(สะดมถ์) ได้แก่ 
```txt
0 - ความยาวของกลีบบน [sepal length] หน่วยเซนติเมตร
1 - ความกว้างของกลีบบน [sepal width] หน่วยเซนติเมตร
2 - ความยาวของกลีบล่าง [pedal length] หน่วยเซนติเมตร
3 - ความกว้างของกลีบล่าง [pedal width] หน่วยเซนติเมตร
```

ตามภาพ

![petal-pedal](https://raw.githubusercontent.com/justmarkham/scikit-learn-videos/e43b96424ad781f57d492ce36351693aad01902a/images/03_iris.png)

```python

# คำสั่ง load ชุดข้อมูล
import sklearn.datasets
iris = sklearn.datasets.load_iris()

# คำสั่งดูข้อมูล
iris.data
iris.target

# คำสั่งดูขนาดข้อมูล
iris.data.shape
iris.target.shape

# คำสั่งดูชุดข้อมูล 5 แถวแรก
iris.data[:5]

# คำสั่งดูชื่อแต่ละสะดมถ์
iris.feature_names

# คำสั่งดูรายชื่อสายพันธ์
iris.target_names
```

## Model Training

1. กำหนดข้อมูลสำหรับการฝึก - train

```python
X = iris.data
y = iris.target
```


3. สร้างต้นแบบ ด้วยเทคนิคต่าง ๆ

  i. ต้นแบบที่ใช้เทคนิค k-neighbor
  
  ```python
    import sklearn.neighbors 
    knn = sklearn.neighbors.KNeighborsClassifier(n_neighbors=1)
  ```
  หรือ
  ```python
    from sklearn.neighbors import KNeighborsClassifier
    knn = KNeighborsClassifier(n_neighbors=1)
  ```
  
  ii. ต้นแบบที่ใช้เทคนิค support vector machine classifier
  
  ```python
    from sklearn.svm import SVC
    svc = SVC()
  ```
  
  iii. ต้นแบบที่ใช้เทคนิค ต้นไม้ตัดสินใจ (decision tree)
  
  ```python
    from sklearn.tree import DecisionTreeClassifier
    tree = DecisionTreeClassifier()
  ```

4. ฝึกต้นแบบทั้งหมดด้วยชุดข้อมูล X, y

```python
knn.fit(X,y)
svc.fit(X,y)
tree.fit(X,y)
```

5. ดูผลการพยากรณ์ของต้นแบบแต่ละตัว

```python
r = knn.predict( [ [3,5,4,2] ])
print( iris.target_names[ r[0] ] )

r = svc.predict( [ [3,5,4,2] ])
print( iris.target_names[ r[0] ] )

r = tree.predict( [ [3,5,4,2] ])
print( iris.target_names[ r[0] ] )
```

6. การดูการพยากรณ์มากกว่า 1 ชุดข้อมูล

แนะนำ: ควรเขียนแยกเป็นฟังก์ชันไว้ใช้งานดังนี้

```python
def check(model, testset):
    r = model.predict(testset)
    print( [ iris.target_names[x] for x in r ])
```

จากนั้นเรียกใช้งานดังนี้

```python
testset = [ [3,5,4,2],  [4,4.5, 2,1], [3,4.8,3,2] ]
check(knn, testset)
check(svc, testset)
check(tree, testset)
```

## ตัวอย่างการทำ Data Visualization ด้วย PCA
```python
# Code source: Gaël Varoquaux
# Modified for documentation by Jaques Grobler
# License: BSD 3 clause

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.decomposition import PCA

# import some data to play with
iris = datasets.load_iris()
X = iris.data[:, :2]  # we only take the first two features.
y = iris.target

x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5

plt.figure(2, figsize=(8, 6))
plt.clf()

# Plot the training points
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1,
            edgecolor='k')
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())

# To getter a better understanding of interaction of the dimensions
# plot the first three PCA dimensions
fig = plt.figure(1, figsize=(8, 6))
ax = Axes3D(fig, elev=-150, azim=110)
X_reduced = PCA(n_components=3).fit_transform(iris.data)
ax.scatter(X_reduced[:, 0], X_reduced[:, 1], X_reduced[:, 2], c=y,
           cmap=plt.cm.Set1, edgecolor='k', s=40)
ax.set_title("First three PCA directions")
ax.set_xlabel("1st eigenvector")
ax.w_xaxis.set_ticklabels([])
ax.set_ylabel("2nd eigenvector")
ax.w_yaxis.set_ticklabels([])
ax.set_zlabel("3rd eigenvector")
ax.w_zaxis.set_ticklabels([])

plt.show()
```