In [1]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot

### 01. CSV 資料格式

CSV (Comma Seperated Values) 資料檔是一個純文字的檔案, 就是用逗號區分!

比方說我們有個台灣 2020 年 7-9 月汽車銷量統計的表格:

車型 | 7月 | 8月 | 9月
:-----|----|-----|------
Mazda3 | 319 | 189 | 488
Corolla Sport | 303 | 338 | 239

相對的 CSV 檔, 就是一個純文字 `.csv` 的檔案, 內容是這樣:

    車型,7月,8月,9月
    Mazda3,319,189,488
    Corolla Sport,303,338,239
    
注意其實 CSV 檔「不需要」以逗號隔開, 換成其他符號, 如 `*` 等都是可以的。

### 02. 用 `pandas` 讀入一個 CSV 檔

在 data 資料夾中, 我們有個叫 `diabets_data_upload.csv` 的數據庫。這是在出名有很多數據庫的 [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml) 中的[這份資料](https://archive.ics.uci.edu/ml/datasets/Early+stage+diabetes+risk+prediction+dataset)。

如果用 Colab 或沒有下載完整資料夾, 我們也提供連結到 GitHub 這個檔案的縮址。

    https://bit.ly/diabetes_example

In [2]:
df = pd.read_csv('data/diabetes_data_upload.csv')

`pandas` 的 DataFrame (常用 `df` 命名), 可以想成就是一個 Excel 的表單。我們可以用 `.head` 來看內容。

In [3]:
df.head()

Unnamed: 0,Age,Gender,Polyuria,Polydipsia,sudden weight loss,weakness,Polyphagia,Genital thrush,visual blurring,Itching,Irritability,delayed healing,partial paresis,muscle stiffness,Alopecia,Obesity,class
0,40,Male,No,Yes,No,Yes,No,No,No,Yes,No,Yes,No,Yes,Yes,Yes,Positive
1,58,Male,No,No,No,Yes,No,No,Yes,No,No,No,Yes,No,Yes,No,Positive
2,41,Male,Yes,No,No,Yes,Yes,No,No,Yes,No,Yes,No,Yes,Yes,No,Positive
3,45,Male,No,No,Yes,Yes,Yes,Yes,No,Yes,No,Yes,No,No,No,No,Positive
4,60,Male,Yes,Yes,Yes,Yes,Yes,No,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Positive


是不是自動就排得很漂亮呢? 

### 03. 整理我們的數據

現實中的數據集, 就算像這個例子整理這麼好的, 要送入任何機器學習使用, 都要做一些調整的工作。

像這個例子我們要把 `Yes`, `No`, 還有 `Male`, `Female`, `Positive`, `Negative` 等等變成 0 或 1。

標準的作法就是做一個「轉換函數」。首先, 我們把所有要調整的方式寫成一個字典。

In [4]:
egg = {"Female":1, "Male":0, "Yes":1, "No":0, 
       "Positive":1, "Negative":0}

轉換函數我們順變來學學 Python 「應急」函數寫法, 只要清楚的說輸入什麼, 輸出什麼就好! 比如說我們的例子:

輸入: x (可能是 'Female', 'Male', 'Yes'... 等等)
輸出: egg[x] (0 或是 1)

神奇魔法是 `lambda`!

In [5]:
spam = lambda x: egg[x]

我們試用看看!

In [6]:
spam('No')

0

接著把會有要改變的地方都找出來。最常用的是 `.loc`, 索引方面和其他 Python (或是數學) 一樣, 前面指定 row 的範圍, 後面是 column 的範圍。

In [7]:
df.loc[:,'Gender':]

Unnamed: 0,Gender,Polyuria,Polydipsia,sudden weight loss,weakness,Polyphagia,Genital thrush,visual blurring,Itching,Irritability,delayed healing,partial paresis,muscle stiffness,Alopecia,Obesity,class
0,Male,No,Yes,No,Yes,No,No,No,Yes,No,Yes,No,Yes,Yes,Yes,Positive
1,Male,No,No,No,Yes,No,No,Yes,No,No,No,Yes,No,Yes,No,Positive
2,Male,Yes,No,No,Yes,Yes,No,No,Yes,No,Yes,No,Yes,Yes,No,Positive
3,Male,No,No,Yes,Yes,Yes,Yes,No,Yes,No,Yes,No,No,No,No,Positive
4,Male,Yes,Yes,Yes,Yes,Yes,No,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Positive
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
515,Female,Yes,Yes,Yes,No,Yes,No,No,Yes,No,Yes,Yes,No,No,No,Positive
516,Female,Yes,Yes,Yes,Yes,Yes,No,No,Yes,Yes,Yes,Yes,No,No,No,Positive
517,Female,Yes,Yes,Yes,Yes,Yes,No,Yes,No,No,No,Yes,Yes,No,Yes,Positive
518,Female,No,No,No,Yes,No,No,Yes,Yes,No,Yes,No,No,Yes,No,Negative


接著就可以用 `applymap` 把我們剛剛打造的 `spam` 函數用上去!

In [8]:
df.loc[:,'Gender':].applymap(spam)

Unnamed: 0,Gender,Polyuria,Polydipsia,sudden weight loss,weakness,Polyphagia,Genital thrush,visual blurring,Itching,Irritability,delayed healing,partial paresis,muscle stiffness,Alopecia,Obesity,class
0,0,0,1,0,1,0,0,0,1,0,1,0,1,1,1,1
1,0,0,0,0,1,0,0,1,0,0,0,1,0,1,0,1
2,0,1,0,0,1,1,0,0,1,0,1,0,1,1,0,1
3,0,0,0,1,1,1,1,0,1,0,1,0,0,0,0,1
4,0,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
515,1,1,1,1,0,1,0,0,1,0,1,1,0,0,0,1
516,1,1,1,1,1,1,0,0,1,1,1,1,0,0,0,1
517,1,1,1,1,1,1,0,1,0,0,0,1,1,0,1,1
518,1,0,0,0,1,0,0,1,1,0,1,0,0,1,0,0


確定都正確, 就可以真的改過來。

In [9]:
df.loc[:,'Gender':] = df.loc[:,'Gender':].applymap(spam)

檢查一下, 看看是不是真的成功了。

In [10]:
df.head()

Unnamed: 0,Age,Gender,Polyuria,Polydipsia,sudden weight loss,weakness,Polyphagia,Genital thrush,visual blurring,Itching,Irritability,delayed healing,partial paresis,muscle stiffness,Alopecia,Obesity,class
0,40,0,0,1,0,1,0,0,0,1,0,1,0,1,1,1,1
1,58,0,0,0,0,1,0,0,1,0,0,0,1,0,1,0,1
2,41,0,1,0,0,1,1,0,0,1,0,1,0,1,1,0,1
3,45,0,0,0,1,1,1,1,0,1,0,1,0,0,0,0,1
4,60,0,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1


### 04. 準備好輸入、輸出

我們這份糖尿病的資料, 就是準備把前面許多病人的資料當輸入, 輸出就是有 (1) 或沒有 (0) 糖尿病。也就是前面一路到 'Obesity' 都是輸入的部份, 最後 'class' 是輸出。

In [13]:
x = df.loc[:,:'Obesity'].values

後面只有 'class' 比較簡單。

In [14]:
y = df['class'].values

我們來看看某筆資料的輸入, 是否看來是沒有問題的!

In [15]:
x[87]

array([28,  1,  0,  0,  0,  0,  0,  0,  1,  0,  0,  0,  1,  1,  0,  0])

In [16]:
y[87]

1

至此, 我們真的可以準備做機器學習了!

### 05. 切分訓練和測試資料

我們要把一部份的數據當訓練資料, 一部份當測試資料。有些數據資料前 80% 當訓練, 後 20% 當測試是合理的。不過有些大多數的情況之下, 是隨機抽 80% 當訓練可能比較合適。

這時我們可以用 Python 機器學習套件一哥 scikit-learn 中的

    train_test_split
    
來做! (仔細看這個指令還挺白話文的)

In [17]:
from sklearn.model_selection import train_test_split

最要注意的大概是切好輸入、輸出的訓練、測試資料接的順序。

In [18]:
x_train, x_test, y_train, y_test = train_test_split(x, y,
                                                   test_size=0.2,
                                                   random_state=87)

`test_size` 是指測試資料集佔的比重。比較有疑問的大概是 `random_state`, 這個意思是隨機用到的亂數指定產什亂數的「種子」。目的是每次執行, 取的那 80% 數據是一樣的數據。

我們來檢查是不是 `x_train`, `y_train` 大小一致。

In [20]:
len(x_train) == len(y_train)

True

好了! 我們資料都準備好, 可以架 model, 送進去訓練了!