# 類神經網路範例

參考資料:  
[Dataset API](https://pytorch.org/docs/stable/data.html#torch.utils.data.Dataset)  
[Datasets & DataLoaders — PyTorch Tutorials 1.13.1+cu117 documentation](https://pytorch.org/tutorials/beginner/basics/data_tutorial.html)  
[力薦 50 個最實用的免費機器學習資料集_InfoQ - MdEditor](https://www.gushiciku.cn/pl/2QD8/zh-tw)  
[Day-21 實際重現神經元是可做到的嗎? Feed-Forward Neural Network Building - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10277989)
* * *
資料集:  
[Kaggle: Your Home for Data Science](https://www.kaggle.com/)  
[Gender Classification Dataset | Kaggle](https://www.kaggle.com/datasets/elakiricoder/gender-classification-dataset) 
* * *
機器學習資源:  
[零基礎自學深度學習 ：（一）神經網路基本架構. 筆者曾於Coursera觀看過臺灣大學資工系林軒田教授授課的「機器學習基石（Ma… | by Evan | Medium](https://evan-hsiao.medium.com/%E5%BE%9Ecoursera%E5%AD%B8%E7%BF%92%E6%B7%B1%E5%BA%A6%E5%AD%B8%E7%BF%92-bd6bad6f5e14)  
[Day-21 實際重現神經元是可做到的嗎? Feed-Forward Neural Network Building - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10277989)  
[[Day 29] Deep learning -- 各種模型(i) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10189072)  
[DAY18：激活函數 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10276865)  
[Day-19 PyTorch 怎麼讀取資料? Dataset and DataLoader - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10277163)  
[【12】新手容易忽略的 logit 與 loss 之間的搭配 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10272449)  
[機器/深度學習: 基礎介紹-損失函數(loss function) | by Tommy Huang | Medium](https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8-%E6%B7%B1%E5%BA%A6%E5%AD%B8%E7%BF%92-%E5%9F%BA%E7%A4%8E%E4%BB%8B%E7%B4%B9-%E6%90%8D%E5%A4%B1%E5%87%BD%E6%95%B8-loss-function-2dcac5ebb6cb)  
[【Day 20】 Google ML - Lesson 6 - 使用損失函數(Loss Functions)來評估ML模型的好壞吧!  MSE, RMSE, Cross Entropy的計算方法與特性 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10218158)  
[Day 14 Optimizer大亂鬥 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10236554)  
[[機器學習ML NOTE]SGD, Momentum, AdaGrad, Adam Optimizer | by GGWithRabitLIFE | 雞雞與兔兔的工程世界 | Medium](https://medium.com/%E9%9B%9E%E9%9B%9E%E8%88%87%E5%85%94%E5%85%94%E7%9A%84%E5%B7%A5%E7%A8%8B%E4%B8%96%E7%95%8C/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92ml-note-sgd-momentum-adagrad-adam-optimizer-f20568c968db)  
[7 Types of Classification Algorithms](https://analyticsindiamag.com/7-types-classification-algorithms/)  
[【Day 18】 Google ML - Lesson 4 - 什麼是ML模型?訓練的目標? 回歸模型(Regression model), 分類模型(Classification model)的運算 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10217431)
* * *
Python 小東西:  
[Python基礎功不可少-dir()與help()的使用 @ 布萊恩的創業小窩的部落格 :: 痞客邦 ::](https://kobebrian5778.pixnet.net/blog/post/308583806-python%E5%9F%BA%E7%A4%8E%E5%8A%9F%E4%B8%8D%E5%8F%AF%E5%B0%91-dir%28%29%E8%88%87help%28%29%E7%9A%84%E4%BD%BF%E7%94%A8)  
[Python help() 函數 |  數字海洋](https://www.digitalocean.com/community/tutorials/python-help-function)  
[Python enumerate() 函数 | 菜鸟教程](https://www.runoob.com/python/python-func-enumerate.html)

### 使用 PyTorch 建立自定義 Dataset

1. 需要建立 ```__init__``` 初始化物件
2. 使用 ```__len__``` 設定資料集數量，會影響到 len() 的功能
3. 使用 ```__getitem__``` 輸入索引值搜尋資料，會影響到取得的索引資料

In [1]:
import pandas as pd
from torch.utils.data import Dataset

# 自定義資料集 CSV 資料集
# 此資料集有兩項參數:
# labels: 以 tuple 格式組成的標籤資訊
# dataframe: 以 pandas 的 dataframe 格式組成的項目資訊
class CSV_Dataset(Dataset):
    # 進行初始化
    # start、end 參數為取得該檔案的資料範圍
    def __init__(self, csv_file, start=None, end=None):
        # 將 csv 檔案轉換成 pandas 的 dataframe
        df = pd.read_csv(csv_file)
        print(f"\"{csv_file}\" 加載成功")
        
        # 取得檔案首行的標籤資訊(list 格式)
        self.labels = tuple(df.columns)
        print("\n此檔案有以下標籤:")
        [print(l) for l in self.labels]
        
        # 設定 dataframe 的範圍
        self.dataframe = df.iloc[start:end]
        print(f"\n此資料集數量有 {len(self)} 個資料")
        print(f"前五項資料為:\n{self.dataframe.head(5)}\n")
        pass
    
    def __len__(self):
        """取得資料集數量"""
        return len(self.dataframe)
    
    def __getitem__(self, idx):
        """以索引值(idx)搜尋資料內容"""
        return tuple(self.dataframe.iloc[idx])
    

### 建立資料集物件

In [2]:
csv_file_path = "example datasets/gender_classification_v7-fix.csv" # 檔案位置
cut_position = 3000 # 切分訓練資料集以及測試資料集位置

# 訓練資料集
training_ds = CSV_Dataset(csv_file_path, None, cut_position)

# 測試資料集
test_ds = CSV_Dataset(csv_file_path, cut_position, None)

"example datasets/gender_classification_v7-fix.csv" 加載成功

此檔案有以下標籤:
long_hair
forehead_width_cm
forehead_height_cm
nose_wide
nose_long
lips_thin
distance_nose_to_lip_long
gender

此資料集數量有 3000 個資料
前五項資料為:
   long_hair  forehead_width_cm  forehead_height_cm  nose_wide  nose_long  \
0          1               11.8                 6.1          1          0   
1          0               14.0                 5.4          0          0   
2          0               11.8                 6.3          1          1   
3          0               14.4                 6.1          0          1   
4          1               13.5                 5.9          0          0   

   lips_thin  distance_nose_to_lip_long  gender  
0          1                          1       1  
1          1                          0       0  
2          1                          1       1  
3          1                          1       1  
4          0                          0       0  

"example datasets/gender_classif

## 使用 PyTorch 資料加載工具載入資料

In [3]:
from torch.utils.data import DataLoader

batch_size = 64

# 訓練資料加載器
training_dl = DataLoader(training_ds, batch_size=batch_size, shuffle=False)

# 測試資料加載器
test_dl = DataLoader(test_ds, batch_size=batch_size, shuffle=True)

## 建立自定義類神經網路模型

### 1. 設定模型運行硬體環境

In [4]:
import torch

# 選擇設備運行環境
# 會依序優先選擇 CUDA、MPS 以及 CPU 設備環境
device = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
print(f"Using {device} device")

Using cuda device


### 2. 建立模型架構類別

In [5]:
from torch import nn

# 前饋神經網路
class FeedForwardNeuralNet(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super().__init__()
        # define first layer
        self.l1 = nn.Linear(input_size, hidden_size)
        # activation function
        self.sig = nn.Sigmoid()
        # define second layer
        self.l2 = nn.Linear(hidden_size, num_classes)
        pass
    
    def forward(self, x):
        logits = self.l1(x)
        logits = self.sigmoid(logits)
        logits = self.l2(logits)
        return logits

### 3. 建立模型物件

In [6]:
model = FeedForwardNeuralNet(len(training_dl.dataset.labels)-1, 512, 1).to(device)
model

FeedForwardNeuralNet(
  (l1): Linear(in_features=7, out_features=512, bias=True)
  (sig): Sigmoid()
  (l2): Linear(in_features=512, out_features=1, bias=True)
)

## 優化模型

### 1. 設定損失函數(loss function)以及優化器(optimizer)

In [None]:
loss_fn = None
optimizer = None

### 2. 建立訓練以及驗證模型的流程

In [None]:
def train_model(dataloader, model, loss_fn, optimizer):
    pass