# Pytorch とは

オブジェクト指向型の深層学習ライブラリ。
テンソル計算と自動微分をサポートするフレームワークで、PyTorch ではこれを使って機械学習のモデルやアルゴリズムを構築する。


## データの扱いについて

データの前処理とバッチ処理は、PyTorch でニューラルネットワークモデルを訓練する際の重要なステップである。このプロセスを効率化し、柔軟性を提供するために、PyTorch は torch.utils.data.Dataset と torch.utils.data.DataLoader の 2 つの強力なクラスを提供している。これらを使用することで、大規模なデータセットを扱いやすくし、訓練プロセスを効率的に行うことができる。


### Dataset クラス

特徴量行列（ラベル以外のデータ）X とラベル y を TensorDataset というクラスに渡して、特徴量行列とラベルを一つのデータベース的なものにまとめる事ができる。
PyTorch では、この形式で Data を扱うのが基本となる。


In [14]:
# pytorch
import torch
import torchvision
import torchvision.transforms as transforms
# Utilities
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from typing import List
%matplotlib inline

#### Pandas から TensorDataset へ変換


In [7]:
# Load Iris
import seaborn as sns
iris = sns.load_dataset('iris')
print(type(iris))  # Pandasで読込まれている事の確認
iris.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [8]:
# カテゴリ変数を変換
iris.loc[:, 'species'] = iris.loc[:, 'species'].map({'setosa':0, 'versicolor':1, 'virginica':2})
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


##### Pandas -> Numpy -> Tensor

Pandas データセットは、直接データセットに変更できないので、Pandas を Numpy 配列に変換してから Dataset 型に変換を行う


In [9]:
# Numpy変換の為にvaluesというメソッドを使用

X = torch.FloatTensor(iris.drop("species", axis=1).values)
y = torch.LongTensor(iris["species"].values.astype(np.int64))  # dtypeをint64へ変換してから処理

In [10]:
# Datasetを作成
Dataset = torch.utils.data.TensorDataset(X, y)

In [11]:
# 結果を確認
X_sample, y_sample = Dataset[100]
print(X_sample, y_sample)

tensor([6.3000, 3.3000, 6.0000, 2.5000]) tensor(2)


ここまでが、基本的な Dataset の作成方法となる。
一方でこのような Dataset の扱い方は現場ではほとんどの場合なく、もっと便利な自作（カスタム）Dataset というものを作成する。


#### カスタム Dataset について


#


##### Dataset の設定


自作 Dataset を使用することで、前処理（Transformer）等を細かくカスタマイズすることができる。
作成の際は以下の 3 点を設定する。

1. torch.utils.data.Dataset クラスを継承
2. 特殊メソッド**len**()の設定
3. 特殊メソッド**getitem**()の設定

以下、実際にカスタム Dataset の定義を行う。


[参考](../OOP.ipynb)


In [15]:
class IrisDataset(torch.utils.data.Dataset):
    def __init__(self, df: pd.DataFrame, features: list[str], labels: list[str]):
        self.features = df[features].values
        self.labels = df[labels].values.astype(np.int64)
        
    def __len__(self):
        return len(self.labels)
    
    def __getitem__(self, idx):
        feature = torch.FloatTensor(self.features[idx])
        label = torch.LongTensor(self.labels[idx])
        return feature, label

In [16]:
# インスタンス化
iris_dataset = IrisDataset(iris, ['sepal_length', 'sepal_width', 'petal_length', 'petal_width'], ['species'])

In [17]:
# __len__メソッドの確認
len(iris_dataset)

150

In [19]:
# __getitem__メソッドの確認
iris_dataset[100]

(tensor([6.3000, 3.3000, 6.0000, 2.5000]), tensor([2]))

##### 前処理の追加


任意の処理を施す為の
