# Python で気軽に化学・化学工学
# 第 3 章 データセットの読み込み・確認・変換・保存ができるようになる

## Jupyter Notebook の有用なショートカットのまとめ
- <kbd>Esc</kbd>: コマンドモードに移行（セルの枠が青）
- <kbd>Enter</kbd>: 編集モードに移行（セルの枠が緑）
- コマンドモードで <kbd>M</kbd>: Markdown セル (説明・メモを書く用) に変更
- コマンドモードで <kbd>Y</kbd>: Code セル (Python コードを書く用) に変更
- コマンドモードで <kbd>H</kbd>: ヘルプを表示
- コマンドモードで <kbd>A</kbd>: ひとつ**上**に空のセルを挿入
- コマンドモードで <kbd>B</kbd>: ひとつ**下**に空のセルを挿入
- コマンドモードで <kbd>D</kbd><kbd>D</kbd>: セルを削除
- <kbd>Ctrl</kbd>+<kbd>Enter</kbd>: セルの内容を実行
- <kbd>Shift</kbd>+<kbd>Enter</kbd>: セルの内容を実行して下へ

わからないことがありましたら、関係する単語やエラーの文章などでウェブ検索してご自身で調べてみましょう。

## データセットを読み込む
pandas というモジュールを使用して、csv ファイルに格納されているデータセットを読み込みます。今回のサンプルデータセットである あやめのデータセット以外の csv ファイルでも、データセットの形式を今回の形式と同様にすることで、同じように読み込めます。

### あやめのデータセット (iris_with_species.csv)
有名な Fisher’s Iris Data。150個のあやめについて、がく片長(Sepal Length)、がく片幅(Sepal Width)、花びら長(Petal Length)、花びら幅(Petal Width)が計測されています。
- 元論文: https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1469-1809.1936.tb02137.x
- Wikipedia(英語): https://en.wikipedia.org/wiki/Iris_flower_data_set

### モジュールの使用
- Pythonのメリットの一つは、科学技術計算で使用する計算用ライブラリが豊富なこと
- Pythonには標準でもたくさんモジュールが入っている
- [Python 標準ライブラリ](https://docs.python.jp/3/library/index.html)
- `import` でモジュールを読み込んで使用

### pandas
- 行列計算のためのライブラリ
- 行の名前(サンプルの名前)、列の名前(特徴量の名前)も一緒になった DataFrame 型を扱う
- 主にデータセットの読み込み・操作・確認・保存、基礎統計量の計算のために用いる
- [Tutorials — pandas](https://pandas.pydata.org/pandas-docs/stable/tutorials.html)

In [None]:
import pandas

In [None]:
# あやめのデータセットの読み込み
dataset = pandas.read_csv('iris_with_species.csv', index_col=0, header=0)

上の pandas.read_csv() における index_col=0 は csv ファイルの一番左の列は各行の名前 (サンプルの名前) とすることを、header=0 は一番上の行は各列の名前 (特徴量の名前) とすることをを意味します。

In [None]:
dataset

In [None]:
# 一般的には as pd として省略した名前で import します
import pandas as pd

In [None]:
# あやめのデータセットの読み込み
dataset = pd.read_csv('iris_with_species.csv', index_col=0, header=0)

In [None]:
dataset

In [None]:
type(dataset)

## データセットの中身を確認する

データセット (行列) の縦と横の大きさ

In [None]:
dataset.shape

In [None]:
dataset.shape[0]

In [None]:
dataset.shape[1]

行の名前(サンプルの名前)

In [None]:
dataset.index

列の名前(特徴量の名前)

In [None]:
dataset.columns

サンプルの名前や特徴量の名前において、中身の選択

In [None]:
dataset.index[0] # python での順番は 0 からスタート (0, 1, 2, ...)、[] の中に順番を入れることで、その番号の要素だけ取り出すことができます

In [None]:
dataset.columns[0]

In [None]:
dataset.index[[2, 4]] #リストを使うと好きな複数番号を選べる

In [None]:
dataset.index[[5, 10, 3]]

In [None]:
dataset.index[31:35] # 連続して取り出したいとき (このように書くことで、0番目から数えて 31 番目から 34番目までになることに注意)

In [None]:
dataset.index[-1] # -1 は一番最後 (-2, -3, ... は最後から 2, 3, ... 番目)

In [None]:
dataset.columns[-1]

余裕のある方は、下にセルを追加し、適当な順番のサンプル名や変数名を出力して、csv ファイルのサンプル名や変数名と等しくなることを確認しましょう。

データセットの中身の選択

In [None]:
dataset.iloc[0, 0]

In [None]:
dataset.iloc[2, 3]

In [None]:
dataset.iloc[10, :]

In [None]:
dataset.iloc[:, 1]

In [None]:
dataset.iloc[-1, :]

In [None]:
dataset.iloc[5:10, :]

In [None]:
dataset.iloc[:, 2:]

In [None]:
dataset.iloc[[5, 7], [2, 4]]

カテゴリー変数をダミー変数に変換

In [None]:
dummy_dataset = pd.get_dummies(dataset.iloc[:, 0])

In [None]:
dummy_dataset

## データセットを保存する

In [None]:
dummy_dataset.to_csv('species_dummy.csv')

species_dummy.csv を Excel 等で開いてみましょう

`iris_with_species.csv` のように、縦にサンプルを並べ、横に変数が並ぶように csv ファイルを作成することで、あやめのデータセットと同様に csv ファイルのデータセットを扱うことが可能です。自分のデータセットをお持ちの方は、そのデータセットを読み込んだり中身を確認したりしてみましょう。

#### 【参考】
以下のように関数 pandas.concat を使用すると、DataFrame 型の変数を横につなげることができます。2 つの変数を横につなげるときは、2 つの変数における行の数 (サンプルの数) が同じである必要があります。

In [None]:
combined_dataset = pd.concat([dataset, dummy_dataset], axis=1)

In [None]:
combined_dataset  # 確認

数値データのみ `dataset_values` という変数にします

In [None]:
dataset_values = combined_dataset.iloc[:, 1:]

In [None]:
dataset_values

In [None]:
dataset_values.to_csv('dataset_values.csv')

### 練習問題

データセット `virtual_equipment.csv` (次のセルに説明書きがあります) を読み込み、データの内容を確認したり、`state` の特徴量をダミー変数にしたり、数値データのみを `virtual_equipment_values.csv` という名前の csv ファイルとして保存したりしてみましょう。一番下にコードの例があります。

### 仮想的な装置のデータセット (virtual_equipment.csv)
仮想的な装置において、時刻ごとの 2 つの温度の測定値 (`T1`, `T2`) とそのときの装置の状態 (`state`) が入ったデータセット。`state` の種類としては、normal (正常)、abnormal_1 (異常1)、abnormal_2 (異常2)、abnormal_3 (異常3) があります。

### 練習問題 コードの例

In [None]:
import pandas as pd

In [None]:
dataset = pd.read_csv('virtual_equipment.csv', index_col=0, header=0)

データセットの中身の確認

In [None]:
dataset

In [None]:
dataset.shape

In [None]:
dataset.index

In [None]:
dataset.columns

In [None]:
dataset.iloc[:, 0]

In [None]:
dataset.iloc[:, 1]

In [None]:
dataset.iloc[:, 2]

In [None]:
dataset.iloc[2:14, :]

In [None]:
dataset.iloc[28:39, :]

In [None]:
dataset.iloc[75:88, :]

カテゴリー変数をダミー変数に変換

In [None]:
dummy_dataset = pd.get_dummies(dataset.iloc[:, 2])

In [None]:
dummy_dataset

変数を横につなげる

In [None]:
combined_dataset = pd.concat([dataset, dummy_dataset], axis=1)

In [None]:
combined_dataset  # 確認

数値データのみ `dataset_values` という変数に

In [None]:
dataset_values = pd.concat([dataset.iloc[:, :-1], dummy_dataset], axis=1)

In [None]:
dataset_values

In [None]:
dataset_values.to_csv('virtual_equipment_values.csv')