# Python で気軽に化学・化学工学
# 第 6 章  6.2 t-distributed Stochastic Neighbor Embedding (t-SNE)

## Jupyter Notebook の有用なショートカットのまとめ
- <kbd>Esc</kbd>: コマンドモードに移行（セルの枠が青）
- <kbd>Enter</kbd>: 編集モードに移行（セルの枠が緑）
- コマンドモードで <kbd>M</kbd>: Markdown セル (説明・メモを書く用) に変更
- コマンドモードで <kbd>Y</kbd>: Code セル (Python コードを書く用) に変更
- コマンドモードで <kbd>H</kbd>: ヘルプを表示
- コマンドモードで <kbd>A</kbd>: ひとつ**上**に空のセルを挿入
- コマンドモードで <kbd>B</kbd>: ひとつ**下**に空のセルを挿入
- コマンドモードで <kbd>D</kbd><kbd>D</kbd>: セルを削除
- <kbd>Ctrl</kbd>+<kbd>Enter</kbd>: セルの内容を実行
- <kbd>Shift</kbd>+<kbd>Enter</kbd>: セルの内容を実行して下へ

わからないことがありましたら、関係する単語やエラーの文章などでウェブ検索してご自身で調べてみましょう。

### あやめのデータセット (iris_with_species.csv)
有名な [Fisher’s Iris Data](https://en.wikipedia.org/wiki/Iris_flower_data_set)。150個のあやめについて、がく片長(Sepal Length)、がく片幅(Sepal Width)、花びら長(Petal Length)、花びら幅(Petal Width)が計測されています。

In [None]:
import pandas as pd # pandas のインポート

In [None]:
dataset = pd.read_csv('iris_with_species.csv', index_col=0, header=0) # あやめのデータセットの読み込み

In [None]:
x = dataset.iloc[:, 1:] # 数値データの特徴量のみを x に (あやめのデータでは 0 列目が Species でカテゴリーの特徴量であるため、それ以外の特徴量を取り出しています)

特徴量の標準化

In [None]:
autoscaled_x = (x - x.mean()) / x.std() # 平均を引いてから、標準偏差で割ります。x は DataFrame 型、x.mean(), x.std() は Series 型でデータ型は異なりますが、特徴量の名前が同じであるため、x のすべてのサンプルに対して x.mean() を引き、x.std() で割る計算になります。

## t-SNE の実行

In [None]:
from sklearn.manifold import TSNE # scikit-learn の中の t-SNE を実行するためのライブラリを取り込みます

In [None]:
perplexity = 30  # 5 から 50 までの値にするが一般的です

In [None]:
tsne = TSNE(perplexity=perplexity, n_components=2, init='pca', random_state=10) # t-SNE を行ったり t-SNE の結果を格納したりするための変数を、tsne として宣言します

In [None]:
tsne.fit(autoscaled_x) # 特徴量の標準化後のデータを用いて、t-SNE を実行

In [None]:
tsne.embedding_ # 主成分スコア T 。array 型で得られます

In [None]:
score = pd.DataFrame(tsne.embedding_) # データ型を、使い慣れた pandas の DataFrame 型に変換

In [None]:
score # 念のため確認

In [None]:
score.index = x.index # スコアのサンプル名を、元のデータセットのサンプル名に

In [None]:
score.columns = ['t1', 't2'] # スコアの列の名前を、t1, t2, ... に

In [None]:
score # 念のため確認

In [None]:
score.to_csv('score_tsne.csv') # スコアを csv ファイルに保存

score_tsne.csv を Excel 等で開いて中身を確認しましょう。

データセットの可視化

In [None]:
import matplotlib.pyplot as plt # 描画のためインポート

In [None]:
plt.rcParams['font.size'] = 18 # 横軸や縦軸の名前の文字などのフォントのサイズ
plt.scatter(score.iloc[:, 0], score.iloc[:, 1]) # 散布図の作成
plt.xlabel(score.columns[0]) # 横軸の名前。ここでは、component_number_1 番目の列の名前にしています
plt.ylabel(score.columns[1]) # 縦軸の名前。ここでは、component_number_2 番目の列の名前にしています
plt.show() # 以上の設定において、グラフを描画します

`perplexity` の値をいくつか変えて実行して、それぞれの可視化の結果を確認してみましょう

### 【参考】
下のようにすれば、第 4 章や第 6 章 6.1 節の散布図のときと同様にして、あやめの種類ごとにサンプルの色を変えて描画できます。

In [None]:
iris_types = dataset.iloc[:, 0] # あやめの種類

In [None]:
plt.rcParams['font.size'] = 18 # 横軸や縦軸の名前の文字などのフォントのサイズ
plt.scatter(score.iloc[:, 0], score.iloc[:, 1], c=pd.factorize(iris_types)[0], cmap=plt.get_cmap('jet')) # 散布図の作成。あやめの種類ごとにプロットの色を変えています
plt.xlabel(score.columns[0]) # 横軸の名前。ここでは、component_number_1 番目の列の名前にしています
plt.ylabel(score.columns[1]) # 縦軸の名前。ここでは、component_number_2 番目の列の名前にしています
plt.show() # 以上の設定において、グラフを描画します

あやめの種類ごとに、サンプルが固まって分布していることを確認できます

自分のデータセットをお持ちの方は、そのデータセットでも今回の内容を確認してみましょう。

### 練習問題

データセット `descriptors_8_with_boiling_point.csv` を読み込み、特徴量の標準化をしてから、t-SNE をして、主成分の散布図を確認しましょう。一番下にコードの例があります。

### 沸点のデータセット (descriptors_8_with_boiling_point.csv)
Hall and Story が収集した[沸点のデータセット](https://pubs.acs.org/doi/abs/10.1021/ci960375x)。294 個の化合物について、沸点 (Boiling Point) が測定されており、8 つの特徴量 (記述子) で化学構造が数値化されています。記述子は、分子量 (MolWt)、水素原子以外の原子で計算された分子量 (HeavyAtomMolWt)、価電子の数 (NumValenceElectrons)、水素原子以外の原子の数 (HeavyAtomCount)、窒素原子と酸素原子の数 (NOCount)、水素原子と炭素原子以外の原子の数 (NumHeteroatoms)、回転可能な結合の数 (NumRotatableBonds)、環の数 (RingCount) です。

### 練習問題 コードの例

In [None]:
import pandas as pd # pandas のインポート

In [None]:
dataset = pd.read_csv('descriptors_8_with_boiling_point.csv', index_col=0, header=0) # 沸点のデータセットの読み込み

In [None]:
x = dataset.iloc[:, 1:] # 分子構造の特徴量のみを x に

特徴量の標準化

In [None]:
autoscaled_x = (x - x.mean()) / x.std() # 平均を引いてから、標準偏差で割ります。x は DataFrame 型、x.mean(), x.std() は Series 型でデータ型は異なりますが、特徴量の名前が同じであるため、x のすべてのサンプルに対して x.mean() を引き、x.std() で割る計算になります。

t-SNE

In [None]:
from sklearn.manifold import TSNE # scikit-learn の中の t-SNE を実行するためのライブラリを取り込みます

In [None]:
perplexity = 30  # 5 から 50 までの値にするが一般的です

In [None]:
tsne = TSNE(perplexity=perplexity, n_components=2, init='pca', random_state=10) # t-SNE を行ったり t-SNE の結果を格納したりするための変数を、tsne として宣言します

In [None]:
tsne.fit(autoscaled_x) # 特徴量の標準化後のデータを用いて、t-SNE を実行

In [None]:
score = pd.DataFrame(tsne.embedding_) # データ型を、使い慣れた pandas の DataFrame 型に変換

In [None]:
score.index = x.index # スコアのサンプル名を、元のデータセットのサンプル名に

In [None]:
score.columns = ['t1', 't2'] # スコアの列の名前を、t1, t2, ... に

In [None]:
score # 念のため確認

In [None]:
score.to_csv('score_tsne_bp.csv') # スコアを csv ファイルに保存

データセットの可視化

In [None]:
import matplotlib.pyplot as plt # 描画のためインポート

In [None]:
plt.rcParams['font.size'] = 18 # 横軸や縦軸の名前の文字などのフォントのサイズ
plt.scatter(score.iloc[:, 0], score.iloc[:, 1]) # 散布図の作成
plt.xlabel(score.columns[0]) # 横軸の名前。ここでは、component_number_1 番目の列の名前にしています
plt.ylabel(score.columns[1]) # 縦軸の名前。ここでは、component_number_2 番目の列の名前にしています
plt.show() # 以上の設定において、グラフを描画します

In [None]:
boiling_point = dataset.iloc[:, 0] # 沸点

In [None]:
boiling_point # 念のため確認

In [None]:
plt.rcParams['font.size'] = 18 # 横軸や縦軸の名前の文字などのフォントのサイズ
plt.scatter(score.iloc[:, 0], score.iloc[:, 1], c=boiling_point, cmap=plt.get_cmap('jet')) # 散布図の作成。あやめの種類ごとにプロットの色を変えています
plt.xlabel(score.columns[0]) # 横軸の名前。ここでは、component_number_1 番目の列の名前にしています
plt.ylabel(score.columns[1]) # 縦軸の名前。ここでは、component_number_2 番目の列の名前にしています
plt.colorbar() # カラーバーを表示します
plt.show() # 以上の設定において、グラフを描画します

沸点の値の近い化合物が、プロット上でも近くに分布している傾向があることが確認できます