# Python で気軽に化学・化学工学
# 第 5 章 5.2 ばらつきの小さい特徴量の削除

## Jupyter Notebook の有用なショートカットのまとめ
- <kbd>Esc</kbd>: コマンドモードに移行（セルの枠が青）
- <kbd>Enter</kbd>: 編集モードに移行（セルの枠が緑）
- コマンドモードで <kbd>M</kbd>: Markdown セル (説明・メモを書く用) に変更
- コマンドモードで <kbd>Y</kbd>: Code セル (Python コードを書く用) に変更
- コマンドモードで <kbd>H</kbd>: ヘルプを表示
- コマンドモードで <kbd>A</kbd>: ひとつ**上**に空のセルを挿入
- コマンドモードで <kbd>B</kbd>: ひとつ**下**に空のセルを挿入
- コマンドモードで <kbd>D</kbd><kbd>D</kbd>: セルを削除
- <kbd>Ctrl</kbd>+<kbd>Enter</kbd>: セルの内容を実行
- <kbd>Shift</kbd>+<kbd>Enter</kbd>: セルの内容を実行して下へ

わからないことがありましたら、関係する単語やエラーの文章などでウェブ検索してご自身で調べてみましょう。

### 沸点のデータセット (descriptors_all_with_boiling_point.csv)
Hall and Story が収集した[沸点のデータセット](https://pubs.acs.org/doi/abs/10.1021/ci960375x)。294 個の化合物について、沸点 (Boiling Point) が測定されており、200 の分子記述子 (特徴量) で化学構造が数値化されています。

In [None]:
import pandas as pd # pandas のインポート

In [None]:
dataset = pd.read_csv('descriptors_all_with_boiling_point.csv', index_col=0, header=0) # 沸点のデータセットの読み込み

In [None]:
dataset # 念のため確認

In [None]:
x = dataset.iloc[:, 1:] # 沸点以外の、分子構造の特徴量のみを x とします

In [None]:
x # 念のため確認

In [None]:
x.std() # 標準偏差の確認

標準偏差が 0 の特徴量があることが分かります

## ばらつきの小さい特徴量の削除

In [None]:
x.iloc[:, 5].value_counts()

In [None]:
x.iloc[:, 150].value_counts()

In [None]:
x.iloc[:, 70].value_counts()

In [None]:
x.iloc[:, 70].value_counts()[0]

In [None]:
x.iloc[:, 70].value_counts()[0] / x.shape[0]

In [None]:
threshold_of_rate_of_same_values = 0.8 # 同じ値をもつサンプルの割合の閾値

In [None]:
deleting_variable_numbers_in_same_values = [] # 空の list の変数を準備しておき、ここに同じ値をもつサンプルの割合が閾値以上となる特徴量の番号を入れていきます

In [None]:
for x_number in range(x.shape[1]):
    same_value_numbers = x.iloc[:, x_number].value_counts()
    if same_value_numbers.iloc[0] / x.shape[0] >= threshold_of_rate_of_same_values:
        deleting_variable_numbers_in_same_values.append(x_number)

In [None]:
deleting_variable_numbers_in_same_values # 念のため確認

In [None]:
len(deleting_variable_numbers_in_same_values) # 削除される特徴量の数

In [None]:
deleting_variable_numbers_in_same_values_df = pd.DataFrame(deleting_variable_numbers_in_same_values) # DataFrame 型に変換

In [None]:
x.columns[deleting_variable_numbers_in_same_values]

In [None]:
deleting_variable_numbers_in_same_values_df.index = x.columns[deleting_variable_numbers_in_same_values]  # 列の名前を特徴量の名前に

In [None]:
deleting_variable_numbers_in_same_values_df.columns = ['deleting variable numbers']

In [None]:
deleting_variable_numbers_in_same_values_df # 念のため確認

In [None]:
deleting_variable_numbers_in_same_values_df.to_csv('deleting_variable_numbers_in_same_values.csv')

In [None]:
deleting_variable_numbers_in_same_values_df.index

In [None]:
x.drop(deleting_variable_numbers_in_same_values_df.index, axis=1) # 特徴量の削除

In [None]:
x_new = x.drop(deleting_variable_numbers_in_same_values_df.index, axis=1) # 特徴量を削除したものを x_new にする

In [None]:
x_new # 念のため確認

In [None]:
x_new.std() # 特徴量の標準偏差の確認

標準偏差が 0 の特徴量がありませんので、例えば以下のように特徴量の標準化ができます

In [None]:
autoscaled_x = (x_new - x_new.mean()) / x_new.std() # 平均を引いてから、標準偏差で割ります。x は DataFrame 型、x.mean(), x.std() は Series 型でデータ型は異なりますが、特徴量の名前が同じであるため、x のすべてのサンプルに対して x.mean() を引き、x.std() で割る計算になります。

In [None]:
autoscaled_x # 念のため確認

### 練習問題

データセット `descriptors_all_with_logs.csv` を読み込み、95 % 以上のサンプルで同じ値をもつ特徴量を削除してから、特徴量の標準化をしましょう。一番下にコードの例があります。

### 水溶解度のデータセット (descriptors_all_with_logs.csv)
T. J.	Hou et al. が収集した[水溶解度のデータセット](https://pubs.acs.org/doi/abs/10.1021/ci034184n)。1290 個の化合物について、水溶解度が測定されており、200 の分子記述子 (特徴量) で化学構造が数値化されています。目的変数である logS とは、水への溶解度を S [mol/L] としたときの log(S) のことです。

### 練習問題 コードの例

In [None]:
import pandas as pd # pandas のインポート

In [None]:
dataset = pd.read_csv('descriptors_all_with_logs.csv', index_col=0, header=0) # 沸点のデータセットの読み込み

In [None]:
dataset # 念のため確認

In [None]:
x = dataset.iloc[:, 1:] # logS 以外の、分子構造の特徴量のみを x とします

In [None]:
x # 念のため確認

In [None]:
x.std() # 標準偏差の確認

In [None]:
threshold_of_rate_of_same_values = 0.95 # 同じ値をもつサンプルの割合の閾値

In [None]:
deleting_variable_numbers_in_same_values = [] # 空の list の変数を準備しておき、ここに同じ値をもつサンプルの割合が閾値以上となる特徴量の番号を入れていきます

In [None]:
for x_number in range(x.shape[1]):
    same_value_numbers = x.iloc[:, x_number].value_counts()
    if same_value_numbers.iloc[0] / x.shape[0] >= threshold_of_rate_of_same_values:
        deleting_variable_numbers_in_same_values.append(x_number)

In [None]:
deleting_variable_numbers_in_same_values # 念のため確認

In [None]:
len(deleting_variable_numbers_in_same_values) # 削除される特徴量の数

In [None]:
deleting_variable_numbers_in_same_values_df = pd.DataFrame(deleting_variable_numbers_in_same_values) # DataFrame 型に変換

In [None]:
x.columns[deleting_variable_numbers_in_same_values]

In [None]:
deleting_variable_numbers_in_same_values_df.index = x.columns[deleting_variable_numbers_in_same_values]  # 列の名前を特徴量の名前に

In [None]:
deleting_variable_numbers_in_same_values_df.columns = ['deleting variable numbers']

In [None]:
deleting_variable_numbers_in_same_values_df # 念のため確認

In [None]:
deleting_variable_numbers_in_same_values_df.to_csv('deleting_variable_numbers_in_same_values_logs.csv')

In [None]:
x_new = x.drop(deleting_variable_numbers_in_same_values_df.index, axis=1) # 特徴量を削除したものを x_new にする

In [None]:
x_new # 念のため確認

In [None]:
x_new.std() # 特徴量の標準偏差の確認

In [None]:
autoscaled_x = (x_new - x_new.mean()) / x_new.std() # 平均を引いてから、標準偏差で割ります。x は DataFrame 型、x.mean(), x.std() は Series 型でデータ型は異なりますが、特徴量の名前が同じであるため、x のすべてのサンプルに対して x.mean() を引き、x.std() で割る計算になります。

In [None]:
autoscaled_x # 念のため確認