# 特徴量エンジニアリング概要

## 本プロジェクトの目的

機械学習のパフォーマンス改善に向けて重要な特徴量エンジニアリングの手法を，実装例を交えて紹介する．  
主に特徴量エンジニアリングについて述べるが，一部特徴量選択についても触れる．

## 特徴量エンジニアリングとは

機械学習における特徴量とは，分析対象を測定することが可能な変数を指す．データセットでは特徴量は列として表記されることが多い．

データセットに含める特徴量の質が，機械学習モデルの精度に影響し，ひいては機械学習を活用する場合に得るインサイトの質に大きく影響する．

データセットの質を改善する為に，特徴量選択や特徴量エンジニアリングが実施される．  
特徴量選択は分析対象に関連する特徴量に重点を置き，無関係な特徴量を取り除くプロセスを指す．特徴量エンジニアリングは，既存の特徴量をもとに新たな特徴量を構築してデータセットに追加することを指す．

## 特徴量選択と特徴量エンジニアリングの具体例

特徴エンジニアリングの手法の詳細は他のNotebookに記載するが，本節では特徴量選択と特徴量エンジニアリングの違いを説明する為の具体例を示す．

データセットは[Human Activity Recognition Using Smartphones Data Set](https://archive.ics.uci.edu/ml/datasets/human+activity+recognition+using+smartphones)を使用し，論文[Human Activity Analysis and Recognition from
Smartphones using Machine Learning Techniques](https://arxiv.org/abs/2103.16490)の実験結果のうち，最も精度の高いSVM(Support Vector Machine)と最も精度の低いDT(Decision Tree)の2モデルに対して試行する．

パラメータは論文のベストパラメータを設定する．

|Models|Parameters|
|:--|:--|
|DT|Criterion: Gini, Max Depth: 4|
|SVM|C: 1.0, Kernel: Linear|

### 実装例

In [1]:
# --- ローカルモジュールの更新を自動で読み込む ---
%load_ext autoreload
%autoreload 2

In [2]:
import os
import numpy as np
import pandas as pd
from sklearn import tree
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from lib.dataloader.uci_har import load_uci_har

#### データセットダウンロード

In [3]:
!mkdir -p "uci_har_datasets"

if (not os.path.exists(os.path.join("uci_har_datasets", "UCI HAR Dataset.zip"))):
    !cd uci_har_datasets ; \
        wget "https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.zip" ; \
        unzip -q "UCI HAR Dataset.zip" ; \
        ls
else:
    print('[INFO] Dataset uci_har_datasets is already exist')

--2021-09-02 12:06:40--  https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.zip
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 60999314 (58M) [application/x-httpd-php]
Saving to: ‘UCI HAR Dataset.zip’


2021-09-02 12:06:46 (9.86 MB/s) - ‘UCI HAR Dataset.zip’ saved [60999314/60999314]

 __MACOSX  'UCI HAR Dataset'  'UCI HAR Dataset.zip'


In [4]:
dataset_dir = os.path.join('uci_har_datasets', 'UCI HAR Dataset')
x_train, y_train, x_test, y_test = load_uci_har(dataset_dir)

print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)

(7352, 561)
(7352, 1)
(2947, 561)
(2947, 1)


In [None]:
params = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [2, 4, 6, 8]
}
dt_clf = GridSearchCV(tree.DecisionTreeClassifier(), params)
dt_clf.fit(x_train, y_train)

print('[INFO] Best params: {}'.format(dt_clf.best_params_))
print('[INFO] Best score: {}'.format(dt_clf.best_score_))

In [None]:
prediction = dt_clf.predict(x_test)
print(prediction.shape)

In [None]:
print(classification_report(y_test, prediction))

## Reference

* [特徴量変数](https://www.datarobot.com/jp/wiki/feature/)
* [特徴量の選択](https://www.datarobot.com/jp/wiki/feature-selection/)
* [特徴量エンジニアリング](https://www.datarobot.com/jp/wiki/feature-engineering/)
* [データインサイト](https://www.datarobot.com/jp/wiki/insights/)
* [Awesome Public Datasets](https://github.com/awesomedata/awesome-public-datasets)
* [Feature-Engineeringのリンク集めてみた](https://qiita.com/squash/items/667f8cda16c76448b0f4)
* [DataFrameで特徴量作るのめんどくさ過ぎる。。featuretoolsを使って自動生成したろ](https://qiita.com/Hyperion13fleet/items/4eaca365f28049fe11c7)
* [時系列データから自動で特徴抽出するライブラリ tsfresh](https://qiita.com/yuko1658/items/871df86f99a9134cc9ef)
* [特徴量選択のまとめ](https://qiita.com/shimopino/items/5fee7504c7acf044a521)
* [機械学習で特徴量を正しく選択する方法](https://rightcode.co.jp/blog/information-technology/feature-selection-right-choice)
* [特徴選択とは？機械学習の予測精度を改善させる必殺技「特徴選択」を理解しよう](https://www.codexa.net/feature-selection-methods/)
* [Human Activity Recognition Using Smartphones Data Set](https://archive.ics.uci.edu/ml/datasets/human+activity+recognition+using+smartphones)
* [Human Activity Recognition using Smartphone](https://arxiv.org/abs/1401.8212)
* [Human Activity Analysis and Recognition from
Smartphones using Machine Learning Techniques](https://arxiv.org/abs/2103.16490)
* [Human Activity Recognition using Machine Learning](https://github.com/sushantdhumak/Human-Activity-Recognition-with-Smartphones)