# 機械学習入門　まとめ


### AIと機械学習  
・AIとは人間のような判断力を持ち合わせたコンピューターシステム  
・機械学習とは、コンピューターが人間のような高度な判断をするために、データ間で潜んだ法則を見つける手法

### 機械学習の種類
・教師あり学習：大量の入力データ（特徴量）と正解データのペアを与える事で、入力データから正解データを予測するための法則を見つける手法  
回帰：数値を予測すること
分類：いくつかの選択肢の1つとして解釈できるデータを予測すること  

・教師なし学習：大量の入力データから、入力データ自体の特徴量を見つける手法
クラスタリング：似ているデータをグリーピング
次元削減：データの特徴を調べて、多数の列項目を少数の列項目にまとめる手法

・モデルとは機械学習で利用するデータを与える数式。機械学習を通して法則を導く

### 基本統計量
・中央値：データを小さい順に並べた時の真ん中の順位の値
・分散値：データのばらつきを示す値。値が大きいほどバラついている
・標準偏差：分散値の平方根。平均値とのプラスマイナスの差分
・相関係数：1または-1に近づくほど相関関係となる

## 機械学習によるデータの分析の一連の流れ
・目的の確認　→　データの収集　→　データの前処理　→　モデルの選択　→　機械学習の実施　→　モデルの評価  
### 目的の確認
・機械学習の力でどういった問題を解決したいのか、目的の明確化
・機械学習以外の解決方法も十分に検討する

### データの収集と前処理
・目的と手段から必要なデータも明確になる、自社所有データ、外部データの必要性
・データを適切な形式に整える、データの前処理

### Pandasの概要
・1次元のデータ集合を扱う、Seriesというデータ型がある

### Scikit-learnの概要
・機械学習の分析モデルを提供しているライブラリ fit=学習 predict=予測

### 予測性能の評価
・モデル学習を行い、予測結果と実際の答えが一致しているか比較する
・正解率score＝分類の予測性能の指標 　SCORE=正解件数÷全データの件数

## データの前処理
### ホールドアウト法
・訓練データ、検証データ、テストデータに分割する　訓練＝学習に利用　検証、テスト＝正解率など予測性能を検証するために利用するデータ  
・データの標準化で元のデータがどのような分布でも平均値0，標準偏差1の分布に統一できる  
・もとの列を累乗した値の列を追加して回帰分析を行うことを**多項式回帰**と呼ぶ  
・2つの列の値を掛け算して作る列を**交互作用特徴量**と呼ぶ  
・特徴量と正解データの相関係数を調べ、係数の絶対値が大きい特徴量を選択するほうがよい dataframe.corr()['y']  
・訓練データと検証データでモデルのチューニング、最終2つを全体の訓練データとして、テストデータを用いてモデルの性能を検証する
・正解データを標準化している場合は、標準化前に逆変換する必要がある  


### 欠損値の前処理
・学習に影響しないような処理、平均値、中央値、文字列では最頻値を使用、学習による予測値でも可能  
・特徴量と正解データの散布図により視覚的にとらえる。回帰分析では大きくかけ離れて孤立した外れ値はモデルの制度を下げる可能性あり  
・平均値や中央値が不適切な場合、クロス集計などの小グループごとでの値を用いる事も検討したい  
・文字列データは数値で管理できるダミー変数化を行う  
・不均衡（偏り）データの場合、モデル作成時にclass_weightパラメーターを指定。

## 機械学習の全体像
・ランダムな処理を行う際には、必ず「乱数シード」の固定を行い処理の再現性を確保する


### 決定木分析の概要
・予測するためのフローチャートを作成。他手法に比べ視覚的にわかりやすい  
・分岐条件の決定には、様々な分岐条件の不純度を調べて不純度が最も小さいくなる分岐条件が採択される  
・木を深くすることで細か分類が可能になり正解率が高くなる可能性があるが、全体像が理解しずらくなったり、学習コストが高くなったりする場合がある  
・決定木の上に位置するほど、分類に強い影響を与える分岐条件といえる  
・特徴量重要度で、特徴量と正解データの関係性を考察することができる  *0-1 値が大きいほど正解データに与える影響が強いmodel.feature_importance_  

### 回帰式の概要  --深堀して学習する必要あり--
・回帰分析のモデルでは、数値の正解データを予測するための回帰式を作成する。単回帰＝（特徴量＝1）重回帰＝（特徴量＞1)  
・回帰式の係数は、予測値と実際の値の誤差が最小となるものが選ばれる
#### 回帰分析モデルの評価
・平均2乗誤差や平均絶対誤差による評価には分析データに対する予備知識が必要となる  
    例:映画の興行収入を予測する場合、予測値と実際の数値との誤差が妥当であるかどうかで判断するといった感じ  
・決定係数は、予備知識を必要とせずに値の大小のみで予測性能を評価することができる *0-1の間の数値　0.8以上は予測性能が高いといわれる  
・回帰式の係数を比較することで、特徴量の正解データへの影響度を分析することができる  model.cof_  


In [None]:
### モデルの評価
・モデルを複雑にしすぎると過学習が発生  
・不必要に特徴量の列数を増やすと過学習が発生
・試行錯誤を行い、モデルの精度を高める事が機械学習の醍醐味  
