# 機械学習の基礎知識

- 統計指標
- 可視化
- 機械学習の種類

## AI とは？
### 人のような知能や行動を再現しようとする技術の総称。明確な定義はない

- <u>強いAI</u>
    - *人間を完全に再現するAI*まだ開発はされていない


- <u>弱いAI</u>
    - *人間のパーツごとの機能を再現するAI* 
    

- <u>弱いAI</u>
    - **画像識別**　:　*目*
        - 画像や動画による地理環境認識
        - 物体特定
        - 3Dセンサー
    
    
    - **音声識別**　:　*耳*
        - 音声入力
        - 対話
        - 音声分析 ect
        
    
    - **言語識別**　:　*口（言葉）*
        - チャットロボット
        - 文章解析
        - 翻訳 ect
        
    
    - **予測分析**　:　*脳（予測）*
        - 過去のデータからの自動予測
        - 発見, 検知
        - 行動分析 ect
        
    
    - **生成制御**　:　*手足*
        - ロボット制御
        - 作画, 作詞, 作曲 ect

## 機械学習とは?
### 過去のdataを元に予測や判断を行うモデルを抽出するもの

- <u>データ　->　機械学習　->　モデル　-></u>
    - *予測*
    - *分析*
    - *判断*
    

- <u>いかに本来の目的達成をする為に重要なモデルを生み出せるか</u>
    - 精度の高いモデルを作成する事が目的達成に繋がる
    - **目的**が大切になってくる


- <u>AI全般の一技術が機械学習</u>
    - 厳密な線引きはなく、予測分析など一般の統計分析の延長でもある
    - *統計学・数学の知識は必須*(正確な理解の為には必ず学ぶ事)
    - programing は体系化されている(作法として覚えておく事も可能)
    - デープランニングも機械学習の一部

## 機械学習の種類
- <u>教師あり学習</u>
    - *回帰*
    - *識別(分類)*
    - *ディープランニング(深層学習)*　->　主に教師あり学習


- <u>中間学習</u>
    - *強化学習*


- <u>教師なし学習</u>
    - *クラスタリング*
    - *アソシエーション*

## 教師あり学習
- <u>大量の問題と正解データから関係性を学習し、別のデータから正解を予測するモデルを生成する</u>
    - 予測する結果が数値なら*回帰*
        - 築年数や間取りで、家賃を予測するのは**回帰**
    - カテゴリ(文字)なら*識別(分類)*
        - 性別や年齢から、購入するかしないかを予想するのは**識別(分類)**
        - 2択を表現できれば問題ない　->　True or False, 0 or 1, 10 or 20 でも良い ※　数値に意味がなければ識別(分類)になる
        - ２択を予測するモデルを <u>２値分類モデル</u> と呼ぶ


- <u>家賃を予測するモデルデータ</u>
    - 過去のデータ　:　*教師データ*
        - モデル = 数式
        - 一次関数, 二次関数
        - **回帰**　:　とは数式を作成する事
        $$y=ax+b$$
        $$y=ax1+bx2+cx3$$
    - *あくまでやっている事は中学の数学の延長*
    - 予測データ　:　**モデル**
        - 間取り, 築年数, 駅距離を入力する事で　**家賃が予想(算出)**　される


- あくまで予測の対象は　**家賃**　なので、予測データの中には家賃の情報は含まれない

## 強化学習
- <u>正解の代わりに、定められた条件に応じた報酬を与え、それを最大かする手順を学ぶ</u>
    - 将棋・囲碁
    - 自動運転
    - **モデルはプラスの評価が最大になるようなパターン**を学んで最適なモデルを生成する

## 教師なし学習
- <u>正解データを与えずに学習させる。データ内の未知のパターンを見つけ出すのが主な目的</u>
    - 既存のデータを整理する為によく使用される


- <u>クラスタリング</u>
    - データ間の類似度に応じて、グループ分けを行う
        - 迷惑メールの自動フィルターのイメージ
        - データのグループ分けは一番最初にする事。機械学習にはそれを自動で行ってくれる利点がある


- <u>アソシエーション</u>
    - データ間の関連性を発見する(クラスタリングを応用したモノ)
        - 共通顧客をグループ分けしておき、同じような顧客が来た時に何を購入するのかを判別する
        - コンビニでの需要予測


- <u>教師なし学習　->　グループ分け　->　グループ化data ->　教師あり学習　-> 予測</u>
    - 組み合わせる事も可能
    - *まずはやろうとしている事が教師あり・なしどちらなのか?をしっかりと理解して使い分けや・組み合わせをする*
    - 予測なのか？識別なのか？を考えどういうモデルを作成すれば良いのか？考えながら行うこと

# データ分析に必要な知識

#### <u>データを分析する為には、最低限「 統計指標 」 と 「 可視化 」 の知識が必要</u>
- <u>*統計指標*</u>
    - データの特徴や傾向を「 **数値** 」 として表現するも
    - Ex. 「 平均 」　「 中央値 」　「 分散 」　「 標準偏差 」


- <u>*可視化*</u>
    - データの特徴や傾向を 「 **図表** 」 として表現するもの
    - Ex.　「 棒グラフ 」　「 円グラフ 」　「 散布図 」　「 ヒストグラム 」 「 箱ひげ図 」

## 統計指標(平均)
- <u>平均は大きく　*「 算術平均 」　「 加重平均 」*　の２つがある</u>


- <u>**算術平均**</u>
    - 全ての点数を足して、データの総数で割ったもの
    - 算術平均　=　$\bar{x}$
    $$\bar{x}=\frac{X_1+X_2+X_3+...X_n}{n}$$


- <u>**加重平均**</u>
    - ウェイト$(\omega)$を考慮した算術平均
    - ウェイト$(\omega)$は、重み（ここのデータが全体の中で占める重要度の割合のようなイメージ）であり、合計は必ず１になる
    - 算術平均は、ウェイトが全て同じ(1/n)と考えた場合の加重平均
    - Xの加重平均　=　$\bar{x}$
    $$\bar{x}=\omega_1X_1+\omega_2X_2+\omega_3X_3+...\omega_nX_n$$
    

- <u>*影響度・影響力*</u>
    - 0 ~ 1.0 の間 (0% ~ 100%)
        - 有名な会社であれば、90%=0.9　:　0.9　を　$\omega_1$　(ウェイト)として掛け合わせる
        - 起業したばかりの会社であれば 20%=0.2　:　0.2　を　$\omega_2$　（ウェイト）として掛け合わせる

## 統計指標(中央値・最頻値)
- <u>中央値</u>
    - データを大きい順もしくは小さい順に並べて、真ん中にある値


- <u>最頻値</u>
    - もっとも多く登場する値
    

- <u>バイアス</u>
    - 思い込みを無くす為にも、事実のデータに基づいた結果をしっかりと算出し確認すること
    - **イメージと実際は違うという事は多々ある**
        - 平均値 774万円
        - 中央値 600万円
        - 最頻値 400万円
        - *イメージでは平均値がもっとも多い年収だと勘違いしてしまうやすい*
        - 一番多い年収は 400万円である

## 統計指標(分散・標準偏差)
- <u>分散</u>
    - データが平均的からみてどの程度離れているかを尺度にしたもの
    
    
- <u>標準偏差</u>
    - 分散の正の平方根（ルート）


- <u>７人のテストの分散と標準偏差</u>
- 70, 60, 40, 30, 50, 80, 20
    1. *平均値*　:　50点
    2. *偏差*　:　個々のデータかんら平均値を引いた値
        - 20, 10, -10, -20, 0, 30, -30
    3. *偏差を2乗する(２乗偏差値)*　:　負の値も正に変わる
        - 400, 100, 100, 400, 0, 900, 900
    4. ２乗偏差の総和を、データ数 -1 でわる
        - 400 + 100 + 100 + 400 + 0 + 900 + 900 = 2800/7-1 = **分散**
    5. 分散の正の平方根
        - **標準偏差**　=　$\sqrt\frac{2800}{6}$
        - 各データの離れ具合
    - *（公式）データを$X_1,X_2,X_3,...,X_n$個のテスの点数とすると*
    - 分散　=　$\bar{x}$
    - 平均　=　mu
    $$\bar{x}=\frac{(x_1-(xmu))^2+(x_2-(xmu))^2+(x_3-(xmu))^2+...+(x_n-(xmu))^2}{n-1}$$

    - 分母の割り算はなぜデータ数 **-1** なのか? *母数と標本*　: 分散 n-1 でネットででてくる
    - https://pt-statistics.com/post-792/
        - data数が増えてくるとそのまま分母にしても問題はなくなる
        - 具体的な数は文献によりまちまち
        - 30程度を閾値にするケースが一般的


- <u>偏差の２乗を取ることで*プラス・マイナス双方向の値を同時に扱え*ようにする</u>
    - 平均からみてどの程度離れているか？を数値で表す場合*どの方向に向いているか*は気にならない
    - 距離は同じ。 ※　- (マイナス)が入るとマイナスの向きという情報が影響をあたえる為


- <u>ただ値が２乗されたままだと*元データの単位が合わなくなるので*,平方根をとって標準偏差とする</u>
    - 例) 元データは 「 m 」 これを２乗すると 「 m の２乗(平方メートル) 」 に変わってしまう
        - **「 平方メートル 」**は面積の単位なので、意味自体が変わってしまう為


- <u>単位を考慮しなければ *分散* でも *標準偏差* でもどちらを使用しても良い</u>
    - だが、分散は２乗したままなので**値が大きくなりすぎて**やや扱いづらい
        - **なので基本的には標準偏差まで行われて使用される**

## 可視化（基本のグラフ）
- <u>目的に合わせた手段で可視化する</u>
    - *棒グラフ*
        - データを並べて比較したり、降順に並び替えてランキングを確認する
        - 例)　今年と昨年の売り上げ比較
    - *円グラフ*
        - データの割合、内訳、構成比を確認する
        - 例)　商品の売上構成比を表現
    - *折れ線グラフ*
        - 時間に伴う推移(時系列)を確認する
        - 例)　日々の売上の動向をチェック
    - **極論だが...**
        - 棒グラフを使用すればある程度のケースに対応できる
        - 迷ったら*棒グラフ*。それでしっくりこなければ変えてみる


- <u>適したグラフを見つけるのは大切だが...</u>
    - **本来の目的は、データを可視化して情報を得ること**...を忘れずに！！
    - グラフ選びに時間をかけ過ぎずに、直感的にどんどん可視化してみる

## 可視化(散布図, バブルチャート)
- <u>*散布図*</u>
    - データの分布を表現する
    - 縦軸・横軸ともに数値データが一般的
        - 例)
        - 各生徒の教科別点数を確認
        - 関連性や売り筋商品などをチェック


- <u>*バブルチャート*</u>
    - 使用用途は散布図の延長線
    - 点（バブル）のサイズを使って、つかデータを表現する
        - 例)
        - 各商品の売上、粗利をバブルサイズを使って販売数を確認する


- <u>分散や標準偏差の前段階で使用されることがある</u>
    - イメージを掴むため
    - イメージを掴みやすいので、一番最初に散布図を使用して確認するのもおすすめ

## 可視化(ヒストグラム, 箱ひげ図)
- 散布図と同様に散らばり具合を表現するモノだが
    - **件数と表す**という違いがある


- <u>*ヒストグラム*</u>
    - データの散らばり具合を表現
    - 横軸がデータの範囲、縦軸は件数を棒形で描画
        - 例)
        - 購入金額ごとに顧客数を表現し、優良顧客を割り出す


- <u>*箱ひげ図*</u>
    - ヒストグラム同様、データの散らばり具合や外れ値を表現する
    - 解釈には中央値などの理解が必要

## 統計指標と可視化の注意
- <u>統計指標と可視化はどちらか一方ではなく**両方確認すべき**</u>
    - *どちらか一方だけではデータの特徴を把握できない*
        - **平均は統計指標でみた時はどちらも同じ５０であった**しかし...
        - A　=　20, 40, 100, 50, 40
        - B　=　50, 50, 50, 50, 50
        - 中身を見たら同じとは言えない事実がある
        - 今は数が少ないから全て確認は出来たが、実務では膨大のデータがあり簡単には確認できない
        
        

- <u>実際にデータを分析する際は...</u>
    - **「 可視化 」　でおおまかなデータ傾向を掴み　「 統計指標 」　で裏をとる**　というステップを意識するとよい


- <u>データ分析は**「 仮説 」** と **「 検証 」** の繰り返し</u>