# **はじめに**

## **本セミナーの内容**
- 本セミナーでは，統計学や機械学習の初学者を対象に，**統計モデリングを用いたデータの予測・分析モデルの構築方法**について解説します．
- 実習を行うためには下記2点が必要です．
  - Googleアカウント
    - https://myaccount.google.com/intro
  - ノートPC
- 解説および実習はGoogle Colab上のJupyter Notebook（今見ているページ）を使いながら行っていきます．今回使用するnotebookの一覧は下記のとおりです．
  - 01_introduction.ipynb：このnotebook
  - 02_probabilistic_distributions.ipynb：代表的な確率分布の解説
  - 03_probabilistic_inference.ipynb：確率計算の例題集
  - 04_parameter_inference.ipynb：ベイズ統計を使ったモデルの解説
  - 05_glm.ipynb.ipynb：回帰予測モデルの解説
  - 06_summary.ipynb：まとめ
- 本セミナーを修了すると，下記の知識・スキルが身に付きます．
  - PythonとJupyter notebookを使って基本的な統計計算をするスキル
  - 統計モデリングを利用して，簡単なモデルを組み立て，分析するスキル
  - 統計モデリングを駆使した学術論文や応用事例を読み解くための基礎知識
- また，本セミナーでカバーしていない内容は下記のとおりです．
  - データベースの処理や，前処理・加工技術など
  - 実サービスにおける統計・機械学習モデルの開発・運用手法
  - 画像処理や自然言語処理といった特定の応用分野に関する知識

## **参考書籍**

| **Pythonによるベイズ統計モデリング** | **Pythonで体験するベイズ推論** | **ベイズ推論による機械学習入門** | 
|:------------- |:------------- |:-------------:| 
|![代替テキスト](https://www.kyoritsu-pub.co.jp/app/img/item/9784320113374.jpg)|![代替テキスト](https://drive.google.com/uc?id=1B1L-qsPqCtx8WAiFYPCesU-5HKm3d8XT)|![代替テキスト](https://drive.google.com/uc?id=1_skbzypYY4TOZvF9v7hRF5Vey0aE7JyE)|
|https://www.morikita.co.jp/books/book/3155|https://www.morikita.co.jp/books/book/3155|https://www.kspub.co.jp/book/detail/1538320.html|



#**第1章：統計モデリングとは何か？** 
- 統計モデリングとデータ解析
  - **【統計モデリング（statistical modeling）】**データ解析を行うための方法論の１つ．**確率モデリング（probability model）**とも呼ぶ．
  - **【データ解析（data analysis）】**収集されたデータを計算機による統計処理によって解析し，価値を導き出す取り組みを指す．
- 統計モデリングでは，「**いま目の前にあるデータはどういう過程を経て得られたのだろうか？**」という問題提起に基づき，確率分布などを駆使して**データの生成過程をモデルで表現**します．
- 本節では，なぜ統計モデリングのアプローチがデータ解析において有用なのかを解説します．


## **1.1 データ解析の目的は何か？**
- 収集された**データ**を計算機による**統計処理**によって解析し，**価値**を導き出すこと．
  - **【データ】**数値，記号，画像，音声，文書など，計算機で保存できるものすべて
  - **【統計処理】**グラフの作成，（平均や分散などの）統計量の計算，統計モデルへのあてはめ，など
  - **【価値】** = 将来予測，データの分類，観測できない値の推測，原因の解析，構造の抽出，など


## **1.2 データ解析にはどのような課題が存在するか？**

#### **基礎的な課題**
![代替テキスト](https://drive.google.com/uc?id=1XAtRSKRIUcn5QCkTN1R2D4Tnv419qM-y)

#### **発展的な課題**
- センサーデータ解析
  - 装置に取り付けた電流計のデータを使って，装置の異常を検出する，など
- ログ解析
  - ウェブサイトのアクセスログを解析して，適切な広告を提示する，など
- 需要予測
  - 商品の在庫の推移などから，次月の需要を予測する
- 画像認識・音声認識
  - 画像に移っている物体の種類を判別する
- 自然言語処理
  - 与えられたキーワードから，最も関連性の高い文書を検索してくる，など
- バイオインフォマティクス
  - たんぱく質の構造を探索する
- ロボティクス
  - ロボットアームの制御学習を行う，など
- 心理学・社会科学
  - ある特別なコーチングを行った時の生徒の習熟度合いを測る，など
- その他
  - 金融，マテリアルインフォマティクス，気象予測，航空宇宙，etc.



#### **1.3 データ解析にはどのような流儀・方法論が存在するか？**
課題に合わせて，適切な方法論を参照する必要がある．
- 記述統計学（descriptive statistics）
  - データを集計して要約・可視化する．
- 推測統計学（inferential statistics）
  - 観測されていない対象を推測する．
- 機械学習（machine learning）
  - 大量データから自動的にパターンを抽出し，精度良く予測する．
- 深層学習（deep learning）
  - 大規模ニューラルネットワークモデルを構築し，画像認識などの高次元データに対する分類問題などを取り扱う．
- 人工知能（artificial intelligence）
  - 計算機に人間のような思考方法を実装する方法論の総称．
- **ベイズ統計学（Baeysian statistics）**
  - **確率分布を駆使し，解析対象のデータの性質・生成過程をモデル化し，解析を行う．**
- etc...

【！注意！】上記は厳密な区別を目的とした用語ではありません．「推測統計学とは何か？」「深層学習とは何か？」といった定義にこだわるのは無意味です．


## **1.4 なぜ統計モデリングが重要か？**
データサイエンスにおける代表的な2つのアプローチ
![代替テキスト](https://drive.google.com/uc?id=1qoho9Y2Xl401AvHJewBdWQctLyYxotIf)
- 実務で遭遇する課題において，既存ツールがそのまま適用できるケースは多くない．
  - 【理由1】既存ツールが想定していなかったデータの傾向，外れ値が存在する
  - 【理由2】利用可能なデータ数や計算リソースが限られていることが多い
- したがって，**現実課題における複雑な事情に対処するためには，課題に合わせて解析手法をオーダーメイドする統計モデリングのアプローチが重要になる．**


## **1.5 統計モデリングの考え方**
- 本セミナーで指す「統計モデリング」=「確率理論を用いた統計解析」=「ベイズ統計」
- ベイズ統計の思想：
  - 「**データが生成される過程を確率分布などを駆使してうまく数理的に表現できれば，それに付随して予測や分類といった課題は自然に解けるだろう**」
  - つまり，「**今自分が見ているこのデータは，いったいどういう経緯で作られたのだろう？**」ということを理解していくプロセス．
  - 理解すればするほど，正確な予測・判断が可能になり，応用の出口も広がっていく．

![代替テキスト](https://drive.google.com/uc?id=1e-yuJxUlZTBoJuplk3Ovb0pi2eIO2OLu)



## **1.6 統計モデリングの構成要素**
- 統計モデリング（=ベイズ統計）は，下記のように「データ」「モデル」「推論計算」「解析結果」の4つから成り立ちます．

![代替テキスト](https://drive.google.com/uc?id=1ZtLExoYVI7mQUGTNZVc8ReoofDBynKG_)
- **データ（data）**
  - 数値，記号，画像，音声，文書など，計算機で保存できるものすべて
- **モデル（model）**
  - データの生成プロセスに関する仮説を，確率分布などを使い数理的に記述したもの．
  - 本セミナーでは**統計モデル（statistical model）**，**確率モデル（probability model）**とも呼ぶ．
- **推論計算（inference）**
  - データにモデルを突き合わせることによって，結果を導き出す計算プロセス．
  - より正確には，事後分布（後述）の計算を行う．
  - 推論計算は多くの場合は手計算は行わずに，計算機を使って自動的に行う．
- **解析結果**
  - グラフや予測精度などの定量数値，計算量などを評価し，次のアクションを検討する．


## **1.7 やってみよう（3分）**
あなたの身の回りにはどのようなデータ分析課題がありますか？
- ヒント：
  - 実際に自身で実施している取り組み，見聞きした取り組み，将来的にできそうな取り組みなど，**なんでもOK**です．
  - 使うデータ，解析の目的や価値，（可能であれば）使っている手法，の3点が挙げられると良いです．
  - 参考：深層学習を用いて，きゅうりの出来を画像データから自動判別する仕組みを構築
    - https://www.slideshare.net/ikemkt/ai-119187344



