## Day6 : 可視化・クラスタリング - データの概要を把握する
---
### 範囲

中級編の内容は初級編を一通りやっていることを前提にしているので、できるだけ早く初級編の内容について目を通す程度はしておいてください

#### 初級

- [簡単な分析を実行する](beginner/market_basket_analysis.ipynb)
- [データ分析を実施するにあたっての注意点](beginner/caution.ipynb)
- [データ要約について](beginner/data_summary_introduction.ipynb)
- [数値で変数ごとに把握](beginner/describe.ipynb)
- [数値で変数の組み合わせごとに把握](beginner/summarize.ipynb)
- [数値要約の注意点](beginner/caution_for_summary.ipynb)
- [グラフで変数ごとに把握](beginner/visualization.ipynb)
- [グラフで変数の組み合わせごとに把握](beginner/visualization2d.ipynb)
- [時系列データの把握](beginner/line_chart.ipynb)
- [カテゴリ間比較](beginner/comparison_over_categories.ipynb)
- [グラフ表示の注意点](beginner/caution_for_visualization.ipynb)
- [データ把握まとめ](beginner/conclusion_of_data_understanding.ipynb)
- [クラスタリングの概要](beginner/clustering.ipynb)
- [k-means](beginner/kmeans.ipynb)
- [Mean Shift](beginner/mean_shift.ipynb)
- [階層的クラスタリング](beginner/hierarchical_clustering.ipynb)

#### 中級

- [離散化](intermediate/discretization.ipynb)
- [相関係数](intermediate/correlation_coefficient.ipynb)
- [多変数の一覧](intermediate/multiple_response_sets.ipynb)
- [ヒストグラムを滑らかにする](intermediate/kernel_density_estimation.ipynb)
- [複数変数を一度に把握](intermediate/multidimensional_graph.ipynb)
- [地理情報の可視化](intermediate/geographic_information.ipynb)
- [ネットワーク構造の可視化](intermediate/network_graph.ipynb)
- [k-means](intermediate/kmeans.ipynb)
- [Mean Shift](intermediate/mean_shift.ipynb)
- [階層的クラスタリング](intermediate/hierarchical_clustering.ipynb)

### 課題

- 必須
 - Day7の予習
- 任意
 - kaggleのCompetitionでNotebooksを読み、何を目的に可視化し、どんな考察を得ているかまとめる
   - 下記を満たすCompetitionから任意に選択
     - 賞金つき
     - 比較的新しい(1年程度)
     - 表形式データ(tabular data)
     - Discussionでleak/leakageについて話題になっているものは避ける
   - Notebookの探し方
     - TagsでEDA(Exploratory Data Analysis = 探索的データ分析)・data visualization・starter codeなどに絞り込むと見つけやすい
     - 評価の高いものから見ていく
   - Day7の前日までに提出すれば、発表・コメント等あるかもしれません
     - Competitionの概要を記載
     - Notebookへのリンクは必須
     - 以下のような項目でまとめる
       1. Notebookの作者の意図(自分なりの推測)
       1. 学んだ内容
       1. 疑問点
     - 細かい手法の中身については調べなくてもよい

## Day7 : 予測 - データを元に予測を行う
---
### 範囲

#### 初級

- [単回帰分析](beginner/simple_linear_regression.ipynb)
- [ロジスティック回帰](beginner/logistic_regression.ipynb)

#### 中級

- [最小二乗法](intermediate/ordinary_least_squares.ipynb)
- [決定木](intermediate/decision_tree.ipynb)
- [k近傍法](intermediate/knn.ipynb)
- [ロジスティック回帰](intermediate/logistic_regression.ipynb)
- [サポートベクターマシン](intermediate/svm.ipynb)
- [スケーリング](intermediate/scaling.ipynb)

### 課題

- 必須
 - Day8の予習
- 任意
 - kaggleのCompetitionでSolutionに関するDiscussionを読み、データのどのような点を理由に、どのような特徴を追加しているかまとめる
   - 下記を満たすCompetitionから任意に選択
     - 賞金つき
     - コンペ期間が終了している
     - 表形式データ(tabular data)
     - Discussionでleak/leakageについて話題になっているものは避ける
   - Discussionの探し方
     - solutionで絞り込む
     - solutionとは、解答提出者が自分の解法について解説したもの
 - Day8の前日までに提出すれば、発表・コメント等あるかもしれません
   - Competitionの概要を記載
   - Discussionへのリンクは必須
   - 以下のような項目でまとめる
     - Solutionの解答者の意図(自分なりの推測)や複数の解答者の共通・相違点
     - 学んだ内容
     - 疑問点
   - 細かい手法の中身については調べなくてもよい

## Day8 : 予測モデルの評価 - 予測が正しいか確かめる
---
### 範囲

#### 初級

該当なし

#### 中級

- [テスト](intermediate/test.ipynb)
- [バリデーション](intermediate/validation.ipynb)
- [正則化](intermediate/regularization.ipynb)
- [評価指標](intermediate/metrics.ipynb)
- [不均衡データ](intermediate/imbalanced_data.ipynb)←実際のデータを扱う上では重要だが、内容が細かいので理解できなければ流し読みでOK
- [特徴選択](intermediate/feature_selection.ipynb)
- [モデル改善手法の選択基準](intermediate/improvement_process.ipynb)

## Day9 : 検定の基礎 - 確率に基づく考え方の基礎
---
### 範囲

#### 初級

- [確率分布を理解する](beginner/distribution.ipynb)
- [全体の平均を推定する](beginner/population_mean_estimation.ipynb)
- [モデリングの目的を理解する](beginner/introduction_to_modeling.ipynb)

#### 中級

- [統計的仮説検定の概要](intermediate/hypothesis_testing.ipynb)

## Day10 : 検定 - データの背後にあるものを推測する
---
### 範囲

#### 初級

該当なし

#### 中級

- [母平均の検定](intermediate/t_test.ipynb)
- [母比率の検定](intermediate/z_test.ipynb)
- [対応のある2群の検定](intermediate/dependency.ipynb)
- [対応のない2群の検定](intermediate/2sample_independent.ipynb)
- [分割表の検定](intermediate/crosstab_test.ipynb)
- [検定力分析](intermediate/power_analysis.ipynb)←仮説検定偏重の問題だけ知っておく
- [重回帰分析](intermediate/multiple_regression_analysis.ipynb)

## Day11 : データの取り扱い - データベース操作・大規模データ処理
---
### 範囲

#### 初級

- [データ取得](beginner/data_acquisition.ipynb)
- [データ加工](beginner/preprocessing.ipynb)
- [外れ値・異常値・欠損値の除去・補完](beginner/imputation.ipynb)

#### 中級

- [確率的勾配降下法](intermediate/sgd.ipynb)
- [ミニバッチ学習](intermediate/mini_batch.ipynb)