# データの取得〜特徴量の確認

- **[1.1 手書き数字の認識をしよう](#1.1-手書き数字の認識をしよう)**
    - **[1.1.1 データセット](#1.1.1-データセット)**
    - **[1.1.2 データ分析のワークフロー](#1.1.2-データ分析のワークフロー)**
    - **[1.1.3 明らかにしたい問いや、課題の定義](#1.1.3-明らかにしたい問いや、課題の定義)**
    - **[1.1.4 課題の概要](#1.1.4-ワークフローのゴール)**
    <br><br>
- **[1.2 ワークフロー](#1.2-ワークフロー)**
    - **[1.2.1 訓練およびテストデータの取得](#1.2.1-訓練およびテストデータの取得)**
    - **[1.2.2 データを取得する](#1.2.2-データを取得する)**
    - **[1.2.3 データの性質を理解する](#1.2.3-データの性質を理解する)**
    <br><br>
- **[1.3 データの前処理](#1.3-データの前処理)**
    - **[1.3.1 探索的データ分析（EDA）1](#1.3.1-探索的データ分析（EDA）1)**
    - **[1.3.2 探索的データ分析（EDA）2](#1.3.2-探索的データ分析（EDA）2)**
    - **[1.3.3 データの前処理](#1.3.3-データの前処理)**
    <br><br>
- **[1.4 予測モデルの作成](#1.4-予測モデルの作成)**
    - **[1.4.1 バリデーションの作成](#1.4.1-バリデーションの作成)**
    - **[1.4.2 ロジスティック回帰を用いた予測](#1.4.2-ロジスティック回帰による予測)**
    - **[1.4.3 ランダムフォレストを用いた予測](#1.4.3-ランダムフォレストを用いた予測)**
    <br><br>
- **[1.5 まとめ問題（提出不要）](#1.5-まとめ問題（提出不要）)**
<br><br>

***

## 1.1 手書き数字の認識をしよう

### 1.1.1 データセット

本コースは、実際に手書き数字のデータセットを利用して、数字識別を行う実践的なコースです。<br>
データ分析コンペであるkaggleで出題されている<a href='https://www.kaggle.com/c/digit-recognizer' target='_blank'>手書き数字の認識コンペ</a>を題材にしているので、kaggleでも通用する能力を付けていきましょう。<br>
<br>

この課題では、すでに以下のライブラリの利用方法を学習済みであることを前提として、進行していきます。<br>
<br>

1. Pandas
2. Matplotlib
3. 教師あり学習<br>
<br>

- **MNISTとは？**<br>
MNIST（ "Modified National Institute of Standards and Technology"）は、コンピュータービジョンの事実上の「HelloWorld」データセットです。<br>
このデータセットは、0から9までの手書き数字画像で構成されており、各画像は 28 $\times$ 28 のグレー画像 (1チャンネル) となっています。<br>
全画像70,000枚の内、訓練画像60,000枚、テスト画像10,000枚に分割されており、これらを利用してモデルの学習と推論を行います。<br>
1999年のリリース以来、この古典的なデータセットは、分類アルゴリズムのベンチマークの基礎として機能してきました。<br>
新しい機械学習技術が登場しても、MNISTは研究者と学習者の両方にとって信頼できるリソースであり続けます。<br>

- **課題の概要**<br>
この課題では、何万もの手書き画像のデータセットから数字を正しく識別します。<br>
さまざまなアルゴリズムを試して、何がうまく機能し、テクニックがどのように比較されるかを直接学ぶことをお勧めします。<br>
<br>

以下がデータセットの詳細です。<br>

* データファイルtrain.csvおよびtest.csvには、0から9までの手描きの数字のグレースケール画像が含まれています。

各画像の高さは28ピクセル、幅は28ピクセルで、合計784ピクセルです。各ピクセルには単一のピクセル値が関連付けられており、そのピクセルの明るさまたは暗さを示します。数値が大きいほど、暗くなります。このピクセル値は、0から255までの整数です。

トレーニングデータセット（train.csv）には、785列があります。「ラベル」と呼ばれる最初の列は、ユーザーが描いた数字です。残りの列には、関連する画像のピクセル値が含まれています。



#### 問題

- 本エクササイズの内容を理解しましたか？

- はい
- いいえ

#### ヒント

- 説明文をよく読んでください。

#### 解答

- はい

***

### 1.1.2 データ分析のワークフロー

それでは、分析をはじめていきましょう。<br>
一般的なデータ分析では、以下の**7つ**のステージで進めていきます。<br>

1. 明らかにしたい問いや、問題の定義
2. 訓練およびテストデータの取得
3. データの整形、作成、クレンジング
4. パターンの分析、特定、また探索的にデータを分析する
5. 問題のモデル化、予測、解決
6. 問題解決のステップと最終的な解決方法を視覚化、報告
7. 結果の提出<br>
<br>

上記のフローが一般的な順序となっていますが、例外もあります。<br>

- 複数のワークフローのステージを組み合わせることがあります。
- 提示されたよりも早くステージに到達することもあります。また、同じステージを何度も体験することもあります。
- ステージをスキップすることもあります。
- 前のステージに戻ることもあります。<br>
<br>

では、上記7つのワークフローに沿って進めていきましょう。

#### 問題

- 本エクササイズの内容を理解しましたか？

- はい
- いいえ

#### ヒント

- 説明文をよく読んでください。

#### 解答

- はい

***

### 1.1.3 明らかにしたい問いや、課題の定義

kaggleのようなコンペでは、解決すべき問題を定義し、問題を解決するためのモデルを訓練するデータセットを提供し、テストデータセットに対してモデル結果をテストします。<br>
今回の問題は、kaggleだと以下のように定義されています。<br>
<br>

- 訓練データセットには画像が「0」から「9」のどの数字か（答え）が付与されており、このデータセットを使って画像の数字を予測するモデルを作成することができます。
- テストデータセットには画像の数字は付与されていません。
- テストデータセットに先の数字予測モデルを適用すれば、画像の数字を予測することができます。

<br>

今回の課題は、訓練データから画像の数字を予測するモデルを作成し、テストデータにこのモデルを適用しての画像の数字を予測することを、課題としてすすめていきます。

#### 問題

- 本エクササイズの内容を理解しましたか？

- はい
- いいえ

#### ヒント

- 説明文をよく読んでください。

#### 解答

- はい

***

### 1.1.4 ワークフローのゴール

データ分析のワークフローは、7つの主要な目標を達成していきます。<br>

**①分類(Classifying)**<br>
データをグループへ分類します。<br>
グループは同じ性質を持つデータの集合です。<br>
データを個々に確認するよりもまずグループを確認すれば、``データの性質を把握``することにかかる時間を短縮できます。<br>
<br>

**②相関(Correlating)**<br>
各変数が結果に対してどの程度影響力を持っているか（結果を左右するのか）また、変数間にどの程度関係性（共線性）があるのかを調べます。<br>
変数とは、測定可能なデータを指します。<br>
また、変数は``特徴量``とも呼び、結果を左右する要因です。<br>
<br>

**③変換(Converting)**<br>
モデルを作成するためには、``使用するアルゴリズムの種類に応じてデータを変換``する必要があります。<br>
アルゴリズムには、数値のみで構成されたデータセットしか受け付けられないものもあれば、数値とカテゴリ値（文字列）が混ざったデータセットでも受け付けられるものもあります。<br>
例えば前者の場合、カテゴリ値を二値または多値に変換することはよくあります。<br>
<br>

**④補完（Completing）**<br>
データ変換の過程において、データセットに`欠損値`が含まれていれば、適切な方法で補完しなければなりません。<br>
例えば、変数の``平均値``で補完する、`0（ゼロ）`で補完する、前後の値で補完するなどが挙げられます。<br>
また、欠損値があまりにも多い変数は除外してしまうという手もあります。<br>
これらの処理を適切に行えるかどうかが、この後に作成する``モデルの精度に影響``します。<br>
<br>

**⑤修正(Modifying)**<br>
データ変換の過程において、データセットに`外れ値`（異常値）が含まれていれば、適切な方法で修正しなければなりません。<br>
欠損値の補完と同じ方法で修正することもできますが、データの件数に対し外れ値の件数がごく少数であれば、該当するデータを除外してもよいでしょう。<br>
また、外れ値があまりにも多い変数は除外してしまうという手もあります。<br>
これらの処理を適切に行えるかどうかが、この後に作成する``モデルの精度``に影響します。<br>
<br>

**⑥作成(Creating)**<br>
既存の変数から、または既存の変数を組合せて新たな変数を作成することも有効な手段です。<br>
例えば、`相関が強い変数のペアを一つにまとめてしまう`ことが挙げられます。<br>
この処理を行うことで、モデル作成にかかる時間を短縮できる可能性があります。<br>
<br>

**⑦グラフ作成(Charting)**
グラフを使った視覚的な表現は、`分析結果を効率的に解釈`するための有効な手段です。<br>
また、解決したい問題に対する意思決定を促す可能性も秘めています。

#### 問題

- 本エクササイズの内容を理解しましたか？

- はい
- いいえ

#### ヒント

- 説明文をよく読んでください。

#### 解答

- はい

***

## 1.2 ワークフロー

### 1.2.1 訓練およびテストデータの取得

それでは、さっそくデータを取得しましょう。<br>
本コースはkaggleのnotebook上でコードを実行します。<br>
<a href='https://www.kaggle.com/c/digit-recognizer' target='_blank'>kaggleの手書き数字の認識コンペ</a>をへアクセスしていただき、notebookを開いてコードを実行してください。<br>
<br>

最初に各種必要なライブラリをインポートします。<br>
以下のようなコマンドでインポートします。<br>

```python
import sklearn
```
<br>

もしライブラリがインストールされていない場合は、以下のようなコマンドでインストールします<br>

```python
!pip3 install パッケージ名
#最初に!コマンドをつけると、UNIXコマンドを実行することができます。
```
<br>

sklearnモジュールがインストールされていない場合は、以下のようにインストールしてください。<br>

```python
!pip3 install sklearn
```
<br>

※Kaggleでnotebookを立ち上げると下記のプログラムが表示されているので実行してください。


<br>

```Python
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 5GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session
```


#### 問題

下記のコードは穴埋めになっています。<br>
必要なコードを追記し、[kaggle](https://www.kaggle.com/c/digit-recognizer/notebooks)上で実行できましたか？<br>

```python
# pandasをインポートしてください


# numpyをインポートしてください


# matplotlibをインポートしてください


# sklearnをインポートしてください

```

- はい
- いいえ

#### ヒント

- 説明文をよく読んでください。
- わからない場合のみ、以下をお読みください。

```python
# pandasをインポートしてください
import pandas

# numpyをインポートしてください
import numpy

# matplotlibをインポートしてください
import matplotlib

# sklearnをインポートしてください
import sklearn
```

#### 解答

- はい

### 1.2.2 データを取得する

Pandasライブラリはデータの変換などの作業に役立ちます。<br>
このライブラリを使用して訓練データセットとテストデータセットをデータフレーム形式で取得します。<br>
<br>

まず下記のコードを実行すると、必要なデータセットの一覧が表示されます。<br>

```Python
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))



# ファイル表示プログラムの実行結果
/kaggle/input/digit-recognizer/sample_submission.csv
/kaggle/input/digit-recognizer/train.csv
/kaggle/input/digit-recognizer/test.csv
```
<br>

#### 問題

下記のコードは穴埋めになっています。<br>
必要なコードを追記し、[kaggle](https://www.kaggle.com/c/digit-recognizer/notebooks)上で実行できましたか？<br>

```Python
import pandas as pd
#1. train_dfとして、/kaggle/input/digit-recognizer/train.csvをpandasで読み込みます
train_df = 

#2. test_dfとして、/kaggle/input/digit-recognizer/test.csvをpandasで読み込みます
test_df = 

```

- はい
- いいえ

#### ヒント

- 説明文をよく読んでください。
- わからない場合のみ、以下をお読みください。

```Python
import pandas as pd
#1. train_dfとして、/kaggle/input/digit-recognizer/train.csvをpandasで読み込みます
train_df = pd.read_csv('../input/digit-recognizer/train.csv')

#2. test_dfとして、/kaggle/input/digit-recognizer/test.csvをpandasで読み込みます
test_df = pd.read_csv('../input/digit-recognizer/test.csv')

```

#### 解答

- はい

### 1.2.3 データの性質を理解する

Pandasはまた、データの性質を理解することに役立ちます。このことは、どのようにデータを変換・補完・修正していくか、つまり、前処理を行うかの方針を立てるために必要な作業です。<br>
- **どの特徴量がデータセットで使えるか**<br>
Pandasを使って、どのような変数（特徴量）が存在するのか、見てみましょう。プログラミングにおける変数と区別するために、以降、分析における変数は「特徴量」と記載します。まずはtrain_dfの列名を確認してみましょう。データセットの列名が特徴量です。
<br><br>
- **どのようなデータが入っているか**<br>
では、train_dfのデータの中身を確認してみましょう。すべて見ると大変なので、先頭5行と、後ろから5行を見てみましょう。

#### 問題

下記のコードは穴埋めになっています。<br>
必要なコードを追記し、<a href='https://www.kaggle.com/c/digit-recognizer' target='_blank'>kaggle</a>上で実行できましたか？<br>

```Python
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

#1. train_dfの特徴量（＝列名）を出力してください。


#2. train_dfの最初から5行を出力してください。


#3. train_dfの後ろから5行を出力してください。


#4. test_dfの最初から5行を出力してください。


#5. test_dfの後ろから5行を出力してください。

```

- はい
- いいえ

#### ヒント

- Pandasで列ラベル（columns）の値を取得します。
- 先頭はhead()、後ろはtail()で取得できます。
- わからない場合のみ、以下をお読みください。<br>
<br>

```Python
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

#1. train_dfの特徴量（＝列名）を出力してください。
print(train_df.columns.values)

#2. train_dfの最初から5行を出力してください。
print(train_df.head(5))

#3. train_dfの後ろから5行を出力してください。
print(train_df.tail(5))

#4. test_dfの最初から5行を出力してください。
print(test_df.head(5))

#5. test_dfの後ろから5行を出力してください。
print(test_df.tail(5))
```

#### 解答

- はい

## 1.3 データの前処理

### 1.3.1　探索的データ分析（EDA）1 

ここまでの作業で特徴量の形や値を確認できました。ここから更に、データの集計や可視化を行いデータの理解を深めていきましょう。<br>

今回のデータは,「０」から「9」までの多クラス分類の問題でした。

まず初めに、今回の訓練データに入っている、各正解ラベルの数を確認しましょう。


#### 問題

下記のコードは穴埋めになっています。<br>
必要なコードを追記し、<a href='https://www.kaggle.com/c/digit-recognizer' target='_blank'>kaggle</a>上で実行できましたか？<br>

```Python
#1 train_dfのlabelに含まれている、各正解ラベルの数を集計してください
```

- はい
- いいえ

#### ヒント

- pandas.DataFrame.groupby¶<br>
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

- わからない場合のみ、以下をお読みください。

```Python
#1.
# 回答例 1
train_df['label'].value_counts()
# 回答例 2
train_df.groupby('label')['pixel1'].agg('count')
```

#### 解答

- はい

***

### 1.3.2 探索的データ分析（EDA）2

次に、データ内の実際のpixelを元に、画像を表示してみましょう。

#### 問題

下記のコードは穴埋めになっています。<br>
必要なコードを追記し、<a href='https://www.kaggle.com/c/digit-recognizer' target='_blank'>kaggle</a>上で実行できましたか？<br>

```Python
import matplotlib.pyplot as plt
# 表示したい画像の行番号
i = 0 
# train_dfからpixel情報の切り出し　(注) 1列目には正解ラベルが入っています
tmp_img =  
# numpy arrayへの変換
tmp_img = tmp_img.values 
# shapeを784から28x28の2次元画像に変換
tmp_img = 
# labelを表示
print('label', train_df['label'][i]) 
# 値を表示
print(tmp_img) 
# 画像として表示
plt.imshow(tmp_img, cmap='gray') 
plt.show()

```

- はい
- いいえ

#### ヒント

- わからない場合のみ、以下をお読みください。

```Python
import matplotlib.pyplot as plt
# 表示したい画像の行番号
i = 0 
# train_dfからpixel情報の切り出し
tmp_img = train_df.iloc[i, 1:]
# numpy arrayへの変換
tmp_img = tmp_img.values 
# shapeを784から28x28の2次元画像に変換
tmp_img = tmp_img.reshape([28, 28]) 
# labelを表示
print('label', train_df['label'][i]) 
# 値を表示
print(tmp_img) 
# 画像として表示
plt.imshow(tmp_img, cmap='gray') 
plt.show()
```

#### 解答

- はい

***

### 1.3.3 データの前処理

ここまでのEDAで、今回用いるデータの理解が深まったかと思います。

次に、実際にモデルを作成するための前処理を行ます。

前処理を行うことで、モデル性能の向上や、学習の高速化などが期待できます。

ここでは、簡単な前処理として、データの正規化(normalization)を行ます。

正規化とはデータを特定の範囲に変換する処理を指します。

今回は、0~1の範囲で正則化を行ます。

正規化の他にも様々な前処理の方法があります。是非調べてみてください。

#### 問題

下記のコードは穴埋めになっています。<br>
必要なコードを追記し、<a href='https://www.kaggle.com/c/digit-recognizer' target='_blank'>kaggle</a>上で実行できましたか？<br>

```Python

# 説明変数となる列、目的変数となる列を指定する
# 説明変数: label以外の列
# 目的変数: label

col_X = train_df.columns.values[1:].tolist() 
col_Y = 'label' 
print('col_X', col_X)
print('col_Y', col_Y)

# train と testを結合
# trainとtestを結合
traintest_df = pd.concat([train_df, test_df]) 
# indexを割り当て直す
traintest_df = traintest_df.reset_index(drop=True) 
print(traintest_df.shape)

# データの取違防止のためidの行を作成
# 行番号をidとして割り当てる
traintest_df['id'] = np.arange(len(traintest_df)) 
# 列の並び替え
traintest_df = traintest_df[['id', col_Y] + col_X] 
traintest_df.head()

# 正規化
# 値の範囲を0-255から0-1に変換
traintest_df.loc[:,col_X] = 
traintest_df.head()

# trainとtestを再分割
train_df = traintest_df.iloc[:len(train_df)]
train_df.loc[:,col_Y] = train_df[col_Y].values.astype(int)
test_df = traintest_df.iloc[len(train_df):].reset_index(drop=True)
train_df.head()

```

- はい
- いいえ

#### ヒント

- わからない場合のみ、以下をお読みください。

```Python
# 説明変数となる列、目的変数となる列を指定する
# 説明変数: label以外の列
# 目的変数: label

col_X = train_df.columns.values[1:].tolist() 
col_Y = 'label' 
print('col_X', col_X)
print('col_Y', col_Y)

# train と testを結合
# trainとtestを結合
traintest_df = pd.concat([train_df, test_df]) 
# indexを割り当て直す
traintest_df = traintest_df.reset_index(drop=True) 
print(traintest_df.shape)

# データの取違防止のためidの行を作成
# 行番号をidとして割り当てる
traintest_df['id'] = np.arange(len(traintest_df)) 
# 列の並び替え
traintest_df = traintest_df[['id', col_Y] + col_X] 
traintest_df.head()

# 正規化
# 値の範囲を0-255から0-1に変換
traintest_df.loc[:,col_X] = traintest_df.loc[:,col_X].values/255
traintest_df.head()

# trainとtestを再分割
train_df = traintest_df.iloc[:len(train_df)]
train_df.loc[:,col_Y] = train_df[col_Y].values.astype(int)
test_df = traintest_df.iloc[len(train_df):].reset_index(drop=True)
train_df.head()
```

#### 解答

- はい

***

##  1.4 予測モデルの作成

### 1.4.1 バリデーションの作成

前処理を行ったデータを用いて予測モデルの作成を行います。

モデルの作成に取り掛かる前に、データを訓練用データと評価用データ(バリデーションデータ)に分割します。

データを分割する主な理由は、作成したモデルの汎化性能を正しく評価し、モデルの改善につなげるためです。

汎化性能とは、未知のデータに対する予測能力のことを指します。

データの分割方法には、いくつか方法があるため、EDAを通してデータの性質を理解し適切な方法を選ぶことが必要です。

以下では、主なバリデーションデータの分割手法について簡潔に説明します。

- hold-out法<br>
最も単純な分割方法です。学習データを訓練用データと評価用データに分割します。<br>
訓練データでモデルを作成後、評価用データを用いてモデルを評価します。

- cross validation (k-fold)<br>
hold-out法を複数回繰り返すことで、訓練データに用いるデータ量を保ちつつ、データ全体を評価に用いることができます。<br>
hold-out法を繰り返回数は、回数を増やすほど学習データの量を確保できるため、全てのデータを学習させた場合に近い評価をすることができますが、その分計算時間も増加します。<br>
繰り返し回数は一般的に5回前後で設定される場合が多いです。

- stratified k-fold<br>
分類タスクの場合に、訓練用データと評価用データに含まれるクラスの割合が等しくなるように層化抽出(stratified sampling)を行う分割方法です。<br>
これは、テストデータに含まれる各クラスの割合は学習データに含まれる割合と同じであるという仮定の下で、評価データをなるべくテストデータに近いものにし正しく評価する目的で利用されます。

- group k-fold<br>
ゲームのログデータや購買履歴のデータなどでは、顧客単位でデータを分割することができます。これは、他の顧客のデータのみを利用して新たな顧客を予測したい場合などに用いられます。<br>
具体的には、テストデータにしか登場しない顧客が存在する場合、上記のような問題設定にしてモデルを作成し、未知の顧客に対しても正しく予測させる場合などがあります。

今回は、1.3.1で確認したように含まれている正解ラベル間で数が異なるため stratified k-fold を採用してバリデーションデータを作成します。

#### 問題

下記のコードは穴埋めになっています。<br>
必要なコードを追記し、<a href='https://www.kaggle.com/c/digit-recognizer' target='_blank'>kaggle</a>上で実行できましたか？<br>

```Python
# データをstratified k-fold(k=5)で分割してください

from sklearn.model_selection import StratifiedKFold

# StratifiedKFoldを実行する
# StratifiedKFoldは各foldの目的変数のラベルの分布が均等になるように分割を行う
# folds = [[fold0のtrainのindexのlist, fold0のvalidのindexのlist], ..., [fold4のtrainのindexのlist, fold4のvalidのindexのlist]]

folds = list(
    StratifiedKFold(
    # 分割するfoldの数
    n_splits= ,  
    # indexの並びをshuffleするか
    shuffle=True, 
    # 乱数シードの指定
    random_state=42,
    ).split(
    # 説明変数の指定
    X= , 
    # 目的変数の指定
    y= , 
    ))

print("fold 0 train index", folds[0][0])
print("fold 0 valid index", folds[0][1])
```

- はい
- いいえ

#### ヒント

- わからない場合のみ、以下をお読みください。

```Python
from sklearn.model_selection import StratifiedKFold

# StratifiedKFoldを実行する
# StratifiedKFoldは各foldの目的変数のラベルの分布が均等になるように分割を行う
# folds = [[fold0のtrainのindexのlist, fold0のvalidのindexのlist], ..., [fold4のtrainのindexのlist, fold4のvalidのindexのlist]]

folds = list(
    StratifiedKFold(
    # 分割するfoldの数
    n_splits=5,  
    # indexの並びをshuffleするか
    shuffle=True, 
    # 乱数シードの指定
    random_state=42,
    ).split(
    # 説明変数の指定
    X=train_df[col_X], 
    # 目的変数の指定
    y=train_df[col_Y], 
    ))

print("fold 0 train index", folds[0][0])
print("fold 0 valid index", folds[0][1])
```

#### 解答

- はい

***

### 1.4.2 ロジスティック回帰を用いた予測

先ほど作成したバリデーションを用いて予測モデルを作成します。<br>
今回のモデルは、ロジスティック回帰を使用します。<br>
ロジスティック回帰の詳細な説明は、<a href='/courses/5020' target='_blank'>教師あり学習（分類）</a>などを参照してください。

#### 問題

下記のコードは穴埋めになっています。<br>
必要なコードを追記し、<a href='https://www.kaggle.com/c/digit-recognizer' target='_blank'>kaggle</a>上で実行できましたか？<br>

```Python
from sklearn.linear_model import LogisticRegression

# 各fold毎に処理を行う
for (train_index, valid_index) in folds: 
    # 学習に用いる説明変数を抽出
    X_train = 
    # 検証に用いる説明変数を抽出
    X_valid = 
    # 学習に持ちいる目的変数を抽出
    Y_train = 
    # 検証に用いる目的変数を抽出
    Y_valid = 
    # 予測結果を記録する変数
    Y_pred = np.zeros([len(train_df)]) 
    
    print(X_train.shape, Y_train.shape)
    print(X_valid.shape, Y_valid.shape)
    # モデルの作成
    logreg = LogisticRegression()
    # モデルの学習
    logreg.fit(X_train, Y_train) 
    # 検証データに対する予測
    Y_pred[valid_index] = logreg.predict(X_valid) 

print("fold 0 valid index", folds[0][1])
# 精度を計算
acc = (train_df[col_Y]==Y_pred).mean()
print(acc)
```

- はい
- いいえ

#### ヒント

- わからない場合のみ、以下をお読みください。

```Python
from sklearn.linear_model import LogisticRegression

# 各fold毎に処理を行う
for (train_index, valid_index) in folds: 
    # 学習に用いる説明変数を抽出
    X_train = train_df[col_X].values[train_index] 
    # 検証に用いる説明変数を抽出
    X_valid = train_df[col_X].values[valid_index] 
    # 学習に持ちいる目的変数を抽出
    Y_train = train_df[col_Y].values[train_index] 
    # 検証に用いる目的変数を抽出
    Y_valid = train_df[col_Y].values[valid_index] 
    # 予測結果を記録する変数
    Y_pred = np.zeros([len(train_df)]) 
    
    print(X_train.shape, Y_train.shape)
    print(X_valid.shape, Y_valid.shape)
    # モデルの作成
    logreg = LogisticRegression()
    # モデルの学習
    logreg.fit(X_train, Y_train) 
    # 検証データに対する予測
    Y_pred[valid_index] = logreg.predict(X_valid) 

print("fold 0 valid index", folds[0][1])
# 精度を計算
acc = (train_df[col_Y]==Y_pred).mean()
print(acc)
```

#### 解答

- はい

***

### 1.4.3 ランダムフォレストを用いた予測

ロジスティック回帰とは別のアプローチとしてランダムフォレストを用いて予測モデルを作成します。<br>
ランダムフォレストの詳細な説明は、<a href='/courses/5020' target='_blank'>教師あり学習（分類）</a>などを参照してください。<br>
また、余力のある方は、1.4.2で作成したロジスティック回帰のモデルや、今回作成するランダムフォレストのパラメーターチューニングなどを行い精度向上に挑戦してみてください。

#### 問題

下記のコードは穴埋めになっています。<br>
必要なコードを追記し、<a href='https://www.kaggle.com/c/digit-recognizer' target='_blank'>kaggle</a>上で実行できましたか？<br>

```Python
from sklearn.ensemble import RandomForestClassifier

# 各fold毎に処理を行う
for (train_index, valid_index) in folds:
    # 学習に用いる説明変数を抽出
    X_train = 
    # 検証に用いる説明変数を抽出
    X_valid = 
    # 学習に持ちいる目的変数を抽出
    Y_train = 
    # 検証に用いる目的変数を抽出
    Y_valid = 
    # 予測結果を記録する変数
    Y_pred = 
    
    print(X_train.shape, Y_train.shape)
    print(X_valid.shape, Y_valid.shape)
    
    # モデルの作成
    rf = RandomForestClassifier(n_estimators=500)
    # モデルの学習
    rf.fit(X_train, Y_train)
    # 検証データに対する予測
    Y_pred[valid_index] = rf.predict(X_valid)

# 精度を計算
acc = 
print(acc)
```

- はい
- いいえ

#### ヒント

- わからない場合のみ、以下をお読みください。

```Python
from sklearn.ensemble import RandomForestClassifier

# 各fold毎に処理を行う
for (train_index, valid_index) in folds:
    # 学習に用いる説明変数を抽出
    X_train = train_df[col_X].values[train_index] 
    # 検証に用いる説明変数を抽出
    X_valid = train_df[col_X].values[valid_index] 
    # 学習に持ちいる目的変数を抽出
    Y_train = train_df[col_Y].values[train_index] 
    # 検証に用いる目的変数を抽出
    Y_valid = train_df[col_Y].values[valid_index] 
    # 予測結果を記録する変数
    Y_pred = np.zeros([len(train_df)])
    
    print(X_train.shape, Y_train.shape)
    print(X_valid.shape, Y_valid.shape)
    
    # モデルの作成
    rf = RandomForestClassifier(n_estimators=500)
    # モデルの学習
    rf.fit(X_train, Y_train)
    # 検証データに対する予測
    Y_pred[valid_index] = rf.predict(X_valid)

# 精度を計算
acc = (train_df[col_Y]==Y_pred).mean()
print(acc)
```

#### 解答

- はい

##  1.5 まとめ問題（提出不要）

ここのまとめ問題(提出不要)は無視してください。

#### 問題

問題文

In [None]:
# 問題コード

#### ヒント

#### 解答例

In [None]:
# 解答コード

解説を書く。

***