# 機械学習に触れてみよう！

**ポケモン**のデータを利用して、機械学習の体験を行なっていただきます。
今回は、全てのポケモンの中から伝説のポケモンと非伝説のポケモンに分けてみましょう。

これは機械学習のタスクの中でも、**教師あり学習**の**分類**という手法になります。

![8eb5cede0ba65191a84cbc0b18c0bf70.png](attachment:8eb5cede0ba65191a84cbc0b18c0bf70.png)

## データの読み込み

今回使用するデータセットは、[ポケモンのデータセット](https://www.kaggle.com/abcsds/pokemon/data)を用います。**ライブラリ**を用いて、データセットの読み込みやデータの操作を行います。

### ライブラリ

まずは、ライブラリという言葉の定義と、Pythonでよく利用されるライブラリについて学習しましょう

#### <i class="icon information"></i> ライブラリとは

ライブラリとは一言でいうと、***プログラムで書かれた便利でよく使われる処理の集まり***です。
プログラムに何かの処理をさせたい時に自分で0からコードを書いて実現せず、**既に誰かが書いたコードを利用する**という手段がプログラミングではよく用いられます。ライブラリとして用意されているコードを用いることで、便利かつよく利用される処理を少ないコードの記述量で実現する事が出来ます。

続いて、Pythonで機械学習をする上でよく利用されるライブラリを紹介します。

#### <i class="icon information"></i> NumPy

**NumPy(ナムパイまたはナンパイ)**は、数値計算を効率的に行うためのライブラリです。行列を操作するために必要となります。NumPyを利用すると柔軟な配列操作を可能にします。他のPythonのライブラリーと連携しており、組み合わせて使うことが非常に多くなります。NumPyでは具体的には下記のようなことができます。

```bash
-配列を作成する
-ある行、列だけを抽出する（インデックスで指定）
-条件に合うデータだけ抽出する（条件式で指定）
-配列を連結する（行方向、列方向）
```

[!!参考 Pythonの数値計算ライブラリ NumPy入門](http://rest-term.com/archives/2999/)

### <i class="icon information"></i> matplotlib

Pythonでグラフを描画するためのライブラリです。読み込んだデータをグラフ上にプロット(散布)したり、棒線グラフや散布図のグラフを描画することが出来ます。


### Pandas

**Pandas(パンダス)**はデータ解析を支援する機能を提供するライブラリです。ファイルの書き込みや書き出し等もPandas内のメソッドを利用すると簡単に可能です。さらにデータの平均値や標準偏差をコマンド一つで求める事を可能にします。



#### ライブラリの利用方法

Pythonでライブラリを利用できるようにするには`import ライブラリー名 as 変数名`と書き込みます。

#### <i class="icon information"></i> import ライブラリー名 as 変数名

Pythonでライブラリーを使用する時はimport(インポート)メソッドを使用します。`import ライブラリー名 as 変数名`のように使用し、importのすぐ右に読み込むライブラリー名を指定し、asの右にライブラリーを呼び出す時に使用する変数名を指定します。

## 実際にコードを書いてみよう
以下のCellの中にあるコードを、その下の空白のCellに打ち込んでみましょう。
全て打ち込むことができたら、**Shift + Enter**を押すことでそのCellを実行することができます。

###### ※実際のカリキュラムでは、今回出てくるような難しそうなコードを分かりやすく解説しております。
###### 今回はコードの理解に努めるのではなく、機械学習の雰囲気を感じ取ってみてください。

In [51]:
# ここにコードを書きましょう。


続いて、ポケモンのデータセットをpandasを使って読み込みます

In [52]:
# ここにコードを書きましょう。


データの読み込みが終わったらデータの中身を確認しましょう。今回のポケモンのデータはテーブル形式でインポートされています。

In [53]:
# ここにコードを書きましょう。

以下のように記載することで、特定のデータを取得したりできます。

In [54]:
# ここにコードを書いてみましょう。


次に、必要なデータのみを切り取り、それぞれの変数に代入します。

In [55]:
# ここにコードを書いてみましょう。


# 分類

データを用意することができたので、実際にデータの学習を行なっていきます。

ポケモンが持つ**[HP	Attack	Defense	Sp. Atk	Sp. Def	Speed]**の**特徴量**を元に**Legendary(伝説)**のポケモンかどうかの**2値分類**を行います。これ以下のコードでは分類を行うためにデータをトレーニングデータとテストデータに分割しています。

### データの分割
モデルを評価する上で、どのデータを用いて評価するのかというのが大事になります。モデルは学習データについて学習を行うのである程度良い結果が出るのは当然とも言えます。しかし大事なのは、**未知のデータに対しても同様に予測**できるかです。そのため**モデルを評価する際用いるデータは、学習に用いられていないデータ**であるべきといえます。
そこで、学習を行う前の段階でモデルを評価する前に**トレーニングデータ(訓練用)**とデータを**テストデータ(評価用)**とに分割する必要があります。

![https://tech-master.s3.amazonaws.com/uploads/curriculums//0789b394581c87891d81d41e9790aa07.png](https://tech-master.s3.amazonaws.com/uploads/curriculums//0789b394581c87891d81d41e9790aa07.png)

[!!画像引用：GitHubGist](https://gist.github.com/Kakune/9cb64e7cd6176c84f86af153c9c003d2)


以下のコードはデータの分割を行っています。(コードの内容について理解する必要はありません。)

In [56]:
# ここにコードを書いてみましょう。


In [57]:
# ここにコードを書いてみましょう。


# K近傍法

分類問題を解く手法は数多くあります。<br>
中でも今回はもっとも初歩的な手法である**K近傍法**を体験してみたいと思います。

アルゴリズムは非常に簡単で、<br>
学習データをベクトル空間上にプロットしておき、未知のデータが得られたら、そこから距離が近い順に任意のK個を取得し、多数決でデータが属するクラスを推定します。<br>

- １　既知のデータ(学習データ)を黄色と紫の丸としてプロットしておく。
- ２　Kの数を決めておく。(K=3のように)
- ３　未知のデータとして赤い星が得られたら、近い点からK個取得する。
- ４　集まったK個の中で多数決を行い、属するクラスを推定する。

今回は、未知の赤い星はClass Bに属すると推定できる。

<img src ='img1/knn.png' width='400'>

中でも今回は**学習データに偏りがある**ので、**K=1**とした**最近傍法**を用います。<br/>
まずはscikit-learnを用いて、KNeighborsClassifierクラスをインポートしましょう。


### <i class="icon information"></i> scikit-learnとは
scikit-learn(サイキットラーン)は、機械学習に特化したライブラリです。<br/>
様々な分類、回帰、クラスタリングのアルゴリズムをすぐに利用できる様に準備している他、様々なデータセットもscikit-learn経由で読み込むことができます。<br/>
基本的な機械学習アルゴリズムは全て実装がされています。
[!!参考：scikit-learnの公式ドキュメント](http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html)

In [58]:
# ここにコードを書いてみましょう。


In [59]:
# ここにコードを書いてみましょう。


In [60]:
# ここにコードを書いてみましょう。


ここまでで、K近傍法モデルに対してデータの学習をさせることは出来ました。どの様に分類されたか結果を見てみましょう。<br/>
K近傍法モデルが伝説のポケモンと予測したデータを画像で表示させるためのコードが下記です。

In [61]:
# ここにコードを書いてみましょう。


表示された画像がK近傍で伝説のポケモンとされたポケモンたちの画像です。<br/>
この結果は正しいのでしょうか？それを評価するコードが以下です。

In [62]:
# ここにコードを書いてみましょう。


間違えて予測してしまったデータ数が52個、全体の正答率は92%という結果が出ましたのでまずまずのようです。<br/>
次は、実際の予測結果をグラフで可視化してみましょう。

In [63]:
# ここにコードを書いてみましょう。


続いて、混合行列で結果を可視化してみます。

In [64]:
# ここにコードを書いてみましょう。


上記の混合行列の結果は以下のようになっています。

- 非伝説を非伝説と推測したが563
- 非伝説を伝説と推測したが12
- 伝説を伝説と推測したが19
- 伝説を非伝説と推測したが40<br/>
という結果になりました。

今後もっと様々な手法を用いることでこれらの精度を上げて行くことができます。

## お疲れ様でした！
##### これでAIコースの体験会カリキュラムは終了となります。メンターに終わったことを報告してください。