<a href="https://colab.research.google.com/github/DeepInsider/playground-data/blob/master/docs/articles/deeplearning1g2t_lesson01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##### Copyright 2018 Digital Advantage - Deep Insider.

In [0]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# 「Lesson 1. ディープラーニング、まずはデータに慣れよう！ 初めての座標点データとグラフ化」のノートブック

<table valign="middle">
  <td>
    <a target="_blank" href="https://deepinsider.jp/tutor/deeplearning1g2t/lesson01"> <img src="https://re.deepinsider.jp/img/ml-logo/manabu.svg"/>Deep Insiderで記事を読む</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/DeepInsider/playground-data/blob/master/docs/articles/deeplearning1g2t_lesson01.ipynb"> <img src="https://re.deepinsider.jp/img/ml-logo/gcolab.svg" />Google Colabで実行する</a>
  </td>
  <td>
    <a target="_blank" href="https://github.com/DeepInsider/playground-data/blob/master/docs/articles/deeplearning1g2t_lesson01.ipynb"> <img src="https://re.deepinsider.jp/img/ml-logo/github.svg" />GitHubでソースコードを見る</a>
  </td>
</table>

※上から順に実行してください。上のコードで実行したものを再利用しているところがあるため、すべて実行しないとエラーになるコードがあります。  
　すべてのコードを一括実行したい場合は、メニューバーから［ランタイム］－［すべてのセルを実行］をクリックしてください。

※このノートブックは「Python 2」でも実行できるようにしていますが、基本的に「Python 3」を利用することをお勧めします。
　Python 3を利用するには、メニューバーから［ランタイム］－［ランタイムのタイプを変更］を選択すると表示される［ノートブックの設定］ダイアログの、［ランタイムのタイプ］欄で「Python 3」に選択し、その右下にある［保存］ボタンをクリックしてください。

In [0]:
# Python バージョン2への対応
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
from __future__ import unicode_literals

import sys
print(sys.version_info.major)  # 3  # バージョン（メジャー）
print(sys.version_info.minor)  # 6  # バージョン（マイナー）

## Pythonによる座標点データの作成

### 座標点データ

In [0]:
# NumPyのインストール（※念のため）
!pip install numpy

#### リスト1　Pythonで作成する座標点データのコード例

In [0]:
import numpy as np

array2d = np.array([ [ -3.18,  1.80,  1 ],
                     [ -0.83, -1.34,  1 ],
                     [  4.66,  1.52, -1 ] ])

array2d  # array([[-3.18,  1.8 ,  1.  ],
         #        [-0.83, -1.34,  1.  ],
         #        [ 4.66,  1.52, -1.  ]])

#### リスト2　playground-dataライブラリのインストール

In [0]:
!pip install playground-data

#### リスト3　plygdataモジュールのインポート

In [0]:
import plygdata as pg

#### リスト4　データ種別の選択

In [0]:
data_type = pg.DatasetType.ClassifyTwoGaussData

#### リスト5　Playgroundデータの生成

In [0]:
data_list = pg.generate_data(data_type)
data_array = np.array(data_list)

### データ内容の確認とNumPyのスライシング

#### リスト6　NumPyのスライシング

In [0]:
data_array[247:252]


# 出力例：
# array([[ 3.02896704,  2.70391185,  1.        ],
#        [ 1.19816524,  0.54159088,  1.        ],
#        [ 1.81998105,  2.81966864,  1.        ],
#        [-2.60865641, -1.80572582, -1.        ],
#        [-1.66184198, -2.85313068, -1.        ]])

### NumPyのスライシング（多次元配列）

#### リスト7　NumPyのスライシング（多次元配列）

In [0]:
data_array[247:252, 2]

# array([ 1.,  1.,  1., -1., -1.])

### 訓練データと精度検証データの分割（行の分割）

#### リスト8　訓練データと精度検証データの分割

In [0]:
row_count, _ = data_array.shape  # タプル値。(行数, 列数)で取得して、列数は無視する
train_count  = int(row_count * 0.8)  # 訓練データは500×0.8＝400件
valid_count  = int(row_count * 0.2)  # 精度検証データは500×0.2＝100件

np.random.shuffle(data_array)  # データをシャッフルして、ランダムに並び替え

train = data_array[:train_count]  # 訓練データ
valid = data_array[valid_count:]  # 精度検証データ

print(train[:3])  # 内容確認用に、訓練データの先頭3件の出力例
# [[ 1.79815681  2.17092844  1.        ]
#  [-1.37980024 -2.32030578 -1.        ]
#  [ 0.47576469  1.77740128  1.        ]]

print(valid[:3])  # 内容確認用に、精度検証データの先頭3件の出力例
# [[-1.02936991 -2.98095861 -1.        ]
#  [ 3.07660177  2.04484417  1.        ]
#  [ 2.17245687  2.65598799  1.        ]]

### 座標点データと教師ラベルの分割（列の分割）

#### リスト9　座標点データと教師ラベルの分割

In [0]:
# 訓練データ
X_train = train[:, :2]  # 座標点データ
y_train = train[:, 2:]  # 教師ラベル

# 精度検証データ
X_valid = valid[:, :2]  # 座標点データ
y_valid = valid[:, 2:]  # 精度検証データ

print(X_train[:3])  # 内容確認用に、訓練データ（座標点データ）の先頭3件の出力例
# [[ 1.79815681  2.17092844]
#  [-1.37980024 -2.32030578]
#  [ 0.47576469  1.77740128]]

print(y_train[:3])  # 内容確認用に、訓練データ（教師ラベル）の先頭3件の出力例
# [[ 1.]
#  [-1.]
#  [ 1.]]

print(X_valid[:3])  # 内容確認用に、訓練データ（座標点データ）の先頭3件の出力例
# [[-1.02936991 -2.98095861]
#  [ 3.07660177  2.04484417]
#  [ 2.17245687  2.65598799]]

print(y_valid[:3])  # 内容確認用に、訓練データ（教師ラベル）の先頭3件の出力例
# [[-1.]
#  [ 1.]
#  [ 1.]]

### 簡単にデータ分割（playground-dataライブラリの場合）

#### リスト10　pg.split_data()関数によるデータ分割

In [0]:
X_train2, y_train2, X_valid2, y_valid2 = pg.split_data(data_array, validation_size=0.2)

print(X_train2[:3])  # 内容確認用に、訓練データ（座標点データ）の先頭3件の出力例
# [[-2.00731056 -1.717776  ]
#  [ 2.09417471  1.57374136]
#  [ 1.05214252  3.30017127]]

print(y_train2[:3])  # 内容確認用に、訓練データ（教師ラベル）の先頭3件の出力例
# [[-1.]
#  [ 1.]
#  [ 1.]]

print(X_valid2[:3])  # 内容確認用に、訓練データ（座標点データ）の先頭3件の出力例
# [[ 2.44985369  2.97939926]
#  [-3.17870688 -2.25489085]
#  [-2.8871559  -3.11640629]]

print(y_valid2[:3])  # 内容確認用に、訓練データ（教師ラベル）の先頭3件の出力例
# [[ 1.]
#  [-1.]
#  [-1.]]

## Pythonによる座標点データのグラフ化

### Matplotlibの使い方

#### リスト11　Matplotlibのインストール

In [0]:
!pip install matplotlib

#### リスト12　matplotlib.pyplotモジュールのインポート

In [0]:
import matplotlib.pyplot as plt

#### リスト13　枠（Figure：図）の作成と、そこへの1つのグラフ（Axes：座標軸）の追加

In [0]:
#%matplotlib inline          # Google Colabでは不要だが、必要な場合がある*3

fig = plt.figure()           # Figure（図）インスタンスの作成

ax = fig.add_subplot(1,1,1)  # subplot（サブプロット）配置の一部として、FigureへAxes（座標軸）を追加
# subplotとは、タイル状に配置されたAxes（複数の座標軸）のこと。この例では、行 1、列 1、のタイル配置で、左上からの 1 番目の場所、という意味

_ = ax.scatter(X_train[:, 0], X_train[:, 1]) # 散布図を描画*4

#fig.show()                  # Figureを表示

### Playground用グラフの描画

#### リスト14　pg.plot_points_with_playground_style()関数による散布図の描画

In [0]:
fig, ax = pg.plot_points_with_playground_style(X_train, y_train, X_valid, y_valid)

## チャレンジ問題の解答例

In [0]:
#!pip install playground-data

In [0]:
# NumPyライブラリのモジュールをインポート
import numpy as np

# playground-dataライブラリのモジュールをインポート
import plygdata as pg

# データ種別は回帰（Regress）の平面（Plain）
data_type2 = pg.DatasetType.RegressPlane

# データを生成
data_list2 = pg.generate_data(data_type2)

# データを多次元配列化
data_array2 = np.array(data_list2)

# データを分割
X_train3, y_train3, X_valid3, y_valid3 = pg.split_data(data_array2, validation_size=0.4)

# グラフを描画
fig2, ax2 = pg.plot_points_with_playground_style(X_train3, y_train3, X_valid3, y_valid3)