<a href="https://colab.research.google.com/github/shinonimous/MachineLearningPractice/blob/main/Python%E3%82%92%E7%94%A8%E3%81%84%E3%81%9F%E5%AE%9F%E8%B7%B5%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E5%85%A5%E9%96%80%EF%BC%88%E7%AC%AC%EF%BC%91%E7%AB%A0%EF%BC%91%EF%BC%8D%EF%BC%91%E3%83%91%E3%83%B3%E3%83%80%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%A6%E3%81%BF%E3%82%88%E3%81%86%EF%BC%89.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pythonを用いた実践ディープラーニング入門
* 出典(Reference): [Jeff Heaton's Washington University Class Material](https://github.com/jeffheaton/t81_558_deep_learning)

# 第１章　パンダを用いたデータの扱い方

* **1.1: パンダを使ってみよう** [[Video]](https://currentlypreparingNo1) [[Notebook]](Pythonを用いた実践ディープラーニング入門（第１章１－１パンダを使ってみよう）.ipynb)
* 1.2: パンダを用いたデータの分類 [[Video]](https://currentlypreparingNo2) [[Notebook]](CurrentlyPreparing.ipynb)
* 1.3: パンダを用いたグループ化、ソート、シャッフル [[Video]](https://currentlypreparingNo3) [[Notebook]](CurrentlyPreparing.ipynb)
* 1.4: パンダのApplyとMapを使ってみよう [[Video]](https://currentlypreparingNo4) [[Notebook]](CurrentlyPreparing.ipynb)
* 1.5: パンダで特徴量エンジニアリング [[Video]](https://currentlypreparingNo5) [[Notebook]](CurrentlyPreparing.ipynb)

# Google Colaboratory の設定確認

以下のコードで、Google ColaboratoryのTensorflowのバージョンが正しいかどうかを確かめることができます。

In [None]:
try:
    from google.colab import drive
    %tensorflow_version 2.x
    COLAB = True
    print("正しいバージョンです")
except:
    print("誤ったバージョンです")
    COLAB = False

# 1.1: パンダを使ってみよう

パンダ([Pandas](http://pandas.pydata.org/))は、Pythonプログラミングにおいて利用できるオープンソースのライブラリで、非常に性能が良く、使い勝手の良いものです。そのコンセプトはR言語と通じるものがあります。通常、データ分析を目的として収集した生のデータは、そのままではニューラルネットワークで処理できる形式では無いため、パンダのようなライブラリを用いて、処理しやすいデータ形式に加工することになります。

ここでは、まず分析のための[データセット](https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv)を手に入れ、Pandasのコンポーネントである[Dataframe](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)にセットしてみましょう。

ここで使うデータセットは、[Kaggle](https://www.kaggle.com/)で「Earthquake in Japan」と検索して見つけたものです。

このデータセットは21列、14,093行から成ります。
特に重要な列としては、latitude（緯度）、longitude（経度）、depth（震源の深さ）、mag（マグニチュード）があります。

In [None]:
# Pandasを用いてデータセットを手に入れ、Dataframeにセットし、5行目迄を表示
import pandas as pd

df = pd.read_csv("https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv")
print(df[0:5])

上では**print**メソッドを利用してdataframe内のデータを表示しましたが、より美しく表示する方法があります。それが、**display**メソッドです。

表示する際の列数、行数を指定したうえで表示できます。ここでは、11列、10行を表示してみましょう。

※全行列を表示するには、0を指定します。

In [None]:
pd.set_option('display.max_columns', 11)
pd.set_option('display.max_rows', 10)
display(df)

## 統計情報の取得と表示

dataframeの統計情報を取得します。
dataframe内の、int型、float型の列のみを対象として取り出し、その列の、列名、平均値、分散、標準偏差を一覧として表示してみましょう。

In [None]:
# int型、float型の値が入っている列のみを対象として取り出す
df = df.select_dtypes(include=['int', 'float'])

# 列名を一覧化してheadersに格納する
headers = list(df.columns.values)

# 一覧表示用のデータを格納する配列
fields = []

# 列名をひとつずつ取り出し、列名、平均値、分散、標準偏差を求めて一覧化する
for header in headers:
    fields.append({
        'name' : header,
        'mean': df[header].mean(),
        'var': df[header].var(),
        'sdev': df[header].std()
    })

for field in fields:
    print(field)

上で作成した一覧は、JSON形式のデータのような見た目となっています。

※正確なJSONではない（ひとつずつが配列要素なので）ので、ここでは疑似JSON形式と呼びます。本当のJSONファイルにするためには、上記の配列要素をひとつのリスト内にaddしてゆき、そのうえでPython JSON Libraryの**dumps**コマンドを実行しますが、ここでは割愛します。

pd.read_csv(<ファイルパス>)によってdataframeを作成できることは実践しましたね。疑似JSON形式からdataframeを作成することもできます。ここではfieldsをdataframeに変換して、displayメソッドで表示してみましょう。

In [None]:
pd.set_option('display.max_columns', 0)
pd.set_option('display.max_rows', 0)
df2 = pd.DataFrame(fields)
display(df2)

## 欠測値への対応

理想的には、全ての列について、全ての行のデータが存在しているというのが望ましい状況ですが、現実的にはそうはいきません。

欠測値への対応方法はいくつか考えられますが、簡単な方法として、中央値によって値を埋めるという方法が考えられます。

まずは、欠測値が存在するのかどうかを調べてみましょう。

In [None]:
import os
import pandas as pd

# デフォルトの欠測値にあわせて、NAや?も欠測値として定義する
df = pd.read_csv(
    "https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv", 
    na_values=['NA', '?'])

# Dataframeをそのままループを回すと列名が取得される
for column_name in df:
  print(f"「{column_name}」は欠測値を持つか？: {pd.isnull(df[column_name]).values.any()}")
  if pd.isnull(df[column_name]).values.any():
    print(f"「{column_name}」の欠測値がある行は以下：")
    print(f"{df[df[column_name].isnull()][column_name]}")

それでは、欠測値について該当列の中央値によって埋めてゆきましょう。

In [None]:
for column_name in df:
  print(f"「{column_name}」は欠測値を持つか？: {pd.isnull(df[column_name]).values.any()}")
  if pd.isnull(df[column_name]).values.any():
    print("　　欠測値を中央値によって埋めています…")
    med = df[column_name].median()
    df[column_name] = df[column_name].fillna(med)
    print(f"　　「{column_name}」は欠測値を持つか？: {pd.isnull(df[column_name]).values.any()}")

## 外れ値への対応

外れ値とは、大きすぎたり小さすぎたりする値のことで、データ観測上のエラーである可能性が考えられ、分析結果に大きなゆがみを生じさせてしまう可能性があるため、データセットから除外することを考えます。

通常、平均値から標準偏差の何倍分か外れている、といった基準で外れ値を特定します。以下が外れ値を除外するコーディングの一例です。
@引数
- df    ：dataframe
- name ：列名
- sd    ：何倍分外れた時に除外するか、という倍数

In [None]:
# 外れ値が存在する行について取り除くメソッド
def remove_outliers(df, name, sd):
    drop_rows = df.index[(np.abs(df[name] - df[name].mean())
                          >= (sd * df[name].std()))]
    df.drop(drop_rows, axis=0, inplace=True)

以下が、実際に外れ値が存在する行を取り除くコーディングの一例です。
ここでは、平均値から標準偏差の2倍以上離れた場合に、外れ値とみなします。外れ値に関しては、magに関してのみチェックします。

In [None]:
import pandas as pd
import os
import numpy as np
from sklearn import metrics
from scipy.stats import zscore

df = pd.read_csv(
    "https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv", 
    na_values=['NA', '?'])

# 欠測値への対処（ここではdepthのみ対応）
med = df['depth'].median()
df['depth'] = df['depth'].fillna(med)

# mag(マグニチュード)の外れ値をチェック
print("外れ値を落とす前のDataframeの行数: {}".format(len(df)))
remove_outliers(df,'mag',2)
print("外れ値を落とした後のDataframeの行数: {}".format(len(df)))

pd.set_option('display.max_columns', 0)
pd.set_option('display.max_rows', 5)
display(df)

## 利用しない列への対応

ニューラルネットワークにおいて利用しない列は削除します。今回、latitude（緯度）、longitude（経度）、depth（震源の深さ）、mag（マグニチュード）以外は利用しないものとし、dropしてみましょう。

In [None]:
import os
import pandas as pd

df = pd.read_csv(
    "https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv", 
    na_values=['NA', '?'])

print(f"列を落とす前: {list(df.columns)}")
drop_col = ['time','magType','gap','dmin','rms','net','id','updated','place','type','horizontalError','depthError','magError','magNst','status','locationSource','magSource']
df.drop(drop_col, axis=1, inplace=True)
print(f"列を落とした後: {list(df.columns)}")

## 行や列の結合
上記ではdropすることで利用する列のみを得ましたが、逆に利用する列のみを選んで、**concat**メソッドによって結合することで、利用する列を作成できます。

In [None]:
# latitude（緯度）、longitude（経度）、depth（震源の深さ）、mag（マグニチュード）を選んで結合

import os
import pandas as pd

df = pd.read_csv(
    "https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv",
    na_values=['NA','?'])

col_latitude = df['latitude']
col_longitude = df['longitude']
col_depth = df['depth']
col_mag = df['mag']
result = pd.concat([col_latitude, col_longitude, col_depth, col_mag], axis=1)

pd.set_option('display.max_columns', 0)
pd.set_option('display.max_rows', 5)
display(result)

**concat**メソッドは、axisに0を指定することで行を結合することもできます。以下では、dataframeの上から2行、下から2行のみを取得して表示してみましょう。

In [None]:
import os
import pandas as pd

df = pd.read_csv(
    "https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv",
    na_values=['NA','?'])

result = pd.concat([df[0:2],df[-2:]], axis=0)

pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 0)
display(result)

## 訓練データとテストデータの分割

機械学習のモデルは初見のデータからどれだけ正確に予測ができるか、によって評価することができます。そのため、手に入っているデータの全てをモデルの構築のための訓練データとして利用するのではなく、一部を訓練データ、一部をテストデータ(初見のデータ)
として分割することが良くあります。
* **訓練データ** - 機械学習のモデルを構築するために用いる。
* **テストデータ** - 構築したモデルを評価するために用いる。

訓練データとテストデータの分割方法として、有名な二つの方法があります。
* **データ分割** - 定められた比率でデータを分割します。一般的な比率としては、80%を訓練データ、20%をテストデータとします。
* **K分割交差テスト** - データ分割の応用のような形式です。データをK分割します。たとえば、データを5分割したとします。そのうち、4つを訓練データ、1つをテストデータとして用います。これだけだと、80%を訓練データ、20%をテストデータとして扱う「データ分割」と同じなのですが、単なる「データ分割」との違いは、テストデータとして利用する1分割分について、全てのパターンを実施するということです。5分割する例だと、どれをテストデータとして利用するかによって、5パターン分のモデルを構築することができます。最終的に5つのモデルの精度を評価し、平均化して一つのモデルに融合します。

以下に紹介するコーディングは、80%を訓練データ、20%をテストデータとするデータ分割を実施するものです。

**Figure 2.TRN-VAL: Training and Validation**
![Training and Validation](https://raw.githubusercontent.com/jeffheaton/t81_558_deep_learning/master/images/class_1_train_val.png "Training and Validation")


In [None]:
import os
import pandas as pd
import numpy as np

df = pd.read_csv(
    "https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv",
    na_values=['NA','?'])

# Dataframeをシャッフル
df = df.reindex(np.random.permutation(df.index)) 

# np.random.rand(len(df))は0～1の範囲で、len(df)個の数値をランダムに生成する。
# 生成値と0.8を比較することで、生成された値が0.8より小さい場合にはmaskはtrueとなり、大きい場合はfalseとなる。
# mask[0] = true, mask[1] = false, … , mask[len(df)] = false、といった配列が生成されているということ。
mask = np.random.rand(len(df)) < 0.8

# maskに基づいてデータを分割する。maskがtrueとなるdfの行はtrainDFに含まれる。
trainDF = pd.DataFrame(df[mask])

# ~maskはmaskの値を反転（tureをfalseに、falseをtrueに）する。
validationDF = pd.DataFrame(df[~mask])

print(f"訓練データフレームの行数: {len(trainDF)}")
print(f"テストデータフレームの行数: {len(validationDF)}")

## データフレームのマトリックス（行列）への変換

ニューラルネットワークは、PythonのDataframeを扱うことができないので、行列形式に変換してあげる必要があります。ここでは、Dataframeの**values**プロパティを用いることで、Dataframeをマトリックスに変換しましょう。

In [None]:
print(df)
print(df.values)

列名を指定することで、特定の列のみのマトリックスを作成することもできます。以下のように指定します。

In [None]:
df[['latitude', 'longitude', 'depth', 'mag']].values

## DataframeをCSV形式で保存する

PandasのDataframeはCSV形式で保存することができます。行をシャッフルして、CSVファイルとして保存してみます。

In [None]:
import os
import pandas as pd
import numpy as np

path = "."

df = pd.read_csv(
    "https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv",
    na_values=['NA','?'])

filename_write = os.path.join(path, "JapanEarthquake_Shuffle.csv")
df = df.reindex(np.random.permutation(df.index))
# index = falseの指定は、行名をファイルに含めないということを意味する。
df.to_csv(filename_write, index=False) 
print("保存しました。")

## DataframeをPickle形式で保存する

[Pickle](https://docs.python.org/3/library/pickle.html)形式はPythonのデータ保存形式です。Dataframeを保存する際には、Python以外のプログラムでも利用できるCSV形式で保存する場合が多いですが、CSV形式で保存すると、Pickleより処理速度が遅いのと、形式変換の際にわずかながら情報が落ちるため、Pythonでしか利用しないのであれば、Pickle形式に保存すると良いでしょう。

In [None]:
import os
import pandas as pd
import numpy as np
import pickle

path = "."

df = pd.read_csv(
    "https://shinonimous.sakura.ne.jp/csv/Japan%20earthquakes%202001%20-%202018.csv",
    na_values=['NA','?'])

filename_write = os.path.join(path, "JapanEarthquake_Shuffle.pkl")
df = df.reindex(np.random.permutation(df.index))

with open(filename_write,"wb") as fp:
    pickle.dump(df, fp)

print("保存しました。")

Pickleを再度メモリにロードする方法を説明します。Pickleからデータをロードした場合、index番号（行番号）が、前回Shuffleした状態からそのままでロードされます。CSV形式からロードする場合には、このindex番号は残っていません（新たに採番されます）。CSV形式にするとわずかに落ちる情報とは、こうした情報です。

In [None]:
import os
import pandas as pd
import numpy as np
import pickle

path = "."

filename_read = os.path.join(path, "JapanEarthquake_Shuffle.pkl")

with open(filename_read,"rb") as fp:
    df = pickle.load(fp)

pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 5)
display(df)