# データ処理と可視化

本章から最終 15 章まで機械学習にデータの前処理や機械学習アルゴリズムの実装など、機械学習に関するプログラミングについて学んでいきます。  
まず入門として、データ解析において必須となる Python のパッケージである Pandas と Matplotlib を用いたデータの取扱いを練習しましょう。  

## 本章の構成
- Pandas によるデータ処理の基礎  
- Matplotlib によるデータ可視化の基礎  


## Pandas によるデータ処理の基礎

Pandas は Python を用いたデータ解析で最も頻繁に用いられるパッケージの 1 つであり、CSV データの読み込み・条件抽出・加工などデータ整理全般で使用します。  

本節では Pandas の代表的な機能の使い方を説明します。  

- CSV ファイルの読み込み  
- 基礎統計量の算出  
- データの並べ替え  
- 入力変数と教師データの分割  
- 欠損値の除去 / 補間  
- カテゴリカル変数の取り扱い  

まず Pandas パッケージを読み込みましょう。  
`pandas` は `pd` という別名を与えて用いるのが一般的です。  

In [None]:
import pandas as pd

### CSV ファイルの読み込み

データセットは Colab で用意されているサンプルデータを使用します。  
Colab 以外で実行する場合は、[こちら](https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv)をダウンロードして、使用してください。

**Colab へのファイルのアップロード**  

アップロード方法は下記の画像に従ってください。ファイルをアップロードする前にノートブックがサーバーに接続されていることを確認してください。    

![Google Colaboratory へのファイルのアップロード](http://drive.google.com/uc?export=view&id=1JtlmI-iagQya27eadl-G3fuDTxsEr2VX)

![Google Colaboratory へのファイルのアップロード 2](http://drive.google.com/uc?export=view&id=1F64jQuUbK_QqiJMtAONgmWrCQK-vcQO3)

ファイルタブをクリックし、アップロードのボタンをクリックするとファイルを選択し、アップロードを行うことができます。  
もし、新規のフォルダを作成して、ファイルのアップロードを行う際は、右クリックから新しいフォルダを選択し、新規フォルダを作成した後にファイルをアップロードします。

Pandas では CSV ファイルを読み込むための `pd.read_csv()` という関数が用意されています。
こちらを使って CSV ファイルを読み込みます。

In [None]:
# データセットの読み込み
df = pd.read_csv('sample_data/california_housing_train.csv')

`df` という変数名は、**データフレーム (data frame)** という Pandas で中心的に用いられる**データ構造 (data structure)** を表すクラスの名前の頭文字に由来しています。
`pd.read_csv()` 関数は、CSV ファイルの内容を `DataFrame` オブジェクトに読み込みます。

In [None]:
# 型の確認
type(df)

`df` に読み込まれたデータの中身の確認してみましょう。
ノートブック上では、大きな DataFrame を表示しようとすると自動的に一部が省略されることがあります。

In [None]:
df

データを数件のみ確認したい場合は、データフレームがもつ `df.head()` メソッドを使用します。
`df.head()` はデフォルトで先頭から 5 件のデータを表示しますが、`df.head(3)` のように引数に表示したいデータ件数を指定すると、指定された件数だけを表示することもできます。
それでは、`df.head()` を実行してみましょう。

In [None]:
df.head()

In [None]:
df.head(3)

特定の列を抽出したい場合は、`df` に対し、Python の辞書オブジェクトに行うように `[]` を使って取り出したい列の名前を指定します。

In [None]:
df['longitude'].head()

Pandas では行列をデータフレーム型 (`DataFrame`) 、上記のようなベクトルをシリーズ型 (`Series`) と呼ぶ点も覚えておくとエラーの対処などが楽になるので覚えておきましょう。

In [None]:
type(df['longitude'])

データフレームの行・列数を確認するには `.shape` 属性に保存されています。  
1 つ目の要素が行数、2 つ目の要素が列数を表します。今回のデータセットの行数は 17,000 、列数が 9 であることが確認できます。データセットを読み込んだ際にはまずはデータの行・列数を確認するようにしましょう。  

In [None]:
df.shape

### 基礎統計量の算出
データフレームには、読み込んだデータの統計量を計算するためのメソッドも用意されています。

In [None]:
# 平均
df.mean()

In [None]:
# 分散
df.var()

In [None]:
# 標準偏差
df.std()

In [None]:
# 各列の None, NaN, NaT のいずれでもない値の数
df.count()

ここで、データの特徴をおおまかに調べるために便利な `df.describe()` メソッドを実行してみましょう。  
基礎統計量と呼ばれる平均値、標準偏差などを一覧で表示する事が出来ます。  

In [None]:
# 基礎統計量を一覧表示
df.describe()

また、もうひとつ便利なメソッドに相関係数を算出する `df.corr()` があります。
入力変数間や入出力間の相関係数を確認することができます。

In [None]:
# 相関係数の算出
df.corr()

### データの並べ替え

データフレームのある列を抽出し、`df.sort_values()` メソッドを呼び出すことで値の**並べ替え (sort)** を行うことができます。
なお、このメソッドは並べ替えが終わったあとの値でもとのデータフレーム内の値を置き換えることまでは行わず、結果を返します。
そこで、別の変数で結果を受け取り、始めの 5 行を表示することで並べ替えが行われたことを確認してみましょう。

`df.sort_values()` は、デフォルトでは**昇順 (ascending)** に並べ替えを行います。昇順とは、だんだん値が大きくなっていくように並べ替えるときの並べ方のことで、逆にだんだん値が小さくなっていくように並べ替えるときは、**降順 (descending)** に並べると言います。

`df.sort_values()` は並べ替えを行いたい列の名前を `by` という引数で受け取ります。また、デフォルトでは昇順に並べ替えを行います。  
Colab 上では、メソッドを記述し、`()` 内にカーソルを合わせると必要な引数が自動的に表示されます。  
また、メソッドを持つ値に `.` を入力すると候補となるメソッド一覧が表示されます。

In [None]:
# total_rooms 列の値を昇順に並べ替え
df_as = df.sort_values(by='total_rooms')

In [None]:
df_as.head()

降順に並べ替える場合は、`ascending=False` という引数の指定を行います。

In [None]:
# total_rooms の列の値を降順に並べ替え
df_de = df.sort_values(by='total_rooms', ascending=False)

In [None]:
df_de.head()

### インデックス指定によるデータの選択

機械学習を行う際には用意した CSV データをそのまま使用することは非常に稀です。情報を適切に取捨選択することがモデルの予測性能を高める上でとても重要なので、データの行・列を選択して必要なデータを抽出する手順を抑える必要があります。  

列や行の選択を行う方法は複数ありますが、ここでは整数インデックスを用いてデータの部分選択を行う `df.iloc[]` を紹介します。

In [None]:
# データの確認
df.head()

In [None]:
# df.iloc[行, 列]
# 0 行目 longitude 列の選択
df.iloc[0, 0]

In [None]:
# 1 行目 latitude 列の選択
df.iloc[1, 1]

前章で学んだ NumPy の Array のスライス方法と同様に `:` で全ての値を指定することができます。  
また、負のインデックスを用いると、末尾の要素から数えた位置指定を行うこともできます。

In [None]:
# すべての行の、先頭の列から末尾の列のひとつ手前までを選択
x = df.iloc[:, 0:-1]

In [None]:
# 先頭の5件の表示
x.head()

次のように先頭位置を省略した記述も可能です。  

In [None]:
# すべての行の、先頭の列から末尾の列のひとつ手前までを選択
x = df.iloc[:, :-1]

In [None]:
# 先頭の5件の表示
x.head()

### 条件指定によるデータの選択

次に、条件指定してデータの選択を行う方法を紹介します。

まず `median_house_value` 列を選択し、比較演算子を使って**各要素に対する条件**を指定し、条件を満たすかどうかを全要素に対して調べた結果を取得してみましょう。

In [None]:
# median_house_value 列を選択し、全要素に対し 70000 より大きいかどうかを計算
mask = df['median_house_value'] > 70000

In [None]:
mask.head()

このように、比較演算子の片方の辺にデータフレームやシリーズをおくと、指定された条件を満たすかどうかを全ての要素に対して計算することができます。
結果は、各要素が条件を満たすか、満たさないかを表す `True`、`False` が各要素の位置に格納されたデータフレームやシリーズとなります。
これを**マスク (mask)** と呼ぶことがあります。

そして、データフレームやシリーズも NumPy の ndarray と同様に、マスクを使って要素を選択することができます。
上の `mask` を `df` に `[]` を使って与えることで、指定した条件を満たす要素だけを取り出すことができます。

In [None]:
# df[mask] の先頭 5 件を表示
df[mask].head()

### 複数の条件指定による要素の選択
複数の条件を組み合わせて要素を選択することもでき、**論理和 (or)** は `|`、**論理積 (and)** は `&` を用いて記述します。

In [None]:
# 70000 より小さい または 80000 より大きい
mask2 = (df['median_house_value'] < 70000) | (df['median_house_value'] > 80000)

In [None]:
mask2.head()

In [None]:
df[mask2].head()

In [None]:
# 70000 より大きい かつ 80000 より小さい
mask3 = (df['median_house_value'] > 70000) & (df['median_house_value'] < 80000)

In [None]:
mask3.head()

In [None]:
df[mask3].head()

条件に当てはまる要素を調べる操作と、条件に当てはまる要素の選択まで、1 行にまとめて書くこともできます。

In [None]:
df[(df['median_house_value'] > 70000) & (df['median_house_value'] < 80000)].head()

### 欠損値の除去・補完

データの一部に欠落が存在する場合、該当箇所を欠損値と呼び、 `NaN` (Not a Number)、`None`、`NaT` (Not a Time) などで表示されます。基本的に機械学習のアルゴリズムにデータを適用する際にこのような欠損値は事前に取り除くなどの対処の必要があります。  

最も簡単な方法としては、欠損値を含む行（または列）全体を除去する方法があります。  
他にも平均値・最頻値など何らかの値で欠損値を補完する方法があります。  

まずは、欠損値を除去する方法を紹介します。

In [None]:
# 演習の為に欠損値を人為的に作成
df.iloc[0, 0] = None

In [None]:
# (0, 'longitude') の要素が NaN になっていることを確認
df.head(3)

In [None]:
# 欠損値のあるレコードを削除
df_dropna = df.dropna()

# 先頭から 3 件を表示
df_dropna.head(3)

上の結果と見比べると、`NaN` を含んでいた 0 行目のデータが取り除かれていることが分かります。

次に、平均値を使った欠損値の補完を行います。

In [None]:
# 補完に使用する平均値を計算
mean = df.mean()
mean

計算した各列の値の平均が格納されている `mean` を、`df.fillna()` メソッドに渡すことで、`mean` を用いた欠損値の補完を行うことができます。

In [None]:
# 欠損値を mean で補完
df_fillna =  df.fillna(mean)

# 先頭から 3 件を表示
df_fillna.head(3)

`longitude` 列の 0 行目のデータが 、`mean` の `longitude` の値で補完されていることが確認できます。

今回は欠損値が 1 箇所にだけあるデータを用いましたが、`df.dropna()` や `df.fillna()` は、対象の全ての欠損値に対して上記のような操作を行うメソッドです。

### 練習問題 Pandas によるデータ処理の基礎

Pandasの基礎的な操作方法を復習しましょう。下記の内容を次のセルに記述し、実行結果を確認してください。（必要に応じてセルの追加を行ってください。）  

- `sample_data/california_housing_train.csv` のファイルから再度 CSV ファイルの読み込み `df2` という変数に格納
- 読み込んだデータセットの各列のデータ数、平均、標準偏差、最小値、最大値などの確認
- 1 列目から `median_income` の列までを切り出し、`x` という変数に格納
- `median_house_value` の列を切り出し、`t` という変数に格納
- `t` の値が 450000 以上のデータを抽出
- 上記の抽出したデータを降順に並び替えて値の確認

*ヒント*  
`median_income` の列は後ろから 2 列目に該当します。うまく負の値を用いて切り出しましょう。  

In [None]:
# CSV ファイルの読み込み


In [None]:
# データの基礎的な統計量の確認


In [None]:
# データの切り分け： 1 列目から median_income → x


In [None]:
# データの切り分け： median_house_value → t


In [None]:
# データの条件抽出：マスクの作成


In [None]:
# データの条件抽出と降順で並び替え


#### 模範解答

In [None]:
# CSV ファイルの読み込み
df2 = pd.read_csv('sample_data/california_housing_train.csv')
df2.head()

In [None]:
# データの基礎的な統計量の確認
df2.describe()

In [None]:
# データの切り分け： 1 列目から median_income → x
x = df2.iloc[:, :-1]
x.head()

In [None]:
# データの切り分け： median_house_value → t
t = df2.iloc[:, -1]
t.head()

In [None]:
# データの条件抽出：マスクの作成
mask = (t > 450000)

In [None]:
# データの条件抽出と降順で並び替え
t[mask].sort_values(ascending=False)

## Matplotlib によるデータ可視化の基礎


データフレームを見ただけでは直感的にデータの特徴を理解することは簡単ではありません。  
データを直感的に理解するにはデータの可視化が有効です。Python でのデータの可視化にはよく [Matplotlib](https://matplotlib.org/) というパッケージを用いることが多いです。Matplotlib を用いてのデータの可視化を行いましょう。    
Matplotlib は `matplotlib.pyplot` を `plt` という別名をつけて読み込むのが一般的です。

In [None]:
import matplotlib.pyplot as plt

### 散布図

**散布図 (scatter)** は変数間の相関を視覚的に確認したり、データのばらつきや値の範囲を視覚的に確認するのに便利なものです。
Matplotlib では与えられた配列から散布図を作成する `plt.scatter()` が用意されています。

まずは、`median_income` 列のデータと `median_house_value` 列のデータをそれぞれ横軸、縦軸に取った散布図を描画してみましょう。

In [None]:
plt.scatter(df['median_income'], df['median_house_value'])

次に、`pupulation` 列の値と `median_house_value` 列の値をそれぞれ横軸と縦軸にとった散布図を描画します。

In [None]:
plt.scatter(df['population'], df['median_house_value'])

### ヒストグラム

データ中にどのような値がよく登場しているかという値ごとの頻度を確認するために使われるものに**ヒストグラム (histogram)** があります。

試しに、`median_house_values` 列の値のヒストグラムを描画してみましょう。

In [None]:
plt.hist(df['median_house_value'])

上図の棒グラフ 1 つ 1 つの青い棒は、**ビン (bin)** と呼ばれ、それぞれの高さはある値の範囲に入っているサンプルの数を表します。
ヒストグラムでは値の範囲を複数指定し、それぞれの範囲に入っているサンプルの個数を描画します。
そのため、その値の範囲の指定を `bins` という引数を用いて行う必要があります。
ただし、この引数はオプショナル（設定が必須ではない）なもので、何も与えなかった場合はビンの数が自動的に決定されます。
この引数に整数を与えた場合は、`bins` 個のビンを値の範囲に対して等間隔に作成します。

In [None]:
# bins 引数に値を指定することで、ビンの数を指定できます
plt.hist(df['median_house_value'], bins=50)

上図から、`median_house_value` が 500,000 付近の値をとるサンプルが突出して多く存在していることが分かります。

### 箱ひげ図

**箱ひげ図 (box plot)** は、値のばらつきをわかりやすく表現するための図です。
`df.describe()` で確認できるような、いくつかの統計値をまとめて可視化するものです。
箱ひげ図は、**五数要約 （ five-number summary ）** と呼ばれる以下の統計量をまとめて表すものです。

- 最小値 (minimum)
- 第 1 四分位点 (lower quartile) : 全体の 1/4
- 中央値 (median)
- 第 3 四分位点 (upper quartile) : 全体の 3/4
- 最大値 (maximum)

また、黒の点はそのデータの外れ値を個々に表しています。`plt.boxplot()` の外れ値の定義に関してはこちらの[公式リファレンス](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.boxplot.html)の `whis` パラメータを確認してください。  

描画には、`plt.boxplot()` を用います。

In [None]:
plt.boxplot(df['median_house_value'])

### 折れ線グラフ

折れ線グラフは、時系列データなどを表示する際に便利なグラフです。`plt.plot()` を用いて描画します。  
`plt.plot(y)` のように引数が 1 つの場合は、`y` の要素が縦軸の値に対応し、 横軸は要素のインデックスとなります。

それでは、NumPy を用いて作成したデータを、`plt.plot()` で表示してみましょう。

In [None]:
import numpy as np

# [0,10]の間を100分割して数値を返す
x = np.linspace(0, 10, 100)

# x の値にランダムノイズを加える
y = x + np.random.randn(100)

In [None]:
plt.plot(y)

`plt.plot(x, y)` のように引数を 2 つ与える場合は、`x` が横軸、`y` が縦軸に対応します。

In [None]:
plt.plot(x, y)

### 練習問題 本章のまとめ

本章で学んだ内容を 4 章で学んだ $3σ$ 法を実装し復習しましょう。下記の内容を次のセルに記述し、実行結果を確認してください。（必要に応じてセルの追加を行ってください。）  
最終的に $3σ$ 法を用いて外れ値の除去を行い、データの分布が変わっていることが確認できていればうまく実装できています。  


$3σ$ 法を用いての外れ値除去のイメージは下記の図でした。  
![3σ 法](http://drive.google.com/uc?export=view&id=12DzXwIOUJ7j3pfHw0PBERc9sMJY-SB-s)

数式で確認すると下記になります。

- $\mu$ : 平均
- $\sigma$ : 標準偏差

$$
\mu-3\sigma \leq x \leq  \mu + 3\sigma
$$

- `sample_data/california_housing_train.csv` のファイルから再度 CSV ファイルの読み込み `df3` という変数に格納し、先頭 5 行を確認
- `median_income` の列を切り出し、`t` という変数に格納
- `t` の値をヒストグラムを用いて可視化（引数の `bins` を 50 に設定）
- `t` の平均を変数 `mu` に格納
- `t` の標準偏差を変数 `sigma` に格納
- 上記の数式に基づいて $3σ$ 法を用いて、外れ値除去を行った値を変数 `t2` に格納
- `t2` の値をヒストグラムを用いて可視化（引数の `bins` を 50 に設定）


*ヒント*  

$3σ$ 法を用いての外れ値除去は `mu + 3 * simga` より小さくかつ、`mu - 3 * simga` より大きい `t` の値を抽出します。

In [None]:
# CSV ファイルの読み込み


In [None]:
# データの確認


In [None]:
# median_income の切り出し → t


In [None]:
# t をヒストグラムで可視化


In [None]:
# 平均の算出 → mu


In [None]:
# 標準偏差の算出 → sigma 


In [None]:
# 3σ 法を用いての外れ値除去 → t2


In [None]:
# t2 をヒストグラムで可視化


<img src="http://drive.google.com/uc?export=view&id=1g2xjXbw5qYeqdJqcOf3uASvzBQxhlE8u" width=30%>