# 第2回 その1: ライブラリとグラフの描画
今回の講義では，データの分析において多用するライブラリとして以下の３つを紹介します。  
* pandas: 主にcsvデータの読み込みや特定データの抽出に使用。  
* numpy: 数値演算全般に使用。
* matplotlib: グラフの描画に使用。  

また，サンプルデータを読み込んで数種類のグラフを描画してみます。

## ステップ0: Google Driveのマウント  
Google Driveに格納されているデータを読み込むために，Google Colab からGoogle Driveを参照できるようにします（マウント処理）。  
マウント処理を行うためには，以下のコードを実行します。  
（このとき、Google colabからGoogleドライブに接続するための確認などが出てきますが、指示に従ってGoogle ドライブに接続してください。）

In [None]:
from google.colab import drive
drive.mount('/content/drive')

次に，データの置いてある作業フォルダに移動します。  
ここでは"マイドライブ/情報管理/02"という作業フォルダを想定します。

In [None]:
# フォルダの移動には"%cd"を使用します。
# 作業フォルダへ移動
%cd /content/drive/'My Drive'/情報管理/02/
# 現在のフォルダの中身を表示
%ls

kishou.csv というデータが表示されていることを確認してください。

## ステップ1: pandas ライブラリ
<font color="Red"> **pandas**</font> はデータ解析で便利な機能が使用可能なライブラリです。  
pandas ではcsvデータの入出力やデータ抽出処理，基本的な統計処理が可能です。  
本講義では，主にcsvデータの読み込みを行うために使用します。

ライブラリを使用するには<font color="Red"> **`import`**</font>を使用します。  
<font color="Red"> **`import ライブラリ名 as 任意の名前`**</font>  
と記述すると，ライブラリに「任意の名前」をつけて使用することができます。  
以下の例では，pandas に`pd`という名前を付けて呼び出しています。

In [None]:
import pandas as pd

以降，`pd`と書くと pandas ライブラリの機能を使うことができるようになります。

ではpandasライブラリの関数<font color="Red"> **`read_csv`**</font>を使って，csvファイルを読み込みます。

In [None]:
csv_data = pd.read_csv('kishou.csv', encoding='SHIFT-JIS')
csv_data

`kishou.csv`は2020年の東京，神戸，札幌，那覇の日ごとの気温（℃）を記録したデータです(出典：気象庁HP)。  
読み込んだデータは `csv_data` に格納されています。  
このデータは pandasライブラリの `DataFrame` という型で定義されています。  

In [None]:
# csv_dataのデータ型を表示
print(type(csv_data))

`DataFrame`型のデータは，<font color="Red"> **`.columns`**</font>を後ろに付けると各列のラベルが取得できます。  
また<font color="Red"> **`.loc[行index,列index]`**</font>を後ろにつけると特定のデータを抽出することができます。

In [None]:
# columnsを使って各列のラベルを取得
print('各列のラベル')
print(csv_data.columns)
print('0列目のラベルを表示')
print(csv_data.columns[0])
# スライシング(第一回参照)を使って複数列の指定も可能
print('1から3列目までのラベルを表示')
print(csv_data.columns[1:4])

# locを使って特定データを抽出
print('0日目の東京の気温')
print(csv_data.loc[0, '東京'])
print('3日目までの東京の気温')
print(csv_data.loc[:3, '東京'])
print('3日目までの東京～札幌の気温')
print(csv_data.loc[:3, '東京':'札幌'])

## ステップ2: numpy ライブラリ
<font color="Red"> **numpy**</font> は様々な数値演算が可能なライブラリです。  
特にベクトル・行列を扱う関数が豊富で，C言語では複数行にわたる処理が1行で書けたりするため，とても便利です。  

In [None]:
# numpy ライブラリに np という名前を付けて呼び出す
import numpy as np

numpy を使ってベクトル・行列演算をするためには，データを<font color="Red"> **ndarray**</font>というnumpy専用のデータ型で定義する必要があります。  
pandas で読み込んだデータは `DataFrame` という型ですので，これを `ndarray` 型に変換します。  
`DataFrame`型データの後ろに<font color="Red"> **`.to_numpy()`**</font>とつけることで，`ndarray`型のデータに変換できます。

In [None]:
print(type(csv_data))
# locを使って'東京'以降の列（つまり'年月日'を除くすべての列）を抽出する。
csv_data_tmp = csv_data.loc[:,'東京':]
# さらに to_numpy() を使って ndarray 型に変換したものを data に格納する。
data = csv_data_tmp.to_numpy()
print(type(data))

上の例では，先に `loc[:, '東京':]` とすることで，'東京'以降の列，つまり'年月日'以外の情報を抽出しています。  
年月日の情報は数値データではないので，以降の numpy による数値演算処理で邪魔になるため，除いています。  
その後，`.to_numpy()`とすることで，`ndarray`型に変換しています。  
ちなみに，上記の処理は以下のように一行で書くこともできます。  
```
data = csv_data.loc[:, '東京':].to_numpy()
```

data は各行が日にち，各列が東京/神戸/札幌/那覇に対応した行列(ndarray)のデータです。  
この行列の行数・列数を調べるためには numpy の<font color="Red"> **`shape`**</font>関数を使います。

In [None]:
(num_row, num_col) = np.shape(data)
print((num_row, num_col))

`shape` 関数は行列の (行数, 列数) を返します。  
(括弧 '()' で囲まれた変数のことを**タプル**(tuple)と呼びます。タプルは複数の値をまとめて一つの変数にしたものです。)  

また，平均値を求めるには numpy の<font color="Red"> **`mean`**</font>関数を使います。

In [None]:
print(np.mean(data, axis=0))
print(np.mean(data, axis=1))
print(np.mean(data))

`mean`関数の引数についている<font color="Red"> **`axis`**</font>は，「行か列のどちらの軸に沿って平均を求めるか」を指定する引数です。  
* `axis = 0`の場合，行方向に沿って平均値を計算します。  
  つまり，東京，神戸，札幌，那覇それぞれについて，一年間の平均気温が計算されます。出力は4次元のベクトルです  
* `axis = 1`の場合，列方向に沿って平均値を計算します。
  つまり，一日ごとに，東京・神戸・札幌・那覇の気温の平均値が計算されます。出力は366次元のベクトルです  
* `axis`を指定せず，`np.mean(data)`だけで実行した場合は，行列内の全ての値の平均値を計算します。  
  つまり，東京・神戸・札幌・那覇の1年間の気温の総平均値が計算されます。出力はスカラーです。  


numpy についての詳しい解説は `02_02_numpy.ipynb` を参照してください。

## ステップ3: matplotlib ライブラリ
<font color="Red"> **matplotlib**</font> はグラフの描画を行うライブラリです。  
インポートは以下のように行います。  
pandasやnumpyとは違い，`.pyplot`がついている点に注意してください。  

In [None]:
# matplotlib.pyplot に plt という名前を付けて呼び出す
import matplotlib.pyplot as plt

グラフ描画の基本的な流れは  
* <font color="Red"> **figure**</font> 関数による描画領域の作成  
* グラフの描画  
* <font color="Red"> **show**</font> 関数による描画領域の表示  

です。  

### 折れ線グラフ: plot 
折れ線グラフを描画する場合は，<font color="Red"> **plot**</font> 関数を使用します。  
<font color="Red"> **`plot(x軸データ, y軸データ)`**</font> 

In [None]:
# x軸データ=日数：0, 1, 2, ..., 365
x = np.arange(num_row)
# y軸データ=東京：dataの0列目
y = data[:,0]

# 描画領域作成
plt.figure(figsize=(10,5))
# グラフ描画
plt.plot(x, y)
# x軸とy軸のラベル設定（日本語不可）
plt.xlabel('Day')
plt.ylabel('Temperature')
# 表示
plt.show()

`figure(figsize=(10, 5))`の`figsize`は描画領域のサイズ（横x縦）です。  
`plot`関数にはx軸とy軸の値を入力します。  
x軸の値は 0～365が1日刻みで入っています。（numpy.arangeはnumpy用のrange関数(第一回参照)です）  
y軸の値はx軸の各値に対応した東京の気温が入っています。  
軸のラベルは<font color="Red"> **xlabel**</font>および<font color="Red"> **ylabel**</font>関数を用いて設定します。  
**matplotlibは基本的には日本語が使用できません。**日本語を使用すると文字化けします。(設定をきちんとすれば日本語も使用できるようになりますが，本講義では説明しません。)

複数の値を同時にプロットすることもできます。  

In [None]:
# x軸データ=日数：0, 1, 2, ..., 365
x = np.arange(num_row)

# 描画領域作成
plt.figure(figsize=(10,5))
# グラフ描画
plt.plot(x, data[:,0], label='Tokyo', color='b')
plt.plot(x, data[:,1], label='Kobe', color='r')
plt.plot(x, data[:,2], label='Sapporo', color='g')
plt.plot(x, data[:,3], label='Naha', color='y')
# x軸とy軸のラベル設定（日本語不可）
plt.xlabel('Day')
plt.ylabel('Temperature')
# グラフの凡例の表示
plt.legend()
# 表示
plt.show()

`plot` 関数を複数回入力することで，複数のデータをプロットできます。  
このとき，見分けをつけるために，「データのラベル」と「色」をそれぞれ `label`，`color` に指定しています。  
<font color="Red">`plt.plot(x, y, label='データのラベル', color='色')`</font>   
`b`，`r`，`g`，`y`はそれぞれ青，赤，緑，黄です。  
(色の指定方法については https://matplotlib.org/stable/gallery/color/named_colors.html )に詳しく書いてあります。  
設定したデータのラベル（凡例）を表示させるには，<font color="Red">**`legend()`**</font>を使用します。  

なお，上記のコードはリストとforを使うともう少し綺麗に書くことができます。  
```
label_set = ['Tokyo', 'Kobe', 'Sapporo', 'Naha']
color_set = ['b', 'r', 'g', 'y']
for n in range(4):
  plt.plot(x, data[:,n], label=label_set[n], color=color_set[n])
```

### ヒストグラム: hist 
各場所について，気温の分布を見てみましょう。  
ヒストグラムの描画は<font color="Red">**`hist`**</font>関数を使用します。  
<font color="Red"> **`hist(データ, bins=棒の数, range=(値の範囲))`**</font> 

In [None]:
label_set = ['Tokyo', 'Kobe', 'Sapporo', 'Naha']
color_set = ['b', 'r', 'g', 'y']

# 描画領域作成
plt.figure(figsize=(10,5))
# グラフ描画
for n in range(4):
  plt.hist(data[:,n], bins=40, range=(-15, 35),label=label_set[n], color=color_set[n])
  # x軸とy軸のラベル設定（日本語不可）
  plt.xlabel('Temperature')
  plt.ylabel('Number of days')
  # グラフの凡例の表示
  plt.legend()
# 表示
plt.show()

上記の例では，bins=40，range=(-15, 35)と設定しているので，「気温-15度から35度の範囲で棒を40本作る」という意味になります。  
これを見ると，例えば「那覇」の気温はおよそ20度から30度の日が多く，特に30度付近の日が40日以上存在していることが分かります。  

上記の例では，4つのヒストグラムを重ねて表示したため，先に描画した東京や神戸のデータが見えにくいです。  
そこで，重ねて描画するのではなく，並べて描画することにします。  
一つの描画領域に複数のグラフを並べて描画するには，<font color="Red"> **subplot**</font> を使用します。  
<font color="Red"> `**subplot(縦の分割数，横の分割数，描画するサブ領域の番号)**`</font> 

In [None]:
label_set = ['Tokyo', 'Kobe', 'Sapporo', 'Naha']
color_set = ['b', 'r', 'g', 'y']

# 描画領域作成
plt.figure(figsize=(16,8))
# グラフ描画
for n in range(4):
  plt.subplot(2, 2, n+1)
  plt.hist(data[:,n], bins=40, range=(-15, 35),label=label_set[n], color=color_set[n])
  # x軸とy軸のラベル設定（日本語不可）
  plt.xlabel('Temperature')
  plt.ylabel('Number of days')
  # グラフの凡例の表示
  plt.legend()
# 表示
plt.show()

上記の例では，forループの中に  
`subplot(2, 2, n+1)`  
と入れています。
これは描画領域を2行x2列に分割し，(n+1=1)番目のサブ領域に東京，(n+1=2)番目のサブ領域に神戸，…というように描画することを表します。  
subplotを使用する際の注意点は以下の2点です。  
* サブ領域の番号は0からではなく1から数えます。そのため，forループ内で使用する際は n+1 とします。
* 描画領域が狭いと，軸ラベルが隠れてしまう場合があります。その場合はfigure(figsize=())で指定する描画領域のサイズを大きくしてください。

### エラーバー付き棒グラフ: bar
ヒストグラムを見ると，那覇は他の3地点と比べて気温のばらつきが小さいです。  
実際に平均と標準偏差を計算し，エラーバー付きの棒グラフを使って確認してみます。  

平均値は既に説明した通りnumpy の`mean`関数により計算されます。  
標準偏差はnumpyの`std`関数により計算されます。使い方は`mean`と同じです。  

棒グラフの描画は<font color="Red">**`bar`**</font>関数を使用します。  
<font color="Red"> **`hist(ラベル, データ, yerr=エラーバーの範囲)`**</font> 

In [None]:
label_set = ['Tokyo', 'Kobe', 'Sapporo', 'Naha']

# 各場所の平均気温と標準偏差を求める
data_mean = np.mean(data, axis=0)
data_std = np.std(data, axis=0)

plt.figure(figsize=(10, 5))
# 標準偏差をエラーバーとして，各場所の平均気温を棒グラフで描画
plt.bar(label_set, data_mean, yerr=data_std, capsize=5, color='b')
plt.ylabel('mean & std of temperature')
plt.show()

ここでは`data_mean`をbarに入力することで，平均気温の棒グラフを作成しています。  
さらに，`yerr=data_std`とすることで，標準偏差をエラーバーとして描画しています。  
これにより，平均±標準偏差という形でデータをプロットすることができます。



### 散布図: scatter
折れ線グラフを見ると，東京と神戸の気温は近い値になっていることが分かります。  
これを，横軸：東京の気温，縦軸：神戸の気温として散布図で表現してみます。  

散布図の描画は<font color="Red">**`scatter`**</font>関数を使用します。  
<font color="Red"> **`scatter(x軸データ, y軸データ)`**</font> 

In [None]:
plt.figure(figsize=(5,5))
plt.scatter(data[:,0], data[:,1], color='b')
plt.xlabel('Temperature at Tokyo')
plt.ylabel('Temperature at Kobe')
plt.show()

同様に，東京と札幌，東京と那覇も描画してみましょう。  
以下の例は for ループを使って効率的に記述しています。  
rangeやリスト，文字列の連結などを復習しながら，どのように動作しているのか理解しておきましょう。

In [None]:
label_set = ['Tokyo', 'Kobe', 'Sapporo', 'Naha']
plt.figure(figsize=(18, 6))
for n in range(1,4):
  plt.subplot(1, 3, n)
  plt.scatter(data[:,0], data[:,n], color='b')
  plt.xlabel('Temperature at Tokyo')
  plt.ylabel('Temperature at ' + label_set[n])
plt.show()

上の３つの図を比べると，以下のことが分かります。
- 東京と神戸はおおよそ同じ温度になっている。  
- 一方，東京と札幌は温度の値自体は異なるが，東京が寒くなると札幌も寒くなるというように，気温の変化はある程度同期している。  
- しかし東京と那覇は，特に東京の気温が低いとき（例えば10度以下）に，那覇の気温のばらつき（縦のばらつき）が大きい。  
  つまり，東京が寒くなった日において，那覇は必ずしも寒くなるとは限らない。  
  (例えば，東京で12度，那覇で15度くらいの日もあれば，東京で2度，那覇で20度くらいの日もある)


## ステップ7: おわりに
今日の講義では，
- pandas を用いたデータ読み込み  
- numpy を用いた数値データ化と簡単な統計値(平均と標準偏差)の算出  
- matplotlib を用いたデータの描画  

を解説しました。  

データの分析は，まずデータを見ることから始まります。  
ただし，エクセルのデータを漠然と眺めていてもデータの傾向や性質は見えてきません。  
グラフとして描画することで，色々な性質が見えてきます。  
このようにしてデータの性質を掴んだ上で，「このような分析方法を試してみよう」といったアクションに繋がってきます。