[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/snishiyama/intro-psych-stats-exercises/blob/main/05_visualize.ipynb)

# 第5回演習の概要

Pythonを使って様々なグラフを作成する

# 作図パッケージの読み込み

「パッケージ」は，関数のまとまりである。たくさんの企業や個人が便利な関数を作成し，パッケージとしてオンラインで公開している。

今回の演習では，作図のための関数をまとめて用意している`matplotlib`というパッケージ（の特に`pyplot`と呼ばれるもの）を使用する。

授業ではなるべくパッケージを使わずに，自力で統計計算を実装することを目標にしている。しかしながら，作図を含めた一部の処理については，自作するのが難しい，かつ，その実装は授業の目的とは大きく逸れるため，こういったパッケージを利用する。

パッケージは以下の方法で読み込むことができる。

```python
import パッケージ名
```

読み込んだパッケージの関数は`パッケージ名.関数名()` で使用できる。パッケージ名が長く，それを毎回タイプするのが煩わしい場合は，以下の方法で，任意の（短い）名前で呼び出せるようにできる。

```python
import パッケージ名 as hoge
```

この場合，`hoge.関数名()` で関数を使用できるようになる。


In [None]:
# matplotlib.pyplot パッケージを plt という名前で呼び出せるようにする。
import matplotlib.pyplot as plt

合わせて以下のデータセットも読み込んでおくこと。今回は，2022年9月の京都市の天気の記録を使って，python (matplotlib) を使った作図を練習する。

In [None]:
days = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30]
# 2022年9月各日の京都市の気象統計（左から順に1 ~ 30日
# 平均・最高・最低気温
kion_ave = [26.6, 26.5, 26.8, 28.4, 29, 28.6, 26.1, 25.3, 25.6, 27.3, 28.8, 28.9, 29.3, 28.6, 28.6, 27.6, 27.2, 28.6, 28.7, 21.5, 20.6, 22.3, 23.6, 23.5, 22.5, 25.2, 23.3, 22.6, 22.6, 23.2]
kion_max = [29.4, 31.8, 32.9, 34.3, 33.6, 35, 30.4, 28.8, 28.7, 32.4, 34.7, 34.5, 34.9, 34, 33.6, 32.3, 30.3, 31.5, 31.6, 25, 24.4, 26.4, 24.9, 28.9, 29.1, 32, 29.5, 27.7, 26.9, 29.5]
kion_min = [23.2, 22.9, 24.1, 23.9, 24.7, 23.3, 22.7, 22.9, 22.8, 23.5, 23.6, 23.9, 24.6, 24.8, 25.2, 24.6, 24.8, 25.3, 24.8, 19.1, 18.5, 19, 22.5, 18.7, 16.7, 19.1, 20.3, 20, 19.6, 17.7]
# 合計降水量
rain = [78, 4.5, 6.5, 0, 0, 12.5, 0, 12.5, 12.5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 27.5, 18.5, 0, 1.5, 13.5, 0, 0, 0, 10, 0, 0, 0]
# 京都市の日照時間
sun_hours = [0.3, 2.1, 4.5, 6.1, 6.5, 5.3, 5.4, 0, 0.2, 5.7, 9.8, 10.1, 10.5, 4.3, 9, 9.5, 1.8, 2.7, 0, 2.2, 3.6, 1.3, 0, 7.6, 10.1, 11.1, 3.5, 3.4, 1, 10.4]
# 平均湿度
humid = [88, 77, 79, 71, 66, 71, 70, 78, 83, 74, 65, 62, 63, 70, 66, 58, 64, 74, 72, 68, 63, 71, 86, 66, 63, 63, 74, 73, 66, 69]

# 種々のグラフの作図

## ヒストグラム（histogram）

`plt.hist(数値リスト)` で，その数値リストのヒストグラムを作る。事前に数値リストの変数を宣言しておけば，`plt.hist(変数名)` と変数名を指定するだけでも良い。`plt.show()`でグラフが表示される。厳密には`plt.show()`はなくても図は表示されるが，余分な出力があるので，`plt.show()`はつけておくのが無難。

In [None]:
# 日照時間のヒストグラム
plt.hist(sun_hours)
plt.show()

## 棒グラフ (bar plot)

`plt.bar(横軸, 縦軸)` で棒グラフを作成できる。

In [None]:
# 日毎の降水量
plt.bar(days, rain)
plt.show()

## 折れ線グラフ (line plot)

`plt.plot(横軸, 縦軸)`で折れ線グラフを作成できる。`plt.line`ではないので注意。

In [None]:
# 日毎の最高気温
plt.plot(days, kion_max)
plt.show()

リストに入っている順番に線を結ぶので注意。日毎の気温のような時系列データであれば，時系列に沿ってデータが並んでいるのかに注意する。

In [None]:
# days と kion_max の順番を入れ替えたリスト
x = [1, 3, 5, 4, 2]
y = [29.4, 32.9, 33.6, 34.3, 31.8]
plt.plot(x, y)
plt.show()

## 散布図 (scatter plot)

`plt.scatter(横軸, 縦軸)` で散布図を作成できる。

In [None]:
# 日照時間と平均湿度の散布図
plt.scatter(sun_hours, humid)
plt.show()

## 複数のデータを一つの図に表示する

`plt.show()`で図を表示するまでに，描画関数を複数書けば，複数のグラフを一つの図としてまとめて表示してくれる。

In [None]:
# 日毎の平均・最高・最低気温
plt.plot(days, kion_ave)
plt.plot(days, kion_max)
plt.plot(days, kion_min)
plt.show()

グラフの種類が同じ（ここでは折れ線グラフ）であれば，いい感じに色分けする。

違う種類のグラフを一つの図に収めることもできる。

In [None]:
# 日毎の合計降水量と最高気温
plt.bar(days, rain)
plt.plot(days, kion_max)
plt.show()

**縦軸が共有されることには注意**する必要がある。単位が違ったり，値の範囲が大きく異なったりする場合は同じグラフに表示するべきではない。つまり，上に示した合計降水量と最高気温のグラフは適切ではない。左右の縦軸を使い分ける方法もあるが，授業では紹介しない。

# 演習

指定された図を作成せよ。

In [None]:
# 平均湿度のヒストグラム


In [None]:
# 日毎の日照時間の棒グラフ


In [None]:
# 日毎の平均湿度の折れ線グラフ


In [None]:
# 日照時間（横軸）と最高気温（縦軸）の散布図


# 発展問題

演習問題の最後に作成した日照時間と最高気温の散布図によると，日照時間が長いほど，最高気温も高いという関係がありそうである。

ところで，気温の折れ線グラフを見ると，9月の気温は20日を境にガクッと落ち込んでいることがわかる。

そこで，19日までのデータと20日以降のデータを区別できるように色分けして散布図を作成すると，日照時間と最高気温の関係もよりクリアになるのかもしれない。

19日までのデータと20日以降のデータが色分けされた散布図を書け。




In [None]:
# 19日までのデータと20日以降のデータが色分けされた
# 日照時間と最高気温の散布図


## 使うと便利なリストの文法

リストのある要素を取り出す際には，インデックスを指定すると値を取り出す事ができる。

In [None]:
kion_max[0] # 0番目（=9/1）の値

さらに，`リスト[開始点:終点]`とすることで，開始点に指定されたインデックスから，終点のインデックスの**一つ前の**要素をまとめて取り出す事ができる

In [None]:
kion_max[0:9] # 0 ~ 8番目の値

ここでは，終点のインデックス9の要素は取り出されていないことに注意。

今回用意した天気データは，日付順に並んでいるので，この方法を使うことで，19日までのデータと20日以降のデータをかんたんに用意することができる。