<a href="https://colab.research.google.com/github/ailab-nda/ML/blob/main/12_Introduction_to_Matplotlib_rev.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Matplotlib 入門

グラフの描画を行う際は [Matplotlib](https://matplotlib.org/) が便利です。
Colab では標準で Matplotlib を使ってプロットを行うと描画結果がノートブック上に表示されます。
Matplotlib は `matplotlib.pyplot` を `plt` という別名をつけて読み込むのが一般的です。

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

この章で用いるデータセットは前章と同じように Colab で用意されているサンプルデータを使用します。
Colab 以外で実行する場合は、[こちら](https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv)からデータをダウンロードして、`sample_data` というディレクトリ以下に設置してください。

まず、Pandas で CSV ファイルを読み込みます。

In [None]:
import pandas as pd

df = pd.read_csv('sample_data/california_housing_train.csv')

df.head(5)

## 散布図

**散布図 (scatter)** は変数間の相関を視覚的に確認したり、データのばらつきや値の範囲を視覚的に確認するのに便利なものです。
Matplotlib では与えられた配列から散布図を作成する `plt.scatter()` が用意されています。

まずは、`median_income` 列のデータと `median_house_value` 列のデータをそれぞれ横軸、縦軸に取った散布図を描画してみましょう。

In [None]:
plt.scatter(df['median_income'], df['median_house_value'])

次に、`pupulation` 列の値と `median_house_value` 列の値をそれぞれ横軸と縦軸にとった散布図を描画します。

In [None]:
plt.scatter(df['population'], df['median_house_value'])

## ヒストグラム

データ中にどのような値がよく登場しているかという値ごとの頻度を確認するために使われるものに**ヒストグラム (histogram)** があります。

試しに、`median_house_values` 列の値のヒストグラムを描画してみましょう。

In [None]:
plt.hist(df['median_house_value'])

上図の棒グラフ 1 つ 1 つの青い棒は、**ビン (bin)** と呼ばれ、それぞれの高さはある値の範囲に入っているサンプルの数を表します。
ヒストグラムでは値の範囲を複数指定し、それぞれの範囲に入っているサンプルの個数を描画します。
そのため、その値の範囲の指定を `bins` という引数を用いて行う必要があります。
ただし、この引数はオプショナルなもので、何も与えなかった場合はビンの数が自動的に決定されます。
この引数に整数を与えた場合は、`bins` 個のビンを値の範囲に対して等間隔に作成します。

In [None]:
# bins 引数に値を指定することで、ビンの数を指定できます
plt.hist(df['median_house_value'], bins=50)

上図から、`median_house_value` が 500,000 付近の値をとるサンプルが突出して多く存在していることが分かります。

## 箱ひげ図

**箱ひげ図 (box plot)** は、値のばらつきをわかりやすく表現するための図です。
`df.describe()` で確認できるような、いくつかの統計値をまとめて可視化するものです。
箱ひげ図は、**五数要約 （five-number summary）** と呼ばれる以下の統計量をまとめて表すものです。

- 最小値 (minimum)
- 第 1 四分位点 (lower quartile)
- 中央値 (median)
- 第 3 四分位点 (upper quartile)
- 最大値 (maximum)

描画には、`plt.boxplot()` を用います。

In [None]:
plt.boxplot(df['median_house_value'])

In [None]:
# 複数指定する場合は、タプルを用います
plt.boxplot((df['total_bedrooms'], df['population']))

## 折れ線グラフ

折れ線グラフは、時系列データなどを表示する際に便利なグラフです。
`plt.plot()` を用いて描画します。

`plt.plot(y)` のように引数が 1 つの場合は、`y` の要素が縦軸の値に対応し、 横軸は要素のインデックスとなります。

それでは、NumPy を用いて作成したデータを、`plt.plot()` で表示してみましょう。

In [None]:
import numpy as np

# [0,10]の間を100分割して数値を返す
x = np.linspace(0, 10, 100)

# x の値にランダムノイズを加える
y = x + np.random.randn(100)

In [None]:
plt.plot(y)

`plt.plot(x, y)` のように引数を 2 つ与える場合は、`x` が横軸、`y` が縦軸に対応します。

In [None]:
plt.plot(x, y)

## グラフの調整

Matplotlib では横軸や縦軸に文字列でラベルを指定したり、グラフの大きさの調整、また直線・曲線・点の色や大きさ、文字の色や大きさの調整など、様々な見た目に関する設定を細かく指定することができます。

In [None]:
plt.plot(x, y)
plt.title("折れ線グラフ")
plt.xlabel('x軸')
plt.ylabel('y軸')

## 日本語を使う
japanize_matplotlib を使います。

In [None]:
!pip install japanize_matplotlib
import japanize_matplotlib

### ファイルへ保存

In [None]:
plt.plot(x,y)
plt.title("折れ線グラフ")
plt.xlabel('x軸')
plt.ylabel('y軸')
plt.savefig("graph.png")
plt.show()

## おまけ
保存した図は、パワポなどに貼ってプレゼンすることが多いです。どうせパワポに貼るので最初から貼っておきましょう。

In [None]:
!pip install python-pptx
from pptx import Presentation
from pptx.util import Cm

In [None]:
prs = Presentation()
slide = prs.slides.add_slide(prs.slide_layouts[6])
slide.shapes.add_picture('graph.png', Cm(4.5), Cm(3.5))
prs.save('graph.ppt')

# 課題
直近１年間の横須賀市の平均気温と降水量の記録(yokosuka_weather.csv)がある。平均気温のグラフ、降水量のグラフ、２つ合わせたグラフ、をそれぞれ作り、プロットした図をパワポに貼り付けたものを提出せよ。

ヒント：https://datumstudio.jp/blog/matplotlib-2軸グラフの書き方/

In [None]:
df = pd.read_csv('yokosuka_weather.csv', encoding='CP932')
# 以下は自分で作成してください。

## seaborn

統計図の作成を簡単に行えるように Matplotlib をベースに作られたライブラリに [seaborn](https://seaborn.pydata.org/) というものがあります。

`seaborn` パッケージは、`sns` という別名で読み込まれるのが一般的です。

In [None]:
import seaborn as sns

データの分布を確認する際は、Matplotlib のヒストグラムよりも使い方がシンプルかつ見やすい図を作成することができる `sns.distplot()` がおすすめです。

In [None]:
sns.distplot(df['population'])

また、描画が完了するまで少し時間がかかってしまいますが、与えられたデータフレームオブジェクトの各列の全てのペアでの散布図をグリッド状に描画し、様々な変数間の相関関係を視覚的に見渡すことができる `plt.pairplot()` も便利です。

In [None]:
sns.pairplot(df)

seaborn には他にも様々な種類のグラフを描画する機能があります。