# Python 最低限

## はじめに

### 作法について

Python コードを書く際の作法については、[PEP8スタイルガイド](https://pep8-ja.readthedocs.io/ja/latest/)を参考してみてください。

## 変数への代入

2という整数(オブジェクト)に`x`という名前を与えること= `x`という変数がオブジェクト2を参照する様にする

In [None]:
x = 2

In [None]:
print(x)

In [None]:
y = x
y

この様に、常に右の値が左を定義します。このことを使うと、値をずらすことができます

## `for`

In [None]:
for i in range(5):
    print(i)

In [None]:
for i in range(10):
    print('o'+'h'*i)

In [None]:
x = 0   # initialize

for _ in range(10):
    x = x + 1
    
print(x)

## `list`

list型のオブジェクトは`[]`でくくることで、宣言できる。

In [None]:
numbers = [0,1,2,3,4,5,6,7]
numbers

In [None]:
type(numbers)

### リストへの要素の追加

`append()` で行う

In [None]:
numbers.append(8)
numbers

### リストへのリストの追加

`extend()` で行う

In [None]:
numbers = list()
odd_numbers = [ 1, 3, 5, 7 ]
even_numbers = [ 2, 4, 6, 8 ]
numbers.extend(odd_numbers)
numbers.extend(even_numbers)
numbers

各要素にアクセスする方法（スライス）は、list型オブジェクトの直後に`[]`でインデックスを指定する

In [None]:
numbers[3]

In [None]:
numbers[1:4]

In [None]:
numbers[4:]

In [None]:
numbers[:4]

### リストの要素変更

In [None]:
numbers[3] = 8
numbers

## `dict`

dict型のオブジェクトは`{}`でくくることで、宣言できる。    
dict型のオブジェクトというのは、keyとvalueの組み合わせでできている。

In [None]:
prices = { 'apple':120, 'orange':160, 'melon': 700 }  # クォーテーション '' でくくるとstr型のオブジェクトになる
prices

In [None]:
type(prices)

### keyとvalueの取得

In [None]:
prices.keys()

In [None]:
prices.values()

両方ともあわせて取得する場合は、`items()`メソッドを用いる。

In [None]:
prices.items()

keyを指定してvalueを得ることもできる

In [None]:
prices['melon']

## 自前のライブラリの仕様

自分で作ったツール等を `import` する方法を紹介する。  
この環境では、`src/` 以下に `sample.py` というファイルがあり、`sample_func` メソッドを以下の様に定義している。  

```python
def sample_func() -> None:
    print(f'This method is defined in {__file__}.')
```

このメソッドを `import` する。

In [None]:
from src.sample import sample_func

In [None]:
# 実行
sample_func()

このサンプルを参考に自分で実装したツールやモジュールを `src/` 以下に保存するとよい。  
`src/` 以下に新たにディレクトリを作成して、そのディレクトリにモジュールを実装する場合は、パッケージとして Python に扱わせるために`__init__.py` が必要なことに注意。  
`src/sample_modules` のディレクトリを参考にすること。

# NumPy

特に高速なベクトル化された配列演算を可能にしてくれるのが[NumPy](https://numpy.org)。
公式のドキュメントは[ここ](https://numpy.org/doc/)から読める。    
ライブラリは使うものだけ`import`する。その際、これに`np`というあだ名（別名）をつけて、以下では作業する。    

In [None]:
import numpy as np

## numpy.ndarray

list型オブジェクトから配列(NumPyのarrayオブジェクト)が作れる。

In [None]:
numbers = [0,1,2,3,4,5,6,7]
x= np.array(numbers)
x

In [None]:
odd_numbers = [ 1, 3, 5, 7 ]
even_numbers = [ 2, 4, 6, 8 ]
x = np.array([odd_numbers,even_numbers])
x

In [None]:
print(type(x),x.shape)

### 要素の追加

一次配列の場合、`insert()`を用いて、要素を任意の位置に追加できる。

In [None]:
x = [0,1,2,3,4,5,6,7]
np.insert(x, 1, 8)

In [None]:
np.insert(x, 2, [8, 9])

In [None]:
np.insert(x, [2, 3, 4], [8, 9, 10])

二次配列の場合、`insert()`を用いると以下のようになる。

In [None]:
numbers = [0,1,2,3,4,5,6,7]
x = np.array(numbers).reshape(4,2)
x

In [None]:
np.insert(x, 5, [8,9])

単純に、`insert()` を用いると一次配列が返ってくる。
`insert()`の引数に`axis=0`を追加すると、

In [None]:
np.insert(x, 4, [8,9],axis=0)

`numpy.ndarray` 同士の結合には、`vstack()`, `hstack()`を用いるとよい。    
[vstack](https://numpy.org/doc/1.17/reference/generated/numpy.vstack.html) and 
[hstack](https://numpy.org/doc/1.17/reference/generated/numpy.hstack.html) in official document.

In [None]:
odd_numbers = [ 1, 3, 5, 7 ]
even_numbers = [ 2, 4, 6, 8 ]
x_odd = np.array(odd_numbers).reshape(2,2)
x_even =  np.array(even_numbers).reshape(2,2)

In [None]:
np.vstack((x_odd, x_even))

In [None]:
np.hstack((x_odd, x_even))

### newaxis

ちょいちょい使うので、理解して、覚えておくとよい。

In [None]:
A = np.array([1,2,3])
A

In [None]:
A.shape

In [None]:
A[:, np.newaxis]

In [None]:
A[:, np.newaxis].shape

In [None]:
A[np.newaxis,:]

In [None]:
A[np.newaxis,:].shape

### expand_dims

`np.expand_dims()`は、`np.newaxis`は同じ作業の別のやり方。

In [None]:
A = np.array([1,2])
B = np.expand_dims(A, axis=0)
B

In [None]:
B.shape

In [None]:
C = np.expand_dims(A, axis=1)
C

In [None]:
 C.shape

# Pandas

[Pandas](https://pandas.pydata.org/)は、表計算やデータの統計処理等に便利モジュールが含まれた、データ分析作業を支援するライブラリ。    
公式ドキュメントは[ここ](https://pandas.pydata.org/pandas-docs/stable/index.html#)から読め、手始めに[Getting start](http://pandas.pydata.org/pandas-docs/stable/getting_started/index.html)などを読むと良い。

In [None]:
import pandas as pd

## `Series` と `DataFrame`

`pandas` の中心的なオブジェクトは、`Series`と`DataFrame`である。直感的な説明として、`DataFrame`はエクセルや Google スプレッドシートのようなワークシートの様なもので、`Series`は、そのワークシートの列である。  
`Series`, `DataFrame` の行は、`index` で管理され、`0` から始まる番号、もしくは任意のラベルが付けられる。一方で、`DataFrame` の列は、`column` で管理される。

### `Series`

`Series` オブジェクトは、以下のように、`list`, `dict`, `numpy.ndarray` などから作成できる。

In [None]:
# list から
s1 = pd.Series([0,1,2])
print('s1')
print(s1)

# numpy.ndarray から
s2 = pd.Series(np.array([0,1,2]))
print('s2')
print(s2)

# dict から
s3 = pd.Series({0:'boo',1:'foo',2:'woo'})
print('s3')
print(s3)

### `DataFrame`

`DataFrame` は、以下のように、`list`, `dict`, `numpy.ndarray` などから作成できる。  
行のラベルは、`DataFrame` の `index` 引数で指定でき、省略した場合、`0` から番号が `index` となる。列のラベルは `columns` 引数で指定でき、省略した場合は `index` と同様。  
`dict` から `DataFrame` を作成すると `key` が `columns` となる。

In [None]:
# 多次元リストからデータフレームの作成
df_1 = pd.DataFrame([[0,1,2],
                     [3,4,5],
                     [6,7,8],
                     [9,10,11]],
                    index=['i1', 'i2', 'i2', 'i4'],
                    columns=['c1','c2','c3'])
print(df_1)

# numpy.ndarray から DataFrame の作成
# index, columns の引数を省略
df_2 = pd.DataFrame(np.random.rand(12).reshape(4,3))
print(df_2)

# dict から DataFrame の作成
df_3 = pd.DataFrame({'Name':['Boo', 'Foo', 'Woo'], 'Initial':['B','F','W']},
                    index=['b', 'f', 'w'])
print(df_3)

[`pandas.read_csv`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) で csv ファイルを読み込んで `DataFrame` として扱うこともできる。  
以下の引数は、省略可だが、指定するとデータの前処理の省略になるのでよい。

* `dtype` : 列ごとに型を指定する。
* `index_col` : 任意の列を `index` として指定する。
* `usecols` : csv ファイルのうち使用する列を指定する。

In [None]:
df = pd.read_csv('./data/train/datetime.csv', 
                 dtype={'x': np.float64, 'y': np.int32},
                 index_col='datetime', usecols=['x', 'y', 'datetime'])
df

## データの参照・操作

以下では [`scikit-learn`](https://scikit-learn.org/stable/index.html) という機械学習のオープンソースライブラリで配布されている csv ファイル(`iris.csv`)を使用して `pandas` の使用方法を説明する。  
ここでは、 `scikit-learn` をライブラリとしては使用しないので、インストールは不要。データの中身に関する説明も割愛する。

In [None]:
# http を含む URL を指定することもできる。
df = pd.read_csv(
    'https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/iris.csv',
    names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'target'],
    skiprows=1)
df

### データの参照

#### `index`・`columns` の取得

In [None]:
# DataFrame の index の取得
index_ = df.index
print(index_)
print(index_.size) # 行数

In [None]:
# DataFrame の column の取得
columns_ = df.columns
print(columns_)
print(columns_.size) # 列数

#### 特定のデータの参照

任意の行を参照するには、 `loc` プロパティを使用する。`[]`を使用して、`index` を指定し、参照する。

In [None]:
# 1行目を参照
row = df.loc[0]
print(row)
print(type(row))

スライスを使用して複数行指定することもできる。

In [None]:
# 1から11行目を参照
rows = df.loc[0:10]
print(rows)
print(type(rows))

任意の列を参照するには、 "列名"がそのままプロパティとして定義されるので、そのプロパティを参照する。

In [None]:
# sepal_length 列を参照
col = df.sepal_length
print(col)
print(type(col))

`df['列名']` でも列を参照できる。

In [None]:
df['sepal_length']

`df[['列名1', '列名2']]` とすると特定の複数列を参照できる。

In [None]:
df[['sepal_length','sepal_width']]

`df.loc[:,'列名']` でも列を参照できる。

In [None]:
df.loc[:,'sepal_length']

[`iloc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)を使うとスライスが使える。`iloc` では、何番目の列という指定の仕方になる。

In [None]:
df.iloc[:,:-1]

`df.loc['行名','列名']` とすると特定の要素を参照できる。

In [None]:
df.loc[0,'sepal_length']

In [None]:
df.loc[0:9, ['sepal_length', 'sepal_width']]

boolean の配列を渡すことで、条件に当てはまるデータを参照することもできる。

In [None]:
df.loc[df.sepal_length>5.0, 'sepal_length']

[`pandas.DataFrame.head`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html) や [`pandas.DataFame.tail`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html) を用いると先頭や末尾から行数を指定して参照することができる。

In [None]:
df.head(10)

In [None]:
df.tail(10)

### データの操作

#### 行・列名の変更

`index`, `columns` は [`pandas.DataFrame.rename`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html) を用いて変更できる。
変更した結果を元の `DataFrame` に反映したい場合は、`inplace=True`とする。

In [None]:
df.rename(index={0:'a'}, columns={'sepal_length':'SEPAL_LENGTH'}, inplace=False)

#### 列の追加と削除

既存の`DataFrame`に列を追加する場合は、追加したい新たな列名を指定し、値を代入すると新たな列を追加できる。追加するデータの要素数が `DataFrame` の行数と一致している必要がある。

In [None]:
# データフレームに'mycolumn'という列を追加
df['random_a'] = np.random.rand(df.index.size)
df['random_b'] = np.random.rand(df.index.size)
df['random_c'] = np.random.rand(df.index.size)
df.head(10)

`pandas.DataFrame.drop` を用いると、任意の列を削除できる。  
削除した結果を元の `DataFrame` に反映したい場合は、`inplace=True`とする。

In [None]:
df.drop(columns='random_a', inplace=True)
df.drop(columns=['random_b', 'random_c'], inplace=True) # list を渡して複数指定
df.head(5)

[`assign()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.assign.html) を用いると、追加したい列名とその値を指定することで、以下のように新たな列を追加した `DataFrame` を新たに作成することができる。この際、元の `DataFrame` は変更されないことに注意。

In [None]:
df_2 = df.assign(random=np.random.rand(df.index.size))
df_2.head(5)

#### 行の追加と削除

`pandas.DataFrame.append()` を用いると、`DataFrame` に新たな行を追加できる。
`ignore_index=True` の引数を与えることで、追加した `DataFrame` での `index` が自動で割り当てられる。

In [None]:
# 追加する
row_1 = pd.DataFrame(dict(zip(df.columns, [[-1, -2]]*df.columns.size)))
row_2 = pd.Series([-3]*df.columns.size, index=df.columns)
row_3 = pd.Series([-4]*df.columns.size, index=df.columns)

# DataFrame に行を追加し新しい DataFrame を作成
df_2 = df.append(row_1, ignore_index=True)
df_2 = df_2.append([row_2, row_3], ignore_index=True)
df_2.tail(5)

`pandas.DataFrame.drop` を用いると、任意の行も削除できる。

In [None]:
df_2.drop(index=150, inplace=True)
df_2.drop(index=[i for i in range(151,154)], inplace=False)

#### データの並び替え

[`pandas.DataFrame.sort_index`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_index.html) で、`DataFrame` の `index` に基づく並び替えができる。また、[`pandas.DataFrame.sort_values`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html) で、任意の列の値による並び替えできる。列は複数指定可能で、指定する順序で優先度が決まる。いずれのメソッドも、`inplace:bool` の引数により、もとの `DataFrame` を上書きするかどうかを操作できる。また、 `ascending:bool` の引数により、昇順(`True`)か降順(`False`)を指定できる。

In [None]:
sorted_df = df.sort_values(['sepal_length', 'sepal_width'], ascending=False)
sorted_df.head(10)

#### データの連結

[`pandas.concat`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) を用いると、複数の `DataFrame` を連結(concatenate)して新たな `DataFrame` を作成できる。  
`ignore_index=True` の引数を与えることで、連結した `DataFrame` での `index` が自動で割り当てられる。
`axis` 引数で結合する方向を指定できる。`axis=0 (default)` の場合行方向に連結し、`axis=1` を指定すると、列方向に連結する。

In [None]:
# 行方向に連結
concatenated_df = pd.concat([df[:5], df[-5:]], ignore_index=False, axis=0)
concatenated_df.head(10)

In [None]:
# 列方向に連結
concatenated_df = pd.concat([df.loc[:, 'sepal_length'], df.loc[:, ['sepal_width']]], axis=1)
concatenated_df.head(10)

#### データの結合

[`pandas.merge()`](https://pandas.pydata.org/docs/reference/api/pandas.merge.html) を用いて、任意の列の値をキーとして異なるデータフレームを結合することができる。

In [None]:
# sepal_length と petal_length の列からなる3行のデータ
df_1 = pd.concat([df.loc[[0,51,101],['sepal_length']], 
                  df.loc[[0,51,101], ['petal_length']]],
                 axis=1)

# sepal_width と petal_length 列からなる3行のデータ
df_2 = pd.concat([df.loc[[0,51,101],['sepal_width']], 
                  df.loc[[0,51,101], ['petal_length']]],
                 axis=1)

# 2つのデータフレームを petal_length 列の値をキーにして結合
merged_df = pd.merge(df_1, df_2, on='petal_length')
merged_df

#### データのグループ化
[`pandas.DataFrame.groupby()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) を使うと、任意の列の値に基づいて、同じ値を持つ行をグルーピングできる。列は複数指定可能。`groupby` メソッドを適用すると `DataFrameGroupBy` が作成され、`DataFrame` と同様の操作を多く適用できる。

In [None]:
# DataFrame の target 列の値で行をグループ化
grouped_df = df.groupby('target')

In [None]:
# グループごとの先頭5行を表示
grouped_df.head(5)

In [None]:
# グループごとの各列の値の平均値を算出
grouped_df.mean()

#### 時系列データの扱い

ここでは、別に用意した csv ファイルを用いて説明する。

In [None]:
df = pd.read_csv('./data/train/datetime.csv')
df

ここで用意した csv ファイルを `pandas.read_csv` で読み込むと `datetime` 列は以下のように、ただのオブジェクトとして読み込まれる。

In [None]:
print(df.datetime.dtype)

時刻のオブジェクトとして扱うには、[`pandas.to_datetime`](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html) を用いる。

In [None]:
df['datetime'] = pd.to_datetime(df.datetime)
print(df.datetime.dtype)

`read_csv()`の引数`parse_date`にカラム名を指定すると`to_datetime()`の処理を省略できる。

In [None]:
df = pd.read_csv('./data/train/datetime.csv',
                 parse_dates=['datetime'])
df.datetime

`to_datetime()`の`format`指定

In [None]:
df['日時'] = pd.to_datetime(df['日時'], format='%Y年%m月%d日 %H時%M分%S秒')
df['日時']

timezoneの指定

In [None]:
df['日時'] = df['日時'].dt.tz_localize('Asia/Tokyo')
df['日時']

`str`型で出力形式を指定

In [None]:
df['datetime'].dt.strftime('%Y年%m月%d日 %H時%M分%S秒')

UNIX時間 (エポック秒) の取得

`astype(int)`で`int`型にできる

In [None]:
df['datetime'].map(pd.Timestamp.timestamp).astype(int) # unit of second

In [None]:
pd.Series([value.value for value in df['datetime']]) # unit of nano-second

[`datetime.datetime`](https://docs.python.org/ja/3/library/datetime.html#datetime.datetime)型に変換

In [None]:
df['datetime'].dt.to_pydatetime()

[`between_time`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.between_time.html) で「朝7時から8時の間」といったデータを抽出できる。

In [None]:
df.set_index('datetime', inplace=True)

In [None]:
df.between_time('0:15', '7:45')

# Matplotlib

[Matplotlib](https://matplotlib.org/)は、グラフを可視化するためのモジュールを含むライブラリ。以下では、 Matplotlib を使った、グラフの基本的な描画について説明する。

Matoplotlibライブラリを使用するには、まず `matplotlib` をインポートする。ここでは、基本的なグラフを描画するための [`matplotlib.pyplot`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.html) モジュールをインポートする。  
慣例として、このモジュールを `plt` と別名をつけてコードの中で使用する。

In [None]:
from matplotlib import pyplot as plt

## 線グラフ

`pyplot` モジュールの [`plot()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html) メソッドを用いて、リストの要素の数値を縦軸の値としてグラフを描画する。  
`plot()` メソッドの引数に `list` をひとつだけ与えると、リストの要素の数値を縦軸の値とし、 `list` の各要素のインデックスを横軸の値としてグラフを描画する。

In [None]:
y = [ 0, 1, 4, 9, 16 ] # 縦軸

plt.plot(y)
plt.show()

`plot()` メソッドの引数に、 `list` をふたつ与えると、横軸、縦軸、両方の値としてを指定することができる。

In [None]:
x =[ 0, 1, 2, 3, 4 ] # 横軸

plt.plot(x, y)
plt.show()

`list` 以外にも、 array-like なオブジェクトであれば、引数に指定できる。例えば `numpy.ndarray` や `pandas.Series` など。

In [None]:
x_np_ary = np.array(x)
y_np_ary = np.array(y)

plt.plot(x_np_ary, y_np_ary)
plt.show()

In [None]:
x_pd_ser = pd.Series(data=x)
y_pd_ser = pd.Series(data=y)

plt.plot(x_pd_ser, y_pd_ser)
plt.show()

以下のようにグラフを複数まとめて表示することもできる。複数のグラフを表示すると、データごとに異なる色が自動で割り当てられる。

In [None]:
y_1 =[0, 1, 2, 3, 4]
y_2 =[0, 1, 4, 9, 16]

plt.plot(x, y_1)
plt.plot(x, y_2)
plt.show()

`plot()` メソッドではグラフの線の色、形状、データポイントのマーカの種類を、それぞれ以下のように `linestyle`, `color`, `marker` 引数で指定して変更できる。  
引数として指定可能な値は、以下を参照のこと。

- [linestyle](https://matplotlib.org/stable/api/_as_gen/matplotlib.lines.Line2D.html#matplotlib.lines.Line2D.set_linestyle)
- [color](https://matplotlib.org/stable/api/colors_api.html)
- [marker](https://matplotlib.org/stable/api/markers_api.html)

In [None]:
plt.plot(x, y_1, linestyle='--', color='blue', marker='o') 
plt.plot(x, y_2, linestyle=':', color='orange', marker='*')
plt.show()

`plot()` メソッドの `label` 引数に各データの凡例を文字列として渡し、[`legend()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.legend.html) メソッドを実行することで、グラフ内に凡例を表示できる。  
`legend()` メソッドの `loc` の引数で凡例を表示する位置を指定できる。`loc='best'`とすると、最適な位置に自動で配置される。

In [None]:
plt.plot(x, y_1, linestyle='--', color='blue', marker='o', label='linear')
plt.plot(x, y_2, linestyle=':', color='orange', marker='*', label='quadric')
plt.legend(loc='best')
plt.show()

グラフのタイトルや軸ラベルの表示は、[`title()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.title.html#matplotlib.pyplot.title), [`xlabel()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.xlabel.html#matplotlib.pyplot.xlabel), [`ylabel()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.ylabel.html#matplotlib.pyplot.ylabel)メソッドを用いる。  
また、[`grid()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.grid.html) メソッドを用いるとグリッドを表示できる。

In [None]:
plt.plot(x, y_1, linestyle='--', color='blue', marker='o', label='linear')
plt.plot(x, y_2, linestyle=':', color='orange', marker='*', label='quadric')
plt.legend(loc='best')

plt.title('Linear and Quadric') # タイトル
plt.xlabel('horizontal') # 横軸のラベル
plt.ylabel('vertical') # 縦軸のラベル
plt.grid(True) #グリッド
plt.show()

グラフを描画するときのプロット数を増やすことで任意の曲線のグラフを作成することもできる。  
以下では、`numpy` モジュールの `arange()` メソッドを用いて、$-\pi$ から $\pi$ の範囲を `0.1` 刻みで横軸の値を配列として準備する。  
それら横軸の値に対して、`numpy` モジュールの [`cos()`](https://numpy.org/doc/stable/reference/generated/numpy.cos.html) メソッドと [`sin()`](https://numpy.org/doc/stable/reference/generated/numpy.sin.html) メソッドを用いて、縦軸の値をそれぞれ準備し、余弦曲線と正弦曲線を描画する。

In [None]:
#　グラフの横軸の値となる配列
x = np.arange(-np.pi, np.pi, 0.1)

# 上記配列を cos(), sin() のメソッドに渡し, 縦軸の値として描画
plt.plot(x, np.cos(x))
plt.plot(x, np.sin(x))

plt.title('trigonal function curves')  # グラフのタイトル
plt.xlabel('x') # 横軸のラベル
plt.ylabel('y') # 縦軸のラベル
plt.grid(True) #グリッド
plt.show()

プロットの数を少なくすると、曲線は、直線のつなぎ合わせで描画されていることがわかる。

In [None]:
x = np.arange(-np.pi, np.pi, 0.5)
plt.plot(x, np.cos(x))
plt.plot(x,np.sin(x))
plt.title('trigonal function curves')
plt.xlabel('x')
plt.ylabel('y')
plt.grid(True)
plt.show()

## 散布図

`pyplot` モジュールの [`scatter()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html) メソッドを用いて、散布図を描画できる。


以下では、生成した20個の乱数を要素とする配列 `x`, `y` の各要素の値の組を点としてプロットした散布図を表示する。  
プロットする点のマーカの色や形状は、線グラフの時と同様に、 `color`, `marker` 引数で指定して変更できる。  
加えて、`s`, `alpha` 引数で、それぞれマーカの大きさと透明度を指定することができる。

In [None]:
x = np.random.rand(20)
y = np.random.rand(20)

# scatter メソッドで散布図を描画
plt.scatter(x, y, s=100, alpha=0.5)
plt.show()

以下のように、`plot()` メソッドを用いても同様の散布図を表示することができる。  
具体的には、`plot()`メソッドの第3引数`fmt`にプロットする点のマーカの形状を指定することで実現できる。

In [None]:
x = np.random.rand(20)
y = np.random.rand(20)

plt.plot(x, y, 'o', ms=10, alpha=0.5)
plt.show()

## 棒グラフ

棒グラフは、`pyplot` モジュールの [`bar()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html#matplotlib.pyplot.bar) メソッドを用いて描画できる。  

以下では、生成した10個の乱数を要素とする配列 `y` の各要素の値を縦軸の値とした棒グラフを表示する。  
ランダムに生成した10個の要素からなる配列 `y` の各要素の値を縦の棒グラフで表示しています。  
また、横軸の値は、`numpy` モジュールの `arange()` メソッドを用いて、`1` から `10` の整数とする。

In [None]:
x = np.arange(1, 11, 1)
y = np.random.rand(len(x))

# bar メソッドで棒グラフを描画
plt.bar(x, y)
plt.show()

## ヒストグラム

`pyplot` モジュールの [`hist()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html) メソッドを用いて、ヒストグラムは描画できる。

以下では、[`numpy.random.randn()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.randn.html) メソッドを用いて、正規分布に従った1000個の乱数を要素とする配列を用意し、ヒストグラムとして表示する。  
`hist()` メソッドの `bins` 引数でヒストグラムのビンの数を指定する。

In [None]:
# 正規分布に従った1000個の乱数を要素とする配列 
d = np.random.randn(1000)

# hist メソッドでヒストグラムを描画
plt.hist(d, bins=20)
plt.show()

`bins='auto'` とするとデータに合わせていい感じにビン数が設定されて表示される。

In [None]:
plt.hist(d, bins='auto')
plt.show()

## ヒートマップ

3次元の情報を2次元平面で表現する方法の一つにヒートマップがある。  
ヒートマップでは、3次元の情報のうち2つの次元の情報をそれぞれ2次元平面の縦軸と横軸で表し、残りの1つの次元を色の濃淡や種類で表す。  
例えば、部屋の温度情報として、部屋を上からみたときの平面上の位置の情報とその位置での部屋の温度がある場合、ヒートマップはこの情報の有効な可視化の方法である。

`pyplot` モジュールの [`imshow()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.imshow.html) メソッドを用いて、ヒートマップを描画できる。  
`colorbar()` メソッドは、行列の値と色の濃淡の対応(3つ目の次元の軸情報)を表示する。

In [None]:
# 10行10列のランダム要素からなる行列
ary = np.random.rand(100)
ary = ary.reshape(10, 10)


# imshowメソッドでヒートマップを描画
image = plt.imshow(ary, cmap='plasma')
plt.colorbar(image)
plt.show()

## グラフの画像ファイル出力
**`savefig()`** メソッドを用いると、以下のように作成したグラフを画像としてファイルに保存することができます。

In [None]:
x = np.arange(-np.pi, np.pi, 0.1)
plt.plot(x, np.cos(x), label='cos')
plt.plot(x, np.sin(x), label='sin')
plt.legend()
plt.title('trigonal function curves')  
plt.xlabel('x') 
plt.ylabel('y') 
plt.grid(True)

# savefig() メソッドでグラフを画像保存
plt.savefig('./out/trigonal.png')

## チートシート

ここまで紹介してきたのは、`matplotlib` ライブラリの機能のほんの一部。  
あんなこと、こんなことができないかは、公式ドキュメントを探ってみること。  
`matplotlib` が公開している[チートシート](https://github.com/matplotlib/cheatsheets)が調べごとの足がかりになるので参考にすると良い。