### NumpyとPandas

Pythonで数値計算や行列を扱う場合に使用する高機能・高速演算ライブラリ。
機能の共通点がいくつかあり、互換性もあるので同時に使う事も多い。

|名称|主な機能|データの種類|
|---|---|---|
|**Numpy**|数値計算、ベクトル計算、数値データ生成 | 機能は数値データに特化している|
|**Pandas**|行列処理、特定データ抽出、集計、データ結合 | 数値以外のデータも扱う事ができる|

慣例的にnumpyはnp、pandasはpdと略してインポートする。

ライブラリを仮想環境にインストール

In [None]:
%pip install -r requirements.txt

#### ライブラリのNotebookへのインポート

In [59]:
import numpy as np
import pandas as pd

#### Numpyを使う

In [50]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [51]:
# 全要素に+3
a + 3

array([[ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [52]:
# 2行目だけ+3
a[1] + 3

array([7, 8, 9])

In [55]:
# 2列目だけ+3した行列をつくる
# 元の変数をcopyしておけば元の行列は変わらない
b = a.copy()
b[1] += 10
b

array([[ 1,  2,  3],
       [14, 15, 16],
       [ 7,  8,  9]])

In [56]:
# copyしておけば元の変数は変わらない
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### Pandasを使う

In [29]:
# Numpyの配列からDataFrame（行列データ）を作る
d = pd.DataFrame(a)
d

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [30]:
# Numpyの配列
d.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [32]:
d = pd.DataFrame(d.values, index=['row-1', 'row-2', 'row-3'], columns=['col-1', 'col-2', 'col-3'])
d

Unnamed: 0,col-1,col-2,col-3
row-1,1,2,3
row-2,4,5,6
row-3,7,8,9


In [33]:
# 列の抽出
col_1 = d['col-1']
col_1

row-1    1
row-2    4
row-3    7
Name: col-1, dtype: int32

In [34]:
type(col_1)

pandas.core.series.Series

In [35]:
# 複数列の抽出
sd = d[['col-1', 'col-3']]
print(type(sd))
sd

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,col-1,col-3
row-1,1,3
row-2,4,6
row-3,7,9


In [57]:
# 列の合計
d.sum()

col-1    18
col-2    21
col-3    24
dtype: int64

In [58]:
# 行の合計
d.sum(axis=1)

row-1     6
row-2    33
row-3    24
dtype: int64

In [89]:
# dと一部同じカラムを持つ別のデータ
e = pd.DataFrame(np.zeros([3, 2]), columns=['col-1', 'COL-E-2'], dtype='int')
e.loc[:1, 'col-1'] = [1, 10]
e.loc[:, 'COL-E-2'] = [-5, -10, -15]
e

Unnamed: 0,col-1,COL-E-2
0,1,-5
1,10,-10
2,0,-15


In [95]:
# 行方向（縦）に結合
# SQLでは UNION に相当する
pd.concat([d, e])

Unnamed: 0,col-1,col-2,col-3,COL-E-2
row-1,1,2.0,3.0,
row-2,10,11.0,12.0,
row-3,7,8.0,9.0,
0,1,,,-5.0
1,10,,,-10.0
2,0,,,-15.0


In [93]:
# 列方向（横）に 内部結合
# INNER JOIN
pd.merge(d, e, how='inner', on='col-1')

Unnamed: 0,col-1,col-2,col-3,COL-E-2
0,1,2,3,-5
1,10,11,12,-10


In [94]:
# 列方向（横）に 左結合
# LEFT JOIN
pd.merge(d, e, how='left', on='col-1')

Unnamed: 0,col-1,col-2,col-3,COL-E-2
0,1,2,3,-5.0
1,10,11,12,-10.0
2,7,8,9,


---

### 練習：NumpyとPandas
* 5行5列で、値がすべて0のデータをNumpyとPandas(DataFrame)で作成する
* DataFrameのデータの列(1～5列)のうち、3列目の2～4行目だけ全て10にする
* セルにあらかじめ書いてあるコメントを外して試してみても良い

In [97]:
# np.zeros([2, 2])

In [115]:
# dd = d.copy()
# dd.iloc[1:, 0] = 999
# dd