# データの計算・操作

## 概要
- numpy
- pandas

## Numpy
### 配列の定義と情報の取得

numpyの配列は`np.array`関数で定義できます。  
numpyのarrayは行列のような機能が実装されていて、自身の形状や大きさを属性として持ちます。

- `shape`: 行列の形を取得
- `size`: 要素数を取得

In [1]:
import numpy as np

In [2]:
# 1次元配列
arr_1d = np.array([1, 2, 3, 4])

# 2次元配列
arr_2d = np.array([[1, 2], [3, 4]])

print("1次元配列\n", arr_1d)
print("配列の形状とサイズ: ", arr_1d.shape, arr_1d.size)

print("2次元配列\n", arr_2d)
print("配列の形状とサイズ: ", arr_2d.shape, arr_2d.size)

1次元配列
 [1 2 3 4]
配列の形状とサイズ:  (4,) 4
2次元配列
 [[1 2]
 [3 4]]
配列の形状とサイズ:  (2, 2) 4


### 配列の操作

- 要素へのアクセス
- 形状の変更: `reshape`
- 結合: `concatenate`
  結合の向きは`axis`で指定します。


In [3]:
# 配列の定義
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
print("元の配列\n", arr)

# 要素へのアクセス
print("要素へのアクセス")
print("[0, 1] -> ", arr[0, 1])
print("[:2, 2] -> ", arr[:2, 2])  # 1次元配列が返却される
print("[:2, [2]] -> ", arr[:2, [2]])  # 2*1の配列が返却される

# 形状の変更
print("形状の変更")
print("3 * 3 -> 1 * 9 に変換")
arr_19 = arr.reshape(1, 9)
print(arr_19, arr_19.shape)
print("3 * 3 -> 9 * 1 に変換")
arr_91 = arr.reshape(9, 1)
print(arr_91, arr_91.shape) 
# 1次元配列に変更
print("3 * 3 -> 9 に変換")
arr_9 = arr.reshape(9,)
print(arr_9, arr_9.shape)


元の配列
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
要素へのアクセス
[0, 1] ->  1
[:2, 2] ->  [2 5]
[:2, [2]] ->  [[2]
 [5]]
形状の変更
3 * 3 -> 1 * 9 に変換
[[0 1 2 3 4 5 6 7 8]] (1, 9)
3 * 3 -> 9 * 1 に変換
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]] (9, 1)
3 * 3 -> 9 に変換
[0 1 2 3 4 5 6 7 8] (9,)


In [4]:
# 配列の結合
print("結合する前のarrayを定義")
arr1 = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])

print("arr1: ", arr1.shape)
print(arr1, end="\n\n")

arr2 = np.array([[-1, -2], [-5, -6]])

print("arr2: ", arr2.shape)
print(arr2, end="\n\n")

arr３ = np.array([[-1, -2, -3, -4]])

print("arr３: ", arr３.shape)
print(arr３, end="\n\n")

# 結合
print("縦方向に結合した配列")  
#.shapeの1つ目の要素の方向について結合するのでaxis=0を指定
arr_v = np.concatenate([arr1, arr3], axis=0)
print(arr_v)

print("横方向に結合した配列")
#.shapeの2つ目の要素の方向について結合するのでaxis=1を指定
arr_h = np.concatenate([arr1, arr2], axis=1)
print(arr_h)



結合する前のarrayを定義
arr1:  (2, 4)
[[1 2 3 4]
 [5 6 7 8]]

arr2:  (2, 2)
[[-1 -2]
 [-5 -6]]

arr３:  (1, 4)
[[-1 -2 -3 -4]]

縦方向に結合した配列
[[ 1  2  3  4]
 [ 5  6  7  8]
 [-1 -2 -3 -4]]
横方向に結合した配列
[[ 1  2  3  4 -1 -2]
 [ 5  6  7  8 -5 -6]]


### 配列の計算

numpyの`array`は基本的な四則演算はサポートされています。  
ただし、あくまで要素ごとの演算であり、内積や外積のような行列演算ではない。 -> 別の関数が用意されている。

In [5]:
# 計算するための配列の定義
arr1 = np.array([1, 2, 3])
arr2 = np.array([2, 4, 6])

print("arr1: ", arr1)
print("arr2: ", arr2)

print("和: ", arr1 + arr2)
print("差: ", arr1 - arr2)
print("積: ", arr1 * arr2)
print("商: ", arr1 / arr2)

arr1:  [1 2 3]
arr2:  [2 4 6]
和:  [3 6 9]
差:  [-1 -2 -3]
積:  [ 2  8 18]
商:  [0.5 0.5 0.5]


形が合わないとエラーになりますが、結構柔軟に演算してくれます。  
逆に意図しない挙動の元になるので丁寧に確認した方が安全です。

In [6]:
# 形が違うとエラー
try:
    print("これはできない: np.array([1, 2, 3]) + np.array([[2, 3], [5, 6]])")
    np.array([1, 2, 3]) + np.array([[2, 3], [5, 6]])
except Exception as e:
    print("Error: ", e)
print("")

# これは大丈夫
print("1次元配列 + 2次元配列 -> 1 * 3の2次元配列")
print(np.array([1, 2, 3]) + np.array([[1, 2, 3]]))
print("")

# これも大丈夫
print("1 * 3 + 3 * 1 -> 3 * 3")
print(np.array([1, 2, 3]).reshape(1, 3) + np.array([1, 2, 3]).reshape(3, 1))
print("")

# pythonの数値はすべての要素への演算
print("pythonの数値との演算")
print("np.array([1, 2, 3]) + 1 = ", np.array([1, 2, 3]) + 1)
print("")

これはできない: np.array([1, 2, 3]) + np.array([[2, 3], [5, 6]])
Error:  operands could not be broadcast together with shapes (3,) (2,2) 

1次元配列 + 2次元配列 -> 1 * 3の2次元配列
[[2 4 6]]

1 * 3 + 3 * 1 -> 3 * 3
[[2 3 4]
 [3 4 5]
 [4 5 6]]

pythonの数値との演算
np.array([1, 2, 3]) + 1 =  [2 3 4]



### Arrayの参照

Pythonの標準のリストはネストしても特定の向きの取得はできない。  
numpyのndarrayは多次元行列のような参照ができるようになっている。


In [7]:
# サンプルの配列
sample = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
])

# 列を指定して取得
print("sample[:, 1] ->", sample[:, 1])

# 行を指定して取得
print("sample[1, :] ->", sample[1, :])

# 2*2の部分を取得
print("sample[:2, :2] ->\n", sample[:2, :2])

sample[:, 1] -> [2 5 8]
sample[1, :] -> [4 5 6]
sample[:2, :2] ->
 [[1 2]
 [4 5]]


### Arrayの操作
`np.concatenate`を利用して、複数のarrayを結合できる.  
結合の向きは`axis`変数を利用して制御できる. 

`axis`の指定と方向の関係は、`.shape`で返却される`tuple`のうち`axis`で指定した値が変化するように結合される.

例: (1, 3)と（1, 3）のarrayを結合する.
- `axis=0`: 1の部分が結合されるので、(2, 3)のarrayができる. つまり列方向への結合になる
- `axis=1`: 3の部分が結合されるので、(1, 6)のarrayができる. つまり行方向への結合になる


In [8]:
print("結合したい配列")
sample1 = np.array([[1, 2, 3]])
sample2 = np.array([[-1, -2, -3]])
print(sample1, sample1.shape)
print(sample2, sample2.shape)

# 列方向
print("axis=0, 列方向")
print(np.concatenate([sample1, sample2], axis=0))

# 行方向
print("axis=1, 行方向")
print(np.concatenate([sample1, sample2], axis=1))

結合したい配列
[[1 2 3]] (1, 3)
[[-1 -2 -3]] (1, 3)
axis=0, 列方向
[[ 1  2  3]
 [-1 -2 -3]]
axis=1, 行方向
[[ 1  2  3 -1 -2 -3]]


### 統計的な情報の計算

行や列など一定の方向に計算を行うことができる.
この計算は`axis`引数を用いて計算の方向を制御する.

計算の実現方法はndarrayクラスのメソッドとして行う方法と`np`モジュールから行う2種類存在する.


In [9]:
# サンプルの配列
sample = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
])

print("計算対象のArray")
print(sample)
print("形状: ", sample.shape)


計算対象のArray
[[1 2 3]
 [4 5 6]
 [7 8 9]]
形状:  (3, 3)


In [10]:
# 配列全体の計算
print("合計:", sample.sum())
print("最大:", sample.max())
print("最小:", sample.min())
print("平均:", sample.mean())
print("分散:", sample.var())
print("標準偏差:", sample.std())
print("中央値（ =50%ile）:", np.percentile(sample, 50))


合計: 45
最大: 9
最小: 1
平均: 5.0
分散: 6.666666666666667
標準偏差: 2.581988897471611
中央値（ =50%ile）: 5.0


- 中央値（`median`）はpercentileの計算として計算する.
- `percentile`はarrayのメソッドとしては存在しない.

方向を指定したの計算: `axis`を利用して実施する。  
`axis`で指定する値については、shapeの戻り値と相関がある。

shapeが`(x, y)`のarrayに対して、`axis=n`の計算をすると、`(x, y)[n]`の軸に沿って計算される。

例
- (4, 5)の配列に対して、`axis=0`で計算すると4個の値が計算され出力配列の形状は`（5,）`になる
- (2, 3, 4)の配列に対して、`axis=1`で計算すると3個の値が計算され出力配列の形状は`（2, 4）`になる

In [11]:
# 例1: 
sample = np.ones([4, 5])
print("sample.shape ->", (4, 5))
print(sample)

# acis=0で計算
result = sample.sum(axis=0)
print(result)
print("result.shape ->", result.shape)

sample.shape -> (4, 5)
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]
[4. 4. 4. 4. 4.]
result.shape -> (5,)


In [12]:
# 例2: 
sample = np.ones([2, 3, 4])
print("sample.shape ->", (2, 3, 4))
print(sample)
print("")

# acis=0で計算
result = sample.sum(axis=1)
print("sample.sum(axis=1)")
print(result)
print("result.shape ->", result.shape)

sample.shape -> (2, 3, 4)
[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]]

sample.sum(axis=1)
[[3. 3. 3. 3.]
 [3. 3. 3. 3.]]
result.shape -> (2, 4)


## Pandas
Excelのような表計算ライブラリ.   

- DataFrame: 行と列がある.
- Series: 1列のデータ.辞書のようなもの
  
の2種類を使ってデータを扱う.
numpyと合わせてよく使うが、基本的な計算はpandas側で実装されている。

またJupyterLabと連携していてかなり見やすい表示をすることができる.


### DataFrameの基本
辞書やlist,numpy.ndarrayなどさまざまな形の定義ができる

In [13]:
import pandas as pd

# DataFrame可視化用の関数
from IPython.display import display

In [14]:
# 全部同じ
print("配列の辞書")
df = pd.DataFrame({
    "col1": [1, 4, 7],
    "col2": [2, 5, 8],
    "col3": [3, 6, 9],
})
display(df)

print("辞書の配列")
df = pd.DataFrame([
    {"col1": 1, "col2": 2, "col3": 3},
    {"col1": 4, "col2": 5, "col3": 6},
    {"col1": 7, "col2": 8, "col3": 9},
])
display(df)

print("listのlist")
df = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
], columns=["col1", "col2", "col3"])

display(df)

print("numpy.ndarray")
array = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
])
df = pd.DataFrame(array, columns=["col1", "col2", "col3"])

display(df)

配列の辞書


Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6
2,7,8,9


辞書の配列


Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6
2,7,8,9


listのlist


Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6
2,7,8,9


numpy.ndarray


Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6
2,7,8,9


### DataFrameの情報の取得

numpyのarrayのような処理は基本的に実装されている。

値の管理はnumpyと同様のインデックス番号による管理に加えて、インデックス名とカラム名での管理方法もある。  
どちらを利用しても値を取得することができる。

- インデックスの取得: `.iloc[x:, y]`
- インデックス名とカラム名の取得: `.loc[x:, y]`

どのようなインデックス名、カラム名が設定されているかは、`df.index`と`df.columns`で確認できる。

In [15]:
df = pd.DataFrame({
    "col1": [1, 4, 7],
    "col2": [2, 5, 8],
    "col3": [3, 6, 9],
}, index=["a", "b", "c"])
print("データ")
display(df)
print("インデックス名:", df.index)
print("カラム名:", df.columns)
print("")


print("Numpyと同じような属性を取得できる")
print("df.shape:", df.shape)
print("df.size:", df.size)

データ


Unnamed: 0,col1,col2,col3
a,1,2,3
b,4,5,6
c,7,8,9


インデックス名: Index(['a', 'b', 'c'], dtype='object')
カラム名: Index(['col1', 'col2', 'col3'], dtype='object')

Numpyと同じような属性を取得できる
df.shape: (3, 3)
df.size: 9


### 値の参照

In [16]:
print("numpyのようなインデックス番号での参照")
print("df.iloc[0, 0]:")
display(df.iloc[0, 0])
print("df.iloc[0:2, 0]:")
display(df.iloc[0:2, 0])
print("")

print("カラム名インデックス名での参照")
print("df.loc['a', 'col1']:")
display(df.loc['a', 'col1'])
print("df.iloc[['a', 'b'], 'col1']:")
display(df.loc[['a', 'b'], 'col1'])

numpyのようなインデックス番号での参照
df.iloc[0, 0]:


1

df.iloc[0:2, 0]:


a    1
b    4
Name: col1, dtype: int64


カラム名インデックス名での参照
df.loc['a', 'col1']:


1

df.iloc[['a', 'b'], 'col1']:


a    1
b    4
Name: col1, dtype: int64

### 統計的な情報の計算

行や列など一定の方向に計算を行うことができる.
この計算は`axis`引数を用いて計算の方向を制御する.

計算の実現方法は基本的には`DataFrame`のメソッドとして行う。


In [17]:
df = pd.DataFrame({
    "col1": [1, 4, 7],
    "col2": [2, 5, 8],
    "col3": [3, 6, 9],
}, index=["a", "b", "c"])

# 配列全体の計算
print("合計:\n", df.sum())
print("最大:\n", df.max())
print("最小:\n", df.min())
print("平均:\n", df.mean())
print("分散:\n", df.var())
print("標準偏差:\n", df.std())
print("中央値（ =50%ile）:\n", df.median())


合計:
 col1    12
col2    15
col3    18
dtype: int64
最大:
 col1    7
col2    8
col3    9
dtype: int64
最小:
 col1    1
col2    2
col3    3
dtype: int64
平均:
 col1    4.0
col2    5.0
col3    6.0
dtype: float64
分散:
 col1    9.0
col2    9.0
col3    9.0
dtype: float64
標準偏差:
 col1    3.0
col2    3.0
col3    3.0
dtype: float64
中央値（ =50%ile）:
 col1    4.0
col2    5.0
col3    6.0
dtype: float64


numpyと違い、pandasはデフォルトでは列に沿った集計を行う.つまりデフォルトは`axis=0`の演算

numpyのような全体を集計したい場合、`.values`属性を利用してnumpyに変換して計算するか、  
~~`axis=None`を指定する。~~ <- pandasバージョン2.0で出なくなったらしい


In [30]:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(arr, columns=["col1", "col2", "col3"])

# 合計を計算
print("numpy:", arr.sum())
print("pandas:", df.sum())
print("pandas axis=0:", df.sum(axis=0))

# Numpyのデフォルトの演算を再現する
print(df.values.sum())

numpy: 45
pandas: col1    12
col2    15
col3    18
dtype: int64
pandas axis=0: col1    12
col2    15
col3    18
dtype: int64
45


#### describe
pandasには`describe`という関数があり、基本的な統計量を計算してくれる関数がある。

デフォルトでは数値カラムについて以下の統計量を計算する

- 数
- 平均
- 標準偏差
- 最小
- 四分位数
- 最大

includeを利用することで文字列についても実行できる。  
文字列の場合、出力される情報が変わる

- 数
- ユニーク数
- 最頻値
- 最頻値の出現回数

In [36]:
sample = pd.DataFrame({
    "col1": [1, 2, 3 ,4 ,5],
    "col2": [-5, -1.2, 4.2, -4.5, 0],
    "col3": ["a", "b", "c", "d", "c"],
})

print("統計量の表示")
display(sample.describe())

print("文字列カラムもできる")
display(sample.describe(include=["object"]))

統計量の表示


Unnamed: 0,col1,col2
count,5.0,5.0
mean,3.0,-1.3
std,1.581139,3.737646
min,1.0,-5.0
25%,2.0,-4.5
50%,3.0,-1.2
75%,4.0,0.0
max,5.0,4.2


文字列カラムもできる


Unnamed: 0,col3
count,5
unique,4
top,c
freq,2


### 欠損地の取り扱い

`fillna`, `dropna`を使ってデータに含まれる欠損値に対して処理を適用できる。

- `fillna`: 欠損値を特定の値で埋める
- `dropna`: 欠損値を含むデータを消す

#### 欠損値を埋める

In [37]:
# サンプルデータフレームを作成
df = pd.DataFrame({
    "A": [1, 2, None, 4],
    "B": ["a", "b", "c", None]
})
print("元のデータ")
display(df)


# A列の欠損値を列の平均値で補完
df["A"] = df["A"].fillna(df["A"].mean())

# B列の欠損値を文字列 'unknown' で補完
df["B"] = df["B"].fillna("unknown")

print("欠損値を埋めた後のデータ")
display(df)

元のデータ


Unnamed: 0,A,B
0,1.0,a
1,2.0,b
2,,c
3,4.0,


欠損値を埋めた後のデータ


Unnamed: 0,A,B
0,1.0,a
1,2.0,b
2,2.333333,c
3,4.0,unknown


#### 欠損値を削る

In [41]:
# サンプルデータフレームを作成
df = pd.DataFrame({
    "A": [1, 2, None, 4],
    "B": ["a", "b", "c", None]
})
print("元のデータ")
display(df)

print("欠損値を含むレコードを削除する")
display(df.dropna())

# axisを指定することで欠損値を含む列を削除することもできる
# 今回のケースでは列がなくなる
print("欠損値を含む列を削除する")
display(df.dropna(axis=1))


元のデータ


Unnamed: 0,A,B
0,1.0,a
1,2.0,b
2,,c
3,4.0,


欠損値を含むレコードを削除する


Unnamed: 0,A,B
0,1.0,a
1,2.0,b


欠損値を含む列を削除する


0
1
2
3


### 値の抽出(フィルタリング)

似たような機能は`numpy`にも存在する.  
ただpandasの木の王に比べて使い勝手が悪い.

データ処理をするときも基本インデックスやカラムを外すことはないと思うので、Pandasの機能として紹介する.

行と同じサイズの`bool`型の配列を与えることで、レコードごとにフィルタリングを行うことができる.

行と同じサイズの`bool`型の配列は`DataFrame`の列に対して比較演算子を適用することで実現できる.   
例: `df["a"] >= 1`はdfのカラム"a"が1以上

**注意事項**  
一次元の配列である必要がある. pandasで言うと`df["a"]`はSeriesが返却され1次元の配列であるが、`df[["a"]]`はDataFrameが返却され2次元配列になる.

In [57]:
sample = pd.DataFrame({
    "col1": [1, 2, 3 ,4 ,5],
    "col2": [-5, -1.2, 4.2, -4.5, 0],
    "col3": ["a", "b", "c", "d", "c"],
})

print("col1が3以上のレコード")
display(sample[sample["col1"] >= 3])

print("col3が'c'のレコード")
display(sample[sample["col3"] == "c"])

col1が3以上のレコード


Unnamed: 0,col1,col2,col3
2,3,4.2,c
3,4,-4.5,d
4,5,0.0,c


col3が'c'のレコード


Unnamed: 0,col1,col2,col3
2,3,4.2,c
4,5,0.0,c
