# NumPyの使い方

NumPy は、数値データを高速に扱うための配列ライブラリです。Python のリストよりも、
`同じ型の数値を大量に計算する` 場面で強みを発揮します。

このノートでは、配列の形（shape）と演算規則（broadcast）を軸に、分析でよく使う操作を一通り確認します。

In [None]:
import numpy as np


まずは `ndarray` の基本です。shape と dtype を見る習慣をつけると、
行列計算のエラー原因を早く特定できます。

In [None]:
a = np.array([1, 2, 3, 4], dtype=np.float64)
b = np.array([[10, 20], [30, 40], [50, 60]])

print("a:", a)
print("a.shape:", a.shape, "a.dtype:", a.dtype)
print("b:\n", b)
print("b.shape:", b.shape, "b.dtype:", b.dtype)


要素ごとの演算は NumPy の基本です。四則演算・比較演算を配列全体に対して直接書けます。

In [None]:
x = np.array([1.0, 2.0, 3.0, 4.0])
y = np.array([2.0, 4.0, 6.0, 8.0])

print("x + y:", x + y)
print("x * y:", x * y)
print("x / y:", x / y)
print("x >= 2.5:", x >= 2.5)


ブロードキャストは「次元が違っても計算できるように拡張する」仕組みです。
ここでは `matrix.shape == (3, 3)` と `offset.shape == (3,)` ですが、
NumPy は `offset` を各行に複製した形として解釈し、行ごとに加算します。

In [None]:
matrix = np.array([[1., 2., 3.], [4., 5., 6.], [7., 8., 9.]])
offset = np.array([10., 20., 30.])

print("matrix.shape:", matrix.shape)
print("offset.shape:", offset.shape)
print("matrix + offset:\n", matrix + offset)


インデキシングは、行列から欲しい部分を抜き出すための必須スキルです。
スライスとブールマスクを使えるようになると、前処理がかなり書きやすくなります。

ブールマスクは `True/False` の配列で、`True` の位置の要素だけを取り出します。

In [None]:
arr = np.arange(1, 13).reshape(3, 4)
print("arr:\n", arr)
print("2行目:", arr[1])
print("1〜2行, 2〜4列:\n", arr[0:2, 1:4])

mask = arr % 2 == 0
print("mask:\n", mask)
print("偶数だけ:", arr[mask])


集約操作（sum, mean, max）は `axis` を意識するのがポイントです。
`axis=0` は列方向、`axis=1` は行方向の集約を意味します。

In [None]:
scores = np.array([[72, 88, 65], [91, 77, 84], [68, 79, 95]])

print("全体平均:", scores.mean())
print("科目ごとの平均(axis=0):", scores.mean(axis=0))
print("学生ごとの合計(axis=1):", scores.sum(axis=1))


線形代数の演算は、ニューラルネットワークの実装理解にも直結します。
`@` 演算子で行列積を書けます。

In [None]:
W = np.array([[0.2, -0.3], [0.4, 0.1], [0.5, -0.2]])
x = np.array([1.0, 2.0, -1.0])
b = np.array([0.1, -0.2])

logits = x @ W + b
print("logits:", logits)


乱数生成では、再現性のためにシード固定を先に行うのが実務上の基本です。

In [None]:
rng = np.random.default_rng(seed=42)
samples = rng.normal(loc=0.0, scale=1.0, size=(5, 3))

print(samples)
print("列平均:", samples.mean(axis=0))


最後に、標準化（平均0・分散1）を NumPy で実装します。
これは多くの機械学習アルゴリズムで前処理として使います。

In [None]:
features = np.array([
    [160, 55],
    [170, 68],
    [175, 70],
    [180, 80],
], dtype=np.float64)

mu = features.mean(axis=0)
sigma = features.std(axis=0)
scaled = (features - mu) / sigma

print("mu:", mu)
print("sigma:", sigma)
print("scaled:\n", scaled)
print("scaled mean:", scaled.mean(axis=0))


NumPy は「配列の形を正しく管理しながらまとめて計算する」ための道具です。
shape と axis を都度確認する癖が、バグを減らす最短ルートです。