# レッスン 01: NumPy 入門 - GonKen 2025 版

## 学習目標
このレッスンを終えるまでに、受講者は以下のことができるようになります。
- NumPy のコア機能を理解する
- 多次元配列を作成および操作する
- 配列に対して数学的および統計的な演算を実行する
- ブロードキャストとベクトル化を理解する
- NumPy を適用して中級から上級レベルのデータ問題を解決する

## セクション 1: NumPy 入門
NumPy とは何か、そしてなぜ重要なのか？

NumPy (Numerical Python) は、Python を用いた科学計算のための基本パッケージです。強力な N 次元配列オブジェクト、ブロードキャスト関数、そして C/C++ および Fortran コードを統合するためのツールを提供します。また、線形代数、フーリエ変換、統計演算のための様々な数学関数もサポートしています。

In [None]:
import numpy as np
# Note: np is a common alias used to reference the NumPy library.

### 2.2 配列型: `dtype`
**概念:** NumPy のデータ型 (`dtype`) を理解します。

すべての NumPy 配列には、**データ型** (略称 `dtype`) が関連付けられています。データ型によって以下の内容が決まります。

- 格納できる値の種類 (例: 整数、浮動小数点数、ブール値、文字列)
- 各要素が使用するメモリ量
- 内部で演算がどのように適用されるか (例: 整数の除算と浮動小数点数の除算)

In [None]:
import numpy as np

a = np.array([1.0, 2.0, 3.0])
print(a.dtype)   # Output: float64

配列作成時に `dtype` を明示的に指定できます。
**重要理由:**

- 演算の動作は `dtype` によって異なります。

例えば、`1 / 2` を `int32` として計算すると `0` になりますが、`float64` として計算すると `0.5` になります。

- 適切な `dtype` を選択すると、特に大規模なデータセットでは**パフォーマンス**と**メモリ効率**が向上します。

> `array.dtype` を使用してデータの格納方法を検査し、`dtype=` パラメータを使用してデータの格納方法を制御します。

In [None]:
np.array([1, 2, 3], dtype='int32')     # 32-bit integers
np.array([1, 2, 3], dtype='float64')   # 64-bit floating point
np.array([True, False], dtype='bool') # Boolean values

### 3. 配列の形状と次元
**概念:** NumPy 配列の `.shape`、`.ndim`、`.size` 属性について学習します。

NumPy 配列は **1 つ以上の次元** を持つことができ、その構造を理解することは、数学演算、ブロードキャスト、リシェイプ、機械学習モデルへのデータ入力を行う際に不可欠です。

In [None]:
import numpy as np

a = np.array([[1, 2], [3, 4]])

それでは、その構造を見てみましょう。
**属性の説明:**

- `.shape`: 各軸（行、列、深さなど）の要素数を示すタプル
- `.ndim`: 軸の数（次元）。
- 1D → ベクトル、2D → 行列、3D → テンソルなど。
- `.size`: 要素の総数（次元の積）。

In [None]:
print("Shape:", a.shape)   # (2, 2) → 2 rows, 2 columns
print("Dimensions:", a.ndim)  # 2 → it's a 2D array
print("Size:", a.size)     # 4 → total number of elements

様々な次元の配列を作成できます。

> これらの属性は、形状の不一致をデバッグする場合や、機械学習パイプライン用のデータを準備する場合（例：入力特徴量を `(n_samples, n_features)` に再形成する場合）に特に役立ちます。

In [None]:
np.array([1, 2, 3])                # 1D → shape: (3,)
np.array([[1, 2], [3, 4]])         # 2D → shape: (2, 2)
np.zeros((2, 3, 4))    

### 4 配列演算
### 4.1 算術演算
**概念:** 配列の要素ごとに算術演算を実行します。

NumPy は **ベクトル化演算** をサポートしているため、**ループを使用せずに**配列に直接算術演算を適用できます。これらの演算は **要素ごとに** 実行され、C 言語の最適化により非常に高速です。

In [None]:
import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print(a + b)  # [5 7 9]
print(a - b)  # [-3 -3 -3]
print(a * b)  # [4 10 18]
print(a / b)  # [0.25 0.4 0.5]

配列の形状が同じ場合、演算は**対応する要素**に適用されます。

#### 4.2 スカラー演算も適用されます。

In [None]:
print(a + 10)  # [11 12 13]
print(a * 2)   # [2 4 6]

#### 4.3 ブロードキャストの活用例:
NumPy は、**ブロードキャスト** ルールを用いて、異なる形状の配列間で演算を適用できます。

以下の例では、形状が **互換性** がある限り、`b` (1D) は `a` (2D) の行全体にブロードキャストされます。

> **ヒント:** NumPy を用いたベクトル化演算は、単に処理が簡潔なだけでなく、Python のループよりも **はるかに高速** です。数値データを扱う場合は、常にベクトル化演算を優先してください。

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([10, 20, 30])

print(a + b)
# Output:
# [[11 22 33]
#  [14 25 36]]

### セクション 5: インデックスとスライス
### 5.1 1次元インデックス

**概念:** インデックスとスライスを使用して、1次元 NumPy 配列の要素にアクセスし、操作します。

**1次元配列** は Python のリストに似ており、強力なインデックス機能をサポートしています。

**0 から始まるインデックス** を使用して、個々の要素にアクセスできます。

In [None]:
import numpy as np

a = np.array([10, 20, 30, 40, 50])

print(a[0])   # 10
print(a[3])   # 40

**負のインデックス** を使用して末尾からカウントすることもできます。

In [None]:
print(a[-1])  # 50
print(a[-2])  # 40

#### スライス:
スライスは**要素の範囲**を抽出します。

In [None]:
print(a[1:4])    # [20 30 40]
print(a[:3])     # [10 20 30] → start to index 2
print(a[2:])     # [30 40 50] → index 2 to end

#### ステップスライス:
スライスは**コピーを作成するのではなく**、元のデータの**ビュー**を提供します。スライスを変更すると、明示的にコピーしない限り、元の配列に影響します。

In [None]:
print(a[::2])    # [10 30 50] → every second element

> **ヒント:** インデックス作成とスライスは、数学演算を適用したりモデルに入力する前にデータを選択および変換するために不可欠です。

### 5.2 多次元インデックス
**概念:** 行と列のインデックスを使用して、2次元（またはそれ以上の次元）配列の要素にアクセスし、操作します。

多次元配列では、NumPy は**カンマ区切りのインデックス** を使用して各軸に沿った位置を指定します。

#### 例 (2次元配列):

In [None]:
import numpy as np

b = np.array([[1, 2, 3],
              [4, 5, 6]])

これは 2×3 配列（2 行 3 列）です。

#### 個々の要素へのアクセス:

In [None]:
print(b[0, 0])  # 1  → first row, first column
print(b[1, 2])  # 6  → second row, third column

#### 行と列のスライス:

In [None]:
print(b[0])       # [1 2 3]  → entire first row
print(b[:, 1])    # [2 5]    → second column from all rows
print(b[1, :])    # [4 5 6]  → all columns from second row
print(b[0:2, 1:]) # [[2 3] [5 6]] → sub-matrix of bottom-right values

#### 負のインデックス:
負の値を使用して、末尾からインデックスを作成できます。

> 多次元インデックスは、**部分行列**の抽出、**特徴量**へのアクセス、モデリングワークフローのためのデータの再構成に非常に役立ちます。

In [None]:
print(b[-1, -1])  # 6 → last row, last column

### セクション 6: 便利な NumPy 関数
### 6.1 配列の初期化

### 6.1 配列の初期化
**概念:** NumPy 組み込み関数を使って、配列を素早く作成します。

NumPy は、特定の形状、サイズ、値を持つ **配列を初期化** するためのさまざまな関数を提供しています。これらは、プレースホルダデータ、構造化グリッド、または計算用のクリーンな行列を作成するために不可欠です。

#### 一般的な配列作成関数:
**1. `np.zeros(shape)`**
ゼロで埋められた配列を作成します。

In [None]:
import numpy as np

np.zeros((2, 3))  
# Output:
# [[0. 0. 0.]
#  [0. 0. 0.]]

**2. `np.ones(shape)`**
1で埋められた配列を作成します。

In [None]:
np.ones((3, 2))  
# Output:
# [[1. 1.]
#  [1. 1.]
#  [1. 1.]]

**3. `np.full(shape, value)`**
指定された値で埋められた配列を作成します。

In [None]:
np.full((2, 2), 7)  
# Output:
# [[7 7]
#  [7 7]]

**4. `np.eye(n)`**
単位行列（対角要素が1、それ以外が0）を作成します。

In [None]:
np.eye(3)  
# Output:
# [[1. 0. 0.]
#  [0. 1. 0.]
#  [0. 0. 1.]]

**5. `np.arange(start, stop, step)`**
指定されたステップで範囲内に値を作成します（Python の `range()` と同様）。

In [None]:
np.arange(0, 10, 2)  
# Output: [0 2 4 6 8]

**6. `np.linspace(start, stop, num)`**
`start` と `stop` の間に、`num` 個の等間隔の値を作成します（両端を含む）。

> **ヒント:** 機械学習における重みの準備、マスクの作成、配列ベースの計算のスキャフォールディングなど、白紙の状態から作業を開始する必要がある場合は、これらの初期化関数を使用します。

In [None]:
np.linspace(0, 1, 5)  
# Output: [0.   0.25 0.5  0.75 1.  ]

### セクション 7: 配列の再構成とフラット化
**概念:** `.reshape()` と `.flatten()` を使用して配列の構造を変換します。

多くのデータサイエンスや機械学習のタスクでは、**配列の再構成** が必要になります。例えば、1次元配列を2次元形式に変換したり、多次元配列を1次元ベクトルにフラット化したりすることです。

NumPy には、このための強力なツールが2つあります。

#### 7.1 `reshape(new_shape)`
配列の構造を、基になるデータに変更を加えることなく変更します。

In [None]:
import numpy as np

a = np.arange(6)         # [0 1 2 3 4 5]
b = a.reshape((2, 3))    # 2 rows, 3 columns

print(b)
# Output:
# [[0 1 2]
#  [3 4 5]]

- 新しい形状は要素の総数と**互換性**がある必要があります。
- `-1` を使用すると、NumPy に次元の 1 つを推測させることができます。

In [None]:
a.reshape((3, -1))  # Output: shape (3, 2)

#### 7.2 `flatten()`
多次元配列を**1次元配列**に変換します。
- `.flatten()` は配列の**コピー**を返します。
- **ビュー**が必要な場合は、代わりに `.ravel()` を使用してください（高速ですが、元の配列にリンクされます）。

> **なぜ重要なのか:**
リシェイプは、以下の場合に重要です。
- MLモデルの入力特徴量の準備（例: `(samples, features)`）
- 画像データの処理（例: 3Dピクセルをベクトルにリシェイプ）
- ブロードキャストまたは行列演算のための配列のアラインメント

In [None]:
print(b.flatten())  # Output: [0 1 2 3 4 5]

### セクション 8: ブロードキャスト
**概念:** 異なる形状の配列に演算を適用します。

**ブロードキャスト** は、**異なる形状** の配列間で算術演算を実行できる強力な NumPy 機能です（ただし、特定の互換性ルールに従う必要があります）。

NumPy は、配列のサイズを手動で変更する代わりに、**可能な場合は自動的に次元を「伸縮」** して形状を一致させ、**要素ごとの演算** を効率的に実行します。

![title](images/broadcasting.png)
<br>

#### 8.1 例 1: 2D + 1D
ここでは、`a` は (3, 3) にブロードキャストされ、`b` はそれに合わせて形状が変更されます。

In [None]:
import numpy as np

a = np.array([[1], [2], [3]])       # Shape: (3, 1)
b = np.array([4, 5, 6])             # Shape: (3,) → becomes (1, 3)

print(a + b)
# Output:
# [[5 6 7]
#  [6 7 8]
#  [7 8 9]]

#### 8.2 例 2: スカラー + 配列

スカラーは配列全体にブロードキャストされます。

#### ブロードキャストルールの概要

1. **図形は右から左へ** (末尾の次元) 比較します。
2. 次元は次の条件を満たす必要があります。
- 等しい、または
- どちらか一方が 1 である
3. 欠落している次元は左から 1 で埋められます。

#### ブロードキャストを使用する場合:

- 行列の各行にベクトルを追加する場合
- 行または列をスケーリングする場合
- ループなしで効率的なデータ変換を行う場合

> **ヒント:** ブロードキャストを使用すると、コードが簡潔になり、処理が高速になります。ただし、微妙なバグや図形の不一致を回避するために、常に次元を検証してください。

In [None]:
x = np.array([1, 2, 3])
print(x + 10)   # [11 12 13]

### セクション 9: 集計関数
**概念:** 組み込みの集計関数を用いて、配列の値を集計または縮小します。

NumPy の集計関数は、**複数の値を合計、平均、最大値、標準偏差などの単一の要約統計値に縮小します**。これらは、データセットの分析、統計値の計算、モデル出力の検証に非常に役立ちます。

#### 9.1 一般的な集計関数:

In [None]:

import numpy as np

a = np.array([[1, 2],
              [3, 4]])

print(a.sum())       # Total sum: 10
print(a.mean())      # Average: 2.5
print(a.std())       # Standard deviation
print(a.min())       # Minimum value: 1
print(a.max())       # Maximum value: 4
print(a.prod())      # Product of all elements: 24

#### 9.2 軸をまたいだ集計

`axis` 引数を使用して、行単位または列単位で集計を実行します。
- `axis=0`: 行を折りたたむ → **列** をまたいだ演算
- `axis=1`: 列を折りたたむ → **行** をまたいだ演算

In [None]:
print(a.sum(axis=0))  # Sum along columns → [4 6]
print(a.sum(axis=1))  # Sum along rows    → [3 7]

### 実際の例:

- 画像内のピクセル値の合計
- 生徒全体の平均点
- センサー読み取り値の標準偏差
- データセットの列方向の正規化

> **ヒント:** 2次元以上の配列を扱う場合は、常に `axis` を明示的に指定してください。これにより、混乱やバグを防ぐことができます。

## セクション 10 理解度チェック問題
1. 0 から 9 までの値を持つ 1 次元配列を作成します。
2. [5, 10, 15] の平均と標準偏差を求めます。
3. 1 から 9 までの値を持つ 3x3 行列を作成します。
4. 対角要素を抽出します。
5. 行列を作成し、正規化します（平均を減算し、標準偏差で割ります）。
6. 2x1 配列と 1x2 配列へのブロードキャストを示します。

これらの問題は、NumPy のユースケースをより深く掘り下げる、今後出題される 20 問の練習問題（初級→上級）の準備となります。