# [配列の生成](https://numpy.org/doc/stable/user/basics.creation.html)

## 1）Pythonの配列をNumPyの配列に変換する

NumPyの配列は、リストやタプルといったPythonの配列を使って定義することができます。リストとタプルはそれぞれ[...]と(...)を使って定義されます。リストとタプルは、ndarrayの作成を定義することができます。

In [1]:
import numpy as np

- 数字のリストは1次元の配列を作成します。

In [2]:
a1D = np.array([1, 2, 3, 4])
a1D

array([1, 2, 3, 4])

- リストのリストは2次元の配列を作ります。

In [3]:
a2D = np.array([[1, 2], [3, 4]])

- さらにリストを入れ子にすると、より高次元の配列になります。一般的に、NumPyではあらゆる配列オブジェクトをndarrayと呼ぶ。

In [4]:
a3D = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
a3D

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

numpy.array を使用して新しい配列を定義する際には、配列の要素の dtype を考慮する必要があり、これは明示的に指定できます。この機能により，基礎となるデータ構造や，C/C++ 関数での要素の扱い方をより詳細に制御することができます．dtype の代入に注意しないと，次のような不要なオーバーフローが発生することがあります．

In [5]:
a = np.array([127, 128, 129], dtype=np.int8)
a

array([ 127, -128, -127], dtype=int8)

8ビットの符号付き整数は、-128から127までの整数を表します。この範囲外の整数にint8配列を代入するとオーバーフローしてしまいます。この機能はよく誤解されます。不一致のdtypesで計算を行うと、例えば、望ましくない結果になることがあります。

In [6]:
a = np.array([2, 3, 4], dtype = np.uint32)
b = np.array([5, 6, 7], dtype = np.uint32)
c_unsigned32 = a - b
print('unsigned c:', c_unsigned32, c_unsigned32.dtype)

unsigned c: [4294967293 4294967293 4294967293] uint32


In [7]:
c_signed32 = a - b.astype(np.int32)
print('signed c:', c_signed32, c_signed32.dtype)

signed c: [-3 -3 -3] int64


同じdtype：uint32の2つの配列で演算を行うと、結果の配列は同じ型になることに注意してください。異なる dtype で演算を行うと、NumPy は計算に関わるすべての配列要素を満足させる新しい型を割り当てます。

NumPy のデフォルトの動作は、64 ビット符号付き整数または倍精度浮動小数点数、それぞれ int64 および float で配列を作成することです。もし、配列が特定の型になることを期待しているのであれば、配列を作成する際にdtypeを指定する必要があります。

## 2) NumPy固有の配列作成関数

NumPyには、配列を作成するための40以上の組み込み関数があり、[Array creation routines](https://numpy.org/doc/stable/reference/routines.array-creation.html#routines-array-creation)に記載されています。これらの関数は、作成する配列の次元に基づいて、大きく3つのカテゴリーに分けられます。

1. 1次元配列
2. 2次元配列
3. nd配列

### 1 - 1次元配列作成関数

[numpy.linspace](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html#numpy.linspace)や[numpy.arange](https://numpy.org/doc/stable/reference/generated/numpy.arange.html#numpy.arange)などの1次元配列作成関数は、通常、startとstopの少なくとも2つの入力を必要とします。

numpy.arangeは、値が定期的に増加する配列を作成します。完全な情報や例については、ドキュメントを確認してください。いくつかの例を示します。

In [8]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [9]:
np.arange(2, 10, dtype=float)

array([2., 3., 4., 5., 6., 7., 8., 9.])

In [10]:
np.arange(2, 3, 0.1)

array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9])

注意：numpy.arangeのベストプラクティスは、整数のstart、end、step値を使用することです。2 番目の例では、dtype が定義されています。3番目の例では，ステップサイズが0.1であることを考慮して，配列はdtype=floatとなっています．丸め誤差のため、ストップ値が含まれることがあります。

numpy.linspaceは、指定された数の要素を持ち、指定された開始値と終了値の間に等間隔で配置された配列を作成します。例えば、以下のようになります。

In [11]:
np.linspace(1., 4., 6)

array([1. , 1.6, 2.2, 2.8, 3.4, 4. ])

この作成関数の利点は、要素数と始点・終点を保証することです。これまでのarange(start, stop, step)ではstopという値は含まれません。

## 2 - 2次元配列作成機能

[numpy.eye](https://numpy.org/doc/stable/reference/generated/numpy.eye.html#numpy.eye)、[numpy.diag](https://numpy.org/doc/stable/reference/generated/numpy.diag.html#numpy.diag)、などの2D配列作成関数は、2D配列として表される特殊な行列の特性を定義します。

np.eye(n, m)は、2次元の単位行列を定義します。i=j（行インデックスと列インデックスが等しい）の要素は1、それ以外は0、というように。

In [12]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [13]:
np.eye(3, 5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

numpy.diagは、対角線上に値を持つ正方形の2次元配列を定義したり、2次元配列が与えられた場合、対角線上の要素のみを持つ1次元配列を返します。この2つの配列作成関数は、以下のように線形代数を行う際に役立ちます。

In [14]:
np.diag([1, 2, 3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [15]:
np.diag([1, 2, 3], 1)

array([[0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3],
       [0, 0, 0, 0]])

In [16]:
a = np.array([[1, 2], [3, 4]])
np.diag(a)

array([1, 4])

## 3 - 3次元配列作成機能

ndarray 作成関数（例：[numpy.ones](https://numpy.org/doc/stable/reference/generated/numpy.ones.html#numpy.ones)、[numpy.zero](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html#numpy.zeros)、[random](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.random.html#numpy.random.Generator.random)）は、希望する形状に基づいて配列を定義する。ndarray作成関数は、タプルまたはリストで次元数とその次元に沿った長さを指定することで、任意の次元の配列を作成できます。

numpy.zerosは、指定された形状で、0の値で埋め尽くされた配列を作成します。デフォルトの dtype は float64 です。

In [17]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [18]:
np.zeros((2, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

numpy.onesは、1の値で満たされた配列を作成します。その他の点ではzeroと同じです。

In [19]:
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [20]:
np.ones((2, 3, 2))

array([[[1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.]]])

## 3) 既存配列の複製、結合、変異

配列を作成したら，それらの既存の配列を複製したり，結合したり，変異させたりして，新しい配列を作成することができます．配列やその要素を新しい変数に代入する際には，明示的に [numpy.copy](https://numpy.org/doc/stable/reference/generated/numpy.copy.html#numpy.copy) しなければなりません．次のような例を考えてみましょう。

In [21]:
a = np.array([1, 2, 3, 4, 5, 6])
b = a[:2]
b += 1
print('a =', a, '; b =', b)

a = [2 3 3 4 5 6] ; b = [2 3]


この例では、新しい配列を作ったわけではありません。bに1を加えると、a[:2]に1を加えたのと同じ結果になります。これは上記の代入式ではbにaの値を渡したのではなくaのメモリ参照をbに渡したことに起因します。

In [22]:
print(id(a[:2]) == id(b[:2])) 
print("id(a) = %s" % id(a[:2]))
print("id(b) = %s" % id(b[:2]))

True
id(a) = 4455430256
id(b) = 4455430256


新しい配列を作成したい場合は、numpy.copyという配列作成ルーチンを次のように使用します。

In [23]:
a = np.array([1, 2, 3, 4, 5, 6])
b = a[:2].copy()
b += 1
print('a =', a, '; b =', b)

a = [1 2 3 4 5 6] ; b = [2 3]


numpyでは[copyとviewという2つのオブジェクトが存在している](https://numpy.org/doc/stable/user/quickstart.html#quickstart-copies-and-views)ことを知るともう少し理解が深まるかもしれません。

[numpy.vstack](https://numpy.org/doc/stable/reference/generated/numpy.vstack.html#numpy.vstack)，[numpy.hstack](https://numpy.org/doc/stable/reference/generated/numpy.hstack.html#numpy.hstack)，[numpy.block](https://numpy.org/doc/stable/reference/generated/numpy.block.html#numpy.block)など，既存の配列を結合するルーチンは多数あります．ここでは，blockを使って2行2列の配列を4行4列の配列に結合する例を示します．

np.vstackは行データを列方向に積み上げます。a.shape=(m1, n), b.shape=(m2, n)ならばc = np.vstack((a, b)), c.shape=((m1+m2), n)となります。

In [36]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = np.vstack((a,b))
print(c)
print("shape:", c.shape)

[[1 2 3]
 [4 5 6]]
shape: (2, 3)


In [37]:
a = np.array([[1], [2], [3]])
b = np.array([[4], [5], [6]])
c = np.vstack((a,b))
print(c)
print("shape:", c.shape)

[[1]
 [2]
 [3]
 [4]
 [5]
 [6]]
shape: (6, 1)


np.hstackは列データを行方向に積み上げます。a.shape=(m, n1), b.shape=(m, n2)ならばc = np.hstack((a, b)), c.shape=(m, (n1+n2))

In [33]:
A = np.ones((2, 2))
B = np.eye(2, 2) # TODO
C = np.zeros((2, 2))
D = np.diag((-3, -4))
np.block([[A, B],[C, D]])

array([[ 1.,  1.,  1.,  0.],
       [ 1.,  1.,  0.,  1.],
       [ 0.,  0., -3.,  0.],
       [ 0.,  0.,  0., -4.]])

NumPyは、Python科学計算スタックにおける配列コンテナの基本ライブラリです。SciPy、Pandas、OpenCVを含む多くのPythonライブラリは、データ交換のための共通フォーマットとしてNumPy ndarraysを使用しており、これらのライブラリはNumPy配列を作成、操作、および操作することができます。

# [インデクシング](https://numpy.org/doc/stable/user/basics.indexing.html)

配列のインデックスとは、角括弧（[]）を使って配列の値にインデックスを付けることです。インデックス作成には多くのオプションがあり、NumPyのインデックス作成に大きな力を与えていますが、力には複雑さと混乱の可能性が伴います。このセクションでは、インデックス作成に関する様々なオプションと問題点の概要を説明します。単一要素のインデックス作成は別として、これらのオプションのほとんどの詳細は、関連するセクションで見つけることができます。

## 代入と参照の比較

以下の例では、配列内のデータを参照する際にインデックスを使用しています。この例は、配列に代入する場合も同様に動作します。具体的な例や代入の仕組みについての説明は、最後のセクションをご覧ください。

## 単一要素のインデクシング

1次元配列に対する単一要素のインデクシングについては期待通りです。他の標準的なPython配列と全く同じように動作します。これは0ベースで、配列の最後からのインデックスを作成するために負のインデックスを受け入れます。

In [None]:
x = np.arange(10)
x

In [None]:
x[2]

In [None]:
x[-2]

リストやタプルとは異なり、NumPyの配列は多次元配列に対する多次元インデックスをサポートしています。つまり、各次元のインデックスをそれぞれの角括弧に分ける必要はありません。

In [None]:
x.shape = (2,5)
x

In [None]:
x[1, 3]

In [None]:
x[1, -1]

多次元配列に次元数よりも少ないインデックスを付けると、一次元配列になることに注意してください。例えば、以下のようになります。

In [None]:
x[0]

つまり，インデックスが指定されるたびに，残りの次元に対応する配列が選択されることになる。上記の例では，0を選択すると，長さ5の残りの次元が指定されていないことになり，その次元とサイズの配列が返されることになります。ここで注意しなければならないのは，返される配列は元の配列のコピーではなく，元の配列と同じ値をメモリ上で指し示しているということです．この場合、最初の位置（0）にある1次元の配列が返されます。つまり，返される配列に1つのインデックスを使用すると，1つの要素が返されることになります。

In [None]:
x[0][2]

つまり、x[0,2] = x[0][2]となりますが、2番目のケースは、最初のインデックスの後に新しい一時的な配列が作成され、その後2でインデックスされるため、より非効率的です。

IDLやFortranのメモリオーダーに慣れている人には、インデックスに関連する注意が必要です。NumPyはCオーダーのインデックスを使用します。これは、FortranやIDLのように最初のインデックスがメモリ内の最も急速に変化する場所を表すのではなく、最後のインデックスが通常最も急速に変化するメモリの場所を表すことを意味します。この違いは、混乱を招く大きな可能性があります。（何を言っているんでしょうかね）


## その他のインデックス作成オプション

配列をスライスしたり，ストライドしたりして，同じ次元数で，元の配列とは異なるサイズの配列を取り出すことができます．スライスやストライドは，リストやタプルの場合と全く同じように動作しますが，多次元にも適用できることが特徴です．いくつかの例を見るとよくわかります。

In [None]:
x = np.arange(10)
x

In [None]:
x[2:5]

In [None]:
x[:-7]

In [None]:
x[1:7:2]

In [None]:
y = np.arange(35).reshape(5, 7)
y[1:5:2, ::3]

配列のスライスは，配列の内部データをコピーするのではなく，元のデータの新しいビューを生成するだけであることに注意してください．これは，リストやタプルのスライスとは異なります．元のデータが不要になった場合は，明示的に copy() を行うことをお勧めします．

配列から新しい配列に値のリストを選択する目的で，配列に他の配列のインデックスを付けることができます．これには 2 つの方法があります。1つは，1つ以上のインデックス値の配列を使用します。もう1つは，選択する値を示す適切な形状のブーリアン配列を与える方法です．インデックス配列は非常に強力なツールで、配列内の個々の要素に対するループ処理を避けることができるため、パフォーマンスが大幅に向上します。

また、特殊な機能を利用して、配列の次元数をインデックスによって効果的に増やすことができ、式や特定の関数で使用するために必要な形状の配列を得ることができます。

## 配列のインデックス

NumPyの配列は、他の配列（または、タプルを除いたリストなど、配列に変換可能な他のシーケンス状のオブジェクト）でインデックスを付けることができます。インデックス配列の用途は、単純でわかりやすいものから、複雑で理解しにくいものまでさまざまです。どのようなインデックス配列であっても、返されるのは元のデータのコピーであり、スライスで得られるようなビューではありません。

インデックス配列は，整数型でなければなりません。配列内の各値は，インデックスの代わりに配列内のどの値を使用するかを示します。例を挙げると

In [None]:
x = np.arange(10,1,-1)
x

In [None]:
x[np.array([3, 3, 1, 8])]

値3，3，1，8で構成されるインデックス配列は，それに対応して長さ4（インデックス配列と同じ）の配列を作成し，各インデックスはインデックス配列が持つ値で置換されます。

負の値も許可されており，単一のインデックスやスライスの場合と同様に動作します。

## 構造的なインデックス作成ツール

配列の形状を式や代入で簡単に一致させるために、np.newaxisオブジェクトを配列のインデックス内で使用して、サイズが1の新しい次元を追加することができます。

In [None]:
y.shape

In [None]:
y[:,np.newaxis,:].shape

In [None]:
y

In [None]:
y[:,np.newaxis,:]

配列には新しい要素はなく，単に次元が大きくなっただけであることに注意してください．これは，他の方法では明示的な再形成操作が必要となるような方法で2つの配列を結合するのに便利です．例えば 

In [None]:
x = np.arange(5)
x[:,np.newaxis] + x[np.newaxis,:]

In [None]:
x[:,np.newaxis]

In [None]:
x[np.newaxis,:]

# ブロードキャスト

ブロードキャスティングとは、numpyが算術演算時に形状の異なる配列をどのように扱うかを表す用語です。一定の制約のもとで，小さい方の配列が大きい方の配列に「ブロードキャスト」され，両者の形状が一致するようになります．ブロードキャストは，配列の操作をベクトル化する手段を提供し，PythonではなくC言語でループ処理が行われるようにします．ブロードキャスティングは、データの不要なコピーを作成することなく行うことができ、通常、効率的なアルゴリズムの実装につながります。しかし、ブロードキャスティングが悪いアイデアである場合もあります。それは、メモリの非効率な使用につながり、計算が遅くなるからです。（どっちなんだよ、と言いたくなりますね）

NumPyの演算は、通常、配列のペアに対して、要素ごとに行われます。最も単純なケースでは，次の例のように，2つの配列はまったく同じ形をしていなければなりません．

In [None]:
a = np.array([1.0, 2.0, 3.0])
b = np.array([2.0, 2.0, 2.0])
a * b

NumPyのブロードキャスティング・ルールは、配列の形状が特定の制約を満たす場合に、この制約を緩和します。最も簡単なブロードキャスティングの例は、配列とスカラ値を組み合わせて演算する場合です。

In [None]:
a = np.array([1.0, 2.0, 3.0])
b = 2.0
a*b

この結果は，bが配列であった先ほどの例と同じです．スカラーbは，算術演算中に引き伸ばされて，aと同じ形の配列になったと考えることができます．bの新しい要素は，元のスカラーの単なるコピーです．ストレッチの例えはあくまでも概念的なものです。NumPyは賢いので、実際にはコピーを作らずに元のスカラ値を使用し、ブロードキャストの操作ができるだけメモリと計算の効率が良くなるようにしています。

2番目の例のコードは、1番目の例のコードよりも効率的である。なぜなら、ブロードキャスティングによって乗算中に移動するメモリが少ないからである（bは配列ではなくスカラである）。

## ブロードキャストの一般則

2つの配列を操作するとき、NumPyはそれらの形状を要素ごとに比較します。後続の（つまり右端の）次元から始めて、左に向かって作業していきます。2つの次元が一致するのは

1. それらが等しい、または
2. どちらかが1の場合

これらの条件が満たされない場合、ValueError: operands could not be broadcast together 例外が投げられ、配列の形状に互換性がないことが示されます。結果として得られる配列のサイズは、入力の各軸に沿って1ではないサイズとなります。

配列の次元数は同じである必要はありません。例えば、RGB値の256x256x3の配列があり、画像の各色を異なる値でスケーリングしたい場合、3つの値を持つ1次元の配列に画像を乗じることができます。これらの配列の後続軸のサイズをブロードキャスト規則に従って並べると、互換性があることがわかる。

```
Image  (3d array): 256 x 256 x 3
Scale  (1d array):             3
Result (3d array): 256 x 256 x 3
```

比較する次元のどちらかが1の場合は、もう一方の寸法を使用する。言い換えれば、サイズが1の次元は、もう一方に合わせて引き伸ばされるか、「コピー」されます。

次の例では，A配列とB配列の両方に長さが1の軸があり，それがブロードキャスト操作中に大きなサイズに拡張されます．

```
A      (4d array):  8 x 1 x 6 x 1
B      (3d array):      7 x 1 x 5
Result (4d array):  8 x 7 x 6 x 5
```

更なる例については[こちら](https://numpy.org/doc/stable/user/basics.broadcasting.html)を参照されたい。

# 行列の演算

## [内積](https://numpy.org/doc/stable/reference/generated/numpy.dot.html?highlight=dot#numpy.dot)

$\sum_{i=1}^{n}x_iy_i = \boldsymbol{x}^T\boldsymbol{y}$ : ```np.dot(x, y)```

In [None]:
np.dot(3, 4)

In [None]:
a = np.array([[1, 0], [0, 1]])
b = np.array([[4, 1], [2, 2]])
np.dot(a, b)

In [None]:
a.dot(b)

In [None]:
a@b

In [None]:
a = np.arange(9).reshape(3, 3)
a

In [None]:
b = np.arange(1, 4)
b

In [None]:
np.dot(a, b)

In [None]:
np.dot(b, a)

In [None]:
c = b.reshape(-1, 1)
c

In [None]:
np.dot(a, c)

In [None]:
np.dot(c, a) # エラーでok

## 和

In [None]:
np.sum([0.5, 1.5])

In [None]:
np.sum([0.5, 0.7, 0.2, 1.5], dtype=np.int32)

In [None]:
np.sum([[0, 1], [0, 5]])

In [None]:
np.sum([[0, 1], [0, 5]], axis=0)

In [None]:
np.sum([[0, 1], [0, 5]], axis=1)