# NumPy

計算社会科学の研究は、テキスト、画像、ビデオや数値測定結果など幅広いデータセットとソースを扱っています。

形式に違いがあるにも関わらず、基本的に全てのデータは数値の配列として扱うのに適しています。

- テキストデータは文字のシーケンスであり、それぞれの文字には数値の表現があります（通常はUnicode）。テキスト処理や自然言語処理のために、テキストデータは数値の配列として表現されることがあります。一般的な手法には、文字を数値にエンコードする方法（例：ASCII、UTF-8）、単語や文字の出現頻度を数える方法、単語の埋め込み（Word2Vec、GloVe）などがあります。
- 画像は、各ピクセルに対して数値の輝度や色情報が割り当てられています。カラー画像の場合、各ピクセルはRGB（赤、緑、青）の値で表され、グレースケール画像の場合は単一の輝度値で表されます。

![](https://nbviewer.org/github/fastai/numerical-linear-algebra/blob/master/nbs/images/digit.gif)

どのようなデータであっても、それらを分析可能にする最初のステップは、数値の配列に変換することです。

このため、数値配列の効率的な格納と操作は、データ分析にとって欠かせない要素です。

```NumPy```は、多次元配列や行列演算を効率的に処理する機能を提供し、科学技術計算やデータ解析に広く利用されています。

In [10]:
import numpy as np
print(np.__version__)

1.21.6


## NumPy配列の作成

### Pythonリストから作る配列

```np.array```を使って、PythonリストからNumPy配列（```ndarray```）を作成します。

```{margin}
NumPy配列とPythonの組み込みリストと似ていますが、NumPy配列はより効率的な格納とデータ操作を提供しています。
```

In [11]:
np.array([1, 2, 3, 4, 5, 6])

array([1, 2, 3, 4, 5, 6])

Pythonリストとは異なり、NumPy配列の要素は全て同じ型という制約がります。作成する際、型が一致しない場合、可能であればNumPyは自動的に調整してくれます。

In [12]:
np.array([1, 2, 3.14, 4, 5, 6]) # upcasting: all elements are converted to float

array([1.  , 2.  , 3.14, 4.  , 5.  , 6.  ])

```dtype```キーワードで配列のデータ型を明示的に設定できます。

In [13]:
np.array([1, 2, 3, 4, 5, 6],dtype='float32') # specify data type

array([1., 2., 3., 4., 5., 6.], dtype=float32)

### 配列の構築

```NumPy```の組み込み関数で配列を作成できます。

In [14]:
np.zeros(10, dtype=int) # create an array of 10 zeros

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [15]:
np.ones((3, 5), dtype=float) # create a 3x5 array of floating-point ones

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [16]:
np.full((3, 5), 3.14) # create a 3x5 array filled with 3.14

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [17]:
np.arange(0, 20, 2) # create an array filled with a linear sequence

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [18]:
np.linspace(0, 1, 5) # create an array of five values evenly spaced between 0 and 1

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [19]:
np.random.random((3, 3)) # create a 3x3 array of uniformly distributed random values between 0 and 1

array([[0.42371929, 0.52653718, 0.35953754],
       [0.71314387, 0.47818005, 0.534512  ],
       [0.43096324, 0.28663408, 0.72074438]])

In [20]:
np.random.normal(0, 1, (3, 3)) # create a 3x3 array of normally distributed random values with mean 0 and standard deviation 1

array([[ 1.27505926,  0.97867846,  0.24274279],
       [-0.39499383,  1.64129539,  1.43197925],
       [-0.50659033,  0.75383202,  0.14008313]])

In [22]:
np.random.randint(0, 10, (3, 3)) # create a 3x3 array of random integers in the interval [0, 10)

array([[7, 3, 4],
       [4, 7, 1],
       [8, 7, 2]])

In [23]:
np.eye(3) # create a 3x3 identity matrix

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

```{note}
配列作成方法の一覧は、[公式チュートリアル](https://numpy.org/doc/stable/reference/routines.array-creation.html)を参照してください。
```

## NumPy配列の属性

In [26]:
import numpy as np
np.random.seed(0) # seed for reproducibility
x1 = np.random.randint(10, size=6) # one-dimensional array
x2 = np.random.randint(10, size=(3, 4)) # two-dimensional array
x3 = np.random.randint(10, size=(3, 4, 5)) # three-dimensional array

NumPy配列には、ndim(次元数)、shape(各次元のサイズ)、size(配列の合計サイズ)、dtype(配列のデータ型)などの属性を持ちます。

In [29]:
print("x3 ndim: ", x3.ndim) # number of dimensions
print("x3 shape:", x3.shape) # the size of each dimension
print("x3 size: ", x3.size) # total size of the array
print("dtype:", x3.dtype) # data type of the array

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60
dtype: int64


## 配列のインデクス

1次元配列では、Pythonリストと同様に、$i$番目($0$から)の値にアクセスできます。

In [30]:
x1

array([5, 0, 3, 3, 7, 9])

In [31]:
x1[1]

0

多次元配列では、カンマで区切ったインデクスで要素にアクセスします。

In [32]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [33]:
x2[1,1]

6

In [34]:
x2[1,-1]

8

インデクスを指定し、要素の値を変更するもできます。

In [35]:
x2[1,-1]=12

In [36]:
x2

array([[ 3,  5,  2,  4],
       [ 7,  6,  8, 12],
       [ 1,  6,  7,  7]])