In [1]:
import numpy as np

In [2]:
my_arr = np.arange(1000000)

In [3]:
my_list = list(range(1000000))

In [4]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 23.9 ms, sys: 27.9 ms, total: 51.8 ms
Wall time: 48.5 ms


In [5]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 788 ms, sys: 348 ms, total: 1.14 s
Wall time: 1.14 s


NumPyが提供するアルゴリズムはC言語で実装されていて、オーバーヘッドなしにメモリ上のデータをそのまま扱うことができる。また、配列全体に係る処理をforループ無しに実現できる。

NumPyのアルゴリズムはPython標準で提供される機能と比較して10倍から100倍近い性能を持っている。また、要求するメモリ量も少ない。

In [6]:
my_arr?

In [7]:
my_list?

In [8]:
# 乱数を生成 
data = np.random.randn(2, 3)

In [9]:
data

array([[-0.31659444, -1.62290063, -0.39706084],
       [ 1.58203807, -0.27186972,  0.5296566 ]])

In [10]:
data * 10

array([[ -3.16594441, -16.22900633,  -3.97060843],
       [ 15.82038067,  -2.71869721,   5.29656604]])

In [11]:
data + data

array([[-0.63318888, -3.24580127, -0.79412169],
       [ 3.16407613, -0.54373944,  1.05931321]])

In [12]:
data.shape

(2, 3)

外側に2要素、内側に3要素持つことを表す

In [13]:
data.dtype

dtype('float64')

最も内側の要素の型はfloat64である

In [14]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)

In [15]:
arr1

array([6. , 7.5, 8. , 0. , 1. ])

array関数を使ってndarrayを生成できる。引数にとったシーケンス型やそれに類する形式の変数が格納するデータを持ったndarrayを返す

In [16]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)

In [17]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [18]:
arr2.ndim

2

In [19]:
arr2.shape

(2, 4)

In [20]:
arr2.dtype

dtype('int64')

In [21]:
arr1.dtype

dtype('float64')

要素の型を明示的に指定せずarray関数を呼び出したとき、最適な型を推測しようとする。要素の型はdtype属性に格納される

In [22]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [23]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [24]:
np.empty((2, 3, 2))

array([[[2.63191536e-316, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000]],

       [[0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000]]])

np.zeroは指定されたサイズのndarrayを生成し、すべての要素を0とする。np.emptyも指定されたサイズのndarrayを生成し、要素を初期化せずに返す。要素は初期化されないが、0であることは保証されない。

In [25]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

NumPyは配列要素の型が指定されていないとき、多くの場合float64で初期化される

In [26]:
arr1 = np.array([1,2,3], dtype=np.float64)
arr2 = np.array([1,2,3], dtype=np.int32)

In [27]:
arr1.dtype

dtype('float64')

In [28]:
arr2.dtype

dtype('int32')

dtypeはndarrayのデータ型で、メモリ上のデータ表現形式を表す特別なオブジェクトのこと。データについてのデータなので、メタデータの一種と言える。dtypeの役割はあるndarrayが格納されるメモリ範囲が特定のデータ型で解釈されることを示すもの。
arr1とarr2が持つデータは同じだがdtypeが異なるので、その解釈方法が異なってくる。

In [29]:
arr1 == arr2

array([ True,  True,  True])

In [30]:
arr = np.array([1, 2, 3, 4 ,5])

In [31]:
arr.dtype

dtype('int64')

In [32]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

astypeを使うことでdtypeの変換（キャスト）ができる

In [33]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])

In [34]:
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [35]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

小数を整数にキャストしたとき、切り捨てられる

In [36]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)

In [37]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

何らかの理由でキャストが失敗したとき、ValueError例外がスローされる。またNumPyは標準python型をそれと等価なdtypeに自動的に変換してくれる

In [38]:
int_array = np.arange(10)

In [39]:
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

In [40]:
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [41]:
empty_uint32 = np.empty(8, dtype='u4')

In [42]:
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

dtypeには別のndarrayのdtypeを指定することや、型コードを指定することもできる。astypeを呼び出すと必ず新規ndarrayにデータがコピーされる