# 1-1 NumPyの利用

##概要

NumPyはNumerical Pythonの略で、長い間Pythonにおける数値計算の基盤となっています。NumPyは、データ構造やアルゴリズムを提供し、また、Pythonにおける数値データを
扱うほとんどのアプリケーションとの連携に必要となっているライブラリです。特に、以下を提供しています。
*   配列間における要素レベルの計算や、配列同士で数学的演算を行う関数
*   配列ベースのデータセットをディスクに読み書きするツール
*   線形代数演算、フーリエ変換、乱数の生成
*   Python拡張やネイティブのC、C++コードがNumPyのデータ構造や計算機能にアクセスできるようにするための、安定したC言語のAPI
NumPyは、高速な配列処理能力をPythonに与えるだけでなく、データ分析において、アルゴリズムやライブラリ間でデータを受け渡しするためのデータコンテナとしての役割も担っています。

数値データを扱う場合、NumPyの配列はPython組み込みのデータ構造よりも効率的にデータの格納・操作をすることができます。したがって多くのPythonの数値計算ツールは、NumPyの配列を主要なデータ構造として想定していたり、NumPyとシームレスな互換性を持つことを目標にしていたりします。


Pythonで数値計算を扱うときにNumPyがどれだけ重要であるかを語るのに、よく挙げられる理由の1つとして巨大なデータ配列を効率的に扱うことができるという点があります。
*   NumPyは他の組み込みPythonオブジェクトと独立する形で、メモリの連続領域にデータを配置します。NumPyのアルゴリズムライブラリはCで書かれており、型検査などのオーバーヘッドなしにメモリ上のデータをそのまま扱うことができます。さらに標準のPythonシーケンスと比較したとき、NumPy配列のメモリ使用量は十分小さなものとなります。
*   NumPyは配列全体にわたる複雑な計算をPythonのforループなしに実現しています。

この性能差を確認してみましょう。まず100万までの整数を格納したNumPy配列とPythonのリストをそれぞれ用意します。

In [0]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

次にそれぞれに2を掛けて、所要時間を確認します。

In [0]:
%time for _ in range(10): my_arr2 = my_arr * 2

In [0]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

この例で示されるように、NumPyのアルゴリズムはPython標準で提供される同等機能と比較して10倍から100倍、あるいはそれ以上に高速に動作します。さらに要求するメモリ量も格段に少なく済むという特徴があります。

ndarrayはNumPyの基本要素の1つであり、その名前はN次元配列オブジェクト（N-dimensional array）に由来します。ndarrayはPython環境における高速かつ柔軟な大規模データ処理を提供します。

まずndarrayの算術演算から見ていきましょう。ndarrayに対する算術操作は、その配列要素すべてに作用します。NumPyが配列要素に一括計算する仕組みを見ていきたいと思います。これは標準Python環境でスカラー値を算術演算するのと何ら変わらない方法です。まずNumPyパッケージをインポートし、乱数からなる小さな配列を生成します。

In [0]:
data = np.random.randn(2, 3)
data

次のようにして、この配列に算術演算を行うことができます。

In [0]:
data * 10

In [0]:
data + data

最初の例では、すべての要素に10が掛けられました。次の例では同一の配列を足し合わせており、このとき配列要素のそれぞれ対応する位置同士の和が計算されています。

ndarrayは次のような特徴を持ちます。まずndarrayの多次元配列要素はすべて同じ型である必要があります。次に、ndarray配列にはshapeとdtypeという属性があり、それぞれの配列変数ごとに固有の値を持ちます。shapeはその配列の次元ごとの要素数を格納するタプルです。dtypeは配列要素に期待する型を示します。

次の例を確認してみましょう。先ほど定義したdataはまず外側が2要素、その内側に3要素の配列を持つ配列で、最も内側の要素の型はfloat64です

In [0]:
data.shape

In [0]:
data.dtype

##ndarrayの生成

ndarrayオブジェクトを生成するのに一番簡単な方法は、NumPyのarray関数を用いる方法です。

array関数は、引数にシーケンス型やそれに類する形式の変数（もちろんndarray変数も含む）を取り、そのデータを格納した新しいndarray変数を返します。引数にリストを与える例を見てみましょう。

In [0]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

例えばリストの中にリストを持つケースのように、ネストしているシーケンスオブジェクトを考えて
みましょう。このような構造が渡されたとき、ネスト構造の内側のシーケンス同士の要素数が一致する
場合に、ndarrayの多次元配列が生成されます。

In [0]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

data2はリストのリストでした。そしてこの形状を受け継いだNumPy配列のarr2は2次元配列となっています。この配列の内部構成は、ndimと前出のshapeという2つの属性によって表現されます。
np.ndimはその配列の次元数を返します。

In [0]:
arr2.ndim

In [0]:
arr2.shape

ndarrayオブジェクトの生成方法はnp.array以外にもさまざまなものがあります。

例えばnp.zerosは、指定されたサイズのndarrayを生成し、すべての要素に0を設定します。同様にnp.onesはすべての要素に1を設定します。np.emptyは要素を初期化せず戻してくれます。これらのメソッドを用いて高次元ndarrayを生成するには、これらの関数にタプルを指定します。いくつか例を見てみましょう

In [0]:
np.zeros(10)

In [0]:
np.zeros((3, 6))

ndarray生成関数には以下のようなものがあります。
<img src="https://github.com/t-date/DataScience/blob/master/fig/01_04_01_01.jpg?raw=true" width="640px">

##ndarrayの算術演算

ndarrayでは、要素ごとの処理のためにわざわざループを書く必要はありません。この機能はベクトル演算と呼ばれる、NumPyの重要な特徴の1つです。同じサイズのndarray同士の算術演算は、同位置の要素同士で計算されます。

In [0]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

In [0]:
arr * arr

In [0]:
arr - arr

In [0]:
arr ** 0.5

In [0]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2


ndarray間を比較したとき、その結果は同要素数の真偽値配列として戻されます。

In [0]:
arr2 > arr

##インデックス参照とスライシングの基礎

NumPyのインデックス参照について紹介します。インデックス参照はデータから一部を切り出す、あるいは個々の要素を取り出すことができる機能です。このトピックは奥が深く、さまざまな方法が存在します。

まず1次元ndarrayについて見ていきます。表面上、1次元ndarrayはPythonのリストと同じような振る舞いをします。

In [0]:
arr = np.arange(10)
arr

In [0]:
arr[5]

In [0]:
arr[5:8]

In [0]:
arr[5:8] = 12

In [0]:
arr

この例のように、ndarrayから切り出した一部（スライス）にスカラーを指定することができます。
arr[5:8]=12と指定すると、3つの要素それぞれに12という値が代入されます。指定した1つの値が、切り出した全体に伝搬した（あるいはブロードキャストされた）ということです。

Pythonのリストとndarrayの相違点の最初のポイントは、スライスが元のndarrayのビューであり、元のndarrayのコピーではないという点です。スライスへのあらゆる変更はオリジナルのndarrayに反映されます。


以下の例で、スライスへの変更が元のndarrayに反映されるのを見ていきましょう。まずarrのスライスを定義します。

In [0]:
arr_slice = arr[5:8]
arr_slice

次にarr_sliceの値を変更すると、この変更が元のndarrayであるarrにも反映されます。

In [0]:
arr_slice[1] = 12345
arr

[:]は範囲指定のない、いわば裸のスライスです。これを用いた場合、スライス範囲のすべてに値を
代入します。

In [0]:
arr_slice[:] = 64
arr

NumPyに初めて触れる読者は、もしかするとこのスライスの仕様に驚いているかもしれません。他の配列指向のプログラミング言語には、スライスのようなデータの一部がビューではなく、コピーとして扱われる仕様を持つものが多いためです。

しかしNumPyは大量データ処理を目的として設計されています。仮にデータをコピーする方針が採用されていたとすると、パフォーマンスおよびメモリ関連の
問題が避けられなかったことは想像に難くありません。

2次元以上の高次元配列を扱う場合、インデックス参照の手段が増えます。2次元配列では、インデックスで参照した先の要素にはスカラー値ではなく1次元配列が格納されています。

In [0]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

このため、個々の要素に辿り着くにはarr2d[0][2]のように階層的にアクセスする必要があります。
これをもう少し簡便に記せるよう、arr2d[0, 2]というようにインデックスのコンマ区切りリストを使うことができます。したがって下記の例は等価です。

In [0]:
arr2d[0][2]

In [0]:
arr2d[0, 2]

2次元配列のインデックス参照の概念を示しています。axis0を行に、axis1を列に見立てるとわかりやすいかもしれません。
<img src="https://github.com/t-date/DataScience/blob/master/fig/01_04_01_02.jpg?raw=true" width="240px">

##スライスによるインデックス参照

ndarrayはスライス記法で部分的に切り出すことができます。これはPythonのリストなどでおなじみの記法です。

In [0]:
arr

In [0]:
arr[1:6]

In [0]:
arr2d

In [0]:
arr2d[:2]

ご覧のように、第0軸（内側のリスト）に沿って切り出されました。2次元配列に対するスライスは、軸に沿う形で要素が選択されます。arr2d[:2]という表記を読むとき、「arr2dの最初の2行を切り出す」と理解するのがわかりやすいかもしれません。