## 講習2 --- Numpyの基本 

Numpyは、数値計算を効率よく処理するためのサードパーティモジュールです。  特に、多次元配列を取り扱う際に処理速度が速くなり、コードの表記も効率的になります。
pythonの標準の配列であるリスト型では処理が遅いため、科学計算ではNumpyのndarrayという多次元配列のデータ型を使います。Numpyはサードパーティモジュールですが、科学計算では標準的に使われます。このあと紹介するpyfitおよびmatplotlibでも、このndarrayを採用しています。  

以下、ndarrayの基本について説明し、numpyの基本的で使える関数について説明します。 

### リスト型 
まずはpythonの標準のリスト型を見てみましょう。


In [1]:
a = [1, 2, 3, 4]
b = [10, 20, 30, 40]

\+ 演算子はリストとリストの結合になります。\* 演算子はリストの繰り返しを作成します。

In [2]:
a + b

[1, 2, 3, 4, 10, 20, 30, 40]

In [3]:
a * 4

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

ベクトル的に演算したい場合には、下のように、forループを回して各要素を取り出してから演算をする必要があります。

In [4]:
n = len(a)
c = [0] * n
for i in range(n):
    c[i] = a[i] + b[i]
c

[11, 22, 33, 44]

In [5]:
print (c)

[11, 22, 33, 44]


### numpyのndarray    
numpyではもっとすっきりした処理、ベクトル処理、ができます。処理速度も速いです。

In [6]:
import numpy as np   #  一般的に np と省略される

numpy.array() 関数を使って、pythonのリストをndarray に変換します。

In [7]:
an = np.array(a)  
bn = np.array(b)

In [8]:
cn = an + bn
cn

array([11, 22, 33, 44])

In [9]:
print (cn)

[11 22 33 44]


In [10]:
an * 4

array([ 4,  8, 12, 16])

### numpyの関数   
numpyで用意されている関数は数多くあります。 cellの中で、np.とタイプしてタブキーを押すと候補が表示されます。あるいはnp.mでタブキーを押すとmで始まる関数の候補が表示されます。

In [11]:
np.max(cn), np.min(cn), np.mean(cn)

(44, 11, 27.5)

#### numpy.where()    
天文のデータ処理では(でなくても?)次の numpy.where( ) が便利です。 バッドマスク処理や外れ値の除外に使えます。

In [12]:
dn = np.array([1, 1, 3, 1, 1])

**np.where( )** 関数は、( )内の条件を満たす要素のindexを返します。 下の例では、2以上の値をとる要素に-99を代入するという意味です。

In [13]:
dn[np.where(dn > 2)] = -99   

In [14]:
dn

array([  1,   1, -99,   1,   1])

#### numpy.zeros( )   
下のように、**numpy.zeros( )** を使って、全要素が0の5 x 5 の二次元配列を作成することができます。  

In [15]:
data = np.zeros((5, 5))

In [16]:
data

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

In [17]:
data[0, 1] = 2   #   [0, 1]の要素に2を代入する。  

numpyに限らず、pythonではindexは0から始まります。C言語と同じです。

In [18]:
data

array([[ 0.,  2.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

このdataの表示を見て気づいたかとも思いますが、
左下を原点とした二次元画像としたときに、ndarrayでは **(y, x)**のように xとyのindexを逆にして要素が格納されます。
後で、pyfitsのところでも再び触れます。

### テキストデータの読み込み

Numpyがなくても、Pythonの標準機能でテキストファイルの読み書きはできます。まずはその方法を紹介します。
./sample_data/mag.txt はテキストファイルで、等級(列1)、等級エラー(列2)のテーブルが記録されています。

In [19]:
mag = []   #   空のリストを準備
merr = []
f = open('./sample_data/mag.txt')
for line in f:
    v = line.rstrip().split() # 末尾の改行コードを削除して、空白文字で分割
    mag.append(float(v[0]) )  # リストに要素を追加、文字列をfloatに変換 
    merr.append(float(v[1]))
f.close()

In [20]:
mag[:5]   #   長いリストなので最初の5つだけ抽出

[15.025, 16.236, 17.97, 17.677, 19.086]

In [21]:
merr[:5]

[0.004, 0.011, 0.053, 0.049, 0.16]

テーブルであることが分かっていれば、**numpy.loadtxt()**を使ってもっと簡単に読み込み、ndarrayに保存することができます。

In [22]:
mlist = np.loadtxt('./sample_data/mag.txt')

In [23]:
mlist

array([[  1.50250000e+01,   4.00000000e-03],
       [  1.62360000e+01,   1.10000000e-02],
       [  1.79700000e+01,   5.30000000e-02],
       ..., 
       [  1.62160000e+01,   1.20000000e-02],
       [  1.89290000e+01,   1.56000000e-01],
       [  1.85660000e+01,   1.30000000e-01]])

array([[等級, 等級エラー], [等級, 等級エラー], .... ] )  

**numpy.loadtxt()**のオプションにて、ヘッダ行を無視、区切り文字(カンマ区切りやタブ区切り)、どの列を読み込むか、などを指定することができます。

### 配列について補足  
Pythonの配列には、**リスト**と**タプル**があります。  
**リスト**は [ ] で囲まれ変更**可能**なオブジェクトです。  
**タプル**は( ) で囲まれ変更**不可能**なオブジェクトです。


In [24]:
aa = [1, 2, 3, 4]

In [25]:
aa[2] = 10

In [26]:
aa

[1, 2, 10, 4]

In [27]:
bb = (10, 20, 30, 40)

In [28]:
bb

(10, 20, 30, 40)

In [29]:
bb[2] = 100

TypeError: 'tuple' object does not support item assignment

タプルの要素を書き換えようとしたら怒られました。    

** 練習問題  **  
未定