## NumPy入門2
cifar10でダウンロードしたデータはNumPy内のarrayというデータで表現した画像データとそれぞれのラベルだった。
この様な複雑なデータの表現や扱いをするのにこのNumPyは非常に便利だ。

そのNumPyについて詳しく学んでいこう。

### 1. NumPyのインポート
以下でNumPyをインポートしよう。一般的にNumPyは、as構文を用いて`np`と省略される。

In [1]:
import numpy as np

### 2. リストをarrayに変換しよう
以下の様なコードでリストを簡単にarrayに変換できる。

In [2]:
data = np.array([[1, 2, 3], [3, 4, 5], [6, 7, 8]])

In [3]:
print(data)
print(data.shape)

[[1 2 3]
 [3 4 5]
 [6 7 8]]
(3, 3)


### 3. 事前に準備されているarray
以下の様に、NumPyには事前に用意されている標準的なarrayもある。

データの構造(shape)はタプルで指定する。

In [4]:
zero1 = np.zeros((3))
ones1 = np.ones((3))

print(zero1)
print(ones1)

[0. 0. 0.]
[1. 1. 1.]


In [6]:
zero2 = np.zeros((3,3))
ones2 = np.ones((3,3))

print(zero2)
print(ones2)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


### 4. データセットを取り込もう
NumPyには保存したデータをarrayの形式に取り込める`loadtxt()`という関数が用意されている。これを用いて、データをarrayに取り込もう。

なお、ここで用意したデータは応用編で使用した成績データの文字列部分を削除したものである。それぞれの人ごとに、テストの点数が国語、数学、理科、社会、英語の順で並んでいる。

In [7]:
data = np.loadtxt('./test_score_array1.csv', delimiter=',')
print(data)

[[86. 54. 63. 74. 90.]
 [65. 89. 91. 67. 75.]
 [67. 58. 79. 86. 60.]
 [74. 68. 97. 67. 94.]
 [70. 95. 89. 76. 85.]
 [92. 67. 69. 89. 84.]
 [76. 54. 61. 78. 86.]
 [57. 48. 65. 70. 64.]
 [90. 86. 81. 79. 92.]
 [87. 91. 65. 70. 83.]]


`86.`のように小数点がついているが、これはfloat型として読み込まれていることを表している。

arrayの要素の型はメンバ変数`dtype`で確認できる。

In [8]:
print(type(data))
print(data.dtype)

<class 'numpy.ndarray'>
float64


int型にして読み込むには以下の様にする。

In [9]:
data = np.loadtxt('./test_score_array1.csv', delimiter=',', dtype='int64')
print(data)
print(data.dtype)

[[86 54 63 74 90]
 [65 89 91 67 75]
 [67 58 79 86 60]
 [74 68 97 67 94]
 [70 95 89 76 85]
 [92 67 69 89 84]
 [76 54 61 78 86]
 [57 48 65 70 64]
 [90 86 81 79 92]
 [87 91 65 70 83]]
int64


### 5. データの構造を確かめよう
メンバ変数`shape`を用いてデータの構造を確かめてみると、これは10行5列の行列であることがわかる。

In [10]:
print(data.shape)

(10, 5)


この様にして、excel等を用いてcsvを開くことなくデータの外観をつかむことができる。また、この様に一度Pythonのデータとして取り込むことで元データに変更を加えることなく取り扱うことができる。

また、メンバ変数`ndim`を用いることでこのデータのを表すテンソルの階数を調べることができる。

In [11]:
print(data.ndim)

2


### 6. データの構造を変換しよう
`reshape()`というメソッドを用いるとデータの構造を変換することができる。例えばこの10行5列の行列を50次元のベクトルに変換してみよう。構造の指定には、`shape`などの返り値と同じタプルを用いる。

In [12]:
print(data.reshape(50))

[86 54 63 74 90 65 89 91 67 75 67 58 79 86 60 74 68 97 67 94 70 95 89 76
 85 92 67 69 89 84 76 54 61 78 86 57 48 65 70 64 90 86 81 79 92 87 91 65
 70 83]


In [15]:
print(data.reshape((2, 5, 5)))
print(data.reshape((2, 5, -1)))

[[[86 54 63 74 90]
  [65 89 91 67 75]
  [67 58 79 86 60]
  [74 68 97 67 94]
  [70 95 89 76 85]]

 [[92 67 69 89 84]
  [76 54 61 78 86]
  [57 48 65 70 64]
  [90 86 81 79 92]
  [87 91 65 70 83]]]
[[[86 54 63 74 90]
  [65 89 91 67 75]
  [67 58 79 86 60]
  [74 68 97 67 94]
  [70 95 89 76 85]]

 [[92 67 69 89 84]
  [76 54 61 78 86]
  [57 48 65 70 64]
  [90 86 81 79 92]
  [87 91 65 70 83]]]


ここで、このメソッドは元のデータを変換しているわけではなく、変換したデータを返しているだけなので、元のデータは影響を受けていない。

In [14]:
print(data)

[[86 54 63 74 90]
 [65 89 91 67 75]
 [67 58 79 86 60]
 [74 68 97 67 94]
 [70 95 89 76 85]
 [92 67 69 89 84]
 [76 54 61 78 86]
 [57 48 65 70 64]
 [90 86 81 79 92]
 [87 91 65 70 83]]


変換後のデータを使用する場合は返り値を変数に格納する必要がある。

この様に、データを加工するために用意されたメソッドには元のデータを変更するものと、変更したものを返すだけのものが存在する。

この違いは意識しておく必要がある。

In [16]:
data_vec = data.reshape((50))
print(data_vec)

[86 54 63 74 90 65 89 91 67 75 67 58 79 86 60 74 68 97 67 94 70 95 89 76
 85 92 67 69 89 84 76 54 61 78 86 57 48 65 70 64 90 86 81 79 92 87 91 65
 70 83]


### 7. 要素の参照
`data`の要素をいろいろな方法で参照してみよう。

#### 3人目の人の英語（5番目）は何点？

In [17]:
print(data[2, 4])

60


#### 4人目の人の全教科の点数を調べよう

In [18]:
print(data[3,:])

[74 68 97 67 94]


この様に、その階の全データを参照する際は`:`を用いる。

使いかたとしてはリストに対するスライス記法と同じである。

In [19]:
print(data[3,2:])

[97 67 94]


#### 数学（2番目）の全員の点数分布を見てみよう

考え方は全く同じとなる。

In [20]:
print(data[:,1])

[54 89 58 68 95 67 54 48 86 91]


#### それでは、国語（1番目）と数学（2番目）についても点数の分布を見てみよう。

In [21]:
print(data[:,:2])

[[86 54]
 [65 89]
 [67 58]
 [74 68]
 [70 95]
 [92 67]
 [76 54]
 [57 48]
 [90 86]
 [87 91]]


### ８. 各要素の編集、演算
arrayの各要素で演算をしたい場合、どの様にすればいいか学んでいこう。

#### 6人目の人の理科（3番目）の点数は69点ではなく30点だった。データを修正しよう。

変数へのデータの格納と同じ容量でできる。

In [22]:
data[5,2] = 30

修正できたか確認しよう。

In [23]:
print(data[5,2])
print(data)

30
[[86 54 63 74 90]
 [65 89 91 67 75]
 [67 58 79 86 60]
 [74 68 97 67 94]
 [70 95 89 76 85]
 [92 67 30 89 84]
 [76 54 61 78 86]
 [57 48 65 70 64]
 [90 86 81 79 92]
 [87 91 65 70 83]]


#### 8人目の人のカンニングが発覚したので、全教科一律0点にしよう

In [24]:
data[7,:] = np.zeros((5))
print(data)

[[86 54 63 74 90]
 [65 89 91 67 75]
 [67 58 79 86 60]
 [74 68 97 67 94]
 [70 95 89 76 85]
 [92 67 30 89 84]
 [76 54 61 78 86]
 [ 0  0  0  0  0]
 [90 86 81 79 92]
 [87 91 65 70 83]]


この様に、列や行、スライスを用いて一部分を一気に変更することも可能だ。

#### 100点満点で採点したけれど、50点満点に直したい。全ての点数を1/2にしよう。

In [25]:
data = data / 2
print(data)

[[43.  27.  31.5 37.  45. ]
 [32.5 44.5 45.5 33.5 37.5]
 [33.5 29.  39.5 43.  30. ]
 [37.  34.  48.5 33.5 47. ]
 [35.  47.5 44.5 38.  42.5]
 [46.  33.5 15.  44.5 42. ]
 [38.  27.  30.5 39.  43. ]
 [ 0.   0.   0.   0.   0. ]
 [45.  43.  40.5 39.5 46. ]
 [43.5 45.5 32.5 35.  41.5]]


この様に全てのデータに同じ値を加算乗除したい際も簡単に記述できる。

#### 数学（2番目）で出題ミスが発覚したので、全員の数学の点数を+5点しよう

In [26]:
data[:,1] = data[:,1] + 5
print(data)

[[43.  32.  31.5 37.  45. ]
 [32.5 49.5 45.5 33.5 37.5]
 [33.5 34.  39.5 43.  30. ]
 [37.  39.  48.5 33.5 47. ]
 [35.  52.5 44.5 38.  42.5]
 [46.  38.5 15.  44.5 42. ]
 [38.  32.  30.5 39.  43. ]
 [ 0.   5.   0.   0.   0. ]
 [45.  48.  40.5 39.5 46. ]
 [43.5 50.5 32.5 35.  41.5]]


もちろんスライス機能を用いて一部分だけ同じ値を加算乗除、ということもできる。

#### 次のテストの結果が出たので、足し算しよう

※以下で読み込むデータは既に50点満点のものである。

In [27]:
data2 = np.loadtxt('./test_score_array2.csv', delimiter=',', dtype='int64')
print(data2)

[[34 26 32 34 37]
 [29 51 52 29 46]
 [41 37 50 44 21]
 [37 42 45 44 38]
 [37 49 42 35 41]
 [54 29 28 54 37]
 [35 37 28 30 48]
 [24 15 35 26 33]
 [53 49 36 36 54]
 [48 47 36 36 43]]


In [28]:
data = data + data2
print(data)

[[ 77.   58.   63.5  71.   82. ]
 [ 61.5 100.5  97.5  62.5  83.5]
 [ 74.5  71.   89.5  87.   51. ]
 [ 74.   81.   93.5  77.5  85. ]
 [ 72.  101.5  86.5  73.   83.5]
 [100.   67.5  43.   98.5  79. ]
 [ 73.   69.   58.5  69.   91. ]
 [ 24.   20.   35.   26.   33. ]
 [ 98.   97.   76.5  75.5 100. ]
 [ 91.5  97.5  68.5  71.   84.5]]


こうすれば同じ要素ごとの加算乗除ができる。

積の場合、単に`*`を用いれば要素積となることに注意しよう。行列積の計算方法は後ほど学ぶ。

#### 2回のテストの点数を平均しよう。

In [29]:
data_mean = data/2
print(data_mean)

[[38.5  29.   31.75 35.5  41.  ]
 [30.75 50.25 48.75 31.25 41.75]
 [37.25 35.5  44.75 43.5  25.5 ]
 [37.   40.5  46.75 38.75 42.5 ]
 [36.   50.75 43.25 36.5  41.75]
 [50.   33.75 21.5  49.25 39.5 ]
 [36.5  34.5  29.25 34.5  45.5 ]
 [12.   10.   17.5  13.   16.5 ]
 [49.   48.5  38.25 37.75 50.  ]
 [45.75 48.75 34.25 35.5  42.25]]


### 9.  データをcsvで書き出してみよう
arrayからcsvへの書き出しも`savetxt()`というメソッドを用いれば非常に簡単である。引数の指定は概ね`loadtxt()`と同じである。

In [30]:
np.savetxt('./test_score_array_mean.csv', data_mean, delimiter=',')