# numpy的基本用法

　数组的基本操作，切片和索引，使用NumPy使用数组的简单计算方法。


## 样本特征量的矩阵（二维数组）

　通常，在机器学习中使用的数据矩阵中，每一行显示一个样本，每一列对应于每个特征量。例如， iris(鸢尾花)是Scikit-learn中经常使用的示例数据。如果仅取出此数据的前5行，内容如下:

 ```
array([  [ 5.1,  3.5,  1.4,  0.2],
         [ 4.9,  3. ,  1.4,  0.2],
         [ 4.7,  3.2,  1.3,  0.2],
         [ 4.6,  3.1,  1.5,  0.2],
         [ 5. ,  3.6,  1.4,  0.2]])
```
         
　该数据采集鸢尾花四个地方的尺寸。一行显示一朵鸢尾花，在此排列了五朵鸢尾花的数据。并排排列的数字表示4个位置的尺寸，萼片（花瓣）的长度和宽度，花瓣的长度和宽度。 通常，当使用机器学习算法执行预测，分类，聚类等时，必须准备这种类型的矩阵（二维阵列）。

## NumPy、SciPy

　NumPy是科学计算的基本程序包，并具有很高的计算效率，可提供诸如数组，矩阵计算，傅立叶变换等功能。SciPy是NumPy上层库，提供标准的计算工具。

　NumPy和SciPy都比较复杂，在此，以机器学习的视点学习必须的，最少限量的介绍。全面网罗性的说明请参考原始文档。 下面显示的源代码中NumPy的导入方式如下。

In [1]:
import numpy as np

## NumPy数组的基本操作

　Python中有List类型，没有对应于数组类型。List类型是范型，从计算速度和数据规范来讲，应使用NumPy的数组类型。

### 使用Numpy.array¶

　一维数组与List类型类似，不同在于所有元素必须为同一类型。使用下面的In[2]：代码numpy.array，创建一维数组。



In [2]:
a = np.array([1, 2, 3])
a

array([1, 2, 3])

In [3]:
a[1]

2

In [4]:
a.shape

(3,)

In [5]:
a.dtype.name

'int64'

使用a[i]访问一维数组a的第i个元素<br>
In[3]: 在Python中，索引从0开始。<br>
In[4]：的a.shape表示a的shape(尺寸)，<br>
In[5]: a.dtype.name表示元素类型名。<br>

### 等差数列

　 使用numpy.arange创建数组，其元素为算术级数。

In [6]:
b = np.arange(4) 
b

array([0, 1, 2, 3])

In [7]:
c = np.arange(2, 4)
c

array([2, 3])

In [8]:
d = np.arange(3, 4, 0.1)
d

array([3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9])

### 使用命名参数dtype指定数组的元素类型

　　数组元素的类型是自动设置的，但也可以使用命名参数dtype显式指定，如下面的In[11]：

In [9]:
a = np.array([1, 2, 3])
a.dtype.name

'int64'

In [10]:
b = np.array([1., 2., 3.])
b.dtype.name

'float64'

In [11]:
c = np.array([1, 2, 3], dtype=np.float64)
c.dtype.name

'float64'

### 由array创建二维数组

如下，由两个array创建一个二维数组

In [12]:
l = [[1, 2, 3], [4, 5, 6]]
a = np.array(l)
a

array([[1, 2, 3],
       [4, 5, 6]])

In [13]:
a[1,2]

6

In[13]:

用下标指定二维数组元素，a[i,j]

### 由csv文件转换数组

　　以下代码读取csv文件，转换为数组。

In [14]:
!echo "1,2,3\n4,5,6" >hoge.csv #test data

In [15]:


import csv

def read_csv_as_array(filename):
    data = []
    with open(filename) as fp:
        for row in csv.reader(fp):
            data.append([float(x) for x in row])
    return np.array(data)

data = read_csv_as_array("hoge.csv")

data

array([[1., 2., 3.],
       [4., 5., 6.]])

读取csv文件，使用numpy.genfromtxt或者Pandas处理更方便快捷，这里只是一个基础的示例程序。

### numpy.zeros创建一个全为0的矩阵，numpy.ones创建一个全为1的矩阵

　　预值数组。 In[16]： numpy.zeros 创建全为0的矩阵 In[17]： numpy.ones创建全为1的矩阵 In[18]: 使用dtype指定元素类型
    

In [16]:
a = np.zeros((3, 4))
a

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [17]:
b = np.ones((4, 4))
b

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [18]:
c = np.zeros((3, 3), dtype=np.int64)
c

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

### numpy.empty空数组

In[19]： numpy.empty


In [19]:
e = np.empty((4, 3))
e

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

### 创建随机值元素的数组

　　设置初始值时，可能有必要使用具有随机值的矩阵或向量作为元素。如果要使用统一的随机数，使用In[20]: numpy.random.rand，如果要使用标准正态分布随机数，使用In[21]：numpy.random.randn。


    

In [20]:
np.random.seed(0)
a = np.random.rand(3, 4)
a

array([[0.5488135 , 0.71518937, 0.60276338, 0.54488318],
       [0.4236548 , 0.64589411, 0.43758721, 0.891773  ],
       [0.96366276, 0.38344152, 0.79172504, 0.52889492]])

In [21]:
b = np.random.randn(3, 4)
b

array([[ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502]])

　　另外，如果要保证模拟的可重复性，即使运行多次也可能需要相同的随机数。In[20]: 使用numpy.random.seed指定随机数的种子。

## splicing indexing

### 抽取给定数组的一部分

　　In[22]: 〜 In[24]: splicing机制用于取出给定数组的一部分。可以从矢量（一维数组）v中提取某些元素，如v[i:j]，v[i：]，v[：j]等。

　　In[26]:〜In[29]: 对于2D数组，可以像a[i：j，k：l] 从每个索引处执行splicing。关于索引负数表示从背面开始计算索引。

　In[25]: 与列表类型相同。

In [22]:
v = np.array([1, 2, 3, 4])
v[1:3]

array([2, 3])

In [23]:
v[2:]

array([3, 4])

In [24]:
v[:3]

array([1, 2, 3])

In [25]:
v[:-1]

array([1, 2, 3])

In [26]:
a = np.arange(9).reshape(3, 3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [27]:
a[:2, :]

array([[0, 1, 2],
       [3, 4, 5]])

In [28]:
a[:, 1:]

array([[1, 2],
       [4, 5],
       [7, 8]])

In [29]:
a[:,2]

array([2, 5, 8])

### reshape更改数组的形状

　In[26]:，reshape是一种更改数组形状的方法。示例代码中，np.arange(9)大小为9的一维数组，更改为3x3二维数组。

### 用索引将一次抽取多个元素

　通过在数组引用括号中一个索引数组，一次抽取多个元素。此操作称为indexing。

In [30]:
a = np.array([5, 4, 3, 2, 1])
ii = np.array([0, 2, 3])
a[ii]

array([5, 3, 2])

In [31]:
b = np.arange(9).reshape(3, 3)
b

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [32]:
ii = np.array([0, 1])
jj = np.array([1, 2])
b[ii, jj]

array([1, 5])

### 在索引编制中使用Bool类型的数组

　　在索引编制中，除了表示索引列的数组之外，还可以使用具有布尔类型的数组作为元素。在这种情况下，引用的数组和括号中具有布尔类型的数组必须具有相同的形状，并抽取True元素。

In [33]:
ii = np.array([True, False, True, False, False])
a[ii]  # a.shape == ii.shape

array([5, 3])

In [34]:
kk = np.array([[True, False, False], [False, True, False], [False, False, False]])
b[kk]  # b.shape == kk.shape

array([0, 4])

## 数组的简单计算


### numpy.sum求和/numpy.mean求平均值

　　指定命名参数axis时，则计算的该方向上元素的总和（平均值），未指定时，则计算所有元素的总和（平均值）。



In [35]:
a =np.arange(20).reshape(5, 4)
a



array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [36]:
a.sum()

190

In [37]:
a.sum(axis=0)

array([40, 45, 50, 55])

In [38]:
a.mean(axis=1)

array([ 1.5,  5.5,  9.5, 13.5, 17.5])

### 最小值numpy.min/最大值numpy.max

　　numpy.min　最小值 numpy.max　最大值 numpy.argmin 最小值index numpy.argmax 最大值intex

In [39]:
a.max(axis=1)

array([ 3,  7, 11, 15, 19])

In [40]:
a.min(axis=1)


array([ 0,  4,  8, 12, 16])

In [41]:
a.argmax(axis=1)

array([3, 3, 3, 3, 3])

In [42]:
a.argmin(axis=1)



array([0, 0, 0, 0, 0])

### 矩阵乘法numpy.dot

　　二维数组视为矩阵，将一维数组视为向量。为方便起见，在调用numpy.dot时会自动确定将一维矢量视为列矢量还是行矢量。

In [43]:
a = np.arange(9).reshape(3, 3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [44]:
b = np.arange(10, 19).reshape(3, 3)
b

array([[10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])

In [45]:
c = np.arange(3)
c

array([0, 1, 2])

In [46]:
np.dot(a, b) #　aとbの行列積

array([[ 45,  48,  51],
       [162, 174, 186],
       [279, 300, 321]])

In [47]:
np.dot(a, c) # aとcの行列積、cは列ベクトルとみなされる

array([ 5, 14, 23])

In [48]:
np.dot(c, a) # cとaの行列積、cは行ベクトルとみなされる

array([15, 18, 21])

### 多维矩阵numpy.matrix

　　numpy还有numpy.matrix多维矩阵类型，只是实际中很少使用矩阵类型。
  

### 「*」运算符

　\*运算符，并不表示矩阵的乘积。对于具有相同形状的两个数组，算术运算符表示按元素进行计算。

In [49]:
np.arange(9).reshape(3, 3)
b = np.arange(10, 19).reshape(3, 3) # aとbは前のセッションと同じ設定
a * b

array([[  0,  11,  24],
       [ 39,  56,  75],
       [ 96, 119, 144]])