# Numpy库入门

- http://www.numpy.org/

## 数据维度

- 一组数据的组织形式

### 一维数据

- 一维数据由对等关系的有序或无序数据组成，采用线性方式组织

** 列表和数组 **

- 列表：数据类型可以不同
- 数组：数据类型相同

### 二维数据

- 由多个一维数据构成，是一维数据的组合形式

### 多维数据

- 多维数据由一维数据或二维数据在新维度上扩展形成

### 高维数据

- 高维数据仅利用最基本的二元关系展示数据间的复杂结构

```python
{
    “firstName” : “Tian” ,
    “lastName” : “Song” ,
    “address” : {
                “streetAddr” : “中关村南大街5号” ,
                “city” : “北京市” ,
                “zipcode” : “100081”
               } ,
    “prof” : [ “Computer System” , “Security” ]
}
```

## Numpy的数组对象：ndarray

- Numpy是一个开源的Python科学计算基础库

- 一个强大的N维数组对象 ndarray
- 广播功能函数
- 整合C/C++/Fortran代码的工具
- 线性代数、傅里叶变换、随机数生成等功能

In [1]:
import numpy as np

### numpy数据对象：ndarray

为什么有列表可以表示，为什么换要用ndarray呢？

In [2]:
def pySum():
    a = [0,1,2,3,4]
    b = [9,8,7,6,5]
    c = []
    
    for i in range(len(a)):
        c.append(a[i]**2 + b[i]**3)
        
    return c

print(pySum())

[729, 513, 347, 225, 141]


In [4]:
def pySum():
    a = np.array([0,1,2,3,4])
    b = np.array([9,8,7,6,5])
    c = []

    c = a**2 + b**3
        
    return c

print(pySum())

[729 513 347 225 141]


- 数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据
- 设置专门的数组对象，经过优化，可以提升这类应用的运算速度
>观察：科学计算中，一个维度所有数据的类型往往相同
- 数组对象采用相同的数据类型，有助于节省运算和存储空间

- ndarray是一个多维数组对象，由两部分构成：
    - 实际的数据
    - 描述这些数据的元数据（数据维度、数据类型等）
- ndarray数组一般要求所有元素类型相同（同质），数组下标从0开始

** ndarray实例 **

- np.array()生成一个ndarray数组
- ndarray在程序中的别名是：array
- np.array()输出成[]形式，元素由空格分割
- 轴(axis): 保存数据的维度；秩(rank)：轴的数量

ndarray对象的属性

|属性| 说明|
|:---:|:---|
|.ndim |秩，即轴的数量或维度的数量|
|.shape| ndarray对象的尺度，对于矩阵，n行m列|
|.size |ndarray对象元素的个数，相当于.shape中n\*m的值|
|.dtype| ndarray对象的元素类型|
|.itemsize| ndarray对象中每个元素的大小，以字节为单位|

In [5]:
a = np.array([[1,2,3,4,5],
             [6,7,8,9,0]])

In [6]:
a.ndim

2

In [7]:
a.shape

(2, 5)

In [8]:
a.size

10

In [9]:
a.dtype

dtype('int32')

In [10]:
a.itemsize

4

** ndarray的元素类型 **
- ndarray为什么要支持这么多种元素类型？

对比：Python语法仅支持整数、浮点数和复数3种类型
- 科学计算涉及数据较多，对存储和性能都有较高要求
- 对元素类型精细定义，有助于NumPy合理使用存储空间并优化性能
- 对元素类型精细定义，有助于程序员对程序规模有合理评估

** 非同质的ndarray对象 **

In [12]:
x = np.array([[1,2,3,4,5],
             [6,7,8,9]])

In [13]:
x.dtype

dtype('O')

In [14]:
x

array([[1, 2, 3, 4, 5], [6, 7, 8, 9]], dtype=object)

> 非同质的ndarray对象无法发挥Numpy的优势，尽量避免使用

## ndarray数组的创建

### ndarray数组的创建和变换

** ndarray数组的创建方法 **

- 从Python中的列表、元组等类型创建ndarray数组


```python
x = np.array(list/tuple)
x = np.array(list/tuple, dtype = np.float32)
```

>当np.array()不指定dtype时，NumPy将根据数据情况关联一个dtype类型

- 使用NumPy中函数创建ndarray数组，如：arange, ones, zeros等

|函数 |说明|
|:---:|:----|
|np.arange(n) |类似range()函数，返回ndarray类型，元素从0到n‐1|
|np.ones(shape) |根据shape生成一个全1数组，shape是元组类型|
|np.zeros(shape)| 根据shape生成一个全0数组，shape是元组类型|
|np.full(shape,val) |根据shape生成一个数组，每个元素值都是val|
|np.eye(n)| 创建一个正方的n\*n单位矩阵，对角线为1，其余为0|
|np.ones_like(a)| 根据数组a的形状生成一个全1数组|
|np.zeros_like(a) |根据数组a的形状生成一个全0数组|
|np.full_like(a,val)| 根据数组a的形状生成一个数组，每个元素值都是val|

In [15]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [18]:
np.ones((3, 6))

array([[ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.]])

In [19]:
np.zeros((3, 6))

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [20]:
np.full((3, 6), 4)



array([[ 4.,  4.,  4.,  4.,  4.,  4.],
       [ 4.,  4.,  4.,  4.,  4.,  4.],
       [ 4.,  4.,  4.,  4.,  4.,  4.]])

In [22]:
np.eye(5)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [24]:
x = np.ones((2,3,4))
print(x)

[[[ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]]

 [[ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]]]


- 从字节流（raw bytes）中创建ndarray数组

|函数 |说明|
|:--:|:---|
|np.linspace()| 根据起止数据等间距地填充数据，形成数组|
|np.concatenate() |将两个或多个数组合并成一个新的数组|

In [25]:
a = np.linspace(1, 10, 4)

In [26]:
a

array([  1.,   4.,   7.,  10.])

In [27]:
b = np.linspace(1, 10, 4, endpoint = False)
b

array([ 1.  ,  3.25,  5.5 ,  7.75])

In [29]:
c = np.concatenate((a, b))
c

array([  1.  ,   4.  ,   7.  ,  10.  ,   1.  ,   3.25,   5.5 ,   7.75])

- 从文件中读取特定格式，创建ndarray数组

### ndarray数组的变换

- 对于创建后的ndarray数组，可以对其进行维度变换和元素类型变换

|方法| 说明|
|:----:|:--|
|.reshape(shape) |不改变数组元素，返回一个shape形状的数组，原数组不变|
|.resize(shape)|与.reshape()功能一致，但修改原数组|
|.swapaxes(ax1,ax2)| 将数组n个维度中两个维度进行调换|
|.flatten() |对数组进行降维，返回折叠后的一维数组，原数组不变|

In [32]:
a = np.ones((2,3,4), dtype=np.int32)
a

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [33]:
a.reshape((3, 8))

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

In [34]:
a

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [35]:
a.resize((3, 8))

In [36]:
a

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

In [38]:
a.flatten()

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1])

In [39]:
a

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

In [41]:
b = a.flatten()
b

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1])

** ndarray数组的类型变换 **

- new_a = a.astype(new_type)

In [42]:
a = np.ones((2,3,4), dtype=np.int)
a

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [43]:
b = a.astype(np.float)
b

array([[[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]],

       [[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]]])

** ndarray数组向列表的转换 **

- ls = a.tolist()

In [44]:
ls = a.tolist()
ls

[[[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1]],
 [[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1]]]

### ndarray数组的操作 

- 索引：获取数组中特定位置元素的过程
- 切片：获取数组元素子集的过程

** 一维数组的索引和切片：与Python的列表类似 **

In [46]:
a = np.array([9, 8, 7, 6, 5])

In [47]:
a[2]

7

In [48]:
a[1: 4: 2]

array([8, 6])

** 多维数组的索引： **

In [50]:
a = np.arange(24).reshape((2,3,4))

In [51]:
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [52]:
a[1, 2, 3]

23

In [53]:
a[0, 1, 2]

6

In [54]:
a[-1, -2, -3]

17

** 多维数组的切片： **

In [55]:
a[:, 1 , -3 ]#第一个逗号前是表示第一个维度，之后是第二个维度，之后是第三个维度

array([ 5, 17])

In [56]:
a[:, 1:3, :]

array([[[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [57]:
a[:, :, ::2]

array([[[ 0,  2],
        [ 4,  6],
        [ 8, 10]],

       [[12, 14],
        [16, 18],
        [20, 22]]])

### ndarray数组的运算

In [58]:
a = np.arange(24).reshape((2,3,4))

In [59]:
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [60]:
a.mean()

11.5

In [61]:
a = a / a.mean()

In [62]:
a

array([[[ 0.        ,  0.08695652,  0.17391304,  0.26086957],
        [ 0.34782609,  0.43478261,  0.52173913,  0.60869565],
        [ 0.69565217,  0.7826087 ,  0.86956522,  0.95652174]],

       [[ 1.04347826,  1.13043478,  1.2173913 ,  1.30434783],
        [ 1.39130435,  1.47826087,  1.56521739,  1.65217391],
        [ 1.73913043,  1.82608696,  1.91304348,  2.        ]]])

** numpy一元函数 **


|函数 |说明|
|:---:|:---|
|np.abs(x) |np.fabs(x) 计算数组各元素的绝对值|
|np.sqrt(x) |计算数组各元素的平方根|
|np.square(x) |计算数组各元素的平方|
|`np.log(x) np.log10(x)np.log2(x)` |计算数组各元素的自然对数、10底对数和2底对数|
|`np.ceil(x) np.floor(x)`| 计算数组各元素的ceiling值 或 floor值|
|np.rint(x) |计算数组各元素的四舍五入值|
|np.modf(x)| 将数组各元素的小数和整数部分以两个独立数组形式返回|
|`np.cos(x) np.cosh(x) np.sin(x) np.sinh(x) np.tan(x) np.tanh(x)`|计算数组各元素的普通型和双曲型三角函数|
|np.exp(x) |计算数组各元素的指数值|
|np.sign(x)| 计算数组各元素的符号值，1(+), 0, ‐1(‐)|

In [63]:
a = np.arange(24).reshape((2,3,4))

In [64]:
np.square(a)

array([[[  0,   1,   4,   9],
        [ 16,  25,  36,  49],
        [ 64,  81, 100, 121]],

       [[144, 169, 196, 225],
        [256, 289, 324, 361],
        [400, 441, 484, 529]]], dtype=int32)

In [65]:
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [66]:
a =np.sqrt(a)
a

array([[[ 0.        ,  1.        ,  1.41421356,  1.73205081],
        [ 2.        ,  2.23606798,  2.44948974,  2.64575131],
        [ 2.82842712,  3.        ,  3.16227766,  3.31662479]],

       [[ 3.46410162,  3.60555128,  3.74165739,  3.87298335],
        [ 4.        ,  4.12310563,  4.24264069,  4.35889894],
        [ 4.47213595,  4.58257569,  4.69041576,  4.79583152]]])

In [67]:
np.modf(a)

(array([[[ 0.        ,  0.        ,  0.41421356,  0.73205081],
         [ 0.        ,  0.23606798,  0.44948974,  0.64575131],
         [ 0.82842712,  0.        ,  0.16227766,  0.31662479]],
 
        [[ 0.46410162,  0.60555128,  0.74165739,  0.87298335],
         [ 0.        ,  0.12310563,  0.24264069,  0.35889894],
         [ 0.47213595,  0.58257569,  0.69041576,  0.79583152]]]),
 array([[[ 0.,  1.,  1.,  1.],
         [ 2.,  2.,  2.,  2.],
         [ 2.,  3.,  3.,  3.]],
 
        [[ 3.,  3.,  3.,  3.],
         [ 4.,  4.,  4.,  4.],
         [ 4.,  4.,  4.,  4.]]]))

** Numpy二元函数 **

|函数 |说明|
|:--:|:--|
|`+ ‐ \* / \*\*` |两个数组各元素进行对应运算|
|`np.maximum(x,y) np.fmax() np.minimum(x,y) np.fmin()` |元素级的最大值\/最小值计算|
|np.mod(x,y) |元素级的模运算|
|np.copysign(x,y) |将数组y中各元素值的符号赋值给数组x对应元素|
|`> < >= <= == !=` |算术比较，产生布尔型数组|

In [68]:
a = np.arange(24).reshape((2,3,4))

In [69]:
b = np.sqrt(a)

In [70]:
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [71]:
b

array([[[ 0.        ,  1.        ,  1.41421356,  1.73205081],
        [ 2.        ,  2.23606798,  2.44948974,  2.64575131],
        [ 2.82842712,  3.        ,  3.16227766,  3.31662479]],

       [[ 3.46410162,  3.60555128,  3.74165739,  3.87298335],
        [ 4.        ,  4.12310563,  4.24264069,  4.35889894],
        [ 4.47213595,  4.58257569,  4.69041576,  4.79583152]]])

In [73]:
np.maximum(a, b)

array([[[  0.,   1.,   2.,   3.],
        [  4.,   5.,   6.,   7.],
        [  8.,   9.,  10.,  11.]],

       [[ 12.,  13.,  14.,  15.],
        [ 16.,  17.,  18.,  19.],
        [ 20.,  21.,  22.,  23.]]])

In [74]:
a > b

array([[[False, False,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]],

       [[ True,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]]], dtype=bool)