# 初学NumPy基础

## 一.NumPy的ndarray:多维数组对象

NumPy最重要的一个特点就是N维数组对象ndarray，该对象时一个快速而灵活的大数据集容器。

In [1]:
import numpy as np

### 1.创建数组ndarray

- 1) **创建数组的简单方法就是使用array函数**，它可以接受一切序列型的对象或其他数组，产生一个新的含有新传入数据的NumPy数组

    arr = np.array(list/array)

In [2]:
#创建列表1
l1 = [1.0,2,3,4]

#将列表转化为数组1
a1 = np.array(l1)

In [3]:
a1

array([ 1.,  2.,  3.,  4.])

In [5]:
#创建嵌套列表2
l2 = [[1,2,3,4],[1,3,5,7]]

#将嵌套列表转化为二维数组2
a2 = np.array(l2)

In [6]:
a2

array([[1, 2, 3, 4],
       [1, 3, 5, 7]])

- 2) 除了使用np.array()将其他数据转化为ndarray数组外，**NumPy还提供了一些函数创建新的数组**

    np.zeros() 和 np.ones()分别创建指定大小的全0或全1的数组



In [9]:
#zeros产生全0数组
np.zeros(5)

array([ 0.,  0.,  0.,  0.,  0.])

In [10]:
np.zeros((2,3))

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [11]:
#ones产生全一数组
np.ones((2,3))

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

NumPy的arange函数和Python的range函数

- **arange返回数组**
- **range返回列表**

In [16]:
range(1,10,2)

range(1, 10, 2)

In [15]:
np.arange(1,10,2)

array([1, 3, 5, 7, 9])

>如下表为创建NumPy数组的函数

![](https://i.loli.net/2019/02/01/5c543daabd2e5.png)

### 2. ndarray对象的两个属性

- **shape**：数组维度大小的元组

- **dtype**:数组数据类型的对象

#### 2.1 ndarray的数据类型

数据类型的命名方式是：数据类型(int,float..)+表示各元素位长的数字，eg.双精度浮点型（float）占8个字节即64位-float64

![TIM图片20190201205920.png](https://i.loli.net/2019/02/01/5c5442bcdeec7.png)

![TIM图片20190201210947.png](https://i.loli.net/2019/02/01/5c54452bb3167.png)

- **没有指定数组数据类型时，np.array()会尝试为新创建的数组推断出一个合适的数据类型**

In [18]:
a1 = np.array([[1,2,3],[4,5,6]])

In [20]:
a1.dtype

dtype('int32')

In [21]:
a2 = np.array([[1.0,2.0,3.0],[4,5,6]])

In [22]:
a2.dtype

dtype('float64')

- **也可以为创建的数组指定数据类型**

In [26]:
a3 = np.array(a1, dtype = np.float64)

In [27]:
a3

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

- **也可以使用astype显式的将数组转化成某种数据类型**

In [28]:
a4 = a3.astype(np.int32)

In [29]:
a4

array([[1, 2, 3],
       [4, 5, 6]])

#### 2.2 ndarray维数大小

In [30]:
a1.ndim

2

In [31]:
a1.shape

(2, 3)

In [32]:
a,b =a1.shape

### 3. 基本的索引和切片

表面上看，numpy数组索引和Python列表索引一样。跟列表最重要的区别是，**数组切片是原始数组的视图**，意味着数据不会被复制，视图上的任何改变都会传递到源数组上。

#### 3.1 一维数组索引

In [5]:
arr = np.arange(10)

In [6]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
arr[5: 8]

array([5, 6, 7])

对切片赋值

In [8]:
arr[5: 8] = 16

In [9]:
arr

array([ 0,  1,  2,  3,  4, 16, 16, 16,  8,  9])

In [10]:
arrch = arr[5: 8]

In [11]:
arrch[1] = 11

In [12]:
arr

array([ 0,  1,  2,  3,  4, 16, 11, 16,  8,  9])

如果想要得到ndarray数组切片的一份副本而非视图，就需要显式的进行复制。

In [13]:
arrcha = arr[5: 8].copy()

In [15]:
arrcha[1] = 16

In [16]:
arr

array([ 0,  1,  2,  3,  4, 16, 11, 16,  8,  9])

#### 3.2 二维数组索引

In [17]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

二维数组的索引位置上不再是标量数据而是一维数组

In [18]:
arr[2]

array([7, 8, 9])

访问数组各个元素的方法有两种

In [19]:
arr[0, 2]

3

In [20]:
arr[0][2]

3

#### 3.3 二维数组切片

一维数组的切片和Python的列表切片相同，高维数组的操作跟多，可以在一个或多个轴上进行切片，也可以可整数索引混合使用

In [22]:
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [23]:
arr[: 2]

array([[1, 2, 3],
       [4, 5, 6]])

In [25]:
arr[: 2, : 2]

array([[1, 2],
       [4, 5]])

In [26]:
arr[1, :2]

array([4, 5])

In [27]:
arr[:, :1]

array([[1],
       [4],
       [7]])

#### 3.4 布尔索引
   
   数组的比较会返回向量化的结果，可以利用这个boolean向量对数组进行索引操作
   
   - sum 可以计算boolearn中True的个数
   - 两个boolearn的方法
       - any：检查数组中是否至少有一个True
       - all：检查数组中每个值是否都是True

In [10]:
s = np.array(['a','b','c','b','a','e'])

In [11]:
data = np.random.randn(6,4)

In [12]:
print(s)
print(data)

['a' 'b' 'c' 'b' 'a' 'e']
[[ 1.58480703  1.46790623 -0.72604918  0.78664459]
 [-1.78722014  0.79513298 -1.44864805  0.11945489]
 [-0.25011201 -0.95739752  1.36441053 -0.70472263]
 [ 0.86658862  2.26270011 -0.70895679  1.84611698]
 [ 0.06809599 -0.86516449 -0.85470727  0.36563945]
 [-0.20969946  0.73562808  1.81709488 -0.75587933]]


In [13]:
s == 'a' #numpy数组比较后会返回boolearn向量

array([ True, False, False, False,  True, False], dtype=bool)

In [15]:
print(data[s == 'a'])  #通过boolearn来索引数组，注：boolean向量的维度要和数组的长度m一样大

[[ 1.58480703  1.46790623 -0.72604918  0.78664459]
 [ 0.06809599 -0.86516449 -0.85470727  0.36563945]]


In [21]:
index = (s == 'a') & (s == 'b') #boolearn索引可以使用多个布尔条件联合

In [22]:
data[~index]  # ~ 字符表示取反

array([[ 1.58480703,  1.46790623, -0.72604918,  0.78664459],
       [-1.78722014,  0.79513298, -1.44864805,  0.11945489],
       [-0.25011201, -0.95739752,  1.36441053, -0.70472263],
       [ 0.86658862,  2.26270011, -0.70895679,  1.84611698],
       [ 0.06809599, -0.86516449, -0.85470727,  0.36563945],
       [-0.20969946,  0.73562808,  1.81709488, -0.75587933]])

#### 3.5神奇索引
神奇索引是使用整数的数组进行索引，和切片不同的是，神奇索引总是将索引出的数据复制到一个新的数组中

In [25]:
arr = np.arange(32).reshape((8,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [33]:
#使用一个索引数组
arr[[1,5,7,2]]  #在数组的索引出使用一个列表或数组指明所要索引的顺序

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

In [29]:
#使用两个索引数组
arr[[1,5,7,2],[0,3,1,2]]   #选中的元素是(1,0),(5,3),(7,1),(2,2)

array([ 4, 23, 29, 10])

In [32]:
arr[[1,5,7,2]][:,[0,3,1,2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

#### 3.6 数组转置和转轴

- 数组转置：array.T   
    返回的是原数据的视图，没有对数据进行复制
 

In [36]:
#数组转置
a = np.arange(15).reshape((3,5))
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [35]:
a.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

### 4. 通用函数

- 一元通用函数：对数组逐元素处理
- 二元通用函数

![微信图片_20190327170557.png](https://i.loli.net/2019/03/27/5c9b3d1e92e24.png)   

![微信图片_20190327170606.png](https://i.loli.net/2019/03/27/5c9b3d1e959bf.png)  

### 5. 使用数组进行面向数组编程
使用numpy数组可以用简单的数组表达式完成多种数据操作任务，不需要写大量循环，这种利用数组表达式代替显式循环的方法称为**‘向量化’**，这种方法计算速度更快。

#### 5.1 使用条件逻辑 
- **np.where()**:这个函数是 if condition x else y 三元表达式的向量化版   
    
    - 参数：    
         array condition：和待操作数组有关的条件   
         x ：条件为True，取x   
         y ：条件为False，取y    
         x和y可以是标量，也可以是数组

In [3]:
arr = np.random.randn(4,4)
arr

array([[-1.93543061, -0.88291791,  1.85127777, -0.27966712],
       [-0.00529042,  0.11511823, -0.03814846, -2.00591749],
       [-0.88466804,  0.75997806, -0.20272325,  0.07376956],
       [ 0.90599262,  0.02924886, -1.91091122, -0.0314787 ]])

In [5]:
np.where(arr > 0,2,-2)  

array([[-2, -2,  2, -2],
       [-2,  2, -2, -2],
       [-2,  2, -2,  2],
       [ 2,  2, -2, -2]])

In [7]:
np.where(arr > 0,2,arr) #将数组和标量联合

array([[-1.93543061, -0.88291791,  2.        , -0.27966712],
       [-0.00529042,  2.        , -0.03814846, -2.00591749],
       [-0.88466804,  2.        , -0.20272325,  2.        ],
       [ 2.        ,  2.        , -1.91091122, -0.0314787 ]])

#### 5.2 数学与统计方法

![微信图片_20190327223055.png](https://i.loli.net/2019/03/27/5c9b8935b425b.png) 

![微信图片_20190327223102.png](https://i.loli.net/2019/03/27/5c9b893618474.png)  

像mean, sun,max等函数可以接受一个axis的参数，这个参数可以计算给定轴向上的统计值，eg.二维数组，axis = 1，表示计算横轴；axis = 0，表示计算纵轴。

In [11]:
arr = np.random.randn(4,5)
arr

array([[-0.25288865,  0.66102917,  0.1089473 , -0.95969867, -2.37870787],
       [ 1.55722497, -1.93199884, -0.95056343,  0.63199327,  1.68622049],
       [-0.02824017, -0.58900936,  0.20660552, -0.62565996,  1.66589161],
       [ 2.24590705, -1.65340408,  0.06125511,  1.25559667,  0.78025522]])

In [12]:
arr.sum(axis = 1)

array([-2.82131873,  0.99287646,  0.62958764,  2.68960997])

In [13]:
arr.max(axis = 0)

array([ 2.24590705,  0.66102917,  0.20660552,  1.25559667,  1.68622049])

#### 5.3 排序

##### 5.3.1 简单排序
- array.sort() 原位排序，直接改变原数组

- np.sort(array)：产生一个数组的新的、排序后的副本

In [28]:
arr = np.random.randn(3,5)
arr

array([[ 0.51819466, -0.89999372,  0.08908607, -0.01187765, -1.38995899],
       [-0.17792966, -1.39185938, -0.39394154,  0.78592167,  0.23505493],
       [ 1.61699115, -0.845356  , -1.63946056, -0.70811332,  0.33867896]])

In [30]:
arr.sort(axis = 1)

In [31]:
arr #排序结果是从小到大

array([[-1.38995899, -0.89999372, -0.01187765,  0.08908607,  0.51819466],
       [-1.39185938, -0.39394154, -0.17792966,  0.23505493,  0.78592167],
       [-1.63946056, -0.845356  , -0.70811332,  0.33867896,  1.61699115]])

In [33]:
arr[:, ::-1] #将排序结果倒转即数组列表的反序得到从大到小的数组排序

array([[ 0.51819466,  0.08908607, -0.01187765, -0.89999372, -1.38995899],
       [ 0.78592167,  0.23505493, -0.17792966, -0.39394154, -1.39185938],
       [ 1.61699115,  0.33867896, -0.70811332, -0.845356  , -1.63946056]])

##### 5.3.2 间接排序：argsort和lexsort  

In [2]:
arr = np.array([5,0,1,3,2])
arr

array([5, 0, 1, 3, 2])

In [4]:
index = arr.argsort()
index

array([1, 2, 4, 3, 0], dtype=int64)

In [6]:
arr[index]

array([0, 1, 2, 3, 5])

#### 5.4 唯一值和其他集合逻辑  

![微信图片_20190327224119.png](https://i.loli.net/2019/03/27/5c9b8ba0dc479.png)  


In [16]:
arr1 = np.array([3,3,4,3,5,4,2,5,1])
arr2 = np.array([2,3,5])

In [17]:
np.unique(arr1)

array([1, 2, 3, 4, 5])

In [18]:
np.intersect1d(arr1, arr2)

array([2, 3, 5])

#### 5.5 线性代数
矩阵乘法，矩阵分解，行列式等方阵数学

![微信图片_20190327225045.png](https://i.loli.net/2019/03/27/5c9b8dd1cc48c.png)  


##### python数组矩阵

###### 1. Python列表和Numpy数组

Python 列表可以存储一维数组，通过列表嵌套可以实现多维数组；Numpy使用ndarray对象来处理多维数组，Numpy是专门针对数组操作和运算设计的，数组的存储和输入输出性能远高于列表嵌套。Numpy数组中所有元素是相同的数据类型，二列表生成的数组中的元素数据类型不一定相同。

###### 2. Numpy数组和矩阵

Numpy矩阵必须是2维的，二Numpy数组可以是任意多维的，Matrix是Array的一个小分支，Matrix包含于Array，Numpy矩阵有数组的所有性质 

Numpy矩阵和数组在计算中有很多的不同：

- 1) 矩阵乘积的不同

**创建两个矩阵a和b，a*b代表矩阵乘积**

In [19]:
a = np.mat([[1,2],[3,4]])
b = np.mat([[2,1],[2,1]])

In [20]:
a

matrix([[1, 2],
        [3, 4]])

In [21]:
b

matrix([[2, 1],
        [2, 1]])

In [23]:
a * b #矩阵乘积

matrix([[ 6,  3],
        [14,  7]])

**创建两个Numpy数组c和d，c*d代表点积/对位相乘，np.dot(c,d)代表矩阵乘积**

In [25]:
c = np.array([[1,2],[3,4]])
d = np.array([[2,1],[2,1]])

In [26]:
c*d

array([[2, 2],
       [6, 4]])

In [27]:
np.dot(c,d)

array([[ 6,  3],
       [14,  7]])

#### 5.6 伪随机数生成  

![微信图片_20190327225204.png](https://i.loli.net/2019/03/27/5c9b8e55184b0.png)

![微信图片_20190327225210.png](https://i.loli.net/2019/03/27/5c9b8e553811b.png)