## Numpy基础

In [1]:
import numpy as np

### 概述

NumPy特点：
- 内部数据存储在连续的内存块上
- 算法库使用C语言编写
- 针对全量数组进行复杂运算，**不用使用循环**
- NumPy方法比Python方法 **快** 10~100倍，使用 *更少* 的内存

### 多维数组对象

#### 生成ndarray

###### np.array -- 由列表生成数组

In [2]:
data1 = [1,2,3,4,5]
a = np.array(data1)
a

array([1, 2, 3, 4, 5])

In [3]:
# 自动推断生成的数据数据类型
a.dtype

dtype('int32')

###### np.zeros -- 生成全0数组

In [24]:
# 设置参数dtype可以设定数据类型
np.zeros(10, dtype=np.int64)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int64)

In [15]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [20]:
np.zeros((2, 4, 3))

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

###### np.arange -- 类似于range

In [13]:
np.arange(20)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

###### np.ones -- 生成全1数组

In [18]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

###### np.eye -- 生成N×N特征矩阵

In [19]:
np.eye(8)

array([[1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]])

#### 数据类型

- int, uint
- float
- complex
- bool
- object
- string_
- unicode_

###### astype -- 转换数据类型

In [21]:
arr = np.arange(20)
arr.dtype

dtype('int32')

In [23]:
arr_ = arr.astype(np.float16)
arr_.dtype

dtype('float16')

#### 数组算数 -- 向量化

In [60]:
arr = np.array([range(5), range(3,8), range(10,15)])
arr

array([[ 0,  1,  2,  3,  4],
       [ 3,  4,  5,  6,  7],
       [10, 11, 12, 13, 14]])

In [31]:
arr * arr

array([[  0,   1,   4,   9,  16],
       [  9,  16,  25,  36,  49],
       [100, 121, 144, 169, 196]])

In [32]:
1 / arr

  """Entry point for launching an IPython kernel.


array([[       inf, 1.        , 0.5       , 0.33333333, 0.25      ],
       [0.33333333, 0.25      , 0.2       , 0.16666667, 0.14285714],
       [0.1       , 0.09090909, 0.08333333, 0.07692308, 0.07142857]])

In [33]:
arr < arr*arr

array([[False, False,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True]])

#### 基础索引与切片

基本操作与Python内建的list相同，多维数组略有区别

In [34]:
arr = np.array([range(1,4), range(2,5), range(3,6)])
arr

array([[1, 2, 3],
       [2, 3, 4],
       [3, 4, 5]])

In [35]:
arr[0][1]

2

In [36]:
arr[0, 1]

2

In [38]:
arr[0, :2]

array([1, 2])

In [40]:
arr[1:, :2]

array([[2, 3],
       [3, 4]])

#### 布尔索引

In [48]:
words = np.array(["Apple", "Bat", "Cake", "Dog", "Bat"])
words

array(['Apple', 'Bat', 'Cake', 'Dog', 'Bat'], dtype='<U5')

In [49]:
condition = words == "Bat"
condition

array([False,  True, False, False,  True])

In [50]:
arr2 = np.array([range(4,7), range(5,8), range(6,9), range(7,10), range(8,11)])
arr2

array([[ 4,  5,  6],
       [ 5,  6,  7],
       [ 6,  7,  8],
       [ 7,  8,  9],
       [ 8,  9, 10]])

In [51]:
arr2[condition]

array([[ 5,  6,  7],
       [ 8,  9, 10]])

#### 神奇索引 -- 按指定顺序索引

In [52]:
arr = np.array([range(4,7), range(5,8), range(6,9)])
arr

array([[4, 5, 6],
       [5, 6, 7],
       [6, 7, 8]])

In [54]:
arr[[2,1,0]]

array([[6, 7, 8],
       [5, 6, 7],
       [4, 5, 6]])

***神奇索引将数据复制到新数组中***

#### 数组转置

In [58]:
arr = np.array([range(4,7), range(6,9), range(8,11)])
arr

array([[ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [59]:
arr.T

array([[ 4,  6,  8],
       [ 5,  7,  9],
       [ 6,  8, 10]])

### 通用函数 -- 逐元素数组函数

#### 一元通用函数

- abs, fbs &nbsp;&nbsp; 绝对值
- sqrt &nbsp;&nbsp; 开方
- square &nbsp;&nbsp; 平方
- exp &nbsp;&nbsp; 自然指数值e^x
- log log2 log10 log1p &nbsp;&nbsp; log1p:log(1+x)
- ...

#### 二元通用函数

- add &nbsp;&nbsp; 数组相加
- multiply &nbsp;&nbsp; 元素对应相乘
- divide &nbsp;&nbsp; 除
- ...

### 面向数组编程

#### 将条件逻辑作为数组操作

In [68]:
arr = np.random.randn(5,5)
arr

array([[ 0.63669421,  2.81324097,  1.55024169, -0.85085825,  0.08703398],
       [ 1.30766761, -0.66033711, -0.31295206,  1.24452181,  0.52872887],
       [-0.10930314,  0.92238203, -0.11129782, -0.5432915 ,  1.31791006],
       [-1.77701347,  0.24129566,  1.05398618,  0.08082451,  1.28981094],
       [-1.27565064,  0.10391232,  1.23788088, -0.63451176, -0.95520557]])

In [71]:
#将数组中大于0的元素置1，其余置0
result = np.where(arr>0, 1, 0) #np.where(condition, if condition, else)
result

array([[1, 1, 1, 0, 1],
       [1, 0, 0, 1, 1],
       [0, 1, 0, 0, 1],
       [0, 1, 1, 1, 1],
       [0, 1, 1, 0, 0]])

#### 数学和统计方法

- sum &nbsp;&nbsp; 求和
- mean &nbsp;&nbsp; 求平均值
- std, var &nbsp;&nbsp; 求标准差，方差
- min, max &nbsp;&nbsp; 最小值，最大值
- argmin, argmax &nbsp;&nbsp; 最小值，最大值的位置
- cumsum &nbsp;&nbsp; 从0开始元素累积和
- cumprod &nbsp;&nbsp; 从1开始元素累积积

In [79]:
# cumsum
arr = np.arange(1,11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [80]:
np.cumsum(arr)

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45, 55], dtype=int32)

In [81]:
# cumprod
np.cumprod(arr)

array([      1,       2,       6,      24,     120,     720,    5040,
         40320,  362880, 3628800], dtype=int32)

#### 集合逻辑

- unique(x) &nbsp;&nbsp; 对x去重并排序
- intersect1d(x,y) &nbsp;&nbsp; 计算x和y交集并排序
- union1d(x,y) &nbsp;&nbsp; 计算x和y并集并排序
- in1d(x,y) &nbsp;&nbsp; 判断x中元素是否在y中，返回布尔数组
- setdiff1d(x,y) &nbsp;&nbsp; 差集
- setxor1d(x,y) &nbsp;&nbsp; 异或集

### 文件输入输出

#### 存储

In [82]:
arr = np.arange(10)
np.save('file_name', arr)

文件类型为.npy

#### 读取

In [84]:
arr = np.load('file_name.npy')

### 线性代数

In [86]:
x = np.array([range(1,4), range(2,5)])
y = np.array([range(3,6), range(4,7)])

(array([[1, 2, 3],
        [2, 3, 4]]), array([[3, 4, 5],
        [4, 5, 6]]))

#### 矩阵点乘

In [None]:
# 以下三个操作等价
np.dot(x,y)
x.dot(y)
x @ y

#### 其他操作

In [None]:
import numpy.linalg