### numpy优势
- 对所有数据进行快速矩阵运算,无需编写循环程序
- 对硬盘中的数组数据进行读写,并对内存映射文件进行操作
- 线性代数,随机数生成,博里叶变化功能
- numpy连接到c

> 内部数据存储在连续的内存块上,算法库也是c语言写的

In [1]:
import numpy as np

In [2]:
arr1=np.arange(100000)
arr2=list(range(100000))
%time for _ in range(10):arr3=arr1*2
%time for _ in range(10):arr4=[x * 2 for x in arr2]

CPU times: user 4.26 ms, sys: 1.19 ms, total: 5.45 ms
Wall time: 1.12 ms
CPU times: user 61.8 ms, sys: 1.84 ms, total: 63.6 ms
Wall time: 21.4 ms


### 多位数组对象
numpy的核心之一就是n-维数组对象ndarray

一个ndarray是一个通用的多维同类数据容器,它包含的每一个元素均为相同类型.每个数组都有一个shape表示数组的每一个维度的数量,每一个数组都有一个dtype属性,来描述数组的类型

In [3]:
# np.random.randint生成int

data=np.random.randn(3,2)#生成3行2列
print(data)
print(data*10)
print(data.ndim)

# 数组维度 数组类型
print(data.shape,data.dtype)

[[ 0.77055584 -0.5734972 ]
 [ 0.18028575  0.22532238]
 [ 0.11468121 -1.55238354]]
[[  7.70555842  -5.73497195]
 [  1.80285754   2.25322377]
 [  1.14681213 -15.52383538]]
2
(3, 2) float64


生成ndarray

1. 最简单的方式array函数,array函数接受任意的序列对象,生成一个新的包含传递数据的numpy数组
> 嵌套相同的行列,将编程多维数组;ndim确定维度[行]

> np.array会自动推断生成数组的数据类型

2. zeros创建全0数组,ones创建全1数组,empty创建没有初始化值的数组,想要创建高维数据shape对象传递元组

> empty生出来一个全0数组并不安全;

> zeros_like生成和传入参数形状一样的数组

3. asarray将输入转换为ndarray,如果输入已是ndarray则不在复制

4. arrange 内建range的版本

In [4]:
data=np.array([[1,1,1],[1,1,1]])
zero_arr=np.zeros_like(data)
print(data.dtype)

zeros=np.zeros((2,2))
print(zeros.dtype,zeros)

arr=[i for i in range(10)]
a=np.asarray(arr)
print(a,a.dtype)


int64
float64 [[0. 0.]
 [0. 0.]]
[0 1 2 3 4 5 6 7 8 9] int64


ndarray数据类型

- int有符合无符号,8位-64位
- float类型,16位-128位
- complex64,128,256复数
- bool
- object

- string_
- unicode,长度为10

astype显示转换数组类型，**使用astype总是生成一个新数组,即使传入dtype与之前的一样**

在NumPy中，当使用numpy.string_类型作字符串数据要小心，因为NumPy会修正它的大小或删除输入且不发出警告

如果某些原因导致类型转换失败,将抛出ValueError

In [5]:
arr=np.arange(10,dtype='float16')
print(arr)
print(arr.astype('int8'))

[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]
[0 1 2 3 4 5 6 7 8 9]


算术运算

允许进行批量操作无需任何for循环,任何两个等尺寸数组之间的算术操作都应用列逐元素操作的方式

In [6]:
a=np.array([1,2])
b=np.array([2,2])
print(a+b)

[3 4]


基础索引切片

与python内建列表的区别,数组切片是用的元数组的视图,意味着数据并不是被复制的

如果想要一份数组切片的拷贝必须显示复制这个数组,arr[1,4].copy()

对于高维度数组,每个索引值对应的元素不在是一个值,而是一个数组.获取方式可以当个获取a[0][1]或者在一个括号内获取a[0,1]

数组切片索引

与python列表的一维对象类似,可以通过类似语法进行切片.多组切片与多组索引类似a[:3,:-1]


In [7]:
a=np.ones((3,3))
a[1:,1:]=2
print(a)
b=a[:-1,:-1].copy()
b[:,:]=3
print(b)
print(a)

[[1. 1. 1.]
 [1. 2. 2.]
 [1. 2. 2.]]
[[3. 3.]
 [3. 3.]]
[[1. 1. 1.]
 [1. 2. 2.]
 [1. 2. 2.]]


布尔索引

使用boolean取数据,数据行和索引行必须大小必须相同

**当布尔数组长度不正确时,布尔值选择数据的方式不会报错**

当要使用多个布尔条件进行联合需要使用&(and)或|(or),~取反使用布尔值索引选择数据时,总是生成数据拷贝,即使返回的数组并没有变化.python的关键字and or 不能使用用逻辑符号代替

In [8]:
names=np.array(['a','b','c'])
data=np.random.randn(3,3)
print(data)

print(data[names=='a'])
print(data[names=='b',:-1])
# 注意数组长度
new_names=names[:-1].copy()

print(data[(names=='a')&True])
print(data[(names=='a')&(False)])

data[data>0]=0
print(data)

[[ 0.46146797 -0.41010508  0.91716543]
 [-0.9541424  -0.0532385  -0.47387627]
 [-0.232479   -0.26445269  1.15282603]]
[[ 0.46146797 -0.41010508  0.91716543]]
[[-0.9541424 -0.0532385]]
[[ 0.46146797 -0.41010508  0.91716543]]
[]
[[ 0.         -0.41010508  0.        ]
 [-0.9541424  -0.0532385  -0.47387627]
 [-0.232479   -0.26445269  0.        ]]


神奇索引

用于描述使用整数数组进行数据索引.神奇索引与切片不同,它总是将数据复制到一个新的数组中

In [9]:
data=np.empty((8,4))
for i in range(8):
    data[i]=i
print(data)
# 通过序列集合选取数组
print(data[[4,6,5]])
# 也可为负
print(data[[-1,-5]])
# 传递多个所以数组,会根据每个索引数组选取对应元素的一维数组
data=np.arange(32).reshape((8,4))
data[[1,2,4],[0,1,3]]

[[0. 0. 0. 0.]
 [1. 1. 1. 1.]
 [2. 2. 2. 2.]
 [3. 3. 3. 3.]
 [4. 4. 4. 4.]
 [5. 5. 5. 5.]
 [6. 6. 6. 6.]
 [7. 7. 7. 7.]]
[[4. 4. 4. 4.]
 [6. 6. 6. 6.]
 [5. 5. 5. 5.]]
[[7. 7. 7. 7.]
 [3. 3. 3. 3.]]


array([ 4,  9, 19])

### 数据转置和换轴
转置是一种特殊的数据重组形式,可以返回底层数据的视图而不需要复制出任何内容.数组有transpose方法,也有特殊T属性

In [26]:
data=np.arange(15).reshape((3,5))
print(data)
#swapaxes 接受轴编号,并对轴进行调整重组

data=np.arange(16).reshape((2,2,4))
print(data)
print(data.swapaxes(1,2))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]
[[[ 0  4]
  [ 1  5]
  [ 2  6]
  [ 3  7]]

 [[ 8 12]
  [ 9 13]
  [10 14]
  [11 15]]]


### 通用函数
通用函数成ufunc,是一种在ndarray数据中进行逐元素操作的函数

一元通用函数
- abs,fabs:逐个计算整数,浮点数或复数的绝对值
- sqrt:计算每个元素的平方根
- square:计算每个元素的平方

二元通用函数
- add:两数元素相加
- subtract:在第二个数组中,将第一个数组中包含的元素去除
- multiply:将数组对应元素相乘
- divide,floor_divide:整除(放弃余数)
- power:将第二个数组的元素作为第一个数组对应元素的幂次方
- maximum,fmax:逐个计算最大值
- minimum,fmin:逐个计算最小值
- mod:按元素求余
- copysign:将第一个数组的符号值改为第二个数字的符号值
- greater,greater_equal,less,less_equal,equal,not_equal:逐个比较返回bool,>,>=,<,<=,==!=
- logical_and,logical_or,logical_xor:逻辑运算& | ^

In [11]:

data=np.arange(10)

print(np.sqrt(data))

a=np.array([2,4,6,8])
b=np.array([-2,2,2,2])

np.divide(a,b)

np.copysign(a,b)

[0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.        ]


array([-2.,  4.,  6.,  8.])

### 将条件逻辑作为数组操作
numpy.where函数是三元表达式x if condition else y的向量话版本`np.where(cond,x,y)`,where的第二个和第三个参数并不需要数组,它们可以标量.where在数据分析中典型的用法根据一个数组生成一个新数组

In [12]:
# 将随机矩阵中的复数替换成2
data=np.random.randn(3,3)

np.where(data>0,1,-1)

array([[-1, -1, -1],
       [ 1, -1, -1],
       [-1,  1, -1]])

### 数学和统计方法
- sum:沿着轴向计算所有的累和
- mean:数学平均,0长度的数组平均值为NAN
- std,var:标准差和方差,可以自由选择调整(默认分母是n)
- min,max:最大值和最小值
- argmin,argmax:最大值和最小值位置
- cumsum:从0开始元素累积
- cumprod;从1开始元素累积积

In [13]:
data=np.arange(start=1,stop=10)

print(data.mean(),data.std())

print(data.cumprod(),data.cumsum())


5.0 2.581988897471611
[     1      2      6     24    120    720   5040  40320 362880] [ 1  3  6 10 15 21 28 36 45]


### bool数组的方法
布尔值会被强制为1和0,因此sum通常用于计算bool值的为True的个数

### 排序
排序跟内建列表相似,使用sort方法按位置排序,可以在多维数组中传递axis值

### 唯一值与其他集合逻辑
np.unique返回数组中唯一值排序后形成的数组
- unique:计算唯一值,并排序
- intersect1d():计算x和y的交集
- union1d():计算x和y的并集
- in1d():计算x中元素是否包含y中,返回一个bool数组
- setdiff1d():差集在x中但不在y中的x元素
- setxor1d():异或集,在x或y中,但不属于x,y交集的元素

In [16]:
a=np.arange(6)
b=np.arange(start=5,stop=9)

print(np.unique(a))
# 交集
print(np.intersect1d(a,b))

print(np.union1d(a,b))

[0 1 2 3 4 5]
[5]
[0 1 2 3 4 5 6 7 8]


### 使用数组进行文本输入输出
- np.save
- np.load
- np.savez将数组作为参数给函数,用于在未压缩文件中保持多个
- np.savez_compressed将压缩号的数组进行保存

数组默认情况下以未压缩进行存储,后缀名.npy

### 伪随机数生成
np.random模块填补了内建模块的不足,可以高效生成多种概率分布下完整样本数组
> 内建一次只能生成一个值

由于它们是具有确定性行为的算法根据随机数生成种子生成,可以通过弄np.random.seed修改生成种子.但是这个里面使用的全局种子,可以使用np.random.RandomState生成一个随机数生成器

- seed
- permutation
- shuffle
- rand
- randint
- randn
- binomial
- normal
- beta
- chisquare

In [20]:
from random import normalvariate
%timeit sample=[normalvariate(0,1) for _ in range(10000)]

%timeit sample=np.random.normal(size=10000)

2.57 ms ± 15.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
146 µs ± 581 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [22]:
# 正态分布样本
samples=np.random.normal(size=(3,3))

print(samples)


r=np.random.RandomState(4)

print(r.normal(size=(3,3)))

[[ 0.07312614  0.60901625  0.9007848 ]
 [ 0.54481367  0.67841868  0.29206619]
 [-0.77920636 -1.21147114  0.28734516]]
[[ 0.05056171  0.49995133 -0.99590893]
 [ 0.69359851 -0.41830152 -1.58457724]
 [-0.64770677  0.59857517  0.33225003]]
