In [1]:
import numpy as np

## 数组（Array）
Numpy 数组的维数称为秩（rank），秩就是轴的数量，即数组的维度，一维数组的秩为 1，二维数组的秩为 2，以此类推。

在 Numpy中，每一个线性的数组称为是一个轴（axis），也就是维度（dimensions）。比如说，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 Numpy 中的轴（axis），第一个轴相当于是底层数组，第二个轴是底层数组里的数组。而轴的数量——秩，就是数组的维数。

### 我们通过一些实例来理解数组的概念
首先通过np.array()函数创建一个数组(也就是一个ndarray的对象)

In [2]:
a = np.array([1,2,3]) # 创建一个一维数组
b = np.array([[1,2,3],[4,5,6],[7,8,9]]) # 创造一个二维数组
print(a)
print()
print(b)

[1 2 3]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Numpy中的数组也被成为是ndarray对象，该对象具有很多属性，比如：<p>
**.ndim** 展示该数组的dimension数量<p>
**.shape** 数组的维度，对应矩阵的 n 行 m 列<p>
**.size** 数组元素的总个数，相当于 .shape 中 n*m 的值<p>
__.dtype__ ndarray 对象的元素类型

In [3]:
print(a.ndim)
print(b.shape)
print(b.size)
print(a.dtype)

1
(3, 3)
9
int32


**.shape** 还可以用来调整数组大小，或者使用**.reshape(n,m)** 函数来达到同样的目的

In [4]:
a = np.array([[1,2,3],[4,5,6]])
print(a.shape)
b = a.reshape(3,2)
a.shape = (3,2)
print(a)
print(b)

(2, 3)
[[1 2]
 [3 4]
 [5 6]]
[[1 2]
 [3 4]
 [5 6]]


### 跟python一样，可以通过索引（index）来打印数组中的元素，索引都是从0开始的

In [5]:
a = np.array([[1,2,3],[4,5,6]])
print(a[0])
print(a[1][1])

[1 2 3]
5


### Numpy还提供了很多创建数组的函数

In [6]:
a = np.zeros((2,2))   # 创造一个全部值为 0 的 2*2 矩阵
print(a)              

b = np.ones((1,2))    # 创造一个全部值为 1 的 1*2 矩阵
print(b)

c = np.full((2,2), 7)  # 创造一个全部值为指定常数的 2*2 矩阵
print(c)                                      

[[0. 0.]
 [0. 0.]]
[[1. 1.]]
[[7 7]
 [7 7]]


## 数组的索引
Numpy提供了几种索引数组的方法。

**切片(Slicing)**: 与Python列表类似，可以对numpy数组进行切片。由于数组可能是多维的，因此必须为数组的每个维指定一个切片：<p>
我们先创造一个3行4列的2维数组

In [7]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


尝试提取前两行以及第1和第2列的子数组

In [8]:
b = a[:2,1:3]
print(b)

[[2 3]
 [6 7]]


切片数组是原数组的一部分，我们改变它就等于改变了原数组

In [9]:
print(a[0, 1])   
b[0, 0] = 77     # b[0, 0] 和 a[0, 1] 实际上是同一个值
print(a[0, 1])

2
77


## 自定义结构数组
下面的示例定义一个结构化数据类型 names，包含字符串字段 name，整数字段 age chinese math，及浮点字段 english，并将这个 dtype 应用到 ndarray 对象。

In [10]:
persontype = np.dtype({
    'names':['name', 'age', 'chinese', 'math', 'english'],
    'formats':['S32','i', 'i', 'i', 'f']})

print(persontype)

[('name', 'S32'), ('age', '<i4'), ('chinese', '<i4'), ('math', '<i4'), ('english', '<f4')]


In [11]:
people = np.array([
    ('ZhangFei',32,75,100,90),
    ('GuanYu',24,85,96,88.5),
    ('ZhaoYun',28,85,92,96.5),
    ('HuangZhong',29,65,85,100)], dtype=persontype)

print(people)

[(b'ZhangFei', 32, 75, 100,  90. ) (b'GuanYu', 24, 85,  96,  88.5)
 (b'ZhaoYun', 28, 85,  92,  96.5) (b'HuangZhong', 29, 65,  85, 100. )]


上面例子中四个学生的数值已经对应了我们定义好的字段名和数据类型，于是我们可以通过调用字段名称来读取并计算每一个类别的均值

In [12]:
ages = people[:]['age']
chineses = people[:]['chinese']
maths = people[:]['math']
englishs = people[:]['english']
print(np.mean(ages))
print(np.mean(chineses))
print(np.mean(maths))
print(np.mean(englishs))

28.25
77.5
93.25
93.75


## Numpy中的数学运算

In [13]:
# 创建等差数组
x1 = np.arange(1,11,2) #类似python中的range函数，默认生成的数组不包含终点
x2 = np.linspace(1,9,5) #linear space的缩写，代表线性等分向量。参数为 初始值，终点值，元素个数。默认是包括终值的。
print(x1)
print(x2)

[1 3 5 7 9]
[1. 3. 5. 7. 9.]


下面是比较常用的算数函数：加减乘除，平方，取余

In [14]:
# 算数运算
print(np.add(x1,x2))
print(np.subtract(x1,x2))
print(np.multiply(x1,x2))
print(np.divide(x1,x2))
print(np.power(x1,x2)) # 在 n 次方中，x2 数组中的元素实际上是次方的次数，x1数组的元素为基数
print(np.remainder(x1,x2)) # 取余函数，也可以用np.mod

[ 2.  6. 10. 14. 18.]
[0. 0. 0. 0. 0.]
[ 1.  9. 25. 49. 81.]
[1. 1. 1. 1. 1.]
[1.00000000e+00 2.70000000e+01 3.12500000e+03 8.23543000e+05
 3.87420489e+08]
[0. 0. 0. 0. 0.]


### 统计函数
**amin/amax(a,0)** 是沿着axis=0 轴的最小值，将元素看成是[1,4,7],[2,5,8],[3,6,9]三个元素，对应选取最小或最大的数。<p>
同理axis=1 轴将元素看成是[1,2,3],[4,5,6],[7,8,9]三个元素。<p>
__注：axis=0，表示沿着第 0 轴进行操作，即对每一列进行操作；axis=1，表示沿着第1轴进行操作，即对每一行进行操作。__

In [15]:
# 统计函数
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(np.amax(a))
print(np.amax(a,0))
print(np.amax(a,1))
print(np.amin(a))
print(np.amin(a,0))
print(np.amin(a,1))

9
[7 8 9]
[3 6 9]
1
[1 2 3]
[1 4 7]


**统计最大值与最小值之差的函数：ptp**

In [16]:
print(np.ptp(a))
print(np.ptp(a,0))
print(np.ptp(a,1))

8
[6 6 6]
[2 2 2]


**统计数组的百分位数：percentile()**<p>
percentile()用来代表数组中第p%位的数，第p个百分位数是这样一个值，它使得至少有p%的数据项小于或等于这个值，
且至少有(100-p)%的数据项大于或等于这个值。p的取值范围0-100,0代表最小值，100代表最大值。同样可以分别求得在axis=0/1的轴上对应的百分位数。

In [17]:
# c = np.array([1,4,25,90])
# print(np.percentile(c,50))
# print(np.mean(c))
print(np.percentile(a,50))
print(np.percentile(a, 50, axis=0))
print(np.percentile(a, 50, axis=1))

5.0
[4. 5. 6.]
[2. 5. 8.]


**中位数median，平均数mean**

In [18]:
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
# 求中位数
print(np.median(a))
print(np.median(a, axis=0))
print(np.median(a, axis=1))
# 求平均数
print(np.mean(a))
print(np.mean(a, axis=0))
print(np.mean(a, axis=1))

5.0
[4. 5. 6.]
[2. 5. 8.]
5.0
[4. 5. 6.]
[2. 5. 8.]


__加权平均值average__<p>
average() 函数可以求加权平均，加权平均的意思就是每个元素可以设置权重。默认每个权重相同，<p>
所以np.average(a)=(1+2+3+4)/4=2.5
也可以指定权重wts=[1,2,3,4]，这样加权平均np.average(a,wieghts=wts)=(1\*1+2\*2+3\*3+4\*4)/(1+2+3+4)=3.0

In [19]:
a = np.array([1,2,3,4])
wts = np.array([1,2,3,4])
print(np.average(a))
print(np.average(a,weights=wts))

2.5
3.0


__标准差std(),方差var()__<p>
方差是指每个数与平均值之差的平方求和的平均值，即 mean((x-x.mean)**2)，表示偏离程度<p>
标准差是方差的算数平方根，用来表示数据的离散程度

In [20]:
a = np.array([1,2,3,4])
print(np.std(a))
print(np.var(a))

1.118033988749895
1.25


__排序__<p>
sort(a, axis=-1, kind= 'quicksort', order=None),默认使用快排，还可以替换为mergesort,heapsort。 axis默认-1，即沿着数组最后一个轴进行排序。
order字段，对于结构化的数组可以指定按照某个字段进行排序。

In [21]:
a = np.array([[4,3,2],[2,4,1]])
print(np.sort(a))
print(np.sort(a, axis=None))
print(np.sort(a, axis=0))
print(np.sort(a, axis=1)) 

[[2 3 4]
 [1 2 4]]
[1 2 2 3 4 4]
[[2 3 1]
 [4 4 2]]
[[2 3 4]
 [1 2 4]]
