# 1. 什么是numpy

[numpy](http://numpy.org)是Numerical Python的简写,是python数值计算的基石。它是目前Python数值计算中最为重要的基础包。
Numpy的重要功能：

1. ndarry，一种高效的多位数组，提供了基于数组的便捷算数操作以及灵活的广播功能（广播功能将会单独进行讲解）。
2. 对所有数据进行快速的矩阵计算，而无需编写循环程序
3. 对硬盘中的数组数据进行读写的工具，并对内存映射文件进行操作
4. 线性代数、随机数生成以及傅立叶变换功能

对于一个100万的数据来说，使用numpy进行操作要比用python直接操作快10到100倍

In [3]:
import numpy as np #这是约定俗成的导入numpy的方式，建议你也这样做
list1 = np.arange(1000000)
list2 = list(range(1000000))
%time for _ in range(10):list3 = list1 * 2

CPU times: user 12.5 ms, sys: 9.99 ms, total: 22.5 ms
Wall time: 23.6 ms


In [4]:
%time for _ in range(10):list4 = [x * 2 for x in list2]

CPU times: user 608 ms, sys: 207 ms, total: 816 ms
Wall time: 838 ms


这个例子可以看出明显的差距

# 2. ndarray: 多维数组对象

Numpy的核心特征之一就是N-维数组对象-ndarray。ndarry是Python中一个快速、灵活的大型数据集容齐。数组允许你使用列斯与标量的操作语法在整块数据上进行数学计算。
下面是使用Numpy生成小的随机数组

In [1]:
import numpy as np
data = np.random.randn(2,3)
print(data)

[[ 1.44387396 -0.25442857  1.13255162]
 [ 0.53088762  1.39146013  0.56735466]]


In [2]:
print(data * 10)

[[14.43873964 -2.5442857  11.32551616]
 [ 5.30887617 13.91460135  5.67354659]]


In [3]:
print(data + data)

[[ 2.88774793 -0.50885714  2.26510323]
 [ 1.06177523  2.78292027  1.13470932]]


In [None]:
ndarry包含几个常用的属性
- T: 返回数组的转置
- shape: 返回数组每一维度的数量
- dtype: 返回数组的数据类型
- size: 返回数组中的数据数量
- ndim: 返回数组的维数

In [9]:
print(data.T)
print(data.shape)
print(data.dtype)
print(data.size)
print(data.ndim)

[[ 1.44387396  0.53088762]
 [-0.25442857  1.39146013]
 [ 1.13255162  0.56735466]]
(2, 3)
float64
6
2


## 2.1 生成ndarry

生成ndarry最简单的方式就是使用array函数。
np.array函数会自动推断数组的数据类型

In [11]:
data1 = [6,7.5,8,0,1]
arr1 = np.array(data1)
print(arr1)
print(arr1.dtype)

[6.  7.5 8.  0.  1. ]
float64


同等长度的列表，将会自动转换成多维数组

In [13]:
data2 = [[1,2,3,4],[4,5,6,7]]
arr2 = np.array(data2)
print(arr2)
print(arr2.dtype)

[[1 2 3 4]
 [4 5 6 7]]
int64


还有一些新的函数可以创建新的数组
- zeros(): 生成全是0的数组 
- ones(): 生成全是1的数组

In [16]:
print(np.zeros(10))
print(np.zeros((2,3)))#⚠️注意这里要有括号，传入一个元组
print(np.ones(5))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[[0. 0. 0.]
 [0. 0. 0.]]
[1. 1. 1. 1. 1.]


## 2.2 ndarray的数据类型

类型|类型代码|描述
-|-|-
int8，unit8|i1,u1|有符号和无符号的8位整数
int16，unit16|i2,u2|有符号和无符号的16位整数
int32，unit32|i4,u4|有符号和无符号的32位整数
int64，unit64|i8,u8|有符号和无符号的64位整数
float16|f2|半精度浮点数
float32|f4|标准单精度浮点数，兼容C语言float
float64|f8|标准双精度浮点数，兼容c语言double和python float
float128|f16|拓展精度浮点数
bool|?|布尔值，存储True或False
string_|S|字符串类型

In [2]:
import numpy as np
arr = np.array([1,2,3,4,5])
print(arr.dtype)

int64


In [3]:
float_arr = arr.astype(np.float64)
print(float_arr.dtype)

float64


在上面这个例子中，整数被转换为浮点数，使用了`astype()`函数，如果把浮点数转换为整数，则小数点后的部分被消除。

## 2.3 numpy数组运算

数组最重要的特征就是允许你进行批量操作而不需要使用for循环。称此种特征为向量化

In [8]:
import numpy as np
arr = np.array([[1.,2.,3.],[4.,5.,6.]])
print(arr)
print("\n", arr *arr)
print("\n", arr -arr)
print("\n", 1 / arr)
print("\n", arr ** 0.5)

[[1. 2. 3.]
 [4. 5. 6.]]

 [[ 1.  4.  9.]
 [16. 25. 36.]]

 [[0. 0. 0.]
 [0. 0. 0.]]

 [[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]

 [[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]]


还可以比较两个数组，会返回比较后的布尔值

In [12]:
arr2 = np.array([[0.,4.,1.],[7.,2.,12.]])
print(arr2)
print("\n", arr2 > arr)

[[ 0.  4.  1.]
 [ 7.  2. 12.]]

 [[False  True False]
 [ True False  True]]


## 2.4 索引与切片

In [13]:
import numpy as np
#numpy的arange类似于python的range函数
arr = np.arange(10)
print(arr)
print(arr[5])#称为索引
print(arr[5:8])#称为切片
arr[5:8] = 10
print(arr)

[0 1 2 3 4 5 6 7 8 9]
5
[5 6 7]
[ 0  1  2  3  4 10 10 10  8  9]


这是在一维数组上的切片操作，需要⚠️注意的是当对数组进行操作时会直接对原数组进行修改。

In [16]:
import numpy as np
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr)
print("\n", arr[0])
print("\n",arr[0][2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]

 [1 2 3]

 3


对于一个多维数组，一次切片会返回一维数组，若想精确的选择某个值需要对再进行索引