### Numpy基本特征
#### Numpy的作用
Numpy是Numerical Python的简称，大多数计算包都提供了基于Numpy的科学函数功能，将Numpy的数组对象作为数据交换的通用语。它主要包括以下内容：
1. ndarray,一种高效多维数组，提供了基于数组的便捷算术操作以及灵活的**广播功能**
2. 对所有数据进行快速的矩阵计算，而无须编写循环程序
3. 对硬盘中数组数据进行读写的工具，并对内存映射文件进行操作
4. 线性代数、随机数生成以及傅里叶变换功能
5. 用于连接Numpy到C、C++和Fortran语言类库的C语言API（正是由于Python提供了一个非常易用的C语言API，这使将数据传递给用底层语言编写的外数类库，再由外部类库将计算结果按照Numpy数组的方式返回，变得非常简单）
> Numpy并不提供建模和科学函数

主要关注的内容：
1. 在数据处理、清洗、构造子集、过滤、变换以及其他计算中快速的**向量化计算**
2. 常见的数组算法，比如：sort、unique以及set操作等
3. 高效的描述性统计和聚合概述数据
4. 数据排列和相关数据操作，例如异构数据进行merge和join
5. 使用数组表达式来表明条件逻辑，代替if-elif-else条件分支的循环
6. 分组数据的操作（聚合、变换以及函数式操作）

#### 为什么Numpy会对大量数组的数据有效
1. Numpy在内部将数据存储在连续的内存块上。由于Numpy算法库是使用C语言写的，所以在操作数据内存时，不需要任何类型检查或者其他管理操作。Numpy数组使用内存量也小于其他Python内建序列
2. Numpy可以针对全量数组进行复杂计算而不需要写Python循环
例：

In [1]:
import numpy as np
myarray = np.arange(1000000)
mylist = list(range(1000000))

In [2]:
%time for _ in range(10): myarray2 = myarray*2

Wall time: 62.4 ms


In [3]:
%time for _ in range(10): mylist2 = [x * 2 for x in mylist]

Wall time: 2.32 s


可以看出Numpy比Python方法要快10到100倍，并且使用内存少。

#### ndarray可以像操作标量一样操作整块数据
ndarray是Python中一个快速、灵活的大型数据集容器。数组允许使用类似于标量的操作语法在整块数据上进行数学计算。如下：

In [4]:
data = np.random.randn(2,3)

In [5]:
data

array([[-1.34696983,  1.25804818, -1.06111192],
       [-0.98655328, -1.79389748,  0.20694473]])

In [6]:
data * 10

array([[-13.46969827,  12.58048176, -10.61111917],
       [ -9.86553282, -17.9389748 ,   2.06944734]])

In [7]:
data + data

array([[-2.69393965,  2.51609635, -2.12222383],
       [-1.97310656, -3.58779496,  0.41388947]])

#### shape、ndim和dtype属性
shape和dtype是ndarray的属性。ndarray是一个通用的多维同类数据容器，及它包含的每一个元素均为相同类型。
每一个数组都有一个shape属性，用来表征数组每一个维度的数量；
每一个数组都有一个dtype属性，用来描述数组的数据类型；
ndim返回的是数组的维度，返回的只有一个数，该数即表示数组的维度。

In [9]:
data.shape

(2, 3)

In [10]:
data.dtype

dtype('float64')

In [11]:
data.ndim

2

#### 如何生成ndarray
1. 使用array函数:arrray函数接收任意的序列型对象（包括其他的数组），其中嵌套序列会自动转换成多维数组。

In [13]:
data1 = [[1,2,3,4,5],['a','b','c','d','e']]

In [14]:
arr1 = np.array(data1)

In [15]:
arr1

array([['1', '2', '3', '4', '5'],
       ['a', 'b', 'c', 'd', 'e']], dtype='<U11')

从上图也可以看出，ndarray会自动将不同类型的元素给转换为同一类型，并将数据类型存储在元数据dtype中。如果没特别指明的话，默认的数据类型是float64。
![](images/15777037-35cd7713729e1b7d.png)
2. zeros函数：一次性创建全0数组
3. ones函数：一次性创建全1数组
4. empty函数：可以创建一个没有初始化数值的数组。该函数并不安全，有些时候它可能返回未初始化的垃圾数值。

In [17]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [20]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [21]:
np.empty((2,3,4))

array([[[6.79038656e-313, 6.79038653e-313, 2.48273508e-312,
         2.46151512e-312],
        [2.05833592e-312, 2.41907520e-312, 2.56761491e-312,
         2.10077583e-312],
        [2.37663529e-312, 2.46151512e-312, 8.48798317e-313,
         9.33678149e-313]],

       [[1.03977794e-312, 6.79038653e-313, 2.05833592e-312,
         2.46151512e-312],
        [2.33419537e-312, 1.29441743e-312, 2.48273508e-312,
         2.44029516e-312],
        [2.16443571e-312, 8.27578359e-313, 9.80058112e+252,
         1.23971686e+224]]])

5. arange是Python内建函数range的数组版

In [22]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

更多函数：
![](images/15777037-17d4f57470ef2043.png)
#### dtype属性详解
dtype包含了ndarray将一块内存解释为特定数据类型所需的信息：
dtype是Numpy灵活交互其它系统的源泉之一，多数情况下，它直接映射到相应的机器表示，这使得“读取磁盘上的二进制数据流”以及“集成低级语言代码（如C、Fortran）”等工作变得更加简单。

In [23]:
dtypedata = np.array([1,2,3,4],dtype = np.int)

In [24]:
dtypedata

array([1, 2, 3, 4])

#### dtype的命名方式及Numpy中的全部数类型
数值型dtype的命名方式相同：一个类型名（如float或int）后面跟一个用于表示各元素位长的数字。标准的双精度浮点值（即Python的float对象）需要占用8字节（即64位），因此，该类型在Numpy中就记作float64。下面列出了Numpy所支持的全部数类型：
![](images/15777037-8919d75d830023f4.png)
![](images/15777037-d15232eec6baa5c4.png)
#### 使用astype方法改变数组的dtype
1. astype是重新创建一个数组（一个数据的备份），即使新的dtype和旧的dtype相同；如果浮点数转换成整数，则小数部分会被截取删除。如下：

In [25]:
dtypedata .dtype

dtype('int32')

In [26]:
changeData = dtypedata.astype(np.float64)

In [27]:
changeData.dtype

dtype('float64')

In [28]:
changeData

array([1., 2., 3., 4.])

2. 可以将字符串数据类型转换为数值类型：如果字符串数组表示的全是数字，也可以用astype方法转换为数值形式：

In [29]:
stringData = np.array(['12','23','45','12.2'])

In [30]:
floatData = stringData.astype(np.float64)

In [31]:
floatData

array([12. , 23. , 45. , 12.2])

3. 可以使用其他的数组类型作为值，进行转换

In [32]:
data = np.arange(10)

In [33]:
chanData = data.astype(floatData.dtype)

In [34]:
chanData

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

4. 可以使用简洁的类型代码表示dtype

In [35]:
empty_data = np.empty(8, dtype = 'u4')

In [36]:
empty_data

array([         0, 1076363264,          0, 1077346304,          0,
       1078362112, 1717986918, 1076389478], dtype=uint32)

#### 数组之间的运算
数组可以使你不用编写循环即可对数据执行批量操作。Numpy用户称之为矢量化。**大小相同**的数组之间的任何运算都会应用到元素级：

In [37]:
data

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
data * data

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [39]:
data - data

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [42]:
1/data

array([1.        , 1.        , 0.5       , 0.33333333, 0.25      ,
       0.2       , 0.16666667, 0.14285714, 0.125     , 0.11111111])

In [43]:
data == data

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True])