# 阅读笔记

** 作者：方跃文 **

** Email: fyuewen@gmail.com **

** 时间：始于2017年9月12日， 结束写作于 **

** 第四章笔记始于2017年10月17日，结束于_____**



# 第四章 Numpy基础：数组和矢量计算

** 时间： 2017年10月17日早晨**

Numpy，即 numerical python的简称，是高性能科学计算和数据分析的基础包。它是本书所介绍的几乎所有高级工具的构建基础。其部分功能如下：

1. ndarray，一个具有矢量算数运算和复杂广播能力的快速且节省空间的多维数组

2. 在不需要循环的情况下，用于对数组快速运算的标准数学函数

3. 用于读写磁盘数据的工具以及用于操作内存映射文件的工具

4. 线性代数、随机数生成以及傅里叶变化

5. 用于集成由 C、C++、Fortran 等语言编写的代码的工具

Numpy 本身功能不复杂，但是理解 Numpy 有助于更高效地使用诸如 Pandas 之类的工具。

原书作者主要从事数据分析，所以他关注的功能主要集中于：

1. 用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算

2. 常用的数组算法，如排序、唯一化、集合运算等。

3. 高效地描述统计和数据聚合/摘要运算

4. 用于异构数据集的合并/连接运算的数据和关系型数据运算

5. 将条件逻辑表述为数组表达式（而不是带有if-elif-else分支的循环）

6. 数据的分组运算（聚合、转换、函数应用等）第五章将对此进行详细解释。

注：建议总是使用 import numpy as np； 而不是用 from numpy import *

## Numpy 的 ndarray：一种多维数组对象

** 时间： 2017年10月18日晚**

Numpy 一个重要特点就是其 N 维数组对象，即 ndarray，该对象是一个快速而灵活的数据集容器。我们可以利用这种数组对整块数据进行一些运算，它的语法跟标量元素之间的运算相同：

In [1]:
import numpy.random as nrandom
data = nrandom.randn(3,2)

In [2]:
data

array([[-0.15245034, -0.35509214],
       [ 0.10517632,  0.88062225],
       [-0.85545925,  0.13379565]])

In [3]:
data*10

array([[ -2.85657252,   3.03701223],
       [ -3.94973582,   2.15621824],
       [  0.97940757, -11.2065684 ]])

In [4]:
data + data

array([[-0.5713145 ,  0.60740245],
       [-0.78994716,  0.43124365],
       [ 0.19588151, -2.24131368]])

ndarray 是 **同构**数据多维容器，that is to say, 所有元素必须是同类型的。

每个数组都有一个 shape （一个表示各维度大小的元祖）和一个 dtype （一个用于说明数组数据类型的对象）：

In [5]:
data.shape # 数组的维数，即行数和列数

(3, 2)

In [6]:
data.dtype #数组中元素的类型

dtype('float64')

虽然大多数数据分析工作不需要深入理解Numpy，但是精通面向数组的编程和思维方式是成为 Python 科学计算达人的一大步骤。

**注意**：第一版翻译版本中有个批注，说“本书中的数组、Numpy数组、ndarray 基本指的都是同一样东西，即 ndarray 对象”

### 创建 ndarray

创建数组最简单的办法就是使用 array 函数。它接受一切序列行的对象（包括其他数组），然后产生一个新的含有传入数据的 NumPy 数组。以列表转换为数组方式为例：

In [5]:
import numpy as np
data1 = [2,3,3,5,6,9]
array1 = np.array(data1)

In [6]:
array1

array([2, 3, 3, 5, 6, 9])

In [9]:
print(array1)
print(array1.dtype)
print(array1.shape)

[2 3 3 5 6 9]
int64
(6,)


嵌套序列（比如由一组等长列表组成的列表），将会被转换为一个多维数组：

In [4]:
import numpy as np

data2=[[23,5,5,6], [4,56,2,8],[3,5,6,7],[2,3,4,5]]
arr2=np.array(data2)

In [5]:
arr2

array([[23,  5,  5,  6],
       [ 4, 56,  2,  8],
       [ 3,  5,  6,  7],
       [ 2,  3,  4,  5]])

In [6]:
arr2.ndim #Number of array dimensions.

2

In [7]:
arr2.shape

(4, 4)

除非显示说明，np.array 会尝试为新建的这个数组推断出一个较为合适的数据类型。数据类型保存在一个特殊的 dtype 对象中。比如说，在上面的两个examples中，我们有

In [8]:
data.dtype

dtype('float64')

In [9]:
arr2.dtype

dtype('int64')

除 np.array 之外，还有一些函数可以新建数组。比如，zeros 和 ones 分别可创建指定长度或形状的全 0 和 全 1 数组。empty 可创建一个没有任何具体值的数组。要用这些方法创建多维数组，只需要传入一个表示形状的元祖即可：

In [31]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [48]:
arr4 = np.zeros((3,6,3))
arr4

array([[[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]],

       [[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]],

       [[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]]])

In [49]:
arr4.ndim

3

In [57]:
arr3 = np.empty((2,4,2))
arr3

array([[[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]],

       [[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]]])

In [58]:
arr3.ndim

3

In [67]:
arr5 = np.empty((2,3,4,2))
arr5

array([[[[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]],

        [[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]],

        [[  0.00000000e+000,   0.00000000e+000],
         [  1.39067116e-308,   1.39069238e-308],
         [  1.39069238e-308,   3.23795802e-318],
         [  0.00000000e+000,   0.00000000e+000]]],


       [[[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]],

        [[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   1.39069238e-308],
         [  1.39069238e-308,   1.39069238e-308]],

        

** 警告 ** 认为 np.emptry 会返回全 0 数组的想法是不安全的。很多情况下（如上所示），它返回的都是一些未初始化的垃圾值。

arange 是 Python 内置函数range 的数组版：

In [68]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [78]:
np.arange(2)

array([0, 1])

下表列出了一些数组创建函数。由于Numpy关注的是数值计算，因此，如果没有特别的制定，数据类型一般都是 float64。


|函数 | 说明 |
|-------------|---------------|
| array | 将输入数据(列表、元祖、数字或者其他数据类型)转换为 ndarray。要么推断出 dtype，要么显示地指定dtype。默认直接复制输入数据|
| asarray | 将输入转为 ndarray，如果输入本身就是一个ndarray就不进行复制|
| arange | 类似于python内置的range,但是返回的是一个ndarray,而不是一个列表|
| ones、ones_like | 根据指定的形状和dtype创建一个全1数组。ones_like以另一个数组为参数，并根据其形状和dtype创建一个全1数组|
|zeros、zeros_like | 类似上述命令，只是改为全0数组|
|empty、empty_like|创建新数组，只分配内存空间但不填充任何值|
|eye、identity|创建一个正方的N * N 单位矩阵（对角线为1，其余为0）|

In [85]:
data1 = (1,2,3,4)

In [84]:
np.asarray(data1)

array([1, 2, 3, 4])

In [92]:
np.array(data1)

array([1, 2, 3, 4])

In [91]:
data2 = ([2,2])
np.asarray(data2)


array([2, 2])

In [4]:
import numpy as np
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [10]:
ones

NameError: name 'ones' is not defined

In [9]:
np.ones(19)

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.])

In [10]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [12]:
np.empty(4)

array([  1.87062952e-077,   3.21450328e+164,   1.85692977e+216,
         1.99392236e-077])

In [14]:
np.eye(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [12]:
np.eye(4)

array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

In [15]:
np.identity(2)

array([[ 1.,  0.],
       [ 0.,  1.]])

In [11]:
np.identity(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

### ndarray 的数据类型

Recently I jsut moved from Shanghai to Kyoto, hence I have stopped taking notes for almost two weeks. 
From now on, I will continue writing this notes. Let's note~

YWFANG @Kyoto University November, 2017

dtype()

In [10]:
import numpy as np
