# 2、理解 Python 和 NumPy 的数据类型

### 2.1   数据的结构与处理

- Python 语言是如何处理数据的？
- NumPy 是如何改进 Python 的？

静态语言（C或Java）需要对变量显式声明，动态语言 Python 不须这样做，例如

```C
/* C code */
int result = 0;
for(int i=0; i<100; i++){
    result += i;
}
```

等效的 Python 代码是

```python
# Python 代码
result = 0
for i in range(100):
    result += i
```

注意主要差别
- C语言，显式声明。
- Python语言，可存放任何类型数据到任何变量，无须声明。

```python
# Python 代码
x = 4
x = "four"
```

上例，变换``x``的类型，从整型到字符串。而如果在C语言中这样操作，将引起编译错误。

```C
/* C 代码 */
int x = 4;
x = "four";  // 失败
```

这一特性，使得`如 Python 的动态类型语言更方便好用`。

### 2.2   Python 中的整数不限于是单纯的整数

标准Python是C语言实现，所有的对象都是C结构，除值以外，还有其它信息。

例如，``x = 10000``, ``x``并不是一个单纯的数，而是一个指向C结构的指针。


查看Python 3.4源代码，可以发现integer (long) 类型有如下定义：

```C
struct _longobject {
    long ob_refcnt;
    PyTypeObject *ob_type;
    size_t ob_size;
    long ob_digit[1];
};
```

单个整数在Python 3.4中包含了四个属性：

- ``ob_refcnt``, 引用数，用于内存管理
- ``ob_type``, 用于变量类型编码
- ``ob_size``, 数据成员大小size
- ``ob_digit``, 实际整数值

下图是C语言的整数和Python语言整数的区别

![Integer Memory Layout](figures/cint_vs_pyint.png)

这里，``PyObject_HEAD``是C结构中的部分，包含前述引用计数、类型编码等信息

#### 差别：

- C整数本质上是一内存标识，其字节内容是编码了的整数值
- Python整数是一指针，指向内存中的一包含前述信息的结构对象

Python整数的上述特点使得它

- 可以动态自由地生成
- 产生额外开销

### 2.3   Python中的列表不限于是单纯的列表

#### 失效的 xrange 函数

In [None]:
xrange(10)

#### Python 3.X 中的变化

- 取消了 xrange 函数
- 改用 range 函数

In [None]:
L = list(range(10))
L

In [None]:
type(L[0])

类似地，字符串列表

In [None]:
L2 = [str(c) for c in L]
L2

In [None]:
type(L2[0])

### 2.4  Python的灵活性 —— 动态类型和异质列表

由于Python支持动态类型，甚至可以创建异质列表

In [None]:
L3 = [True, "2", 3.0, 4]
[type(item) for item in L3]

#### 为灵活性所付出的代价

- 列表中的每一元素项都要包含引用计数等信息，即，``元素项包含除值以外的信息``
- 特别，当所有的变量类型相同（<font color="red">同质</font>）时，将`产生冗余信息`，不如存贮固定类型数组来得有效

#### 对比图

动态类型列表和固定类型数组的差别，如下图

![Array Memory Layout](figures/array_vs_list.png)

- Python列表包含一指针指向一指针块，块中的每一个都指向一Python对象
- Python列表的灵活性源于每一元素都是一完全的含有数据和类型信息的结构
- 固定类型的NumPy数组没有上述灵活性，但是存贮和处理数据方面却`更有效率`

### 2.5  Python 进行了弥补 —— 固定类型的一维数组 array

- 内建的``array``模块 (Python 3.3版以后支持) 可用于创建单一类型的数组
- 在实现层面，Python 数组 array包含一指针指向内存中的连续区域

In [None]:
import array
L = list(range(10))
A = array.array('i', L)
A

这里``'i'``是类型码，表示整数

### 2.6    NumPy 提供更为实用高效的多维数组

- ``ndarray``对象

#### 导入模块，惯例用简称 `np`

In [None]:
import numpy as np

#### 创建数组

- 从 python 列表

In [None]:
# 整数数组
np.array([1, 4, 2, 5, 3])

In [None]:
np.array([3.14, 4, 2, 3])

#### 类型指定

使用``dtype``关键字，显式设置数据类型

In [None]:
np.array([1, 2, 3, 4], dtype='float32')

不同于Python列表，NumPy数组可显式设为多维

In [None]:
# 嵌套列表，产生多维数组
np.array([range(i, i + 3) for i in [2, 4, 6]])

内层列表被当成二维数组的行

#### 内建函数创建数组

使用NumPy内建函数创建数组，如下几例

In [None]:
# 创建10个元素的数组，所有元素用零填充
np.zeros(10, dtype=int)

In [None]:
# 创建一 3 x 5 浮点数组，各元素用填充值 1
np.ones((3, 5), dtype=float)

In [None]:
# 创建一 3 x 5 浮点数组，各元素用 3.14 填充值
np.full((3, 5), 3.14)

In [None]:
# 创建线性序列数组
# 起始于 0, 终止于 20, 步长 2
# 与内建函数 range() 相比较，有类似性
np.arange(0, 20, 2)

In [None]:
# 创建5个元素的浮点数组
np.linspace(0, 1, 5)

In [None]:
# 创建 3x3 均匀分布的数组
# 生成介于0和1之间的随机数
np.random.random((3, 3))

In [None]:
# 创建 3x3 正态分布的随机数组
# 均值零，标准差为1
np.random.normal(0, 1, (3, 3))

In [None]:
# 创建 3x3 随机整数组
np.random.randint(0, 10, (3, 3))

In [None]:
# 创建 3x3 单位矩阵
np.eye(3)

In [None]:
# 创建未初始化数组，含三个整数
# 填充值与内存中的内容有关
np.empty(3)

### 2.7   NumPy标准数据类型

标准NumPy数据类型见下表

创建数组时，可指定数据类型

```python
np.zeros(10, dtype='int16')
```

使用相关的NumPy对象

```python
np.zeros(10, dtype=np.int16)
```

| 数据类型	    | 描述|
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

### 结束