# 4 数据类型

## 4.1 Numpy 数据类型

NumPy 数字类型是dtype（数据类型）对象的实例，每个对象具有唯一的特征。 这些类型可以是np.bool_，np.float32等。

具体如下：

|基本类型|可用的**Numpy**类型|备注
|--|--|--
|布尔型|`bool`|占1个字节
|整型|`int8, int16, int32, int64, int128, int`| `int` 跟**C**语言中的 `long` 一样大
|无符号整型|`uint8, uint16, uint32, uint64, uint128, uint`| `uint` 跟**C**语言中的 `unsigned long` 一样大
|浮点数| `float16, float32, float64, float, longfloat`|默认为双精度 `float64` ，`longfloat` 精度大小与系统有关
|复数| `complex64, complex128, complex, longcomplex`| 默认为 `complex128` ，即实部虚部都为双精度
|字符串| `string, unicode` | 可以使用 `dtype=S4` 表示一个4字节字符串的数组
|对象| `object` |数组中可以使用任意值|
|Records| `void` ||
|时间| `datetime64, timedelta64` ||

任意类型的数组：

## 4.2 数据类型对象 dtype

数据类型对象描述了对应于数组的固定内存块的解释，取决于以下方面：

    数据类型（整数、浮点或者 Python 对象）

    数据大小

    字节序（小端或大端）

    在结构化类型的情况下，字段的名称，每个字段的数据类型，和每个字段占用的内存块部分。

如果数据类型是子序列，它的形状和数据类型。

字节顺序取决于数据类型的前缀<或>。 <意味着编码是小端（最小有效字节存储在最小地址中）。 >意味着编码是大端（最大有效字节存储在最小地址中）。

### 4.2.1 dtype构造

numpy.dtype(object, align, copy)

参数为：

    Object：被转换为数据类型的对象。

    Align：如果为true，则向字段添加间隔，使其类似 C 的结构体。

    Copy ? 生成dtype对象的新副本，如果为flase，结果是内建数据类型对象的引用。

### 4.2.2 实例

In [7]:
dt = np.dtype(np.int32) 
dt

dtype('int32')

In [9]:
# #int8，int16，int32，int64 可替换为等价的字符串 'i1'，'i2'，'i4'，以及其他。  
dt = np.dtype('i4')   
dt

dtype('int32')

In [10]:
dt = np.dtype('>i4')  
dt

dtype('>i4')

### 4.2.3 结构化数据类型

In [12]:
dt = np.dtype([('age',np.int8)])  # # 首先创建结构化数据类型。  
dt

dtype([('age', 'i1')])

In [13]:
# 现在将其应用于 ndarray 对象  

dt = np.dtype([('age',np.int8)]) 
a = np.array([(10,),(20,),(30,)], dtype = dt)  

a

array([(10,), (20,), (30,)],
      dtype=[('age', 'i1')])

In [15]:
# 访问 age 列的内容  

dt = np.dtype([('age',np.int8)]) 
a = np.array([(10,),(20,),(30,)], dtype = dt)  

print(a['age'])

[10 20 30]


以下示例定义名为 student 的结构化数据类型，其中包含字符串字段name，整数字段age和浮点字段marks。 此dtype应用于ndarray对象。

In [16]:

student = np.dtype([('name','S20'),  ('age',  'i1'),  ('marks',  'f4')])  

print(student)

[('name', 'S20'), ('age', 'i1'), ('marks', '<f4')]


In [17]:
tudent = np.dtype([('name','S20'),  ('age',  'i1'),  ('marks',  'f4')]) 
a = np.array([('abc',  21,  50),('xyz',  18,  75)], dtype = student)  
print(a)

[(b'abc', 21,  50.) (b'xyz', 18,  75.)]


每个内建类型都有一个唯一定义它的字符代码：

'b'：布尔值

'i'：符号整数

'u'：无符号整数

'f'：浮点

'c'：复数浮点

'm'：时间间隔

'M'：日期时间

'O'：Python 对象

'S', 'a'：字节串

'U'：Unicode

'V'：原始数据（void）

## 4.3 复数数组

之前已经看过整数数组和布尔数组，除此之外还有浮点数数组和复数数组。

In [18]:
from numpy import *
import numpy as np

产生一个复数数组：

In [19]:
a = array([1 + 1j, 2, 3, 4])

**Python**会自动判断数组的类型：

In [20]:
a.dtype

dtype('complex128')

对于复数我们可以查看它的实部和虚部：

In [21]:
a.real

array([ 1.,  2.,  3.,  4.])

In [22]:
a.imag

array([ 1.,  0.,  0.,  0.])

还可以设置它们的值：

In [23]:
a.imag = [1,2,3,4]

查看 `a`：

In [24]:
a

array([ 1.+1.j,  2.+2.j,  3.+3.j,  4.+4.j])

查看复共轭：

In [25]:
a.conj()

array([ 1.-1.j,  2.-2.j,  3.-3.j,  4.-4.j])

事实上，这些属性方法可以用在浮点数或者整数数组上：

In [26]:
a = array([0.,1,2,3])
a.dtype

dtype('float64')

In [27]:
a.real

array([ 0.,  1.,  2.,  3.])

In [28]:
a.imag

array([ 0.,  0.,  0.,  0.])

In [29]:
a.conj()

array([ 0.,  1.,  2.,  3.])

但这里，虚部是只读的，并不能修改它的值：

In [30]:
# 会报错
a.imag = [1,2,3,4]

TypeError: array does not have imaginary part to set

## 4.4 指定数组类型

之前已经知道，构建数组的时候，数组会根据传入的内容自动判断类型：

In [31]:
a = array([0,1.0,2,3])

对于浮点数，默认为双精度：

In [32]:
a.dtype

dtype('float64')

查看所用字节（`8 bytes * 4`）：

In [33]:
a.nbytes

32

当然，我们也可以在构建的时候指定类型：

In [17]:
a = array([0,1.0,2,3],
         dtype=float32)

此时类型为单精度浮点数：

In [34]:
a.dtype

dtype('float64')

查看所用字节（`4 bytes * 4`）：

In [35]:
a.nbytes

32

除此之外，还可以指定有无符号，例如无符号整数：

In [36]:
a = array([0,1,2,3],
         dtype=uint8)
a.dtype

dtype('uint8')

`uint8` 只使用一个字节，表示 `0` 到 `255` 的整数。

`0-255` 的数字可以表示ASCⅡ码，我们可以用 ord 函数来查看字符的ASCⅡ码值：

In [40]:
ord('f')

102

In [41]:
ord('S')

83

In [26]:
a = array([1,1.2,'hello', [10,20,30]], 
          dtype=object)

## 4.5 类型转换

转换数组的类型：

In [43]:
a = array([1.5, -3], 
         dtype=float32)
a

array([ 1.5, -3. ], dtype=float32)

### 4.5.1 asarray 函数

使用 `asarray` 函数：

In [46]:
asarray(a, dtype=float64)

array([ 1.5, -3. ])

In [47]:
asarray(a, dtype=uint8)

array([  1, 253], dtype=uint8)

`asarray` 不会修改原来数组的值：

In [48]:
a

array([ 1.5, -3. ], dtype=float32)

但当类型相同的时候，`asarray` 并不会产生新的对象，而是使用同一个引用：

In [49]:
b = asarray(a, dtype=float32)

In [50]:
b is a 

True

这么做的好处在与，`asarray` 不仅可以作用于数组，还可以将其他类型转化为数组。

有些时候为了保证我们的输入值是数组，我们需要将其使用 `asarray` 转化，当它已经是数组的时候，并不会产生新的对象，这样保证了效率。

In [34]:
asarray([1,2,3,4])

array([1, 2, 3, 4])

### 4.5.2 astype 方法

`astype` 方法返回一个新数组：

In [51]:
a.astype(float64)

array([ 1.5, -3. ])

In [52]:
a.astype(uint8)

array([  1, 253], dtype=uint8)

astype也不会改变原来数组的值：

In [53]:
a

array([ 1.5, -3. ], dtype=float32)

另外，`astype` 总是返回原来数组的一份复制，即使转换的类型是相同的：

In [54]:
b = a.astype(float32)
print(a)
print(b)

[ 1.5 -3. ]
[ 1.5 -3. ]


In [55]:
a is b

False

### 4.5.3 view 方法

In [56]:
a = array((1,2,3,4), dtype=int32)
a

array([1, 2, 3, 4])

`view` 会将 `a` 在内存中的表示看成是 `uint8` 进行解析：

In [57]:
b = a.view(uint8)
b

array([1, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0, 4, 0, 0, 0], dtype=uint8)

In [58]:
a[0] = 2**30
a

array([1073741824,          2,          3,          4])

修改 `a` 会修改 `b` 的值，因为共用一块内存：

In [59]:
b

array([ 0,  0,  0, 64,  2,  0,  0,  0,  3,  0,  0,  0,  4,  0,  0,  0], dtype=uint8)