# 内置数据类型

* 不同数据类型支持不同的运算和操作
* 根据需要的操作来选择数据类型
* 内置数据类型分为：简单数据、复合数据

简单数据类型

* 数值数据
<ul>
    <li>整数 int</li>
    <li>浮点数 float</li>
    <li>复数 complex</li>
    <li>布尔值 bool</li>
</ul>
* 字符串 str

问题：以下问题如何选择数据类型。

<ol>
    <li>3的100次方是多少？</li>
    <li>3的100次方里520是否出现过？</li>
    <li>比较合肥2018年下雨和不下雨的天气里平均气温高低。</li>
<ol>
1. int  
2. int 
3. float

## int数据类型

* 整数类型没有上限
* 数字默认为十进制
* 不同进制使用不同前缀表示

In [1]:
a1 = 123  # decimal
a2 = 0o123  # octal
a3 = 0x123  # hexadecimal
(a1,a2,a3)

(123, 83, 291)

整数的运算

* 整数的运算支持加、减、乘、除、乘方（幂运算）、整除、求余数等
* 若操作数为整数，则除了除法外，运算结果都是整数类型
* 整数和浮点数类型混合运算，运算结果为浮点数类型

In [2]:
123 + 456, 456 - 123, 123 * 456

(579, 333, 56088)

In [3]:
9 // 4, 9 % 4, divmod(9,4) # 求整数商，求余数，同时求整数商和余数

(2, 1, (2, 1))

求模运算在正数上比较容易理解，负数处理容易出错，需要谨慎处理。

In [4]:
divmod(9,4), divmod(-9,4), divmod(9,-4), divmod(-9,-4)

((2, 1), (-3, 3), (-3, -3), (2, -1))

In [5]:
import math
# 求模时，整数商的计算为向下求整
math.floor(9/4),math.floor(-9/4),math.floor(9/-4),math.floor(-9/-4)

(2, -3, -3, 2)

几种常见的求整数方法

* int 丢弃小数求整
* round 四舍五入求整
* floor 向下求整
* ceil 向上求整

In [6]:
x1 = 3.21
int(x1),int(-x1),round(x1),round(-x1),math.floor(x1),math.floor(-x1),math.ceil(x1),math.ceil(-x1)

(3, -3, 3, -3, 3, -4, 4, -3)

In [7]:
x2 = 6.78
int(x2),int(-x2),round(x2),round(-x2),math.floor(x2),math.floor(-x2),math.ceil(x2),math.ceil(-x2)

(6, -6, 7, -7, 6, -7, 7, -6)

## float浮点类型

* 浮点类型表示实数
* 浮点数有精度限制
* 浮点数有上下限
* 浮点数运算有误差！！

In [8]:
type(0.123),type(4.56),type(789.0),type(1.),type(2.)

(float, float, float, float, float)

In [9]:
# 逗号，句点，分号都不可乱点
x1 = 2
x2 = 2,
x3 = 2.
x4 = .2
x5 = 2;
type(x1), type(x2), type(x3), type(x4), type(x5)

(int, tuple, float, float, int)

In [4]:
print(2..is_integer())  # 注意句点的不同含义
a = 2.0
print(a.is_integer())
print(type(2.))

True
True
<class 'float'>


In [11]:
1.2e34, 5.6e-78  # 科学计数法

(1.2e+34, 5.6e-78)

In [12]:
#注意科学计数法的错误写法
#1.1 e34
#1.1e 34
#1.1e3.0

In [13]:
# 探测正浮点数的边界
import math
x1 = 1.0; n=0
while not math.isinf(x1):  #inf表示正无穷
    x1 = x1*10.0
    n += 1
print(n)

309


In [18]:
1.7e308, 1.8e308, 1.7e309, 1e308, 1.79e308, 1.799e308, 1.798e308, 1.797e308

(1.7e+308, inf, inf, 1e+308, 1.79e+308, inf, inf, 1.797e+308)

In [15]:
#  探测正无穷小
x1 = 1.0; n=0
while x1:  # When will this loop end?
    x1 = x1/10.0
    n += 1
print(n)

324


眼睛睁大点

In [26]:
3e-324, 1.2e-323, 8e322 == 8e522, 1e-324, 2.4e-324, 2.5e-324

(5e-324, 1e-323, True, 0.0, 0.0, 5e-324)

浮点数超限之后会发生什么？

In [17]:
5e321*30, float('inf')

(inf, inf)

In [18]:
float('inf') + float('inf'), float('inf') - float('inf'), float('inf') * float('inf'), float('inf') / float('inf')

(inf, nan, inf, nan)

In [19]:
float('inf') + 3e302, float('inf') - 3e302, float('inf') * 3e-302, float('inf') / 3e-302

(inf, inf, inf, inf)

In [20]:
float('inf')*3 == float('inf'), float('nan') == float('nan')

(True, False)

inf和nan小结
* **inf加减乘除任何一个实数结果都是Inf**
* inf与inf相加、相乘都是inf
* inf减去或者除以inf,结果为nan
* inf与inf相等
* nan与任何数计算结果都是nan
* nan不等于nan

### 浮点数的幽灵

由于计算机存储和计算的局限性，浮点数的运算只能精确到一定程度，因此会产生一定误差。误差虽然小，但是足以产生逻辑错误，必须在编程时小心处理，尤其是比较操作。浮点数运算有误差！

In [21]:
if 1/2+1/3-5/6==0:
    print('equal')
else:
    print('not equal')

not equal


In [1]:
if 1/3-5/6+1/2==0:
    print('equal')
else:
    print('not equal')
print(1/2+1/3-5/6)

equal
-1.1102230246251565e-16


有时候你的程序运行正常，只是你幸运。然而幸运并不是每次都会出席。只有逻辑上正确才不需要幸运的帮忙。

思考：既然浮点数存在运算误差，该如何修改上述代码？

In [2]:
#solution1
from decimal import *
if Decimal(1)/Decimal(2)+Decimal(1)/Decimal(3)-Decimal(5)/Decimal(6) == 0:
    print('equal')
else:
    print('not equal')

#solution2
epsilon = 1e-10   #一般用1e-16
if abs(1/3+1/2-5/6) < epsilon:
    print("equal")
else:
    print("not equal")

equal
not equal


在金融计算等领域即便是一点很小的误差也可能会蔓延形成较大的误差。在需要高精度的处理场合，可以使用decimal模块来处理。

In [23]:
from decimal import Decimal
x1 = Decimal('0.1')  # Caution, passing float using str
x2 = Decimal('0.2')  # Caution
x1 + x2

Decimal('0.3')

In [5]:
def comp(n):
    if 1/n -1/(n+1) >= 1/(n*n):
        return True
    else:
        return False
comp(3e200)  #要考虑是否大于浮点数精度

True

## complex复数

当数值字面量含有j或J时，python自动创建complex对象实例。
注意：在数值和j之间不能有乘号。

In [24]:
1+2j, 3-4j

((1+2j), (3-4j))

In [25]:
type(5+6j)

complex

复数之间支持加减乘除和乘法等各种数学运算。复数的数学运算函数可以在cmath模块中找到。

In [26]:
c1 = 1+2j
c1.real,c1.imag

(1.0, 2.0)

可以访问复数对象的real和imag属性得到复数的实部和虚部。

## bool类型

bool类型有两个值，分别为
* 逻辑值'真' True
* 逻辑值'假' False

bool数据的逻辑运算结果为bool类型。

In [27]:
True, False

(True, False)

In [28]:
1<2, 3>4

(True, False)

比较运算支持连写的形式。  
python运算符从左向右结合

In [29]:
1 < 5 < 8 > 2

True

### 逻辑运算

* and 逻辑与
* or 逻辑或
* not 逻辑非
* 运算优先级：not > and > or

In [30]:
True and True, True and False, True or False

(True, False, True)

In [31]:
not -1 or True 

True

In [32]:
not 1<2 and 3>4 or 5<6

True

当参与逻辑运算的只有bool值时，运算结果为bool值。

当有多种类型数据参与逻辑运算时，运算结果可能是bool值，也可能是其他数据类型。

先猜一猜以下逻辑运算的结果是什么？

1 or 2

2 or 1

3.5 or 4.25

* 一种可能性：返回True, False
* 一种可能性：or运算用max(), and运算用min()
* 会不会有其他可能性呢？

我们先来看看系统实际运行结果

In [33]:
1 or 2, 2 or 1, 3.5 and 4.25

(1, 2, 4.25)

### 短路计算规则

and和or采用短路计算法则。总是避免多余的计算。结果的逻辑值一旦确定，则不再计算表达式的剩余部分。

比如： 2 or 3 or 0.由于是or运算，执行到第一个操作数，即可判断表达式为真，因此运算结果为2.

In [34]:
2 or 3 or 0

2

逻辑值参与数学运算

既然整数、浮点数等都可以参与逻辑运算，那么bool值能否参与加减乘除等数学运算呢？

In [35]:
x1 = 2; x2 = 11
(x2 - x1) * (x2 > x1)

9

巧妙的使用bool值的这个特性，可以让代码变得更加简洁易懂。若需要计算$(x_2 - x_1)^+$的时候，上面的表达式极为简洁易懂。

## 数据转换

* 自动转换
* 强制转换

自动转换（隐式转换）是在当运算数不满足运算符的要求时，自动将运算数转换为所需要的类型。上面的例子中实际上我们已经多次见到。

如整数与浮点数运算，会将整数转换为浮点数再进行运算，bool值参与数学运算，会将True转换为1，False转换为0.

若转换不能自动进行，则会报错。

In [36]:
123 + 4.56, 123 + True

(127.56, 124)

In [6]:
"123"+56

TypeError: can only concatenate str (not "int") to str

有时候会出现一些特殊的情况，看起来不能进行的运算反而没有报错。实际上，这是运算符重载。

In [38]:
"123" * 4

'123123123123'

数据强制转换

当需要某种特定数据类型时，或者自动转换无法达到特定目的时，可以采用强制转换。一般是使用对应数据类型的构造函数来处理。

相应的构造函数有：
* int() 整数类型
* float() 浮点数类型
* bool() bool类型
* complex() 复数类型

In [39]:
int('123')*4, float('12.3'), complex('1+2j')

(492, 12.3, (1+2j))

若强制转换无法完成，则会提示错误ValueError.

若强制转换导致溢出，会提示错误OverflowError. 由于整数无上限，在转换为浮点数时有可能导致溢出。

In [40]:
#int('123xy')

## str字符串数据类型

* 字符串是一个有序的字符列表
* python中没有独立的字符类型，字符可以视为长度为1的字符串
* str对象属于不可变对象

In [41]:
"abc",'123',type('xyz')

('abc', '123', str)

字符串定界符

* 三种定界符定义的字符串没有本质差异
* 单引号定界符内可以包含双引号
* 双引号定界符内可以包含单引号
* **三引号定界符内可以包含回车符**

In [42]:
'123'=="123", "abc"=='''abc'''

(True, True)

In [43]:
'123' is "123", "abc" is '''abc'''

(True, True)

In [44]:
'''moon
wall
dog
'''

'moon\nwall\ndog\n'

字符串编码

* Python3默认字符采用16位unicode编码
* 可以使用字符串先导符‘u’指定unicode字符串
* 使用ord()可以获取字符的unicode码
* 使用chr()可以获得unicode码对应的字符

小游戏：考考你的识字水平。

In [45]:
for i in range(16022,16100):
    print(chr(i),end=' ')

㺖 㺗 㺘 㺙 㺚 㺛 㺜 㺝 㺞 㺟 㺠 㺡 㺢 㺣 㺤 㺥 㺦 㺧 㺨 㺩 㺪 㺫 㺬 㺭 㺮 㺯 㺰 㺱 㺲 㺳 㺴 㺵 㺶 㺷 㺸 㺹 㺺 㺻 㺼 㺽 㺾 㺿 㻀 㻁 㻂 㻃 㻄 㻅 㻆 㻇 㻈 㻉 㻊 㻋 㻌 㻍 㻎 㻏 㻐 㻑 㻒 㻓 㻔 㻕 㻖 㻗 㻘 㻙 㻚 㻛 㻜 㻝 㻞 㻟 㻠 㻡 㻢 㻣 

In [46]:
print(ord('学'),ord('习'))

23398 20064


### 字符串转义字符

* 特殊字符尤其是一系列不可见字符可以使用转义字符表示。转义字符以反斜杠'\'开始。
* 当字符串中含有反斜杠时，该字符必须被转义。
* 当字符串中含有字符串定界符时，该字符必须被转义。

这个为什么不一样宽呢->制表符是对齐

In [7]:
s1 = "nothing to escape"
s2 = 'he said, \'it\'s ok\''
s3 = 'a\tb\tc\t'
print(s1,s2,s3)

nothing to escape he said, 'it's ok' a	b	c	


In [48]:
s4 = "no one \\ is here"
print(s4)

no one \ is here


常见特殊符号的转义字符

* \n 换行
* \t 水平制表符
* \v 垂直制表符
* \0oo 八进制字符（oo代表两位八进制数）
* \xHH 十六进制字符（HH代表两位十六进制数）
* \uHHHH unicode字符

* 如果字符串的定界符为单引号，则字符串中的双引号不需要转义。
* 如果字符串的定界符为双引号，则字符串中的单引号不需要转义。
* 如果字符串的定界符为三引号，则单引号、双引号和回车符不需要转义。


In [49]:
s5 = "it's ok"
s6 = 'the "good" apple'
s7 ='''
it's ok
the "good" time never ends
'''
s5,s6,s7

("it's ok", 'the "good" apple', '\nit\'s ok\nthe "good" time never ends\n')

**字符串之前使用先导符r或者R，代表字符串为原生字符，其中的字符不需要转义。
除非其中含有字符串定界符（需要转义）。**

In [50]:
s5 = r"\t\r\n都是特殊字符"
s6 = R'换行符为\n'
s5,s6

('\\t\\r\\n都是特殊字符', '换行符为\\n')

可以使用转义符号加字符的unicode编码表示字符。

比如ascii码字符的编码范围为0-127

In [51]:
s7 = '\x61\x62\x63'
s8 = '\u0041\u0042\u0043'
s7,s8

('abc', 'ABC')

In [52]:
'\077','\101' # 八进制，使用三位八进制数代表一个ascii码字符

('?', 'A')

如果不符合上述转义字符的形式，则系统会自动将其转换为最合理的一个猜测。

In [53]:
'\98','\201'

('\\98', '\x81')

### str对象的属性和方法

* 字符串的处理大多可以通过str对象提供的方法完成。
* 方法1.调用对象的方法
* 方法2.调用str类的方法


In [9]:
s9 = 'the lost island'
s9.upper(),s9.lower(),s9.title()

('THE LOST ISLAND', 'the lost island', 'The Lost Island')

In [55]:
str.upper(s9),str.lower(s9),str.title(s9)

('THE LOST ISLAND', 'the lost island', 'The Lost Island')

str类的常用方法（参见第15章）

* 判断字符串类型，如str.isalpha()判断是否全为字母字符
* 大小写转换，如str.lower()将所有字母转换为小写
* 字符串清理，如str.strip()去除两边的空白字符（或其他指定字符）
* 字符串测试，如str.startswith()判断是否以某个前缀开头
* 字符串拆分与合并，如str.split()按指定字符切分字符串

除了字符串对象的方法以外，很多功能也可以通过序列的访问操作实现。


In [10]:
s9[0], s9[-1]  # 字符串的首尾字符！！第一次看到-1

('t', 'd')

In [57]:
len(s9) # 字符串的长度

15

注意：由于**字符串为不可变对象，所以任何试图改变字符串内元素的指令都会导致一个错误。**

因此，字符串的方法返回的字符串都是一个新的字符串对象，而不会修改原对象。

In [58]:
#s9[3] = '3'

### 字符串的编码转换

* 同一个字符可以有多种不同编码方式
* 不同编码方式下，同一个字符的编码可以不同
* 字节串是字符串的低级表示

In [59]:
s10 = "重大"
s11 = s10.encode(encoding='GBK')  # 编码为一个字节码串
print(s11)

b'\xd6\xd8\xb4\xf3'


In [60]:
s12 = s11.decode(encoding='GBK')
print(s12)

重大


还记得s11采用的编码方式是GBK，如果我们要对它进行解码

In [61]:
#s11.decode() # 默认编解码方式为utf-8

In [62]:
s11 = s10.encode()
s11

b'\xe9\x87\x8d\xe5\xa4\xa7'

In [63]:
s11.decode(encoding='utf-8') 

'重大'

字符串 --encode--> 字节码

字节码 --decode--> 字符串