# 100 days to study python

## day 1

### 变量和类型
整型（int）：Python 中可以处理任意大小的整数，而且支持二进制（如0b100，换算成十进制是4）、八进制（如0o100，换算成十进制是64）、十进制（100）和十六进制（0x100，换算成十进制是256）的表示法。运行下面的代码，看看会输出什么。

In [1]:
print(0b100)  # 二进制整数
print(0o100)  # 八进制整数
print(100)    # 十进制整数
print(0x100)  # 十六进制整数

4
64
100
256


浮点型（float）：浮点数也就是小数，之所以称为浮点数，是因为按照科学记数法表示时，一个浮点数的小数点位置是可变的，浮点数除了数学写法（如123.456）之外还支持科学计数法（如1.23456e2，表示$\small{1.23456 \times 10^{2}}$）。运行下面的代码，看看会输出什么。

In [2]:
print(123.456)    # 数学写法
print(1.23456e2)  # 科学计数法

123.456
123.456


字符串型（str）：字符串是以单引号或双引号包裹起来的任意文本，比如'hello'和"hello"。

布尔型（bool）：布尔型只有True、False两种值，要么是True，要么是False，可以用来表示现实世界中的“是”和“否”，命题的“真”和“假”，状况的“好”与“坏”，水平的“高”与“低”等等。如果一个变量的值只有两种状态，我们就可以使用布尔型。

### 变量命名
规则1：变量名由**字母、数字和下划线**构成，数字不能开头。需要说明的是，这里说的**字母指的是 Unicode 字符**，Unicode 称为万国码，囊括了世界上大部分的文字系统，这也就意味着中文、日文、希腊字母等都可以作为变量名中的字符，但是一些特殊字符（如：！、@、#等）是不能出现在变量名中的。我们强烈建议大家把这里说的字母理解为尽可能只使用英文字母。

规则2：Python 是大小写敏感的编程语言，简单的说就是大写的A和小写的a是两个不同的变量，这一条其实并不算规则，而是需要大家注意的地方。

规则3：变量名不要跟 Python 的关键字重名，尽可能避开 Python 的保留字。这里的关键字是指在 Python 程序中有特殊含义的单词（如：is、if、else、for、while、True、False等），保留字主要指 Python 语言内置函数、内置模块等的名字（如：int、print、input、str、math、os等）。

惯例1：变量名通常使用小写英文字母，多个单词用下划线进行连接。

惯例2：受保护的变量用**单个下划线**开头。

惯例3：**私有的变量用两个下划线开头**。

In [3]:
a = 45
b = 23
print(a,b)
print(a*b)
print(a/b)
print(a-b)
print(a+b)

45 23
1035
1.9565217391304348
22
68


type函数

In [4]:
a = 100
b = 123.45
c = 'hello, world'
d = True
print(type(a))  # <class 'int'>
print(type(b))  # <class 'float'>
print(type(c))  # <class 'str'>
print(type(d))  # <class 'bool'>

<class 'int'>
<class 'float'>
<class 'str'>
<class 'bool'>


强制转化

int()：将一个数值或字符串转换成整数，可以指定进制。

float()：将一个字符串（在可能的情况下）转换成浮点数。

str()：将指定的对象转换成字符串形式，可以指定编码方式。

chr()：将整数（字符编码）转换成对应的（一个字符的）字符串。

ord()：将（一个字符的）字符串转换成对应的整数（字符编码）。

参数 base（可选）

含义：指定字符串 x 的进制数。

规则：

只有当 x 是**字符串**时，base 参数才有效。

base 的取值范围是 2 到 36，表示二进制到三十六进制。

如果省略 base，默认为 10（十进制）。

In [7]:
a = 100
b = 123.45
c = '123'
d = '100'
e = '123.45'
f = 'hello, world'
g = True
print(float(a))         # int类型的100转成float，输出100.0
print(int(b))           # float类型的123.45转成int，输出123
print(int(c))           # str类型的'123'转成int，输出123
print(int(c, base=16))  # str类型的'123'按十六进制转成int，输出291
print(int(d, base=2))   # str类型的'100'按二进制转成int，输出4
print(float(e))         # str类型的'123.45'转成float，输出123.45
print(bool(f))          # str类型的'hello, world'转成bool，输出True
print(int(g))           # bool类型的True转成int，输出1
print(chr(a))           # int类型的100转成str，输出'd'
print(ord('d'))         # str类型的'd'转成int，输出100

100.0
123
123
291
4
123.45
True
1
d
100


### 运算符

[:]为切片

>>、<<右移、左移

In [1]:
# 华氏温度转摄氏温度
f = float(input('请输入温度：'))
c = (f-32)/1.8
print(c)

请输入温度： 1


-17.22222222222222


{f:.1f}和{c:.1f}可以先看成是{f}和{c}，表示输出时会用变量f和变量c的值替换掉这两个占位符，**后面的:.1f表示**这是一个浮点数，小数点后保留1位有效数字。

In [2]:
# 格式化输出
f = float(input('请输入华氏温度: '))
c = (f - 32) / 1.8
print(f'{f:.1f}华氏度 = {c:.1f}摄氏度')

请输入华氏温度:  1


1.0华氏度 = -17.2摄氏度


In [None]:
# 计算面积
import math
r = float(input('请输入半径: '))
print(f'面积为{math.pi*r**2:.2f}')


In [7]:
# 计算闰年

year = int(input('请输入年份'))
is_leap = year % 4 == 0 and year % 100 != 0 or year % 400 == 0
print(f'{is_leap = }')


请输入年份 2024


is_leap = True


## 分支结构

### if else

In [12]:
# BMI
height = float(input('height(m):'))
weight = float(input('weight(kg):'))
bmi = weight/height/height
print(f'{bmi:.2f}')
if bmi < 18.5:
    print('你的体重过轻！')
elif bmi < 24:
    print('你的身材很棒！')
elif bmi < 27:
    print('你的体重过重！')
elif bmi < 30:
    print('你已轻度肥胖！')
elif bmi < 35:
    print('你已中度肥胖！')
else:
    print('你已重度肥胖！')

height(m): 1.70
weight(kg): 80


27.68


### match-case

In [None]:
status_code = int(input('响应状态码: '))
match status_code:
    case 400: description = 'Bad Request'
    case 400: description = 'Bad Request'
    case 401: description = 'Unauthorized'
    case 403: description = 'Forbidden'
    case 404: description = 'Not Found'
    case 405: description = 'Method Not Allowed'
    case _: description = 'Unknown Status Code'
print('状态码描述:', description)


带有_的case语句在代码中起到通配符的作用，如果前面的分支都没有匹配上，代码就会来到case _。case _的使用是可选的，并非每种分支结构都要给出通配符选项。如果分支中出现了case _，**它只能放在分支结构的最后面**，如果它的后面还有其他的分支，那么这些分支将是不可达的。

In [None]:
status_code = int(input('响应状态码: '))
match status_code:
    case 400 | 405: description = 'Invalid Request'
    case 401 | 403 | 404: description = 'Not Allowed'
    case _: description = 'Unknown Status Code'
print('状态码描述:', description)

## 循环结构

### for-in循环

range() 左闭右开

range(101)：可以用来产生0到100范围的整数，需要注意的是取不到101。

In [13]:
# 不需要用到i的话，直接用_替代，虽然没什么区别，但是很帅
import time

for _ in range(3600):
    print('hello, world')
    time.sleep(1)

hello, world
hello, world
hello, world
hello, world
hello, world


KeyboardInterrupt: 

### break和continue

break,直接终止循环

continue，终止本次循环

### 嵌套的循环结构

In [23]:
for i in range(1, 10):
    for j in range(1, 10):
        if i >= j:
            # /t 为制表符，制表符的宽度并不是固定的，它通常会将光标移动到下一个“制表位”。
            # 默认情况下，制表位通常每隔8个字符设置一个，但这个值可以在不同的编辑器或终端中进行调整。
            print(f'{i}*{j} = {i*j}', end = '\t')
    print()

1*1 = 1	
2*1 = 2	2*2 = 4	
3*1 = 3	3*2 = 6	3*3 = 9	
4*1 = 4	4*2 = 8	4*3 = 12	4*4 = 16	
5*1 = 5	5*2 = 10	5*3 = 15	5*4 = 20	5*5 = 25	
6*1 = 6	6*2 = 12	6*3 = 18	6*4 = 24	6*5 = 30	6*6 = 36	
7*1 = 7	7*2 = 14	7*3 = 21	7*4 = 28	7*5 = 35	7*6 = 42	7*7 = 49	
8*1 = 8	8*2 = 16	8*3 = 24	8*4 = 32	8*5 = 40	8*6 = 48	8*7 = 56	8*8 = 64	
9*1 = 9	9*2 = 18	9*3 = 27	9*4 = 36	9*5 = 45	9*6 = 54	9*7 = 63	9*8 = 72	9*9 = 81	


In [None]:
# 最大公约数

x = int(input('x = '))
y = int(input('y = '))
# 循环变量值是从大到小的
for i in range(x, 0, -1):
    if x % i == 0 and y % i == 0:
        print(f'最大公约数: {i}')
        break

# 分支结构和循环结构的应用

In [3]:
# 100以内的素数
for i in range(2,100):
    is_prime = True
    for j in range(2,int(i/2)+1):
        if i % j == 0:
            is_prime = False
            break
    if is_prime:
        print(i)


2
3
5
7
11
13
17
19
23
29
31
37
41
43
47
53
59
61
67
71
73
79
83
89
97


In [8]:
# 斐波那契数列
a = [1,1]
for i in range(10):
    x = a[i]+a[i+1]
    a.append(x)
    print(a[i])

a, b = 0, 1
for _ in range(20):
    a, b = b, a + b
    print(a)

1
1
2
3
5
8
13
21
34
55


In [None]:
# 百钱百鸡问题
for x in range(0, 21):
    for y in range(0, 34):
        for z in range(0, 100, 3):
            if x + y + z == 100 and 5 * x + 3 * y + z // 3 == 100:
                print(f'公鸡: {x}只, 母鸡: {y}只, 小鸡: {z}只')
# 非常巧妙！！！

## 常用数据结构之列表-1
## 创建列表
在 Python 中，列表是由一系元素按特定顺序构成的数据序列，这就意味着如果我们定义一个列表类型的变量，可以用它来保存多个数据。在 python 中，可以使用[]字面量语法来定义列表，列表中的多个元素用逗号进行分隔，代码如下所示。

In [None]:
items1 = [35, 12, 99, 68, 55, 35, 87]
items2 = ['Python', 'Java', 'Go', 'Kotlin']
items3 = [100, 12.3, 'Python', True]
print(items1)  # [35, 12, 99, 68, 55, 35, 87]
print(items2)  # ['Python', 'Java', 'Go', 'Kotlin']
print(items3)  # [100, 12.3, 'Python', True]
items4 = list(range(1, 10))
items5 = list('hello')
print(items4)  # [1, 2, 3, 4, 5, 6, 7, 8, 9]
print(items5)  # ['h', 'e', 'l', 'l', 'o']

### 列表的运算
**可以使用+运算符实现两个列表的拼接**


In [None]:
items5 = [35, 12, 99, 45, 66]
items6 = [45, 58, 29]
items7 = ['Python', 'Java', 'JavaScript']
print(items5 + items6)  # [35, 12, 99, 45, 66, 45, 58, 29]
print(items6 + items7)  # [45, 58, 29, 'Python', 'Java', 'JavaScript']
items5 += items6
print(items5)  # [35, 12, 99, 45, 66, 45, 58, 29]

**可以使用*运算符实现列表的重复运算**

In [9]:
# 其实就是items6+items6+items6
print(items6 * 3)  # [45, 58, 29, 45, 58, 29, 45, 58, 29]
print(items7 * 2)  # ['Python', 'Java', 'JavaScript', 'Python', 'Java', 'JavaScript']

NameError: name 'items6' is not defined

In [10]:
**可以使用in或not in运算符判断一个元素在不在列表中**

SyntaxError: invalid syntax (1116119124.py, line 1)

In [11]:
print(29 in items6)  # True
print(99 in items6)  # False
print('C++' not in items7)     # True
print('Python' not in items7)  # False

NameError: name 'items6' is not defined

[]是运算符号，通过在[]中指定元素的位置来访问该元素，这种运算称为索引运算。需要说明的是，[]的元素位置可以是0到N - 1的整数，也可以是-1到-N的整数，分别称为正向索引和反向索引

In [12]:
items8 = ['apple', 'waxberry', 'pitaya', 'peach', 'watermelon']
print(items8[0])   # apple
print(items8[2])   # pitaya
print(items8[4])   # watermelon
items8[2] = 'durian'
print(items8)      # ['apple', 'waxberry', 'durian', 'peach', 'watermelon']
print(items8[-5])  # 'apple'
print(items8[-4])  # 'waxberry'
print(items8[-1])  # watermelon
items8[-4] = 'strawberry'
print(items8)      # ['apple', 'strawberry', 'durian', 'peach', 'watermelon']

apple
pitaya
watermelon
['apple', 'waxberry', 'durian', 'peach', 'watermelon']
apple
waxberry
watermelon
['apple', 'strawberry', 'durian', 'peach', 'watermelon']


**切片运算**

如[start:end:stride]：其中start代表访问列表元素的起始位置，end代表访问列表元素的终止位置（**终止位置的元素无法访问**），而stride则代表了跨度

In [11]:
print(items8[1:3:1])     # ['strawberry', 'durian']
print(items8[0:3:1])     # ['apple', 'strawberry', 'durian']
print(items8[0:5:2])     # ['apple', 'durian', 'watermelon']
print(items8[-4:-2:1])   # ['strawberry', 'durian']
print(items8[-2:-6:-1])  # ['peach', 'durian', 'strawberry', 'apple']

['strawberry', 'durian']
['apple', 'strawberry', 'durian']
['apple', 'durian', 'watermelon']
['strawberry', 'durian']
['peach', 'durian', 'strawberry', 'apple']


如果start值**等于0**，那么在使用切片运算符时可以将其省略；如果end值**等于N**，N代表列表元素的个数，那么在使用切片运算符时可以将其省略；如果stride值**等于1**，那么在使用切片运算符时也可以将其省略。所以，下面的代码跟上面的代码作用完全相同。

In [None]:
print(items8[1:3])     # ['strawberry', 'durian']
print(items8[:3:1])    # ['apple', 'strawberry', 'durian']
print(items8[::2])     # ['apple', 'durian', 'watermelon']
print(items8[-4:-2])   # ['strawberry', 'durian']
print(items8[-2::-1])  # ['peach', 'durian', 'strawberry', 'apple']

### 元素的遍历

### 添加和删除元素

append方法向列表中追加元素，使用insert方法向列表中插入元素

In [None]:
languages = ['Python', 'Java', 'C++']
languages.append('JavaScript')
print(languages)  # ['Python', 'Java', 'C++', 'JavaScript']
languages.insert(1, 'SQL')
print(languages)  # ['Python', 'SQL', 'Java', 'C++', 'JavaScript']

remove方法从列表中删除指定元素,需要注意的是，如果要删除的元素并不在列表中，会引发ValueError错误导致程序崩溃，所以建议大家在删除元素时，先用之前讲过的成员运算做一个判断

pop方法从列表中删除元素，pop方法默认删除列表中的最后一个元素，当然也可以给一个位置，**删除指定位置的元素**。在使用pop方法删除元素时，如果索引的值超出了范围，会引发IndexError异常，导致程序崩溃。除此之外，列表还有一个clear方法，可以清空列表中的元素

In [None]:
languages = ['Python', 'SQL', 'Java', 'C++', 'JavaScript']
if 'Java' in languages:
    languages.remove('Java')
if 'Swift' in languages:
    languages.remove('Swift')
print(languages)  # ['Python', 'SQL', C++', 'JavaScript']
languages.pop()
temp = languages.pop(1)
print(temp)       # SQL
languages.append(temp)
print(languages)  # ['Python', C++', 'SQL']
languages.clear()
print(languages)  # []

# day 3

## 常用数据结构之元组(tuple)

元组和列表的不同之处在于，元组是**不可变类型**,这就意味着元组类型的变量一旦定义，其中的元素不能再添加或删除，而且元素的值也不能修改。

运算符=><

逐个元素比较：从左到右逐个比较两个列表的对应元素。
元素比较：如果某个位置的元素不同，则根据该位置的元素比较结果确定整个列表的比较结果。
长度比较：如果所有对应元素都相等，但两个列表的长度不同，则较短的列表被视为较小。
完全相等：如果所有对应元素都相等且长度也相等，则两个列表被视为相等。


In [1]:
# 定义一个三元组
t1 = (35, 12, 98)
# 定义一个四元组
t2 = ('骆昊', 43, True, '四川成都')

# 查看变量的类型
print(type(t1))  # <class 'tuple'>
print(type(t2))  # <class 'tuple'>

# 查看元组中元素的数量
print(len(t1))  # 3
print(len(t2))  # 4

# 索引运算
print(t1[0])    # 35
print(t1[2])    # 98
print(t2[-1])   # 四川成都

# 切片运算
print(t2[:2])   # ('骆昊', 43)
print(t2[::3])  # ('骆昊', '四川成都')

# 循环遍历元组中的元素
for elem in t1:
    print(elem)

# 成员运算
print(12 in t1)         # True
print(99 in t1)         # False
print('Hao' not in t2)  # False

# 拼接运算
t3 = t1 + t2
print(t3)  # (35, 12, 98, '骆昊', 43, True, '四川成都'),返回新的元组

# 比较运算
print(t1 == t3)            # False
print(t1 < t3)             # True
print(t1 <= (35, 11, 99))  # False

<class 'tuple'>
<class 'tuple'>
3
4
35
98
四川成都
('骆昊', 43)
('骆昊', '四川成都')
35
12
98
True
False
True
(35, 12, 98, '骆昊', 43, True, '四川成都')
False
True
False


一个元组中如果有两个元素，我们就称之为二元组

一个元组中如果五个元素，我们就称之为五元组

()表示空元组，但是如果元组中只有一个元素，需要加上一个逗号，否则()就不是代表元组的字面量语法，而是改变运算优先级的圆括号,**所以('hello', )和(100, )才是一元组**，**而('hello')和(100)只是字符串和整数**

a = ()
print(type(a))  # <class 'tuple'>
b = ('hello')
print(type(b))  # <class 'str'>
c = (100)
print(type(c))  # <class 'int'>
d = ('hello', )
print(type(d))  # <class 'tuple'>
e = (100, )
print(type(e))  # <class 'tuple'>

### 打包和解包操作

当我们把多个用逗号分隔的值赋给一个变量时，多个值会打包成一个**元组类型**；

当我们把一个元组赋值给多个变量时，元组会解包成多个值然后分别赋给对应的变量，如下面的代码所示。

In [3]:
# 打包操作
a = 1, 10, 100
print(type(a))  # <class 'tuple'>
print(a)        # (1, 10, 100)
# 解包操作
i, j, k = a
print(i, j, k)  # 1 10 100

<class 'tuple'>
(1, 10, 100)
1 10 100


在解包时，如果解包出来的元素个数和变量个数不对应，会引发ValueError异常，错误信息为：too many values to unpack（解包的值太多）或not enough values to unpack（解包的值不足）。

In [5]:
a = 1, 10, 100, 1000
i, j, k = a             # ValueError: too many values to unpack (expected 3)
i, j, k, l, m, n = a    # ValueError: not enough values to unpack (expected 6, got 4)

ValueError: too many values to unpack (expected 3)

有一种解决变量个数少于元素的个数方法，就是使用**星号表达式**。通过星号表达式，我们可以让一个变量**接收多个值**，代码如下所示。需要注意两点：首先，用星号表达式修饰的变量会变成一个**列表**，列表中有**0个或多个元素**；其次，在解包语法中，星号表达式**只能出现一次**。

In [6]:
a = 1, 10, 100, 1000
i, j, *k = a
print(i, j, k)        # 1 10 [100, 1000]
i, *j, k = a
print(i, j, k)        # 1 [10, 100] 1000
*i, j, k = a
print(i, j, k)        # [1, 10] 100 1000
*i, j = a
print(i, j)           # [1, 10, 100] 1000
i, *j = a
print(i, j)           # 1 [10, 100, 1000]
i, j, k, *l = a
print(i, j, k, l)     # 1 10 100 [1000]
i, j, k, l, *m = a
print(i, j, k, l, m)  # 1 10 100 1000 []
i, j, k, *l, m = a
print(i, j, k, l, m)  # 1 10 100 1000 []
# 相当于给空间

1 10 [100, 1000]
1 [10, 100] 1000
[1, 10] 100 1000
[1, 10, 100] 1000
1 [10, 100, 1000]
1 10 100 [1000]
1 10 100 1000 []
1 10 100 [] 1000


需要说明一点，解包语法对所有的**序列**都成立，这就意味着我们之前讲的**列表、range函数构造的范围序列甚至字符串**都可以使用解包语法。大家可以尝试运行下面的代码，看看会出现怎样的结果。

In [7]:
a, b, *c = range(1, 10)
print(a, b, c)
a, b, c = [1, 10, 100]
print(a, b, c)
a, *b, c = 'hello'
print(a, b, c)

1 2 [3, 4, 5, 6, 7, 8, 9]
1 10 100
h ['e', 'l', 'l'] o


### 交换变量的值

In [None]:
a, b = b, a
a, b, c = b, c, a

需要说明的是，上面的操作并没有用到打包和解包语法，Python 的字节码指令中有ROT_TWO和ROT_THREE这样的指令可以直接实现这个操作，效率是非常高的。但是如果有多于三个变量的值要依次互换，这个时候是没有直接可用的字节码指令的，需要通过打包解包的方式来完成变量之间值的交换

### 元组和列表的比较 

**为什么有元组**

元组是不可变类型，**不可变类型更适合多线程环境**，因为它降低了并发访问变量的同步化开销。关于这一点，我们会在后面讲解并发编程的时候跟大家一起探讨。

元组是不可变类型，通常不可变类型在**创建时间**上优于对应的可变类型。我们可以使用timeit模块的timeit函数来看看创建保存相同元素的元组和列表各自花费的时间，timeit函数的number参数表示代码执行的次数。下面的代码中，我们分别创建了保存1到9的整数的列表和元组，每个操作执行10000000次，统计运行时间。

In [11]:
import timeit

print('%.3f 秒' % timeit.timeit('[1, 2, 3, 4, 5, 6, 7, 8, 9]', number=10000000))
print('%.3f 秒' % timeit.timeit('(1, 2, 3, 4, 5, 6, 7, 8, 9)', number=10000000))

0.394 秒
0.066 秒


当然，Python 中的元组和列表类型是可以相互转换的，我们可以通过下面的代码来完成该操作。

In [12]:
infos = ('骆昊', 43, True, '四川成都')
# 将元组转换成列表
print(list(infos))  # ['骆昊', 43, True, '四川成都']

frts = ['apple', 'banana', 'orange']
# 将列表转换成元组
print(tuple(frts))  # ('apple', 'banana', 'orange')

['骆昊', 43, True, '四川成都']
('apple', 'banana', 'orange')


**列表和元组都是容器型的数据类型**，即一个变量可以保存多个数据，而且它们都是按一定顺序组织元素的有序容器。**列表是可变数据类型，元组是不可变数据类型**，所以列表可以添加元素、删除元素、清空元素、排序反转，但这些操作对元组来说是不成立的。列表和元组都可以支持**拼接运算、成员运算、索引运算、切片运算**等操作，后面我们要讲到的字符串类型也支持这些运算，因为字符串就是字符按一定顺序构成的序列，在这一点上三者并没有什么区别。我们**推荐大家使用列表的生成式语法来创建列表**，它不仅好用而且效率很高，是 Python 语言中非常有特色的语法。

# 列表的生成语法

[expression for item in iterable if condition]

expression：对每个元素进行的计算或操作。
item：可迭代对象中的每个元素。
iterable：可迭代对象，如列表、元组、字典等。
condition：可选的条件语句，用于过滤元素。

In [13]:
squares = [x**2 for x in range(10)]
print(squares)  # 输出: [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


## 常用数据结构之字符串
### 字符串的定义
所谓字符串，就是由**零个或多个字符组成**的有限序列

In [16]:
s1 = 'hello, world!'
s2 = "你好，世界！❤️"
s3 = '''hello,
wonderful
world!'''
print(s1)
print(s2)
print(s3)

hello, world!
你好，世界！❤️
hello,
wonderful
world!


### 转义字符
\（反斜杠）来表示转义，也就是说\后面的字符不再是它原来的意义，例如：\n不是代表字符\和字符n，而是表示换行；\t也不是代表字符\和字符t，而是表示制表符。所以如果字符串本身又包含了'、"、\这些特殊的字符，必须要通过\进行转义处理。

In [17]:
s1 = '\'hello, world!\''
s2 = '\\hello, world!\\'
print(s1)
print(s2)

'hello, world!'
\hello, world!\


### 原始字符串
Python 中有一种以r或R开头的字符串，这种字符串被称为原始字符串，意思是字符串中的每个字符都是它本来的含义，没有所谓的转义字符。

In [19]:
s1 = '\it \is \time \to \read \now'
s2 = r'\it \is \time \to \read \now'
print(s1)
print(s2)

ead 	ime 	o 
ow
\it \is \time \to \read \now


  s1 = '\is \time \to \read \now'


Python 中还允许在\后面还可以跟一个八进制或者十六进制数来表示字符，**例如\141和\x61**都代表小写字母a，前者是八进制的表示法，后者是十六进制的表示法。另外一种表示字符的方式是在\u后面跟**Unicode**字符编码，例如\u9a86\u660a代表的是中文“骆昊”。运行下面的代码，看看输出了什么。

In [20]:
s1 = '\141\142\143\x61\x62\x63'
s2 = '\u9a86\u660a'
print(s1)
print(s2)

abcabc
骆昊


### 字符串的运算
很多运算符跟列表类型的运算符作用类似

拼接和重复

In [21]:
s1 = 'hello' + ', ' + 'world'
print(s1)    # hello, world
s2 = '!' * 3
print(s2)    # !!!
s1 += s2
print(s1)    # hello, world!!!
s1 *= 2
print(s1)    # hello, world!!!hello, world!!!

hello, world
!!!
hello, world!!!
hello, world!!!hello, world!!!


In [2]:
x = 'a'
print(100*x)

aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa


比较运算 对于两个字符串类型的变量，可以直接使用比较运算符来判断两个字符串的相等性或比较大小。需要说明的是，因为字符串在计算机内存中也是以二进制形式存在的，那么字符串的大小比较比的是每个字符对应的编码的大小。

两个字符对应的编码到底是多少，可以使用**ord函数**来获得

In [None]:
s1 = 'a whole new world'
s2 = 'hello world'
print(s1 == s2)             # False
print(s1 < s2)              # True
print(s1 == 'hello world')  # False
print(s2 == 'hello world')  # True
print(s2 != 'Hello world')  # True
s3 = '骆昊'
print(ord('骆'))            # 39558
print(ord('昊'))            # 26122
s4 = '王大锤'
print(ord('王'))            # 29579
print(ord('大'))            # 22823
print(ord('锤'))            # 38180
print(s3 >= s4)             # True
print(s3 != s4)             # True

成员运算 Python 中可以用in和not in判断一个字符串中是否包含另外一个字符或字符串，跟列表类型一样，in和not in称为成员运算符，会**返回布尔值True或False**，代码如下所示。

In [None]:
s1 = 'hello, world'
s2 = 'goodbye, world'
print('wo' in s1)      # True
print('wo' not in s2)  # False
print(s2 in s1)        # False

获取字符串长度 获取字符串长度跟获取列表元素个数一样，使用内置函数**len**，代码如下所示。


In [3]:
s = 'hello, world'
print(len(s))                 # 12
print(len('goodbye, world'))  # 14

12
14


索引和切片 字符串的索引和切片操作跟列表几乎区别

字符串是不可变类型，所以不能通过索引运算修改字符串中的字符。

In [None]:
s = 'abc123456'
n = len(s)
print(s[0], s[-n])    # a a
print(s[n-1], s[-1])  # 6 6
print(s[2], s[-7])    # c c
print(s[5], s[-4])    # 3 3
print(s[2:5])         # c12
print(s[-7:-4])       # c12
print(s[2:])          # c123456
print(s[:2])          # ab
print(s[::2])         # ac246
print(s[::-1])        # 654321cba

字符串的方法

通过字符串类型自带的方法对字符串进行操作和处理

foo的字符串，字符串有名为bar的方法，那么使用字符串方法的语法是：foo.bar()，这是一种通过对象引用调用对象方法的语法，跟前面使用列表方法的语法是一样的。

In [4]:
s1 = 'hello, world!'
# 字符串首字母大写
print(s1.capitalize())  # Hello, world!
# 字符串每个单词首字母大写
print(s1.title())       # Hello, World!
# 字符串变大写
print(s1.upper())       # HELLO, WORLD!
s2 = 'GOODBYE'
# 字符串变小写
print(s2.lower())       # goodbye
# 检查s1和s2的值
print(s1)               # hello, world
print(s2)               # GOODBYE

Hello, world!
Hello, World!
HELLO, WORLD!
goodbye
hello, world!
GOODBYE


查找操作

find或index 在使用find和index方法时还可以通过方法的参数来指定查找的范围，也就是查找不必从索引为0的位置开始。

In [None]:
s = 'hello, world!'
print(s.find('or'))      # 8也就是or的第一个字母的位置
print(s.find('or', 9))   # -1
print(s.find('of'))      # -1
print(s.index('or'))     # 8
print(s.index('or', 9))  # ValueError: substring not found

# 说明：find方法找不到指定的字符串会返回-1，index方法找不到指定的字符串会引发ValueError错误。

find和index方法还有逆向查找（从后向前查找）的版本，分别是rfind和rindex，代码如下所示。

In [None]:
s = 'hello world!'
print(s.find('o'))       # 4
print(s.rfind('o'))      # 7
print(s.rindex('o'))     # 7
# print(s.rindex('o', 8))  # ValueError: substring not found

性质判断

可以通过字符串的startswith、endswith来判断字符串是否以某个字符串开头和结尾；还可以用is开头的方法判断字符串的特征，这些方法都返回布尔值，代码如下所示。

In [None]:
s1 = 'hello, world!'
print(s1.startswith('He'))   # False 大小写敏感
print(s1.startswith('hel'))  # True
print(s1.endswith('!'))      # True
s2 = 'abc123456'
print(s2.isdigit())  # False 由数字构成
print(s2.isalpha())  # False 由字母构成
print(s2.isalnum())  # True 由字母和数字构成


说明：上面的isdigit用来判断字符串是不是完全由数字构成的，isalpha用来判断字符串是不是完全由字母构成的，这里的字母指的是 Unicode 字符但不包含 Emoji 字符，isalnum用来判断字符串是不是由字母和数字构成的。

格式化

在 Python 中，字符串类型可以通过center、ljust、rjust方法做居中、左对齐和右对齐的处理。如果要在字符串的左侧补零，也可以使用zfill方法。好麻烦呀

In [None]:
s = 'hello, world'
print(s.center(20, '*'))  # ****hello, world****
print(s.rjust(20))        #         hello, world
print(s.ljust(20, '~'))   # hello, world~~~~~~~~
print('33'.zfill(5))      # 00033
print('-33'.zfill(5))     # -0033

格式化输出

在字符串前加上f来格式化字符串，在这种以f打头的字符串中，{变量名}是一个占位符，会被变量对应的值将其替换掉，代码如下所示。

In [None]:
a = 321
b = 123
print(f'{a} * {b} = {a * b}')

修剪操作

strip方法可以帮我们获得将原字符串修剪掉左右两端指定字符之后的字符串，默认是修剪空格字符。

In [6]:
s1 = '   jackfrued@126.com  '
print(s1.strip())      # jackfrued@126.com
s2 = '~你好，世界~'
print(s2.lstrip('~'))  # 你好，世界~
print(s2.rstrip('~'))  # ~你好，世界

print(s1.strip())

jackfrued@126.com
你好，世界~
~你好，世界
jackfrued@126.com


替换操作

如果希望用新的内容替换字符串中指定的内容，可以使用replace方法，代码如下所示。replace方法的第一个参数是被替换的内容，第二个参数是替换后的内容，还可以通过**第三个参数指定替换的次数**。

In [None]:
s = 'hello, good world'
print(s.replace('o', '@'))     # hell@, g@@d w@rld
print(s.replace('o', '@', 1))  # hell@, good world

拆分与合并

可以使用字符串的split方法将一个字符串拆分为多个字符串（放在一个列表中），也可以使用字符串的join方法将列表中的多个字符串连接成一个字符串，代码如下所示。

In [None]:
s = 'I love you'
words = s.split()
print(words)            # ['I', 'love', 'you']
print('~'.join(words))  # I~love~you

需要说明的是，split方法默认使用空格进行拆分，我们也可以指定其他的字符来拆分字符串，而且还可以指定**最大拆分次数**来控制拆分的效果，代码如下所示。

In [None]:
s = 'I#love#you#so#much'
words = s.split('#')
print(words)  # ['I', 'love', 'you', 'so', 'much']
words = s.split('#', 2)
print(words)  # ['I', 'love', 'you#so#much']

编码和解码

Python 中除了字符串str类型外，还有一种表示二进制数据的字节串类型（bytes）。所谓字节串，就是由零个或多个字节组成的有限序列。通过字符串的encode方法，我们可以按照某种编码方式将字符串编码为字节串，我们也可以使用字节串的decode方法，将字节串解码为字符串，代码如下所示。

In [None]:
a = '骆昊'
b = a.encode('utf-8')
c = a.encode('gbk')
print(b)                  # b'\xe9\xaa\x86\xe6\x98\x8a'
print(c)                  # b'\xc2\xe6\xea\xbb'
print(b.decode('utf-8'))  # 骆昊
print(c.decode('gbk'))    # 骆昊

# day4

## 常用数据结构之集合(set)


### 特征：
    无序性：一个集合中，每个元素的地位都是相同的，元素之间是无序的。所以不支持索引操作

    互异性：一个集合中，任何两个元素都是不相同的，即元素在集合中只能出现一次。list、tuple、str都不具备。

    确定性：给定一个集合和一个任意元素，该元素要么属这个集合，要么不属于这个集合，二者必居其一，不允许有模棱两可的情况出现。不都是吗？是都有这个性质

    集合的成员运算在性能上要优于列表的成员运算，也就是in 和 not in运算

    说明：集合底层使用了哈希存储（散列存储）。（所以有互异性、无序性、确定性）

### 创建集合
创建集合可以使用{}字面量语法，{}中需要至少有一个元素，因为没有元素的{}并不是空集合而是一个空字典

也可以使用 Python 内置函数set来创建一个集合，准确的说set并不是一个函数，而是创建集合对象的构造器

我们可以使用set函数创建一个空集合，也可以用它将其他序列转换成集合，例如：set('hello')会得到一个包含了4个字符的集合

In [None]:
set1 = {1, 2, 3, 3, 3, 2}
print(set1)

set2 = {'banana', 'pitaya', 'apple', 'apple', 'banana', 'grape'}
print(set2)

set3 = set('hello')# 强制转换
print(set3)

set4 = set([1, 2, 2, 3, 3, 3, 2, 1])# 强制转换
print(set4)

set5 = [num for num in range(1, 20) if num % 3 == 0 or num % 7 == 0]
print(set5)

set5 = {num for num in range(1, 20) if num % 3 == 0 or num % 7 == 0}
print(set5)

{1, 2, 3}
{'apple', 'banana', 'pitaya', 'grape'}
{'l', 'h', 'e', 'o'}
{1, 2, 3}
[3, 6, 7, 9, 12, 14, 15, 18]


需要提醒大家，集合中的元素必须是**hashable类型**，使用哈希存储的容器都会对元素提出这一要求。

所谓hashable类型指的是能够计算出哈希码的数据类型，通常不可变类型都是hashable类型，如整数（int）、浮点小数（float）、布尔值（bool）、字符串（str）、元组（tuple）等。

可变数据类型：列表（list），字典（dict），集合（set）。

元素的遍历

我们可以通过len函数来获得集合中有多少个元素，但是我们不能通过**索引运算**来遍历集合中的元素，因为集合元素并没有特定的顺序。当然，要实现对集合元素的遍历，我们仍然可以使用for-in循环，代码如下所示。

In [20]:
set1 = {'Python', 'C++', 'Java', 'Kotlin', 'Swift'}
for elem in set1:
    print(elem)

Swift
Kotlin
Java
Python
C++


在同一运行环境中多次运行相同的代码，集合的元素顺序通常是相同的。

在不同的运行环境中，集合的元素顺序可能会有所不同。

### 集合的运算

Python 为集合类型提供了非常丰富的运算符，主要包括：成员运算、交集运算、并集运算、差集运算、比较运算（相等性、子集、超集）等。

In [23]:
# 成员运算 in和not in 
set1 = {11, 12, 13, 14, 15}
print(10 in set1)      # False 
print(15 in set1)      # True
set2 = {'Python', 'Java', 'C++', 'Swift'}
print('Ruby' in set2)  # False
print('Java' in set2)  # True

False
True
False
True


二元运算

集合的二元运算主要指集合的交集、并集、差集、对称差等运算，这些运算可以通过运算符来实现，也可以通过集合类型的方法来实现，代码如下所示。
![image.png](attachment:image.png)

In [None]:
set1 = {1, 2, 3, 4, 5, 6, 7}
set2 = {2, 4, 6, 8, 10}

# 交集
print(set1 & set2)                      # {2, 4, 6}
print(set1.intersection(set2))          # {2, 4, 6}

# 并集
print(set1 | set2)                      # {1, 2, 3, 4, 5, 6, 7, 8, 10}
print(set1.union(set2))                 # {1, 2, 3, 4, 5, 6, 7, 8, 10}

# 差集
print(set1 - set2)                      # {1, 3, 5, 7}
print(set1.difference(set2))            # {1, 3, 5, 7}

# 对称差
print(set1 ^ set2)                      # {1, 3, 5, 7, 8, 10}
print(set1.symmetric_difference(set2))  # {1, 3, 5, 7, 8, 10}