# 模块化编程

在真正做项⽬时，我们会使⽤别⼈已经开发好的模块，这样就不必从零开发项⽬了，还可以加快开发速度，这些模块可能是Python官⽅提供的，也可能是第三⽅开发的。Python官⽅提供的模块，就叫做**内置模块**。  

Python可以说是⼀个模块化编程的⾼级语⾔。  

官⽅学习⽂档

https://docs.python.org/zh-cn/3/tutorial/index.html 

# main测试函数的含义

主要用来提供测试入口。

这里有2个测试函数。

`test1.py`
```python
def test_func():
    print('这是一个测试函数')


test_func()
```

`test2.py`
```python
def test_func():
    print('这是一个测试函数')


if __name__ == '__main__':
    test_func()
```

下面执行模块导入。

In [1]:
from packages import test1

这是一个测试函数


可以看到，导入test1模块的时候，会在导入后自动运行所有测试函数。  

下面再导入test2模块。

In [2]:
from packages import test2

可以看到，并没有自动运行测试函数test_func。

在导入后运行指定的测试函数。

In [3]:
from packages import test2

test2.test_func()

这是一个测试函数


# 随机数random模块

所谓的随机数是指平均散布在某区间的数字，随机数其实⽤途很⼴，最常⻅的应⽤是设计游戏时可以控制输出结果，赌场的⽼⻁机器就是靠它赚钱。我们将介绍random模块中最有⽤的⼏个⽅法，同时也会分析赌场赚钱的原因。

|函数名称  |说明 |
|---|---|
|randint(x，y) |产生x（含）到y（含）的随机整数 |
|random(） | 产生0（含）到1（不含）的随机浮点数 |
|uniform(x，y) | 产生x（含）到y（不含）的随机浮点数 |
|choice(列表） |可以在列表中随机回传一个元素 |
|shuffe(列表）| 将列表元素重新排列 |
|sample(列表，数量）| 随机回传第2个参数数量的列表元素 |
|seed(x) | x是种子值，未来每次可以产生相同的随机数 |

* randint()

```python
randint(min, max)   # 可以产生 min（含）到 max（含）的整数值
```

* choice()

这个⽅法可以让我们在⼀个列表 (list) 中随机回传⼀个元素。

* shuffle()

这个⽅法可以将列表元素重新排列，如果你欲设计扑克牌(Porker)游戏，在发牌前可以使⽤这个⽅法将牌打乱重新排列。  

将列表元素打乱，很适合⽼师出防⽌作弊的考题。   

例如：如果有50位学⽣，为了避免学⽣偷窥领座的考卷，可以将出好的题⽬处理成列表，然后使⽤ for 循环执⾏ 50 次shuffle()，这样就可以得到 50 份考题相同但是次序不同的考卷。 

* sample()

设计⼤乐透号码，⼤乐透号码是由 6 个 1~49 的数字组成，然后外加⼀个特别号，这个程序会产⽣6个号码以及⼀个特别号。  

* random()

可以随机产⽣ 0.0(含) ~ 1.0 的浮点数。

* seed()

使⽤ random.randint() ⽅法每次产⽣的随机数接不相同。  
在⼈⼯智能应⽤中, 我们希望每次执⾏程序皆可以产⽣相同的随机数做测试，此时可以使⽤ random 模块的 seed(x) ⽅法，其中参数 x 是种⼦值。例如设定 x=5 后，未来每次使⽤随机函数，产⽣随机数时，都可以得到相同的随机数。

### Test01

In [4]:
import random


'''
    1. 内置模块  import / from  ...  import  ...
    2. 自定义模块 (功能层, 业务层, 视图层, 控制器, 网络层, 数据层 ...)
    3. 第三方模块 ① 先下载 pip  ② 导入使用
'''


print(random.randint(1, 10))
print(random.random())  # random() -> x    in the interval [0, 1).
print(random.choice(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']))      # 随机从列表中选一个元素
print(random.sample(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'], 3))
alist = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
random.shuffle(alist)
print(alist)

print('-' * 100)

# 随机数也是一个算法 (种子参数)
random.seed(1)      # current time 就是默认随机对象的生成种子
for i in range(10):
    n = random.randint(1, 100)
    print(n)

4
0.6077043624322047
c
['g', 'f', 'b']
['f', 'c', 'a', 'h', 'd', 'g', 'b', 'e']
----------------------------------------------------------------------------------------------------
18
73
98
9
33
16
64
98
58
61


# 数学计算模块 - math

在math模块中包含数学运算相关的函数，例如指数，对数，平⽅根和三⻆函数等。

## Test02

In [5]:
import math

# 数学 : 无所用, 无所不用.
# 爬虫技术 : 用不到数学

x = 1.1
r = math.ceil(x) # 向上取整
print(r)
print('math.floor(x) = ', math.floor(x)) # 向下取整
print('math.pi = ', math.pi) # 3.14
print('math.e = ', math.e)
print('math.tau = ', math.tau) # 6.28
print('math.pow(2, 3) = ', math.pow(2, 3))
print('math.log(8, 2) = ', math.log(8, 2))


# 最大公约数   gcd
print(math.gcd(40, 104))            # 8

# 最小公倍数  lcm
print(math.lcm(40, 104))        # 520

# 阶乘
print(math.factorial(5))        # 120

print(math.e)
print(math.pi)
print(math.tau)  # tau 是一个圆周常数，等于2π，即圆的周长与半径之比

2
math.floor(x) =  1
math.pi =  3.141592653589793
math.e =  2.718281828459045
math.tau =  6.283185307179586
math.pow(2, 3) =  8.0
math.log(8, 2) =  3.0
8
520
120
2.718281828459045
3.141592653589793
6.283185307179586


⼀般赌场的机器可以⽤随机数控制输赢。  

例如：某个猜⼤⼩机器，⼀般⼈以为猜对概率是 50%，但是只要控制随机数，赌场可以你直接控制输赢⽐例。  

这是⼀个猜⼤⼩的游戏，程序执⾏前可以设定庄家的输赢⽐例，程序会⽴即回应是否猜对。  

### Test03

In [6]:
# import random


# 提前设置的
win_percent = int(input('请输入庄家赢率: '))     # 80

for i in range(3):
    # 猜大猜小游戏
    guess = input('请输入你猜测的大小: 1(大) 0(小)')

    # 随机数
    n = random.randint(1, 100)
    if n > win_percent:
        print('猜对了')
    else:
        print('猜错了')

请输入庄家赢率:  1
请输入你猜测的大小: 1(大) 0(小) 1


猜对了


请输入你猜测的大小: 1(大) 0(小) 0


猜对了


请输入你猜测的大小: 1(大) 0(小) 1


猜对了


# 时间time模块

程序设计时⻓需要时间信息。  
例如：计算某段程序执⾏所需时间或是获得⽬前系统时间。   

|函数名称 | 说明 |
|:---:|---|
|time()  |可以回传自1970年1月1日00:00:00AM以来的秒数 |
|sleep(n)  | 可以让工作暂停n秒 |
|asctime(） | 列出可以阅读的目前系统时间  |
|localtime(）  | 可以返回目前时间的结构数据  |
|ctime(）  | 与localtime()相同，不过回传的是字符串  |
| clock(） | 取得程序执行的时间（旧版，未来不建议使用） |
|process_time(） | 取得程序执行的时间（新版）  |

* sleep()

sleep() ⽅法可以让⼯作暂停，这个⽅法的参数单位是秒，这个⽅法对于设计动画⾮常有帮助。  

* localtime()

这个⽅法可以返回⽇期与时间的元组（tuple）结构数据，所返回的结构可以⽤索引⽅式获得个别内容。  

|索引 | 名称  | 说明 |
|:---:|:---:|---|
|0 | tm_year | 公元的年，例如：2020 |
|1 | tm_mon  | 月份，值在1～12  |
|2 | tm_mday | 日期，值在1～31  |
|3 | tm_hour | 小时，值在0～23  | 
|4 | tm_min  | 分钟，值在0～59 |
|5 | tm_sec  | 秒钟，值在0～59 | 
|6 | tm_wday | 星期几的设定，0代表星期一，1代表星期2  |
|7 | tm_yday | 代表这是一年中的第几天  | 
|8 | tm_isdst | 夏令时间的设定，0代表不是，1代表是 |

### Test04

In [7]:
import time

# date, time, datetime, timedelta
# delta 一点点间隔

# 1742995028.6489778  时间戳  (1970年1月1日 00:00:00)
print(time.time())

# time.struct_time(tm_year=2025, tm_mon=3, tm_mday=26, tm_hour=21, tm_min=19, tm_sec=52, tm_wday=2, tm_yday=85, tm_isdst=0)
print(time.localtime())

# %Y-%m-%d %H:%M:%S   pattern 时间格式化模式
# string format time 字符串格式化时间对象
chinese_time = time.strftime('%Y年%m月%d日 %H:%M:%S', time.localtime())
print(chinese_time, type(chinese_time))


for i in range(3):
    time.sleep(1)       # 让程序休眠 1 秒钟
    print('上课啦...')


print('-' * 50)

# 第一个 datetime 是模块的名称   第二个 datetime 才是真正的类名
# import datetime
# now = datetime.datetime.now()
# print(now)

from datetime import datetime, timedelta

# 今天
now = datetime.now()
print(now, type(now))

# 明天
# print(timedelta(days=1), type(timedelta(days=1)))
# now + 1     # datetime + int   错误的类型
tomorrow = now + timedelta(days=1)     # datetime + datetime.timedelta     正确的类型
print(tomorrow)

# 昨天
yesterday = now - timedelta(days=1)
print(yesterday)


# 5 个小时之后
now = now + timedelta(hours=5)
print(now)

1745554048.428302
time.struct_time(tm_year=2025, tm_mon=4, tm_mday=25, tm_hour=4, tm_min=7, tm_sec=28, tm_wday=4, tm_yday=115, tm_isdst=0)
2025年04月25日 04:07:28 <class 'str'>
上课啦...
上课啦...
上课啦...
--------------------------------------------------
2025-04-25 04:07:31.429480 <class 'datetime.datetime'>
2025-04-26 04:07:31.429480
2025-04-24 04:07:31.429480
2025-04-25 09:07:31.429480


# datetime⽇期时间模块

1. datetime : 包含时间和⽇期
2. date : 只包含⽇期
3. time : 只包含时间
4. timedelta : 计算时间跨度
5. tzinfo : 时区信息

|参数 |说明  | 取值范围 |
|:---:|---|---|
|year | 年，不可以省略  | datetime.MINYEAR <= year <= datetime.MAXYEAR |
|month | 月，不可以省略 | 1 <= month <= 12 |
|day  | 日，不可以省略 | 1 <= day <= 给定年份和月份，这是该月的最大天数  |
| hour | 小时，可以省略 | 0<= hour < 24  |
|minute | 分钟，可以省略 | 0 <= minute < 60 |
| second | 秒，可以省略 | 0 <= second < 60  |
|microsecond | 微秒，可以省路 | 0 <= microsecond < 100  |
|tzinfo | 时区 | 无 |

## now() 

datetime模块内有⼀个数据类型 datetime，可以⽤它代表⼀个特定时间，有⼀个 now() ⽅法可以列出现在时间。  
属性 year，month，day，hour，minute，second，microsecond(百万分之⼀秒)，获得上述时间的个别内容。

## 设定特定时间

当你了解了获得现在时间的⽅式后，其实可以⽤下列⽅法设定⼀个特定时间。

```python
xtime = datetime.datetime(年，月，日，时，分，秒）
```

In [8]:
# 导⼊⽅式
# datetime 模块的名称, datetime 类的名称
from datetime import datetime
import time 

# 未来的时间
my_time = datetime(year=2025, month=4, day=15, hour=1, minute=3, second=0)
while datetime.now() < my_time:
    time.sleep(1)
    print('sleeping...')

print('wake up ...')

wake up ...


## ⼀段时间 timedelta

这是 datetime 的数据类型，代表的是⼀段时间，可以⽤下列⽅式指定⼀段时间。  
其中的所有参数都可以为整数或浮点数，也可以为正数或负数。  

|参数 | 说明 |
|:---:|---|
|day  |天  |
|second  | 秒  |
|microsecond  | 微秒  |
|milliseconds  | 毫秒  |
|minute  | 分钟  |
|hour  | 小时  |
|weeks  | 周 |

## ⽇期与⼀段时间相加的应⽤

Python 允许时间相加，例如：想要知道过了 n 天之后的⽇期，可以使⽤这个应⽤。

### Test05

In [9]:
# 导⼊⽅式
# datetime 模块的名称, datetime 类的名称
from datetime import datetime, timedelta

# 不同的类型, 其操作⾏为就不⼀样.

# 现在
# 日期时间 与 字符串 之间的转换问题
now = datetime.now()
print(now, type(now))   # 'datetime.datetime'

# 昨天 datetime - int 类型错误
yesterday = now - timedelta(days=1)
print(yesterday, type(yesterday))

# 明天
tomorrow = now + timedelta(days=1)
print(tomorrow, type(tomorrow))
# 5 ⼩时以前
before = now - timedelta(hours=5)
print(before)
# 100 天以后是哪⼀天 ?
future = now + timedelta(days=100)
print(future)

# 2025-03-26 21:35:58 <class 'str'>
r = now.strftime('%Y-%m-%d %H:%M:%S')       # 日期时间对象.strftime(格式)    将日期时间对象转换为字符串类型的对象
print(r, type(r))


# 字符串对象  ->  日期时间对象
date_str = '2008年08月08日 08:08:08'
r2 = datetime.strptime(date_str, '%Y年%m月%d日 %H:%M:%S')
print(r2, type(r2))

# 需求 : 计算 '2008年08月08日 08:08:08' 8 天之后的日期时间 ?
# date_str + timedelta(days=8)

r2 = r2 + timedelta(days=8)
print(r2, type(r2))

2025-04-25 04:07:32.494122 <class 'datetime.datetime'>
2025-04-24 04:07:32.494122 <class 'datetime.datetime'>
2025-04-26 04:07:32.494122 <class 'datetime.datetime'>
2025-04-24 23:07:32.494122
2025-08-03 04:07:32.494122
2025-04-25 04:07:32 <class 'str'>
2008-08-08 08:08:08 <class 'datetime.datetime'>
2008-08-16 08:08:08 <class 'datetime.datetime'>


当然利⽤上述⽅法也可以推算 100 天前是⼏⽉⼏号。

## 将 datetime 对象转成字符串

将⽇期时间与字符串相互转换：我们经常会遇到将⽇期时间与字符串相互转换的情况。  

1. 将⽇期时间对象转换为字符串时，称之为⽇期时间格式化，在Python中使⽤strftime()⽅法进⾏⽇期时间的格式化，在 datetime，date和time三个类种都有⼀个实例⽅法 strftime(from)。
2. 将字符串转换为废弃时间对象的过程，叫做⽇期时间解析，在Python中使⽤`datetime.strptime(date_string, format)`类⽅法进⾏⽇期时间解析。
3. 在 strftime() 和strptime()⽅法中都有⼀个格式化参数 format，⽤来控制⽇期时间的格式，常⽤的⽇期和时间格式控制符如下表所示。

```python
strptime(string, format)
```

string 是要解析的⽇期字符串，format 是该⽇期字符串⽬前格式，下标是⽇期格式参数的意义。

|strftime()参数 | 意义 |
|:---:|---|
| %Y  | 含世纪的年份，例如：'2020' |
| %y  | 不含世纪的年份，例如：'20'代表'2020' |
| %B |  用完整英文代表月份，例如：'January'，代表1月 |
| %b | 用缩写英文代表月份，例如：'Jan'，代表1月 |
| %m | 用数字代表月份，'01' ～ '12' |
| %j | 该年的第几天，'001' ～ '366' |
| %d | 该月的第几天，'01' ～ '31'  |
| %A | 用完整英文代表星期几，例如：'Sunday' 代表星期日 |
| %a | 用缩写英文代表星期几，例如：'Sun' 代表星期日 |
| %w | 用数字代表星期几，'0' 星期日 ～ '6' 星期六 |
| %H | 24小时制，'00' ～ '23'  |
| %I | 12小时制，'01' ～ '12' |
| %M | 分，'00' ～ '59' |
| %S | 秒，'OO' ～ '59' |
| %p | 'AM' 或 'PM' |

In [10]:
from datetime import datetime

now = datetime.now()

# format (pattern) 模式 (年⽉⽇, 时分秒)
# Format using strftime() 格式化
r = now.strftime('%d.%m.%Y %H:%M:%S')
# 10.01.2025 20:43:02
r2 = now.strftime('%Y年%m⽉%d %H:%M:%S')
print(r2)

# new datetime parsed from a string 从⼀个字符串中帮助我们解析⽣成对应的⽇期时间对象
date_string = '2008年08⽉08⽇ 08:08:08' # 从这个字符串中⽣成⼀个⽇期对象

# strptime() 这是⼀个类⽅法
# 类型 -> 类⽅法
r3 = datetime.strptime(date_string, '%Y年%m⽉%d⽇ %H:%M:%S')

# 对象 -> 类型 -> 调⽤类⽅法
# r3 = now.strptime(date_string, '%Y年%m⽉%d⽇ %H:%M:%S')

# 思考 : 为什么要将⼀个字符串类型的时间转换成⽇期时间类型的对象 ???
print(r3, type(r3)) # 类型转换是有意义, 转换完毕后就可以使⽤该类型的数据和⾏为了.

2025年04⽉25 04:07:35
2008-08-08 08:08:08 <class 'datetime.datetime'>


# 模块专题练习

## 蒙特卡洛模拟

我们可以使⽤蒙特卡洛模拟计算 PI 值，⾸先绘制⼀个外接正⽅形的圆，圆的半径是 1。

![](img/mt.jpg)

由上图可以知道矩形⾯积是 4，圆⾯积是 PI，如果我们现在要产⽣ 100 万个落在正⽅形内的点，可以由下列公式计算点落在园内的概率。  

圆面积/矩形面积=PI/4  
落在圆内的点个数(Hits) = 1000000 * PI / 4  
如果落在圆内的点个数用Hits代替，则可以使用下列方式计算PI。  
PI = 4 * Hits / 1000000

### Test06

In [11]:
import random


# 10 亿 billion
# loop = 1_000_000_000

# 百万 million
loop = 10_000_000            # 千, 百万, 十亿
hits = 0

for i in range(loop):
    # x in random.random()  ->  [0, 1) 是一个浮点数
    x = random.random() * 2 - 1     # [-1, 1)
    # y
    y = random.random() * 2 - 1     # [-1, 1)
    # 判断
    if x ** 2 + y ** 2 <= 1:   # (x, y) 点是否在半径为 1 的圆内
        # 采样数
        hits += 1           


pi = hits / loop * 4
# 100万次 : pi = 3.14252   pi = 3.139784   pi = 3.142276
# 500万次 : pi = 3.141828
# 1000万次 : pi = 3.1417316
print(f'{pi = }')

pi = 3.1411888


## 冒泡排序

### Test07

In [12]:
import random
import time


# 冒泡排序
def bubbleSort(arr: list):
    for i in range(1, len(arr)):    # 外层只需执行 len() - 1 趟
        for j in range(0, len(arr)-i):  # 内层每次从0下标开始, 最后的元素已经排好序, 逐一缩减比较次数即可
            if arr[j] > arr[j+1]:   # 如果发现前面的元素大于后面的元素, 就需要执行交换
                arr[j], arr[j + 1] = arr[j + 1], arr[j]


# 生成范围 [1~10000] 的 10000 个随机整型数据
books = [random.randint(1, 10000) for _ in range(10000)]
print(books, f'{len(books) = }')

start_time = time.time()
# 冒泡排序
bubbleSort(books)
end_time = time.time()
print(books)
print(f'总耗时: {end_time - start_time}s')

[6193, 5006, 4521, 6662, 1869, 4833, 4459, 1355, 2654, 7423, 6725, 4899, 6631, 2589, 2937, 2561, 6495, 3616, 1552, 7694, 6587, 8539, 1040, 710, 6920, 9077, 4536, 8837, 3833, 2143, 6050, 8155, 4556, 1559, 1835, 9869, 5181, 1632, 9272, 1828, 2416, 9869, 9087, 1909, 4578, 6649, 1727, 2956, 8620, 1153, 1598, 433, 5805, 4013, 5345, 9724, 2981, 2112, 1780, 9262, 7441, 7557, 7589, 4362, 4410, 5156, 5784, 5585, 6697, 868, 8488, 7584, 5444, 6931, 8617, 480, 5319, 6369, 6530, 4877, 8454, 5123, 113, 2991, 2333, 8141, 2996, 6564, 6374, 4860, 311, 5652, 1501, 3740, 1527, 1156, 7493, 8307, 4375, 3561, 684, 2667, 5698, 4332, 5691, 6426, 6530, 6398, 1208, 933, 6896, 8377, 4484, 6022, 4655, 6006, 5011, 9760, 2749, 838, 8847, 9565, 8415, 6707, 5582, 3470, 6116, 3533, 2085, 6009, 8172, 7239, 4400, 5778, 8601, 8816, 4503, 3483, 4789, 7358, 4950, 3053, 314, 1884, 5569, 6020, 2864, 8317, 1465, 4190, 6424, 1586, 3286, 898, 7586, 2225, 5628, 6806, 7501, 793, 3750, 4205, 4358, 267, 3009, 3106, 173, 2982, 7645,

## 归并排序

### Test08

In [13]:
import random
import time


def mergeSort(alist: list, left: int, right: int, temp: list):
    if left < right:
        # 中间索引
        mid = (left + right) // 2
        # 向左递归进行分解
        mergeSort(alist, left, mid, temp)
        # 向右递归进行分解
        mergeSort(alist, mid+1, right, temp)
        # 开始合并
        merge(alist, left, mid, right, temp)


def merge(alist: list, left: int, mid: int, right: int, temp: list):
    # 初始化 i, 左边有序序列的初始索引
    i = left
    # 初始化 j, 右边有序序列的初始索引
    j = mid + 1
    # 指向 temp 数组的当前索引
    t = 0

    # 1. 先把左右两边(有序)的数据按照规则填充到 temp 数组, 直到左右两边的有序序列有一边处理完毕为止
    while i <= mid and j <= right:
        # 左边有序序列的元素小于等于右边有序序列的当前元素
        if alist[i] <= alist[j]:
            temp[t] = alist[i]
            i += 1
            t += 1
        else:
            # 反之, 将右边有序序列的当前元素, 填充到 temp 数组中
            temp[t] = alist[j]
            j += 1
            t += 1
    # 2. 将剩余一遍的所有数据填充到 temp 数组中
    while i <= mid:
        # 左边的有序序列还有剩余的数据
        temp[t] = alist[i]
        i += 1
        t += 1

    while j <= right:
        # 右边的有序序列还有剩余的数据
        temp[t] = alist[j]
        j += 1
        t += 1
    # 3. 将 temp 数值中的所有元素拷贝到 alist 数组中
    # 注意 : 并不是每次都是拷贝所有元素
    t = 0
    # print(f'{left = }, {right = }')
    while left <= right:
        alist[left] = temp[t]
        left += 1
        t += 1


# 生成范围 [1~10000] 的 10000 个随机整型数据
books = [random.randint(1, 10000) for _ in range(10000)]
print(books, f'{len(books) = }')

start_time = time.time()
# 归并排序
temp = [0 for _ in range(len(books))]
mergeSort(books, 0, len(books) - 1, temp)
end_time = time.time()
print(books)
print(f'总耗时: {end_time - start_time}s')

[6718, 6206, 5003, 3903, 9171, 9099, 1792, 7778, 9679, 384, 2097, 6470, 4381, 7918, 3623, 7999, 957, 7421, 2759, 4557, 4232, 1645, 4203, 9333, 1830, 8682, 9056, 6626, 8912, 9648, 4851, 9906, 7437, 6403, 5306, 3704, 9595, 9712, 6919, 4978, 7382, 1464, 9227, 1929, 4765, 7165, 7905, 6911, 8487, 2668, 4663, 3398, 525, 886, 450, 4451, 7913, 600, 5359, 4683, 9091, 2255, 6662, 8389, 1603, 9537, 7368, 8138, 6262, 270, 3483, 2, 5605, 6588, 8078, 2656, 6876, 2339, 2415, 3938, 3560, 2026, 6784, 5771, 197, 6868, 3239, 5860, 3819, 4864, 4598, 7344, 1076, 3518, 3569, 2325, 9629, 2917, 7368, 7411, 1682, 69, 1894, 997, 3393, 4616, 4289, 827, 9140, 7740, 7372, 2197, 6445, 1641, 2323, 5114, 5134, 8512, 2604, 7686, 9323, 2396, 126, 2225, 226, 9322, 1072, 4110, 4578, 9942, 5535, 4968, 1274, 2233, 1496, 3648, 6085, 8941, 7311, 3882, 19, 6413, 9783, 5138, 865, 1348, 1901, 3019, 6405, 1827, 9884, 4569, 9683, 6110, 7202, 6080, 4083, 9680, 669, 7005, 8247, 6829, 7733, 9616, 8780, 6816, 4211, 5613, 8352, 2933, 

## ⽂件加密

有⼀个模块string，这个模块有⼀个属性是 printabe 这个属性可以列出所有 ASCII 的可以打印字符。  
在上述字符中，最后⼏个是逸出字符，在做编码加密时可以将这些字符排除。  

In [14]:
# 1. 古典
# 置换加密 (凯撒密码)  shift = 3
# a -> d   b -> e   c -> f

# 2. 近现代 ( 模仿游戏 -> 主人公: 图灵 )
# 谍战片 (电文)   密码本

# 3. 现代密码学 (数学)
# 思考 : 什么叫做密码???   网络公开的环境中保证数据的安全性. 加密方式是公开的.
# Do you love me? Would you merry me?   md5 sha-1 RSA ...

# 明文 plain_text
# 密文 cipher
# 加密 encrypt  /  encryption
# 解密 decrypt  /  decryption
# 编码 encode
# 解码 decode

### Test09-printable[:-5]

In [15]:
import string       # 字符串内置模块 (字符常量)


'''
whitespace = ' \t\n\r\v\f'                              空格
ascii_lowercase = 'abcdefghijklmnopqrstuvwxyz'              ascii 小写字母
ascii_uppercase = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'              大写字母
ascii_letters = ascii_lowercase + ascii_uppercase           英文字符
digits = '0123456789'                                       数字字符
hexdigits = digits + 'abcdef' + 'ABCDEF'                    十六进制的字符
octdigits = '01234567'                                      八进制的字符
punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""       特殊字符 (标点符号)
printable = digits + ascii_letters + punctuation + whitespace   可打印字符
'''

# 输出所有可打印字符
print(string.printable[:-5])

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 


设计⼀个加密函数，然后为字符串执⾏加密。

设计⼀个加密函数，然后为字符串执⾏加密。

### Test10

In [16]:
import string


# 获取密码本
def get_encrypt_dict():
    # 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
    abc = string.printable[:-5]
    # }~ 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|
    sub_abc = abc[-3:] + abc[:-3]  # 置换效果 (凯撒密码)
    # 映射关系
    encrypt_dict = dict(zip(abc, sub_abc))
    return encrypt_dict     # 加密的密码本


# 获取密码本
def get_decrypt_dict():
    abc = string.printable[:-5]
    sub_abc = abc[-3:] + abc[:-3]    # 置换效果 (凯撒密码)
    # 映射关系反转
    decrypt_dict = dict(zip(sub_abc, abc))
    return decrypt_dict


# 加密
def encrypt(plain_text, encrypt_dict):
    cipher = []
    # character 字符
    for c in plain_text:
        v = encrypt_dict[c]
        cipher.append(v)
    return ''.join(cipher)


# 解密
def decrypt(cipher_text, decrypt_dict):
    plain_text = []
    for c in cipher_text:
        v = decrypt_dict[c]
        plain_text.append(v)
    return ''.join(plain_text)


# 明文
plain_text = 'If you love me, kill me.'
# 密码本 (映射关系)
encrypt_dict = get_encrypt_dict()
print(encrypt_dict)

# 加密 (参数: 明⽂, 密码本)
# 加密 : 参数1 -> 明文   参数2 -> 密码本
cipher = encrypt(plain_text, encrypt_dict)
print(cipher)

# 解密
decrypt_dict = get_decrypt_dict()
decrypt = decrypt(cipher, decrypt_dict)
print(decrypt)

{'0': '}', '1': '~', '2': ' ', '3': '0', '4': '1', '5': '2', '6': '3', '7': '4', '8': '5', '9': '6', 'a': '7', 'b': '8', 'c': '9', 'd': 'a', 'e': 'b', 'f': 'c', 'g': 'd', 'h': 'e', 'i': 'f', 'j': 'g', 'k': 'h', 'l': 'i', 'm': 'j', 'n': 'k', 'o': 'l', 'p': 'm', 'q': 'n', 'r': 'o', 's': 'p', 't': 'q', 'u': 'r', 'v': 's', 'w': 't', 'x': 'u', 'y': 'v', 'z': 'w', 'A': 'x', 'B': 'y', 'C': 'z', 'D': 'A', 'E': 'B', 'F': 'C', 'G': 'D', 'H': 'E', 'I': 'F', 'J': 'G', 'K': 'H', 'L': 'I', 'M': 'J', 'N': 'K', 'O': 'L', 'P': 'M', 'Q': 'N', 'R': 'O', 'S': 'P', 'T': 'Q', 'U': 'R', 'V': 'S', 'W': 'T', 'X': 'U', 'Y': 'V', 'Z': 'W', '!': 'X', '"': 'Y', '#': 'Z', '$': '!', '%': '"', '&': '#', "'": '$', '(': '%', ')': '&', '*': "'", '+': '(', ',': ')', '-': '*', '.': '+', '/': ',', ':': '-', ';': '.', '<': '/', '=': ':', '>': ';', '?': '<', '@': '=', '[': '>', '\\': '?', ']': '@', '^': '[', '_': '\\', '`': ']', '{': '^', '|': '_', '}': '`', '~': '{', ' ': '|'}
Fc|vlr|ilsb|jb)|hfii|jb+
If you love me, kill m

可以加密就可以解密，解密的字典基本上是将加密字典键与值对调即可。

# ⾃定义模块

## 1.模块 module

我们之前介绍了函数和类，其实在⼤型程序设计中，每个⼈可能只负责⼀⼩块功能的函数或类设计。  
为了以让团队的其他⼈互相分享设计成果，最后每个⼈所负责的功能函数或类将存储在模块（module）中。  
然后供团队其它成员使⽤，在⽹络上或国外的的技术⽂件中常将模块（module）称为套件（package），意义是⼀样的。  

我们将讲解如何将⾃⼰所设计的函数或类存储成模块然后加以引⽤，也讲解 Python 常⽤的内置模块。   
Python 最⼤的优势是资源免费，因此许多公司使⽤它开发了许多功能强⼤的模块，这些模块称外部模块或第三⽅模块，未来我们会逐步说明使⽤外部模块执⾏更多有意义的⼯作。  

模块是包含 Python 定义和语句的⽂件。其⽂件名是模块名加后缀名 `.py` 。
模块中的定义可以 导⼊ 到其他模块或 *主* 模块 。

**思考：**  模块是什么? 

1. 模块是*⼀个 py ⽂件*，后缀名 .py
2. 模块可以定义函数，类和变量，模块⾥也可能包含可执⾏的代码。  

**思考**：模块的作⽤有哪些？ 

1. 当函数，类和变量很多时，可以很好的进⾏管理。  
2. 开发中，程序可以根据业务需要，把同⼀类型的功能代码，写到⼀个模块⽂件中，即⽅便管理，也⽅便调⽤。  
3. ⼀个模块就是⼀个⼯具包，供程序员开发使⽤，提⾼开发效率。
4. Python ⾃带标准模块库，每个模块可以帮助程序员快速实现相关功能。  

**思考**：为什么要⾃定义模块? 

答：在实际开发中，Python提供的标准库模块不能满⾜开发需求，程序员需要⼀些个性化的模块，就可以进⾏⾃定义模块的实现。  

**说明**：  模块导⼊ - 基本语法

```python 
[from 模块名] import (函数 | 类 | 变量 | *) [as 别名]
```

1. \[ ] 是可选项
2. 可以根据需求, 选择合适的形式进⾏导⼊

### 1.1. 通常我们将模块分成3⼤类

1. 我们⾃⼰建⽴的模块。
2. Python 内建的模块。
3. 外部模块，须使⽤ pip 安装。 

### 1.2. 将⾃建的函数存储在模块中

⼀个⼤型程序⼀定是由许多的函数或类所组成，为了让程序的⼯作可以分⼯以及增加程序的可读性，我们可以将所建的函数或类存储成模块形成的独⽴⽂件，未来再加以引⽤。

#### 1.2.1. 准备⼯作

`makefood.py`

```python
# __all__ 仅对 from makefood import * 导入方式进行约束
__all__ = ["make_icecream", "make_drink"]

# 制作冰激凌的功能
def make_icecream(*toppings):
    # toppings 配料
    print('这个冰激凌的配料如下: ')
    for topping in toppings:
        print('\t', topping)


def make_drink(size, drink):
    print('您点的饮料如下: ')
    print('-----', size.title())
    print('-----', drink.title())



class Person(object):
    pass


# 如果此模块作为主程序运行, 则执行 main 函数代码, 否则不执行
if __name__ == '__main__':
    # 模块开发者可能会测试自己编写的功能
    make_icecream('草莓酱', '葡萄干', '巧克力碎片')
    make_drink('大杯', '卡布奇诺')
```

#### 1.2.2. 应⽤⾃⼰建⽴的函数模块

##### Test11

In [17]:
'''
内置模块 : Python语言提供的功能集合.   math, random, time, datetime, string, IOWrapper ...

自定义模块 : 一个个 .py 文件    Controller.py   View.py   Server.py  network.py ...

第三方模块 : requests, jieba, wordcloud ...
'''

# import random
# random.randint(1, 10)

import packages.makefood


# 模块名.方法名()
packages.makefood.make_icecream('草莓酱', '葡萄干', '巧克力碎片')
packages.makefood.make_drink('大杯', '卡布奇诺')

这个冰激凌的配料如下: 
	 草莓酱
	 葡萄干
	 巧克力碎片
您点的饮料如下: 
----- 大杯
----- 卡布奇诺


#### 1.2.3. 导⼊模块内特定单⼀函数

1. 导⼊模块指定功能
2. 使⽤：因为导⼊了具体函数，类，变量，直接使⽤即可，不需要再带模块名

#### 1.2.4. 导⼊模块内多个函数

1. 导⼊⼀个或多个模块，建议导⼊多个模块时，还是⼀⾏导⼊⼀个模块
2. 使⽤：模块.xx ⽅式来使⽤相关功能，`.` *表示层级关系*，即模块中的 xx
3. import 语句，通常写在⽂件开头

#### 1.2.5. 导⼊模块所有函数

```python
from 模块名 import *
```

##### Test13

In [18]:
from packages.makefood import *      # 将模块中的所有功能都导入


# 重名覆盖
# def make_drink(a, b):
#     print('哈哈哈哈哈....')

make_icecream('草莓酱', '葡萄干', '巧克力碎片')
make_drink('大杯', '卡布奇诺')

这个冰激凌的配料如下: 
	 草莓酱
	 葡萄干
	 巧克力碎片
您点的饮料如下: 
----- 大杯
----- 卡布奇诺


#### 1.2.6. 使⽤ as 给函数指定替代名称

有时候会碰上所设计程序的函数名称与模块内的函数名称相同，或是感觉模块的函数名称太⻓，此时可以⾃⾏给模块的函数名称设置⼀个替代名称，未来可以使⽤这个替代名称代替原先模块的名称。

##### Test14

In [19]:
import packages.makefood as m        # 比较常见

# import turtle as t
# import numpy as n


m.make_icecream('草莓酱', '葡萄干', '巧克力碎片')
m.make_drink('大杯', '卡布奇诺')

这个冰激凌的配料如下: 
	 草莓酱
	 葡萄干
	 巧克力碎片
您点的饮料如下: 
----- 大杯
----- 卡布奇诺


#### 1.2.7. 使⽤ as 给模块指定替代名称

```python
import 模块 as 别名
from 模块 import 函数 | 类 | 变量 ... as 别名
```

#### 1.2.8. 将主程序放在 `__name__` 搭配的好处

**思考：**  如何解决导⼊模块⽂件，会执⾏测试代码的情况?  

答：如果我们并不希望导⼊模块时，`__name__` 会被设为模块的名称，如果直接执⾏ `__name__` 会被设置为 `__main__` ，如果当前⽂件的 `__name__` 的值为 `__main__` 才执⾏。

* 使⽤`__name__`可以避免模块中测试代码的执⾏
* 如果模块是在最⾼层代码环境中执⾏的，则它的 `__name__` 会被设为字符串 `__main__`

为了不希望将此程序当成模块被引⽤时，执⾏主程序的内容，所以将此程序的主程序部分删除，另外建⽴了 makefood 程序，其实我们可以将主程序部分使⽤下列⽅式设计，未来直接导⼊模块，不⽤改写程序。

#### Test15

In [20]:
# 导入需要使用的模块
import packages.makefood


# 主函数
if __name__ == '__main__':
    print('hello world')

hello world


上述表示，如果⾃⼰独⽴执⾏会去调⽤main的内容，如果这个程序被当作模块应⽤，则不执⾏ main 函数。

#### 1.2.9. \_\_all__ 的使⽤

使⽤ \_\_all__ 可以控制 `from 模板 import *` 时，哪些功能被导⼊。  

注意：**import 模块** ⽅式，不受 \_\_all__ 的限制。

##### Test12

In [21]:
# 导⼊的格式 : [from 模块名] import (函数 | 类 | 变量 | *) [as 别名]
# [] 表示可选项

# import ⽂件夹名.模块名
import packages.makefood

# 使⽤⽅式
packages.makefood.make_icecream('草莓酱', '葡萄⼲', '巧克⼒碎⽚')
packages.makefood.make_drink('⼤杯', '卡布奇诺')

这个冰激凌的配料如下: 
	 草莓酱
	 葡萄⼲
	 巧克⼒碎⽚
您点的饮料如下: 
----- ⼤杯
----- 卡布奇诺


In [22]:
# 导⼊的格式 : [from 模块名] import (函数 | 类 | 变量 | *) [as 别名]
# [] 表示可选项

from packages.makefood import make_icecream, make_drink

# 隐患 : 如果定义的函数与导⼊的函数名称⼀致, 优先调⽤本模块
def make_icecream(*args):
    print('哈哈哈...')

# 优点 : 使⽤⽅式 (简单)
make_icecream('草莓酱', '葡萄⼲', '巧克⼒碎⽚')
make_drink('⼤杯', '卡布奇诺')

哈哈哈...
您点的饮料如下: 
----- ⼤杯
----- 卡布奇诺


In [23]:
# 导⼊的格式 : [from 模块名] import (函数 | 类 | 变量 | *) [as 别名]
# [] 表示可选项

from packages.makefood import *         # 结论 : 不推荐使⽤

# 隐患 : 如果定义的函数与导⼊的函数名称⼀致, 优先调⽤本模块
def make_icecream(*args):
    print('哈哈哈...')

# 优点 : 使⽤⽅式 (简单)
make_icecream('草莓酱', '葡萄⼲', '巧克⼒碎⽚')
make_drink('⼤杯', '卡布奇诺')

哈哈哈...
您点的饮料如下: 
----- ⼤杯
----- 卡布奇诺


In [24]:
# 导⼊的格式 : [from 模块名] import (函数 | 类 | 变量 | *) [as 别名]
# [] 表示可选项

from packages import makefood

# def makefood(*args):
# print('.....')

# 优点 : 使⽤⽅式 (简单)
makefood.make_icecream('草莓酱', '葡萄⼲', '巧克⼒碎⽚')
makefood.make_drink('⼤杯', '卡布奇诺')

这个冰激凌的配料如下: 
	 草莓酱
	 葡萄⼲
	 巧克⼒碎⽚
您点的饮料如下: 
----- ⼤杯
----- 卡布奇诺


In [25]:
# 导⼊的格式 : [from 模块名] import (函数 | 类 | 变量 | *) [as 别名]
# [] 表示可选项

from packages import makefood as m

# def makefood(*args):
# print('.....')

# 优点 : 使⽤⽅式 (简单)
m.make_icecream('草莓酱', '葡萄⼲', '巧克⼒碎⽚')
m.make_drink('⼤杯', '卡布奇诺')

这个冰激凌的配料如下: 
	 草莓酱
	 葡萄⼲
	 巧克⼒碎⽚
您点的饮料如下: 
----- ⼤杯
----- 卡布奇诺


In [26]:
# 导⼊⽅式
from packages.makefood import *

make_icecream('草莓酱', '葡萄⼲', '巧克⼒碎⽚')
make_drink('⼤杯', '卡布奇诺')       # __all__ 全局变量中没有定义该函数

这个冰激凌的配料如下: 
	 草莓酱
	 葡萄⼲
	 巧克⼒碎⽚
您点的饮料如下: 
----- ⼤杯
----- 卡布奇诺


In [27]:
# Python 语⾔不建议这要导⼊
# from module1.makefood import make_icecream as mi, make_drink as md

# Python 语⾔推荐导⼊的⽅式
from packages.makefood import make_icecream as mi
from packages.makefood import make_drink as md


if __name__ == '__main__':
    # 使⽤
    mi('草莓酱', '葡萄⼲', '巧克⼒碎⽚')
    md('⼤杯', '卡布奇诺')

这个冰激凌的配料如下: 
	 草莓酱
	 葡萄⼲
	 巧克⼒碎⽚
您点的饮料如下: 
----- ⼤杯
----- 卡布奇诺


### 1.3. 将⾃建的类存储在模块内

其实导⼊模块内的类与导⼊模块内的函数概念是⼀致的。  

模块⼩结：⼀个模块在本质上就是⼀个⽂件，在模块中封装了很多代码元素，在实际的项⽬开发过程中，我们避免不了要使⽤别⼈的模块，如果想导⼊所有内容，则使⽤ `import` 语句，如果只是导⼊⼀个元素，则使⽤ `from import` 语句，如果名称有冲突，则使⽤`from import as` 语句。

## 2. 包 package

思考：为什么需要包？  

在⼀个实际的项⽬，可能需要很多个模块，当模块⽂件越来越多，如果我们将所有的模块⽂件都放在同⼀个⽂件夹，就会带来很多问题，不利于管理和调⽤，怎么办？

![](img/m1.jpg)

说明：  

1. 这⾥写了六个模块⽂件，实际上可能有很多的模块⽂件。  
2. 把所有的模块⽂件，都放到⼀个⽬录下，必然造成管理的混乱。  
3. 怎么办? -> 包

![](img/m2.jpg)
![](img/m3.jpg)
![](img/m4.jpg)

说明：

1. 从结上看，包就一个文件夹，在该文件夹下包含了一个`__init__.py`文件
2. 该文件夹可以包念多个模块文件，从逻辑上看包可以视为模块集合


\_\_init__.py ：控制包的导⼊操作  

导⼊：`import 包名.模块`  
使⽤：`包名.模块.功能`

> 包名 = 文件夹名

`module1.py `

```python
def hi():
    print('module1 hi() ...')
```

`module2.py`

```python
def ok():
    print('module2 ok() ...')
```

#### Test16-测试1

In [28]:
import packages.my_package.module1
import packages.my_package.module2


packages.my_package.module1.hi() # 写起来比较麻烦
packages.my_package.module2.ok()

module1 hi() ...
module2 ok() ...


#### Test17-测试2

In [29]:
from packages.my_package import module1
from packages.my_package import module2


module1.hi()
module2.ok()

module1 hi() ...
module2 ok() ...


#### 测试

In [30]:
from packages.my_package.module1 import hi
from packages.my_package.module2 import ok


hi()
ok()

module1 hi() ...
module2 ok() ...


### 2.1. __init__.py ⽂件

```python
# 导⼊⽅式

from 包 import * 
```

说明 : 该⽅式需要配合包的 `__init__.py` ⽂件实现配置, 使⽤ `__all__ = ["模块1", "模块2", …]` 参数

`__init__.py`

```python
# 约束 import * 的导⼊⽅式
# __all__ = ['module1', 'module2']
__all__ = ['module1']
```

#### Test18

In [31]:
from packages.my_package import *

module1.hi()
# module2.ok() 报错, 查看包中的 init ⽂件

module1 hi() ...


### 2.2. 包可以有多个层级

1. 包下还可以再创建包
2. 在使⽤时, 通过点来确定层级关系

### 2.3. 导包的快捷键

1. alt + enter 提示你选择解决⽅案  
2. alter + shift + enter 直接导⼊

# 第三⽅模块

看⻅更⼤的 Python 世界 -> 60万个第三⽅库（需要梯子） https://pypi.org/

![](img/pypi.jpg)

In [32]:
# 这是 Python 语⾔标准的请求库
import urllib.request

# 请求成功了
url = 'https://www.baidu.com/'
response = urllib.request.urlopen(url)
result = response.read().decode('utf-8')

# 第三⽅模块就是简化了我们的代码编写 (封装了⼀些功能)
# requests.get() 底层的细节被隐藏了, 这对于初学者来说是不好的

print(result)

URLError: <urlopen error [Errno -3] Temporary failure in name resolution>

In [None]:
# 第三⽅库⼀定要先下载, 再导⼊
import requests

## 说下 pip 使⽤⼊⻔指南

熟练使⽤pip可以更⽅便的管理Python第三⽅库。

### pip是什么

不免俗套的要先介绍⼀下，pip是Python的第三⽅包（库）管理器，Python有内置的标准库，在你安装完Python后这些标准库都已默认安装好了，但是还有很多有⽤的Pyhon库不是内置安装的，
我们叫这些库为第三⽅库，要通过pip来安装和管理第三⽅库，还会管理库之间的依赖(dependency)关系。  

举例：

Python的默认⽹络请求库是urllib，在Python安装的时候就已经是⾃带的，我们叫着这种为内置库，或标准库。  
但是有更好⽤的⽹络请求库：requests，它需要额外安装，⽐如使⽤ `pip install requests`   

命令来安装，这种需要额外安装的库就叫做第三⽅库。pip就是来安装和管理第三⽅库的。  

下⾯说的软件包都指代第三⽅库。  

题外话：  

不是所有的第三⽅Python包都能通过pip来安装，只能是发布在pypi.org上⾯的才能通过pip安装。

### pypi⼜是什么？

pypi是⼀个仓库，上⾯存放了⼤量的Python第三⽅软件包，是由Python官⽅社区维护。只要遵守pypi的规则，所有开发者都可以把⾃⼰开发的Python软件包发布在pypi上，供其他⼈下载使⽤。 

我们通过：`pip install requests`

命令安装requests库时，其实就是pip从pypi上⾯下载下来进⾏安装的。  
刚才说了不是所有的Python第三⽅库都能⽤pip安装，只有发布在pypi上的才能⽤pip。  
还有很多开发者只把⾃⼰的Python软件发布在github上的（有的在pypi和github上都会发布），这种就需要你在github上把源代码下载下来进⾏安装。  

从Pyhon3.4以后pip都默认跟着Python⼀块安装的。你可以使⽤如下命令来检查pip是否安装和pip的版本号： `pip --version` 

pip有哪些命令可以使⽤，可以使⽤ `pip help` 命令来查看：

```
$ pip help

Usage:   
  pip <command> [options]

Commands:
  install                     Install packages.
  download                    Download packages.
  uninstall                   Uninstall packages.
  freeze                      Output installed packages in requirements format.
  inspect                     Inspect the python environment.
  list                        List installed packages.
  show                        Show information about installed packages.
  check                       Verify installed packages have compatible dependencies.
  config                      Manage local and global configuration.
  search                      Search PyPI for packages.
  cache                       Inspect and manage pip's wheel cache.
  index                       Inspect information available from package indexes.
  wheel                       Build wheels from your requirements.
  hash                        Compute hashes of package archives.
  completion                  A helper command used for command completion.
  debug                       Show information useful for debugging.
  help                        Show help for commands.
```

如上图有：  

pip install 安装软件包  
pip download 只下载软件包不安装 
pip uninstall 卸载软件包  
pip list 显示已安装了哪些软件包  
pip search 在pypi上模糊搜索软件包等等...  

下⾯就介绍⼏个常⽤的命令

## ⽤pip安装第三⽅包

上⾯已经举例⼦了，如果你知道具体软件包的名字，就直接使⽤ pip install 软件包名进⾏安装，这样会安装该软件的最新版本。  

同时pip会计算该软件的依赖包，如果没有冲突，就会⼀并把该软件包的依赖包⼀起安装了。  

**思考**：什么是依赖？  

就是⼀个软件要依赖另⼀个软件的功能才能运⾏，必须要把相关的依赖包都安装了，才能愉快的使⽤。

我们拿安装requests库来举例。  

![](img/req.jpg)  

安装requests时，会向pypi上去查找这个包，然后计算和安装依赖，可以看出requests还依赖chardet、idna、urllib3这些包，所以会⼀并安装。

## pip镜像源安装软件包

在⽤ pip install 安装时，是直接下载 pypi 上的软件，各种原因我们访问国外⽹站有时⽐较慢，可能在安装时会很慢，甚⾄提示超时，安装失败。  

所以国内有公司和⼤学就镜像了pypi，把上⾯的软件包都镜像到国内，通过他们的镜像源安装就会很快。  

⽐较典型的镜像源有：  

* 清华：https://pypi.tuna.tsinghua.edu.cn/simple/
* 阿⾥云：http://mirrors.aliyun.com/pypi/simple/
* 中国科技⼤学：https://mirrors.ustc.edu.cn/pypi/simple/

⽐如使⽤清华⼤学镜像源安装就是：  
```
pip install 软件包名 -i https://pypi.tuna.tsinghua.edu.cn/simple
```
镜像源没法实时做到更新pypi上的软件包，所以有些软件包的版本可能不是最新的。

## pip升级软件包

上⾯提到了软件包不是最新的，就说下⽤pip怎么升级软件包。 
```
pip install upgrade 软件包名
```
**思考**： 为什么要升级软件包呢？  

通常最新版本的软件在性能和功能上都更完善，还可能会解决⼀些⽼版本的bug问题。  

**思考**： 升级软件有什么坏处呢？  

新版本软件接⼝可能会发⽣变化，或者包依赖关系变动太⼤，导致不兼容⽼版本，会导致你的程序运⾏不起来。

## 卸载软件包

使⽤如下卸载命令：   
`pip uninstall 软件包名`   
就可以卸载软件包，卸载软件包之前最好先⽤show命令看⼀下该软件包的被依赖关系，如果其它包依赖你要卸载的软件包，那么你卸载后，其它软件包就没法运⾏了。  
```
pip show 软件包名
```
使⽤`pip show`命令可以查看该包的⼀些信息。⽐如查看requests库的信息： 

```
$ pip show requests

Name: requests
Version: 2.31.0
Summary: Python HTTP for Humans.
Home-page: https://requests.readthedocs.io
Author: Kenneth Reitz
Author-email: me@kennethreitz.org
License: Apache 2.0
Location: /opt/conda/lib/python3.11/site-packages
Requires: certifi, charset-normalizer, idna, urllib3
Required-by: conda, conda_package_streaming, jupyterhub, jupyterlab_server, nbdime, openai, requests-oauthlib, tensorboard, torchvision
```

可以查看该软件包的作者，软件安装路径，依赖的库和被依赖的库等信息。  
要注意看Required-by那⼀项，如果冒号后⾯显示有其他的库，那你卸载requests库就要⼩⼼，因为它被其他库依赖了，卸载的话其他库就会出问题。

## 显示本地软件包

如果我们卸载软件包，忘记该软件包名的全称了呢，可以使⽤list命令： `pip list`  （`pip3 list`）

```
$ pip list
Package                       Version
----------------------------- ------------
absl-py                       2.0.0
aiohappyeyeballs              2.3.5
aiohttp                       3.10.2
aiosignal                     1.3.1
alembic                       1.12.0
altair                        5.1.2
annotated-types               0.7.0
anyio                         4.0.0
argon2-cffi                   23.1.0
argon2-cffi-bindings          21.2.0
arrow                         1.3.0
asttokens                     2.4.0
astunparse                    1.6.3
async-generator               1.10
async-lru                     2.0.4
attrs                         23.1.0
Babel                         2.13.0
backcall                      0.2.0
backports.functools-lru-cache 1.6.5
beautifulsoup4                4.12.2
bleach                        6.1.0
blinker                       1.6.3
bokeh                         3.3.0
boltons                       23.0.0
Bottleneck                    1.3.7
Brotli                        1.1.0
bs4                           0.0.2
```

list命令显示本地所有安装的第三⽅库和相应的版本号，这时就可以查看完整的软件包名是怎么写的。  

当然python的包管理⼯具也不只有pip，还有Conda、Pipenv、Poetry等，哪个⽤得熟练就⽤那个。

## python常⽤第三⽅库总结

Python语⾔有近60万个第三⽅库，覆盖信息技术⼏乎所有领域。下⾯简单介绍下⽹络爬⾍、⾃动化、数据分析与可视化、WEB开发、机器学习和其他常⽤的⼀些第三⽅库，如果有你感兴趣的库，不妨去试试
它的功能吧。

### 网络爬虫

* requests-对HTTP协议进⾏⾼度封装，⽀持⾮常丰富的链接访问功能。
* PySpider-⼀个国⼈编写的强⼤的⽹络爬⾍系统并带有强⼤的WebUI。
* bs4-beautifulsoup4库，⽤于解析和处理HTML和XML。
* Scrapy-很强⼤的爬⾍框架，⽤于抓取⽹站并从其⻚⾯中提取结构化数据。可⽤于从数据挖掘到监控和⾃动化测试的各种⽤途
* Crawley-⾼速爬取对应⽹站的内容，⽀持关系和⾮关系数据库，数据可以导出为JSON、XML等
* Portia-可视化爬取⽹⻚内容
* cola-分布式爬⾍框架
* newspaper-提取新闻、⽂章以及内容分析
* lxml-lxml是python的⼀个解析库，这个库⽀持HTML和xml的解析，⽀持XPath的解析⽅式

### 自动化 

* XlsxWriter-操作Excel⼯作表的⽂字，数字，公式，图表等
* win32com-有关Windows系统操作、Office（Word、Excel等）⽂件读写等的综合应⽤库
* pymysql-操作MySQL数据库
* pymongo-把数据写⼊MongoDB
* smtplib-发送电⼦邮件模块
* selenium-⼀个调⽤浏览器的driver，通过这个库可以直接调⽤浏览器完成某些操作，⽐如输⼊验证码，常⽤来进⾏浏览器的⾃动化⼯作。
* pdfminer-⼀个可以从PDF⽂档中提取各类信息的第三⽅库。与其他PDF相关的⼯具不同，它能够完全获取并分析 PDF 的⽂本数据
* PyPDF2-⼀个能够分割、合并和转换PDF⻚⾯的库。
* openpyxl- ⼀个处理Microsoft Excel⽂档的Python第三⽅库，它⽀持读写Excel的xls、xlsx、xlsm、xltx、xltm。
* python-docx-⼀个处理Microsoft Word⽂档的Python第三⽅库，它⽀持读取、查询以及修改doc、docx等格式⽂件，并能够对Word常⻅样式进⾏编程设置。

### 数据分析及可视化

* matplotlib-Matplotlib 是⼀个 Python 2D 绘图库，可以⽣成各种可⽤于出版品质的硬拷⻉格式和跨平台交互式环境数据。Matplotlib 可⽤于 Python 脚本，Python 和 IPython shell（例如 MATLAB或 Mathematica），Web 应⽤程序服务器和各种图形⽤户界⾯⼯具包。”
* numpy-NumPy 是使⽤ Python 进⾏科学计算所需的基础包。⽤来存储和处理⼤型矩阵，如矩阵运算、⽮量处理、N维数据变换等。
* pyecharts-⽤于⽣成 Echarts 图表的类库
* pandas-⼀个强⼤的分析结构化数据的⼯具集，基于numpy扩展⽽来，提供了⼀批标准的数据模型和⼤量便捷处理数据的函数和⽅法。
* Scipy: 基于Python的matlab实现，旨在实现matlab的所有功能，在numpy库的基础上增加了众多的数学、科学以及⼯程计算中常⽤的库函数。
* Plotly-Plotly提供的图形库可以进⾏在线WEB交互，并提供具有出版品质的图形，⽀持线图、散点图、区域图、条形图、误差条、框图、直⽅图、热图、⼦图、多轴、极坐标图、⽓泡图、玫瑰图、
热⼒图、漏⽃图等众多图形
* wordcloud-词云⽣成器
* jieba-中⽂分词模块

### WEB开发

* Django-⼀个开放源代码的Web应⽤框架，由Python写成。 是Python⽣态中最流⾏的开源Web应⽤框架，Django采⽤模型、模板和视图的编写模式，称为MTV模式。
* Pyramid是⼀个通⽤、开源的Python Web应⽤程序开发框架。它主要的⽬的是让Python开发者更简单的创建Web应⽤，相⽐Django，Pyramid是⼀个相对⼩巧、快速、灵活的开源Python Web框架。
* Tornado-⼀种 Web 服务器软件的开源版本。Tornado和现在的主流Web服务器框架（包括⼤多数Python的框架）有着明显的区别：它是⾮阻塞式服务器，⽽且速度相当快
* Flask是轻量级Web应⽤框架，相⽐Django和Pyramid，它也被称为微框架。使⽤Flask开发Web应⽤⼗分⽅便，甚⾄⼏⾏代码即可建⽴⼀个⼩型⽹站。Flask核⼼⼗分简单，并不直接包含诸如数据库
访问等的抽象访问层，⽽是通过扩展模块形式来⽀持。

### 机器学习

* NLTK-⼀个⾃然语⾔处理的第三⽅库，NLP领域中常⽤，可建⽴词袋模型（单词计数），⽀持词频分析（单词出现次数）、模式识别、关联分析、情感分析（词频分析+度量指标）、可视化
（+matploylib做分析图）等
* TensorFlow-⾕歌的第⼆代机器学习系统，是⼀个使⽤数据流图进⾏数值计算的开源软件库。
* Keras -是⼀个⾼级神经⽹络 API，⽤ Python 编写，能够在 TensorFlow，CNTK 或 Theano 之上运⾏。它旨在实现快速实验，能够以最⼩的延迟把想法变成结果，这是进⾏研究的关键。”
* Caffe-⼀个深度学习框架，主要⽤于计算机视觉，它对图像识别的分类具有很好的应⽤效果
* theano-深度学习库。它与Numpy紧密集成，⽀持GPU计算、单元测试和⾃我验证，为执⾏深度学习中⼤规模神经⽹络算法的运算⽽设计，擅⻓处理多维数组。
* Scikit-learn-是⼀个简单且⾼效的**数据挖掘和数据分析⼯具**，它基于NumPy、SciPy和matplotlib构建。Scikit-learn的基本功能主要包括6个部分：分类，回归，聚类，数据降维，模型选择和数据预处理。Scikit-learn也被称为sklearn。

### 其他应用

* IPython-⼀个基于Python 的交互式shell，⽐默认的Python shell 好⽤得多，⽀持变量⾃动补全、⾃动缩进、交互式帮助、魔法命令、系统命令等，内置了许多很有⽤的功能和函数
* PTVS-Visual Studio 的 Python ⼯具
* pydub-⽀持多种格式声⾳⽂件，可进⾏多种信号处理、信号⽣成、⾳效注册、静⾳处理等
* TimeSide-能够进⾏⾳频分析、成像、转码、流媒体和标签处理的Python框架
* dnspython-DNS⼯具包
* pygame-专为电⼦游戏设计的⼀个模块
* PyQt5-pyqt5是Qt5应⽤框架的Python第三⽅库，编写Python脚本的应⽤界⾯
* PIL(Pillow)-PIL库是Python语⾔在图像处理⽅⾯的重要第三⽅库，⽀持图像存储、显示和处理，它能够处理⼏乎所有图⽚格式，可以完成对图像的缩放、剪裁、叠加以及向图像添加线条、图像和⽂
字等操作
* OpenCV-图像和视频⼯作库
* Py2exe: 将python脚本转换为windows上可以独⽴运⾏的可执⾏程序。
* WeRoBot 是⼀个**微信公众号开发框架**，也称为的微信机器⼈框架。WeRoBot可以解析微信服务器发来的消息，并将消息转换成成Message或者Event类型。

## 第三⽅模块案例

### 英⽂⽂本词频统计

**需求：**  

⼀篇⽂章, 出现了哪些词? 哪些词出现得最多? 该怎么做?  
https://python123.io/resources/pye/hamlet.txt

#### Test19

In [None]:
# 第三方模块   jieba 结巴
# token 最小的分割单位
# 我 是 一个 中国 人 .

import jieba


def main():
    # 示例文本
    text = "结巴分词是一个非常流行的中文分词工具，它能够有效地对中文文本进行分词。"

    # 使用 jieba 进行分词
    words = jieba.lcut(text)

    # 输出分词结果
    print("分词结果：", words)


if __name__ == "__main__":
    main()

#### Test20

In [None]:
# 需要 : 统计词频
import string

# 读取⽂件数据
with open(file='prg_files/hemlet.txt', mode='rt', encoding='utf-8') as f:
    txt = f.read()

# 将⽂本⽂件全部转换为⼩写
# For -> for
txt = txt.lower()

# 去除⽂本⽂件中的所有 标点符号 punctuation
# punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""
for p in string.punctuation:
    # 将标签符号替换为空字符串
    txt = txt.replace(p, '')

# 切割
words = txt.split()

# 遍历 words 列表  映射关系 : the: 50
counts = dict()     # 定义单词与频数的（空）字典
for word in words:
    counts[word] = counts.get(word, 0) + 1

# 问题 : 字典是没有办法排序的
# 解决 : 列表可以排序
items = list(counts.items())
# print(items) # [('the', 1142), ('tragedy', 3), ('of', 669), ('hamlet', 463,) ...]

# 第⼀个参数 key 表示排序的规则, 第⼆个参数 reverse 表示降序排序
items.sort(key=lambda x: x[1], reverse=True)       
# print(items)

# 需求 : 查看前⼗个频率最⾼的单词
for i in range(10):
    item = items[i]
    print(item)

# 格式化
for i in range(10):
 word, count = items[i]
 print(f'{word:<10}{count:>5}')

### 中⽂⽂本词频统计

**需求：** 

三国演义⼈物出场顺序前 20  
https://python123.io/resources/pye/threekingdoms.txt

![](img/ty1.jpg)
![](img/ty2.jpg)

#### Test21

In [None]:
import jieba
from wordcloud import WordCloud

with open(file='prg_files/threekingdoms.txt', mode='rt', encoding='utf-8') as f:
    txt = f.read()


# 使用结巴分词库对文本进行精确分词，返回一个由词语组成的列表
words = jieba.lcut(txt)

counts = dict()     # 定义单词与频数的字典
# for word in words:
#     if len(word) == 1:      # 只有一个字符
#         continue
#     else:
#         counts[word] = counts.get(word, 0) + 1

for word in words:
    if len(word) == 1:      # 只有一个字符
        continue
    elif word in ('诸葛亮', '孔明曰'):
        w = '孔明'
    elif word in ('关公', '云长'):
        w = '关羽'
    elif word in ('玄德', '玄德曰'):
        w = '刘备'
    elif word in ('孟德', '丞相'):
        w = '曹操'
    else:
        w = word
    # 统计每个词语出现的次数
    counts[w] = counts.get(w, 0) + 1

# 排除掉所有非人物名称的词语
# 第一轮排除
# excludes = {'将军', '却说', '二人', '不可', '荆州', '二人', '不能', '如此',
#             '商议', '如何', '主公', '军士', '左右', '军马'}
excludes = {'将军', '却说', '二人', '不可', '荆州', '不能', '如此', '商议',
            '如何', '主公', '军士', '左右', '军马', '引兵', '次日', '大喜', '天下', '东吴', '于是', '今日',
            '不敢', '魏兵', '陛下', '一人', '都督', '人马', '不知', '汉中', '只见', '众将',
            '后主', '蜀兵', '上马', '大叫', '太守', '此人', '夫人', '先主', '后人', '背后',
            '城中', '天子', '一面', '何不', '大军', '忽报', '先生', '百姓', '何故', '然后',
            '先锋', '不如', '赶来', '原来', '令人', '江东', '下马', '喊声', '正是', '徐州',
            '忽然', '因此', '成都', '不见', '未知', '大败', '大事', '之后', '一军', '引军',
            '起兵', '军中', '接应', '进兵', '大惊', '可以', '以为', '大怒', '不得', '心中',
            '下文', '一声', '追赶'}
# 遍历集合
for word in excludes:
    del counts[word]            # 删除字典中的元素


items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)

# 输出前 20个 人物名称
for i in range(20):
    word, count = items[i]
    print('{0:<10} {1:>5}'.format(word, count))

# 生成词云
wordcloud = WordCloud(font_path='prg_files/simhei.ttf', background_color='white',
                      width=1000, height=800, margin=2)
                      # width=1000, height=800, margin=2, max_words=20)
wordcloud.generate_from_frequencies(frequencies=counts)
# 保存词云图片
wordcloud.to_file('prg_files/threekingdoms.jpg')
# wordcloud.to_file('prg_files/threekingdoms1.jpg')

![](prg_files/threekingdoms1.jpg)  

![](prg_files/threekingdoms.jpg)  