# Python进阶学习
>
> 参考资料：
> +  [AILearning](https://ailearning.apachecn.org/#/docs/da/064)
> + [python之platform模块](https://blog.csdn.net/bbwangj/article/details/93652876)
>

python-version: 3.9

In [1]:
import sys

## 一、sys模块

### 命令行参数

`sys.argv` 显示传入的参数：

In [2]:
%%writefile print_args.py
import sys
print(sys.argv)

Writing print_args.py


In [3]:
# 运行它
%run print_args.py yjq 520 mhy

['print_args.py', 'yjq', '520', 'mhy']


第一个参数 （`sys.args[0]`） 表示的始终是执行的文件名，然后依次显示传入的参数。

In [4]:
# 删除生成的文件
import os
os.remove('print_args.py')

### 异常消息

`sys.exc_info()` 可以显示 `Exception` 的信息，返回一个 `(type, value, traceback)` 组成的三元组，可以与 `try/catch` 块一起使用：

In [5]:
try:
    x = 1 / 0
except Exception:
    print(sys.exc_info())

(<class 'ZeroDivisionError'>, ZeroDivisionError('division by zero'), <traceback object at 0x000001E0D08C3780>)


### 标准输入输出流

- `sys.stdin`
- `sys.stdout`
- `sys.stderr`

### 退出Python

`sys.exit(arg=0)` 用于退出 Python。`0` 或者 `None` 表示正常退出，其他值表示异常。

### Python Path

`sys.path` 表示 Python 搜索模块的路径和查找顺序：

In [6]:
sys.path

['d:\\研究生资料\\python-learning\\advanced-learning',
 'd:\\anaconda\\python39.zip',
 'd:\\anaconda\\DLLs',
 'd:\\anaconda\\lib',
 'd:\\anaconda',
 '',
 'C:\\Users\\26969\\AppData\\Roaming\\Python\\Python39\\site-packages',
 'C:\\Users\\26969\\AppData\\Roaming\\Python\\Python39\\site-packages\\win32',
 'C:\\Users\\26969\\AppData\\Roaming\\Python\\Python39\\site-packages\\win32\\lib',
 'C:\\Users\\26969\\AppData\\Roaming\\Python\\Python39\\site-packages\\Pythonwin',
 'd:\\anaconda\\lib\\site-packages',
 'd:\\anaconda\\lib\\site-packages\\win32',
 'd:\\anaconda\\lib\\site-packages\\win32\\lib',
 'd:\\anaconda\\lib\\site-packages\\Pythonwin']

### 操作系统信息

`sys.platform` 显示当前操作系统信息：

- `Windows: win32`
- `Mac OSX: darwin`
- `Linux: linux2`

In [7]:
sys.platform

'win32'

返回 `Windows` 操作系统的版本：

In [8]:
sys.getwindowsversion()

sys.getwindowsversion(major=10, minor=0, build=19044, platform=2, service_pack='')

标准库中有 `platform` 模块提供更详细的信息。

In [9]:
import platform
print("操作系统名称及版本号为: {platform}".format(platform=platform.platform()))
print("操作系统版本号为: {version}".format(version=platform.version()))
print("操作系统位数为: {architecture}".format(architecture=platform.architecture()))
print("计算机类型为: {machine}".format(machine=platform.machine()))
print("计算机的网络名称为: {node}".format(node=platform.node()))
print("计算机处理器信息为: {processor}".format(processor=platform.processor()))
print("上面所有的信息汇总: {uname}".format(uname=platform.uname()))


操作系统名称及版本号为: Windows-10-10.0.19044-SP0
操作系统版本号为: 10.0.19044
操作系统位数为: ('64bit', 'WindowsPE')
计算机类型为: AMD64
计算机的网络名称为: LAPTOP-FJ90A1EQ
计算机处理器信息为: Intel64 Family 6 Model 165 Stepping 2, GenuineIntel
上面所有的信息汇总: uname_result(system='Windows', node='LAPTOP-FJ90A1EQ', release='10', version='10.0.19044', machine='AMD64')


### Python 版本信息

In [10]:
sys.version

'3.9.12 (main, Apr  4 2022, 05:22:27) [MSC v.1916 64 bit (AMD64)]'

In [11]:
sys.version_info

sys.version_info(major=3, minor=9, micro=12, releaselevel='final', serial=0)

## 二、os模块

`os` 模块提供了对系统文件进行操作的方法：

In [12]:
import os

### 文件路径操作

`os` 模块提供了对系统文件进行操作的方法：

- `os.remove(path)` 或 `os.unlink(path)` ：删除指定路径的文件。路径可以是全名，也可以是当前工作目录下的路径。
- `os.removedirs`：删除文件，并删除中间路径中的空文件夹
- `os.chdir(path)`：将当前工作目录改变为指定的路径
- `os.getcwd()`：返回当前的工作目录
- `os.curdir`：表示当前目录的符号
- `os.rename(old, new)`：重命名文件
- `os.renames(old, new)`：重命名文件，如果中间路径的文件夹不存在，则创建文件夹
- `os.listdir(path)`：返回给定目录下的所有文件夹和文件名，不包括 `'.'` 和 `'..'` 以及子文件夹下的目录。（`'.'` 和 `'..'` 分别指当前目录和父目录）
- `os.mkdir(name)`：产生新文件夹
- `os.makedirs(name)`：产生新文件夹，如果中间路径的文件夹不存在，则创建文件夹

In [13]:
# os当前目录
print("当前目录为：", os.getcwd())
print("当前目录的符号为：", os.curdir)
print("当前目录下的文件为：",os.listdir(os.curdir))

当前目录为： d:\研究生资料\python-learning\advanced-learning
当前目录的符号为： .
当前目录下的文件为： ['python进阶学习.ipynb']


In [14]:
# 产生文件
with open("test.file","w") as f:
    print("test.file" in os.listdir(os.curdir))

True


In [15]:
# 重命名文件
os.rename("test.file", "test.new.file")

print("test.file" in os.listdir(os.curdir))
print("test.new.file" in os.listdir(os.curdir))

False
True


In [16]:
# 删除文件
os.remove('test.new.file')

### 系统常量

In [17]:
# 当前操作系统的换行符：
os.linesep
# Linux为'\n'

'\r\n'

In [18]:
# 当前操作系统的路径分隔符
os.sep
# Linux为'/'

'\\'

In [19]:
# 当前操作系统的环境变量中的分隔符
os.pathsep

';'

### 其他

`os.environ` 是一个存储所有环境变量的值的字典，可以修改。

In [20]:
os.environ['HOMEDRIVE']

'C:'

`os.urandom(len)` 返回指定长度的随机字节。

In [21]:
os.urandom(10)

b'\xea\x9b\x8a\x8fE\xfa\x1c&\xc8\xa4'

### os.path 模块

不同的操作系统使用不同的路径规范，这样当我们在不同的操作系统下进行操作时，可能会带来一定的麻烦，而 `os.path` 模块则帮我们解决了这个问题。


In [22]:
import os.path


#### 测试

- `os.path.isfile(path)` ：检测一个路径是否为普通文件
- `os.path.isdir(path)`：检测一个路径是否为文件夹
- `os.path.exists(path)`：检测路径是否存在
- `os.path.isabs(path)`：检测路径是否为绝对路径

#### split 和 join

- `os.path.split(path)`：拆分一个路径为 `(head, tail)` 两部分
- `os.path.join(a, *p)`：使用系统的路径分隔符，将各个部分合成一个路径

#### 其他

- `os.path.abspath()`：返回路径的绝对路径
- `os.path.dirname(path)`：返回路径中的文件夹部分
- `os.path.basename(path)`：返回路径中的文件部分
- `os.path.slitext(path)`：将路径与扩展名分开
- `os.path.expanduser(path)`：展开 `'~'` 和 `'~user'`

## 三、CSV模块

标准库中有自带的 `csv` (逗号分隔值) 模块处理 `csv` 格式的文件：

In [23]:
import csv

### 读取csv文件

In [24]:
%%file data.csv
"alpha 1",  100, -1.443
"beat  3",   12, -0.0934
"gamma 3a", 192, -0.6621
"delta 2a",  15, -4.515

Writing data.csv


开这个文件，并产生一个文件 reader，可以按行迭代数据：

In [25]:
with open('data.csv') as fp:
    r = csv.reader(fp)
    for row in r:
        print(row)

['alpha 1', '  100', ' -1.443']
['beat  3', '   12', ' -0.0934']
['gamma 3a', ' 192', ' -0.6621']
['delta 2a', '  15', ' -4.515']


默认数据内容都被当作字符串处理，不过可以自己进行处理：

In [26]:
data = []

with open('data.csv') as fp:
    r = csv.reader(fp)
    for row in r:
        data.append([row[0], int(row[1]), float(row[2])])

data

[['alpha 1', 100, -1.443],
 ['beat  3', 12, -0.0934],
 ['gamma 3a', 192, -0.6621],
 ['delta 2a', 15, -4.515]]

In [27]:
# 删除
import os
os.remove('data.csv')

### 写csv文件

可以使用 `csv.writer` 写入文件，不过相应地，传入的应该是以写方式打开的文件：

In [28]:
data = [('one', 1, 1.5), ('two', 2, 8.0)]
# newline = ''用来取消换行
with open('out.csv', 'w', newline ='') as fp:
    w = csv.writer(fp)
    w.writerows(data)

![image-20221209114729698](https://note-image-1307786938.cos.ap-beijing.myqcloud.com/typora/image-20221209114729698.png)

In [29]:
import os
os.remove('out.csv')

### 其他选项

`numpy.loadtxt()` 和 `pandas.read_csv()` 可以用来读写包含很多数值数据的 `csv` 文件：

In [30]:
%%file trades.csv
Order,Date,Stock,Quantity,Price
A0001,2013-12-01,AAPL,1000,203.4
A0002,2013-12-01,MSFT,1500,167.5
A0003,2013-12-02,GOOG,1500,167.5

Writing trades.csv


使用 `pandas` 进行处理，生成一个 `DataFrame` 对象：

In [31]:
import pandas
df = pandas.read_csv('trades.csv', index_col=0)
print(df)

             Date Stock  Quantity  Price
Order                                   
A0001  2013-12-01  AAPL      1000  203.4
A0002  2013-12-01  MSFT      1500  167.5
A0003  2013-12-02  GOOG      1500  167.5


通过名字进行索引

In [32]:
df['Quantity'] * df['Price']

Order
A0001    203400.0
A0002    251250.0
A0003    251250.0
dtype: float64

In [33]:
import os
os.remove('trades.csv')

## 四、正则表达式与re模块

### 正则表达式

[正则表达式](http://baike.baidu.com/view/94238.htm)是用来匹配字符串或者子串的一种模式，匹配的字符串可以很具体，也可以很一般化。

`Python` 标准库提供了 `re` 模块。

In [34]:
import re

### re.match & re.search
在 `re` 模块中， `re.match` 和 `re.search` 是常用的两个方法：

```python
re.match(pattern, string[, flags])
re.search(pattern, string[, flags]) 复制ErrorOK!
```

两者都寻找第一个匹配成功的部分，成功则返回一个 `match` 对象，不成功则返回 `None`，不同之处在于 `re.match` 只匹配字符串的开头部分，而 `re.search` 匹配的则是整个字符串中的子串。

### re.findall & re.finditer
`re.findall(pattern, string)` 返回所有匹配的对象， `re.finditer` 则返回一个迭代器。

### re.split

`re.split(pattern, string[, maxsplit])` 按照 `pattern` 指定的内容对字符串进行分割。

### re.sub

`re.sub(pattern, repl, string[, count])` 将 `pattern` 匹配的内容进行替换。

### re.compile

`re.compile(pattern)` 生成一个 `pattern` 对象，这个对象有匹配，替换，分割字符串的方法。

### 正则表达式规则

正则表达式由一些普通字符和一些元字符（metacharacters）组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义：

| 子表达式   | 匹配内容                                           |
| ---------- | -------------------------------------------------- |
| `.`        | 匹配除了换行符之外的内容                           |
| `\w`       | 匹配所有字母和数字字符                             |
| `\d`       | 匹配所有数字，相当于 `[0-9]`                       |
| `\s`       | 匹配空白，相当于 `[\t\n\t\f\v]`                    |
| `\W,\D,\S` | 匹配对应小写字母形式的补                           |
| `[...]`    | 表示可以匹配的集合，支持范围表示如 `a-z`, `0-9` 等 |
| `(...)`    | 表示作为一个整体进行匹配                           |
| `\|`          | 表示逻辑或                                         |
| `^`        | 表示匹配后面的子表达式的补                         |
| `*`        | 表示匹配前面的子表达式 0 次或更多次                |
| `+`        | 表示匹配前面的子表达式 1 次或更多次                |
| `?`        | 表示匹配前面的子表达式 0 次或 1 次                 |
| `{m}`      | 表示匹配前面的子表达式 m 次                        |
| `{m,}`     | 表示匹配前面的子表达式至少 m 次                    |
| `{m,n}`    | 表示匹配前面的子表达式至少 m 次，至多 n 次         |

例如：

- `ca*t 匹配： ct, cat, caaaat, ...`
- `ab\d|ac\d 匹配： ab1, ac9, ...`
- `([^a-q]bd) 匹配： rbd, 5bd, ...`

### 举例说明

In [35]:
string = 'hello world'
pattern = 'hello (\w+)'

match = re.match(pattern, string)
print(match)
# 一旦找到了符合条件的部分
# 我们便可以使用 group 方法查看匹配的部分：
if match:
    print(match.group(0))
    print(match.group(1))

<re.Match object; span=(0, 11), match='hello world'>
hello world
world


通常，`match.group(0)` 匹配整个返回的内容，之后的 `1,2,3,...` 返回规则中每个括号（按照括号的位置排序）匹配的部分。

如果某个 `pattern` 需要反复使用，那么我们可以将它预先编译。


In [36]:
pattern1 = re.compile('hello (\w+)')

match = pattern1.match(string)
if match is not None:
    print(match.group(1))

world


由于元字符的存在，所以对于一些特殊字符，我们需要使用 `'\'` 进行逃逸字符的处理，使用表达式 `'\\'` 来匹配 `'\'` 。

但事实上，`Python` 本身对逃逸字符也是这样处理的：

In [37]:
pattern = '\\'
print(pattern)

\


因为逃逸字符的问题，我们需要使用四个 `'\\\\'` 来匹配一个单独的 `'\\'`：

In [38]:
pattern = '\\\\'
path = "C:\\foo\\bar\\baz.txt"
print(re.split(pattern, path))

['C:', 'foo', 'bar', 'baz.txt']


这样看起来十分麻烦，好在 `Python` 提供了 `raw string` 来忽略对逃逸字符串的处理，从而可以这样进行匹配：

In [39]:
pattern = r'\\'
path = r"C:\foo\bar\baz.txt"
print(re.split(pattern, path))

['C:', 'foo', 'bar', 'baz.txt']


如果规则太多复杂，正则表达式不一定是个好选择。

### Numpy的fromregex()

`fromregex(file, pattern, dtype)`

dtype 中的内容与 pattern 的括号一一对应：

In [40]:
%%file test.dat 
1312 foo
1534    bar
444  qux

Writing test.dat


In [41]:
pattern = "(\d+)\s+(...)"
dt = [('num', 'int64'), ('key', 'S3')]

from numpy import fromregex
output = fromregex('test.dat', pattern, dt)
print(output)
# 显示num项
print(output['num'])

[(1312, b'foo') (1534, b'bar') ( 444, b'qux')]
[1312 1534  444]


In [42]:
import os
os.remove('test.dat')

## 五、datetime模块

In [43]:
import datetime as dt

`datetime` 提供了基础时间和日期的处理。

### datetime格式字符表


| 字符 | 含义                                          |
| ---- | --------------------------------------------- |
| `%a` | 星期英文缩写                                  |
| `%A` | 星期英文                                      |
| `%w` | 一星期的第几天，`[0(sun),6]`                  |
| `%b` | 月份英文缩写                                  |
| `%B` | 月份英文                                      |
| `%d` | 日期，`[01,31]`                               |
| `%H` | 小时，`[00,23]`                               |
| `%I` | 小时，`[01,12]`                               |
| `%j` | 一年的第几天，`[001,366]`                     |
| `%m` | 月份，`[01,12]`                               |
| `%M` | 分钟，`[00,59]`                               |
| `%p` | AM 和 PM                                      |
| `%S` | 秒钟，`[00,61]` （大概是有闰秒的存在）        |
| `%U` | 一年中的第几个星期，星期日为第一天，`[00,53]` |
| `%W` | 一年中的第几个星期，星期一为第一天，`[00,53]` |
| `%y` | 没有世纪的年份                                |
| `%Y` | 完整的年份                                    |

### date对象

可以使用 `date(year, month, day)` 产生一个 `date` 对象：

In [44]:
d1 = dt.date(2007, 9, 25)
d2 = dt.date(2008, 9, 25)
# 格式化date对象的输出
print(d1)
print(d1.strftime('%A, %m/%d/%y'))
print(d1.strftime('%a, %m-%d-%Y'))
# 查看日期差,返回的是一个 timedelta 对象
d = d2 - d1
print("日期差：",d)
print(d.days)
print(d.seconds)
# 查看今天的日期
print("今天的日期：",dt.date.today())

2007-09-25
Tuesday, 09/25/07
Tue, 09-25-2007
日期差： 366 days, 0:00:00
366
0
今天的日期： 2022-12-09


### time对象

可以使用 `time(hour, min, sec, us)` 产生一个 `time` 对象：

In [45]:
t1 = dt.time(15, 38)
t2 = dt.time(18)
# 改变显示格式
print (t1)
print (t1.strftime('%I:%M, %p'))
print (t1.strftime('%H:%M:%S, %p'))

15:38:00
03:38, PM
15:38:00, PM


因为没有具体的日期信息，所以 time 对象不支持减法操作。

### datetime对象

可以使用 `datetime(year, month, day, hr, min, sec, us)` 来创建一个 `datetime` 对象。

In [46]:
d1 = dt.datetime.now()
print (d1)

2022-12-09 15:31:26.462137


给当前的时间加上 `30` 天，`timedelta` 的参数是 `timedelta(day, hr, min, sec, us)`：

In [47]:
d2 = d1 + dt.timedelta(30)
print (d2)

2023-01-08 15:31:26.462137


除此之外，我们还可以通过一些指定格式的字符串来创建 `datetime` 对象：

In [48]:
print (dt.datetime.strptime('2/10/01', '%m/%d/%y'))


2001-02-10 00:00:00


## 六、SQL数据库

`Python` 提供了一系列标准的数据库的 API，这里我们介绍 sqlite 数据库的用法，其他的数据库的用法大同小异：

In [49]:
import sqlite3 as db

连接到一个数据库

In [50]:
connection = db.connect("yjq_db.sqlite")

一旦建立连接，我们可以利用它的 `cursor()` 来执行 SQL 语句：

In [51]:
cursor = connection.cursor()
cursor.execute("""CREATE TABLE IF NOT EXISTS orders(
 order_id TEXT PRIMARY KEY,
 date TEXT,
 symbol TEXT,
 quantity INTEGER,
 price NUMBER)""")
orders = [
          ("A0002","2013-12-01","MSFT",1500,167.5),
          ("A0003","2013-12-02","GOOG",1500,167.5)
]
cursor.executemany("""INSERT INTO orders VALUES
 (?, ?, ?, ?, ?)""", orders)
connection.commit()

在 `query` 语句执行之后，我们需要进行 `commit`，否则数据库将不会接受这些变化，如果想撤销某个 `commit`，可以使用 `rollback()` 方法撤销到上一次 `commit()` 的结果：

In [52]:
try:
    ... # perform some operations
except:
    connection.rollback()
    raise
else:
    connection.commit() 

使用 `SELECT` 语句对数据库进行查询：

In [53]:
stock = 'MSFT'
cursor.execute(
    """
    SELECT *
    FROM orders
    WHERE symbol=?
    ORDER BY quantity
    """, (stock,))
for row in cursor:
    print(row)

('A0002', '2013-12-01', 'MSFT', 1500, 167.5)


`cursor.fetchone()` 返回下一条内容， `cursor.fetchall()` 返回所有查询到的内容组成的列表（可能非常大）：

In [54]:
stock = 'GOOG'
cursor.execute(
    """
    SELECT *
    FROM orders
    WHERE symbol=?
    ORDER BY quantity
    """, (stock,))
cursor.fetchall()


[('A0003', '2013-12-02', 'GOOG', 1500, 167.5)]

In [55]:
# 关闭数据库
cursor.close()
connection.close()

## 七、对象关系映射

例如对于上一节中的数据库：

| Order | Date       | Stock | Quantity | Price |
| ----- | ---------- | ----- | -------- | ----- |
| A0002 | 2013-12-01 | MSFT  | 1500     | 167.5 |
| A0003 | 2013-12-02 | GOOG  | 1500     | 167.5 |

可以用一个类来描述：

| Attr.    | Method |
| -------- | ------ |
| Order id | Cost   |
| Date     |        |
| Stock    |        |
| Quant.   |        |
| Price    |        |

可以使用 `sqlalchemy` 来实现这种对应：

In [56]:
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column, Date, Float, Integer, String

Base = declarative_base()

class Order(Base):
    __tablename__ = 'orders'

    order_id = Column(String, primary_key=True)
    date = Column(Date)
    symbol = Column(String)
    quantity = Column(Integer)
    price = Column(Float)

    def get_cost(self):
        return self.quantity*self.price


生成一个 Order 对象：

In [57]:
import datetime
order = Order(order_id='A0004', date=datetime.date.today(), symbol='MSFT', quantity=-1000, price=187.54)
# 调用方法
order.get_cost()

-187540.0

使用上一节生成的数据库产生一个 `session`：

In [58]:
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

engine = create_engine("sqlite:///yjq_db.sqlite")   # 相当于 connection
Session = sessionmaker(bind=engine) # 相当于 cursor
session = Session()


使用这个 `session` 向数据库中添加刚才生成的对象：

In [59]:
session.add(order)
session.commit()

显示是否添加成功：

In [60]:
for row in engine.execute("SELECT * FROM orders"):
    print (row)

('A0002', '2013-12-01', 'MSFT', 1500, 167.5)
('A0003', '2013-12-02', 'GOOG', 1500, 167.5)
('A0004', '2022-12-09', 'MSFT', -1000, 187.54)


使用 `filter` 进行查询，返回的是 `Order` 对象的列表

In [62]:
for order in session.query(Order).filter(Order.symbol=="GOOG"):
    print (order.order_id, order.date, order.get_cost())


A0003 2013-12-02 251250.0


In [65]:
# 返回列表的第一个
order_2 = session.query(Order).filter(Order.order_id=='A0002').first()
order_2.symbol

'MSFT'

## 八、函数进阶