# sys 模块简介

## 命令行参数

`sys.argv` 显示传入的参数：

In [22]:
import sys

In [24]:
%%writefile print_args.py
import sys
print(sys.argv)

Overwriting print_args.py


In [25]:
# 运行这个程序：
%run print_args.py 1 foo

['print_args.py', '1', 'foo']


第一个参数 （`sys.args[0]`） 表示的始终是执行的文件名，然后依次显示传入的参数。

删除刚才生成的文件：

In [26]:
import os
os.remove('print_args.py')

## 异常消息

`sys.exc_info()` 可以显示 `Exception` 的信息，返回一个 `(type, value, traceback)` 组成的三元组，可以与 `try/catch` 块一起使用： 

In [28]:
try:
    x = 1/0
except Exception:
    print(sys.exc_info())

(<class 'ZeroDivisionError'>, ZeroDivisionError('division by zero'), <traceback object at 0x0000021370584308>)


`sys.exc_clear()` 用于清除所有的异常消息。

## Python Path

`sys.path` 表示 Python 搜索模块的路径和查找顺序,在程序中可以修改，添加新的路径。

In [29]:
sys.path

['E:\\chen_gitlub\\python_notes',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\python37.zip',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\DLLs',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\lib',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37',
 '',
 'C:\\Users\\admin\\AppData\\Roaming\\Python\\Python37\\site-packages',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\lib\\site-packages',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\lib\\site-packages\\IPython\\extensions',
 'C:\\Users\\admin\\.ipython']

# os 模块:与操作系统进行交互

`os` 模块提供了对系统文件进行操作的方法：

In [30]:
import os

## 文件路径操作

- `os.remove(path)` 或 `os.unlink(path)` ：删除指定路径的文件。路径可以是全名，也可以是当前工作目录下的路径。
- `os.removedirs`：删除文件，并删除中间路径中的空文件夹
- `os.chdir(path)`：将当前工作目录改变为指定的路径
- `os.getcwd()`：返回当前的工作目录
- `os.curdir`：表示当前目录的符号
- `os.rename(old, new)`：重命名文件
- `os.renames(old, new)`：重命名文件，如果中间路径的文件夹不存在，则创建文件夹
- `os.listdir(path)`：返回给定目录下的所有文件夹和文件名，不包括 `'.'` 和 `'..'` 以及子文件夹下的目录。（`'.'` 和 `'..'` 分别指当前目录和父目录）
- `os.mkdir(name)`：建立新文件夹
- `os.makedirs(name)`：建立新文件夹，如果中间路径的文件夹不存在，则创建文件夹

In [31]:
# 当前目录：
os.getcwd()

'E:\\chen_gitlub\\python_notes'

In [32]:
# 当前目录的符号：
os.curdir

'.'

In [33]:
# 当前目录下的文件：
os.listdir(os.curdir)

['.git',
 '.idea',
 '.ipynb_checkpoints',
 '1',
 'Class即类的介绍.ipynb',
 'input_data',
 'NumPy.ipynb',
 'output',
 'Pandas.ipynb',
 'python基本知识.ipynb',
 'python基本编程.ipynb',
 'python进阶编程.ipynb',
 'README.md',
 'String.ipynb',
 '__pycache__',
 '列表&元祖&集合&字典.ipynb',
 '常用Python标准库.ipynb',
 '常用模块介绍.ipynb']

In [34]:
# 产生文件
f = open("test.file", "w")
f.close()
print("test.file" in os.listdir(os.curdir))

True


In [35]:
# 重命名文件
os.rename("test.file", "test.new.file")
print("test.file" in os.listdir(os.curdir))
print("test.new.file" in os.listdir(os.curdir))

False
True


In [36]:
# 删除文件
os.remove("test.new.file")

`os.environ` 是一个存储所有环境变量的值的字典，可以修改。

In [40]:
os.environ['USERNAME']

'admin'

## os.path 模块

不同的操作系统使用不同的路径规范，这样当我们在不同的操作系统下进行操作时，可能会带来一定的麻烦，而 `os.path` 模块则帮我们解决了这个问题。

In [41]:
import os.path

**测试**：
- `os.path.isfile(path)` ：检测一个路径是否为普通文件
- `os.path.isdir(path)`：检测一个路径是否为文件夹
- `os.path.exists(path)`：检测路径是否存在
- `os.path.isabs(path)`：检测路径是否为绝对路径

**split和join**:
- `os.path.split(path)`：拆分一个路径为 `(head, tail)` 两部分
- `os.path.join(a, *p)`：使用系统的路径分隔符，将各个部分合成一个路径

**其他**：
- `os.path.abspath()`：返回路径的绝对路径
- `os.path.dirname(path)`：返回路径中的文件夹部分
- `os.path.basename(path)`：返回路径中的文件部分
- `os.path.splitext(path)`：将路径与扩展名分开
- `os.path.expanduser(path)`：展开 `'~'` 和 `'~user'`

# datetime 模块

`datetime` 提供了基础时间和日期的处理。

In [48]:
from datetime import date,datetime,time,timedelta

## date 对象

可以使用 `date(year, month, day)` 产生一个 `date` 对象：

In [43]:
d1 = date(2007, 9, 25)

可以格式化 `date` 对象的输出：

In [44]:
print('\n',d1,
      '\n',d1.strftime('%A, %m/%d/%y'),
      '\n',d1.strftime('%a, %m-%d-%Y'))


 2007-09-25 
 Tuesday, 09/25/07 
 Tue, 09-25-2007


可以看两个日期相差多久,返回的是一个 `timedelta` 对象：

In [47]:
d2 = date(2008, 9, 25)
d = d2 - d1
print('\n',d,
      '\n',d.days,
      '\n',d.seconds)


 366 days, 0:00:00 
 366 
 0


## time 对象

可以使用 `time(hour, min, sec, us)` 产生一个 `time` 对象：

In [50]:
t1 = time(15, 38)
t2 = time(18)
print('\n',t1,
      '\n',t1.strftime('%I:%M, %p'),
      '\n',t1.strftime('%H:%M:%S, %p'))


 15:38:00 
 03:38, PM 
 15:38:00, PM


因为没有具体的日期信息，所以 `time` 对象不支持减法操作。

## datetime 对象

可以使用 `datetime(year, month, day, hr, min, sec, us)` 来创建一个 `datetime` 对象。 

获得当前时间：

In [51]:
d1 = datetime.now()
print(d1)

2019-10-04 23:55:37.527155


给当前的时间加上 `30` 天，`timedelta` 的参数是 `timedelta(day, hr, min, sec, us)`：

In [53]:
d2 = d1 + timedelta(30)
print(d2)

2019-11-03 23:55:37.527155


除此之外，我们还可以通过一些指定格式的字符串来创建 `datetime` 对象：

In [54]:
print(datetime.strptime('2/10/01', '%m/%d/%y'))

2001-02-10 00:00:00


## datetime 格式字符表

字符|含义
--|--
`%a` | 星期英文缩写
`%A` | 星期英文
`%w` | 一星期的第几天，`[0(sun),6]`
`%b` | 月份英文缩写
`%B` | 月份英文
`%d` | 日期，`[01,31]`
`%H` | 小时，`[00,23]`
`%I` | 小时，`[01,12]`
`%j` | 一年的第几天，`[001,366]`
`%m` | 月份，`[01,12]`
`%M` | 分钟，`[00,59]`
`%p` | AM 和 PM
`%S` | 秒钟，`[00,61]` （大概是有闰秒的存在）
`%U` | 一年中的第几个星期，星期日为第一天，`[00,53]`
`%W` | 一年中的第几个星期，星期一为第一天，`[00,53]`
`%y` | 没有世纪的年份
`%Y` | 完整的年份

# re 模块,正则表达式

## 正则表达式

[正则表达式](http://baike.baidu.com/view/94238.htm)是用来匹配字符串或者子串的一种模式，匹配的字符串可以很具体，也可以很一般化。

`Python` 标准库提供了 `re` 模块。 

In [2]:
import re

## re.match & re.search

在 `re` 模块中， `re.match` 和 `re.search` 是常用的两个方法：

    re.match(pattern, string[, flags])
    re.search(pattern, string[, flags])

两者都寻找第一个匹配成功的部分，成功则返回一个 `match` 对象，不成功则返回 `None`，不同之处在于：

1. `re.match` 只匹配字符串的开头部分；

2. `re.search` 匹配的则是整个字符串中的子串。

## 其他

* `re.findall(pattern, string)` 返回所有匹配的对象， `re.finditer` 则返回一个迭代器；

* `re.split(pattern, string[, maxsplit])` 按照 `pattern` 指定的内容对字符串进行分割；

* `re.sub(pattern, repl, string[, count])` 将 `pattern` 匹配的内容进行替换；

* `re.compile(pattern)` 生成一个 `pattern` 对象，这个对象有匹配，替换，分割字符串的方法。

## 正则表达式规则

正则表达式由一些普通字符和一些元字符（metacharacters）组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义：

子表达式|匹配内容
---|---
`.`| 匹配除了换行符之外的内容
`\w` | 匹配所有字母和数字字符
`\d` | 匹配所有数字，相当于 `[0-9]`
`\s` | 匹配空白，相当于 `[\t\n\t\f\v]`
`\W,\D,\S`| 匹配对应小写字母形式的补
`[...]` | 表示可以匹配的集合，支持范围表示如 `a-z`, `0-9` 等
`(...)` | 表示作为一个整体进行匹配
&#166; | 表示逻辑或
`^` | 表示匹配后面的子表达式的补
`*` | 表示匹配前面的子表达式 0 次或更多次
`+` | 表示匹配前面的子表达式 1 次或更多次
`?` | 表示匹配前面的子表达式 0 次或 1 次
`{m}` | 表示匹配前面的子表达式 m 次
`{m,}` | 表示匹配前面的子表达式至少 m 次
`{m,n}` | 表示匹配前面的子表达式至少 m 次，至多 n 次

例如：

- `ca*t       匹配： ct, cat, caaaat, ...`
- `ab\d|ac\d  匹配： ab1, ac9, ...`
- `([^a-q]bd) 匹配： rbd, 5bd, ...`

## 例子

假设我们要匹配这样的字符串：

In [6]:
string = 'hello world'
pattern = 'hello (\w+)'

match = re.match(pattern, string)
print(match)

<re.Match object; span=(0, 11), match='hello world'>


一旦找到了符合条件的部分，我们便可以使用 `group` 方法查看匹配的部分：

In [9]:
if match is not None:
    print(match.group(0))
    print(match.group(1))

hello world
world


我们可以改变 string 的内容：

In [10]:
string = 'hello there'
pattern = 'hello (\w+)'

match = re.match(pattern, string)
if match is not None:
    print(match.group(0))
    print(match.group(1))

hello there
there


通常，`match.group(0)` 匹配整个返回的内容，之后的 `1,2,3,...` 返回规则中每个括号（按照括号的位置排序）匹配的部分。

如果某个 `pattern` 需要反复使用，那么我们可以将它预先编译：

In [11]:
pattern1 = re.compile('hello (\w+)')

match = pattern1.match(string)
if match is not None:
    print(match.group(1))

there


由于元字符的存在，所以对于一些特殊字符，我们需要使用 `'\'` 进行逃逸字符的处理，使用表达式 `'\\'` 来匹配 `'\'` 。

但事实上，`Python` 本身对逃逸字符也是这样处理的：

In [12]:
pattern = '\\'
print(pattern)

\


因为逃逸字符的问题，我们需要使用四个 `'\\\\'` 来匹配一个单独的 `'\\'`：

In [15]:
pattern = '\\\\'
path = "C:\\foo\\bar\\baz.txt"
print(re.split(pattern, path))

['C:', 'foo', 'bar', 'baz.txt']


这样看起来十分麻烦，好在 `Python` 提供了 `raw string` 来忽略对逃逸字符串的处理，从而可以这样进行匹配：

In [16]:
pattern = r'\\'
path = r"C:\foo\bar\baz.txt"
print(re.split(pattern, path))

['C:', 'foo', 'bar', 'baz.txt']


如果规则太多复杂，正则表达式不一定是个好选择。

## Numpy 的 fromregex()

In [18]:
%%file test.dat 
1312 foo
1534    bar
444  qux

Writing test.dat


    fromregex(file, pattern, dtype)

`dtype` 中的内容与 `pattern` 的括号一一对应：

In [19]:
pattern = "(\d+)\s+(...)"
dt = [('num', 'int64'), ('key', 'S3')]

from numpy import fromregex
output = fromregex('test.dat', pattern, dt)
print(output)

[(1312, b'foo') (1534, b'bar') ( 444, b'qux')]


显示 `num` 项：

In [20]:
print(output['num'])

[1312 1534  444]


In [21]:
import os
os.remove('test.dat')