# Python 系统管理

## 操作系统

Python的`os`模块实现了与操作系统相关的功能的接口。
这些操作包括遍历目录树，删除/重命名文件等。
其中`os.path`模块可以实现一些针对路径名的操作。

### `os`模块

#### 文件处理

* `remove()` / `unlink()`    删除文件
* `rename()` / `renames()`   重命名文件
* `stat()`               返回文件信息
* `symlink()`            创建符号链接
* `utime()`              更新时间戳
* `walk(top, topdown=True, onerror=None, followlinks=False)`

   **生成一个目录树下的所有文件名**，方式是按**上->下**或**下->上**顺序浏览目录树。
   对于以`top`为根的目录树中的每个目录（包括`top`本身），
   它都会生成一个三元组`(dirpath, dirnames, filenames)`。
   
   * `dirpath` 是一个字符串，表示目录的路径。
   * `dirnames` 是一个列表，内含`dirpath`中子目录的名称（不包括 `'.'` 和 `'..'` ）。
   * `filenames` 也是列表，内含 `dirpath` 中文件（非目录）的名称。

#### 目录/文件夹

* `mkdir()` / `mkdirs()`     创建目录/创建多层目录
* `rmdir()` / `removedirs()` 删除目录/删除多层目录
* `listdir()`            **列出指定目录的文件**
* `chdir()` / `fcdir()`      改变当前工作目录 / 通过一个文件描述符改变当前目录
* `chroot()`             改变当前进程的根目录
* `getcwd()` / `getcwdu()`   返回当前工作目录 / 功能相同，但返回Unicode对象

#### 访问/权限

* `access()`             检验权限模式
* `chmod()`              改变权限模式
* `chown()` / `lchown()`     改变owner和group ID / 功能相同，但不会跟踪链接
* `umask()`              设置默认权限模式

### `os.path`常用路径操作

#### 分隔

-   <code>basename()</code>去掉目录路径，返回文件名
-   <code>dirname()</code>去掉文件名，返回目录路径
-   <code>join()</code>将分隔的部分组合成路径
-   <code>split()</code>返回<code>(dirname(), basename())</code>元组
-   <code>splitdrive()</code>返回<code>(drivename, pathname)</code>元组在没有驱动器概念的系统上，<code>drive</code>将始终为空字符串。在所有情况下，=drivename + pathname= 都与<code>path</code>相同。
-   <code>splitext()</code>返回<code>(filename, extension)</code>元组
-   <code>commonpath(paths)</code>接受包含多个路径的序列<code>paths</code>，返回<code>paths</code>的最长公共子路径。
-   <code>commonprefix(list)</code>接受包含多个路径的列表，返回所有路径的最长公共前缀（逐字符比较）。如果列表为空，则返回空字符串。

#### 信息

-   <code>getatime()</code>返回最近访问时间
-   <code>getctime()</code>返回文件创建时间
-   <code>getmtime()</code>返回最近文件修改时间
-   <code>getsize()</code>返回文件大小

#### 查询

-   <code>exists()</code>指定路径（文件或者目录）是否存在
-   <code>lexists()</code>如果<code>path</code>指向一个已存在的路径，返回<code>True</code>。对于失效的符号链接，也返回<code>True</code>。
-   <code>isabs()</code>指定路径是否为绝对路径
-   <code>isdir()</code>指定路径是否存在且是一个目录
-   <code>isfile()</code>指定路径是否存在且是一个文件
-   <code>islink()</code>指定路径是否存在且是一个符号链接
-   <code>ismount()</code>指定路径是否存在且是一个挂载点
-   <code>samefile()</code>两个路径名是否指向同一个文件

#### 其他

-   <code>normpath</code>
    
    用来规范化路径。
    
    通过折叠多余的分隔符和对上级目录的引用来标准化路径名。

-   <code>abspath(path)</code>
    
    返回路径<code>path</code>的绝对路径（标准化的）。

-   <code>realpath(path)</code>
    
    返回指定文件的规范路径，消除路径中存在的任何符号链接（如果操作系统支持）。

-   <code>expanduser(path)</code>
    
    在 Unix 和 Windows 上，将参数中开头部分的<code>~</code>或<code>~user</code>替换为当前<code>用户</code>的家目录并返回。

-   <code>expandvars(path)</code>
    
    输入带有环境变量的路径作为参数，返回展开变量以后的路径。

### `fnmatch` Unix 文件名模式匹配
此模块提供了 Unix shell 风格的通配符，它们 **不** 等同于正则表达式（参见 `re` 模块）。

shell 风格通配符所使用的特殊字符如下：

| 模式     | 意义                        |
|----------|-----------------------------|
| `*`      | 匹配所有                    |
| `?`      | 匹配任何单个字符            |
| `[seq]`  | 匹配 `seq` 中的任何字符     |
| `[!seq]` | 匹配任何不在 `seq` 中的字符 |

对于字面值匹配，需将原字符用方括号括起来。 例如，<code>'[?]'</code>将匹配字符<code>'?'</code>。

-   <code>fnmatch.fnmatch(filename, pattern)</code>

    检测<code>filename</code>字符串是否匹配<code>pattern</code>字符串，返回<code>True</code>或<code>False</code>。两个形参都会使用<code>os.path.normcase()</code>进行大小写正规化。<code>fnmatch.fnmatchcase()</code>可被用于执行大小写敏感的比较，无论这是否为所在操作系统的标准。

    示例：获取当前目录下带有特定扩展名的所有文件。


In [3]:
def find_files_in_dir(dir, pattern):
    import fnmatch
    import os
    # listdir列出指定目录下的文件
    return (file for file in os.listdir(dir) 
            if fnmatch.fnmatch(file, pattern))

# 函数返回的是一个元组，所以要循环打印
for file in find_files_in_dir('.', '*.ipynb'): # . 匹配的是当前目录
    print(file)


-   <code>fnmatch.filter(names, pattern)</code>

    返回<code>names</code>列表中匹配<code>pattern</code>的子集。
    它等价于<code>[n for n in names if fnmatch(n, pattern)]</code>，但其实现更为高效。

In [12]:
def find_file_in_dir_by_filter(dir, pattern):
    import fnmatch 
    import os 
    
    print(fnmatch.filter(os.listdir(dir), pattern))
    
    return 

find_file_in_dir_by_filter('.', '*.ipynb')

['7_模块和包.ipynb', '3 string.ipynb', '8_objects_and_classes.ipynb', '2.2 数字.ipynb', '2.1 对象和变量.ipynb', '5_code_structure（全）.ipynb', '12_file_io_and_structured_text_files.ipynb', '4. Python基本数据结构(全).ipynb', '4. Python基本数据结构.ipynb', '13_system_management.ipynb', '11_regular_expressions.ipynb', '6_exceptions.ipynb', '5review.ipynb', '15_matplotlib.ipynb', 'Xueli4.ipynb', '1-4review.ipynb', '14_numpy.ipynb', 'python-pkg-env-management.ipynb', '10_mangle_data.ipynb']


-   <code>fnmatch.translate(pattern)</code>

    返回 shell 风格<code>pattern</code>转换成的正则表达式以便用于<code>re.match()</code>。



In [14]:
import fnmatch
import re

regex = fnmatch.translate('*.txt')  # => '(?s:.*\\.txt)\\Z'

# reobj = re.compile(regex)
reobj.match('foobar.txt')  # => <re.Match object; span=(0, 10), match='foobar.txt'>

<re.Match object; span=(0, 10), match='foobar.txt'>

### `glob` Unix 风格路径名模式扩展

使用Unix shell的规则来匹配文件或者目录。

- `glob.glob(pathname, *, recursive=False)`

  返回匹配 `pathname` 的可能为空的路径名列表，其中的元素必须为包含一个路径信息的字符串。

考虑一个包含以下内容的目录：文件 `1.gif` , `2.txt` , `card.gif` 以及
一个子目录 `sub` 其中只包含一个文件 `3.txt` 。请注意路径的任何开头部分都将被保留：

In [None]:
import glob
glob.glob('./[0-9].*')   # ['./1.gif', './2.txt']
glob.glob('*.gif')  # ['1.gif', 'card.gif']
glob.glob('?.gif')  # ['1.gif']
glob.glob('**/*.txt', recursive=True)  # ['2.txt', 'sub/3.txt']
glob.glob('./**/', recursive=True)  # ['./', './sub/']

如果目录包含以 `.` 打头的文件，它们默认将不会被匹配。
例如，考虑一个包含 `card.gif` 和 `.card.gif` 的目录：

In [None]:
import glob
glob.glob('*.gif')  # ['card.gif']
glob.glob('.c*')  # ['.card.gif']

## 日期和时间

### `datetime`模块

其定义了4个主要的对象，每个对象处理的内容：

* `date` 处理年、月、日
* `time` 处理时、分、秒和微秒
* `datetime` 处理日期和时间同时出现的情况
* `timedelta` 处理日期和（或）时间间隔


In [16]:
from datetime import date

# date函数返回一个date对象
halloween = date(2017, 4, 21)
# 显示对象中的日期的每个部分
print(halloween.day, halloween.month, halloween.year)
# 用isoformat函数将日期按照国际标准显示,返回一个字符串
halloween.isoformat()

21 4 2017
<class 'str'>


**iso**是指ISO 8601，一种表示日期和时间的国际标准。这个标准的显示顺序是从一般（年）到特殊（日）。其可用来对日期进行正确的排序：先按照年，然后是月，最后是日。

In [17]:
now = date.today() # 返回一个记录着现在时间日期的对象
now

datetime.date(2020, 6, 17)

In [23]:
from datetime import timedelta

one_day = timedelta(days=1) # 返回一个timedelta对象,里面类似是日期的可用于计算的单位
tomorrow = now + one_day # 当前日期加上一天的时间单位
print(tomorrow)
print(now + 17 * one_day)

from datetime import datetime
print(repr(datetime.resolution))

2020-06-19
2020-07-21
datetime.timedelta(microseconds=1)


date的范围是`date.min`到`date.max`。

In [22]:
repr? # 返回对象的权威字符串描述

In [24]:
print(date.min)
print(date.max)

0001-01-01
9999-12-31


`datetime`模块中的`time`对象用来表示一天中的时间：

In [25]:
from datetime import time

noon = time(12, 0, 0)
print(noon)
print(noon.hour, noon.minute, noon.second, sep=':')
print(noon.microsecond)

12:00:00
12:0:0
0


参数的顺序按照时间单位从大到小排列（时、分、秒、微秒）。没有参数的话，`time`会默认使用0。

注意，时间不一定时精确的，对于**微秒**和**秒**。

In [26]:
from datetime import datetime

def print_repr(obj):
    print(repr(obj))

some_day = datetime(2017, 4, 21, 2, 43, 50, 7)
print_repr(some_day.isoformat())

right_now = datetime.now()
print_repr(right_now)

from datetime import time, date
noon = time(12)
this_day = date.today()
noon_today = datetime.combine(this_day, noon)
print_repr(noon_today)

print_repr(noon_today.date())
print_repr(noon_today.time())

'2017-04-21T02:43:50.000007'
datetime.datetime(2020, 6, 17, 10, 16, 42, 665437)
datetime.datetime(2020, 6, 17, 12, 0)
datetime.date(2020, 6, 17)
datetime.time(12, 0)


下面的代码展示计算一个月份的开始日到结束日中间的日期范围：

In [None]:
from datetime import datetime, date, timedelta
import calendar


def get_month_range(start_date=None):
    if start_date is None:
        start_date = date.today().replace(day=1)
    _, days_in_month = calendar.monthrange(start_date.year, start_date.month)
    end_date = start_date + timedelta(days=days_in_month)
    return (start_date, end_date)


a_day = timedelta(days=1)
first_day, last_day = get_month_range()
while first_day < last_day:
    print(first_day)
    first_day += a_day


上面的`get_month_range()`函数接受一个`datetime`对象并返回一个由当前月份开始日和下个月开始日组成的元组对象。

计算出一个对应月份第一天的日期，一种快速的方法就是使用`date`或`datetime`对象的`replace()`方法简单地将`days`属性设置成`1`即可。

使用`calendar.monthrange()`来获得该月的总天数。任何时候只要你想获得日历信息，可以使用`calendar`模块。

### `time`模块

一种表示绝对时间的方法时计算从某个起始点开始的秒数。Unix时间使用从1970年1月1日0点开始的秒数。这个值通常被成为**纪元**（epoch），它是不同系统之间最简单的交换日期时间的方法。

In [27]:
import time

# time() 返回当前时间的纪元值
now = time.time()
print_repr(now)

# ctime() 将纪元值转换成一个字符串
print_repr(time.ctime(now))

# localtime() 返回当前系统时区下的时间
print_repr(time.localtime(now))

# gmtime() 返回UTC时间
print_repr(time.gmtime(now))

print_repr(time.localtime())
print_repr(time.gmtime())

# mktime() 将 struct_time 对象转换回纪元值
print_repr(time.mktime(time.localtime()))

1592360272.3895848
'Wed Jun 17 10:17:52 2020'
time.struct_time(tm_year=2020, tm_mon=6, tm_mday=17, tm_hour=10, tm_min=17, tm_sec=52, tm_wday=2, tm_yday=169, tm_isdst=0)
time.struct_time(tm_year=2020, tm_mon=6, tm_mday=17, tm_hour=2, tm_min=17, tm_sec=52, tm_wday=2, tm_yday=169, tm_isdst=0)
time.struct_time(tm_year=2020, tm_mon=6, tm_mday=17, tm_hour=10, tm_min=17, tm_sec=52, tm_wday=2, tm_yday=169, tm_isdst=0)
time.struct_time(tm_year=2020, tm_mon=6, tm_mday=17, tm_hour=2, tm_min=17, tm_sec=52, tm_wday=2, tm_yday=169, tm_isdst=0)
1592360272.0


`localtime()`和`gmttime()`返回的是一个`struct_time`对象（命名元组）。其结构如下：

| Index | Attribute | Values                                           |
|-------|-----------|--------------------------------------------------|
|     0 | tm_year   | (for example, 1993)                              |
|     1 | tm_mon    | range [1, 12]                                    |
|     2 | tm_mday   | range [1, 31]                                    |
|     3 | tm_hour   | range [0, 23]                                    |
|     4 | tm_min    | range [0, 59]                                    |
|     5 | tm_sec    | range [0, 61];                                   |
|     6 | tm_wday   | range [0, 6], Monday is 0                        |
|     7 | tm_yday   | range [1, 366]                                   |
|     8 | tm_isdst  | 0, 1 or -1;                                      |
|   N/A | tm_zone   | abbreviation of timezone name                    |
|   N/A | tm_gmtoff | offset east of UTC in seconds                    |


**建议：**

* 尽量多使用UTC来代替时区，特别是将服务器设置为UTC时间，不要使用本地时间。
* 有可能的话绝对不使用夏时制时间。


### 读写日期和时间

使用`strftime()`将日期和时间转换成字符串，`datetime`、`date`、`time`对象和`time`模块中都包含此方法。`strftime()`使用格式化字符串来指定输出，见下表：

| 格式化字符串 | 日期/时间单元  |        范围 |
|--------------|----------------|-------------|
| Y            | 年             |    1900-... |
| m            | 月             |       01-12 |
| B            | 月名           | January,... |
| b            | 月名简写       |     Jan,... |
| d            | 日             |       01-31 |
| A            | 星期           |  Sunday,... |
| a            | 星期缩写       |     Sun,... |
| H            | 时（24小时制） |       00-23 |
| I            | 时（12小时制） |       01-12 |
| p            | 上午/下午      |       AM,PM |
| M            | 分             |       00-59 |
| S            | 秒             |       00-59 |

数字左侧都是补零。更多内容请参考[官方文档](https://docs.python.org/3.6/library/datetime.html#strftime-strptime-behavior)。

In [None]:
import time

fmt = "It's %A, %B %d, %Y, local time %I:%M:%S%p"
t = time.localtime()
print_repr(t)
print(time.strftime(fmt, t))


from datetime import date

some_day = date(2017, 4, 21)
print(some_day.strftime(fmt))  # 只能获取日期部分，时间默认是午夜


from datetime import time

some_time = time(10, 35)
print(some_time.strftime(fmt))  # 只会转换时间部分

使用`strptime()`可以将格式化的字符串转换为日期或时间。不能使用正则表达式，字符串的非格式化部分必须完全匹配。

In [None]:
import time

fmt = '%Y-%m-%d'
print_repr(time.strptime('2017-04-21', fmt))
print_repr(time.strptime('2017-04-31', fmt))  # ValueError

名称可以通过操作系统中的`locale`进行设置。如果要打印不同的月和日名称，可通过`setlocale()`来设置，其第一个参数是`locale.LC_TIME`，表示设置的是日期和时间，第二个参数是一个结合了**语言**和**国家名称**的缩写字符串。

In [None]:
import locale
help(locale.setlocale)

In [None]:
import locale
from datetime import date

halloween = date(2014, 10, 31)
for lang_country in ['en_us', 'fr_fr', 'de_de', 'zh_cn']:
    locale.setlocale(locale.LC_TIME, lang_country)
    print(halloween.strftime('%A, %B %d'))

In [None]:
import locale
names = locale.locale_alias.keys()
good_names = [name for name in names
              if len(name) == 5 and name[2] == '_']
for name in list(good_names)[-5:]:
    print(name)

zh = [name for name in good_names if name.startswith('zh')]
print_repr(zh)

### 其他操作日期和时间的库

* [arrow](https://github.com/crsmithdev/arrow)：更好的 Python 日期时间操作类库。
* [maya](https://github.com/kennethreitz/maya)：Timestamps for humans.
* [dateutil](https://pypi.python.org/pypi/python-dateutil)：Python datetime 模块的扩展。
* [delorean](https://github.com/myusuf3/delorean/)：解决 Python 中有关日期处理的棘手问题的库。
* [moment](https://github.com/zachwill/moment)：一个用来处理时间和日期的Python库。灵感来自于Moment.js。
* [pytz](https://launchpad.net/pytz)：现代以及历史版本的世界时区定义。将时区数据库引入Python。