# PYTHON进阶
![](https://ss2.bdstatic.com/70cFvnSh_Q1YnxGkpoWK1HF6hhy/it/u=3200469551,3330621307&fm=26&gp=0.jpg)

## PYTHON迭代

### 生成器

列表生成器产生的列表很占用内存空间，我们每次在计算使用的时候都是对单个元素进行操作，这样其它元素占用的空间就白白浪费了。所以如果列表内的元素可以按照某种算法推算出来，这样我们就可以在循环过程中不断的推算下一个元素，从而避免创建完整的列表而占用大量内存。
在Python中我们把一边循环一边计算的的机制称为生成器：generator.

生成器类似于返回值为数组的一个函数，这个函数可以接受参数，可以被调用，但是，不同于一般的函数会一次性返回包括了所有数值的数组，生成器一次只能产生一个值，这样消耗的内存数量将大大减小，而且允许调用函数可以很快的处理前几个返回值，因此生成器看起来像是一个函数，但是表现得却像是迭代器

**要创建一个generator，有很多种方法，第一种方法很简单，只有把一个列表生成式的[]中括号改为（）小括号，就创建一个generator**

In [None]:
# 列表生成器
data = [x * x for x in rang(10)]
print(data)

In [None]:
# 生成器
g = (x * x for x in range(10))
print(g)

**使用生成器的元素也很简单，直接循环打印出即可**

In [None]:
for i in g:
    print(i)

**生成器的对象只可被读取一次，读取完之后生成器内的元素就从内存中消失**

In [None]:
# g已经被消费完
print(g)

In [None]:
for i in g:
    print(i)

**也可以调用Next函数直到计算出最后一个元素位置,但是这种方法很明显不适用，并且最后会抛出StopIteration的错误,如下所示：**

In [None]:
next(g)

所以我们创建一个generator后，基本上永远不会调用next()，而是通过for循环来迭代，并且不需要关心StopIteration的错误，generator非常强大!

### 迭代器

1. 迭代器包含有next方法的实现，在正确的范围内返回期待的数据以及超出范围后能够抛出StopIteration的错误停止迭代。

2. 我们已经知道，可以直接作用于for循环的数据类型有以下几种：

    * 一类是集合数据类型，如list,tuple,dict,set,str等

    * 一类是generator，包括生成器和带yield的generator function

这些可以直接作用于for 循环的对象统称为可迭代对象：Iterable

可以使用isinstance()判断一个对象是否为可Iterable对象

In [None]:
isinstance(1.0,int)

In [None]:
# 使用instance判断类型
from collections import Iterable,Iterator
a = [1,2,3,4]
isinstance(a,Iterable)
isinstance(a,Iterator)

In [None]:
# 把list、dict、str等Iterable变成Iterator可以使用iter()函数：
a  = [1,2,3,4]
iter_a = iter(a)

In [None]:
for j in iter_a:
    print(j)

In [None]:
s='hello'     #字符串是可迭代对象，但不是迭代器
l=[1,2,3,4]     #列表是可迭代对象，但不是迭代器
t=(1,2,3)       #元组是可迭代对象，但不是迭代器
d={'a':1}        #字典是可迭代对象，但不是迭代器
set={1,2,3}     #集合是可迭代对象，但不是迭代器

* 一个实现了iter方法的对象是可迭代的，一个实现next方法并且是可迭代的对象是迭代器。

* 可以被next()函数调用并不断返回下一个值的对象称为迭代器：Iterator。

* 所以一个实现了iter方法和next方法的对象就是迭代器。

**为什么list、dict、str等数据类型不是Iterator？**

这是因为Python的Iterator对象表示的是一个数据流，Iterator对象可以被next()函数调用并不断返回下一个数据，直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列，但我们却不能提前知道序列的长度，只能不断通过next()函数实现按需计算下一个数据，所以Iterator的计算是惰性的，只有在需要返回下一个数据时它才会计算。

Iterator甚至可以表示一个无限大的数据流，例如全体自然数。而使用list是永远不可能存储全体自然数的

### 总结
1. 凡是可作用于for循环的对象都是Iterable类型；
2. 凡是可作用于next()函数的对象都是Iterator类型，它们表示一个惰性计算的序列；
3. 集合数据类型如list、dict、str等是Iterable但不是Iterator，不过可以通过iter()函数获得一个Iterator对象。

## 函数式编程

### 高阶函数

变量可以指向函数

In [None]:
# 使用内置函数 
len([1,2,3,4])

In [None]:
# 查看一下 len 是什么？结果显示他是函数本身
len

In [None]:
# 我们可以把函数本身赋值给变量
x = len
x([1,2,3,4])

In [None]:
x

**函数名也是变量**

函数名就是就是指向函数的变量，对于len()这个函数来说，我们可以把len看做是变量

**传入函数**

既然变量可以指向函数，函数可以接受变量，那么一个函数就可以接受另一个函数作为传入参数

In [None]:
def add(x,y,z):
    return z(x) + z(y)


add([1,2,3,4],[4,3,1,5,6],len)

### map/reduce

map接受两个参数，一个是函数，一个是Iterable，函数作用在序列的每一个元素上，并把结果作为Iterable返回

reduce也是把函数作用与序列上，但是这个函数必须接受两个参数，reduce把计算结果继续与下一个元素做累积计算

In [None]:
# 对下面的序列元素与自身相乘
x = [1,2,3,4,5,6,7,8,9,10]

In [None]:
# NO.1
res = []
for e in x:
    res.append(e*e)

In [None]:
# NO.2
res_ = [i*i for i in x]

In [None]:
# NO.3
def mul(i):
    return i * i

#res = map(mul,x)

map(lambda s : mul(s),x)

In [None]:
list(res)

In [None]:
# NO.4
list(map(lambda s : s*s,x))

In [None]:
from functools import reduce

reduce(lambda a,b: a-b,x)

In [None]:
[1,2,3,4,5,6,7,8,9,10]
1 -2 = -1
-1 -3 = -4
-4 - 4 = -8

### filter函数
filter也是把函数作用在序列元素上，但是该函数返回的结果必须是布尔型，filter根据true或者false进行元素的保留和删除

In [None]:
# 对下列数据只保留能被2整除的数
x = [1,3,6,7,2,19,20,33,29,10,49]
list(filter(lambda s : s%2 ==0,x))

In [None]:
x = [1,3,6,7,2,19,20,33,29,10,49]
filter_res = filter(lambda s : s % 2 ==0 or s%3==0,x)

In [None]:
next(filter_res)

### 匿名函数 Lambda
我们可以不用显示的定义函数名，因此可以使用匿名函数。匿名函数也可以被一个变量保存，也可以不保存直接使用。


In [None]:
f = lambda s : s*2
x = [1,2,3,4]
map(f,x)

In [None]:
x = [1,2,3,4,5,6,7,8,9,10]

def mul_x(x):
    return x*x

list(map(mul_x,x))

In [None]:
list(map(lambda s : s*s,x))

### 三元运算
格式：
```python
[on_true] if [expression] else [on_false]
```

In [None]:
age = 20
print("成年人") if age >= 18 else print("未成年")

In [None]:
map(lambda s : s*s if s % 2 == 0 else 0,x)

## Collections类

1. 理解算法高效性
2. 与基础的数据集合List、tuple等形成对比

### deque
**deque** 和list的用法比较类似，它是队列与栈的实现，可以对序列数据进行两端的操作。deque支持在O(1)的时间复杂度上对序列进行两端的append或者pop。list也可以实现同样的操作，但是它的复杂度是O(N)

**STACK**

![stack](https://www.studytonight.com/data-structures/images/stack-implementation.png)

**QUEUE**

![queue](https://www.studytonight.com/data-structures/images/implementation-of-queue.png)

In [None]:
# 类似于列表实现
from collections import deque
a = deque(['a','b','c','d'])

a.append("e")
# a
a.pop()

In [None]:
a

In [None]:
# 两端操作
a.popleft()
#a.appendleft("z")

In [None]:
a

In [None]:
# 翻转
a.rotate()
a

In [None]:
# 比较 List 与 deque
list_a = [x for x in range(1,1000000)]

deque_a = deque(list_a)


In [None]:
%timeit list_a.append(100)

In [None]:
%timeit deque_a.append(100)

In [None]:
%timeit list_a.insert(0,"a") #923 * 1000

In [None]:
%timeit deque_a.appendleft("a")

### counter
A Counter is a dict subclass for counting hashable objects. **It is an unordered collection where elements are stored as dictionary keys and their counts are stored as dictionary values.** Counts are allowed to be any integer value including zero or negative counts.

**核心：对序列集合元素进行计数，元素被设定为字典的key，元素出现的次数被设定为字典的value**


In [None]:
from collections import Counter
a = list('absgctsgabfxtdrafabstxrsg')
c = Counter(a)

In [None]:
c

In [None]:
for k, v in c.items():
    print(k,":",v)

In [None]:
b = [1,2,3,4,5,6,6,3,12,1,2,3,4,5,6,7,8,65,4,3,2,2,3,4,4]
Counter(b)

In [None]:
# 查看TOPN的元素
c.most_common(5)

In [None]:
?c.clear

In [None]:
from collections import OrderedDict
# regular unsorted dictionary
d = {'banana': 3, 'apple': 4, 'pear': 1, 'orange': 2}

# for k, v in d.items():
#     print(k,":",v)

# # dictionary sorted by key
o = OrderedDict(sorted(d.items(), key=lambda t: t[0]))
for k, v in o.items():
    print(k,":",v)

# # # dictionary sorted by value
OrderedDict(sorted(d.items(), key=lambda t: t[1]))


# # # dictionary sorted by length of the key string
OrderedDict(sorted(d.items(), key=lambda t: len(t[0])))

In [None]:
od = OrderedDict(sorted(d.items(), key=lambda t: t[0]))

od.popitem(last = False)

In [None]:
od.pop(key = 'apple')

## 字符串处理

### 常用处理方法

In [None]:
s = " Hello, World "

In [None]:
s_ = 'Hello, World '

In [None]:
s__ = "Hello' World"

In [None]:
Counter(s)

In [None]:
len(s)

In [None]:
s.strip() #Return a copy of the string S with leading and trailing whitespace removed
s.lstrip()
s.rstrip()

In [None]:
s.replace(" ","")

s.find():查找对应的字符集

**Docstring:**

S.find(sub[, start[, end]]) -> int

Return the lowest index in S where substring sub is found,
such that sub is contained within S[start:end].  Optional
arguments start and end are interpreted as in slice notation.

In [None]:
#s.find("o")
s.find("he")

In [None]:
s.find("W")

In [None]:
s.find("He")

In [None]:
s

In [None]:
s.startswith("H",1)
s.endswith("d",1,13)

In [None]:
?s.endswith

In [None]:
s.lower()
s.upper()

In [None]:
s.split(",")

In [None]:
s.split(" ")

In [None]:
list(map(lambda t : t.strip(),s.strip().upper().split(",")))

### 格式化

In [None]:
for i in range(100):
    t = str(i)      
    print("这是我打印的第 %s 个数字" %t)

In [None]:
a = "shanghai"
b = 39

print("今天 {0} 的气温是 {1}".format(a,b))

## 时间类：datetime

[dateime]((https://docs.python.org/zh-cn/3/library/datetime.html))模块是专门用于处理时间的类，它是PYTHON的标准库之一，内容复杂且强大，我们只需要学习一些常用的函数即可：
1. 获取时间
2. 字符串与时间的转换
3. 时间的提取
4. 日期之间的计算

**datetime模块中包含如下类**

类名 | 功能说明   
-|-
date | 日期对象,常用的属性有year, month, day
time | 时间对象
datetime | 日期时间对象,常用的属性有hour, minute, second, microsecond
timedelta | 时间间隔，即两个时间点之间的长度
tzinfo | 时区信息对象

**datetime构造函数**
```python
class datetime.datetime(year, month, day, hour=0, minute=0, second=0, microsecond=0, tzinfo=None, *, fold=0)
```
* MINYEAR <= year <= MAXYEAR,
* 1 <= month <= 12,
* 1 <= day <= number of days in the given month and year,
* 0 <= hour < 24,
* 0 <= minute < 60,
* 0 <= second < 60,
* 0 <= microsecond < 1000000,
* fold in [0, 1].

In [3]:
# 获取时间
from datetime import datetime 
print(datetime.now())

2019-09-15 20:32:55.810083


In [None]:
# 也可以创建指定的时间
dt = datetime(2017,8,1,10)
dt

In [None]:
isinstance(dt,datetime)

In [4]:
# 格式化日期：字符串与时间的转换
s = '20170901'
s1 = datetime.strptime(s,'%Y%m%d')

s = "2019/05/03"
s2 = datetime.strptime(s,'%Y/%m/%d')

In [None]:
s2 

In [None]:
s = "2019/05/03 12:30:43"

**timedelta**

A timedelta object represents a duration, the difference between two dates or times.

描述两个日期或者时间的差，表示的是一段时间期间。

```python
class datetime.timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)
```

In [5]:
s2

datetime.datetime(2019, 5, 3, 0, 0)

In [6]:
s1

datetime.datetime(2017, 9, 1, 0, 0)

In [7]:
from datetime import datetime,timedelta
time_ = s2  - s1

In [8]:
time_

datetime.timedelta(609)

In [13]:
time_.total_seconds() / 60 / 60 /24 / 7

87.0

In [14]:
s2  + timedelta(hours = 10) + timedelta(weeks = 1)

datetime.datetime(2019, 5, 10, 10, 0)

In [18]:
# 时间的提取
s1.day
s1.hour
s1.year
s1.month
s1.weekday()

4

In [16]:
datetime.now().weekday()

6

In [20]:
datetime.now().date()

datetime.date(2019, 9, 15)

##  I/O

### 读文件

我们的数据一般都是存在文件里的，需要通过程序将文件加载到Python环境中，这样才可以使用python对其进行分析。
PYTHON标准库提供了一些标准的实现，我们一起来看一下。

读文件需要使用 open()函数，其参数为文件名与标识符：

In [None]:
f = open("file",'r')
data = f.read()
f.close()

'r'表示读文件的意思, 在获取文件之后,使用read函数读取数据，最后一步是调用close()方法关闭文件。文件使用完毕后必须关闭，因为文件对象会占用操作系统的资源。但是每次这样写很麻烦，我们可以使用with关键词进行整合：

In [21]:
with open("test.txt",'r') as handle:
    data = handle.readlines()

In [22]:
data

['name,age\n', 'xiao,18\n', 'da,20\n', 'mid,60']

In [23]:
list(map(lambda s : s.strip(),data))

['name,age', 'xiao,18', 'da,20', 'mid,60']

### 文件编码

根据你当前的文件编码在open函数里面指定encoding的类型。一般来说，windows系统上的文件都是gbk格式：

In [None]:
f = open("file",'r',encoding = 'gbk') # utf-8

### 写文件
写文件和读文件几乎一致，唯一的区别是标识符需要改为"w"。

第一个实参也是要打开的文件的名称；
第二个实参（'w'）告诉Python，我们要以写入模式打开这个文件。打开文件时，可指定读取模
式（'r'）、 写入模式（'w'）、 附加模式（'a'）或让你能够读取和写入文件的模式（'r+'）。如果
你省略了模式实参， Python将以默认的只读模式打开文件



In [25]:
with open("test.txt",'w') as handle:
    handle.write("hello world")

如果你要写入的文件不存在，函数open()将自动创建它。然而，以写入（'w'）模式打开文
件时千万要小心，因为如果指定的文件已经存在， Python将在返回文件对象前清空该文件。

#### 写入多行

函数write()不会在你写入的文本末尾添加换行符，因此如果你写入多行时没有指定换行符，
文件看起来可能不是你希望的那样：

In [26]:
with open("test.txt",'w') as handle:
    handle.write("Hello World!!")
    handle.write("Hello SOTON!!")

In [27]:
# 添加换行符
with open("test.txt",'w') as handle:
    handle.write("Hello World!!\n")
    handle.write("Hello SOTON!!\n")

#### 附加到文件

如果你要给文件添加内容，而不是覆盖原有的内容，可以附加模式打开文件。你以附加模式
打开文件时， Python不会在返回文件对象前清空文件，而你写入到文件的行都将添加到文件末尾。
如果指定的文件不存在， Python将为你创建一个空文件。

In [28]:
with open("test.txt",'a') as handle:
    handle.write("Today is Nice!\n")
    handle.write("We are happy!!\n")

## 异常处理

Python使用被称为异常的特殊对象来管理程序执行期间发生的错误。每当发生让Python不知 所措的错误时，它都会创建一个异常对象。如果你编写了处理该异常的代码，程序将继续运行; 如果你未对异常进行处理，程序将停止，并显示一个traceback，其中包含有关异常的报告。

异常是使用try-except代码块处理的。try-except代码块让Python执行指定的操作，同时告 诉Python发生异常时怎么办。使用了try-except代码块时，即便出现异常，程序也将继续运行: 显示你编写的友好的错误消息，而不是令用户迷惑的traceback。

### 错误案例

In [29]:
a = 10 
b = 0
print(a/b)

a+b

ZeroDivisionError: division by zero

ZeroDivisionError是一个异常对象，此时程序将会终止运行。我们需要告诉Python当遇到错误时应该怎么处理

### try-except

In [30]:
print("请给我两个数据，我将会用它们进行除法计算.")
print("输入 q 可以退出程序！")

while True:
    first_number = input("First Number: ")
    if first_number == 'q':
        break
    second_number = input("Second Number: ")
    if second_number == 'q':
        break
    
    answer = int(first_number) / int(second_number)
    print(answer)

请给我两个数据，我将会用它们进行除法计算.
输入 q 可以退出程序！


First Number:  10
Second Number:  20


0.5


First Number:  15
Second Number:  30


0.5


First Number:  80
Second Number:  0


ZeroDivisionError: division by zero

上面的程序很简单，计算用户输入的两个数据的商。但是一旦second_number为0，就会出现ZeroDivisionError，程序就会崩溃，而我们目前还没有采取任何有效的措施来避免这种错误。 让用户看到traceback会造成极其糟糕的体验，甚至代码暴露还会引起别有用心的人攻击！！

我们使用try-except捕获这种错误，这个示例还包 含一个else代码块;依赖于try代码块成功执行的代码都应放到else代码块中：

In [31]:
while True:
    first_number = input("First Number: ")
    if first_number == 'q':
        break
    second_number = input("Second Number: ")
    if second_number == 'q':
        break
    try:
        answer = int(first_number) / int(second_number)
    except ZeroDivisionError as e:
        print(" 除数不可以为0！！")
        print(e)
    else:
        print(answer)

First Number:  80
Second Number:  0


 除数不可以为0！！
division by zero


First Number:  80
Second Number:  20


4.0


First Number:  q


### 小结

try-except-else代码块的工作原理大致如下:Python尝试执行try代码块中的代码;只有可 能引发异常的代码才需要放在try语句中。有时候，有一些仅在try代码块成功执行时才需要运行 的代码;这些代码应放在else代码块中。except代码块告诉Python，如果它尝试运行try代码块中 的代码时引发了指定的异常，该怎么办。

### 多个异常

In [32]:
some_list = [1, 2, 3]
try:
    # This should raise an ``IndexError``
    print(some_list[4])
except (IndexError, ValueError):
    print("Caught!")

try:
    # This should raise a ``ValueError``
    some_list.remove(4)
except (IndexError,ValueError) :
    print("Caught again!")

Caught!
Caught again!


In [33]:
# 传递多个exceptions是需要用tupleJ进行组装

try:
    # This should raise an ``IndexError``
    print(some_list[4])
except (IndexError, ValueError) as e:
    print("Caught!")
    print (e)

try:
    # This should raise a ``ValueError``
    some_list.remove(4)
except (IndexError,ValueError)  as e:
    print("Caught again!")
    print(e)

Caught!
list index out of range
Caught again!
list.remove(x): x not in list


In [34]:
try:
    # This should raise an ``IndexError``
    print(some_list[4])
except Exception as e:
    print("Caught!")
    print (e)


Caught!
list index out of range


### 处理FileNotFoundError异常

使用文件时，一种常见的问题是找不到文件:你要查找的文件可能在其他地方、文件名可能 不正确或者这个文件根本就不存在。对于所有这些情形，都可使用try-except代码块以直观的方 式进行处理。

In [35]:
with open("test45841.txt") as handle:
    data = handle.read()

FileNotFoundError: [Errno 2] No such file or directory: 'test45841.txt'

In [36]:
# 错误是由于 open函数引起的
filename = "test45841.txt"
try:
    with open(filename) as handle:
        data = handle.read()
except FileNotFoundError:
    msg = "Sorry, the file " + filename + " does not exist." 
    print(msg)

Sorry, the file test45841.txt does not exist.
