# PYTHON进阶

## PYTHON迭代

### 生成器

列表生成器产生的列表很占用内存空间，我们每次在计算使用的时候都是对单个元素进行操作，这样其它元素占用的空间就白白浪费了。

生成器是一种可以自动推算下一个计算元素的

创建生成器最简单的方法就是用圆括号()代替方括号 []

In [6]:
g = (x * x for x in range(10))

In [2]:
g

<generator object <genexpr> at 0x0000021CC4DA6FC0>

使用生成器的元素也很简单，直接循环打印出即可

In [1]:
for i in g:
    print(i)  #惰性计算 每次用完之后就会被删除

NameError: name 'g' is not defined

In [9]:
g

<generator object <genexpr> at 0x0000021CC4DDF780>

也可以调用Next函数直到计算出最后一个元素位置,但是这种方法很明显不适用，并且最后会抛出StopIteration的错误。

In [8]:
next(g)

StopIteration: 

著名的斐波拉契数列（Fibonacci），除第一个和第二个数外，任意一个数都可由前两个数相加得到：

1, 1, 2, 3, 5, 8, 13, 21, 34, ...

试着写出一个查找任意位置的斐波拉契数的函数

In [2]:
def triangles(line):
    L = [1]
    while len(L)<=line:
        yield L
        L = [x+y for x,y in zip( [0]+L, L+[0] )]
                    
for i in triangles(6):
    print(i)

[1]
[1, 1]
[1, 2, 1]
[1, 3, 3, 1]
[1, 4, 6, 4, 1]
[1, 5, 10, 10, 5, 1]


In [17]:
def fib(n_position):
    if n_position == 1:
        return 1
    if n_position == 2:
        return 1
    n = 2
    a,b = 1,1
    while( n < n_position):
        c = a + b
        a = b
        b = c
        yield c # 生成器
        n = n+1
    return c

In [20]:
fib(1000)

<generator object fib at 0x0000021CC4E52780>

### 迭代器
可用于for循环的对象统称为可迭代对象：Iterable。包括之前学的list,tuple等数据结构以及生成器。 但是生成器不仅可以被for循环调用，
还可以使用next函数获取元素，可以被next()函数调用并不断返回下一个值的对象称为迭代器：Iterator。

生成器都是Iterator对象，但list、dict、str虽然是Iterable，却不是Iterator

In [26]:
# 使用instance判断类型
from collections import Iterable,Iterator
a = [1,2,3,4]
#isinstance(a,Iterable)
isinstance(g,Iterator)

True

### 高阶函数

变量可以指向函数

In [27]:
# 使用内置函数 
len([1,2,3,4])

4

In [29]:
# 查看一下 len 是什么？结果显示他是函数本身
len

<function len>

In [31]:
# 我们可以把函数本身赋值给变量
x = len
x([1,2,3,4])

4

In [32]:
x

<function len>

函数名也是变量

函数名就是就是指向函数的变量，对于len()这个函数来说，我们可以把len看做是变量

传入函数

既然变量可以指向函数，函数可以接受变量，那么一个函数就可以接受另一个函数作为传入参数

In [33]:
def add(x,y,z):
    return z(x) + z(y)
add([1,2,3,4],[4,3,1,5,6],len)

9

### map/reduce

map接受两个参数，一个是函数，一个是Iterable，函数作用在序列的每一个元素上，并把结果作为Iterable返回

reduce也是把函数作用与序列上，但是这个函数必须接受两个参数，reduce把计算结果继续与下一个元素做累积计算

In [13]:
# 对下面的序列元素与自身相乘
# x = [1,2,3,4,5,6,7,8,9,10]

In [40]:
 x = [1,2,3,4,5,6,7,8,9,10]

list(map(lambda s : s*s,x))

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [42]:
from functools import reduce

reduce(lambda a,b: a*b,x)

3628800

### filter函数
filter也是把函数作用在序列元素上，但是该函数返回的结果必须是布尔型，filter根据true或者false进行元素的保留和删除

In [None]:
# 对下列数据只保留能被2整除的数
# x = [1,3,6,7,2,19,20,33,29,10,49]

In [45]:
x = [1,3,6,7,2,19,20,33,29,10,49]
list(filter(lambda s : s % 2 ==0 or s%3==0,x))

[3, 6, 2, 20, 33, 10]

### 匿名函数 Lambda
我们可以不用显示的定义函数名，因此可以使用匿名函数。匿名函数也可以被一个变量保存，也可以不保存直接使用。


In [46]:
f = lambda s : s*2
x = [1,2,3,4]
map(f,x)

<map at 0x21cc4e6ff28>

In [47]:
x = [1,3,6,7,2,19,20,33,29,10,49]
list(filter(lambda s : s%3 == 0,x))

[3, 6, 33]

In [16]:
x = [1,2,3,4,5,6,7,8,9,10]
def mul_x(x):
    return x*x
list(map(mul_x,x))

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [15]:
list(map(lambda s : s*s,x))

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

## Collections类

### deque
**deque** 和list的用法比较类似，它是队列与栈的实现，可以对序列数据进行两端的操作。deque支持在O(1)的时间复杂度上对序列进行两端的append或者pop。list也可以实现同样的操作，但是它的复杂度是O(N)

In [74]:
# 类似于列表实现
from collections import deque
a = deque(['a','b','c','d'])

a.append("e")
# a
a.pop()

'e'

In [79]:
a

deque(['a', 'b', 'c', 'd'])

In [78]:
# 两端操作
#a.popleft()
a.appendleft("a")

In [7]:
# 翻转
a.rotate()
a

deque(['d', 'e', 'a', 'b', 'c'])

In [81]:
# 比较 List 与 deque
list_a = [x for x in range(1,1000000)]
deque_a = deque(list_a)


In [84]:
#%timeit list_a.append(100)
%timeit list_a.pop()

The slowest run took 14.78 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 81.3 ns per loop


In [85]:
#%timeit deque_a.append(100)
%timeit deque_a.pop()

The slowest run took 20.06 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 59.9 ns per loop


In [86]:
%timeit list_a.insert(0,"a") #923 * 1000

1000 loops, best of 3: 923 µs per loop


In [87]:
%timeit deque_a.appendleft("a")

The slowest run took 23.79 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 63.2 ns per loop


### counter
A Counter is a dict subclass for counting hashable objects. It is an unordered collection where elements are stored as dictionary keys and their counts are stored as dictionary values. Counts are allowed to be any integer value including zero or negative counts.

In [9]:
from collections import Counter
a = list('absgctsgabfxtdrafabstxrsg')
c = Counter(a)

In [10]:
c

Counter({'a': 4,
         'b': 3,
         'c': 1,
         'd': 1,
         'f': 2,
         'g': 3,
         'r': 2,
         's': 4,
         't': 3,
         'x': 2})

In [11]:
# 查看TOPN的元素
c.most_common(5)

[('s', 4), ('a', 4), ('g', 3), ('t', 3), ('b', 3)]

In [16]:
from collections import OrderedDict
# regular unsorted dictionary
d = {'banana': 3, 'apple': 4, 'pear': 1, 'orange': 2}

# dictionary sorted by key
OrderedDict(sorted(d.items(), key=lambda t: t[0]))


# # dictionary sorted by value
OrderedDict(sorted(d.items(), key=lambda t: t[1]))


# # dictionary sorted by length of the key string
OrderedDict(sorted(d.items(), key=lambda t: len(t[0])))

OrderedDict([('pear', 1), ('apple', 4), ('orange', 2), ('banana', 3)])

In [21]:
od = OrderedDict(sorted(d.items(), key=lambda t: t[0]))

od.popitem(last = False)

('apple', 4)

In [18]:
od

OrderedDict([('apple', 4), ('banana', 3), ('orange', 2), ('pear', 1)])

## 时间类：datetime

datime模块是专门用于处理时间的类，它是PYTHON的标准库之一，内容复杂且强大，我们只需要学习一个常用的函数即可：
1. 获取时间
2. 字符串与时间的转换
3. 时间的提取
4. 日期之间的计算

In [68]:
# 获取时间
from datetime import datetime 
print(datetime.now())

2018-02-08 21:05:54.034390


In [70]:
# 也可以创建指定的时间
dt = datetime(2017,8,1)
dt

datetime.datetime(2017, 8, 1, 0, 0)

In [71]:
# 字符串与时间的转换
s = '20170901'
s1 = datetime.strptime(s,'%Y%m%d')

s = "2019/05/03"
s2 = datetime.strptime(s,'%Y/%m/%d')

In [73]:
s2

datetime.datetime(2019, 5, 3, 0, 0)

In [77]:
# 日期之间的计算需要用到timedelta模块
from datetime import datetime, timedelta
s2 - s1
s2 + timedelta(100)

datetime.datetime(2019, 8, 11, 0, 0)

In [81]:
# 时间的提取
s1.day
s1.hour
s1.year

2017

In [1]:
s1.date()

NameError: name 's1' is not defined

## 文件和异常

### 文件的读取

In [14]:
#文件的一次性读完
with open('C:/Users/Lotus/Desktop/test.txt') as file_object:  #注意路径不能直接复制粘贴
    content=file_object.read()
    print(content)

Alles Lebendige stirbt eines Tages

Ob wir zum Sterben bereit sind oder nicht

der Tag kommt sicher

Ist das der Engel, der vom d?mmernden Himmel hinunter flog

Ist das der Teufel, der aus der Felsenspalte heraus kroch?

Tr?nen, Arger, Mitleit. Grausamkeit

Frieden, Chaos, Glaube, Verrat

Wir werden gegen unser Schicksal ank?mpfen

Wir dürfen uns nicht in unser Schicksal ergeben

 
Mit Trauer und Entscheidung im Herzen

zeigen wir den Willen weiterzugehen

Niemand darf eigensinnig seines Lebens beraubt werden

 
Mit Trauer und Entscheidung im Herzen

zeigen wir den Willen weiterzugehen

Niemand darf eigensinnig seines Lebens beraubt werden



In [18]:
#逐行读取
filename='C:/Users/Lotus/Desktop/test.txt'

with open(filename) as file_object:
    for line in file_object:
        print(line.rstrip())
#为何会出现这些空白行呢？因为在这个文件中，每行的末尾都有一个看不见的换行符，而 print 语句也会加上一个换行符，因此每行末尾都有两个换行符：一个来自文件，另一
#个来自 print 语句。要消除这些多余的空白行，可在 print 语句中使用 rstrip()

Alles Lebendige stirbt eines Tages

Ob wir zum Sterben bereit sind oder nicht

der Tag kommt sicher

Ist das der Engel, der vom d?mmernden Himmel hinunter flog

Ist das der Teufel, der aus der Felsenspalte heraus kroch?

Tr?nen, Arger, Mitleit. Grausamkeit

Frieden, Chaos, Glaube, Verrat

Wir werden gegen unser Schicksal ank?mpfen

Wir dürfen uns nicht in unser Schicksal ergeben


Mit Trauer und Entscheidung im Herzen

zeigen wir den Willen weiterzugehen

Niemand darf eigensinnig seines Lebens beraubt werden


Mit Trauer und Entscheidung im Herzen

zeigen wir den Willen weiterzugehen

Niemand darf eigensinnig seines Lebens beraubt werden


In [23]:
#逐行读取
#readlines()从文件中读取每一行，并将其存储在一个列表中
#使用关键字 with 时， open() 返回的文件对象只在 with 代码块内可用。如果要在 with 代码块外访问文件的内容，可在 with 代码块内将文件的各行存储在一个列表中，并
#在 with 代码块外使用该列表：你可以立即处理文件的各个部分，也可推迟到程序后面再处理
filename='C:/Users/Lotus/Desktop/test.txt'

with open(filename) as file_object:
    lines=file_object.readlines()
    print(lines)

for line in lines:
    print(line.rstrip())

['Alles Lebendige stirbt eines Tages\n', '\n', 'Ob wir zum Sterben bereit sind oder nicht\n', '\n', 'der Tag kommt sicher\n', '\n', 'Ist das der Engel, der vom d?mmernden Himmel hinunter flog\n', '\n', 'Ist das der Teufel, der aus der Felsenspalte heraus kroch?\n', '\n', 'Tr?nen, Arger, Mitleit. Grausamkeit\n', '\n', 'Frieden, Chaos, Glaube, Verrat\n', '\n', 'Wir werden gegen unser Schicksal ank?mpfen\n', '\n', 'Wir dürfen uns nicht in unser Schicksal ergeben\n', '\n', ' \n', 'Mit Trauer und Entscheidung im Herzen\n', '\n', 'zeigen wir den Willen weiterzugehen\n', '\n', 'Niemand darf eigensinnig seines Lebens beraubt werden\n', '\n', ' \n', 'Mit Trauer und Entscheidung im Herzen\n', '\n', 'zeigen wir den Willen weiterzugehen\n', '\n', 'Niemand darf eigensinnig seines Lebens beraubt werden\n']
Alles Lebendige stirbt eines Tages

Ob wir zum Sterben bereit sind oder nicht

der Tag kommt sicher

Ist das der Engel, der vom d?mmernden Himmel hinunter flog

Ist das der Teufel, der aus der Fel

## 文件的写入

In [29]:
#清空后写入w
filename='C:/Users/Lotus/Desktop/test.txt'

with open(filename,'w') as file_object:
    file_object.write('My name is wufei\n')

#在原始文件基础上附加写入a
with open(filename,'a') as file_object:
    file_object.write('I want to be a Data Scientists')