## 优等生公开课直播 
2017年5月28号周日 

__本周分享在机器学习与数据分析中使用的 Python 技巧。本次注重于 Python 语言本身，尽量不涉及框架或库。__  
__This Week, I share Python tips in machine learning and data analysis. This share focuses on the Python language, not frameworks or libraries.__

In [11]:
""" 1
Comprehension 生成式 / Generator Expression

我们经常会与序列式的数据打交道（Array、List、哈希表）。Python 提供了简便的生成语法。
"""

_list = [x if x % 2 == 0 else x* 2 for x in range(10)]
print('_list = [x + 1 for x in range(10)] ->', _list)

"这是列表生成式（List Comprehension），非常有用的语法"
"比如我们要计算两个向量的矩阵乘积。"

a = [1, 2, 3]
b = [4, 5, 6]

product = [ [x * y for x in a] for y in b]
for x in product:
    print(x)

_list = [x + 1 for x in range(10)] -> [0, 2, 2, 6, 4, 10, 6, 14, 8, 18]
[4, 8, 12]
[5, 10, 15]
[6, 12, 18]


In [4]:
"列表生成式也是可以条件选择的"
"比如只要挑出一个序列的双数"
result = [ x for x in range(10) if x % 2 == 0]
print(result)

[0, 2, 4, 6, 8]


In [9]:
"生成式也许是对于数据工作者而言最重要的 Python 语法"
"除了 List Comprehension，还有 Dict Comprehension"
d = {x: y for x, y in zip(a, b)}
print(d)

{1: 4, 2: 5, 3: 6}


In [2]:
# 那么你可能会好奇，tuple这样immutable的数据结构能不能使用生成式
_object = (x for x in range(10))
print(_object)

# 由此可见，其实不然。
# 但是，值得注意的是，这里我们得到的是一个生成器 generator object

<generator object <genexpr> at 0x0000010B48545A98>


In [3]:
"""2
生成器 Generator

生成器是可以暂停的函数
"""

# 这是生成器的一种简便语法
_object = (x for x in range(10))

# 但是这种语法只能做到简单的序列式数据的生成

# 完整的语法如下

def xxx():
    yield 1                # 我们使用 yield 关键字
    print('after 1')
    yield "2"
    print('after 2')
    return 4               # 生成式函数可以使用 return。但不是必须的。一切适用于普通函数的法则也适用于生成器函数。

# 调用这个函数不会运行任何的代码，只会得到一个 generator object
x = xxx()

# 一个 generator object 需要用 next 函数去驱动
print(next(x))

1


In [4]:
print(next(x))

# 走到头了（走到 return）就会出现 StopIteration 错误
print(next(x))

after 1
2
after 2


StopIteration: 4

In [6]:
# 所以一般就需要用 try except 将其包住
x = xxx()
try:
    print(next(x))
except StopIteration:
    print("end!!!")
    
try:
    print(next(x))
except StopIteration:
    print("end!!!")

try:
    print(next(x))
except StopIteration:
    print("end!!!")

1
after 1
2
after 2
end!!!


In [28]:
# 不过，很多时候我们就用 generator 来喂一个 for loop。这里 for loop 自动处理 StopIteration
for i in xxx():
    print(i)

1
after 1
2
after 2


In [7]:
# generator 可以调用其他的 generator
def yyy():
    yield "before"
    yield from xxx()
    yield "after"

for y in yyy():
    print(y)

before
1
after 1
2
after 2
after


In [11]:
# generator 也可以做递归（recursion）
def r(n):
    print(n)
    if n < 10:
        yield from r(n+1)
    else:
        yield n

for i in r(1):
    print("result", i)

1
2
3
4
5
6
7
8
9
10
result 10


In [38]:
from glob import iglob, glob   # glob 只是一个方便的读文件路径的函数


""" 有了 generator, 你在机器学习的时候就可以写这样的代码
    这样可以做到省内存

def read():
    return [], []

def feed_data(path):
    for file_path in glob(path):
        with open(file_path) as f:
            yield read(f)

for samples, labels in feed_data('*.data'):
    .....
    moeld.fit(samples, labels)
"""

.\xxxx.txt
None


In [24]:
# Python 中很多东西都是 generator 或者 generator 相关的
# 比如 range
r = iter(range(3))
print(next(r))
print(next(r))
print(next(r))
print(next(r))

# 这里有 iter 函数。generator 和 iterator 以及 iterable 有密切的联系。这里就不多讲了。
# 刚刚的 glob 也和 generator 有关。
# 其实 iglob 是 generator。在源代码中，glob(x) = list(iglob(x))

0
1
2


StopIteration: 

In [45]:
"""3
Python 的运算符
"""

# Python 的除法有小数除法与整数除法之分
print(2/4)
print(2//4)

0.5
0


In [52]:
# Python 的小数取整是向 0 取整。这里和 2's complement 编码关系。
print(int(2.5))
print(int(-2.5))

2
-2


In [53]:
# 小数是 IEEE 的 floating float 编码，所以是不精确的。如果你需要精确的十进制运算，可以使用 decimal 库。
import decimal

3.333333333333333333333333333


In [54]:
"一切 Python 运算符都可以重载 operator overload"

# 比如 + 对于 list 而言是连接两个 list，得到一个新的 list（新的内存）
a = [1,2,3] + [4,5,6]
print(a)

[1, 2, 3, 4, 5, 6]


In [25]:
# 但是 numpy 就重载了这个运算符。变成了一一对应的加法
from numpy import array
print(array([1,2,3]) + array([4,5,6]))

# 这样就会出错
print(array([1,2,3]) + array([4,5,6,7]))

[5 7 9]


ValueError: operands could not be broadcast together with shapes (3,) (4,) 

In [26]:
class A():

    def __init__(self):
        self.l = [1,2,3,4,5]

    # overload ()
    def __call__(self):
        print("12332")
        
    # overload []
    def __getitem__(self, x):
        return self.l[x]
    
    # normal function
    def fun1(self, n):
        print(n)
        
a = A()

a()
a.fun1(1)
a[3]

12332
1


4

In [46]:
# slicing 语法
a = [1,2,3,4,5]
print(a[:], a[::], a[1:5:2], a[2:5:4])
print(a[::-1], a[4::-1], a[4:2:-1], a[4:0:-1], a[4:-1:-1])

print('\n')

# multi slicing
a = array(
    [[1,2,3],
     [4,5,6]]
)
print(a[:, 1])
print(a[1, 1:3])

[1, 2, 3, 4, 5] [1, 2, 3, 4, 5] [2, 4] [3]
[5, 4, 3, 2, 1] [5, 4, 3, 2, 1] [5, 4] [5, 4, 3, 2] []


[2 5]
[5 6]


In [None]:
"总结一下"

# generator expression

# generator function

# operator + - / //

# operator override [], ()



 