## 列表和元组，到底用哪一个？

列表是动态的，长度大小不固定，可以随意地增加、删减或者改变元素（mutable）。

而元组是静态的，长度大小固定，无法增加删减或者改变（immutable）。

In [2]:
l = [1, 2, 'hello', 'world']
tup = ('jason', 22) # 
print(l)
tup

[1, 2, 'hello', 'world']


('jason', 22)

In [5]:
l = [1, 2, 3, 4]
l[3] = 40 # 和很多语言类似，python 中索引同样从 0 开始，l[3] 表示访问列表的第四个元素
print(l)
tup = (1, 2, 3, 4)
tup[3] = 40

[1, 2, 3, 40]


TypeError: 'tuple' object does not support item assignment

### 添加元素


In [6]:
tup = (1, 2, 3, 4)
new_tup = tup + (5, ) # 创建新的元组 new_tup，并依次填充原元组的值
print(new_tup)
l = [1, 2, 3, 4]
l.append(5) # 添加元素 5 到原列表的末尾
print(l) 

(1, 2, 3, 4, 5)
[1, 2, 3, 4, 5]


### Python 中的列表和元组都支持负数索引

In [7]:
l = [1, 2, 3, 4]
print(l[-1])
tup = (1, 2, 3, 4)
print(tup[-1])


4
4


### 列表和元组都支持切片操作：

In [8]:
l = [1, 2, 3, 4]
print(l[1:3] ) # 返回列表中索引从 1 到 2 的子列表
 
tup = (1, 2, 3, 4)
tup[1:3] 


[2, 3]


(2, 3)

### 列表和元组都可以随意嵌套：

In [9]:
l = [[1, 2, 3], [4, 5]] # 列表的每一个元素也是一个列表
 
tup = ((1, 2, 3), (4, 5, 6)) # 元组的每一个元素也是一元组

### 两者也可以通过 list() 和 tuple() 函数相互转换：

In [10]:
print(list((1, 2, 3)))
print(tuple([1, 2, 3]))

[1, 2, 3]
(1, 2, 3)


### 列表和元组常用的内置函数：

In [15]:
l = [3, 2, 3, 7, 8, 1]
print(l.count(3))  # 3有几个  = 2
print(l.index(7)) #3
l.reverse()
print(l)
l.sort()
print(l)
 
tup = (3, 2, 3, 7, 8, 1)
print(tup.count(3))
print(tup.index(7))
print(list(reversed(tup)))
print(sorted(tup))

2
3
[1, 8, 7, 3, 2, 3]
[1, 2, 3, 3, 7, 8]
2
3
[1, 8, 7, 3, 2, 3]
[1, 2, 3, 3, 7, 8]


### 列表和元组存储方式的差异

In [16]:
l = [1, 2, 3]
print(l.__sizeof__())

tup = (1, 2, 3)
print(tup.__sizeof__())

 

72
48


In [17]:
%timeit x=(1,2,3,4,5,6)

14.6 ns ± 0.29 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)


In [18]:
%timeit x=[1,2,3,4,5,6]

46.1 ns ± 0.0507 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


## 字典、集合，你真的了解吗？

Python3.7+ 是有序的 

### 字典和集合的创建

In [19]:
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male') 
d1 == d2 == d3 ==d4


True

In [20]:
s1 = {1, 2, 3}
s2 = set([1, 2, 3])
s1 == s2

True

In [24]:
d = {'name': 'jason', 'age': 20}

print(d.get('location', 'null'))

null


### 判断一个元素在不在字典或集合内

In [25]:
s = {1, 2, 3}
print(1 in s)
print(10 in s)
 
d = {'name': 'jason', 'age': 20}
print('name' in d)
print('location' in d)


True
False
True
False


### 字典和集合也同样支持增加、删除、更新等操作。

集合的 pop() 操作是删除集合中最后一个元素，可是集合本身是无序的，你无法知道会删除哪个元素，因此这个操作得谨慎使用。

In [26]:
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
d['dob'] = '1999-02-01' # 增加元素对'dob': '1999-02-01'
print(d)
d['dob'] = '1998-01-01' # 更新键'dob'对应的值 
d.pop('dob') # 删除键为'dob'的元素对
print(d)

 
s = {1, 2, 3}
s.add(4) # 增加元素 4 到集合
print(s)
s.remove(4) # 从集合中删除元素 4
print(s)

{'name': 'jason', 'age': 20, 'gender': 'male', 'dob': '1999-02-01'}
{'name': 'jason', 'age': 20, 'gender': 'male'}
{1, 2, 3, 4}
{1, 2, 3}


In [27]:
d = {'b': 1, 'a': 2, 'c': 10}
print(d.items())

dict_items([('b', 1), ('a', 2), ('c', 10)])


### 字典，我们通常会根据键或值，进行升序或降序排序：

In [28]:
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序
print(d_sorted_by_key)
print(d_sorted_by_value)

[('a', 2), ('b', 1), ('c', 10)]
[('b', 1), ('a', 2), ('c', 10)]


### 集合排序



In [29]:
s = {3, 4, 2, 1}
sorted(s) # 对集合的元素进行升序排序
print(s)

{1, 2, 3, 4}


## 深入浅出字符串

In [30]:
s1 = 'hello'
s2 = "hello"
s3 = """hello"""
s1 == s2 == s3


True

In [31]:
name = 'jason'
print(name[0])
name[1:3]


j


'as'

In [32]:
for char in name:
    print(char)  

j
a
s
o
n


In [36]:
s = ''
for n in range(0, 100):
    s += str(n)

print(s)

0123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899


In [37]:
path = 'hive://ads/training_table'
namespace = path.split('//')[1].split('/')[0] # 返回'ads'
table = path.split('//')[1].split('/')[1] # 返回 'training_table'

In [39]:
s = ' my name is jason '
s.strip()

'my name is jason'

### string.format() 是最新的字符串格式函数与规范

In [41]:
id=1
print('no data available for person with id: {}, name: {}'.format(id, name))


no data available for person with id: 1, name: jason


In [44]:
print('no data available for person with id: %s, name: %s' % (id, name))

no data available for person with id: 1, name: jason


### 由浅及深讲讲 Python 的输入和输出

In [45]:
name = input('your name:')
gender = input('you are a boy?(y/n)')

welcome_str = 'Welcome to the matrix {prefix} {name}.'
welcome_dic = {
    'prefix': 'Mr.' if gender == 'y' else 'Mrs',
    'name': name
}
 
print('authorizing...')
print(welcome_str.format(**welcome_dic))

authorizing...
Welcome to the matrix Mr. mao.


## 文件输入输出


### JSON 序列化与实战

json.dumps() 这个函数，接受 Python 的基本数据类型，然后将其序列化为 string；

而 json.loads() 这个函数，接受一个合法字符串，然后将其反序列化为 Python 的基本数据类型。


In [47]:
import json 
params = {
    'symbol': '123456',
    'type': 'limit',
    'price': 123.4,
    'amount': 23
}
 
params_str = json.dumps(params)
 
print('after json serialization')
print('type of params_str = {}, params_str = {}'.format(type(params_str), params))
 
original_params = json.loads(params_str)
 
print('after json deserialization')
print('type of original_params = {}, original_params = {}'.format(type(original_params), original_params))

after json serialization
type of params_str = <class 'str'>, params_str = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}
after json deserialization
type of original_params = <class 'dict'>, original_params = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}


## 条件与循环

在 for 循环中，如果需要同时访问索引和元素，你可以使用 enumerate() 函数来简化代码。



In [52]:
d = {'name': 'jason', 'dob': '2000-01-01', 'gender': 'male'}
for k in d: # 遍历字典的键
    print(k)

print(d.values())

for v in d.values(): # 遍历字典的值
    print(type(v))
    print(v)

name
dob
gender
dict_values(['jason', '2000-01-01', 'male'])
<class 'str'>
jason
<class 'str'>
2000-01-01
<class 'str'>
male


###  range() 这个函数，拿到索引，再去遍历访问集合中的元素

In [51]:
l = [1, 2, 3, 4, 5, 6, 7]
for index in range(0, len(l)):
    if index < 5:
        print(l[index])    

1
2
3
4
5


In [53]:
l = [1, 2, 3, 4]
index = 0
while index < len(l):
    print(l[index])
    index += 1

1
2
3
4


for item in iterable:
    if condition:
        expression1
    else:
        expression2


expression for item in iterable if condition


绘制 y = 2*|x| + 5 

y = [value * 2 + 5 if value > 0 else -value * 2 + 5 for value in x]


这样的复用并不仅仅局限于一个循环。比如，给定两个列表 x、y，要求返回 x、y 中所有元素对组成的元祖，相等情况除外。那么，你也可以很容易表示出来：

```text
[(xx, yy) for xx in x for yy in y if xx != yy]

l = []
for xx in x:
    for yy in y:
        if xx != yy:
            l.append((xx, yy))
```



In [54]:
attributes = ['name', 'dob', 'gender']
values = [['jason', '2000-01-01', 'male'], 
['mike', '1999-01-01', 'male'],
['nancy', '2001-02-01', 'female']
]

[dict(zip(attributes, value)) for value in values]


[{'name': 'jason', 'dob': '2000-01-01', 'gender': 'male'},
 {'name': 'mike', 'dob': '1999-01-01', 'gender': 'male'},
 {'name': 'nancy', 'dob': '2001-02-01', 'gender': 'female'}]

## 异常处理：如何提高程序的稳定性？

In [None]:
try:
    s = input('please enter two numbers separated by comma: ')
    num1 = int(s.split(',')[0].strip())
    num2 = int(s.split(',')[1].strip())
    ...
except (ValueError, IndexError) as err:
    print('Error: {}'.format(err))

In [None]:
try:
    s = input('please enter two numbers separated by comma: ')
    num1 = int(s.split(',')[0].strip())
    num2 = int(s.split(',')[1].strip())
    ...
except ValueError as err:
    print('Value Error: {}'.format(err))
except IndexError as err:
    print('Index Error: {}'.format(err))
# Exception 是保底的
except Exception as err:
    print('Other error: {}'.format(err))

异常处理中，还有一个很常见的用法是 finally，经常和 try、except 放在一起来用。无论发生什么情况，finally block 中的语句都会被执行，哪怕前面的 try 和 excep block 中使用了 return 语句。

一个常见的应用场景，便是文件的读取：

In [None]:
import sys
try:
    f = open('file.txt', 'r')
   # .... # some data processing
except OSError as err:
    print('OS error: {}'.format(err))
except:
    print('Unexpected error:', sys.exc_info()[0])
finally:
    f.close()

### 用户自定义异常


In [55]:
class MyInputError(Exception):
    """Exception raised when there're errors in input"""
    def __init__(self, value): # 自定义异常类型的初始化
        self.value = value
    def __str__(self): # 自定义异常类型的 string 表达形式
        return ("{} is invalid input".format(repr(self.value)))
    
try:
    raise MyInputError(1) # 抛出 MyInputError 这个异常
except MyInputError as err:
    print('error: {}'.format(err))

error: 1 is invalid input


## 不可或缺的自定义函数

```text
def name(param1, param2, ..., paramN):
    statements
    return/yield value # optional
```


但是，如果我们在函数内部调用其他函数，函数间哪个声明在前、哪个在后就无所谓，因为 def 是可执行语句，函数在调用之前都不存在，我们只需保证调用时，所需的函数都已经声明定义：

函数的声明顺序很重要

In [56]:
my_func('hello world')
def my_func(message):
    print('Got a message: {}'.format(message))
    
# 输出
# NameError: name 'my_func' is not defined

NameError: name 'my_func' is not defined

Python 支持函数的嵌套。所谓的函数嵌套，就是指函数里面又有函数

In [57]:
def f1():
    print('hello')
    def f2():
        print('world')
    f2()
f1()
 

hello
world


函数的嵌套，主要有下面两个方面的作用

第一，函数的嵌套能够保证内部函数的隐私。内部函数只能被外部函数所调用和访问，不会暴露在全局作用域，因此，如果你的函数内部有一些隐私数据（比如数据库的用户、密码等），不想暴露在外，那你就可以使用函数的的嵌套，将其封装在内部函数中，只通过外部函数来访问。


第二，合理的使用函数嵌套，能够提高程序的运行效率

In [59]:
def factorial(input):
    # validation check
    if not isinstance(input, int):
        raise Exception('input must be an integer.')
    if input < 0:
        raise Exception('input must be greater or equal to 0' )
    
    #  递归的时候  上面验证不用再次执行了
    def inner_factorial(input):
        if input <= 1:
            return 1
        return input * inner_factorial(input-1)
    return inner_factorial(input)
 
 
print(factorial(5))

120


### 函数变量作用域


In [61]:
MIN_VALUE = 1
MAX_VALUE = 10
def validation_check(value):
# Python 的解释器会默认函数内部的变量为局部变量，但是又发现局部变量 MIN_VALUE 并没有声明，因此就无法执行相关操作。所以，如果我们一定要在函数内部改变全局变量的值，就必须加上 global 这个声明
    global MIN_VALUE

    MIN_VALUE += 1
validation_check(5)
print(MIN_VALUE)

2


如果遇到函数内部局部变量和全局变量同名的情况，那么在函数内部，局部变量会覆盖全局变量

In [62]:
MIN_VALUE = 1
MAX_VALUE = 10
def validation_check(value):
    MIN_VALUE = 3
print(MIN_VALUE)

1


对于嵌套函数来说，内部函数可以访问外部函数定义的变量，但是无法修改，若要修改，必须加上 nonlocal 这个关键字

In [64]:
def outer():
    x = "local"
    def inner():
        nonlocal x # nonlocal 关键字表示这里的 x 就是外部函数 outer 定义的变量 x
        x = 'nonlocal'
        print("inner:", x)
    inner()
    print("outer:", x)
outer()

inner: nonlocal
outer: nonlocal


### 闭包

外部函数返回的是一个函数，而不是一个具体的值

In [66]:
def nth_power(exponent):
    def exponent_of(base):
        return base ** exponent
    return exponent_of # 返回值是 exponent_of 函数
 
square = nth_power(2) # 计算一个数的平方
cube = nth_power(3) # 计算一个数的立方 
print(square(2))  # 计算 2 的平方
print(cube(2)) # 计算 2 的立方

4
8


## 简约不简单的匿名函数

### 匿名函数基础


lambda argument1, argument2,... argumentN : expression


In [67]:
square = lambda x: x**2
square(3)

9

第一，lambda 是一个表达式（expression），并不是一个语句（statement）

lambda 可以用在一些常规函数 def 不能用的地方，比如，lambda 可以用在列表内部，而常规函数却不能

In [68]:
[(lambda x: x*x)(x) for x in range(10)]


[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [71]:
squared = map(lambda x: x**2, [1, 2, 3, 4, 5])
print(list(squared))


[1, 4, 9, 16, 25]


### 函数式编程

所谓函数式编程，是指代码中每一块都是不可变的（immutable），都由纯函数（pure function）的形式组成。这里的纯函数，是指函数本身相互独立、互不影响，对于相同的输入，总会有相同的输出，没有任何副作用。

map()、filter() 和 reduce()，通常结合匿名函数 lambda 一起使用

In [73]:
l = [1, 2, 3, 4, 5]
new_list = map(lambda x: x * 2, l) # [2， 4， 6， 8， 10]
print(list(new_list))

[2, 4, 6, 8, 10]


In [75]:
l = [1, 2, 3, 4, 5]
new_list = filter(lambda x: x % 2 == 0, l) # [2, 4]
print(list(new_list))

[2, 4]


reduce(function, iterable) 函数，它通常用来对一个集合做一些累积操作

规定它有两个参数，表示对 iterable 中的每个元素以及上一次调用后的结果，运用 function 进行计算，所以最后返回的是一个单独的数值

In [78]:
l = [1, 2, 3, 4, 5]
from functools import reduce
product = reduce(lambda x, y: x * y, l) # 1*2*3*4*5 = 120
print(product)

120


## 面向对象

In [79]:
class Document():
    
    WELCOME_STR = 'Welcome! The context for this book is {}.'
    
    def __init__(self, title, author, context):
        print('init function called')
        self.title = title
        self.author = author
        self.__context = context
    
    # 类函数
    @classmethod
    def create_empty_book(cls, title, author):
        return cls(title=title, author=author, context='nothing')
    
    # 成员函数
    def get_context_length(self):
        return len(self.__context)
    
    # 静态函数
    @staticmethod
    def get_welcome(context):
        return Document.WELCOME_STR.format(context)
 
 
empty_book = Document.create_empty_book('What Every Man Thinks About Apart from Sex', 'Professor Sheridan Simove')
 
 
print(empty_book.get_context_length())
print(empty_book.get_welcome('indeed nothing'))
 

init function called
7
Welcome! The context for this book is indeed nothing.


In [80]:
class Entity():
    def __init__(self, object_type):
        print('parent class init called')
        self.object_type = object_type
    
    def get_context_length(self):
        raise Exception('get_context_length not implemented')
    
    def print_title(self):
        print(self.title)
 
class Document(Entity):
    def __init__(self, title, author, context):
        print('Document class init called')
        Entity.__init__(self, 'document')
        self.title = title
        self.author = author
        self.__context = context
    
    def get_context_length(self):
        return len(self.__context)
    
class Video(Entity):
    def __init__(self, title, author, video_length):
        print('Video class init called')
        Entity.__init__(self, 'video')
        self.title = title
        self.author = author
        self.__video_length = video_length
    
    def get_context_length(self):
        return self.__video_length
 
harry_potter_book = Document('Harry Potter(Book)', 'J. K. Rowling', '... Forever Do not believe any thing is capable of thinking independently ...')
harry_potter_movie = Video('Harry Potter(Movie)', 'J. K. Rowling', 120)
 
print(harry_potter_book.object_type)
print(harry_potter_movie.object_type)
 
harry_potter_book.print_title()
harry_potter_movie.print_title()
 
print(harry_potter_book.get_context_length())
print(harry_potter_movie.get_context_length())

Document class init called
parent class init called
Video class init called
parent class init called
document
video
Harry Potter(Book)
Harry Potter(Movie)
77
120


### 抽象类


抽象类是一种特殊的类，它生下来就是作为父类存在的，一旦对象化就会报错。同样，抽象函数定义在抽象类之中，子类必须重写该函数才能使用。相应的抽象函数，则是使用装饰器 @abstractmethod 来表示。

In [82]:
from abc import ABCMeta, abstractmethod
 
class Entity(metaclass=ABCMeta):
    @abstractmethod
    def get_title(self):
        pass
 
    @abstractmethod
    def set_title(self, title):
        pass
 
# 继承抽象类，必须实现抽象方法
class Document(Entity):
    def get_title(self):
        return self.title
    
    def set_title(self, title):
        self.title = title
 
document = Document()
document.set_title('Harry Potter')
print(document.get_title())
 
# entity = Entity()
 

Harry Potter


## 模块化

```text
在 Python 3 规范中，__init__.py 并不是必须的

export PYTHONPATH="/home/ubuntu/workspace/your_projects"


import 在导入文件的时候，会自动把所有暴露在外面的代码全都执行一遍

__name__ 作为 Python 的魔术内置参数，本质上是模块对象的一个属性。我们使用 import 语句时，__name__ 就会被赋值为该模块的名字，自然就不等于 __main__了。


记着巧用if __name__ == '__main__'来避开 import 时执行。


在大型工程中模块化非常重要，模块的索引要通过绝对路径来做，而绝对路径从程序的根目录开始；



from module_name import *，可以直接使用类、函数、变量等

import module_name，需module_name.func()


模块查找顺序：
先内置模块，然后当前目录模块（sys.path 当前目录在第一个） ，然后sys.path 依次查找
```
