## Python核心与实战

## 列表和元组:    
* 列表和元组，都是**一个可以放置任意数据类型的有序集合。**
* **列表是动态的**，长度大小不固定，可以随意地增加、删减或者改变元素（mutable）。
* **元组是静态的,不可变的。**，长度大小固定，无法增加删减或者改变（immutable）。
    * 如需对已有的元组做任何“改变”，则需要重新开辟一块内存，创建新的元组。


    
> 元组要比列表更加轻量级一些，所以总体上来说，元组的性能速度要略优于列表

In [6]:
l = [1, 2, 'hello', 'world'] # 列表中同时含有 int 和 string 类型的元素
l

 
tup = ('jason', 22) # 元组中同时含有 int 和 string 类型的元素
tup


('jason', 22)

In [8]:
l = [1, 2, 3, 4]
l[3] = 40 # 和很多语言类似，python 中索引同样从 0 开始，l[3] 表示访问列表的第四个元素
print(l)

 
tup = (1, 2, 3, 4)
tup[3] = 40

[1, 2, 3, 40]


TypeError: 'tuple' object does not support item assignment

In [13]:
tup = (1, 2, 3, 4)
new_tup = tup + (5,) # 创建新的元组 new_tup，并依次填充原元组的值
# 如上构建一个只有一个元素的元组，需要加一个逗号
print(new_tup)

 
l = [1, 2, 3, 4]
l.append(5) # 添加元素 5 到原列表的末尾
l


(1, 2, 3, 4, 5)


[1, 2, 3, 4, 5]

* Python 中的列表和元组都支持负数索引

In [16]:
l = [1,2,3,4,5]
print(l[-1])

tup = (1,2,3,4,5)
print(tup[-2])

5
4


* 列表和元组都支持切片操作

In [19]:
l = [1,2,3,4,5]
print(l[1:4])   #返回1到3的子列表

tup = (1,2,3,4,5)
print(tup[2:5])    # 返回2到4的子列表

[2, 3, 4]
(3, 4, 5)


* 列表和元组都可以随意嵌套

In [None]:
l = [[1,2,3], [4,5]]    # 列表的每一个元素也是一个列表
print(l)

tup = ((1,2,3), (4,5,6))    #元组的每一个


* 两者也可以通过 list() 和 tuple() 函数相互转换

In [1]:
list((1,2,3,4))

[1, 2, 3, 4]

In [2]:
tuple([1,2,3,4])

(1, 2, 3, 4)

* 内置函数：
    * count(item) 表示统计列表 / 元组中 item 出现的次数。
    * index(item) 表示返回列表 / 元组中 item 第一次出现的索引。
    * list.reverse() 和 list.sort() 分别表示原地倒转列表和排序（注意，元组没有内置的这两个函数)。
    * reversed() 和 sorted() 同样表示对列表 / 元组进行倒转和排序，但是会返回一个倒转后或者排好序的新的列表 / 元组。

In [3]:
l = [3,2,3,7,8,1]
l.count(3)

2

In [4]:
l.index(1)

5

In [5]:
l.reverse()

In [6]:
l

[1, 8, 7, 3, 2, 3]

In [7]:
l.sort()

In [8]:
l

[1, 2, 3, 3, 7, 8]

In [17]:
a = reversed(l)

In [18]:
list(a)

[8, 7, 3, 3, 2, 1]

In [19]:
sorted(l)

[1, 2, 3, 3, 7, 8]

* **为了减小每次增加 / 删减操作时空间分配的开销，Python 每次分配空间时都会额外多分配一些，这样的机制（over-allocating）保证了其操作的高效性：增加 / 删除的时间复杂度均为 O(1)。**
* 元组长度大小固定，元素不可变，所以存储空间固定。


* Python 会在后台，对静态数据做一些**资源缓存（resource caching）**。通常来说，因为垃圾回收机制的存在，如果一些变量不被使用了，Python 就会回收它们所占用的内存，返还给操作系统，以便其他变量或其他应用使用。

* 但是对于一些静态变量，比如元组，如果它不被使用并且占用空间不大时，Python 会暂时缓存这部分内存。这样，下次我们再创建同样大小的元组时，Python 就可以不用再向操作系统发出请求，去寻找内存，而是可以直接分配之前缓存的内存空间，这样就能大大加快程序的运行速度。

* 初始化列表和元组的时间对比:元组比列表要快上5倍

```shell
python3 -m timeit 'x=(1,2,3,4,5,6)'
20000000 loops, best of 5: 9.97 nsec per loop
python3 -m timeit 'x=[1,2,3,4,5,6]'
5000000 loops, best of 5: 50.1 nsec per loop
```

* **索引操作**对比：两者速度差别非常小
```shell
python3 -m timeit -s 'x=[1,2,3,4,5,6]' 'y=x[3]'
10000000 loops, best of 5: 22.2 nsec per loop
python3 -m timeit -s 'x=(1,2,3,4,5,6)' 'y=x[3]'
10000000 loops, best of 5: 21.9 nsec per loop
```

#### 列表和元组的使用场景：
1. 如果存储的数据和数量不变，比如有一个函数，需要返回一个地点的经纬度，然后直接传给前端渲染，则选择元组更合适；
2. 如果存储的数据或数量是可变的，比如社交平台上的一个日志功能，是统计一个用户在一周之内看了哪些用户的帖子，那么则用列表更合适。

#### 总结
列表是动态的，长度可变，可以随意的增加、删减或改变元素。列表的存储空间略大于元组，性能略逊于元组。

元组是静态的，长度大小固定，不可以对元素进行增加、删减或者改变操作。元组相对于列表更加轻量级，性能稍优。

In [30]:
empty_list = list()
print(type(empty_list))
print(empty_list.__sizeof__())
print(empty_list)

<class 'list'>
40
[]


In [31]:
empty_list = []
print(type(empty_list))
print(empty_list.__sizeof__())
print(empty_list)

<class 'list'>
40
[]


```python
# 创建空列表
# option A
empty_list = list()
 
# option B
empty_list = []
```
> 上面两种创建列表方式的区别主要在于list()是一个function call，Python的function call会创建stack，并且进行一系列参数检查的操作，比较expensive，反观[]是一个内置的C函数，可以直接被调用，因此效率高。

## 字典、集合

* 字典是一系列由键（key）和值（value）配对组成的元素的集合。
* 相比于列表和元组，字典的性能更优，特别是对于查找、添加和删除操作，字典都能在常数时间复杂度内完成。
* 而集合和字典基本相同，唯一的区别，就是集合没有键和值的配对，是一系列无序的、唯一的元素组合。

In [32]:
d1 = {'name':'soufal','age': 20,}

In [38]:
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male') 
d1 == d2 == d3 ==d4

True

In [39]:
s1 = {1, 2, 3}
s2 = set([1, 2, 3])
s1 == s2

True

In [37]:
'soufal' in d1

False

* 字典访问可以直接索引键，如果不存在，就会抛出异常.


In [49]:
d = {'name': 'jason', 'age': 20}
d['name']


'jason'

In [50]:

d['location']

KeyError: 'location'

In [51]:
# 也可以使用get(key,default),如果键不存在，调用 get() 函数可以返回一个默认值。
d = {'name': 'jason', 'age': 20}
d.get('name')


'jason'

In [52]:

d.get('location', 'haha')

'haha'

* 集合并不支持索引操作，因为集合本质上是一个哈希表，和列表不一样。

In [54]:
s = {1, 2, 3}
s[0]

TypeError: 'set' object is not subscriptable

* 想要判断一个元素(key)在不在字典或集合内，我们可以用 value in dict/set 来判断。

In [59]:
s = {1, 2, 3}
1 in s

True

In [60]:
4 in s

False

In [61]:
d = {'name': 'jason', 'age': 20}
'name' in d

True

In [62]:
1 in d

False

* 除了创建和访问，字典和集合也同样支持增加、删除、更新等操作。

In [1]:
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
d['dob'] = '1999-02-01' # 增加元素对'dob': '1999-02-01'

In [2]:
d

{'name': 'jason', 'age': 20, 'gender': 'male', 'dob': '1999-02-01'}

In [3]:
d['dob'] = '1998-01-01' # 更新键'dob'对应的值 
d.pop('dob') # 删除键为'dob'的元素对

'1998-01-01'

In [4]:
d

{'name': 'jason', 'age': 20, 'gender': 'male'}

In [5]:
s = {1, 2, 3}
s.add(4) # 增加元素 4 到集合

In [6]:
s

{1, 2, 3, 4}

In [7]:
s.remove(4) # 从集合中删除元素 4
s

{1, 2, 3}

> 集合的 pop() 操作是删除集合中最后一个元素，可是集合本身是无序的，你无法知道会删除哪个元素。

* 对于字典，我们通常会根据键或值，进行升序或降序排序

In [18]:
d = {'b': 1, 'a': 2, 'c': 10}
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序


* 排序后会返回一个列表，由原字典的键和值组成的元组。

In [19]:
d_sorted_by_key

[('a', 2), ('b', 1), ('c', 10)]

In [20]:
d_sorted_by_value

[('b', 1), ('a', 2), ('c', 10)]

* 对于集合，其排序和前面讲过的列表、元组很类似，直接调用 sorted(set) 即可，结果会返回一个排好序的列表

In [11]:
s = {3, 4, 2, 1}
sorted(s) # 对集合的元素进行升序排序

[1, 2, 3, 4]

* 字典和集合的性能：
    * 

In [23]:
def find_unique_price_using_list(products):
    unique_price_list = []
    for _, price in products: # A
        if price not in unique_price_list: #B
            unique_price_list.append(price)
    return len(unique_price_list)


def find_unique_price_using_set(products):
    unique_price_set = set()
    for _, price in products:
        unique_price_set.add(price)
    return len(unique_price_set) 


import time
id = [x for x in range(0, 100000)]
price = [x for x in range(200000, 300000)]
products = list(zip(id, price))
 
# 计算列表版本的时间
start_using_list = time.perf_counter()
find_unique_price_using_list(products)
end_using_list = time.perf_counter()
print("time elapse using list: {}".format(end_using_list - start_using_list))
## 输出
 
# 计算集合版本的时间
start_using_set = time.perf_counter()
find_unique_price_using_set(products)
end_using_set = time.perf_counter()
print("time elapse using set: {}".format(end_using_set - start_using_set))

time elapse using list: 68.83332419999999
time elapse using set: 0.01061749999996664


* 字典和集合的工作原理：
    * 字典和集合的内部结构都是一张哈希表。
        * 字典：这张表存储了哈希值（hash）、键和值这3个元素；
        * 集合：哈希表内没有键和值的配对，只有单一的元素了。
    * 插入操作：
        * 每次向字典或集合插入一个元素时，Python会先计算键的哈希值（hash（key）），再和`mask=PyDicMinSize-1`做与操作，计算这个元素应该插入哈希表的位置`index=hash（key）&mask`。如果哈希表中此位置是空的，那么这个元素就会被插入其中。
        * 如果此位置被占用，则会比较两个元素的哈希值和键是否相等。
            * 如果两者相等，则表明这个元素存在，如果值不同，则更新值。
            * 若两者中有一个不相等，---》哈希冲突（hash collision），意思是两个元素的键不相等，但是哈希值相等。这种情况下，Python便继续寻找表中空余的位置，直到找到位置为止。--》一般来说这种情况最简单的是线性寻找。
    * 查找操作：
        * 会根据哈希值，找到其应该处于的位置，然后，比较哈希表这个位置中元素的哈希值和键，与需要查找的元素是否相等。
            * 如果相等，则直接返回；
            * 如果不等，则继续查找，直到找到空位或者抛出异常为止。
    * 删除操作：
        * 会暂时对这个位置的元素，赋予一个特殊的值，等到重新调整哈希表的大小时，再将其删除。
> 哈希冲突的发生，往往会降低字典和集合操作的速度。因此，为了保证其高效性，字典和集合内的哈希表，通常会保证其至少留有1/3的剩余空间。随着元素的不停插入，当剩余空间小于1/3时，python会重新获取更大的内存空间，扩充哈希表。不过，这时表内所有的元素位置都会被重新排放。

## 字符串：

### 字符串基础：
*字符串是由独立字符组成的一个序列，通常包含在单引号（''）双引号（""）或者三引号之中（''' '''或""" """，两者一样）。*    
* 方便在字符串中，内嵌带引号的字符串。


In [24]:
s1 = 'hello'
s2 = "hello"
s3 = """hello"""
s1==s2==s3

True

In [25]:
s4 = "I' am a Chinese."
print(s4)

I' am a Chinese.


* Python 的三引号字符串，则主要应用于多行字符串的情境，比如函数的注释等等。

In [26]:
def calculate_similarity(item1, item2):
    """
    Calculate similarity between two items
    Args:
        item1: 1st item
        item2: 2nd item
    Returns:
      similarity score between item1 and item2
    """

* Python也支持转义字符：
    * `\newline`：接下一行。
    * `\\`：表示`\`。
    * `\'`：表示单引号`'`。
    * `\"`：表示双引号`"`。
    * `\n`：换行。
    * `\t`：横向制表符。
    * `\b`：退格。
    * `\v`：纵向制表符。

In [27]:
s = 'a\nb\tc'
print(s)

a
b	c


### 字符串的常用操作：
* 支持索引、切片和遍历等：
    * 和其他数据结构，如列表、元组一样，字符串的索引同样从 0 开始，index=0 表示第一个元素（字符），[index:index+2] 则表示第 index 个元素到 index+1 个元素组成的子字符串。

In [30]:
name = 'jason'
print(name[0])

print(name[1:3])


j
as


In [32]:
for char in name:
    print(char)

j
a
s
o
n


* Python 的字符串是不可变的（immutable）。因此，用下面的操作，来改变一个字符串内部的字符是错误的，不允许的。

In [33]:
s = 'hello'
s[0] = 'H'

TypeError: 'str' object does not support item assignment

* Python 中字符串的改变，通常只能通过创建新的字符串来完成。
    * 第一种方法，是直接用大写的'H'，通过加号'+'操作符，与原字符串切片操作的子字符串拼接而成新的字符串。

    * 第二种方法，是直接扫描原字符串，把小写的'h'替换成大写的'H'，得到新的字符串。

In [35]:
s = 'H' + s[1:]
print(s)

Hello


In [37]:
s = s.replace('H', 'h')
print(s)

hello


* 使用加法操作符'+='的字符串拼接方法。因为它是一个例外，打破了字符串不可变的特性。    

```python
str1 += str2  # 表示 str1 = str1 + str2

```

In [38]:
s = ''
for n in range(0, 100000):
    s += str(n)

> 自从 Python2.5 开始，每次处理字符串的拼接操作时（str1 += str2），Python 首先会检测 str1 还有没有其他的引用。如果没有的话，就会尝试原地扩充字符串 buffer 的大小，而不是重新分配一块内存来创建新的字符串并拷贝。上述例子中的时间复杂度就仅为 O(n) 了。

* 对于字符串拼接问题，除了使用加法操作符，我们还可以使用字符串内置的 join 函数。string.join(iterable)，表示把每个元素都按照指定的格式连接起来。

In [39]:
l = []
for n in range(0, 100000):
    l.append(str(n))
l = ' '.join(l) 

* 字符串的分割函数 split()。string.split(separator)，表示把字符串按照 separator 分割成子字符串，并返回一个分割后子字符串组合的列表。

In [40]:
def query_data(namespace, table):
    """
    given namespace and table, query database to get corresponding
    data         
    """
 
path = 'hive://ads/training_table'
namespace = path.split('//')[1].split('/')[0] # 返回'ads'
table = path.split('//')[1].split('/')[1] # 返回 'training_table'
data = query_data(namespace, table) 

* 常见的函数还有：

    * string.strip(str)，表示去掉首尾的 str 字符串；

    * string.lstrip(str)，表示只去掉开头的 str 字符串；

    * string.rstrip(str)，表示只去掉尾部的 str 字符串。
    
    * string.find(sub, start, end)，表示从 start 到 end 查找字符串中子字符串 sub 的位置

### 字符串的格式化：
* 通常，我们使用一个字符串作为模板，模板中会有格式符。这些格式符为后续真实值预留位置，以呈现出真实值应该呈现的格式。字符串的格式化，通常会用在程序的输出、logging 等场景。
* string.format()，就是所谓的格式化函数；而大括号{}就是所谓的格式符，用来为后面的真实值——变量 name 预留位置。


In [42]:
id = 0

In [43]:
print('no data available for person with id: {}, name: {}'.format(id, name))

no data available for person with id: 0, name: jason


### 总结：
* Python 中字符串使用单引号、双引号或三引号表示，三者意义相同，并没有什么区别。其中，三引号的字符串通常用在多行字符串的场景。

* Python 中字符串是不可变的（前面所讲的新版本 Python 中拼接操作’+='是个例外）。因此，随意改变字符串中字符的值，是不被允许的。

* Python 新版本（2.5+）中，字符串的拼接变得比以前高效了许多，你可以放心使用。

* Python 中字符串的格式化（string.format）常常用在输出、日志的记录等场景。

In [57]:
s = ''
start_using_list = time.perf_counter()
for n in range(1, 1000000):
    s += str(n)
end_using_list = time.perf_counter()
print("time elapse using list: {}".format(end_using_list - start_using_list))

time elapse using list: 2.478383799999847


In [58]:
l = []
start_using_list = time.perf_counter()
for n in range(1, 1000000):
    l.append(str(n))
s = ' '.join(l)
end_using_list = time.perf_counter()
print("time elapse using list: {}".format(end_using_list - start_using_list))

time elapse using list: 0.4781186999998681


In [59]:
start_using_list = time.perf_counter()
s = " ".join(map(str, range(0, 1000000)))
end_using_list = time.perf_counter()
print("time elapse using list: {}".format(end_using_list - start_using_list))

time elapse using list: 0.30484759999990274


In [60]:
print(f'My name is {name}')

My name isjason


## 输入与输出：
* 来自键盘操作：
input() 函数暂停程序运行，同时等待键盘输入；直到回车被按下，函数的参数即为提示语，输入的类型永远是字符串型（str）。

In [62]:
name = input('your name:')
gender = input('you are a boy?(y/n)')
 
###### 输入 ######

 
welcome_str = 'Welcome to the matrix {prefix} {name}.'
welcome_dic = {
    'prefix': 'Mr.' if gender == 'y' else 'Mrs',
    'name': name
}
 
print('authorizing...')
print(welcome_str.format(**welcome_dic))

your name: soufal
you are a boy?(y/n) n


authorizing...
Welcome to the matrix Mrs soufal.



* 把 str 强制转换为 int 请用 int()，转为浮点数请用 float()：


```python
a = input()
1
b = input()
2
 
print('a + b = {}'.format(a + b))
########## 输出 ##############
a + b = 12
print('type of a is {}, type of b is {}'.format(type(a), type(b)))
########## 输出 ##############
type of a is <class 'str'>, type of b is <class 'str'>
print('a + b = {}'.format(int(a) + int(b)))
########## 输出 ##############
a + b = 3
```

* Python 对 int 类型没有最大限制（相比之下， C++ 的 int 最大为 2147483647，超过这个数字会产生溢出），但是对 float 类型依然有精度限制。

### 文件输入输出：
* 命令行的输入输出，只是 Python 交互的最基本方式，适用一些简单小程序的交互。而生产级别的 Python 代码，大部分 I/O 则来自于文件、网络、其他进程的消息等等。

In [66]:
import re

def parse(text):
    """
    对输入的文本数据进行处理。
    """
    # 使用正则表达式去除标点符号和换行符
    text = re.sub(r'[^\w]', ' ', text)
    
    # 转为小写
    text = text.lower()
    
    # 生成所有单词的列表
    word_list = text.split(' ')
    
    # 去除空白单词
    word_list = filter(None, word_list)
    
    # 生成单词和词频的字典
    word_cnt = {}
    for word in word_list:
        if word not in word_cnt:
            word_cnt[word] = 1
        else:
            word_cnt[word] += 1
    
    # 按照词频排序
    sorted_word_cnt = sorted(word_cnt.items(), key=lambda kv: kv[1], reverse=True)
    print(sorted_word_cnt)
    return sorted_word_cnt

with open('in.txt', 'r') as fin:
    text = fin.read()

word_and_freq = parse(text)

with open('out.txt', 'w') as fout:
    for word, freq in word_and_freq:
        fout.write(f'{word} {freq}\n')
    

[('and', 15), ('be', 13), ('will', 11), ('to', 11), ('the', 10), ('of', 10), ('a', 8), ('we', 8), ('day', 6), ('able', 6), ('every', 6), ('together', 6), ('i', 5), ('have', 5), ('dream', 5), ('that', 5), ('one', 5), ('with', 5), ('this', 5), ('in', 4), ('shall', 4), ('free', 4), ('when', 4), ('little', 3), ('black', 3), ('white', 3), ('made', 3), ('faith', 3), ('at', 3), ('last', 3), ('children', 2), ('nation', 2), ('by', 2), ('their', 2), ('today', 2), ('alabama', 2), ('boys', 2), ('girls', 2), ('join', 2), ('hands', 2), ('mountain', 2), ('places', 2), ('all', 2), ('it', 2), ('our', 2), ('hope', 2), ('up', 2), ('freedom', 2), ('ring', 2), ('from', 2), ('god', 2), ('men', 2), ('my', 1), ('four', 1), ('live', 1), ('where', 1), ('they', 1), ('not', 1), ('judged', 1), ('color', 1), ('skin', 1), ('but', 1), ('content', 1), ('character', 1), ('down', 1), ('its', 1), ('vicious', 1), ('racists', 1), ('right', 1), ('there', 1), ('as', 1), ('sisters', 1), ('brothers', 1), ('valley', 1), ('exalt

* 先要用 open() 函数拿到文件的指针。其中，第一个参数指定文件位置（相对位置或者绝对位置）；第二个参数，如果是 'r'表示读取，如果是'w' 则表示写入，当然也可以用 'rw' ，表示读写都要。a 则是一个不太常用（但也很有用）的参数，表示追加（append），这样打开的文件，如果需要写入，会从原始文件的最末尾开始写入。
* 在拿到指针后，我们可以通过 read() 函数，来读取文件的全部内容。代码 text = fin.read() ，即表示把文件所有内容读取到内存中，并赋值给变量 text。这么做自然也是有利有弊：

    * 优点是方便，接下来我们可以很方便地调用 parse 函数进行分析；
    * 缺点是如果文件过大，一次性读取可能造成内存崩溃。
    * 我们可以给 read 指定参数 size ，用来表示读取的最大长度。还可以通过 readline() 函数，每次读取一行，这种做法常用于数据挖掘（Data Mining）中的数据清洗，在写一些小的程序时非常轻便。如果每行之间没有关联，这种做法也可以降低内存的压力。
* write() 函数，可以把参数中的字符串输出到文件中，也很容易理解。

### JSON 序列化与实战
* JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，它的设计意图是把所有事情都用设计的字符串来表示，这样既方便在互联网上传递信息，也方便人进行阅读（相比一些 binary 的协议）。
* 我们要讲的 JSON 可以把它简单地理解为两种黑箱：

    * 第一种，输入这些杂七杂八的信息，比如 Python 字典，输出一个字符串；

    * 第二种，输入这个字符串，可以输出包含原始信息的 Python 字典。

In [68]:
import json
 
params = {
    'symbol': '123456',
    'type': 'limit',
    'price': 123.4,
    'amount': 23
}
 
params_str = json.dumps(params)
 
print('after json serialization')
print('type of params_str = {}, params_str = {}'.format(type(params_str), params))
 
original_params = json.loads(params_str)
 
print('after json deserialization')
print('type of original_params = {}, original_params = {}'.format(type(original_params), original_params))

after json serialization
type of params_str = <class 'str'>, params_str = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}
after json deserialization
type of original_params = <class 'dict'>, original_params = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}


* json.dumps() 这个函数，接受 Python 的基本数据类型，然后将其序列化为 string；

* 而 json.loads() 这个函数，接受一个合法字符串，然后将其反序列化为 Python 的基本数据类型.

In [69]:
import json
 
params = {
    'symbol': '123456',
    'type': 'limit',
    'price': 123.4,
    'amount': 23
}
 
with open('params.json', 'w') as fout:
    params_str = json.dump(params, fout)
 
with open('params.json', 'r') as fin:
    original_params = json.load(fin)
 
print('after json deserialization')
print('type of original_params = {}, original_params = {}'.format(type(original_params), original_params))

after json deserialization
type of original_params = <class 'dict'>, original_params = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}


### 总结：
* I/O 操作需谨慎，一定要进行充分的错误处理，并细心编码，防止出现编码漏洞；

* 编码时，对内存占用和磁盘占用要有充分的估计，这样在出错时可以更容易找到原因；

* JSON 序列化是很方便的工具，要结合实战多多练习；

* 代码尽量简洁、清晰，哪怕是初学阶段，也要有一颗当元帅的心。

In [None]:
import re

def parse(text):
    """
    对输入的文本数据进行处理。
    """
    # 使用正则表达式去除标点符号和换行符
    text = re.sub(r'[^\w]', ' ', text)
    
    # 转为小写
    text = text.lower()
    
    # 生成所有单词的列表
    word_list = text.split(' ')
    
    # 去除空白单词
    word_list = filter(None, word_list)
    
    # 生成单词和词频的字典
    word_cnt = {}
    for word in word_list:
        if word not in word_cnt:
            word_cnt[word] = 1
        else:
            word_cnt[word] += 1
    
    # 按照词频排序
    sorted_word_cnt = sorted(word_cnt.items(), key=lambda kv: kv[1], reverse=True)
    print(sorted_word_cnt)
    return sorted_word_cnt

with open('in.txt', 'r') as fin:
    text = fin.read()

word_and_freq = parse(text)

with open('out.txt', 'w') as fout:
    for word, freq in word_and_freq:
        fout.write(f'{word} {freq}\n')
    

In [None]:
condition_dict = {
    'write' : 0,
    'copy'  : 0,
    'delete'    : 0
}

def server(condition_f):
    with open(condition_f, 'r') as fin:
        message = json.load(fin)

    if message['copy'] & message['delete']:
        send_to_dropbox(5)
        message['write'] = 1
        with open(condition_f, 'w') as fout:
            condition_str = json.dump(message, fout)
        send_file_to_clint(condition_f)
    else:
        writing()

def client(condition_f):
    with open(condition_f, 'r') as fin:
        message = json.load(condition_dict)
    
    if message['write']:
        copy_data()
        delete_dropbox()
        message['write'] = 0
        message['copy'] = 1
        message['delete'] = 1
        with open(condition_f, 'w') as fout:
            condition_str = json.dump(message, fout)
        send_file_to_server(condition_f)
    else:
        writing()