## 文件输入输出

### NLP(自然语言处理) 任务的基本步骤
1. 读取文件；
2. 去除所有标点符号和换行符，并把所有大写变成小写；
3. 合并相同的词，统计每个词出现的频率，并按照词频从大到小排序；
4. 将结果按行输出到文件 04输入输出out.txt。

In [1]:
import re
def parse(text):
    # 使用正则表达式去除标点符号和换行符
    text = re.sub(r'[^\w ]', ' ', text)

    # 转为小写
    text = text.lower()
    
    # 生成所有单词的列表
    word_list = text.split(' ')
    
    # 去除空白单词
    word_list = filter(None, word_list)
    
    # 生成单词和词频的字典
    word_cnt = {}
    for word in word_list:
        if word not in word_cnt:
            word_cnt[word] = 0
        word_cnt[word] += 1
    
    # 按照词频排序
    sorted_word_cnt = sorted(word_cnt.items(), key=lambda kv: kv[1], reverse=True)
    
    return sorted_word_cnt

with open('04输入输出in.txt', 'r') as fin:
    text = fin.read()

word_and_freq = parse(text)

with open('04输入输出out.txt', 'w') as fout:
    for word, freq in word_and_freq:
        fout.write('{} {}\n'.format(word, freq))

* 用 open() 函数拿到文件的指针。其中，第一个参数指定文件位置（相对位置或者绝对位置）；第二个参数，如果是 'r'表示读取，如果是'w' 则表示写入，当然也可以用 'rw' ，表示读写都要。a 则是一个不太常用（但也很有用）的参数，表示追加（append），这样打开的文件，如果需要写入，会从原始文件的最末尾开始写入
* 在拿到指针后，我们可以通过 read() 函数，来读取文件的全部内容。代码 text = fin.read() ，即表示把文件所有内容读取到内存中，并赋值给变量 text
* with 语句 : open() 函数对应于 close() 函数，也就是说，如果你打开了文件，在完成读取任务后，就应该立刻关掉它。而如果你使用了 with 语句，就不需要显式调用 close()。在 with 的语境下任务执行完毕后，close() 函数会被自动调用，代码也简洁很多

## JSON

In [3]:
import json

params = {
    'symbol': '123456',
    'type': 'limit',
    'price': 123.4,
    'amount': 23
}

# json.dumps() 这个函数，接受 Python 的基本数据类型，然后将其序列化为 string
params_str = json.dumps(params)

print('after json serialization')
print('type of params_str = {}, params_str = {}'.format(type(params_str), params))

# json.loads() 这个函数，接受一个合法字符串，然后将其反序列化为 Python 的基本数据类型
original_params = json.loads(params_str)

print('after json deserialization')
print('type of original_params = {}, original_params = {}'.format(type(original_params), original_params))

after json serialization
type of params_str = <class 'str'>, params_str = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}
after json deserialization
type of original_params = <class 'dict'>, original_params = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}


### 作业：重写 NLP 

In [4]:
import re

BUFFER_SIZE = 100 # 一次最多读取的字符长度

def parse_to_word_list(text, last_word, word_list):
    text = re.sub(r'[^\w ]', ' ', last_word + text)
    text = text.lower()
    cur_word_list = text.split(' ')
    cur_word_list, last_word = cur_word_list[:-1], cur_word_list[-1]
    word_list += filter(None, cur_word_list)
    return last_word

def solve():
    with open('04输入输出in.txt', 'r') as fin:
        word_list, last_word = [], ''
        while True:
            text = fin.read(BUFFER_SIZE)
            if not text: 
                break
            last_word = parse_to_word_list(text, last_word, word_list)
            
        word_cnt = {}
        for word in word_list:
            if word not in word_cnt:
                word_cnt[word] = 0
            word_cnt[word] += 1
    
        sorted_word_cnt = sorted(word_cnt.items(), key=lambda kv: kv[1], reverse=True)
        return sorted_word_cnt

print(solve())

[('you', 9), ('to', 9), ('the', 8), ('and', 7), ('your', 6), ('of', 6), ('others', 5), ('with', 4), ('do', 4), ('are', 3), ('be', 3), ('word', 3), ('what', 3), ('avoid', 3), ('t', 3), ('is', 3), ('as', 3), ('best', 3), ('four', 2), ('agreements', 2), ('a', 2), ('life', 2), ('speak', 2), ('say', 2), ('don', 2), ('their', 2), ('own', 2), ('when', 2), ('can', 2), ('moment', 2), ('will', 2), ('self', 2), ('living', 1), ('changing', 1), ('journey', 1), ('1', 1), ('impeccable', 1), ('integrity', 1), ('only', 1), ('mean', 1), ('using', 1), ('against', 1), ('yourself', 1), ('or', 1), ('gossip', 1), ('about', 1), ('use', 1), ('power', 1), ('in', 1), ('direction', 1), ('truth', 1), ('love', 1), ('2', 1), ('take', 1), ('anything', 1), ('personally', 1), ('nothing', 1), ('because', 1), ('projection', 1), ('reality', 1), ('dream', 1), ('immune', 1), ('opinions', 1), ('actions', 1), ('won', 1), ('victim', 1), ('needless', 1), ('suffering', 1), ('3', 1), ('make', 1), ('assumptions', 1), ('find', 1), 