## 输入输出基础

* 输入的类型永远是字符串型（str）

In [1]:

name = input('your name:')
gender = input('you are a boy?(y/n)')


welcome_str = 'Welcome to the matrix {prefix} {name}.'
welcome_dic = {
    'prefix': 'Mr.' if gender == 'y' else 'Mrs',
    'name': name
}

print('authorizing...')
print(welcome_str.format(**welcome_dic))



your name:cuncun
you are a boy?(y/n)n
authorizing...
Welcome to the matrix Mrs cuncun.


In [2]:

a = input()

b = input()


print('a + b = {}'.format(a + b))
print('type of a is {}, type of b is {}'.format(type(a), type(b)))


print('a + b = {}'.format(int(a) + int(b)))


1
2
a + b = 12
type of a is <class 'str'>, type of b is <class 'str'>
a + b = 3


## 文件输入输出

首先，我们要清楚 NLP 任务的基本步骤，也就是下面的四步：
   
    读取文件；
    去除所有标点符号和换行符，并把所有大写变成小写；
    合并相同的词，统计每个词出现的频率，并按照词频从大到小排序；
    将结果按行输出到文件 out.txt。

In [6]:

import re

# 你不用太关心这个函数
def parse(text):
    # 使用正则表达式去除标点符号和换行符
    text = re.sub(r'[^\w ]', ' ', text)

    # 转为小写
    text = text.lower()
    
    # 生成所有单词的列表
    word_list = text.split(' ')
    
    # 去除空白单词
    word_list = filter(None, word_list)
    
    # 生成单词和词频的字典
    word_cnt = {}
    for word in word_list:
        if word not in word_cnt:
            word_cnt[word] = 0
        word_cnt[word] += 1
    
    # 按照词频排序
    sorted_word_cnt = sorted(word_cnt.items(), key=lambda kv: kv[1], reverse=True)
    
    return sorted_word_cnt

with open('in.txt', 'r') as fin:
    text = fin.read()

word_and_freq = parse(text)

with open('out.txt', 'w') as fout:
    for word, freq in word_and_freq:
        fout.write('{} {}\n'.format(word, freq))



用 open() 函数拿到文件的指针。
其中，第一个参数指定文件位置（相对位置或者绝对位置）；
第二个参数，
    如果是 'r' 表示读取，
    如果是'w' 则表示写入，
    'rw' ，表示读写都要。
    a 则是一个不太常用（但也很有用）的参数，表示追加（append），会从原始文件的最末尾开始写入。
    
在拿到指针后，我们可以通过 read() 函数，来读取文件的全部内容。代码 text = fin.read() ，即表示把文件所有内容读取到内存中，并赋值给变量 text。这么做自然也是有利有弊：

    优点是方便，接下来我们可以很方便地调用 parse 函数进行分析；
    缺点是如果文件过大，一次性读取可能造成内存崩溃。
    
    
这时，我们可以给 read 指定参数 size ，用来表示读取的最大长度。还可以通过 readline() 函数，每次读取一行，这种做法常用于数据挖掘（Data Mining）中的数据清洗，在写一些小的程序时非常轻便。如果每行之间没有关联，这种做法也可以降低内存的压力。

##  JSON 序列化与实战

JSON ，正能解决这个场景。

    你可以把它简单地理解为两种黑箱：
    第一种，输入这些杂七杂八的信息，比如 Python 字典，输出一个字符串；
    第二种，输入这个字符串，可以输出包含原始信息的 Python 字典。

In [7]:

import json

params = {
    'symbol': '123456',
    'type': 'limit',
    'price': 123.4,
    'amount': 23
}

params_str = json.dumps(params)

print('after json serialization')
print('type of params_str = {}, params_str = {}'.format(type(params_str), params))

original_params = json.loads(params_str)

print('after json deserialization')
print('type of original_params = {}, original_params = {}'.format(type(original_params), original_params))



after json serialization
type of params_str = <class 'str'>, params_str = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}
after json deserialization
type of original_params = <class 'dict'>, original_params = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}


### json.dumps()

接受 Python 的基本数据类型，然后将其序列化为 string；


### json.loads()

接受一个合法字符串，然后将其反序列化为 Python 的基本数据类型。


**请记得加上错误处理

In [8]:

import json

params = {
    'symbol': '123456',
    'type': 'limit',
    'price': 123.4,
    'amount': 23
}

with open('params.json', 'w') as fout:
    params_str = json.dump(params, fout)

with open('params.json', 'r') as fin:
    original_params = json.load(fin)

print('after json deserialization')
print('type of original_params = {}, original_params = {}'.format(type(original_params), original_params))



after json deserialization
type of original_params = <class 'dict'>, original_params = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}
