# 输入与输出

## 输出格式美化
Python两种输出值的方式: 表达式语句和 print() 函数。

第三种方式是使用文件对象的 write() 方法，标准输出文件可以用 sys.stdout 引用。

如果你希望输出的形式更加多样，可以使用 str.format() 函数来格式化输出值。

如果你希望将输出的值转成字符串，可以使用 repr() 或 str() 函数来实现。
* str() 函数返回一个用户易读的表达形式
* repr() 产生一个解释器易读的表达形式

In [2]:
s = 'Hello, Runoob'
print(str(s))
print(repr(s))
print(str(1/7))
x = 10 * 3.25
y = 200 * 200
s = 'x 的值为： ' + repr(x) + ',  y 的值为：' + repr(y) + '...'
print(s)

#  repr() 函数可以转义字符串中的特殊字符
hello = 'hello, runoob\n'
hellorepr = repr(hello)
print(hellorepr)
hellostr = str(hello)
print(hellostr)


# repr() 的参数可以是 Python 的任何对象
print(repr((x, y, ('Google', 'Runoob'))))

Hello, Runoob
'Hello, Runoob'
0.14285714285714285
x 的值为： 32.5,  y 的值为：40000...
'hello, runoob\n'
hello, runoob

(32.5, 40000, ('Google', 'Runoob'))


这里有两种方式输出一个平方与立方的表

rjust: 返回一个原字符串右对齐,并使用空格填充至长度 width 的新字符串。如果指定的长度小于字符串的长度则返回原字符串。

In [31]:
for x in range(1, 11):
    print(repr(x).rjust(2), repr(x*x).rjust(3), end=' ')
    # 注意前一行 'end' 的使用
    print(repr(x*x*x).rjust(4))

 1   1    1
 2   4    8
 3   9   27
 4  16   64
 5  25  125
 6  36  216
 7  49  343
 8  64  512
 9  81  729
10 100 1000


下面这张格式化的写法，与上面的写法等价

In [5]:
for x in range(1, 11):
    print('{0:2d} {1:3d} {2:4d}'.format(x, x*x, x*x*x))

 1    1     1
 2    4     8
 3    9    27
 4   16    64
 5   25   125
 6   36   216
 7   49   343
 8   64   512
 9   81   729
10  100  1000


### 空格填充
注意：在第一个例子中, 每列间的空格由 print() 添加。

这个例子展示了字符串对象的 rjust() 方法, 它可以将字符串靠右, 并在左边填充空格。

还有类似的方法, 如 ljust() 和 center()。 这些方法并不会写任何东西, 它们仅仅返回新的字符串。

另一个方法 zfill(), 它会在数字的左边填充 0，如下所示：

In [10]:
print('12'.zfill(5))
print('-3.14'.zfill(7))
print('3.14159265359'.zfill(5))
print('333'.zfill(6))  #填充深市股票代码

00012
-003.14
3.14159265359
000333


### 字符串格式化：str.format()
str.format() 的基本使用如下:

In [34]:
print('{0}网址： "{1}!"'.format('晨星', 'www.morningstar.com'))

晨星网址： "www.morningstar.com!"


括号及其里面的字符 (称作格式化字段) 将会被 format() 中的参数替换。

在括号中的数字用于指向传入对象在 format() 中的位置，如下所示：

In [12]:
print('{0} 和 {1}'.format('Google', 'Facebook'))
print('{1} 和 {0}'.format('Google', 'Facebook'))

Google 和 Facebook
Facebook 和 Google


如果在 format() 中使用了关键字参数, 那么它们的值会指向使用该名字的参数

In [13]:
print('{name}网址： {site}'.format(name='晨星', site='www.morningstar.com'))

晨星网址： www.morningstar.com


位置及关键字参数可以任意的结合

In [14]:
print('站点列表 {0}, {1}, 和 {other}。'.format('Google', 'Morningstar', other='Taobao'))

站点列表 Google, Morningstar, 和 Taobao。


'!a' (使用 ascii()), '!s' (使用 str()) 和 '!r' (使用 repr()) 可以用于在格式化某个值之前对其进行转化:

In [18]:
import math
print('常量 PI 的值近似为： {!s}。'.format(math.pi))
print('常量 PI 的值近似为： {!r}。'.format(math.pi))

常量 PI 的值近似为： 3.141592653589793。
常量 PI 的值近似为： 3.141592653589793。


可选项 ':' 和格式标识符可以跟着字段名。 这就允许对值进行更好的格式化。 下面的例子将 Pi 保留到小数点后三位

In [19]:
import math
print('常量 PI 的值近似为 {0:.3f}。'.format(math.pi))

常量 PI 的值近似为 3.142。


在 ':' 后传入一个整数, 可以保证该域至少有这么多的宽度。 用于美化表格时很有用

In [25]:
table = {'Google': 1, 'Youdao': 2, 'Taobao': 3}
for name, number in table.items():
    print('{0:10} ==> {1:10d}'.format(name, number))

Google     ==>          1
Youdao     ==>          2
Taobao     ==>          3


如果你有一个很长的格式化字符串, 而你不想将它们分开, 那么在格式化时通过变量名而非位置会是很好的事情。

最简单的就是传入一个字典, 然后使用方括号 '[]' 来访问键值 :

In [29]:
table = {'Google': 1, 'Morningstar': 2, 'Taobao': 3}
print('Morningstar: {0[Morningstar]:d}; Google: {0[Google]:d}; Taobao: {0[Taobao]:d}'.format(table))

Morningstar: 2; Google: 1; Taobao: 3


也可以通过在 table 变量前使用 '\*\*' 来实现相同的功能：

In [30]:
table = {'Google': 1, 'Morningstar': 2, 'Taobao': 3}
print('Runoob: {Morningstar:d}; Google: {Google:d}; Taobao: {Taobao:d}'.format(**table))

Runoob: 2; Google: 1; Taobao: 3


## 旧式字符串格式化

% 操作符也可以实现字符串格式化。 它将左边的参数作为类似 sprintf() 式的格式化字符串, 而将右边的代入, 然后返回格式化后的字符串. 例如

In [35]:
import math
print('常量 PI 的值近似为：%5.3f。' % math.pi)

常量 PI 的值近似为：3.142。


因为 str.format() 比较新的函数， 大多数的 Python 代码仍然使用 % 操作符。但是因为这种旧式的格式化最终会从该语言中移除, 应该更多的使用 str.format().

## 文件操作

Python 提供了必要的函数和方法进行默认情况下的文件基本操作。你可以用 file 对象做大部分的文件操作

### open函数

你必须先用Python内置的open()函数打开一个文件，创建一个file对象，相关的方法才可以调用它进行读写。
```file object = open(file_name [, access_mode][, buffering])```
各个参数的细节如下：
- file_name：file_name变量是一个包含了你要访问的文件名称的字符串值。
- access_mode：access_mode决定了打开文件的模式：只读，写入，追加等。所有可取值见如下的完全列表。这个参数是非强制的，默认文件访问模式为只读(r)。
- buffering:如果buffering的值被设为0，就不会有寄存。如果buffering的值取1，访问文件时会寄存行。如果将buffering的值设为大于1的整数，表明了这就是的寄存区的缓冲大小。如果取负值，寄存区的缓冲大小则为系统默认。

<img src='./image/openfile.png' />

文件处理的模式

<img src='./image/filemode.png' />

下图很好的说明的文件处理的各个模式的差异：
<img src='./image/filemode2.png' />

示例：

In [1]:
myfile = open('./txt/readsample.txt', encoding='utf-8', mode='r')

for index, line in enumerate(myfile.readlines()):
    if len(line.strip()) > 0:
        print(line)
    if index == 20:
        break
myfile.close()

【导读】在经历成千上万个小时机器学习训练时间后，计算机并不是唯一学到很多东西的角色，作为开发者和训练者的我们也犯了很多错误，修复了许多错误，从而积累了很多经验。在本文中，作者基于自己的经验（主要基于 TensorFlow）提出了一些训练神经网络的建议，还结合了案例，可以说是过来人的实践技巧了。

通用技巧

有些技巧对你来说可能就是明摆着的事，但在某些时候可能却并非如此，也可能存在不适用的情况，甚至对你的特定任务来说，可能不是一个好的技巧，所以使用时需要务必要谨慎！

▌使用 ADAM 优化器

确实很有效。与更传统的优化器相比，如 Vanilla 梯度下降法，我们更喜欢用ADAM优化器。用 TensorFlow 时要注意：如果保存和恢复模型权重，请记住在设置完AdamOptimizer 后设置 Saver，因为 ADAM 也有需要恢复的状态（即每个权重的学习率）。

▌ReLU 是最好的非线性(激活函数)

就好比 Sublime 是最好的文本编辑器一样。ReLU 快速、简单，而且，令人惊讶的是，它们工作时，不会发生梯度递减的情况。虽然 sigmoid 是常见的激活函数之一，但它并不能很好地在 DNN 进行传播梯度。

▌不要在输出层使用激活函数

这应该是显而易见的道理，但如果使用共享函数构建每个层，那就很容易犯这样的错误：所以请确保在输出层不要使用激活函数。

▌请在每一个层添加一个偏差

这是 ML 的入门知识了：偏差本质上就是将平面转换到最佳拟合位置。在 y=mx+b 中，b 是偏差，允许曲线上下移动到“最佳拟合”位置。

▌使用方差缩放（variance-scaled）初始化

在 Tensorflow 中，这看起来像tf.reemaner.variance_scaling_initializer()。根据我们的经验，这比常规的高斯函数、截尾正态分布（truncated normal）和 Xavier 能更好地泛化/缩放。



#### 使用迭代器获取“大文件”的内容

In [29]:
def read_file(fpath): 
    BLOCK_SIZE = 100 
    with open(fpath, 'r', encoding='utf-8') as f: 
        while True: 
            block = f.read(BLOCK_SIZE) 
            if block: 
                yield block 
            else: 
                return

In [30]:
mytext = read_file('./txt/readsample.txt')
print('---1---')
print(next(mytext).strip())
print('---2---')
print(next(mytext).strip())
print('---3---')
print(next(mytext).strip())
print('---4---')
print(next(mytext).strip())

---1---
【导读】在经历成千上万个小时机器学习训练时间后，计算机并不是唯一学到很多东西的角色，作为开发者和训练者的我们也犯了很多错误，修复了许多错误，从而积累了很多经验。在本文中，作者基于自己的经验（主要基于
---2---
TensorFlow）提出了一些训练神经网络的建议，还结合了案例，可以说是过来人的实践技巧了。

通用技巧
有些技巧对你来说可能就是明摆着的事，但在某些时候可能却并非如此，也可能存在不适用的情况，甚至
---3---
对你的特定任务来说，可能不是一个好的技巧，所以使用时需要务必要谨慎！

▌使用 ADAM 优化器
确实很有效。与更传统的优化器相比，如 Vanilla 梯度下降法，我们更喜欢用ADAM优化器。用 Te
---4---
nsorFlow 时要注意：如果保存和恢复模型权重，请记住在设置完AdamOptimizer 后设置 Saver，因为 ADAM 也有需要恢复的状态（即每个权重的学习率）。

▌ReLU 是最好的非线


### 文件操作的诀窍

#### 暴力遍历文件及文件夹

In [89]:
import os
for (root, dirs, files) in os.walk('./nlpmodel'):
    for filename in files:
        print(os.path.join(root, filename).replace('\\', '/'))
    for dir in dirs:
        print(os.path.join(root, dir).replace('\\', '/'))

./nlpmodel/corpus.dict
./nlpmodel/corpus.mm
./nlpmodel/corpus.mm.index
./nlpmodel/vacategorymodelrawtext.csv
./nlpmodel/vadoccategorydoc2vec.model
./nlpmodel/flair
./nlpmodel/lstm
./nlpmodel/pkuseg
./nlpmodel/text8
./nlpmodel/flair/spam
./nlpmodel/flair/spam/best-model.pt
./nlpmodel/flair/spam/final-model.pt
./nlpmodel/flair/spam/loss.tsv
./nlpmodel/flair/spam/training.log
./nlpmodel/flair/spam/weights.txt
./nlpmodel/lstm/addedbinary.csv
./nlpmodel/lstm/addedbinarybilstm.h5
./nlpmodel/lstm/addedbinarybilstm.json
./nlpmodel/lstm/addedbinarybilstm.yaml
./nlpmodel/lstm/addedbinarybilstm_weight.h5
./nlpmodel/lstm/multiplecategory.csv
./nlpmodel/lstm/multiplecategorybilstm.h5
./nlpmodel/lstm/multiplecategorybilstm.json
./nlpmodel/lstm/multiplecategorybilstm.yaml
./nlpmodel/lstm/multiplecategorybilstm_weight.h5
./nlpmodel/lstm/modellog
./nlpmodel/lstm/modellog/bilstm_epoch_100_batchsize_64_20181226.txt
./nlpmodel/lstm/modellog/bilstm_epoch_500_batchsize_64_20181226.txt
./nlpmodel/pkuseg/weib

#### 创建文件夹

##### 创建单个文件夹

In [90]:
import os
if not os.path.exists('./testcreatedir'):
    os.mkdir('./testcreatedir')

In [91]:
print(os.path.exists('./testcreatedir'))

True


##### 创建文件夹及子文件夹

In [93]:
if not os.path.exists('./testcreatedir/mydir/data'):
    os.makedirs('./testcreatedir/mydir/data')

if not os.path.exists('./testcreatedir/mydir/document'):
    os.makedirs('./testcreatedir/mydir/document')

In [94]:
for (root, dirs, files) in os.walk('./testcreatedir'):
    for dir in dirs:
        print(os.path.join(root, dir).replace('\\', '/'))

./testcreatedir/mydir
./testcreatedir/mydir/data
./testcreatedir/mydir/document


##### 在子文件夹创建文本文件

In [95]:
for (root, dirs, files) in os.walk('./testcreatedir'):
    for index, dir in enumerate(dirs):
        folder = os.path.join(root, dir).replace('\\', '/')
        filename = os.path.join(folder, 'text_{0}.txt'.format(index))
        with open(filename, 'w', encoding='utf-8') as f: 
            f.write('This is the sentence for {0}'.format(filename))

In [96]:
for (root, dirs, files) in os.walk('./testcreatedir'):
    for filename in files:
        print(os.path.join(root, filename).replace('\\', '/'))

./testcreatedir/mydir/text_0.txt
./testcreatedir/mydir/data/text_0.txt
./testcreatedir/mydir/document/text_1.txt


读取文件内容

In [97]:
with open('./testcreatedir/mydir/document/text_1.txt', 'r', encoding='utf-8') as f: 
    print(f.read())

This is the sentence for ./testcreatedir/mydir/document\text_1.txt


#### 文件以及文件夹复制

我们通过引入shutil这个包，完成一些文件复制操作

In [98]:
import shutil

##### 单个文件复制

In [100]:
sourcepath = r'./testcreatedir/mydir/data/text_0.txt'
destpath = r'./testcreatedir/mydir/data/text_1.txt'
shutil.copy(sourcepath, destpath)

'./testcreatedir/mydir/data/text_1.txt'

In [101]:
for (root, dirs, files) in os.walk('./testcreatedir/mydir/data'):
    for filename in files:
        print(os.path.join(root, filename).replace('\\', '/'))

./testcreatedir/mydir/data/text_0.txt
./testcreatedir/mydir/data/text_1.txt


#### 文件夹复制

In [102]:
sourcepath = r'./testcreatedir/mydir/data'
destpath = r'./testcreatedir/mydir/copydata'
if os.path.exists(sourcepath) and not os.path.exists(destpath):
    shutil.copytree(sourcepath, destpath, ignore=shutil.ignore_patterns('*.git'))

In [103]:
for (root, dirs, files) in os.walk('./testcreatedir/mydir'):
    for filename in files:
        print(os.path.join(root, filename).replace('\\', '/'))

./testcreatedir/mydir/text_0.txt
./testcreatedir/mydir/copydata/text_0.txt
./testcreatedir/mydir/copydata/text_1.txt
./testcreatedir/mydir/data/text_0.txt
./testcreatedir/mydir/data/text_1.txt
./testcreatedir/mydir/document/text_1.txt


#### 文件夹或文件重命名

文件夹重命名

In [105]:
if not os.path.exists(r'./testcreatedir/mydir/renamedcopydata'):
    shutil.move(r'./testcreatedir/mydir/copydata', r'./testcreatedir/mydir/renamedcopydata')

文件重命名

In [106]:
if not os.path.exists(r'./testcreatedir/mydir/renamedcopydata/text_0_rename.txt'):
    shutil.move(r'./testcreatedir/mydir/renamedcopydata/text_0.txt', 
                r'./testcreatedir/mydir/renamedcopydata/text_0_rename.txt')

#### 压缩与解压文件

In [107]:
import zipfile
import traceback

In [108]:
rootfolder = r'./testcreatedir/mydir'
filelist = []
for (root, dirs, files) in os.walk('./testcreatedir/mydir/data'):
    for filename in files:
        filelist.append(os.path.join(root, filename).replace('\\', '/'))
print(filelist)

['./testcreatedir/mydir/data/text_0.txt', './testcreatedir/mydir/data/text_1.txt']


将全路径包含在压缩包中：

In [109]:
zippedfile = os.path.join(rootfolder, 'datawithfullpath.zip')
zip = zipfile.ZipFile(zippedfile, 'w', zipfile.ZIP_DEFLATED)
for file in filelist:
    try:
        zip.write(file)
    except Exception as e:
        traceback.print_exc()
zip.close()

压缩包只包含文件，不包含原有的文件夹：

In [110]:
zippedfile = os.path.join(rootfolder, 'puredata.zip')
zip = zipfile.ZipFile(zippedfile, 'w', zipfile.ZIP_DEFLATED)
for file in filelist:
    try:
        purename = os.path.basename(file)
        zip.write(file, purename)
    except Exception as e:
        traceback.print_exc()
zip.close()

解压

In [111]:
zip = zipfile.ZipFile(zippedfile, 'r')
# help(zip.extractall)
zip.extractall(path=r'./testcreatedir/mydir/extracteddata')
zip.close()

#### 级联删除目录及文件

级联删除，即删除某目录下的所有文件、子目录以及子目录中的文件

In [112]:
needdeletefolder = r'./testcreatedir'
if os.path.exists(r'./testcreatedir'):
    shutil.rmtree(needdeletefolder)