# 第4章 文本生成

```shell
windows no-cuda
conda install python==3.10
conda install pytorch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 cpuonly -c pytorch
conda install ipykernel
conda install matplotlib
conda install tqdm
conda install tensorboard
```

## 4.1RNN原理及结构
### 4.1.1经典RNN结构
* 输入和输出序列必须等长
### 4.1.2 n VS 1 RNN结构
* 只有最后一个输出
* 用于情感分类或判断类别
### 4.1.3 1 VS n RNN结构
* 输入只有单个
* 两种策略
*   1. 只有第一个输入
*   2. 每一个输入都是一样的
### 4.1.4 n VS m RNN结构
* 这个模型有个特定的名字，Encoder-Decoder，或者Seq2Seq

## 明确任务
* 18个txt文本的小数据集，一个文本代表一种语言类别
* 数据集下载链接如下：https://download.pytorch.org/tutorial/data.zip
* 文件提取及字符处理

In [2]:
from __future__ import unicode_literals, print_function, division
from io import open
import glob
import os
import unicodedata
import string

# ASCII码全部 字母 以及 部分标点符号
all_letters = string.ascii_letters + " .,;'"
n_letters = len(all_letters)

# 得到路径列表
def findFiles(path): 
    return glob.glob(path)

# 将Unicode字符串转换为纯ASCII
# 
def unicodeToAscii(s):
    return ''.join(
        # 每个字符都被分解成基字符和附加的变音符号（如果有的话）
        # 例如，字符"é"会被分解成"e"和一个变音符号
        # 操作后仍是一个字符串
        # for操作遍历字符串
        c for c in unicodedata.normalize('NFD', s)
        # 不保留类别为"Mn"（非间距标记）的字符，即变音符号
        if unicodedata.category(c) != 'Mn'
        # 并且只保留ASCII字符
        and c in all_letters
    )

# 读取文件并分成几行
def readLines(filename):
    lines = open(filename, encoding='utf-8').read().strip().split('\n')
    return [unicodeToAscii(line) for line in lines]

# 构建category_lines字典，每种语言的名字列表
category_lines = {}
all_categories = []
for filename in findFiles('data/names/*.txt'):
    # 得到类别即国家名
    category = os.path.splitext(os.path.basename(filename))[0]
    all_categories.append(category)
    lines = readLines(filename)
    category_lines[category] = lines

n_categories = len(all_categories)

if n_categories == 0:
    raise RuntimeError('Data not found. Make sure that you downloaded data '
        'from https://download.pytorch.org/tutorial/data.zip and extract it to '
        'the current directory.')

print('# categories:', n_categories, all_categories)
print(unicodeToAscii("O'Néàl"))

# categories: 18 ['Arabic', 'Chinese', 'Czech', 'Dutch', 'English', 'French', 'German', 'Greek', 'Irish', 'Italian', 'Japanese', 'Korean', 'Polish', 'Portuguese', 'Russian', 'Scottish', 'Spanish', 'Vietnamese']
O'Neal


* 获取成对训练数据