# 一、The Multilayer Perceptron（多层感知器）  
多层感知器（Multilayer Perceptron，MLP）是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。
在MLP中，信息从输入层经过一系列的隐藏层传递到输出层。每个隐藏层都与下一层全连接，意味着每个节点都与下一层的每个节点相连。   

   
因此，MLP可以被看做一个有向图，由多个的节点层所组成，每一层都全连接到下一层。在网络中，除输入节点，每个节点都是一个带有非线性激活函数的神经元（或称为处理单元）。

MLP 使用一种叫做反向传播的监督学习方法进行训练。其也可以用于分类问题，其中输出通常通过 softmax 函数进行调整以表示概率分布。  
Softmax函数将网络的原始输出转换为表示各个类别概率的形式，从而使得网络可以输出对不同类别的概率预测。

具体来说，MLP可以分为以下的主要要素：  

    
1.层数和大小：  
MLP由多层节点组成，包括输入层、隐藏层和输出层。隐藏层可以有一个或多个，并且每个隐藏层可以包含不同数量的节点。  
输入层的节点数由特征的数量决定，输出层的节点数由任务的类别数量决定。

2.权重和偏置：  
每个连接都有一个权重，它表示了两个相连节点之间的连接强度。  
每个节点（除了输入节点）都有一个偏置，它可以帮助模型更好地拟合数据。

3.激活函数：  
每个节点都有一个激活函数，它用来引入非线性特性。常用的激活函数包括sigmoid函数、tanh函数、ReLU函数等。  
激活函数使得神经网络可以学习非线性关系，从而提高其表达能力。

4.反向传播和优化：  
MLP通常使用梯度下降优化算法进行训练，其中权重的更新利用反向传播算法来计算损失函数的梯度。  
反向传播算法通过链式法则来计算损失函数对于每个参数的梯度，从而实现参数的更新。

5.损失函数：  
损失函数用来量化模型的预测与实际目标值之间的差异。常见的损失函数包括交叉熵损失函数、平方误差损失函数等。  
优化算法的目标是最小化损失函数，以使模型的预测尽可能接近真实的目标值。


总的来说，MLP作为一种通用的神经网络结构，具有良好的表达能力，可以应用于各种监督学习任务，特别是在分类问题中有着广泛的应用。  
一些适用 MLP 的常见任务包括分类（如垃圾邮件检测，图像分类）和回归（如房价预测）。  

![](https://yifdu.github.io/2018/12/20/Natural-Language-Processing-with-PyTorch%EF%BC%88%E5%9B%9B%EF%BC%89/MLP.png)
<font color='grey'><center>图1.1 一种具有两个线性层和三个表示阶段（输入向量、隐藏向量和输出向量)的MLP的可视化表示</font></center>

# 二、将MLP应用于将姓氏分类到其原籍国  

**2.1 任务介绍**  
现在，我们将MLP应用于将姓氏分类到其原籍国的任务。这是一个文本分类问题，其中输入是姓氏字符串，输出是姓氏所属的国家或地区。

首先，在收集数据前需要明确：  
1.在使用人口统计信息时需要遵循公平和合规原则，人口统计信息和其他自我识别信息被统称为“受保护属性”，这表示这些信息可能受到法律保护，因为它们可能涉及个人隐私和歧视等问题。    
  
2.在使用这些属性时，必须确保结果是公平的。这意味着在产品推荐、服务提供、社会政策等方面，不能因为个人的人口统计信息而导致不公平的对待或歧视。   
3. 在建立模型和设计产品时，必须小心处理这些属性。这包括确保在模型训练和产品设计中不会因为这些属性而引入偏见或歧视，以及遵守相关的法律法规。   
  
之后我们准备好数据集，数据集应包含姓氏及其对应的国家或地区标签并经过预处理，如标准化、向量化等，以便输入到MLP模型中。


接着设计模型架构：  
输入层：姓氏经过向量化后作为输入。  
隐藏层：可以包含多个隐藏层，每个隐藏层包含多个神经元。  
输出层：根据数据集中的国家或地区标签数量确定输出层的神经元个数，使用softmax激活函数输出每个类别的概率分布。  

进行模型训练：  
使用训练数据对MLP模型进行训练，通过反向传播算法更新模型参数。  
可以使用交叉熵损失函数来衡量模型输出与真实标签之间的差距。  
  
最后进行模型评估：  
使用验证集对模型进行评估，调整超参数以提高模型性能。  
使用测试集评估模型的泛化能力。  

**2.2 姓氏数据集预处理**

![](https://p.sda1.dev/17/9c4b45eae874dc0006c5373234a7a8dc/surnames.png)
<font color='grey'><center>图2.1 姓氏数据集</font></center>

数据集共有10980个样本，来自18个不同的国家。
我们首先从文件 "surnames.csv" 中读取姓氏数据（这个文件应该包含姓氏及其对应的国籍等信息），通过 pandas 的 read_csv 函数，将数据读入 DataFrame（表格结构）中。

然后，使用 DataFrame.head() 方法来查看数据集的前五行，以了解数据的结构和内容。

最后 set(surnames.nationality) 用于返回姓氏数据集中所有不同的国籍类别。

In [1]:
import collections
import numpy as np
import pandas as pd
import re
from argparse import Namespace

args = Namespace(  # 创建一个命名空间对象，存储所需的参数
    raw_dataset_csv="surnames.csv",  # 原始数据集的文件名
    train_proportion=0.7,  # 训练集所占比例
    val_proportion=0.15,  # 验证集所占比例
    test_proportion=0.15,  # 测试集所占比例
    output_munged_csv="surnames_with_splits.csv",  # 处理后的数据集要保存的文件名
    seed=1337  # 随机数种子，用于保证结果的可重复性
)
surnames = pd.read_csv(args.raw_dataset_csv, header=0)
# 显示数据集前5行
surnames.head()

Unnamed: 0,surname,nationality
0,Woodford,English
1,Coté,French
2,Kore,English
3,Koury,Arabic
4,Lebzak,Russian


In [2]:
# 查看样本的nationality(国籍种类)
set(surnames.nationality)

{'Arabic',
 'Chinese',
 'Czech',
 'Dutch',
 'English',
 'French',
 'German',
 'Greek',
 'Irish',
 'Italian',
 'Japanese',
 'Korean',
 'Polish',
 'Portuguese',
 'Russian',
 'Scottish',
 'Spanish',
 'Vietnamese'}

       
接下来，我们根据国籍对数据集进行分组，并将数据集分为三个部分:  
70%到训练数据集，15%到验证数据集，最后15%到测试数据集，以便跨这些部分的类标签分布具有可比性。
             

In [3]:
# 创建一个默认字典，键对应国籍，值是对应国籍下所有姓氏数据的字典列表
by_nationality = collections.defaultdict(list)

# 遍历姓氏数据集的每一行
for _, row in surnames.iterrows():
    # 将每一行的数据添加到与其国籍对应的列表中
    by_nationality[row.nationality].append(row.to_dict())

final_list = []  # 创建一个空列表，用于存储最终的数据

np.random.seed(args.seed)  # 设置随机数种子，保证结果的可重复性

# 对字典按照国籍进行排序，并遍历所有键值对
for _, item_list in sorted(by_nationality.items()):
    np.random.shuffle(item_list)  # 随机打乱每个国籍对应的姓氏数据列表
    n = len(item_list)  # 获取该国籍下的姓氏数据数量
    n_train = int(args.train_proportion * n)  # 计算训练集数量
    n_val = int(args.val_proportion * n)  # 计算验证集数量
    n_test = int(args.test_proportion * n)  # 计算测试集数量
    
    # 将数据按比例分成训练集、验证集和测试集，并为每条数据添加一个 'split' 标签
    for item in item_list[:n_train]:
        item['split'] = 'train'  # 标记为训练集
    for item in item_list[n_train:n_train + n_val]:
        item['split'] = 'val'  # 标记为验证集
    for item in item_list[n_train + n_val:]:
        item['split'] = 'test'  # 标记为测试集
    
    final_list.extend(item_list)  # 将处理后的数据添加到最终数据列表中

# 将最终的数据列表转换为 pandas DataFrame
final_surnames = pd.DataFrame(final_list)



In [4]:
#显示spilt标签中不同值出现的次数,即获得训练集，测试集，验证集的数量
final_surnames.split.value_counts()

split
train    7680
test     1660
val      1640
Name: count, dtype: int64

In [5]:
# 显示处理后的数据集前5行
final_surnames.head()

Unnamed: 0,surname,nationality,split
0,Totah,Arabic,train
1,Abboud,Arabic,train
2,Fakhoury,Arabic,train
3,Srour,Arabic,train
4,Sayegh,Arabic,train


In [6]:
# 将最终的数据保存为 CSV 文件
final_surnames.to_csv(args.output_munged_csv, index=False)

**2.2.1  The Surname Dataset**  
SurnameDataset数据集类继承自PyTorch的数据集类，其中我们先实现了两个函数：  
__getitem__方法返回给定索引所对应的数据点(向量化的姓氏和与其国籍相对应的索引)  
__len__方法返回数据集的长度  
同时实现其他函数便于我们加载或处理数据。

In [7]:
import pandas as pd
import torch
from torch.utils.data import Dataset, DataLoader

class SurnameDataset(Dataset):
    def __init__(self, surname_df, vectorizer):
        """
        初始化SurnameDataset类

        Args:
            surname_df (pandas.DataFrame): 数据集
            vectorizer (SurnameVectorizer): 从数据集实例化的向量化器
        """
        self.surname_df = surname_df
        self._vectorizer = vectorizer

        # 划分数据集
        self.train_df = self.surname_df[self.surname_df.split == 'train']
        self.train_size = len(self.train_df)
        self.val_df = self.surname_df[self.surname_df.split == 'val']
        self.validation_size = len(self.val_df)
        self.test_df = self.surname_df[self.surname_df.split == 'test']
        self.test_size = len(self.test_df)
        self._lookup_dict = {'train': (self.train_df, self.train_size),
                             'val': (self.val_df, self.validation_size),
                             'test': (self.test_df, self.test_size)}
        self.set_split('train')

        # 计算类别权重
        class_counts = surname_df.nationality.value_counts().to_dict()

        def sort_key(item):
            return self._vectorizer.nationality_vocab.lookup_token(item[0])

        sorted_counts = sorted(class_counts.items(), key=sort_key)
        frequencies = [count for _, count in sorted_counts]
        self.class_weights = 1.0 / torch.tensor(frequencies, dtype=torch.float32)

    def __len__(self):
        """返回数据集的长度"""
        return self._target_size
        
    def get_num_batches(self, batch_size):
        """给定批量大小，返回数据集中的批量数

        Args:
            batch_size (int)
        Returns:
            数据集中的批量数
        """
        return len(self) // batch_size

    @classmethod
    def load_dataset_and_make_vectorizer(cls, surname_csv):
        """加载数据集并从头开始创建一个新的向量化器

        Args:
            surname_csv (str): 数据集的位置
        Returns:
            SurnameDataset的一个实例
        """
        surname_df = pd.read_csv(surname_csv)
        train_surname_df = surname_df[surname_df.split == 'train']
        return cls(surname_df, SurnameVectorizer.from_dataframe(train_surname_df))

    @classmethod
    def load_dataset_and_load_vectorizer(cls, surname_csv, vectorizer_filepath):
        """加载数据集和相应的向量化器。用于当向量化器已被缓存以便重复使用时

        Args:
            surname_csv (str): 数据集的位置
            vectorizer_filepath (str): 保存的向量化器的位置
        Returns:
            SurnameDataset的一个实例
        """
        surname_df = pd.read_csv(surname_csv)
        vectorizer = cls.load_vectorizer_only(vectorizer_filepath)
        return cls(surname_df, vectorizer)

    @staticmethod
    def load_vectorizer_only(vectorizer_filepath):
        """从文件中加载向量化器的静态方法

        Args:
            vectorizer_filepath (str): 序列化向量化器的位置
        Returns:
            SurnameVectorizer的一个实例
        """
        with open(vectorizer_filepath) as fp:
            return SurnameVectorizer.from_serializable(json.load(fp))

    def save_vectorizer(self, vectorizer_filepath):
        """使用json将向量化器保存到磁盘

        Args:
            vectorizer_filepath (str): 保存向量化器的位置
        """
        with open(vectorizer_filepath, "w") as fp:
            json.dump(self._vectorizer.to_serializable(), fp)

    def get_vectorizer(self):
        """返回向量化器"""
        return self._vectorizer

    def set_split(self, split="train"):
        """使用数据框中的列选择数据集中的拆分部分"""
        self._target_split = split
        self._target_df, self._target_size = self._lookup_dict[split]

    def __getitem__(self, index):
        """PyTorch数据集的主要入口方法
        Args:
            index (int): 数据点的索引
        Returns:
            一个包含数据点的字典（字典值分别是向量化的姓氏和与其国籍相对应的索引）:
                feature (x_surname)
                label (y_nationality)
        """
        row = self._target_df.iloc[index]
        surname_vector = \
            self._vectorizer.vectorize(row.surname)
        nationality_index = \
            self._vectorizer.nationality_vocab.lookup_token(row.nationality)
        return {'x_surname': surname_vector,
                'y_nationality': nationality_index}


def generate_batches(dataset, batch_size, shuffle=True,
                     drop_last=True, device="cpu"):
    """
    一个生成器函数，用于包装PyTorch DataLoader。它将确保每个张量位于正确的设备位置。
    """
    dataloader = DataLoader(dataset=dataset, batch_size=batch_size,
                            shuffle=shuffle, drop_last=drop_last)

    for data_dict in dataloader:
        out_data_dict = {}
        for name, tensor in data_dict.items():
            out_data_dict[name] = data_dict[name].to(device)
        yield out_data_dict


**2.2.2 Vocabulary, Vectorizer, and DataLoader**    
为了使用字符对姓氏进行分类，我们使用词汇表、向量化器和DataLoader将姓氏字符串转换为向量化的minibatches。

词汇表类（Vocabulary Class）：  
词汇表类由两个Python字典组成，一个用于将字符映射到整数索引，另一个用于将整数索引映射回字符。这种双向映射使得我们可以根据需要在字符和整数索引之间进行转换。
使用的是one-hot词汇表，不计算字符出现的频率，只对频繁出现的条目进行限制。  

姓氏向量化器（SurnameVectorizer）：  
该向量化器负责将姓氏应用于词汇表，并将其转换为向量表示。  
姓氏是字符的序列，每个字符在词汇表中是一个独立的标记。  
在此处，我们将暂时忽略字符序列信息，通过迭代字符串输入中的每个字符来创建输入的压缩one-hot向量表示。  
对于以前未遇到的字符，指定一个特殊的令牌UNK（未知字符）。在实例化词汇表时，仅从训练数据中构建词汇表，验证或测试数据中可能存在未知字符，因此在字符词汇表中仍然使用UNK符号。  


In [8]:
class Vocabulary(object):
    """用于处理文本并提取词汇以进行映射的类"""

    def __init__(self, token_to_idx=None, add_unk=True, unk_token="<UNK>"):
        """
        Args:
            token_to_idx (dict): 一个已存在的将标记映射到索引的字典
            add_unk (bool): 一个指示是否添加UNK标记的标志
            unk_token (str): 要添加到词汇表中的UNK标记
        """

        if token_to_idx is None:
            token_to_idx = {}
        self._token_to_idx = token_to_idx

        self._idx_to_token = {idx: token for token, idx in self._token_to_idx.items()}

        self._add_unk = add_unk
        self._unk_token = unk_token

        self.unk_index = -1
        if add_unk:
            self.unk_index = self.add_token(unk_token)

    def to_serializable(self):
        """返回一个可序列化的字典"""
        return {'token_to_idx': self._token_to_idx,
                'add_unk': self._add_unk,
                'unk_token': self._unk_token}

    @classmethod
    def from_serializable(cls, contents):
        """从序列化的字典实例化Vocabulary"""
        return cls(**contents)

    def add_token(self, token):
        """根据标记更新映射字典。

        Args:
            token (str): 要添加到词汇表中的项目
        Returns:
            index (int): 与标记对应的整数
        """
        try:
            index = self._token_to_idx[token]
        except KeyError:
            index = len(self._token_to_idx)
            self._token_to_idx[token] = index
            self._idx_to_token[index] = token
        return index

    def add_many(self, tokens):
        """将标记列表添加到词汇表中

        Args:
            tokens (list): 一个字符串标记列表
        Returns:
            indices (list): 与标记对应的索引列表
        """
        return [self.add_token(token) for token in tokens]

    def lookup_token(self, token):
        """检索与标记关联的索引，如果标记不存在，则返回UNK索引。

        Args:
            token (str): 要查找的标记
        Returns:
            index (int): 与标记对应的索引
        Notes:
            `unk_index` 需要 >=0（已添加到词汇表中）以实现UNK功能
        """
        if self.unk_index >= 0:
            return self._token_to_idx.get(token, self.unk_index)
        else:
            return self._token_to_idx[token]

    def lookup_index(self, index):
        """返回与索引关联的标记

        Args:
            index (int): 要查找的索引
        Returns:
            token (str): 与索引对应的标记
        Raises:
            KeyError: 如果索引不在词汇表中
        """
        if index not in self._idx_to_token:
            raise KeyError("the index (%d) is not in the Vocabulary" % index)
        return self._idx_to_token[index]

    def __str__(self):
        return "<Vocabulary(size=%d)>" % len(self)

    def __len__(self):
        return len(self._token_to_idx)


In [9]:
class SurnameVectorizer(object):
    """协调词汇表并将其应用于矢量化的矢量化器"""

    def __init__(self, surname_vocab, nationality_vocab):
        self.surname_vocab = surname_vocab
        self.nationality_vocab = nationality_vocab

    def vectorize(self, surname):
        """对提供的姓氏进行矢量化

        Args:
            surname (str): 姓氏
        Returns:
            one_hot (np.ndarray): 折叠的 one-hot 编码
        """
        vocab = self.surname_vocab
        one_hot = np.zeros(len(vocab), dtype=np.float32)
        for token in surname:
            one_hot[vocab.lookup_token(token)] = 1
        return one_hot

    @classmethod
    def from_dataframe(cls, surname_df):
        """从数据框实例化矢量化器

        Args:
            surname_df (pandas.DataFrame): 姓氏数据集
        Returns:
            SurnameVectorizer 的一个实例
        """
        surname_vocab = Vocabulary(unk_token="@")
        nationality_vocab = Vocabulary(add_unk=False)

        for index, row in surname_df.iterrows():
            for letter in row.surname:
                surname_vocab.add_token(letter)
            nationality_vocab.add_token(row.nationality)

        return cls(surname_vocab, nationality_vocab)

    
    @classmethod
    def from_serializable(cls, contents):
        """
       从可序列化内容实例化一个SurnameVectorizer对象

       Args:
           contents (dict): 包含可序列化内容的字典

       Returns:
           SurnameVectorizer的一个实例
       """
        surname_vocab = Vocabulary.from_serializable(contents['surname_vocab'])
        nationality_vocab = Vocabulary.from_serializable(contents['nationality_vocab'])
        return cls(surname_vocab=surname_vocab, nationality_vocab=nationality_vocab)

    
    def to_serializable(self):
        """
        将SurnameVectorizer对象序列化为字典
        Returns:
            dict: 包含序列化内容的字典
        """
        return {'surname_vocab': self.surname_vocab.to_serializable(),
            'nationality_vocab': self.nationality_vocab.to_serializable()}

**2.3 实现MLP**   
**2.3.1 The Surname Classifier Model**     

  
设计两层的多层感知器，用于对姓氏进行分类：  
1.在前向传播中，输入向量首先经过第一个线性层，将输入向量映射到中间向量，并应用非线性激活函数(ReLU)。  
2.然后其结果再经过第二个线性层将中间向量映射到预测向量。  
3.最后，可选地应用softmax操作，以确保输出和为1（输出是概率）。 
  
是否应用softmax操作通过 apply_softmax 参数来控制的。如果 apply_softmax 为 True，则会对预测向量应用 softmax 操作；如果为 False，则不会应用 softmax 操作，这种情况一般出现在与交叉熵损失一起使用时。  

  
softmax可选的原因在于我们将应用的交叉熵损失函数：  
交叉熵损失函数的数学形式要求输入是未经过 softmax 操作的原始预测值，而不是概率分布。因此，当我们使用交叉熵损失函数时，不需要在模型的前向传播中应用 softmax 操作，因为交叉熵损失函数本身会在内部进行softmax操作，此时应用会得到错误的损失值。

In [10]:
import torch.nn as nn
import torch.nn.functional as F

class SurnameClassifier(nn.Module):
    """用于对姓氏进行分类的两层多层感知器"""
    def __init__(self, input_dim, hidden_dim, output_dim):
        """
        Args:
            input_dim (int): 输入向量的大小
            hidden_dim (int): 第一个线性层的输出大小
            output_dim (int): 第二个线性层的输出大小
        """
        super(SurnameClassifier, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, output_dim)

    def forward(self, x_in, apply_softmax=False):
        """分类器的前向传播

        Args:
            x_in (torch.Tensor): 输入数据张量。
                x_in.shape 应为 (batch, input_dim)
            apply_softmax (bool): 是否应用 softmax 激活函数的标志
                如果与交叉熵损失一起使用，应为 False
        Returns:
            结果张量。张量形状应为 (batch, output_dim)
        """
        intermediate_vector = F.relu(self.fc1(x_in))
        prediction_vector = self.fc2(intermediate_vector)

        if apply_softmax:
            prediction_vector = F.softmax(prediction_vector, dim=1)

        return prediction_vector


**2.3.2 The Training Routine**      
**2.3.2.1 准备工作**    
为了进行模型训练，我们先做好准备工作，包括定义数据和路径信息，设置模型超参数，确保运行环境等等


In [11]:
from argparse import Namespace
import torch.optim as optim
import os
import json


def set_seed_everywhere(seed, cuda):
    """
    设置随机种子以确保实验的可重复性
    """
    np.random.seed(seed)  # 设置NumPy的随机种子
    torch.manual_seed(seed)  # 设置PyTorch的随机种子
    if cuda:
        torch.cuda.manual_seed_all(seed)  # 如果使用CUDA，设置所有GPU的随机种子

def handle_dirs(dirpath):
    """
    处理目录，确保目录存在，如果不存在则创建该目录
    """
    if not os.path.exists(dirpath):  # 如果目录不存在
        os.makedirs(dirpath)  # 创建该目录

        
args = Namespace(
    # 数据和路径信息
    surname_csv="surnames_with_splits.csv",  # 包含姓氏数据的CSV文件路径
    vectorizer_file="vectorizer.json",  # 向量化器文件的路径
    model_state_file="model.pth",  # 模型状态文件的路径
    save_dir="model_storage/ch4/surname_mlp",  # 模型保存目录
    # 模型超参数
    hidden_dim=300,  # 隐藏层维度
    # 训练超参数
    seed=1337,  # 随机种子
    num_epochs=100,  # 训练的迭代次数
    early_stopping_criteria=5,  # 提前停止的标准
    learning_rate=0.001,  # 学习率
    batch_size=64,  # 批处理大小
    cuda=False,  # 是否使用CUDA
    reload_from_files=False,  # 是否从文件重新加载模型
    expand_filepaths_to_save_dir=True,  # 是否扩展文件路径到保存目录
)

if args.expand_filepaths_to_save_dir:
    # 如果设置为True，将向量化器文件和模型状态文件的路径扩展到保存目录中
    args.vectorizer_file = os.path.join(args.save_dir, args.vectorizer_file)
    args.model_state_file = os.path.join(args.save_dir, args.model_state_file)
    
    print("Expanded filepaths: ")
    print("\t{}".format(args.vectorizer_file))  
    print("\t{}".format(args.model_state_file)) 
    
# 检查CUDA是否可用
if not torch.cuda.is_available():
    args.cuda = False  

# 根据args.cuda的值选择设备为CUDA（如果可用）或CPU
args.device = torch.device("cuda" if args.cuda else "cpu")
print("Using CUDA: {}".format(args.cuda))

# 为了确保实验的可重复性，设置随机种子
set_seed_everywhere(args.seed, args.cuda)

# 处理保存目录，确保目录存在
handle_dirs(args.save_dir)

if args.reload_from_files:
    # 从文件中重新加载数据集和向量化器
    print("Reloading!")
    dataset = SurnameDataset.load_dataset_and_load_vectorizer(args.surname_csv, args.vectorizer_file)
else:
    # 创建新的数据集和向量化器
    print("Creating fresh!")
    dataset = SurnameDataset.load_dataset_and_make_vectorizer(args.surname_csv)
    dataset.save_vectorizer(args.vectorizer_file)  # 保存向量化器到文件中

vectorizer = dataset.get_vectorizer()  # 获取数据集的向量化器

# 创建姓氏分类器，设置输入维度、隐藏层维度和输出维度，并将其移动到指定的设备上
classifier = SurnameClassifier(input_dim=len(vectorizer.surname_vocab), 
                               hidden_dim=args.hidden_dim, 
                               output_dim=len(vectorizer.nationality_vocab))

classifier = classifier.to(args.device)  # 将分类器移动到指定的设备上
dataset.class_weights = dataset.class_weights.to(args.device) # 将数据集的类别权重移动到指定的设备上

Expanded filepaths: 
	model_storage/ch4/surname_mlp\vectorizer.json
	model_storage/ch4/surname_mlp\model.pth
Using CUDA: False
Creating fresh!


**2.3.2.2 进行模型训练**    
接下来我们进行模型训练，在训练中使用的损失函数是CrossEntropyLoss。  
它结合了softmax激活函数和交叉熵损失，适用于将模型输出的原始分数转换为概率分布，并计算预测概率分布与实际标签之间的交叉熵损失。  
将类别权重作为参数传递给CrossEntropyLoss损失函数，这样就能够根据数据集中类别的不平衡情况来调整损失函数的权重，以更好地处理不同类别之间的影响。

In [12]:
# 使用交叉熵损失函数，传入数据集的类别权重
loss_func = nn.CrossEntropyLoss(weight=dataset.class_weights)  

# 使用Adam优化器，设置学习率为预定义的参数
optimizer = optim.Adam(classifier.parameters(), lr=args.learning_rate)  

# 设置学习率调度器，当验证损失不再减少时，将学习率缩小一半
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer=optimizer,
                                                 mode='min', factor=0.5,
                                                 patience=1)

利用训练数据，计算模型输出、损失和梯度。然后，使用梯度来更新模型。以下是训练中需要用到的相关函数：

In [13]:
def make_train_state(args):
    """
    创建一个表示训练状态的字典，用于跟踪训练过程中的各种值和参数

    Args:
    - args (Namespace): 包含训练参数的命名空间对象

    Returns:
    - train_state (dict): 表示训练状态的字典
    """
    return {'stop_early': False,  # 是否提前停止训练
            'early_stopping_step': 0,  # 提前停止的步数
            'early_stopping_best_val': 1e8,  # 最佳验证集损失
            'learning_rate': args.learning_rate,  # 学习率
            'epoch_index': 0,  # 当前迭代次数
            'train_loss': [],  # 训练集损失
            'train_acc': [],  # 训练集准确率
            'val_loss': [],  # 验证集损失
            'val_acc': [],  # 验证集准确率
            'test_loss': -1,  # 测试集损失
            'test_acc': -1,  # 测试集准确率
            'model_filename': args.model_state_file}  # 模型文件名

def update_train_state(args, model, train_state):
    """
    处理训练状态的更新，包括提前停止和模型保存

    Args:
    - args (Namespace): 包含训练参数的命名空间对象
    - model: 待训练的模型
    - train_state (dict): 表示训练状态的字典

    Returns:
    - train_state (dict): 更新后的训练状态字典
    """
    # 保存至少一个模型
    if train_state['epoch_index'] == 0:
        torch.save(model.state_dict(), train_state['model_filename'])
        train_state['stop_early'] = False

    # 如果训练过至少一个epoch
    elif train_state['epoch_index'] >= 1:
        loss_tm1, loss_t = train_state['val_loss'][-2:]

        # 如果验证集损失变大
        if loss_t >= train_state['early_stopping_best_val']:
            # 更新提前停止步数
            train_state['early_stopping_step'] += 1
        # 如果损失减小
        else:
            # 保存最佳模型
            if loss_t < train_state['early_stopping_best_val']:
                torch.save(model.state_dict(), train_state['model_filename'])

            # 重置提前停止步数
            train_state['early_stopping_step'] = 0

        # 是否提前停止
        train_state['stop_early'] = \
            train_state['early_stopping_step'] >= args.early_stopping_criteria

    return train_state

def compute_accuracy(y_pred, y_target):
    """
    计算模型的准确率

    Args:
    - y_pred: 模型的预测结果
    - y_target: 真实标签

    Returns:
    - accuracy (float): 准确率
    """
    _, y_pred_indices = y_pred.max(dim=1)
    n_correct = torch.eq(y_pred_indices, y_target).sum().item()
    return n_correct / len(y_pred_indices) * 100


使用tqdm库可视化训练过程，包括显示进度条、损失值和准确率等指标的实时更新。

In [14]:
from tqdm import tqdm_notebook

# 初始化训练状态
train_state = make_train_state(args)

# 创建进度条
epoch_bar = tqdm_notebook(desc='training routine', 
                          total=args.num_epochs,
                          position=0)

# 设置训练集进度条
train_bar = tqdm_notebook(desc='split=train',
                          total=dataset.get_num_batches(args.batch_size), 
                          position=1, 
                          leave=True)

# 设置验证集进度条
val_bar = tqdm_notebook(desc='split=val',
                        total=dataset.get_num_batches(args.batch_size), 
                        position=1, 
                        leave=True)

try:
    for epoch_index in range(args.num_epochs):
        train_state['epoch_index'] = epoch_index

        # 迭代训练集
        dataset.set_split('train')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.0
        running_acc = 0.0
        classifier.train()

        for batch_index, batch_dict in enumerate(batch_generator):
            optimizer.zero_grad()  # 梯度清零
            y_pred = classifier(batch_dict['x_surname'])  # 计算输出
            loss = loss_func(y_pred, batch_dict['y_nationality'])  # 计算损失
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)
            loss.backward()  # 计算梯度
            optimizer.step()  # 更新参数
            acc_t = compute_accuracy(y_pred, batch_dict['y_nationality'])  # 计算准确率
            running_acc += (acc_t - running_acc) / (batch_index + 1)

            # 更新训练集进度条
            train_bar.set_postfix(loss=running_loss, acc=running_acc, epoch=epoch_index)
            train_bar.update()

        train_state['train_loss'].append(running_loss)
        train_state['train_acc'].append(running_acc)

        # 迭代验证集
        dataset.set_split('val')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.
        running_acc = 0.
        classifier.eval()

        for batch_index, batch_dict in enumerate(batch_generator):
            y_pred =  classifier(batch_dict['x_surname'])  # 计算输出
            loss = loss_func(y_pred, batch_dict['y_nationality'])  # 计算损失
            loss_t = loss.to("cpu").item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)
            acc_t = compute_accuracy(y_pred, batch_dict['y_nationality'])  # 计算准确率
            running_acc += (acc_t - running_acc) / (batch_index + 1)

            # 更新验证集进度条
            val_bar.set_postfix(loss=running_loss, acc=running_acc, epoch=epoch_index)
            val_bar.update()

        train_state['val_loss'].append(running_loss)
        train_state['val_acc'].append(running_acc)

        # 更新训练状态
        train_state = update_train_state(args=args, model=classifier, train_state=train_state)

        scheduler.step(train_state['val_loss'][-1])  # 更新学习率

        if train_state['stop_early']:  # 如果满足提前停止条件，跳出循环
            break

        train_bar.n = 0  # 重置训练集进度条
        val_bar.n = 0  # 重置验证集进度条
        epoch_bar.update()  # 更新总体进度条
except KeyboardInterrupt:
    print("Exiting loop")


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  epoch_bar = tqdm_notebook(desc='training routine',


training routine:   0%|          | 0/100 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  train_bar = tqdm_notebook(desc='split=train',


split=train:   0%|          | 0/120 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  val_bar = tqdm_notebook(desc='split=val',


split=val:   0%|          | 0/120 [00:00<?, ?it/s]

In [15]:
print("最终训练集损失： {:.3f}".format(train_state['train_loss'][-1]))
print("最终训练集准确率： {:.2f}%".format(train_state['train_acc'][-1]))
print("最终验证集损失： {:.3f}".format(train_state['val_loss'][-1]))
print("最终验证集准确率： {:.2f}%".format(train_state['val_acc'][-1]))

最终训练集损失： 1.273
最终训练集准确率： 51.76%
最终验证集损失： 1.805
最终验证集准确率： 45.44%


**2.3.2.3  EVALUATING ON THE TEST DATASET**   

评价SurnameClassifier测试数据,我们将数据集设置为遍历测试数据,调用classifier.eval()方法,并遍历测试数据以同样的方式与其他数据。  
调用classifier.eval()可以防止PyTorch在使用测试/评估数据时更新模型参数。

In [16]:
# 使用最佳模型计算测试集上的损失和准确率
classifier.load_state_dict(torch.load(train_state['model_filename']))  # 加载最佳模型参数

classifier = classifier.to(args.device)  # 将模型移动到指定设备
dataset.class_weights = dataset.class_weights.to(args.device)  # 将类别权重移动到指定设备
loss_func = nn.CrossEntropyLoss(dataset.class_weights)  # 定义损失函数

dataset.set_split('test')  # 设置数据集为测试集
batch_generator = generate_batches(dataset, 
                                   batch_size=args.batch_size, 
                                   device=args.device)  # 创建批生成器
running_loss = 0.
running_acc = 0.
classifier.eval()  # 设置模型为评估模式

for batch_index, batch_dict in enumerate(batch_generator):
    y_pred =  classifier(batch_dict['x_surname'])  # 计算模型输出
    
    loss = loss_func(y_pred, batch_dict['y_nationality'])  # 计算损失
    loss_t = loss.item()
    running_loss += (loss_t - running_loss) / (batch_index + 1)  # 更新损失值

    acc_t = compute_accuracy(y_pred, batch_dict['y_nationality'])  # 计算准确率
    running_acc += (acc_t - running_acc) / (batch_index + 1)  # 更新准确率

# 保存测试集上的损失和准确率到训练状态中
train_state['test_loss'] = running_loss
train_state['test_acc'] = running_acc


该模型对测试数据的准确性达到46%左右，根据前面的训练结果，会注意到在训练数据上的性能更高。这是因为模型总是更适合它所训练的数据，所以训练数据的性能并不代表新数据的性能。

In [17]:
print("测试集损失: {};".format(train_state['test_loss']))
print("测试集准确率: {}".format(train_state['test_acc']))

测试集损失: 1.7831686401367184;
测试集准确率: 46.31249999999999


你可以尝试隐藏维度的不同大小，应该注意到性能的提高。然而，这种增长不会很大，主要原因是收缩的onehot向量化方法是一种弱表示。  

   
压缩的one-hot向量化方法是一种将文本数据表示为向量的技术。  
在这种方法中，文本中的每个字符被转换为一个固定长度的向量，通常是一个独热向量（one-hot vector）。独热向量是指在向量的维度中，只有一个元素为1，其他元素为0，用来表示字符的存在与否。
举个例子，假设我们有一个包含26个字母的字母表（a到z），那么每个字母可以被表示为一个长度为26的独热向量。比如，字母"a"可以表示为[1, 0, 0, ..., 0]，字母"b"可以表示为[0, 1, 0, ..., 0]，以此类推。  

  
然而，这种方法存在一个局限性，即它丢失了字符在文本中的顺序信息。在自然语言处理任务中，字符的顺序通常包含了重要的语义信息。例如，在姓氏分类的任务中，不同的姓氏可能由相同的字符组成，但是字符的排列顺序可能是不同族群或文化的重要特征。  
因此，尽管压缩的one-hot向量化方法简洁地将每个姓氏表示为单个向量，但它无法捕捉字符之间的顺序信息，这可能限制了模型对文本数据的理解能力。

**2.3.3  CLASSIFYING A NEW SURNAME**   
现在，我们输入一个新的姓氏字符串，将其向量化后利用模型进行预测。   
传入参数时apply_softmax=True，所以得到的结果是概率值。预测结果result是类概率的列表，使用PyTorch张量最大函数来得到由最高预测概率表示的最优类，即概率最大的国籍。


In [18]:
def predict_nationality(surname, classifier, vectorizer):
    """预测一个新姓氏的国籍
    
    参数:
        surname (str): 要分类的姓氏
        classifier (SurnameClassifer): 分类器的实例
        vectorizer (SurnameVectorizer): 对应的向量化器
    返回:
        包含最大概率的国籍及其概率的字典
    """
    # 将姓氏向量化
    vectorized_surname = vectorizer.vectorize(surname)
    vectorized_surname = torch.tensor(vectorized_surname).view(1, -1)
    
    # 使用分类器进行预测
    result = classifier(vectorized_surname, apply_softmax=True)
    
    # 获取概率最高的国籍及其概率值
    probability_values, indices = result.max(dim=1)
    index = indices.item()
    predicted_nationality = vectorizer.nationality_vocab.lookup_index(index)
    probability_value = probability_values.item()
    
    # 返回结果
    return {'nationality': predicted_nationality, 'probability': probability_value}


In [19]:
new_surname = input("输入要分类的姓氏: ")
classifier = classifier.to("cpu")
prediction = predict_nationality(new_surname, classifier, vectorizer)
print("{} -> {} (p={:0.2f})".format(new_surname,
                                    prediction['nationality'],
                                    prediction['probability']))

输入要分类的姓氏:  Alice


Alice -> Italian (p=0.73)


我们不仅可以获得概率最高的一个预测，也可以获取更多的预测。  
PyTorch提供了一个torch.topk函数,用于在指定维度上获取张量中最大的 k 个元素及其对应的索引,我们可以使用它来便利地获取更多预测。

In [20]:
# 预测前k个可能的国籍
def predict_topk_nationality(name, classifier, vectorizer, k=5):
    # 向量化输入的名字
    vectorized_name = vectorizer.vectorize(name)
    vectorized_name = torch.tensor(vectorized_name).view(1, -1)
    
    # 使用分类器进行预测
    prediction_vector = classifier(vectorized_name, apply_softmax=True)
    
    # 获取概率最高的前k个国籍及其概率值
    probability_values, indices = torch.topk(prediction_vector, k=k)
    
    # 转换为numpy数组
    probability_values = probability_values.detach().numpy()[0]
    indices = indices.detach().numpy()[0]
    
    # 构建结果列表
    results = []
    for prob_value, index in zip(probability_values, indices):
        nationality = vectorizer.nationality_vocab.lookup_index(index)
        results.append({'nationality': nationality, 'probability': prob_value})
    
    return results

# 输入要分类的新姓氏
new_surname = input("输入要分类的姓氏: ")

# 将分类器移至CPU上进行推断
classifier = classifier.to("cpu")

# 询问要显示前k个预测结果
k = int(input("要显示前几个预测结果？"))
if k > len(vectorizer.nationality_vocab):
    print("抱歉！这超出了我们拥有的国籍数量... 默认显示最大数量的结果:)")
    k = len(vectorizer.nationality_vocab)

# 进行预测
predictions = predict_topk_nationality(new_surname, classifier, vectorizer, k=k)

# 打印预测的结果
print("前{}个预测结果:".format(k))
print("===================")
for prediction in predictions:
    print("{} -> {} (概率={:0.2f})".format(new_surname, prediction['nationality'], prediction['probability']))


输入要分类的姓氏:  Alice
要显示前几个预测结果？ 5


前5个预测结果:
Alice -> Italian (概率=0.73)
Alice -> Spanish (概率=0.12)
Alice -> Dutch (概率=0.03)
Alice -> English (概率=0.02)
Alice -> Czech (概率=0.02)


**2.3.4 DROPOUT**  
Dropout 是一种在神经网络训练过程中常用的正则化技术，旨在减少过拟合并提高模型的泛化能力，我们也可以将它应用于MLPs。   
  
在传统的神经网络中，训练过程中每个神经元都会参与计算，这可能会导致神经元之间形成复杂的共适应关系，从而导致过拟合。Dropout 通过在训练过程中以一定概率随机地将部分神经元的输出置为0，从而减少神经元之间的依赖关系，使得网络更加健壮，减少过拟合的风险。

具体来说，对于每个训练样本，Dropout 在前向传播过程中随机地将一部分神经元的输出置为0。这些被置为0的神经元在该次前向传播中不参与计算，而在反向传播时也不更新参数。在测试阶段，不再进行随机丢弃，而是将所有神经元的输出乘以保留概率（通常为1减去丢弃概率），以保持期望输出的一致性。

Dropout 的主要优势在于它不依赖于特定的架构，因此可以应用于各种深度学习模型中，包括卷积神经网络、循环神经网络等。它在许多实际应用中都被证明能够改善模型的泛化能力，减少过拟合，从而提高模型的性能。  

下面给出一个带dropout的MLP的重新实现。

In [21]:
import torch.nn as nn
import torch.nn.functional as F

class MultilayerPerceptron(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        """
        初始化
        """
        super(MultilayerPerceptron, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, output_dim)

    def forward(self, x_in, apply_softmax=False):
        """
        MLP的前向传播
        """
        intermediate = F.relu(self.fc1(x_in))
        # 使用dropout进行正则化，减少过拟合
        output = self.fc2(F.dropout(intermediate, p=0.5))

        if apply_softmax:
            output = F.softmax(output, dim=1)
        return output


# 三、Convolutional Neural Networks （卷积神经网络）

卷积神经网络（Convolutional Neural Networks，CNNs）是一种在计算机视觉和图像识别领域广泛应用的深度学习模型。CNNs的设计灵感来源于生物视觉系统的工作原理，特别是人类视觉皮层的结构和功能。  
CNNs的核心思想是利用卷积层（Convolutional Layer）和池化层（Pooling Layer）来自动提取图像中的特征，并通过全连接层（Fully Connected Layer）进行分类或预测。  

以下是CNNs的主要组成部分：  
  
1.卷积层：  
卷积层是CNNs的核心组件。它使用一组可学习的滤波器（也称为卷积核）来在输入图像上进行滑动窗口的卷积操作。每个滤波器在输入图像上提取特定的局部特征，例如边缘、纹理或形状。卷积操作通过计算滤波器与输入图像的对应位置的元素乘积的累加来生成特征图（Feature Map）。通过使用多个滤波器，卷积层可以提取不同的特征。  
  
2.池化层：  
池化层用于减小特征图的空间尺寸，并减少参数数量。常见的池化操作包括最大池化（Max Pooling）和平均池化（Average Pooling）。池化操作在每个池化区域内取最大值或平均值作为输出，从而保留最显著的特征并减少计算量。池化层还具有一定的平移不变性，使得模型对输入图像的微小平移具有鲁棒性。  
  
3.全连接层：  
全连接层是传统的神经网络层，其中每个神经元与前一层的所有神经元连接。在CNNs中，全连接层通常用于将卷积层和池化层提取的特征映射转换为最终的分类结果或预测结果。全连接层可以通过权重学习来建立输入特征和输出类别之间的关系。  

除了以上的核心组件，CNNs还可以包括其他辅助组件，如批归一化（Batch Normalization）层用于加速训练过程和提高模型的鲁棒性，以及激活函数（Activation Function）层用于引入非线性性。

通过多个卷积层、池化层和全连接层的堆叠，CNNs能够自动学习输入图像中的多层次抽象特征，并在分类、目标检测、图像分割等任务中取得出色的性能。CNNs的设计使其能够有效处理二维图像数据，但也可以应用于其他类型的数据，如音频和文本，通过适当的数据表示和卷积操作进行处理。  

![](https://test.educg.net/userfiles/markdown/exp/2020_8/2034ll1597596025.png)
<font color='grey'><center>图3-1 二维卷积运算。</center></font>

![](https://p.sda1.dev/18/00a38a67520b7fa8ad8b8bb17af38688/296251fa81624246b56764208a2e6d58.png)
<font color='grey'><center>图3-2 CNN文本分类模型结构图。</center></font>

# 四、Classifying Surnames by Using a CNN （基于CNN的姓氏分类）   
  
下面我们将以一个具体的任务，来具体地说明如何使用CNN到一个分类任务。  
基于CNN的文本分类和前面所使用的MLP，主要不同在于模型的构建和姓氏向量化的过程。  
其中，使用one-hot矩阵作为CNN模型的输入，而不是前面示例中使用的压缩的one-hot编码。  
这种设计可以更好地保留字符排列的信息，因为它能够更好地捕捉到输入数据的序列信息。  

  

**4.1 The SurnameDataset**  

为此，我们需要实现一个数据集类，跟踪最长的姓氏，使用数据集中最长的姓氏来控制one-hot矩阵的大小。  
这样做的原因是为了确保每个姓氏矩阵的大小相同，以便能够以相同的方式处理每个小批处理。  
以下定义了这样的一个数据集类，这个类负责加载数据集、进行数据预处理、生成向量化的数据以及为模型提供适当的数据格式。  
该类还包括了一些方法，用于在训练、验证和测试集之间进行切换，以及加载和保存向量化器。


In [22]:
from torch.utils.data import Dataset, DataLoader

class SurnameDataset(Dataset):
    def __init__(self, surname_df, vectorizer):
        """
        Args:
            surname_df (pandas.DataFrame): 数据集
            vectorizer (SurnameVectorizer): 从数据集实例化的向量化器
        """
        # 初始化数据集
        self.surname_df = surname_df
        self._vectorizer = vectorizer
        self.train_df = self.surname_df[self.surname_df.split=='train']
        self.train_size = len(self.train_df)

        self.val_df = self.surname_df[self.surname_df.split=='val']
        self.validation_size = len(self.val_df)

        self.test_df = self.surname_df[self.surname_df.split=='test']
        self.test_size = len(self.test_df)

        self._lookup_dict = {'train': (self.train_df, self.train_size),
                             'val': (self.val_df, self.validation_size),
                             'test': (self.test_df, self.test_size)}

        self.set_split('train')
        
        # 类权重
        class_counts = surname_df.nationality.value_counts().to_dict()
        def sort_key(item):
            return self._vectorizer.nationality_vocab.lookup_token(item[0])
        sorted_counts = sorted(class_counts.items(), key=sort_key)
        frequencies = [count for _, count in sorted_counts]
        self.class_weights = 1.0 / torch.tensor(frequencies, dtype=torch.float32)


    @classmethod
    def load_dataset_and_make_vectorizer(cls, surname_csv):
        """加载数据集并从头开始创建一个新的向量化器
        
        Args:
            surname_csv (str): 数据集的位置
        Returns:
            SurnameDataset的一个实例
        """
        surname_df = pd.read_csv(surname_csv)
        train_surname_df = surname_df[surname_df.split=='train']
        return cls(surname_df, SurnameVectorizer.from_dataframe(train_surname_df))

    @classmethod
    def load_dataset_and_load_vectorizer(cls, surname_csv, vectorizer_filepath):
        """加载数据集和相应的向量化器。
        用于在向量化器已经被缓存以便重复使用的情况下
        
        Args:
            surname_csv (str): 数据集的位置
            vectorizer_filepath (str): 保存的向量化器的位置
        Returns:
            SurnameDataset的一个实例
        """
        surname_df = pd.read_csv(surname_csv)
        vectorizer = cls.load_vectorizer_only(vectorizer_filepath)
        return cls(surname_df, vectorizer)

    @staticmethod
    def load_vectorizer_only(vectorizer_filepath):
        """一个用于从文件加载向量化器的静态方法
        
        Args:
            vectorizer_filepath (str): 序列化向量化器的位置
        Returns:
            SurnameDataset的一个实例
        """
        with open(vectorizer_filepath) as fp:
            return SurnameVectorizer.from_serializable(json.load(fp))

    def save_vectorizer(self, vectorizer_filepath):
        """使用json将向量化器保存到磁盘
        
        Args:
            vectorizer_filepath (str): 保存向量化器的位置
        """
        with open(vectorizer_filepath, "w") as fp:
            json.dump(self._vectorizer.to_serializable(), fp)

    def get_vectorizer(self):
        """返回向量化器"""
        return self._vectorizer

    def set_split(self, split="train"):
        """使用数据框中的列选择数据集的拆分"""
        self._target_split = split
        self._target_df, self._target_size = self._lookup_dict[split]

    def __len__(self):
        return self._target_size

    def __getitem__(self, index):
        """PyTorch数据集的主要入口方法
        
        Args:
            index (int): 数据点的索引 
        Returns:
            一个包含数据点特征（x_data）和标签（y_target）的字典
        """
        row = self._target_df.iloc[index]

        surname_matrix = \
            self._vectorizer.vectorize(row.surname)

        nationality_index = \
            self._vectorizer.nationality_vocab.lookup_token(row.nationality)

        return {'x_surname': surname_matrix,
                'y_nationality': nationality_index}

    def get_num_batches(self, batch_size):
        """给定批次大小，返回数据集中的批次数
        
        Args:
            batch_size (int)
        Returns:
            数据集中的批次数
        """
        return len(self) // batch_size

    
def generate_batches(dataset, batch_size, shuffle=True,
                     drop_last=True, device="cpu"):
    """
    一个生成器函数，它包装了PyTorch的DataLoader。它将确保每个张量位于正确的设备位置。
    """
    dataloader = DataLoader(dataset=dataset, batch_size=batch_size,
                            shuffle=shuffle, drop_last=drop_last)

    for data_dict in dataloader:
        out_data_dict = {}
        for name, tensor in data_dict.items():
            out_data_dict[name] = data_dict[name].to(device)
        yield out_data_dict


**4.2 Vocabulary, Vectorizer, and DataLoader**   
为了适应CNN模型的需求，我们对Vectorizer的vectorize()方法进行了修改。  
该方法将姓氏中的每个字符映射到一个整数，并构建一个由onehot向量组成的矩阵。在这个例子中，矩阵的每一列都是不同的onehot向量。  
这种修改是为了适应使用Conv1d层的CNN模型的要求。Conv1d层期望数据张量在第0维上具有批处理维度，在第1维上具有通道维度，在第2维上具有特征维度。因此，我们使用onehot矩阵表示每个字符，并将它们作为不同的通道传递给CNN模型。

另外，我们还对Vectorizer进行了一些其他修改，以计算姓氏的最大长度并将其保存为max_surname_length。这是为了在数据预处理阶段确定输入数据的维度，并在模型中使用适当的维度设置。

In [23]:
class SurnameVectorizer(object):
    """协调词汇表并将其应用的向量化器"""
    def __init__(self, surname_vocab, nationality_vocab, max_surname_length):
        """
        Args:
            surname_vocab (Vocabulary): 将字符映射到整数的词汇表
            nationality_vocab (Vocabulary): 将国籍映射到整数的词汇表
            max_surname_length (int): 最长姓氏的长度
        """
        self.surname_vocab = surname_vocab
        self.nationality_vocab = nationality_vocab
        self._max_surname_length = max_surname_length

    def vectorize(self, surname):
        """
        Args:
            surname (str): 姓氏
        Returns:
            one_hot_matrix (np.ndarray): 一个独热向量矩阵
        """

        one_hot_matrix_size = (len(self.surname_vocab), self._max_surname_length)
        one_hot_matrix = np.zeros(one_hot_matrix_size, dtype=np.float32)
                               
        for position_index, character in enumerate(surname):
            character_index = self.surname_vocab.lookup_token(character)
            one_hot_matrix[character_index][position_index] = 1
        
        return one_hot_matrix

    @classmethod
    def from_dataframe(cls, surname_df):
        """从数据框实例化向量化器
        
        Args:
            surname_df (pandas.DataFrame): 姓氏数据集
        Returns:
            SurnameVectorizer的一个实例
        """
        surname_vocab = Vocabulary(unk_token="@")
        nationality_vocab = Vocabulary(add_unk=False)
        max_surname_length = 0

        for index, row in surname_df.iterrows():
            max_surname_length = max(max_surname_length, len(row.surname))
            for letter in row.surname:
                surname_vocab.add_token(letter)
            nationality_vocab.add_token(row.nationality)

        return cls(surname_vocab, nationality_vocab, max_surname_length)

    @classmethod
    def from_serializable(cls, contents):
        surname_vocab = Vocabulary.from_serializable(contents['surname_vocab'])
        nationality_vocab =  Vocabulary.from_serializable(contents['nationality_vocab'])
        return cls(surname_vocab=surname_vocab, nationality_vocab=nationality_vocab, 
                   max_surname_length=contents['max_surname_length'])

    def to_serializable(self):
        return {'surname_vocab': self.surname_vocab.to_serializable(),
                'nationality_vocab': self.nationality_vocab.to_serializable(), 
                'max_surname_length': self._max_surname_length}


接下来定义Vocabulary（词汇表）类。参考前面的MLP，结构基本一致。

In [24]:
class Vocabulary(object):
    """处理文本并提取词汇表以进行映射的类"""

    def __init__(self, token_to_idx=None, add_unk=True, unk_token="<UNK>"):
        """
        Args:
            token_to_idx (dict): 一个预先存在的token到index的映射
            add_unk (bool): 一个指示是否添加UNK token的标志
            unk_token (str): 要添加到词汇表中的UNK token
        """

        if token_to_idx is None:
            token_to_idx = {}
        self._token_to_idx = token_to_idx

        self._idx_to_token = {idx: token 
                              for token, idx in self._token_to_idx.items()}
        
        self._add_unk = add_unk
        self._unk_token = unk_token
        
        self.unk_index = -1
        if add_unk:
            self.unk_index = self.add_token(unk_token) 
        
        
    def to_serializable(self):
        """返回一个可以序列化的字典"""
        return {'token_to_idx': self._token_to_idx, 
                'add_unk': self._add_unk, 
                'unk_token': self._unk_token}

    @classmethod
    def from_serializable(cls, contents):
        """从序列化的字典实例化Vocabulary"""
        return cls(**contents)

    def add_token(self, token):
        """基于token更新映射字典
        
        Args:
            token (str): 要添加到词汇表中的项
        Returns:
            index (int): 对应于token的整数
        """
        try:
            index = self._token_to_idx[token]
        except KeyError:
            index = len(self._token_to_idx)
            self._token_to_idx[token] = index
            self._idx_to_token[index] = token
        return index
    
    def add_many(self, tokens):
        """将token列表添加到词汇表中
        
        Args:
            tokens (list): 字符串token列表
        Returns:
            indices (list): 与token对应的索引列表
        """
        return [self.add_token(token) for token in tokens]

    def lookup_token(self, token):
        """检索与token关联的索引或UNK索引（如果token不存在）
        
        Args:
            token (str): 要查找的token
        Returns:
            index (int): 与token对应的索引
        Notes:
            UNK功能需要unk_index >= 0（已添加到词汇表中）
        """
        if self.unk_index >= 0:
            return self._token_to_idx.get(token, self.unk_index)
        else:
            return self._token_to_idx[token]

    def lookup_index(self, index):
        """返回与索引关联的token
        
        Args: 
            index (int): 要查找的索引
        Returns:
            token (str): 与索引对应的token
        Raises:
            KeyError: 如果索引不在词汇表中
        """
        if index not in self._idx_to_token:
            raise KeyError("the index (%d) is not in the Vocabulary" % index)
        return self._idx_to_token[index]

    def __str__(self):
        return "<Vocabulary(size=%d)>" % len(self)

    def __len__(self):
        return len(self._token_to_idx)


**4.3 Reimplementing the SurnameClassifier with Convolutional Networks**  
在接下来我们所定义的姓氏分类器模型中，新增了sequence和ELU PyTorch模块。  
sequence模块是封装线性操作序列的方便包装器。我们将它用于封装应用于Conv1d序列的操作。  
而ELU是一种非线性函数，类似于ReLU，但不是将值裁剪到0以下，而是对它们求幂，对负值的处理更加平滑。  
每个卷积的通道数与num_channels超参数绑定，这意味着可以根据需要选择不同数量的通道进行卷积运算。通过实验，发现使用256个通道能够使模型达到合理的性能。


In [25]:
class SurnameClassifier(nn.Module):
    def __init__(self, initial_num_channels, num_classes, num_channels):
        """
        Args:
            initial_num_channels (int): 输入特征向量的大小
            num_classes (int): 输出预测向量的大小
            num_channels (int): 网络中要使用的恒定通道大小
        """
        super(SurnameClassifier, self).__init__()
        
        # 定义卷积神经网络的结构
        self.convnet = nn.Sequential(
            nn.Conv1d(in_channels=initial_num_channels, 
                      out_channels=num_channels, kernel_size=3),  # 第一个卷积层
            nn.ELU(),  # ELU非线性函数
            nn.Conv1d(in_channels=num_channels, out_channels=num_channels, 
                      kernel_size=3, stride=2),  # 第二个卷积层
            nn.ELU(),
            nn.Conv1d(in_channels=num_channels, out_channels=num_channels, 
                      kernel_size=3, stride=2),  # 第三个卷积层
            nn.ELU(),
            nn.Conv1d(in_channels=num_channels, out_channels=num_channels, 
                      kernel_size=3),  # 第四个卷积层
            nn.ELU()
        )
        
        # 定义全连接层
        self.fc = nn.Linear(num_channels, num_classes)

    def forward(self, x_surname, apply_softmax=False):
        """分类器的前向传播
        
        Args:
            x_surname (torch.Tensor): 输入数据张量。
                x_surname.shape 应该是 (batch, initial_num_channels, max_surname_length)
            apply_softmax (bool): 一个标志，用于指示是否应用softmax激活函数。
                如果与交叉熵损失一起使用，应为False。
        Returns:
            结果张量。张量形状应该是 (batch, num_classes)
        """
        # 执行卷积神经网络
        features = self.convnet(x_surname).squeeze(dim=2)
       
        # 应用全连接层
        prediction_vector = self.fc(features)

        # 如果需要应用softmax激活函数
        if apply_softmax:
            prediction_vector = F.softmax(prediction_vector, dim=1)

        return prediction_vector


**4.4 The Training Routine**  
实例化数据集、模型、损失函数和优化器，然后遍历训练数据集来更新模型参数，接着遍历验证数据集来评估模型性能，并重复这个过程多次。这些步骤已经在MLP中展示过，只是输入参数发生了变化。，这里就不复述了。

In [26]:
def make_train_state(args):
    """
    创建训练状态的初始字典。

    Args:
        args: 参数对象，包含训练和模型的超参数信息。

    Returns:
        train_state: 包含训练状态信息的字典。
    """
    return {'stop_early': False,
            'early_stopping_step': 0,
            'early_stopping_best_val': 1e8,
            'learning_rate': args.learning_rate,
            'epoch_index': 0,
            'train_loss': [],
            'train_acc': [],
            'val_loss': [],
            'val_acc': [],
            'test_loss': -1,
            'test_acc': -1,
            'model_filename': args.model_state_file}


def update_train_state(args, model, train_state):
    """
    处理训练状态的更新。

    组件:
     - 提前停止: 防止过拟合。
     - 模型检查点: 如果模型更好，则保存模型。

    Args:
        args: 主要参数
        model: 要训练的模型
        train_state: 表示训练状态值的字典

    Returns:
        train_state: 更新后的训练状态
    """

    # 至少保存一个模型
    if train_state['epoch_index'] == 0:
        torch.save(model.state_dict(), train_state['model_filename'])
        train_state['stop_early'] = False

    # 如果训练过至少一个epoch
    elif train_state['epoch_index'] >= 1:
        loss_tm1, loss_t = train_state['val_loss'][-2:]

        # 如果损失变大
        if loss_t >= train_state['early_stopping_best_val']:
            # 更新步数
            train_state['early_stopping_step'] += 1
        # 损失减小
        else:
            # 保存最佳模型
            if loss_t < train_state['early_stopping_best_val']:
                torch.save(model.state_dict(), train_state['model_filename'])

            # 重置提前停止步数
            train_state['early_stopping_step'] = 0

        # 是否提前停止？
        train_state['stop_early'] = \
            train_state['early_stopping_step'] >= args.early_stopping_criteria

    return train_state


def compute_accuracy(y_pred, y_target):
    """
    计算预测的准确率。

    Args:
        y_pred: 模型的预测结果
        y_target: 真实的目标值

    Returns:
        accuracy: 预测的准确率
    """
    y_pred_indices = y_pred.max(dim=1)[1]
    n_correct = torch.eq(y_pred_indices, y_target).sum().item()
    return n_correct / len(y_pred_indices) * 100


In [27]:
from argparse import Namespace
import os
import torch
import numpy as np

args = Namespace(
    # 数据和路径信息
    surname_csv="surnames_with_splits.csv",
    vectorizer_file="vectorizer.json",
    model_state_file="model.pth",
    save_dir="model_storage/ch4/cnn",
    # 模型超参数
    hidden_dim=100,
    num_channels=256,
    # 训练超参数
    seed=1337,
    learning_rate=0.001,
    batch_size=128,
    num_epochs=100,
    early_stopping_criteria=5,
    dropout_p=0.1,
    # 运行时选项
    cuda=False,
    reload_from_files=False,
    expand_filepaths_to_save_dir=True,
    catch_keyboard_interrupt=True
)

# 如果expand_filepaths_to_save_dir为True，将文件路径扩展到保存目录
if args.expand_filepaths_to_save_dir:
    args.vectorizer_file = os.path.join(args.save_dir, args.vectorizer_file)
    args.model_state_file = os.path.join(args.save_dir, args.model_state_file)
    print("Expanded filepaths: ")
    print("\t{}".format(args.vectorizer_file))
    print("\t{}".format(args.model_state_file))

# 检查CUDA是否可用
if not torch.cuda.is_available():
    args.cuda = False

# 设置设备为cuda或cpu
args.device = torch.device("cuda" if args.cuda else "cpu")
print("Using CUDA: {}".format(args.cuda))

def set_seed_everywhere(seed, cuda):
    """
    设置随机种子以实现全局可重现性。

    Args:
        seed: 随机种子
        cuda: 是否使用cuda

    Returns:
        None
    """
    np.random.seed(seed)
    torch.manual_seed(seed)
    if cuda:
        torch.cuda.manual_seed_all(seed)

def handle_dirs(dirpath):
    """
    处理目录，如果目录不存在，则创建目录。

    Args:
        dirpath: 目录路径

    Returns:
        None
    """
    if not os.path.exists(dirpath):
        os.makedirs(dirpath)

# 设置随机种子以实现可重现性
set_seed_everywhere(args.seed, args.cuda)

# 处理目录
handle_dirs(args.save_dir)


Expanded filepaths: 
	model_storage/ch4/cnn\vectorizer.json
	model_storage/ch4/cnn\model.pth
Using CUDA: False


In [28]:
import pandas as pd
import json
import torch.optim as optim
from tqdm import tqdm_notebook

if args.reload_from_files:
    # 从检查点训练
    dataset = SurnameDataset.load_dataset_and_load_vectorizer(args.surname_csv, args.vectorizer_file)
else:
    # 创建数据集和矢量化器
    dataset = SurnameDataset.load_dataset_and_make_vectorizer(args.surname_csv)
    dataset.save_vectorizer(args.vectorizer_file)

vectorizer = dataset.get_vectorizer()

classifier = SurnameClassifier(initial_num_channels=len(vectorizer.surname_vocab), 
                               num_classes=len(vectorizer.nationality_vocab),
                               num_channels=args.num_channels)

# 将分类器移动到指定的设备上
classifier = classifier.to(args.device)
dataset.class_weights = dataset.class_weights.to(args.device)

loss_func = nn.CrossEntropyLoss(weight=dataset.class_weights)
optimizer = optim.Adam(classifier.parameters(), lr=args.learning_rate)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer=optimizer,
                                                 mode='min', factor=0.5,
                                                 patience=1)

train_state = make_train_state(args)

# 创建进度条
epoch_bar = tqdm_notebook(desc='training routine', total=args.num_epochs, position=0)
dataset.set_split('train')
train_bar = tqdm_notebook(desc='split=train', total=dataset.get_num_batches(args.batch_size), position=1, leave=True)
dataset.set_split('val')
val_bar = tqdm_notebook(desc='split=val', total=dataset.get_num_batches(args.batch_size), position=1, leave=True)

try:
    for epoch_index in range(args.num_epochs):
        train_state['epoch_index'] = epoch_index

        # 遍历训练数据集

        # 设置：批生成器，将损失和准确度设置为0，将训练模式打开
        dataset.set_split('train')
        batch_generator = generate_batches(dataset, batch_size=args.batch_size, device=args.device)
        running_loss = 0.0
        running_acc = 0.0
        classifier.train()

        for batch_index, batch_dict in enumerate(batch_generator):
            # 训练流程的5个步骤：

            # --------------------------------------
            # 步骤1. 梯度清零
            optimizer.zero_grad()

            # 步骤2. 计算输出
            y_pred = classifier(batch_dict['x_surname'])

            # 步骤3. 计算损失
            loss = loss_func(y_pred, batch_dict['y_nationality'])
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)

            # 步骤4. 使用损失计算梯度
            loss.backward()

            # 步骤5. 使用优化器进行梯度更新
            optimizer.step()
            # -----------------------------------------
            # 计算准确度
            acc_t = compute_accuracy(y_pred, batch_dict['y_nationality'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)

            # 更新进度条
            train_bar.set_postfix(loss=running_loss, acc=running_acc, epoch=epoch_index)
            train_bar.update()

        train_state['train_loss'].append(running_loss)
        train_state['train_acc'].append(running_acc)

        # 遍历验证数据集

        # 设置：批生成器，将损失和准确度设置为0，将评估模式打开
        dataset.set_split('val')
        batch_generator = generate_batches(dataset, batch_size=args.batch_size, device=args.device)
        running_loss = 0.
        running_acc = 0.
        classifier.eval()

        for batch_index, batch_dict in enumerate(batch_generator):

            # 计算输出
            y_pred = classifier(batch_dict['x_surname'])

            # 步骤3. 计算损失
            loss = loss_func(y_pred, batch_dict['y_nationality'])
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)

            # 计算准确度
            acc_t = compute_accuracy(y_pred, batch_dict['y_nationality'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)
            val_bar.set_postfix(loss=running_loss, acc=running_acc, epoch=epoch_index)
            val_bar.update()

        train_state['val_loss'].append(running_loss)
        train_state['val_acc'].append(running_acc)

        # 更新训练状态
        train_state = update_train_state(args=args, model=classifier, train_state=train_state)

        # 更新学习率
        scheduler.step(train_state['val_loss'][-1])

        if train_state['stop_early']:
            break

        train_bar.n = 0
        val_bar.n = 0
        epoch_bar.update()
except KeyboardInterrupt:
    print("Exiting loop")


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  epoch_bar = tqdm_notebook(desc='training routine', total=args.num_epochs, position=0)


training routine:   0%|          | 0/100 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  train_bar = tqdm_notebook(desc='split=train', total=dataset.get_num_batches(args.batch_size), position=1, leave=True)


split=train:   0%|          | 0/60 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  val_bar = tqdm_notebook(desc='split=val', total=dataset.get_num_batches(args.batch_size), position=1, leave=True)


split=val:   0%|          | 0/12 [00:00<?, ?it/s]

In [29]:
print("最终训练集损失： {:.3f}".format(train_state['train_loss'][-1]))
print("最终训练集准确率： {:.2f}%".format(train_state['train_acc'][-1]))
print("最终验证集损失： {:.3f}".format(train_state['val_loss'][-1]))
print("最终验证集准确率： {:.2f}%".format(train_state['val_acc'][-1]))

最终训练集损失： 0.673
最终训练集准确率： 68.26%
最终验证集损失： 2.052
最终验证集准确率： 56.25%


In [30]:
# 加载模型状态字典
classifier.load_state_dict(torch.load(train_state['model_filename']))

# 将分类器移动到指定的设备上
classifier = classifier.to(args.device)
dataset.class_weights = dataset.class_weights.to(args.device)

# 定义损失函数
loss_func = nn.CrossEntropyLoss(dataset.class_weights)

# 设置数据集为测试集
dataset.set_split('test')

# 创建测试集的批生成器
batch_generator = generate_batches(dataset, 
                                   batch_size=args.batch_size, 
                                   device=args.device)
running_loss = 0.
running_acc = 0.
classifier.eval()

# 遍历测试集的批次
for batch_index, batch_dict in enumerate(batch_generator):
    # 计算输出
    y_pred = classifier(batch_dict['x_surname'])
    
    # 计算损失
    loss = loss_func(y_pred, batch_dict['y_nationality'])
    loss_t = loss.item()
    running_loss += (loss_t - running_loss) / (batch_index + 1)

    # 计算准确度
    acc_t = compute_accuracy(y_pred, batch_dict['y_nationality'])
    running_acc += (acc_t - running_acc) / (batch_index + 1)

# 记录测试集的损失和准确度
train_state['test_loss'] = running_loss
train_state['test_acc'] = running_acc

In [31]:
# 打印测试结果
print("测试集损失: {};".format(train_state['test_loss']))
print("测试集准确率: {}".format(train_state['test_acc']))

测试集损失: 1.8183989624182386;
测试集准确率: 56.77083333333333


执行评估的代码也没有变化，依然调用分类器的eval()方法来防止反向传播更新参数，并迭代测试数据集。与 MLP 约 46% 的性能相比，该模型的测试集性能准确率约为58%，可以看出我们在当前数据集上通过CNN得到了一个更好的评价结果，尽管这些性能数字绝不是这些特定架构的上限，但这个结果表明，在处理文本数据时，使用CNN模型是一个值得尝试的选择，它已经展示了CNN在文本分类任务上的潜力。

**4.5 Using the trained model to make predictions**  
同样地，我们可以像MLP那样使用模型进行预测。  
但有所不同的是，predict_nationality()函数的一部分发生了更改，通过使用PyTorch的unsqueeze()函数来添加大小为1的维度，而不是使用视图方法来重塑新创建的数据张量以添加批处理维度。  
这种更改的目的是为了在张量的特定位置添加批处理维度，确保数据在进行预测时具有正确的形状和维度，符合模型的输入要求。  
相同的更改反映在predict_topk_nationality()函数中。

In [32]:
def predict_nationality(surname, classifier, vectorizer):
    """根据姓氏预测国籍
    
    Args:
        surname (str): 要分类的姓氏
        classifier (SurnameClassifer): 分类器的实例
        vectorizer (SurnameVectorizer): 对应的向量化器
    
    Returns:
        dict: 包含最可能的国籍及其概率的字典
    """
    # 将姓氏转换为向量表示
    vectorized_surname = vectorizer.vectorize(surname)
    # 添加批处理维度并转换为PyTorch张量
    vectorized_surname = torch.tensor(vectorized_surname).unsqueeze(0)
    # 使用分类器进行预测
    result = classifier(vectorized_surname, apply_softmax=True)

    # 获取最高概率和对应的索引
    probability_values, indices = result.max(dim=1)
    index = indices.item()

    # 根据索引查找预测的国籍
    predicted_nationality = vectorizer.nationality_vocab.lookup_index(index)
    probability_value = probability_values.item()

    # 返回预测的国籍和概率
    return {'nationality': predicted_nationality, 'probability': probability_value}

In [33]:
# 获取用户输入的姓氏
new_surname = input("请输入要分类的姓氏：")
# 将分类器移动到CPU上进行预测
classifier = classifier.cpu()
# 进行姓氏分类预测
prediction = predict_nationality(new_surname, classifier, vectorizer)
# 打印预测结果
print("{} -> {} (p={:0.2f})".format(new_surname,
                                    prediction['nationality'],
                                    prediction['probability']))

请输入要分类的姓氏： Alice


Alice -> Italian (p=0.57)


In [34]:
def predict_topk_nationality(surname, classifier, vectorizer, k=5):
    """预测给定姓氏的前K个国籍
    
    Args:
        surname (str): 要分类的姓氏
        classifier (SurnameClassifer): 分类器的实例
        vectorizer (SurnameVectorizer): 对应的向量化器
        k (int): 要返回的前K个国籍数量
    
    Returns:
        list of dictionaries: 每个字典包含一个国籍和一个概率
    """
    
    # 将姓氏转换为向量表示
    vectorized_surname = vectorizer.vectorize(surname)
    vectorized_surname = torch.tensor(vectorized_surname).unsqueeze(dim=0)
    # 使用分类器进行预测
    prediction_vector = classifier(vectorized_surname, apply_softmax=True)
    # 获取前K个最高概率的国籍
    probability_values, indices = torch.topk(prediction_vector, k=k)
    
    # 转换为numpy数组
    probability_values = probability_values[0].detach().numpy()
    indices = indices[0].detach().numpy()
    
    results = []
    for kth_index in range(k):
        # 查找国籍并概率
        nationality = vectorizer.nationality_vocab.lookup_index(indices[kth_index])
        probability_value = probability_values[kth_index]
        results.append({'nationality': nationality, 
                        'probability': probability_value})
    return results

new_surname = input("输入要分类的姓氏：")

k = int(input("要显示前几个预测结果？"))
if k > len(vectorizer.nationality_vocab):
    print("抱歉！这超过了我们拥有的国籍数量...默认显示最大数量的结果:)")
    k = len(vectorizer.nationality_vocab)
    
predictions = predict_topk_nationality(new_surname, classifier, vectorizer, k=k)

print("前{}个预测结果:".format(k))
print("===================")
for prediction in predictions:
    print("{} -> {} (p={:0.2f})".format(new_surname,
                                        prediction['nationality'],
                                        prediction['probability']))


输入要分类的姓氏： Alice
要显示前几个预测结果？ 5


前5个预测结果:
Alice -> Italian (p=0.57)
Alice -> Spanish (p=0.25)
Alice -> English (p=0.05)
Alice -> French (p=0.04)
Alice -> Czech (p=0.04)


**4.6  Miscellaneous Topics in CNNs**   
当讨论卷积神经网络（CNNs）的核心概念时，以下几个主题在它们的共同使用中起着重要作用：池化操作（Pooling）、批归一化（Batch Normalization）、网络内网络连接（Network-in-Network Connection）和残差连接（Residual Connections）。

1. 池化操作（Pooling）：池化操作用于减小特征图的空间尺寸，同时保留重要的特征。常见的池化操作包括最大池化（Max Pooling）和平均池化（Average Pooling）。池化操作有助于减少模型的参数数量，提高模型的计算效率，并增强模型对平移和缩放的不变性。

2. 批归一化（Batch Normalization）：批归一化用于加速神经网络的训练过程，并提高模型的鲁棒性。它通过对每个批次的输入进行归一化，使得网络的每一层的输入具有相似的分布。批归一化有助于解决梯度消失和梯度爆炸的问题，同时提高模型的泛化能力。

3. 网络内网络连接（Network-in-Network Connection）：网络内网络连接是一种结构设计，用于增强模型的表示能力。它通过在卷积层中引入具有自己的权重和非线性激活函数的小型神经网络，来捕捉更复杂的特征。网络内网络连接可以增加模型的非线性能力，并提高模型对复杂数据模式的建模能力。

4. 残差连接（Residual Connections）：残差连接是一种跳跃连接（Skip Connection）的形式，用于解决深层神经网络训练中的梯度消失和模型退化问题。通过将输入直接添加到网络的输出中，残差连接允许信息在网络中直接传递，避免了信息的丢失和损失。残差连接有助于训练更深的网络，并提高模型的性能和收敛速度。

这些概念在CNNs的设计和训练中起着重要的作用，并帮助提高模型的性能和泛化能力。理解这些概念的原理和应用可以帮助您更好地设计和优化卷积神经网络模型。  
由于关于CNN的相关资料在网上非常多，在最后我们就不再赘述。