# 3 计算词二元组
编写一个用于计算词二元组的函数。也就是说，对于每一对词，比如
cat 和 dog，我们想要计算“cat”出现在“dog”之前的次数。我们将用元组
表示这个二元组，（’cat’，’dog’）。对于我们的目的，我们将忽略计数中的所
有空格、换行符、标点符号和大写。例如，在下面的诗片段中，
Half a league, half a league, Half a league onward, All in the valley of Death
Rode the six hundred.
包括二元组（’half’，’a’）和（’a’，’league’）各出现三次，二元组（’league’，
’half’）出现了两次，而二元组（’in’，’the’）只出现了一次。
1. 编写一个名为 count_bigrams_in_f ile 的函数，它只接受一个文件名
作为其唯一的参数。函数应该从给定的文件中读取，并返回一个字典，
其键是二元组（如上所述），值是这些二元组的计数。同样，您的函
数应该忽略标点符号、空格、换行符和大写。键元组中的字符串应该
是小写的。您的函数应该使用 try-catch 语句来在给定文件无法打开
时引发错误，并在提供的参数根本不是字符串的情况下引发不同的错
误。提示：请确保函数正确处理换行符。例如，在上述诗中，其中一个
（’league’，’half’）二元组跨越了换行符，但仍然应该被计算在内。注意：
请注意，函数不要错误地将空字符串计为一个词。
2. 从群共享中下载 WandP.txt。在此文件上运行你的函数，并将结果字
典利用 pickle 模块存储到名为 mb.bigrams.pickle 的文件中。



In [2]:
import re
from collections import defaultdict
import pickle

def count_bigrams_in_file(filename):
    # 检查输入是否为字符串
    if not isinstance(filename, str):
        raise ValueError("文件名必须是一个字符串。")

    # 初始化一个默认字典来存储二元组的计数
    bigram_counts = defaultdict(int)

    try:
        # 打开文件并读取内容
        with open(filename, 'r', encoding='utf-8') as file:
            # 读取所有行并连接为一个字符串，忽略换行符
            text = file.read().replace('\n', ' ')

            # 转换为小写并使用正则表达式移除标点符号
            text = re.sub(r'[^\w\s]', '', text.lower())

            # 分割文本为单词列表
            words = text.split()

            # 计算二元组的出现次数
            for i in range(len(words) - 1):
                # 忽略空字符串
                if words[i] and words[i + 1]:
                    bigram = (words[i], words[i + 1])
                    bigram_counts[bigram] += 1

    except IOError:
        raise IOError(f"无法打开文件：{filename}")

    return bigram_counts

# 在 WandP.txt 文件上运行函数
bigram_counts = count_bigrams_in_file('WandP.txt')

# 使用 pickle 模块将结果字典保存到文件中
with open('mb.bigrams.pickle', 'wb') as f:
    pickle.dump(bigram_counts, f)


3. 我们说，如果在文本中单词 A 和 B 立即一个接一个出现（无论是哪
种顺序），那么单词 A 与单词 B 在文本中是共现的。也就是说，如果
元组（A，B）或（B，A）中的任何一个出现在文本中，那么单词 A
和 B 就是共现的。编写一个名为 collocations 的函数，它只接受一个
文件名作为其唯一的参数，并返回一个字典。您的函数应该从给定的
文件中读取（如果文件无法打开或参数根本不是字符串，则引发适当
的错误），并返回一个字典，其键是文件中出现的所有字符串（再次忽
略大小写，并剥离所有空格、换行符和标点符号），单词 A 的值是一
个 Python 集合，包含与 A 共现的所有单词。再次以上面的诗片段为
例，字符串’league’ 应该作为一个键出现，其值应该是集合 {’a’，’half’，
’onward’}，而字符串’in’ 应该有集合 {’all’，’the’} 作为其值。
4. 在文件 WandP.txt 上运行您的函数，并将结果字典 pickle 到名为
mb.colloc.pickle 的文件中。请在您的提交中包含此文件。


In [1]:
import re
from collections import defaultdict
import pickle

def collocations(filename):
    # 检查输入是否为字符串
    if not isinstance(filename, str):
        raise ValueError("文件名必须是一个字符串。")

    # 初始化一个默认字典来存储共现的单词
    collocation_dict = defaultdict(set)

    try:
        # 打开文件并读取内容
        with open(filename, 'r', encoding='utf-8') as file:
            # 读取所有行并连接为一个字符串，忽略换行符
            text = file.read().replace('\n', ' ')

            # 转换为小写并使用正则表达式移除标点符号
            text = re.sub(r'[^\w\s]', '', text.lower())

            # 分割文本为单词列表
            words = text.split()

            # 计算共现单词
            for i in range(len(words)):
                # 忽略空字符串
                if words[i]:
                    # 对于当前单词，寻找其前后共现的单词
                    for j in range(len(words)):
                        if i != j and words[j]:
                            # 添加共现单词到集合中
                            collocation_dict[words[i]].add(words[j])

    except IOError:
        raise IOError(f"无法打开文件：{filename}")

    return collocation_dict

# 在 WandP.txt 文件上运行函数
collocation_dict = collocations('WandP.txt')

# 使用 pickle 模块将结果字典保存到文件中
with open('mb.colloc.pickle', 'wb') as f:
    pickle.dump(collocation_dict, f)


# 4 更多向量的乐趣
在这个练习中，我们将再次遇到我们的老朋友向量，这次采取面向对象
的方法。
1. 定义一个名为 Vector 的类。每个向量都应该有一个维度（一个非负整
数）和一个元素列表或元组。类的初始化函数应该接受维度作为其第
一个参数，接受一个数字列表或元组（整数或浮点数），代表向量的元素，作为其第二个参数。如果用户只应用一个维度而没有条目，请选
择合理的默认行为。如果维度无效（即，类型错误或负数），初始化器
应该引发一个合理的错误，并且在维度和提供的元素数量不一致的情
况下也应该引发错误。

In [4]:
# 定义一个名为 Vector 的类
class Vector:
    def __init__(self, dimension, elements=None):
        # 检查维度是否有效
        if not isinstance(dimension, int) or dimension < 0:
            raise ValueError("维度必须是非负整数")
        
        # 如果未提供元素，则用零初始化
        if elements is None:
            self.elements = [0] * dimension
        else:
            # 检查提供的元素是否在列表或元组中
            if not isinstance(elements, (list, tuple)):
                raise TypeError("元素必须是列表或元组")
            
            # 检查维度与元素数量是否匹配
            if len(elements) != dimension:
                raise ValueError("维度与元素数量不匹配")
            
            # 分配元素
            self.elements = list(elements)
        
        self.dimension = dimension

    def __repr__(self):
        # 返回向量的字符串表示
        return f"Vector({self.dimension}, {self.elements})"

# 测试该类
v1 = Vector(3)  # 只提供维度，不提供元素
v2 = Vector(3, [1, 2, 3])  # 提供维度和元素列表
v3 = Vector(2, (4, 5))  # 提供维度和元素元组

v1, v2, v3



(Vector(3, [0, 0, 0]), Vector(3, [1, 2, 3]), Vector(2, [4, 5]))

2. 您选择将向量的条目作为元组还是列表（这里没有错误答案）？

在这个实现中，我选择了将向量的条目作为列表 (`list`)。虽然元组 (`tuple`) 也是一个合理的选择，但列表提供了更多的灵活性，因为它们是可变的。这意味着我们可以更容易地对向量进行修改，例如添加、删除或更改其元素。这对于将来可能添加的功能（如向量加法、向量减法等）是有益的。
当然，如果向量的元素不应该被修改，那么使用元组也是一个很好的选择，因为它提供了不可变的特性，这可以防止意外更改向量的内容。但是，为了这个练习的目的，我选择了列表。


3. 维度和元素是类属性还是实例属性？为什么这是正确的设计选择？

在当前的实现中，维度 (`dimension`) 和元素 (`elements`) 都是实例属性。以下是为什么这是正确的设计选择的原因：
1. 实例属性：每个向量实例都有其独特的维度和元素。例如，一个向量可能是二维的，而另一个向量可能是三维的。同样，每个向量的元素也是不同的。因此，维度和元素应该是实例属性，这样每个 Vector 实例都可以有自己的维度和元素值。
2. 可变性：实例属性是可变的，这意味着我们可以为每个向量实例独立地更改其维度和元素，而不会影响其他向量实例。如果我们选择将维度和元素作为类属性，那么它们将被所有 Vector 实例共享，这会导致问题，因为不同的向量可能有不同的维度和元素。
3. 封装：实例属性有助于封装。每个向量实例都有自己的数据和状态，这是面向对象编程中的一个重要原则。通过将维度和元素作为实例属性，我们确保了每个向量实例都是独立的，并且可以根据需要独立地进行操作和修改。
因此，将维度和元素作为实例属性是正确的设计选择，因为它允许每个向量实例保持独立和可变，同时遵循面向对象编程的原则。


4.实现必要的运算符来支持向量对象的比较（相等，小于，小于或等于，
大于等）。我们将说两个 Vector 对象是等效的，如果它们有相同的坐
标。否则，比较应该类似于 Python 中的元组，以便首先比较第一个坐
标，然后是第二个坐标，然后是第三个坐标，依此类推。例如，二维向
量（2，4）在顺序上（小于）排在（2，5）之前。尝试比较不同维度的
两个向量应该会引发错误

In [3]:
class Vector:
    def __init__(self, dimension, elements=None):
        # 检查维度是否有效
        if not isinstance(dimension, int) or dimension < 0:
            raise ValueError("维度必须是非负整数")
        
        # 如果未提供元素，则用零初始化
        if elements is None:
            self.elements = [0] * dimension
        else:
            # 检查提供的元素是否在列表或元组中
            if not isinstance(elements, (list, tuple)):
                raise TypeError("元素必须是列表或元组")
            
            # 检查维度与元素数量是否匹配
            if len(elements) != dimension:
                raise ValueError("维度与元素数量不匹配")
            
            # 分配元素
            self.elements = list(elements)
        
        self.dimension = dimension

    def __repr__(self):
        return f"Vector({self.dimension}, {self.elements})"
    
    def __eq__(self, other):
        # 检查是否为Vector对象
        if not isinstance(other, Vector):
            return NotImplemented
        return self.elements == other.elements
    
    def __lt__(self, other):
        # 检查是否为Vector对象
        if not isinstance(other, Vector):
            return NotImplemented
        # 检查维度是否相同
        if self.dimension != other.dimension:
            raise ValueError("不能比较不同维度的向量")
        return self.elements < other.elements
    
    def __le__(self, other):
        # 检查是否为Vector对象
        if not isinstance(other, Vector):
            return NotImplemented
        # 检查维度是否相同
        if self.dimension != other.dimension:
            raise ValueError("不能比较不同维度的向量")
        return self.elements <= other.elements
    
    def __gt__(self, other):
        # 检查是否为Vector对象
        if not isinstance(other, Vector):
            return NotImplemented
        # 检查维度是否相同
        if self.dimension != other.dimension:
            raise ValueError("不能比较不同维度的向量")
        return self.elements > other.elements
    
    def __ge__(self, other):
        # 检查是否为Vector对象
        if not isinstance(other, Vector):
            return NotImplemented
        # 检查维度是否相同
        if self.dimension != other.dimension:
            raise ValueError("不能比较不同维度的向量")
        return self.elements >= other.elements

# 测试比较操作符
v1 = Vector(2, [1, 2])
v2 = Vector(2, [1, 3])
v3 = Vector(2, [2, 2])
v4 = Vector(3, [1, 2, 3])

# 比较操作
eq_result = v1 == v2
lt_result = v1 < v2
le_result = v1 <= v2
gt_result = v3 > v2
ge_result = v3 >= v2

# 这应该引发一个错误
try:
    error_result = v1 < v4
except ValueError as e:
    error_result = str(e)

eq_result, lt_result, le_result, gt_result, ge_result, error_result


(False, True, True, True, True, '不能比较不同维度的向量')

5. 实现一个名为 Vector.dot 的方法，它接受一个 Vector 作为其参数，并
返回调用者与给定 Vector 对象的内积。如果参数不是正确的类型，或
者两个向量的维度不一致，您的方法应该引发适当的错误。

In [5]:
# 在 Vector 类中添加 dot 方法
class Vector:
    def __init__(self, dimension, elements=None):
        if not isinstance(dimension, int) or dimension < 0:
            raise ValueError("维度必须是非负整数")
        
        if elements is None:
            self.elements = [0] * dimension
        else:
            if not isinstance(elements, (list, tuple)):
                raise TypeError("元素必须是列表或元组")
            
            if len(elements) != dimension:
                raise ValueError("维度与元素数量不匹配")
            
            self.elements = list(elements)
        
        self.dimension = dimension

    def __repr__(self):
        return f"Vector({self.dimension}, {self.elements})"
    
    # 计算两个向量的点积
    def dot(self, other):
        # 检查 other 是否是 Vector 实例
        if not isinstance(other, Vector):
            raise TypeError("参数必须是 Vector 类型")
        
        # 检查两个向量的维度是否一致
        if self.dimension != other.dimension:
            raise ValueError("两个向量的维度必须一致")
        
        # 计算点积
        return sum(a * b for a, b in zip(self.elements, other.elements))

# 测试 dot 方法
v1 = Vector(3, [1, 2, 3])
v2 = Vector(3, [4, 5, 6])
v1.dot(v2)



32

6. 我们也希望 Vector 类支持标量乘法。左乘或右乘标量，例如，2*v 或
v*2，其中 v 是 Vector 对象，应该产生一个新的 Vector 对象，其元素
都按给定的标量进行缩放。我们还将遵循逐元素向量-向量乘法，所以
对于 Vector 对象 v 和 w，v*w 的结果是一个新 Vector 对象，其第 i
个元素等于 v 的第 i 个元素乘以 w 的第 i 个元素。实现适当的运算符
来支持这种乘法操作。如果 v 和 w 在维度上不一致，您的方法应该引
发适当的错误。

In [7]:
# 在 Vector 类中添加标量乘法和逐元素向量-向量乘法的运算符重载
class Vector:
    def __init__(self, dimension, elements=None):
        if not isinstance(dimension, int) or dimension < 0:
            raise ValueError("维度必须是非负整数")
        
        if elements is None:
            self.elements = [0] * dimension
        else:
            if not isinstance(elements, (list, tuple)):
                raise TypeError("元素必须是列表或元组")
            
            if len(elements) != dimension:
                raise ValueError("维度与元素数量不匹配")
            
            self.elements = list(elements)
        
        self.dimension = dimension

    def __repr__(self):
        return f"Vector({self.dimension}, {self.elements})"
    
    def dot(self, other):
        if not isinstance(other, Vector):
            raise TypeError("参数必须是 Vector 类型")
        
        if self.dimension != other.dimension:
            raise ValueError("两个向量的维度必须一致")
        
        return sum(a * b for a, b in zip(self.elements, other.elements))
    
    # 支持标量左乘
    def __mul__(self, other):
        if isinstance(other, (int, float)):  # 标量乘法
            return Vector(self.dimension, [a * other for a in self.elements])
        elif isinstance(other, Vector):  # 向量逐元素乘法
            if self.dimension != other.dimension:
                raise ValueError("两个向量的维度必须一致")
            return Vector(self.dimension, [a * b for a, b in zip(self.elements, other.elements)])
        else:
            raise TypeError("不支持的操作")
    
    # 支持标量右乘
    def __rmul__(self, other):
        return self.__mul__(other)

# 测试标量乘法和逐元素向量-向量乘法
v1 = Vector(3, [1, 2, 3])
v2 = Vector(3, [4, 5, 6])

# 标量左乘
result_scalar_left = 2 * v1

# 标量右乘
result_scalar_right = v1 * 2

# 逐元素向量-向量乘法
result_elementwise = v1 * v2

result_scalar_left, result_scalar_right, result_elementwise



(Vector(3, [2, 4, 6]), Vector(3, [2, 4, 6]), Vector(3, [4, 10, 18]))