# 集合_Set

## 集合数据结构的实现（set_adt.py）

In [1]:
class Array(object):
    """初始化、获取项目、设置项目、求取长度、清空数组、迭代数据性并返回
    """
    def __init__(self, size=32, init=None):  # 加入每个槽位的初始值，还是默认为None
        '''初始化数组大小_size和数据项_items'''
        self._size = size
        self._items = [init] * size

    def __getitem__(self, index):  # Called to implement evaluation of self[index]实现下标访问.
        return self._items[index]

    def __setitem__(self, index, value):  # Called to implement assignment to self[index].实现下标设置
        self._items[index] = value

    def __len__(self):
        '''获取长度'''
        return self._size

    def clear(self, value=None):
        '''清空数组'''
        for i in range(len(self._items)):
            self._items[i] = value

    def __iter__(self):
        '''迭代数据项并返回项'''
        for item in self._items:
            yield item


class Slot(object):
    """定义一个hash表数组的槽
        注意：一个槽有三种状态，看你能否明白。相对于链接法解决冲突，二次探查法删除一个key的操作稍微复杂。
        1、从未使用过，值为HashMap.UNUSED(None).此槽没有被使用过和冲突过，查找的时候只要找到UNUSED就不用再继续探查了
        2、使用过但是remove了，此时的值为HashMap.EMPTY,该探查点的后边的元素仍可能是有key的
        3、槽正在使用Slot的节点
    """

    def __init__(self, key, value):
        # 初始化slot槽，键值对
        self.key, self.value = key, value


class HashTable(object):
    """1初始化(表空间和长度)，2负载因子、3表长度、4hash计算、5查找键、
    6查找槽进行插入、7查找能插入的槽，8实现hash表的in操作，9添加、10重hash，
    11获取值，12去除值
    """
    UNUSED = None
    EMPTY = Slot(None, None)

    def __init__(self):
        '''初始化hash表'''
        self._table = Array(8, init=HashTable.UNUSED)  # key-value对以slot对象的形式保存在数组中，slot初始值为HashMap.UNUSED
        self.length = 0

    @property
    def _load_factor(self):
        # 负载因子超过0.8重新分配空间
        return self.length / float(len(self._table))

    def __len__(self):
        '''hash'''
        return self.length

    def _hash(self, key):
        return abs(hash(key)) % len(self._table)

    def _find_key(self, key):
        """查找key，返回key在数组中的位置
            若index位置的值为UNUSED，说明槽未使用过，key在数组中不存在
            若为EMPTY或key值，则设法返回key在数组中的位置
        """
        index = self._hash(key)
        _len = len(self._table)
        while self._table[index] is not HashTable.UNUSED:
            if self._table[index] is HashTable.EMPTY:  # 若值为EMPTY，继续探查点后边的元素
                index = (index * 5 + 1) % _len
                continue  # 跳过当前循环的剩余语句
            elif self._table[index].key == key:  # 若值不为EMPTY，检查slot的key值是否等于key
                return index
            else:  # 有值且不为key，则继续探查点后边的元素
                index = (index * 5 + 1) % _len
        return None

    def _find_slot_for_insert(self, key):
        index = self._hash(key)
        _len = len(self._table)
        while not self._slot_can_insert(index):
            index = (index * 5 + 1) % _len
        return index

    def _slot_can_insert(self, index):
        return self._table[index] is HashTable.EMPTY or self._table[index] is HashTable.UNUSED

    def __contains__(self, key):  # 实现散列表的 in 操作
        index = self._find_key(key)
        return index is not None

    def add(self, key, value):
        """向散列表中添加key-value对
        首先查找key是否已经在散列表中，若已存在，重置其value并返回False；
        若不存在，查找可供插入的槽并插入Slot，并检查负载因子，若有必要则进行重哈希
        """
        index = self._find_key(key)
        if index is not None:  # 更新已存在的key
            self._table[index].value = value
            return False
        else:
            index = self._find_slot_for_insert(key)
            self._table[index] = Slot(key, value)  # 用key-value对构造Slot并插入到数组
            self.length += 1
            if self._load_factor >= 0.8:
                self._rehash()
            return True

    def _rehash(self):
        oldtable = self._table
        newsize = len(self._table) * 2
        self._table = Array(newsize, HashTable.UNUSED)  # 使用新的大小构造数组
        self.length = 0

        for slot in oldtable:  # 迭代旧表并将非空节点添加到新数组
            if slot is not HashTable.UNUSED and slot is not HashTable.EMPTY:
                index = self._find_slot_for_insert(slot.key)
                self._table[index] = slot
                self.length += 1

    def get(self, key, default=None):
        '''根据key值查找对应的value'''
        index = self._find_key(key)
        if index is None:  # 首先检查key是否存在
            return default
        else:
            return self._table[index].value

    def remove(self, key):
        '''根据对应的key去除对应的value'''
        index = self._find_key(key)
        if index is None:  # 首先检查key是否存在
            raise KeyError()
        else:
            value = self._table[index].value
            self.length -= 1
            self._table[index] = HashTable.EMPTY
            return value

    def __iter__(self):
        """迭代数组中的slot，若slot不为空，则返回其key值
        :return:
        """
        for slot in self._table:
            if slot not in (HashTable.EMPTY, HashTable.UNUSED):
                yield slot.key


class SetADT(HashTable):
    """继承hash表，并对需要的方法进行重写
    添加（集合实质是一个dict，只是把他的value设置为1），交集（A&B）
    差集（A-B），并集（A|B）,对称差（A^B）
    """
    def add(self, key):
        # 集合其实就是一个 dict，只不过我们把它的 value 设置成 1
        return super(SetADT, self).add(key, True)

    def __and__(self, other_set):
        """交集 A&B"""
        # 定义有一个新的集合，两个集合里面有对应的相同的值得话就添加到新集合里面并返回
        new_set = SetADT()
        for element in self:
            if element in other_set:
                new_set.add(element)
        return new_set

    def __sub__(self, other_set):
        """差集 A-B"""
        # 定义一个新的集合，两个集合，本集合减去传入的集合的元素，新集合中保存剩下的元素并返回
        new_set = SetADT()
        for element in self:
            if element not in other_set:
                new_set.add(element)
        return new_set

    def __or__(self, other_set):
        """并集 A|B"""
        # 遍历本集合和新集合，将两个集合的元素添加到新定义的集合里面并返回新的集合
        new_set = SetADT()
        for element_a in self:
            new_set.add(element_a)
        for element_b in other_set:
            new_set.add(element_b)
        return new_set

    def __xor__(self, other_set):
        """对称差 A^B"""
        # 先求并集和交集，然后并集减去交集剩下的元素添加到新集合就是不同的集合即对称差并返回
        union_set = self.__or__(other_set)
        inter_set = self.__and__(other_set)
        new_set = union_set.__sub__(inter_set)
        return new_set


def test_set_adt():
    # 初始化集合实例，最近简单的操作集合的方法就是添加和移除操作
    set1 = SetADT()
    set1.add(1)
    set1.add(2)
    set1.add(3)
    assert 1 in set1

    set2 = SetADT()
    set2.add(3)
    set2.add(4)
    set2.add(5)

    assert sorted(list(set1 & set2)) == [3]
    assert sorted(list(set1 - set2)) == [1, 2]
    assert sorted(list(set1 | set2)) == [1, 2, 3, 4, 5]
    assert sorted(list(set1 ^ set2)) == [1, 2, 4, 5]

    set1.remove(1)
    set1.remove(2)
    set1.remove(3)
    assert len(set1) == 0
test_set_adt()