In [1]:
'''
哈希表： 键值对(k, v)

用list实现哈希表

copy               O(n)
get                O(1)
set                O(1)
del                O(1)
contains           O(1)
iterator           O(n)

'''


'\n哈希表： 键值对(k, v)\n\n用list实现哈希表\n\ncopy               O(n)\nget                O(1)\nset                O(1)\ndel                O(1)\ncontains           O(1)\niterator           O(n)\n\n'

In [4]:
""" 
哈希表实现 

在Python中，字典是通过哈希表实现的。也就是说，字典是一个数组，而数组的索引是键经过哈希函数处理后得到的。
key = > hash值 => key所在的索引
get(key)是 O(1)

    数据添加：把key通过哈希函数转换成一个整型数字，然后就将该数字对数组长度进行取余，取余结果就当作数组的下标，将value存储在以该数字为下标的数组空间里。
    数据查询：再次使用哈希函数将key转换为对应的数组下标，并定位到数组的位置获取value。

哈希函数的目的是使键均匀地分布在数组中。由于不同的键可能具有相同的哈希值，即可能出现冲突，高级的哈希函数能够使冲突数目最小化。
Python中并不包含这样高级的哈希函数，几个重要（用于处理字符串和整数）的哈希函数通常情况下均是常规的类型。
冲突指不同键经过哈希函数计算得到相同的索引，这样造成索引重复的冲突。

python内部采用 开放地址法 解决冲突问题。
    所有的元素都存放在散列表里，当产生哈希冲突时，通过一个探测函数计算出下一个候选位置，如果下一个获选位置还是有冲突，
    那么不断通过探测函数往下找，直到找个一个空槽slot来存放待插入元素。

typedef struct {
     Py_ssize_t me_hash; 
     PyObject *me_key;
     PyObject *me_value;
} PyDictEntry;

me_hash用于缓存me_key的哈希值，防止每次查询时都要计算哈希值，entry有三种状态。
1.Unused：未使用
2.Active：插入元素
3.Dummy：删除元素时Active状态刻转换成Dummy状态。Dummy状态的元素可以在插入元素的时候将它变成Active状态，但它不可能再变成Unused状态。

为什么entry有Dummy状态呢？这是因为采用开放寻址法中，遇到哈希冲突时会找到下一个合适的位置，例如某元素经过哈希计算应该插入到A处，
但是此时A处有元素的，通过探测函数计算得到下一个位置B，仍然有元素，直到找到位置C为止，此时ABC构成了探测链，查找元素时如果hash值相同，
那么也是顺着这条探测链不断往后找，当删除探测链中的某个元素时，比如B，如果直接把B从哈希表中移除，即变成Unused状态，
那么C就不可能再找到了，因为AC之间出现了断裂的现象，正是如此才出现了第三种状态---Dummy，Dummy是一种类似的伪删除方式，保证探测链的连续性。

typedef struct _dictobject PyDictObject;
struct _dictobject {
    PyObject_HEAD
    Py_ssize_t ma_fill;  /* # Active + # Dummy */
    Py_ssize_t ma_used;  /* # Active */

    /* The table contains ma_mask + 1 slots, and that's a power of 2.
     * We store the mask instead of the size because the mask is more
     * frequently needed.
     */
    Py_ssize_t ma_mask;

    /* ma_table points to ma_smalltable for small tables, else to
     * additional malloc'ed memory.  ma_table is never NULL!  This rule
     * saves repeated runtime null-tests in the workhorse getitem and
     * setitem calls.
     */
    PyDictEntry *ma_table;
    PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash);
    PyDictEntry ma_smalltable[PyDict_MINSIZE];
};

    ma_fill ：所有处于Active以及Dummy的元素个数
    ma_used ：所有处于Active状态的元素个数
    ma_mask ：所有entry的元素个数（Active+Dummy+Unused）
    ma_smalltable：创建字典对象时，一定会创建一个大小为PyDict_MINSIZE==8的PyDictEntry数组。默认的slot。
    ma_table：当entry数量小于PyDict_MINSIZE，ma_table指向ma_smalltable的首地址，当entry数量大于8时，
              Python把它当做一个大字典来处理，此刻会申请额外的内存空间，同时将ma_table指向这块空间。
              初始指向ma_smalltable，如果后期扩容，则指向新的slot空间。
              
    ma_lookup：字典元素的搜索策略
    
    PyDictObject使用PyObject_HEAD而不是PyObject_Var_HEAD，虽然字典也是变长对象，
    但此处并不是通过ob_size来存储字典中元素的长度，而是通过ma_used字段。

"""

" \n哈希表实现 \n\n在Python中，字典是通过哈希表实现的。也就是说，字典是一个数组，而数组的索引是键经过哈希函数处理后得到的。\nkey = > hash值 => key所在的索引\nget(key)是 O(1)\n\n    数据添加：把key通过哈希函数转换成一个整型数字，然后就将该数字对数组长度进行取余，取余结果就当作数组的下标，将value存储在以该数字为下标的数组空间里。\n    数据查询：再次使用哈希函数将key转换为对应的数组下标，并定位到数组的位置获取value。\n\n哈希函数的目的是使键均匀地分布在数组中。由于不同的键可能具有相同的哈希值，即可能出现冲突，高级的哈希函数能够使冲突数目最小化。\nPython中并不包含这样高级的哈希函数，几个重要（用于处理字符串和整数）的哈希函数通常情况下均是常规的类型。\n冲突指不同键经过哈希函数计算得到相同的索引，这样造成索引重复的冲突。\n\npython内部采用 开放地址法 解决冲突问题。\n    所有的元素都存放在散列表里，当产生哈希冲突时，通过一个探测函数计算出下一个候选位置，如果下一个获选位置还是有冲突，\n    那么不断通过探测函数往下找，直到找个一个空槽slot来存放待插入元素。\n\ntypedef struct {\n     Py_ssize_t me_hash; \n     PyObject *me_key;\n     PyObject *me_value;\n} PyDictEntry;\n\nme_hash用于缓存me_key的哈希值，防止每次查询时都要计算哈希值，entry有三种状态。\n1.Unused：未使用\n2.Active：插入元素\n3.Dummy：删除元素时Active状态刻转换成Dummy状态。Dummy状态的元素可以在插入元素的时候将它变成Active状态，但它不可能再变成Unused状态。\n\n为什么entry有Dummy状态呢？这是因为采用开放寻址法中，遇到哈希冲突时会找到下一个合适的位置，例如某元素经过哈希计算应该插入到A处，\n但是此时A处有元素的，通过探测函数计算得到下一个位置B，仍然有元素，直到找到位置C为止，此时ABC构成了探测链，查找元素时如果hash值相同，\n那么也是顺着这条探测链不断往后找，当删除探测链中的某个元素时，比