## HashTable
哈希表在题目中常见的用途有三种：
- 统计元素的频数
- 记录元素的位置
- 映射转换

[Longest Substring Without Repeating Characters](https://leetcode.com/problems/longest-substring-without-repeating-characters/)。给一字串，要求不含重复字符的最长子串的长度。

思路：滑动窗口+哈希表。滑动窗口中始终保持一个不含重复字符的字串，而哈希表记录每个字符的出现位置。若右指针字符未出现过，则在哈希表中添加记录；若右指针出现过，则需要分两种情况讨论。若在窗口之外出现过则无所谓，只要更新哈希表即可；若在窗口内出现，则窗口需要缩小，同时更新记录。

In [1]:
def lengthOfLongestSubstring(s: str) -> int:
    n = len(s)
    left = right = 0
    idx_lookup = dict()
    res = 0

    while left < n and right < n:
        if s[right] not in idx_lookup:
            idx_lookup[s[right]] = right
        else:
            if idx_lookup[s[right]] >= left:
                left = idx_lookup[s[right]]+1
            idx_lookup[s[right]] = right

        res = max(res, right-left+1)
        right += 1

    return res

[Two Sum](https://leetcode.com/problems/two-sum/)。给一数组与一目标值，返回和等于目标值的两个索引。假设数组中只存在一对符合条件的数。

思路：因为要返回的是索引而不是数，所以不能对数组排序会破坏原索引。线性扫描，每扫描到一个数字时，首先查看$target-num$在不在表中，在的话直接返回，否则加入表。

In [2]:
def twoSum(nums, target):
    lookup = dict()
    for idx, num in enumerate(nums):
        if target-num in lookup:
            return [lookup[target-num], idx]
        else:
            lookup[num] = idx

[Maximum Swap](https://leetcode.com/problems/maximum-swap/)。一个数字，只允许对两位交换一次，求能得到的最大数。

思路：假设交换的两个位置为$i$和$j$，令$i<j$，首先由高往低扫描并固定$i$，然后在$i$的后面找到比$nums[i]$大且最大最靠后的数字，设为$j$，然后交换即可。考虑到每位数字只有$10$种取值，使用哈希表记录每个数字最后出现的位置。

In [3]:
def maximumSwap(num: int) -> int:
    nums = list(map(int, str(num)))

    # 1. 记录每个数字最后出现的位置
    idx_lookup = dict()
    for i, x in enumerate(nums):
        idx_lookup[x] = i

    n = len(nums)

    for swap_i, x in enumerate(nums):
        for larger in range(9, x, -1):    # 从最大的开始找
            swap_j = idx_lookup.get(larger, None)
            if swap_j and swap_j > swap_i:
                nums[swap_i], nums[swap_j] = nums[swap_j], nums[swap_i]
                return int(''.join(map(str, nums)))

    return num

[Valid Parentheses](https://leetcode.com/problems/valid-parentheses/)。给一只含括号的字串，判断字串中的括号序列是否合法

思路：构建左右括号的映射字典，在设立一个栈保存左括号。扫描字串，左括号入栈，右括号需要看栈顶的括号是否匹配。

In [4]:
def isValid(self, s: str) -> bool:
    p_map = {')': '(',
             ']': '[',
             '}': '{'}
    stack = list()

    for ch in s:
        if ch in p_map.keys():
            if stack and stack[-1] == p_map[ch]:
                stack.pop()
            else:
                return False
        else:
            stack.append(ch)

    return True if not stack else False

[4Sum II](https://leetcode.com/problems/4sum-ii/)。给四个数组$A$、$B$、$C$、$D$，从每个数组中各取出一个数，问四个数求和等于$0$的方案数。

思路：使用一个哈希表记录前两个数的和，再以后两个数求和的相反数去哈希表中查找。

In [5]:
def fourSumCount(A, B, C, D) -> int:
    twosum_lookup = dict()
    for a in A:
        for b in B:
            twosum = a+b
            twosum_lookup.setdefault(twosum, 0)
            twosum_lookup[twosum] += 1

    res = 0
    for c in C:
        for d in D:
            twosum = -c-d
            if twosum in twosum_lookup:
                res += twosum_lookup[twosum]

    return res

[Intersection of Two Arrays II](https://leetcode.com/problems/intersection-of-two-arrays-ii/)。给两数组代表两个集合，求交集。

思路：使用哈希表记录其中一个集合中的所有元素及出现次数，再扫描另一个集合。

In [6]:
def intersect(nums1, nums2):
    cnt_lookup = dict()
    for num in nums1:
        cnt_lookup.setdefault(num, 0)
        cnt_lookup[num] += 1

    res = list()
    for num in nums2:
        if num in cnt_lookup and cnt_lookup[num] > 0:
            res.append(num)
            cnt_lookup[num] -= 1

    return res

[Ransom Note](https://leetcode.com/problems/ransom-note/)。给两字串```ransomNote```和```magazine```，判断```ransomNote```是否可以由```magazine```中的字符拼接而来。

思路：字典计数即可。

In [None]:
def canConstruct(ransomNote: str, magazine: str) -> bool:
    ch_cnts = dict()
    for ch in magazine:
        ch_cnts.setdefault(ch, 0)
        ch_cnts[ch] += 1

    for ch in ransomNote:
        if ch not in ch_cnts or ch_cnts[ch] == 0:
            return False
        else:
            ch_cnts[ch] -= 1

    return True

[First Unique Character in a String](https://leetcode.com/problems/first-unique-character-in-a-string/)。给一字串，返回第一个非重复字符的索引。

思路：$2$pass，$1st$-pass记录字符的首次出现的索引与出现次数，$2nd$-pass找到出现次数为$1$且最靠前的索引。由于Python3.6的```dict```是有序的，所以直接对字串的字符计数，然后再扫描字典即可。

In [None]:
def firstUniqChar(s: str) -> int:
    lookup = dict()
    for ch in s:
        lookup.setdefault(ch, 0)
        lookup[ch] += 1

    for idx, ch in enumerate(s):
        if lookup[ch] == 1:
            return idx

    return -1

[Reorganize String](https://leetcode.com/problems/reorganize-string/)。给一字串$S$，重排该字串，要求相邻位置的字符都不相等。

思路：首先用哈希表对所有字符计数。重排的一个最朴素的思想，每次放置字符时，选取剩余次数最多且与之前字符不同的字符。如$aaabb$，首先放置$a$，然后只能选取$b$。

In [12]:
def reorganizeString(S: str) -> str:
    lookup = dict()
    for ch in S:
        lookup.setdefault(ch, 0)
        lookup[ch] += 1

    n = len(S)
    res = ''
    pre_ch = '#'
    
    for _ in range(n):    # 放置n次
        max_ch, max_cnt = '#', 0
        for ch, cnt in lookup.items():
            if cnt > max_cnt and ch != pre_ch:
                max_ch, max_cnt = ch, cnt

        if max_ch == '#':
            return str()

        pre_ch = max_ch
        res += max_ch
        lookup[max_ch] -= 1

    return res

'ababa'

[Array of Doubled Pairs](https://leetcode.com/problems/array-of-doubled-pairs/)。给一长度为偶数的整形数组$A$，判断$A$是否能重排，满足对于任意的$0\le{i}<len(A)/2$，都有```A[2 * i + 1] = 2 * A[2 * i]```。

思路：题意即需要所有奇数位置的值是偶数位置的两倍。一对一对凑即可，使用哈希表对所有数字计数。

In [15]:
def canReorderDoubled(A) -> bool:
    cnts = dict()
    for num in A:
        cnts.setdefault(num, 0)
        cnts[num] += 1

    A.sort(key=abs)
    for num in A:
        if cnts[num] == 0:
            continue
        if cnts.get(2*num, 0) == 0:
            return False
        else:
            cnts[num] -= 1
            cnts[2*num] -= 1

    return True

True

[Subarray Sum Equals K](https://leetcode.com/problems/subarray-sum-equals-k/)。给一整形数组，求出连续区间和等于$K$的区间数量。

思路：首先需要想到计算累加数组```sum_arr```，若```sum_arr[j]-sum_arr[i]=k```则说明该段区间的和等于$K$。然后利用哈希表优化，将所有可能的区间和存入哈希表，当计算一个新位置的累加和时，去哈希表查找```cur_sum-k```是否存在。

In [1]:
def subarraySum(nums, k: int) -> int:
    n = len(nums)
    res = 0
    lookup = dict()
    lookup[0] = 1

    total_sum = 0
    for i in range(n):
        total_sum += nums[i]
        res += lookup.get(total_sum-k, 0)
        lookup.setdefault(total_sum, 0)
        lookup[total_sum] += 1
    return res

2

## Set
set常用于去重和存在性判断。

[Find the Duplicate Number](https://leetcode.com/problems/find-the-duplicate-number/)。给一长度为$n+1$的数组，其中数字范围为$[1,n]$，其中有且仅有一个数字重复出现了多次，找出该数字。

思路：原题要求时间复杂度$O(n)$且空间复杂度$O(1)$，有点难。使用set直接判重。

In [7]:
def findDuplicate(nums) -> int:
    set_ = set()
    for num in nums:
        if num in set_:
            return num
        else:
            set_.add(num)

[判别顺子](https://www.nowcoder.com/questionTerminal/762836f4d43d43ca9deb273b3de8e1f4)。给五张牌，判断能否形成顺子。大小王用$0$表示，可变牌面。

思路：记录数组最大值与最小值，极差$<5$且不含重复牌面即可。

In [8]:
def isContinuous(numbers) -> bool:
    if not numbers or len(numbers) != 5:
        return False

    unicards = set()
    for num in numbers:
        if num == 0:
            continue
        else:
            if num in unicards:
                return False
            else:
                unicards.add(num)

    return max(unicards)-min(unicards) < 5

[Powerful Integers](https://leetcode.com/problems/powerful-integers/)。若一个整数$n$可以表示成$n=x^{i}+y^{j}$，那么就称$n$是一个强整数。给一个上限$bound$，求所有的强整数。

思路：暴力法，使用一个```set```去重。

In [9]:
def powerfulIntegers(x: int, y: int, bound: int):
    res = set()

    for i in range(31):
        for j in range(31):
            cur_num = x**i+y**j
            if cur_num <= bound:
                res.add(cur_num)
            else:
                break

    return list(res)

[Longest Consecutive Sequence](https://leetcode.com/problems/longest-consecutive-sequence/)。给一无序整形数组，求其中最长连续区间的长度。

思路：将原数组去重后存储在```set```中以供查找。线性扫描原数组，当```num-1```不存在时，说明```num```是一个区间的起点，然后连续查找下去，随时记录最大长度。

In [None]:
def longestConsecutive(nums) -> int:
    if not nums:
        return 0

    lookup = set(nums)
    res = 1

    for num in nums:
        if num-1 not in lookup:    # 找到区间起点
            cur_num = num
            cur_len = 1

            while cur_num+1 in lookup:    # 连续查找
                cur_len += 1
                cur_num += 1

            res = max(res, cur_len)

    return res

[Repeated DNA Sequences](https://leetcode.com/problems/repeated-dna-sequences/)。给一串只含"AGCT"的DNA序列，返回所有长度为$10$且重复出现过的DNA段。

思路：暴力，滑动窗口+```set```。

In [None]:
def findRepeatedDnaSequences(s: str):
    lookup = set()
    res = set()
    n = len(s)

    for idx in range(n-10+1):
        sub_s = s[idx:idx+10]
        if sub_s not in lookup:
            lookup.add(sub_s)
        else:
            res.add(sub_s)

    return list(res)