## 面试题3： 数组中重复的数字

题目：在一个长度为n的数组里的所有数字都在0到n~1的范围内。 数组中某些数字是重复的，但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。 例如，如果输入长度为7的数组{2,3,1,0,2,5,3}，那么对应的输出是重复的数字2或者3。

<b>解题思路1：先把输入数组排序，然后从排序后的数组中从前往后找。</b>

排序时间复杂度<i>O(nlogn)</i>

In [1]:
class Solution_1:
    # 注意保存重复的数字
    # 函数返回True/False
    @classmethod
    def duplicate(self, lis, duplication):
        # 首先进行输入的检测：是否为空
        if lis == None or len(lis)<1:
            return False
        # 是否为有效值
        for i in range(len(lis)):
            if lis[i]<0 or lis[i]>len(lis)-1:
                return False;
        
        lis.sort()
        for i in range(len(lis)-1):
            if lis[i] == lis[i+1]:
                duplication[0] = lis[i]
                return True
        return False

In [2]:
# 熟悉类变量用法
# 正确输入
dup_1 = [-1]
lis_1 = [2,3,1,0,2,5,3]
print('Test case 1: ' + str(Solution_1.duplicate(lis_1,dup_1)) + '\tDuplication: ' + str(dup_1[0]))
# 没有重复数字
dup_2 = [-1]
lis_2 = [2,3,1,0,4,5,8]
print('Test case 2: ' + str(Solution_1.duplicate(lis_2,dup_2)) + '\tDuplication: ' + str(dup_2[0]))
# 输入为空
dup_3 = [-1]
lis_3 = []
print('Test case 3: ' + str(Solution_1.duplicate(lis_3,dup_3)) + '\tDuplication: ' + str(dup_3[0]))
# 有0-n-1之外的数字
dup_4 = [-1]
lis_4 = [2,3,1,0,2,5,3,10]
print('Test case 4: ' + str(Solution_1.duplicate(lis_4,dup_4)) + '\tDuplication: ' + str(dup_4[0]))

Test case 1: True	Duplication: 2
Test case 2: False	Duplication: -1
Test case 3: False	Duplication: -1
Test case 4: False	Duplication: -1


<b>解题思路2：使用辅助空间:哈希表。</b>

时间复杂度为O(n)，空间复杂度为O(n)

In [3]:
class Solution_2:
    # 注意保存重复的数字
    # 函数返回True/False
    def duplicate(self, lis, duplication):
        # 首先进行输入的检测：是否为空
        if lis == None or len(lis)<1:
            return False
        
        dup_set = set()
        for i in range(len(lis)):
            if lis[i]<0 or lis[i]>len(lis)-1:
                return False;
            if lis[i] not in dup_set:
                dup_set.add(lis[i])
            else:
                duplication[0] = lis[i]
                return True
        return False

# 熟悉实例变量用法
s = Solution_2()
dup = [-1]
lis = [2,3,1,0,2,5,3]
s.duplicate(lis, dup)
print(str(s.duplicate(lis, dup)) + '\t\tDuplication: ' + str(dup[0]))

True		Duplication: 2


思路2时间效率的提高是以一个大小为O(n)的哈希表为代价的。现在思考一种时间复杂度为O(n)空间复杂度为O(1)的算法。注意到数组中的数字在0-n-1之间。如果数组中没有重复的数字，那么当数组排序之后数字i将出现在下标为i的位置。由于数组中有重复的数字，有些位置可能存在多个数字，有些位置可能没有数字。

<b>解题思路3：重排数组。从头到尾扫描数组的每个数字，当扫描到下标为i的数字时，首先比较这个数字（假设为m）是否等于i,如果是，接着扫描下一个数字；如果不是，那么再将它和下标为m的数字对比，如果两者不相等，就把它和第m个数字交换，把m放到属于它的位置，如果两者相等，那么就找到了一个重复的数字。重复这个过程，直到发现一个重复的数字。</b>

In [4]:
class Solution_3:
    # 注意保存重复的数字
    # 函数返回True/False
    def duplicate(self, lis, duplication):
        # 首先进行输入的检测：是否为空
        if lis == None or len(lis)<1:
            return False
        # 是否越界
        for i in range(len(lis)):
            if lis[i]<0 or lis[i]>len(lis)-1:
                return False;
            
        for i in range(len(lis)):
            if i == lis[i]:
                continue
            elif lis[i] == lis[lis[i]]:
                duplication[0] = lis[i]
                return True
            else:
                temp = lis[lis[i]]
                lis[lis[i]] = lis[i]
                lis[i] = temp
        return False
    
s_3 = Solution_3()
dup = [-1]
lis = [2,3,1,0,2,5,3]
s_3.duplicate(lis, dup)
print(str(s_3.duplicate(lis, dup)) + '\t\tDuplication: ' + str(dup[0]))

True		Duplication: 2


<b>拓展： 不修改数组找出重复的数字。</b>

在一个长度为n+1的数组里，所有数字都在1~n范围内，所以数组中至少有一个数字是重复的。找出任意一个重复的数字但是不能修改输入的数组。

思路1：同上面的思路2，利用哈希表，因此需要一个O(n)的辅助空间。

<b>思路2：二分查找的变形。</b>把从1~n的数字从中间的数字m分为两部分，前面一半为1~m，后面一半为m+1~n。如果1~m的数字数目超过m，那么这一半的区间里一定包含重复的数字；否则，另一半m+1~n的区间里一定包含重复的数字。然后继续把包含重复数字的区间一分为二，直到找到一个重复的数字。整个过程和二分查找十分类似，只是多了一步统计区间内数字的数目。

时间复杂度：O(logn)*O(n)即O(nlogn) 空间复杂度：O(1)

In [5]:
class Solution:
    # 注意保存重复的数字
    # 函数返回True/False
    def duplicate(self, lis, duplication):
        # 首先进行输入的检测：是否为空
        if lis == None or len(lis)<1:
            return False
        # 是否越界
        for i in range(len(lis)):
            if lis[i]<1 or lis[i]>len(lis)-1:
                return False;
        # 二分查找
        start = 1
        end = len(lis) - 1
        i = 0
        while end >= start:
            mid = start + (end-start)//2
            print(start, mid, end)
            count = self.count_range(lis, start, mid)
            #count = sum([(l>=start and l<=mid) for l in lis])
            print("count: " + str(count))
            # 终止条件
            if start == end:
                if count > 1:
                    duplication[0] = start
                    return True
                else:
                    break
            if count > mid - start + 1:
                end = mid
            else:
                start = mid+1
        return False
    
    def count_range(self, lis, start, end):
        '''
        计算数组中的元素大于等于start，小于等于end的元素的个数
        '''
        if lis == None or len(lis)<1:
            return 0
        count = 0
        for i in range(len(lis)):
            if lis[i] >=start and lis[i]<= end:
                count+=1
        return count

In [6]:
s = Solution()
dup = [-1]
lis = [2,1,1,4,3,5,6]
print(str(s.duplicate(lis, dup)) + '\t\tDuplication: ' + str(dup[0]))

1 3 6
count: 4
1 2 3
count: 3
1 1 2
count: 2
1 1 1
count: 2
True		Duplication: 1
