In [1]:
class TrieNode:
    def __init__(self):
        self.children = {}
        self.is_end_of_word = False
        self.words = []  # 用来存储以当前节点为终止的所有词

class Trie:
    def __init__(self):
        self.root = TrieNode()

    def insert(self, word):
        node = self.root
        for char in word:
            if char not in node.children:
                node.children[char] = TrieNode()
            node = node.children[char]
        node.is_end_of_word = True
        node.words.append(word)  # 将当前词添加到以该节点为结束的词列表中

    def search(self, text, start_index):
        node = self.root
        matches = []
        for i in range(start_index, len(text)):
            char = text[i]
            if char not in node.children:
                break
            node = node.children[char]
            if node.is_end_of_word:
                for word in node.words:
                    matches.append((start_index, start_index + len(word) - 1, word))

        return matches if matches else None

def annotate_text(text, keywords):
    # 构建Trie树
    trie = Trie()
    for word in keywords:
        trie.insert(word)

    # 标注文本
    annotations = []
    i = 0
    while i < len(text):
        matches = trie.search(text, i)
        if matches:
            # print(f"matches:{matches}")
            max_matched = max(matches,key=lambda x: x[1])
            annotations.append(max_matched)
            i += len(max_matched[2])
            # for match in matches:
            #     print(f"match:{match}")
            #     annotations.append(match)
            #     i += len(match[2])  # 跳过已经匹配的词
        else:
            i += 1

    return annotations

# 示例用法
text = "甲状腺是一个重要的器官，甲状腺疾病很常见，甲状腺功能亢进是一种常见的病症。"
keywords = ["甲状腺", "甲状"]
annotations = annotate_text(text, keywords)
print(annotations)


[(0, 2, '甲状腺'), (12, 14, '甲状腺'), (21, 23, '甲状腺')]


In [17]:
# 数组中的第K个最大元素，题目描述：
# 给定整数数组 nums 和整数 k，请返回数组中第 k 个最大的元素。
# 请注意，你需要找的是数组排序后的第 k 个最大的元素，而不是第 k 个不同的元素。
# 你必须设计并实现时间复杂度为 O(n) 的算法解决此问题。

def partition(nums,left,right):
    pivot = nums[left]
    i,j = left ,right
    while i<j:
        while (i<j and nums[j]>=pivot):#从后往前找，值到找到一个比pivot更小的数
            j -= 1
        nums[i] = nums[j]
        while (i<j and nums[i]<=pivot): #从前往后找，直到找到一个比pivot更大的数
            i += 1
        nums[j] = nums[i]
    #i=j,循环结束
    nums[i] = pivot
    return i

#快速排序
def quicksort(nums,left,right):
    if left<right:
        index = partition(nums,left,right)
        quicksort(nums,left,index-1)
        quicksort(nums,index+1,right)

arr = [1,3,2,2,0]
quicksort(arr,0,len(arr)-1)
print(arr)

#topk切分
def topk_split(nums,k,left,right):
    if(left<right):
        index = partition(nums,left,right)
        if index == k:
            return
        elif index<k:
            topk_split(nums,k,index+1,right)
        else:
            topk_split(nums,k,left,index-1)

#获得前k小的数
def topk_smalls(nums,k):
    topk_split(nums,k,0,len(nums)-1)
    return nums[:k]
arr = [1,3,2,3,0,-19]
k = 2
print(f"获得前{k}小的数",topk_smalls(arr,k))
print(arr)

#获得第k小的数
def topk_small(nums,k):
    topk_split(nums,k,0,len(nums)-1)
    return nums[k]
arr = [1,3,2,3,0,-19]
k = 3
print(f"获得第{k}小的数",topk_small(arr,k))
print(arr)

#获得前K大的数
def topk_larges(nums,k):
    topk_split(nums,len(nums)-k,0,len(nums)-1)
    return nums[len(nums)-k:]

arr = [1,3,2,3,0,-19]
k = 3
print(f"获得前{k}大的数",topk_larges(arr,k))
print(arr)

#获得第k大的数
def topk_large(nums,k):
    topk_split(nums,len(nums)-k,0,len(nums)-1)
    return nums[len(nums)-k]

arr = [1,3,2,3,0,-19]
k = 3
print(f"获得第{k}大的数",topk_large(arr,k))
print(arr)

#只排前k个小的数
def topk_sort_left(nums,k):
    topk_split(nums,k,0,len(nums)-1)
    topk = nums[:k]
    quicksort(topk,0,len(topk)-1)
    return topk +nums[k:]

arr = [0,0,1,3,4,5,0,7,6,7]
k = 4
print(f"只排前{k}小的数",topk_sort_left(arr, k))

#只排序后k个大的数
def topk_sort_right(nums,k):
    topk_split(nums,len(nums)-k,0,len(nums)-1)
    topk = nums[len(nums)-k:]
    quicksort(topk,0,len(topk)-1)
    return nums[:len(nums)-k] + topk

arr = [0,0,1,3,4,5,0,-7,6,7]
k = 4
print(f"只排序后{k}个大的数",topk_sort_right(arr, k))

[0, 1, 2, 2, 3]
获得前2小的数 [-19, 0]
[-19, 0, 1, 3, 2, 3]
获得第3小的数 2
[-19, 0, 1, 2, 3, 3]
获得前3大的数 [2, 3, 3]
[-19, 0, 1, 2, 3, 3]
获得第3大的数 2
[-19, 0, 1, 2, 3, 3]
只排前4小的数 [0, 0, 0, 1, 3, 4, 5, 7, 6, 7]
只排序后4个大的数 [-7, 0, 0, 1, 0, 3, 4, 5, 6, 7]


In [22]:
#最长递增子序列,题目描述：
#给你一个整数数组 nums ，找到其中最长严格递增子序列的长度。
# 示例：nums=[10,9,2,5,3,7,101,18], 最长递增子序列:[2,3,7,101],因此长度为4
#
def lengofLis(nums):
    """
    时间复杂度：o(n2)
    """
    if not nums:
        return 0
    dp = []
    for i in range(len(nums)):
        dp.append(1)
        for j in range(i):
            if nums[j]>nums[i]:
                dp[i] = max(dp[i],dp[j]+1)
    return max(dp)

def lengofLis_v2(nums):
    """
    时间复杂度：o(nlogn)
    方法：贪心+二分查找
    思路解说：
    1、无序列表最关键的一句在于： 数组 d[i]表示长度为 i 的最长上升子序列的末尾元素的最小值，
    即在数组 1,2,3,4,5,6中长度为3的上升子序列可以为 1,2,3也可以为 2,3,4等等但是d[3]=3，即子序列末尾元素最小为3。
    2、无序列表解释清了数组d的含义之后，我们接着需要证明数组d具有单调性，即证明i<j时，d[i]<d[j]，
    使用反证法，假设存在k<j时，d[k]>d[j]，但在长度为j，末尾元素为d[j]的子序列A中，将后j-i个元素减掉，
    可以得到一个长度为i的子序列B，其末尾元素t1必然小于d[j]（因为在子序列A中，t1的位置上在d[j]的后面），
    而我们假设数组d必须符合表示长度为 i 的最长上升子序列的末尾元素的最小值，
    此时长度为i的子序列的末尾元素t1<d[j]<d[k]，即t1<d[k]，所以d[k]不是最小的，与题设相矛盾，因此可以证明其单调性
    3、以输入序列 [0,8,4,12,2] 为例：
    第一步插入 0，d=[0]；
    第二步插入 8，d=[0,8]；
    第三步插入 4，d=[0,4]；
    第四步插入 12，d=[0,4,12]；
    第五步插入 2，d=[0,2,12]。#这一步理解的关键是数组d的设定，即‘d[i]表示长度为i的最长上升子序列的末尾元素的最小值’，如果长度为2的话那d = [0,2]
    """
    d = []
    for n in nums:
        if not d or n>d[-1]:
            d.append(n)
        else:
            l,r = 0,len(d)-1
            loc = r
            while l<=r:
                mid = (l+r)//2
                if d[mid]>=n:
                    loc = mid
                    r = mid-1
                else:
                    l = mid +1
            d[loc] = n
    return len(d)
    

nums = [10,9,2,5,3,7,101,18]
lengofLis_v2(nums)

4