In [1]:
'''
返回两个字符串的最长公共子串
'''

# 一种方法是直接查找
# 即从短的字符串中，先从最长字符开始，逐次减一，到长的那一个字符串中进行匹配，如果存在则说明已经找到。
def longest_common_substring(s1, s2):
  # 初始化最长公共子串的长度和内容
  max_len = 0
  max_sub = ""
  # 遍历s1的所有子串
  for i in range(len(s1)):
    for j in range(i + 1, len(s1) + 1):
      sub = s1[i:j] # 得到子串
      # 判断子串是否在s2中，并且长度是否大于当前最大长度
      if sub in s2 and len(sub) > max_len:
        max_len = len(sub) # 更新最大长度
        max_sub = sub # 更新最长子串
  return max_sub, max_len

def longest_common_substring1(X, Y):
        short, long = (X, Y) if len(X) < len(Y) else (Y, X)
        repeat = ''
        for i in range(len(short)):
            for j in range(len(short)):
                if short[i:j + 1] in long and j + 1 - i > len(repeat):
                    repeat = short[i:j + 1]
        return (len(repeat),repeat)


# 另一种方法是动态规划
# 即通过构建一个矩阵，将两个字符串对应比较，如果相同则为1，不同则为0，
# 最后只要是1的下一个还是1，那么就可以得到最长的字符串。
def longest_common_substring2(X, Y):
  # 获取字符串的长度
  m = len(X)
  n = len(Y)
  # 初始化dp数组
  res = [[0] * (n + 1) for _ in range(m + 1)]
  # 记录最大长度和结尾位置
  max_len = 0
  end = 0
  # 遍历两个字符串
  for i in range(1, m + 1):
    for j in range(1, n + 1):
      # 如果字符相等，更新res值
      if X[i - 1] == Y[j - 1]:
        res[i][j] = res[i - 1][j - 1] + 1
        # 如果res值大于最大长度，更新最大长度和结尾位置
        if res[i][j] > max_len:
          max_len = res[i][j]
          end = i
  # 根据最大长度和结尾位置，截取最长公共子串
  lcs = X[end - max_len : end]
  return max_len, lcs


# 还有一种方法是使用hash算法
# 即将两个字符串的所有子串都计算出hash值，并存储在一个字典中，然后遍历字典，找出相同hash值且长度最大的子串。
def longest_common_substring3(string1,string2):
  # 获取两个字符串的长度
  len1 = len(string1)
  len2 = len(string2)
  # 初始化一个字典，用来存储字符串的hash值和位置
  hash_dict = {}
  # 初始化一个变量，用来记录最长公共子串的长度
  max_len = 0
  # 初始化一个变量，用来记录最长公共子串的内容
  max_str = ""
  # 遍历较短的字符串，计算每个子串的hash值，并存入字典
  for i in range(len2):
    for j in range(i,len2):
      # 计算子串的hash值
      hash_value = hash("".join(string2[i:j+1]))
      # 将hash值和子串位置存入字典，如果有重复的hash值，只保留第一个出现的位置
      if hash_value not in hash_dict:
        hash_dict[hash_value] = (i,j)

  # 遍历较长的字符串，计算每个子串的hash值，并在字典中查找是否有匹配的子串
  for i in range(len1):
    for j in range(i,len1):
      # 计算子串的hash值
      hash_value = hash("".join(string1[i:j+1]))
      # 如果在字典中找到了相同的hash值，说明可能有相同的子串
      if hash_value in hash_dict:
        # 获取较短字符串中对应的子串位置
        start,end = hash_dict[hash_value]
        # 比较两个子串是否完全相等，避免hash冲突的情况
        if string1[i:j+1] == string2[start:end+1]:
          # 如果当前子串长度大于之前记录的最大长度，更新最大长度和最长子串内容
          if j-i+1 > max_len:
            max_len = j-i+1
            max_str = string1[i:j+1]
  # 返回最长公共子串的长度和内容
  return max_len, max_str


# 测试一下函数是否正确
# string1 = "helloworld"
# string2 = "loolowp"
string1 = "abcxabcd1234"
string2 = "abcyabcd5678"
print('-' * 18, "直接比较", '-' * 18)
print(longest_common_substring1(string1,string2))
print('-' * 18, "动态规划", '-' * 18)
print(longest_common_substring2(string1,string2))
print('-' * 18, "hash算法", '-' * 18)
print(longest_common_substring3(string1,string2))

------------------ 直接比较 ------------------
(4, 'abcd')
------------------ 动态规划 ------------------
(4, 'abcd')
------------------ hash算法 ------------------
(4, 'abcd')
