### 编辑距离的计算
编辑距离可以用来计算两个字符串的相似度，它的应用场景很多，其中之一是拼写纠正（spell correction）。 编辑距离的定义是给定两个字符串str1和str2, 我们要计算通过最少多少代价cost可以把str1转换成str2. 

举个例子：

输入:   str1 = "geek", str2 = "gesek"
输出:  1
插入 's'即可以把str1转换成str2

输入:   str1 = "cat", str2 = "cut"
输出:  1
用u去替换a即可以得到str2

输入:   str1 = "sunday", str2 = "saturday"
输出:  3

我们假定有三个不同的操作： 1. 插入新的字符   2. 替换字符   3. 删除一个字符。 每一个操作的代价为1. 

In [1]:
# 基于动态规划的解法
def edit_dist(str1, str2):
    # m，n分别字符串str1和str2的长度
    m, n = len(str1), len(str2)
    # 构建二位数组来存储子问题（sub-problem)的答案 
    dp = [[0 for x in range(n+1)] for x in range(m+1)] 
    # 利用动态规划算法，填充数组
    for i in range(m+1): 
        for j in range(n+1):  
    # 假设第一个字符串为空，则转换的代价为j (j次的插入)
            if i == 0: 
                dp[i][j] = j    
    # 同样的，假设第二个字符串为空，则转换的代价为i (i次的插入)
            elif j == 0:
                dp[i][j] = i    
    # 如果最后一个字符相等，就不会产生代价
            elif str1[i-1] == str2[j-1]: 
                dp[i][j] = dp[i-1][j-1] 
    # 如果最后一个字符不一样，则考虑多种可能性，并且选择其中最小的值
            else: 
                dp[i][j] = 1 + min(dp[i][j-1],        # Insert 
                                   dp[i-1][j],        # Remove 
                                   dp[i-1][j-1])      # Replace 
    return dp[m][n] 

In [2]:
# 自己的写的编辑距离
def edit_dis(s1,s2):
    m, n = len(s1), len(s2)
    dp = [[0] * (n+1) for _ in range(m+1)]
    for i in range(m+1):
        dp[i][0] = i
    for i in range(n+1):
        dp[0][i] = i
    for i in range(1,m+1):
        for j in range(1,n+1):
            if s1[i-1] == s2[j-1]:
                dp[i][j] = dp[i-1][j-1]
            else:
                dp[i][j] = min(dp[i-1][j-1],dp[i-1][j],dp[i][j-1]) + 1
    return dp[-1][-1]

In [3]:
edit_dist('apple','appl')

1

In [4]:
edit_dis('like','love')

2

### 生成指定编辑距离的单词
给定一个单词，我们也可以生成编辑距离为K的单词列表。 比如给定 str="apple"，K=1, 可以生成“appl”, "appla", "pple"...等
下面看怎么生成这些单词。 还是用英文的例子来说明。 仍然假设有三种操作 - 插入，删除，替换

In [5]:
# 先把单词切分成可能的结果
str = 'apple'
splits = [(str[:i], str[i:])for i in range(len(str)+1)]
splits

[('', 'apple'),
 ('a', 'pple'),
 ('ap', 'ple'),
 ('app', 'le'),
 ('appl', 'e'),
 ('apple', '')]

In [6]:
# 可以观察插入操作的所有可能结果
letters    = 'abcdefghijklmnopqrstuvwxyz'
inserts = [L + c + R for L, R in splits for c in letters]
print(inserts)
print('Length: ',len(inserts))

['aapple', 'bapple', 'capple', 'dapple', 'eapple', 'fapple', 'gapple', 'happle', 'iapple', 'japple', 'kapple', 'lapple', 'mapple', 'napple', 'oapple', 'papple', 'qapple', 'rapple', 'sapple', 'tapple', 'uapple', 'vapple', 'wapple', 'xapple', 'yapple', 'zapple', 'aapple', 'abpple', 'acpple', 'adpple', 'aepple', 'afpple', 'agpple', 'ahpple', 'aipple', 'ajpple', 'akpple', 'alpple', 'ampple', 'anpple', 'aopple', 'appple', 'aqpple', 'arpple', 'aspple', 'atpple', 'aupple', 'avpple', 'awpple', 'axpple', 'aypple', 'azpple', 'apaple', 'apbple', 'apcple', 'apdple', 'apeple', 'apfple', 'apgple', 'aphple', 'apiple', 'apjple', 'apkple', 'aplple', 'apmple', 'apnple', 'apople', 'appple', 'apqple', 'aprple', 'apsple', 'aptple', 'apuple', 'apvple', 'apwple', 'apxple', 'apyple', 'apzple', 'appale', 'appble', 'appcle', 'appdle', 'appele', 'appfle', 'appgle', 'apphle', 'appile', 'appjle', 'appkle', 'applle', 'appmle', 'appnle', 'appole', 'appple', 'appqle', 'apprle', 'appsle', 'apptle', 'appule', 'appvle',

In [7]:
def generate_edit_one(str):
    """
    给定一个字符串，生成编辑距离为1的字符串列表。
    """
    letters    = 'abcdefghijklmnopqrstuvwxyz'
    splits = [(str[:i], str[i:])for i in range(len(str)+1)]
    inserts = [L + c + R for L, R in splits for c in letters]
    deletes = [L + R[1:] for L, R in splits if R]
    replaces = [L + c + R[1:] for L, R in splits if R for c in letters]
    
    #return set(splits)
    return set(inserts + deletes + replaces)

print (len(generate_edit_one("apple")))

281


In [8]:
def generate_edit_two(str):
    """
    给定一个字符串，生成编辑距离不大于2的字符串
    """
    # 直接对一个编辑距离单位内的字符串再进行一次生成操作
    return [e2 for e1 in generate_edit_one(str) for e2 in generate_edit_one(e1)]

print (len(generate_edit_two("apple"))) 

86524


### 基于结巴（jieba）的分词。 Jieba是最常用的中文分词工具~ 

In [9]:
# encoding=utf-8
import jieba

# 基于jieba的分词
# 全模型下返回所有可能的结果
seg_list = jieba.cut("贪心学院专注于人工智能教育", cut_all=True)
print("Default Mode: " + "/ ".join(seg_list))  

jieba.add_word("贪心学院")
seg_list = jieba.cut("贪心学院专注于人工智能教育", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) 

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\13974\AppData\Local\Temp\jieba.cache
Loading model cost 0.726 seconds.
Prefix dict has been built succesfully.


Default Mode: 贪心/ 心学/ 学院/ 专注/ 于/ 人工/ 人工智能/ 智能/ 教育
Default Mode: 贪心学院/ 专注/ 于/ 人工智能/ 教育


In [10]:
s1 = '今天晚上想吃黄焖鸡'
s2 = '今天中午大家都想吃韩国料理'
js1 = jieba.cut(s1)
js2 = jieba.cut(s2)
# 分词后的结果是一个生成器
print(js1,js2)
print('|'.join(js1))
print('|'.join(js2))

<generator object Tokenizer.cut at 0x000001D8C61B8DE0> <generator object Tokenizer.cut at 0x000001D8C6194228>
今天|晚上|想|吃|黄焖|鸡
今天|中午|大家|都|想|吃|韩国|料理


### 判断一句话是否能够切分（被字典）

In [11]:
# 手写一个分词判断工具
dic = set(["贪心科技", "人工智能", "教育", "在线", "专注于"])
def word_break(str):
    could_break = [False] * (len(str) + 1)
    could_break[0] = True
    for i in range(1, len(could_break)):
        for j in range(0, i):
            # could_break[j]是当前词起始位置，必须要满足True
            if str[j:i] in dic and could_break[j] == True:
                could_break[i] = True
    print(could_break)
    return could_break[len(str)] == True

In [12]:
assert word_break("贪心科技在线教育")==True
# '是'不在词典中，因此无法被切分
assert word_break("在线教育是")==False
assert word_break("")==True
assert word_break("在线教育人工智能")==True

[True, False, False, False, True, False, True, False, True]
[True, False, True, False, True, False]
[True]
[True, False, True, False, True, False, False, False, True]


### 思考题：给定一个词典和一个字符串，能不能返回所有有效的分割？ （valid segmentation) 
比如给定词典：dic = set(["贪心科技", "人工智能", "教育", "在线", "专注于"， “贪心”])
和一个字符串 = “贪心科技专注于人工智能”

输出为： 
“贪心” “科技” “专注于” “人工智能”
"贪心科技" “专注于” “人工智能”

In [13]:
def all_possible_segmentations(str):
    segs = []
    dic = set(["贪心科技", "人工智能", "教育", "在线", "专注于","贪心"])
    n = len(str)
    Flag = [False] * (n+1)
    Flag[0] = True
    for i in range(1,n+1):
        for j in range(i):
            if str[j:i] in dic and Flag[j]:
                print(str[j:i])
                Flag[i] = True
                segs.append(str[j:i])
    return segs

In [14]:
def fmm(source, words_dict):
    """
    前向最大匹配算法
    """
    len_source = len(source)  # 原句长度
    index = 0
    words = []  # 分词后句子每个词的列表

    while index < len_source:  # 如果下标未超过句子长度
        match = False
        for i in range(window_size, 0, -1):
            sub_str = source[index: index+i]
            if sub_str in words_dict:
                match = True
                words.append(sub_str)
                index += i
                break
        if not match:
            words.append(source[index])
            index += 1
    return words

In [15]:
def bmm(source, word_dict):
    """
    后向最大匹配算法
    """
    len_source = len(source)  # 原句长度
    index = len_source
    words = []  # 分词后句子每个词的列表

    while index > 0:
        match = False
        for i in range(window_size, 0, -1):
            sub_str = source[index-i: index]
            if sub_str in word_dict:
                match = True
                words.append(sub_str)
                index -= i
                break
        if not match:
            words.append(source[index-1])
            index -= 1
    words.reverse()  # 得到的列表倒序
    return words

In [16]:
def bi_mm(source, words_dict):
    """
    双向最大匹配算法
    """
    forward = fmm(source, words_dict)
    backward = bmm(source, words_dict)
    # 正反向分词结果
    print("FMM: ", forward)
    print("BMM: ", backward)
    # 单字词个数
    f_single_word = 0
    b_single_word = 0
    # 总词数
    tot_fmm = len(forward)
    tot_bmm = len(backward)
    # 非字典词数
    oov_fmm = 0
    oov_bmm = 0
    # 罚分，罚分值越低越好
    score_fmm = 0
    score_bmm = 0
    # 如果正向和反向结果一样，返回任意一个
    if forward == backward:
        return backward
    # print(backward)
    else:  # 分词结果不同，返回单字数、非字典词、总词数少的那一个
        for each in forward:
            if len(each) == 1:
                f_single_word += 1
        for each in backward:
            if len(each) == 1:
                b_single_word += 1
        for each in forward:
            if each not in words_dict:
                oov_fmm += 1
        for each in backward:
            if each not in backward:
                oov_bmm += 1
        # 可以根据实际情况调整惩罚分值
        # 这里都罚分都为1分
        # 非字典词越少越好
        if oov_fmm > oov_bmm:
            score_bmm += 1
        elif oov_fmm < oov_bmm:
            score_fmm += 1
        # 总词数越少越好
        if tot_fmm > tot_bmm:
            score_bmm += 1
        elif tot_fmm < tot_bmm:
            score_fmm += 1
        # 单字词越少越好
        if f_single_word > b_single_word:
            score_bmm += 1
        elif f_single_word < b_single_word:
            score_fmm += 1

        # 返回罚分少的那个
        if score_fmm < score_bmm:
            return forward
        else:
            return backward

In [17]:
dic = set(["贪心科技", "人工智能", "教育", "在线", "专注于","贪心"])
window_size = 4

In [18]:
s = '贪心科技专注于人工智能'
all_possible_segmentations(s)

贪心
贪心科技
专注于
人工智能


['贪心', '贪心科技', '专注于', '人工智能']

In [19]:
fmm(s,dic)

['贪心科技', '专注于', '人工智能']

In [20]:
bmm(s,dic)

['贪心科技', '专注于', '人工智能']

In [21]:
bi_mm(s,dic)

FMM:  ['贪心科技', '专注于', '人工智能']
BMM:  ['贪心科技', '专注于', '人工智能']


['贪心科技', '专注于', '人工智能']

### 停用词过滤
出现频率特别高的和频率特别低的词对于文本分析帮助不大，一般在预处理阶段会过滤掉。 
在英文里，经典的停用词为 “The”, "an".... 

In [22]:
import nltk

In [23]:
# 方法1： 自己建立一个停用词词典
stop_words = ["the", "an", "is", "there"]
# 在使用时： 假设 word_list包含了文本里的单词
word_list = ["we", "are", "the", "students"]
filtered_words = [word for word in word_list if word not in stop_words]
print (filtered_words)

['we', 'are', 'students']


In [24]:
# 方法2：直接利用别人已经构建好的停用词库
from nltk.corpus import stopwords
cachedStopWords = stopwords.words("english")

In [25]:
print(cachedStopWords)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

- 波特词干法

In [26]:
from nltk.stem.porter import *
stemmer = PorterStemmer()

test_strs = ['caresses', 'flies', 'dies', 'mules', 'denied',
         'died', 'agreed', 'owned', 'humbled', 'sized',
         'meeting', 'stating', 'siezing', 'itemization',
         'sensational', 'traditional', 'reference', 'colonizer',
         'plotted']

singles = [stemmer.stem(word) for word in test_strs]
print(' '.join(singles))  # doctest: +NORMALIZE_WHITESPACE

caress fli die mule deni die agre own humbl size meet state siez item sensat tradit refer colon plot


### 词袋向量： 把文本转换成向量 。 只有向量才能作为模型的输入。 

In [27]:
# 方法1： 词袋模型（按照词语出现的个数）
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
corpus = [
     'He is going from Beijing to Shanghai.',
     'He denied my request, but he actually lied.',
     'Mike lost the phone, and phone was in the car.',
]
X = vectorizer.fit_transform(corpus)

- 基于count计数的ont-hot向量，词典按照字母表排序

In [28]:
print (X.toarray())
print (vectorizer.get_feature_names())

[[0 0 1 0 0 0 1 1 1 0 1 0 0 0 0 0 0 1 0 1 0]
 [1 0 0 1 0 1 0 0 2 0 0 1 0 0 1 0 1 0 0 0 0]
 [0 1 0 0 1 0 0 0 0 1 0 0 1 1 0 2 0 0 2 0 1]]
['actually', 'and', 'beijing', 'but', 'car', 'denied', 'from', 'going', 'he', 'in', 'is', 'lied', 'lost', 'mike', 'my', 'phone', 'request', 'shanghai', 'the', 'to', 'was']


Sklearn的tf-idf计算首先去掉了平滑操作，其次还用了Normalize的方法，所以结果和用通常所见的式子的计算结算不一样

In [29]:
# 方法2：词袋模型（tf-idf方法）
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(smooth_idf=False)
X = vectorizer.fit_transform(corpus)

In [30]:
print (X.toarray())
print (vectorizer.get_feature_names())

[[0.         0.         0.39379499 0.         0.         0.
  0.39379499 0.39379499 0.26372909 0.         0.39379499 0.
  0.         0.         0.         0.         0.         0.39379499
  0.         0.39379499 0.        ]
 [0.35819397 0.         0.         0.35819397 0.         0.35819397
  0.         0.         0.47977335 0.         0.         0.35819397
  0.         0.         0.35819397 0.         0.35819397 0.
  0.         0.         0.        ]
 [0.         0.26726124 0.         0.         0.26726124 0.
  0.         0.         0.         0.26726124 0.         0.
  0.26726124 0.26726124 0.         0.53452248 0.         0.
  0.53452248 0.         0.26726124]]
['actually', 'and', 'beijing', 'but', 'car', 'denied', 'from', 'going', 'he', 'in', 'is', 'lied', 'lost', 'mike', 'my', 'phone', 'request', 'shanghai', 'the', 'to', 'was']
