# Probability Based

In [1]:
file_name = '80k_articles.txt'

In [2]:
all_content = open(file_name).read()

In [3]:
len(all_content)

34475997

In [4]:
all_content[:200]

'新华社照片，东莞（广东），2017年4月7日\\n（体育）（9）篮球——CBA总决赛第四场：广东对阵新疆\\n4月7日，广东东莞银行队球员易建联在比赛中扣篮。\\n当日，在2016-2017赛季中国男子篮球职业联赛（CBA）总决赛第四场比赛中，广东东莞银行队主场迎战新疆喀什古城队。\\n新华社记者孟永民摄\\n\u3000\u3000新华社北京４月１４日新媒体专电（记者杨烨）作为国民经济的重要支柱，央企一季度交上了一份漂亮的“'

In [5]:
import re

In [6]:
def tokenize(string):
    return ''.join(re.findall('[\w|\d]+', string))

In [7]:
tokenize('\u3000\u3000新华社华盛顿４月１３日电（记者林小春）寻找外星生命，目前最理想的地点可能是土星卫星土卫二上的冰封小世界。美国航天局１３日宣布，“卡西尼”探测器在土卫二喷出的羽流中探测到氢气，这意味着土卫二具备生命存在的几乎所有已知要素。\\n\u3000\u3000这项发表在美国《科学》杂志上的研究显示，土卫二羽流中９８％是水，约１％是氢气，其余是二氧化碳、甲烷和氨等组成的混合物。\\n\u3000\u3000“卡西尼”项目科学家琳达·施皮尔克当天在网')

'新华社华盛顿４月１３日电记者林小春寻找外星生命目前最理想的地点可能是土星卫星土卫二上的冰封小世界美国航天局１３日宣布卡西尼探测器在土卫二喷出的羽流中探测到氢气这意味着土卫二具备生命存在的几乎所有已知要素n这项发表在美国科学杂志上的研究显示土卫二羽流中９８是水约１是氢气其余是二氧化碳甲烷和氨等组成的混合物n卡西尼项目科学家琳达施皮尔克当天在网'

In [8]:
ALL_CHARACTER = tokenize(all_content)

In [9]:
len(ALL_CHARACTER)

29734095

# Unigram

In [10]:
from collections import Counter

In [11]:
all_character_counts = Counter(ALL_CHARACTER)

In [12]:
all_character_counts.most_common(20)

[('的', 635684),
 ('n', 605563),
 ('国', 303683),
 ('1', 285430),
 ('在', 273451),
 ('一', 255874),
 ('中', 249541),
 ('日', 248419),
 ('2', 247140),
 ('新', 243975),
 ('0', 240159),
 ('年', 197627),
 ('月', 183696),
 ('人', 176780),
 ('大', 162508),
 ('社', 159861),
 ('华', 156763),
 ('是', 141034),
 ('和', 131350),
 ('赛', 130048)]

In [13]:
def get_probability_from_counts(count):
    all_occurences = sum(count.values())
    min_occurences = min(count.values())
    def get_prob(item):
        return count.get(item, min_occurences) / all_occurences
    return get_prob

In [14]:
get_char_prob = get_probability_from_counts(all_character_counts)

In [15]:
import time

In [16]:
def get_running_time(func, arg, times):
    start_time = time.time()
    for _ in range(times):
        func(arg)
    print('\t\t {} used time is {}'.format(func.__name__, time.time() - start_time))

In [17]:
get_running_time(get_char_prob, '我', 10000)

		 get_prob used time is 0.0028951168060302734


In [18]:
from functools import reduce
from operator import mul, add

In [19]:
def prob_of_string(string):
    return reduce(mul, [get_char_prob(c) for c in string])

In [20]:
prob_of_string('这是一个比较常见测试用例')

7.81410660166886e-36

In [21]:
prob_of_string('这是一个比较罕见测试用例')

3.695294331492719e-37

In [22]:
pair = """前天晚上吃晚饭的时候
前天晚上吃早饭的时候""".split('\n')

pair2 = """正是一个好看的小猫
真是一个好看的小猫""".split('\n')

pair3 = """我无言以对，简直
我简直无言以对""".split('\n')

In [23]:
pairs = [pair, pair2, pair3]

In [24]:
def get_probability_performance(language_model_func, pairs):
    for (p1, p2) in pairs:
        print('*'*18)
        print('\t\t {} with probability {}'.format(p1, language_model_func(tokenize(p1))))
        print('\t\t {} with probability {}'.format(p2, language_model_func(tokenize(p2))))

In [25]:
get_probability_performance(prob_of_string, pairs)

******************
		 前天晚上吃晚饭的时候 with probability 1.2205917468406523e-31
		 前天晚上吃早饭的时候 with probability 1.4203006420690778e-31
******************
		 正是一个好看的小猫 with probability 3.2525875244545557e-25
		 真是一个好看的小猫 with probability 1.0219933874960867e-25
******************
		 我无言以对，简直 with probability 3.7422941328709655e-22
		 我简直无言以对 with probability 3.7422941328709655e-22


# 2-Gram

In [26]:
gram_length = 2
two_gram_counts = Counter(ALL_CHARACTER[i:i+gram_length] for i in range(len(ALL_CHARACTER) - gram_length))

In [27]:
two_gram_counts.most_common(20)

[('新华', 135490),
 ('华社', 129104),
 ('20', 123427),
 ('nn', 118789),
 ('01', 102583),
 ('17', 81801),
 ('n新', 78433),
 ('中国', 77776),
 ('外代', 74795),
 ('7年', 59051),
 ('记者', 56946),
 ('二线', 55866),
 ('5月', 55491),
 ('代二', 55245),
 ('4月', 51236),
 ('日n', 48360),
 ('月1', 47181),
 ('照片', 46712),
 ('月2', 45268),
 ('社照', 45003)]

In [28]:
get_pair_prob = get_probability_from_counts(two_gram_counts)

In [29]:
def get_2_gram_prob(word, prev):
    # 如果分子不为0
    if get_pair_prob(word+prev) > 0:
        return get_pair_prob(word+prev) / get_char_prob(prev)
    else:
        return get_char_prob(word)

In [30]:
def get_2_gram_string_prob(string):
    probabilities = []
    for i, c in enumerate(string):
        # 处理开始字条件概率
        prev = '<s>' if i == 0 else string[i-1]
        probabilities.append(get_2_gram_prob(c, prev))
    return reduce(mul, probabilities)

In [31]:
get_probability_performance(prob_of_string, pairs)

******************
		 前天晚上吃晚饭的时候 with probability 1.2205917468406523e-31
		 前天晚上吃早饭的时候 with probability 1.4203006420690778e-31
******************
		 正是一个好看的小猫 with probability 3.2525875244545557e-25
		 真是一个好看的小猫 with probability 1.0219933874960867e-25
******************
		 我无言以对，简直 with probability 3.7422941328709655e-22
		 我简直无言以对 with probability 3.7422941328709655e-22


In [32]:
get_probability_performance(get_2_gram_string_prob, pairs)

******************
		 前天晚上吃晚饭的时候 with probability 3.506230755655749e-27
		 前天晚上吃早饭的时候 with probability 1.5066093037308237e-27
******************
		 正是一个好看的小猫 with probability 2.521114349982491e-22
		 真是一个好看的小猫 with probability 1.1600122521103302e-21
******************
		 我无言以对，简直 with probability 7.265243062904144e-22
		 我简直无言以对 with probability 4.5720528408690446e-21
