In [2]:
from pypinyin import pinyin, lazy_pinyin, Style
import numpy as np
from gensim.models import Word2Vec
import csv
import pandas as pd
from collections import defaultdict
from collections import Counter


In [17]:
df = pd.read_csv('./transcripts.tsv')
sentences = df.values.tolist()
tokenized_sentences = []
for sentence in sentences:
        tokenized_sentences.append(list("".join(sentence)))
model = Word2Vec(tokenized_sentences, vector_size=300, epochs=200)
model.wv['一']
model.wv.most_similar('一', topn=10) 

[('曲', 0.25715118646621704),
 ('载', 0.22268685698509216),
 ('几', 0.2162376046180725),
 ('写', 0.2124497890472412),
 ('歌', 0.2081436961889267),
 ('过', 0.20675060153007507),
 ('静', 0.2063993364572525),
 ('选', 0.19986645877361298),
 ('山', 0.1994759887456894),
 ('最', 0.19761230051517487)]

In [8]:
list_of_char = model.wv.index_to_key
count = 0
correct = 0
for char in list_of_char:
    pinyin = lazy_pinyin(char, style=Style.TONE3)
    list_of_similar = model.wv.most_similar(char, topn=10)
    similar_char = []
    count += 1
    for i in list_of_similar:
        if lazy_pinyin(i[0], style=Style.TONE3) == pinyin:
            correct += 1
            break
print("the accuracy ", correct / count * 100)

the accuracy  1.746031746031746


In [9]:
homophone_groups = defaultdict(list)
chars = list(model.wv.index_to_key)
for char in chars:
        pinyin = lazy_pinyin(char, style=Style.TONE3)
        homophone_groups["".join(pinyin)].append((char, model.wv[char]))
for pinyin, embeddings in homophone_groups.items():
    if len(embeddings) > 1:
        print(f'{pinyin}: {[char for (char, _) in embeddings]}')

yi1: ['一', '衣']
ge1: ['歌', '哥']
bu4: ['不', '部']
ge4: ['个', '各']
shi4: ['是', '事', '视', '室', '氏', '市', '式', '试', '世', '似', '适']
you3: ['有', '友']
shou3: ['首', '手']
zai4: ['在', '再', '载']
qu1: ['曲', '区']
ma: ['吗', '嘛']
qi4: ['气', '器']
shang4: ['上', '尚']
dian3: ['点', '典']
dao4: ['到', '道', '倒']
ji2: ['集', '辑', '吉', '急']
di4: ['第', '地']
hai2: ['还', '孩']
ming2: ['明', '名']
jia1: ['家', '加']
shi2: ['十', '时', '识', '实']
yi3: ['以', '已']
hua4: ['话', '化']
xin1: ['新', '心', '欣']
li3: ['里', '李', '理', '礼']
yu3: ['雨', '语', '与']
dian4: ['电', '店']
ta1: ['他', '她']
wei4: ['为', '位', '卫', '未']
xian4: ['现', '线', '县']
xing2: ['行', '型']
zhi1: ['知', '之']
wu3: ['五', '午', '舞', '武']
er2: ['儿', '而']
ji3: ['几', '己']
zhong1: ['中', '钟']
he2: ['和', '何', '合', '河']
hou4: ['后', '候']
zi4: ['自', '字']
jiao4: ['叫', '较']
sheng1: ['生', '声']
jiu3: ['九', '酒', '久']
bian4: ['变', '便']
liu2: ['流', '刘']
ji1: ['机', '鸡']
gang1: ['刚', '钢']
xi3: ['喜', '洗']
ru2: ['如', '茹']
she4: ['摄', '设']
yue4: ['月', '越']
zhou1: ['周', '州']
gong1: ['公', '工']
jie

In [10]:
frequencies = Counter()
reverse_frequencies = defaultdict(list)
sentences = df.values.tolist()
tokenized_sentences = []
for sentence in sentences:
        tokenized_sentences.append(list("".join(sentence)))

for sentence in tokenized_sentences:
        frequencies.update(sentence)
        
for word, freq in frequencies.items():
        reverse_frequencies[freq].append(word)
print(reverse_frequencies)
print(frequencies)

defaultdict(<class 'list'>, {649: ['我'], 26: ['喜', '刚', '摄', '月', '走', '如', '调'], 25: ['欢', '热', '室', '分', '名'], 90: ['那'], 4: ['颜', '艺', '及', '震', '川', '严', '烦', '悲', '吹', '骂', '票', '持', '初', '逼', '广', '待', '呵', '志', '惠', '医', '贞', '平', '宇', '番', '雾', '谈', '恋', '朝', '米', '洋', '留', '冰', '取', '步', '脸', '土', '套', '智', '罗', '慧', '堵', '插', '街', '济', '葛', '队', '津', '滚', '深', '任', '搜', '份', '决', '乡', '希', '若', '遍', '瓜', '千', '社', '顾', '堂', '呜', '换', '亚', '幸', '议', '汤', '反', '精', '灯', '置', '萱', '丽', '乔', '暴', '雅', '达', '咱', '梦', '左', '弦', '篮', '球', '版', '爆', '害', '随', '连', '承', '因', '使', '续', '烧', '婚', '斌', '基', '掉', '弟', '磊', '姿', '考', '佳', '概', '优', '坏', '拉', '绍', '超', '块', '娇', '细', '岁', '抱', '母', '教', '讲', '敌'], 14: ['色', '种', '习', '准', '头', '始', '司', '外', '联', '市', '嗯', '加', '英', '注', '醒', '某'], 57: ['电', '雨', '都', '他'], 5: ['脑', '术', '印', '良', '似', '河', '治', '楼', '香', '将', '保', '简', '适', '男', '兵', '俊', '刮', '标', '阳', '弹', '装', '望', '卖', '包', '戏', '背', '低', '速', '奇', '坐', '未', '黑', '礼', 

In [19]:
def calculate_similarity(model, word1, word2):
    return model.wv.similarity(word1, word2)

def calculate_average_similarity(similarity_sum, counter):
    return similarity_sum / counter if counter != 0 else 0

baseline_similarity_sum = 0
baseline_counter = 0
homophone_similarity_sum = 0
homophone_counter = 0

for homophones in homophone_groups.values():
    if len(homophones) > 1:
        for i, (h1, embedding1) in enumerate(homophones):
            for j, (h2, embedding2) in enumerate(homophones):
                if i != j:
                    frequency = frequencies[h2]
                    similar_frequency_chars = reverse_frequencies.get(frequency, [])
                    
                    for similar_frequency_char in similar_frequency_chars:
                        if similar_frequency_char != h1:
                            baseline_similarity_sum += calculate_similarity(model, h1, similar_frequency_char)
                            baseline_counter += 1
                    
                    print(h1)
                    print(h2)
                    print("a")
                    homophone_similarity_sum += calculate_similarity(model, h1, h2)
                    homophone_counter += 1

baseline_average = calculate_average_similarity(baseline_similarity_sum, baseline_counter)
homophone_average = calculate_average_similarity(homophone_similarity_sum, homophone_counter)

print(f'Average Baseline Similarity: {baseline_average}')
print(f'Average Homophone Group Similarity: {homophone_average}')
print(f'Difference Between Average Baseline and Homophone Similarities: {baseline_average - homophone_average}')


一
衣
a
衣
一
a
歌
哥
a
哥
歌
a
不
部
a
部
不
a
个
各
a
各
个
a
是
事
a
是
视
a
是
室
a
是
氏
a
是
市
a
是
式
a
是
试
a
是
世
a
是
似
a
是
适
a
事
是
a
事
视
a
事
室
a
事
氏
a
事
市
a
事
式
a
事
试
a
事
世
a
事
似
a
事
适
a
视
是
a
视
事
a
视
室
a
视
氏
a
视
市
a
视
式
a
视
试
a
视
世
a
视
似
a
视
适
a
室
是
a
室
事
a
室
视
a
室
氏
a
室
市
a
室
式
a
室
试
a
室
世
a
室
似
a
室
适
a
氏
是
a
氏
事
a
氏
视
a
氏
室
a
氏
市
a
氏
式
a
氏
试
a
氏
世
a
氏
似
a
氏
适
a
市
是
a
市
事
a
市
视
a
市
室
a
市
氏
a
市
式
a
市
试
a
市
世
a
市
似
a
市
适
a
式
是
a
式
事
a
式
视
a
式
室
a
式
氏
a
式
市
a
式
试
a
式
世
a
式
似
a
式
适
a
试
是
a
试
事
a
试
视
a
试
室
a
试
氏
a
试
市
a
试
式
a
试
世
a
试
似
a
试
适
a
世
是
a
世
事
a
世
视
a
世
室
a
世
氏
a
世
市
a
世
式
a
世
试
a
世
似
a
世
适
a
似
是
a
似
事
a
似
视
a
似
室
a
似
氏
a
似
市
a
似
式
a
似
试
a
似
世
a
似
适
a
适
是
a
适
事
a
适
视
a
适
室
a
适
氏
a
适
市
a
适
式
a
适
试
a
适
世
a
适
似
a
有
友
a
友
有
a
首
手
a
手
首
a
在
再
a
在
载
a
再
在
a
再
载
a
载
在
a
载
再
a
曲
区
a
区
曲
a
吗
嘛
a
嘛
吗
a
气
器
a
器
气
a
上
尚
a
尚
上
a
点
典
a
典
点
a
到
道
a
到
倒
a
道
到
a
道
倒
a
倒
到
a
倒
道
a
集
辑
a
集
吉
a
集
急
a
辑
集
a
辑
吉
a
辑
急
a
吉
集
a
吉
辑
a
吉
急
a
急
集
a
急
辑
a
急
吉
a
第
地
a
地
第
a
还
孩
a
孩
还
a
明
名
a
名
明
a
家
加
a
加
家
a
十
时
a
十
识
a
十
实


In [23]:
import numpy as np
a = np.array([[0, 1, 0, 3], [1, 2, 3, 4], [2, 3, 4, 5]])
print(a[:, :-1] > a[:, 1:]  )
a[:, -1] > a[:, 0]

[[False  True False]
 [False False False]
 [False False False]]


array([ True,  True,  True])