In [4]:
# baseline_res 與 model_res 長度不同，需要建立在這個前提下做替換，
# 由於 model_res 的幻覺長度通常都會大於應有的長度，因此這邊實作了一個 reverse mapping 的機制將 model_res 的字修正回去
def revise_asymmetric_characters_by_llm(baseline_res, model_res, mappings):
    reverse_mapping = {} # ex. {'系': '系', '係': '系', '繫': '系'...}
    for key, values in mappings.items():
        for value in values:
            reverse_mapping[value] = key

    baseline_res_list = list(baseline_res)
    model_res_list = list(model_res)

    for i, char in enumerate(baseline_res_list):
        if char in reverse_mapping:
            # Condition statements explanations:
            # 1. prevent index error
            # 2. assure model_res is in mappings candidates, 
            #   ex. char='係' -> reverse_mappings['係']='系' -> mappings['系']=['系', '係', '繫']
            # 3. if baseline_res[i] != model_res[i], then replace character
            if i < len(model_res_list) and model_res_list[i] in mappings[reverse_mapping[char]] and model_res_list[i] != char:
                baseline_res_list[i] = model_res_list[i]

    return ''.join(baseline_res_list)

# Test cases
mappings1 = {'系': ['系', '係', '繫'], '台': ['台', '臺', '颱'], '舍': ['舍', '捨'], '面': ['面', '麵'], '并': ['并', '並', '併']}
baseline_response1 = "而在中時報係以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"
model_response1 = "而在中時報系以不堪虧損為由捨棄週報雜誌的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"

mappings2 = {'測': ['test'], '系': ['系', '係', '繫'], '台': ['台', '臺', '颱'], '舍': ['舍', '捨'], '面': ['面', '麵'], '并': ['并', '並', '併']}
baseline_response2 = "雖然他是個大老闆，不過他在私底下的一麵卻是十分親和，像是喜歡吃泡麵多於牛排龍蝦。"
model_response2 = "雖然他是個大老闆，不過他在私底下的一面卻是十分親和，像是喜歡吃泡麵多於牛排龍蝦。"

mappings3 = {'測': ['test'], '系': ['系', '係', '繫'], '台': ['台', '臺', '颱'], '舍': ['舍', '捨'], '面': ['面', '麵'], '并': ['并', '並', '併']}
baseline_response3 = "而在台灣電視台以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"
model_response3 = "而在臺灣電視台以不堪虧損為由捨棄週報雜誌的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"

# Apply the function to test cases
output1 = revise_asymmetric_characters_by_llm(baseline_response1, model_response1, mappings1)
output2 = revise_asymmetric_characters_by_llm(baseline_response2, model_response2, mappings2)
output3 = revise_asymmetric_characters_by_llm(baseline_response3, model_response3, mappings3)

output1, output2, output3


('而在中時報系以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。',
 '雖然他是個大老闆，不過他在私底下的一面卻是十分親和，像是喜歡吃泡麵多於牛排龍蝦。',
 '而在臺灣電視台以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。')

In [6]:
mappings1 = {'系': ['系', '係', '繫'], '台': ['台', '臺', '颱'], '舍': ['舍', '捨'], '面': ['面', '麵'], '并': ['并', '並', '併']}
baseline_response1 = "而在中時報係以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"
model_response1 = "而在中時報系以不堪虧損為由捨棄晚報同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"

mappings2 = {'系': ['系', '係', '繫'], '台': ['台', '臺', '颱'], '舍': ['舍', '捨'], '面': ['面', '麵'], '并': ['并', '並', '併']}
baseline_response2 = "而在中時報係以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"
model_response2 = "而在中時報系以不堪虧損為由捨棄週刊雜誌同時，另方面卻持續入股中天電視臺，並有意在未來收購中視，成就跨媒體集團霸業。"

mappings3 = {'系': ['系', '係', '繫'], '台': ['台', '臺', '颱'], '舍': ['舍', '捨'], '面': ['面', '麵'], '并': ['并', '並', '併']}
baseline_response3 = "而在中時報係以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"
model_response3 = "而在中時報系以不堪虧損為由捨棄日報同時，另方面卻持續入股中天電視台，並有意於未來收購中視，成就跨媒體集團霸業。"

# Apply the function to test cases
output1 = revise_asymmetric_characters_by_llm(baseline_response1, model_response1, mappings1)
output2 = revise_asymmetric_characters_by_llm(baseline_response2, model_response2, mappings2)
output3 = revise_asymmetric_characters_by_llm(baseline_response3, model_response3, mappings3)

output1, output2, output3


('而在中時報系以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。',
 '而在中時報系以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。',
 '而在中時報系以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。')

In [1]:
import pandas as pd
import jieba

import nltk.translate.gleu_score as gleu
from nltk.translate.bleu_score import sentence_bleu

true_sentence = "而在中時報系以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"
revised_response = "而在中時報系以不堪虧損為由捨棄週報雜誌的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"

ref = list(jieba.cut(true_sentence))
src = list(jieba.cut(revised_response))

print('---')
print(f"Ground truth sentence:     {true_sentence}")
print(f"Model translated sentence: {revised_response}")
print('---')
print(f"Ground truth sentence (cutted):     {ref}")
print(f"Model translated sentence (cutted): {src}")
print('---')

bleu_score = sentence_bleu([ref], src)
print(f"bleu_score: {bleu_score}")
print('---')

gleu_score = gleu.sentence_gleu([ref], src, min_len=1, max_len=2)
print(f"gleu_score: {gleu_score}")
print('---')



Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\wirl\AppData\Local\Temp\jieba.cache
Loading model cost 0.617 seconds.
Prefix dict has been built successfully.


---
Ground truth sentence:     而在中時報系以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。
Model translated sentence: 而在中時報系以不堪虧損為由捨棄週報雜誌的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。
---
Ground truth sentence (cutted):     ['而', '在', '中時', '報系', '以', '不堪', '虧損', '為', '由', '捨', '棄晚', '報', '的', '同時', '，', '另', '方面', '卻', '持續', '入股', '中天', '電視台', '，', '並', '有意', '在', '未來', '收購', '中視', '，', '成就', '跨媒體', '集團', '霸業', '。']
Model translated sentence (cutted): ['而', '在', '中時', '報系', '以', '不堪', '虧損', '為', '由', '捨', '棄週報', '雜誌', '的', '同時', '，', '另', '方面', '卻', '持續', '入股', '中天', '電視台', '，', '並', '有意', '在', '未來', '收購', '中視', '，', '成就', '跨媒體', '集團', '霸業', '。']
---
bleu_score: 0.8935248372106969
---
gleu_score: 0.927536231884058
---


In [2]:
true_sentence = "而在中時報系以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"
revised_response = "而在中時報系以不堪虧損為由捨棄週報雜誌的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。"

ref = list(true_sentence)
src = list(revised_response)

print('---')
print(f"Ground truth sentence:     {true_sentence}")
print(f"Model translated sentence: {revised_response}")
print('---')
print(f"Ground truth sentence (cutted):     {ref}")
print(f"Model translated sentence (cutted): {src}")
print('---')

bleu_score = sentence_bleu([ref], src)
print(f"bleu_score: {bleu_score}")
print('---')

gleu_score = gleu.sentence_gleu([ref], src, min_len=1, max_len=2)
print(f"gleu_score: {gleu_score}")
print('---')


---
Ground truth sentence:     而在中時報系以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。
Model translated sentence: 而在中時報系以不堪虧損為由捨棄週報雜誌的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，成就跨媒體集團霸業。
---
Ground truth sentence (cutted):     ['而', '在', '中', '時', '報', '系', '以', '不', '堪', '虧', '損', '為', '由', '捨', '棄', '晚', '報', '的', '同', '時', '，', '另', '方', '面', '卻', '持', '續', '入', '股', '中', '天', '電', '視', '台', '，', '並', '有', '意', '在', '未', '來', '收', '購', '中', '視', '，', '成', '就', '跨', '媒', '體', '集', '團', '霸', '業', '。']
Model translated sentence (cutted): ['而', '在', '中', '時', '報', '系', '以', '不', '堪', '虧', '損', '為', '由', '捨', '棄', '週', '報', '雜', '誌', '的', '同', '時', '，', '另', '方', '面', '卻', '持', '續', '入', '股', '中', '天', '電', '視', '台', '，', '並', '有', '意', '在', '未', '來', '收', '購', '中', '視', '，', '成', '就', '跨', '媒', '體', '集', '團', '霸', '業', '。']
---
bleu_score: 0.9061100081150306
---
gleu_score: 0.9304347826086956
---


In [3]:
import pandas as pd

df = pd.read_csv('test_dataset.csv')
df

Unnamed: 0,ch,ch_SC
0,而在中時報系以不堪虧損為由捨棄晚報的同時，另方面卻持續入股中天電視台，並有意在未來收購中視，...,而在中时报系以不堪亏损为由舍弃晚报的同时，另方面却持续入股中天电视台，并有意在未来收购中视，...
1,終戰後的十餘年間，可說是歌仔戲的黃金時代，人才輩出，除了活躍於戲院舞台的「內台戲」外，還有「...,终战后的十余年间，可说是歌仔戏的黄金时代，人才辈出，除了活跃於戏院舞台的「内台戏」外，还有「...
2,「國民美術」以非學院派美術基調的發展過程，巧妙地與 1998 年國內社區大學興起的「解放知識...,「国民美术」以非学院派美术基调的发展过程，巧妙地与 1998 年国内社区大学兴起的「解放知识...
3,汐止社大主任潘英海表示：「國民美術像集體參與的美術豐年祭，劉秀美在社區成立畫會，建構集體記憶...,汐止社大主任潘英海表示：「国民美术像集体参与的美术丰年祭，刘秀美在社区成立画会，建构集体记忆...
4,例如日治時期祖父在金瓜石經營「鈔利搗礦場」的鄭炯輝，將當時用水車淘洗金砂的過程，一一用圖畫記...,例如日治时期祖父在金瓜石经营「钞利捣矿场」的郑炯辉，将当时用水车淘洗金砂的过程，一一用图画记...
...,...,...
310911,誰來對抗資本主義？,谁来对抗资本主义？
310912,在西畫荒漠中披荊斬棘,在西画荒漠中披荆斩棘
310913,我怕！」,我怕！」
310914,多麼主觀傲慢！,多么主观傲慢！


In [4]:
df[df['ch'] == '而以目前的四件起訴案來看，聯邦調查局在過程中投入的人力物力之多，顯然是有強烈執法企圖心的。']

Unnamed: 0,ch,ch_SC
74022,而以目前的四件起訴案來看，聯邦調查局在過程中投入的人力物力之多，顯然是有強烈執法企圖心的。,而以目前的四件起诉案来看，联邦调查局在过程中投入的人力物力之多，显然是有强烈执法企图心的。
