# File Object in Python and Example of N-gram Language Model

content:
1. File object with context manager
2. $N$-gram: 如何利用 dictionary計算 「詞」出現的次數
3. 拼音模組 pypinyin：找同音字

## *Corey Schafer Python Tutorial*
## File Objects - Reading and Writing to Files
https://www.youtube.com/watch?v=Uh2ebFW8OYM&t=542s

In [1]:
%%HTML
<iframe width="560" height="315" src="https://www.youtube.com/embed/Uh2ebFW8OYM" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>

In [2]:
%pwd

'D:\\Google雲端硬碟\\GettingStartedWithPythonAndRaspberryPi-book_release\\Chapter03'

## with: context manager

最大的優點是，原本要讀、寫檔案，要先：open(), read()/write(), 然後 close() 的三行指令，而且要處理，當開關檔的過程中，要是有錯誤的處理。有點麻煩。

使用 with open("filename", "r") as f:

的優點是，關檔的動作，這個 context manager 會幫忙處理掉。

而且，另外在從一個檔案 (source) 讀出內容，然後寫到另外一個檔案 (destination) 的過程中，也可以使用兩個 (nested) with 的指令。

In [3]:
import os
os.listdir()

['.ipynb',
 '.ipynb_checkpoints',
 '500句子病歷.txt',
 'Ch03Drill.ipynb',
 'Ch03_readme.txt',
 'changeToCourseDirectory.ipynb',
 'Chapter_03_by_Chung_py3_2019.ipynb',
 'Chapter_03_complimentary_Corey_Shafer.ipynb',
 'Chapter_03_Read_me.ipynb',
 'desktop.ini',
 'Dictionary_Operations.py',
 'Dictionary_Set.py',
 'Dictionary_Simple.py',
 'File Object in Python.ipynb',
 'File_Objects.py',
 'hw8_330.py',
 'Lists_Append.py',
 'Lists_ConditionalGenerator.py',
 'Lists_ModificationGenerator.py',
 'Lists_Operations.py',
 'Lists_Simple.py',
 'n-gram.ipynb',
 'newChapter3byChung.py',
 'news.txt',
 'news1.txt',
 'os_path.py',
 'SampleFile.txt',
 'SampleFile3.txt',
 'Sets_Create.py',
 'Sets_Frozen.py',
 'Sets_Operations.py',
 'test.htm',
 'test.txt',
 'testw.txt',
 'Tuples.py',
 '§03_01_List.ipynb',
 '§03_02_Dictionary.ipynb',
 '§03_03_Set_FrozenSet_Tuple.ipynb',
 '§03_04_osPath.ipynb',
 '§03_05_ReadingAndWritingToFiles.ipynb',
 '§03_Complete_2020_Fall.ipynb',
 '病歷500句子.txt']

In [4]:
'''
我們來讀裏面的 test.txt 檔案

一般存取檔案，要先 open()，作讀/寫動作，然後結束前要 close()。
通常還拌隨一些開關沒成功時的處理，
以及要特別記得關檔，
有點麻煩。
'''
f = open("test.txt", "r")
f_contents = f.read()
print(f_contents)
f.close()

1) This is a test file
2) With multiple lines of data...
3) Third line
4) Fourth line
5) Fifth line
6) Sixth line
7) Seventh line
8) Eighth line
9) Ninth line
10) Tenth line


In [6]:
'''
context-manager 的意思是，限定在某特定情境 (context) 之下，
執行相關的程序。
'''
with open("test.txt") as f:
    f_contents = f.read()
    print(f_contents)

1) This is a test file
2) With multiple lines of data...
3) Third line
4) Fourth line
5) Fifth line
6) Sixth line
7) Seventh line
8) Eighth line
9) Ninth line
10) Tenth line


In [7]:
with open("testw.txt", "w") as f:
    f.write("It\'s complicated!")

In [8]:
%more testw.txt

In [9]:
'''
檔案讀寫頭的位置：f.tell()
搬動到指定位置：f.seek()

英文的狀況很單純，17 個字符，共用掉 17 bytes
'''
with open("testw.txt", "w") as f:
    print(len("It\'s complicated!")) # 長度為 17
    f.write("It\'s complicated!")
    print(f.tell()) #位置由 0 開始標記，此時正在句子後的那個空格上
    f.seek(8) # 硬將讀寫頭搬回由 0 開始的標號 8
    f.write("XX")
    
with open("testw.txt", "r") as f:
    #f.seek(0)
    print(f.readline())
    print("01234567890123456")

17
17
It's comXXicated!
01234567890123456


##  準備寫一個計算 n-gram 的 python 程式
文本 (text) 為 病歷500句子.txt (UTF-8 編碼方式)

In [11]:
import os
path_name = os.getcwd()
path_name

'D:\\Google雲端硬碟\\GettingStartedWithPythonAndRaspberryPi-book_release\\Chapter03'

In [12]:
print(path_name)

D:\Google雲端硬碟\GettingStartedWithPythonAndRaspberryPi-book_release\Chapter03


In [13]:
%ls
# os.listdir()

 磁碟區 D 中的磁碟是 新增磁碟區
 磁碟區序號:  E422-9B08

 D:\Google雲端硬碟\GettingStartedWithPythonAndRaspberryPi-book_release\Chapter03 的目錄

2020/10/06  下午 01:57    <DIR>          .
2020/10/06  下午 01:57    <DIR>          ..
2019/03/11  下午 12:19           247,888 .ipynb
2020/10/06  上午 08:01    <DIR>          .ipynb_checkpoints
2020/09/28  下午 02:39            53,161 §03_01_List.ipynb
2020/09/28  下午 04:11            27,580 §03_02_Dictionary.ipynb
2020/09/28  下午 04:40            60,490 §03_03_Set_FrozenSet_Tuple.ipynb
2020/09/28  下午 05:01            16,751 §03_04_osPath.ipynb
2020/09/28  下午 05:49            60,414 §03_05_ReadingAndWritingToFiles.ipynb
2020/09/22  下午 08:34           195,478 §03_Complete_2020_Fall.ipynb
2020/10/05  上午 06:24            30,122 500句子病歷.txt
2019/09/30  上午 10:15               460 Ch03_readme.txt
2020/09/27  上午 08:23            82,198 Ch03Drill.ipynb
2020/09/27  下午 08:44            93,397 changeToCourseDirectory.ipynb
2020/09/22  下午 08:04           195,475 Chapter_03_by_Chung_py3_201

In [14]:
os.listdir()

['.ipynb',
 '.ipynb_checkpoints',
 '500句子病歷.txt',
 'Ch03Drill.ipynb',
 'Ch03_readme.txt',
 'changeToCourseDirectory.ipynb',
 'Chapter_03_by_Chung_py3_2019.ipynb',
 'Chapter_03_complimentary_Corey_Shafer.ipynb',
 'Chapter_03_Read_me.ipynb',
 'desktop.ini',
 'Dictionary_Operations.py',
 'Dictionary_Set.py',
 'Dictionary_Simple.py',
 'File Object in Python.ipynb',
 'File_Objects.py',
 'hw8_330.py',
 'Lists_Append.py',
 'Lists_ConditionalGenerator.py',
 'Lists_ModificationGenerator.py',
 'Lists_Operations.py',
 'Lists_Simple.py',
 'n-gram.ipynb',
 'newChapter3byChung.py',
 'news.txt',
 'news1.txt',
 'os_path.py',
 'SampleFile.txt',
 'SampleFile3.txt',
 'Sets_Create.py',
 'Sets_Frozen.py',
 'Sets_Operations.py',
 'test.htm',
 'test.txt',
 'testw.txt',
 'Tuples.py',
 '§03_01_List.ipynb',
 '§03_02_Dictionary.ipynb',
 '§03_03_Set_FrozenSet_Tuple.ipynb',
 '§03_04_osPath.ipynb',
 '§03_05_ReadingAndWritingToFiles.ipynb',
 '§03_Complete_2020_Fall.ipynb',
 '病歷500句子.txt']

In [15]:
with open("500句子病歷.txt", "r") as f:
    f_content = f.read()
    print(f_content)

UnicodeDecodeError: 'cp950' codec can't decode byte 0x9b in position 5: illegal multibyte sequence

## 解決 Python 中 UnicodeDecodeError: 'cp950' codec can't decode
https://oxygentw.net/blog/computer/python-file-utf8-encoding/

In [16]:
with open("病歷500句子.txt", "r", encoding="utf-8") as f:
    f_content = f.read()
    print(f_content)

== 衛福部台北醫院護理交班系統摘錄 500句子 ==
他沒什麼過敏史。
術後發現說他的右腹有開始有突出的狀況。
到門診去看，醫師就建議他入院。
現在尿都可以自解。
六月三十有發燒的狀況，那用冰枕之後就退了。
今年四月去健檢發現膽囊有息肉。
診斷是膽囊息肉。
隔天的話有發燒到三十八度六。
他說他沒有吃東西就想吐，後來就是有改善，就是有吃點米湯。
後來斷斷續續還是有發燒，那現在就是只有吃藥。
他一星期前開始感覺到左腰痛。
幫他做過碎石，但是沒有改善，石頭還在。
要做輸尿管鏡夾石頭。
開完刀回來那時候病人就平躺到十點。
病人之前就有高血壓，痔瘡有開過刀，肝膿瘍做過引流，雙眼白內障開過刀。
早上他有先去急診，看了可是沒有改善，所以等於說二十四小時又返回急診。
後來就幫他會診那個直腸外科的高彬勝醫師。
有幫他直接插了鼻胃管，然後做減壓。
膽固醇也有比較高，兩百四十二。
這個病人開完刀之後就轉到加護病房。
診斷是上頷骨骨折還有鼻骨骨折。
過去病史有異位性皮膚炎，還有右側氣胸。
他騎機車跟貨車相撞，然後鼻部那邊有擦傷，右膝、右外踝還有背部都有擦傷。
病人主述說有頭暈、嘔吐然後還有流鼻血的狀況。
有再幫他做眼窩的電腦斷層，然後就發現他右眼窩那邊有骨折。
抽血的話就是白血球是一萬六千三。
這邊重要提醒就是說他有骨折，上頷骨骨折，還有右眼窩那邊有骨折。
右臉盡量不要去壓到這樣子，睡覺或是平常就是要注意。
因為病人之後還要會整外，所以之後會請整外的張淳皓醫師來看他。
到時候要請家屬一定要在，醫師要跟他們解釋。
他右膝因為擦傷比較嚴重皮膚都沒有了，就是等於幫他貼人工皮。
他覺得說他的那個臉會稍微麻麻的，可是後來就改善。
醫師會來跟家屬討論說後續是不是要先開刀還是病人會先回家。
病人他暫時不開刀，之後在門診追蹤。
這次因為他後頸部的腫瘤已經大概十年。
醫師看過之後是建議說他還是要把他切除。
他對阿斯匹靈會過敏，海鮮也會過敏，伙食的話就是自備。
過去病史有高血壓、糖尿病、脊椎開過刀、子宮做全切除、胃出血。
這次住院因為他一個月前曾跌倒，導致他下背痛然後左下肢會痠麻痛。
病人的血糖三百零八，不過他表示說因為他剛吃了東西，所以就是沒有做處理。
他頭先使用束腹帶，後來才做背架。
有幫他會診，會他那個腸胃科。
因為他下肢無力就有幫他會復健科，復健科就說要幫他做一些下肢平衡的訓練。
那時候病人就不舒服

In [17]:
with open("病歷500句子.txt", "r",encoding="utf-8") as f:
    f_content = f.read()
    #print(f_content)
    
    #print("\n")
    print("整份文檔的長度 in bytes: " + str(f.tell()))  # 整份文檔的長度 in bytes
    print("整份文檔的長度 in Chinese characters: " + str(len(f_content))) # 整份文檔的長度 in Chinese characters
    print("平均每顆中文字用掉多少 butes: " + str(f.tell()/len(f_content)))

整份文檔的長度 in bytes: 30122
整份文檔的長度 in Chinese characters: 10215
平均每顆中文字用掉多少 butes: 2.9488007831620164


In [18]:
'''
我從 google news 隨意貼了一則新聞，結果發現其中遇到阿拉伯數字
是用一個 byte 編碼，造成我每跳2個 bytes 的方法，會發生解碼錯誤，
於是我將新聞中出現的阿拉伯數字全部改為國字

? 我發覺雖然我每次的 read_count = 2, 
但是每次 seek() 並不是兩個 bytes 的距離跳的，
有的時候的確是 2，如數字，但是大部份的時候是 6 (莫非兩顆用 utf-8編碼的中文是用 3個 bytes?)
'''
with open("news.txt", "r", encoding='utf-8') as f:
    f_whole = f.read()
    print(len(f_whole))
    print(f_whole) # 先印出來
    
    f.seek(0)  # 從頭來看
    read_count = 2 # 每次讀兩顆「字」
    vac = dict() # 準備用來記錄 「兩顆字」構成的「詞」的出現頻率-- (詞：2)
    print(f.tell())
    f_content = f.read(read_count)
    while len(f_content) > 0:
        print("->" + f_content)
        print(f.tell())
        f_content = f.read(read_count)
        if f_content in vac.keys():  # 每次將新讀到的「兩顆字」的「詞」當作 key
            vac[f_content] += 1
        else:
            vac[f_content] = 1
            

1192
石齊平》美國霸權的核心危機
18:212020/09/26 言論 石齊平

中美全球大博弈是人類21世紀的頭號歷史事件，目前雙方正在綜合國力（含經濟、工業、金融、科技、軍事、國際影響力等）及地緣戰略板塊兩個方面展開激烈競爭與衝撞，或遲或早，一段時間之後，將會出現勝負結果。如果美方落敗，意味著美國霸權運勢出現轉折，開始下行；如果中方落敗，意味著美國霸權地位仍將存續，但不意味著美國霸權不存在危機。換言之，各種現象顯示，美國霸權的核心危機已然存在，中美兩強博弈的過程與結果，影響的只是美國霸權由盛轉衰轉折點出現的遲或早而已。

觀察美國霸權從1918年一戰結束綜合國力全面超過英國開始，迄今（2020年）為止一個世紀的發展壯大過程，從原本的孤立主義到開始參與國際事務，再到1945年二戰後的對國際社會的貢獻，贏得國際社會的普遍肯定與尊重，憑恃的是美國體制與美國價值。美國體制與美國價值不僅讓美國本身資源不斷地釋放出巨大的能量與活力，而且也化約成一種「美國夢」，成了人類發展進步的重要標竿，並因此吸納了全球人才前往美國，進一步強化了美國的霸權基礎。

在這個意義上，美國霸權的形成與發展，有著如下的因果關係或順序：一、美國體制與價值，充實與壯大了；二、美國的綜合國力，並因此以此為後盾，實現了；三、美國在全球範圍中巨大的國家利益（經濟、金融、軍事、資源、情報…），最終完成了美國的世紀霸業。

然而，美國作為一個強國，畢竟也逃避不了任何一個強國盛極而衰的必然邏輯。進入到21世紀之後，以美國首屈一指的強大軍力並不能讓美國贏得漂亮的反恐戰爭，以美國睥睨全球的金融實力並不能讓美國倖免於一場世紀金融海嘯；如今，美國為了維持霸權地位，竟不擇手段、不顧形象地對位居第二的中國，展開前所未見的毀滅性攻擊，所有這些，其實對美國自身都造成了極大的傷害—美國的體制與價值正在被美國自身的行為自殘。

很多人以為，這一切或許跟個別的政治人物尤其是川普總統有關，這應該是一個巨大的誤區。川普作為一個政客，行事蠻橫，有小聰明無大智慧，還極端自私，這都是事實。但必須同時看到，美國的政治體制怎麼能夠容許這麼一個獨行其事的領導人為所欲為，未受任何有效的監督與制衡，甚至美國最自豪的司法獨立與貨幣獨立也可以被此一獨夫肆意踐踏破壞，美國的兩黨輪替已淪為不問是非的兩黨惡鬥，美國的代議政治也異化成了各大利益集團的交易政治，甚至

In [19]:
'''
來看一下那個「兩顆字」所組成的「詞」出現的次數最多？
'''
# print(vac.keys())
# print(vac)
# print(vac.values())

for value in {value for value in vac.values()}:
    print(value)
    print({key for key in vac.keys() if vac[key] == value})

#vac_copy = vac

1
{'', '折射', '大利', '愛、', '戰結', '攻擊', '，從', '\n觀', '之外', '或早', '獨夫', '員）', '5年', '弈的', '普遍', '（經', '領導', '球的', '了美', '存在', '選舉', '盛轉', '了維', '人為', '倖免', '身都', '個獨', '，開', '蠻橫', '束綜', '但再', '國首', '國力', '且也', '，不', '塊兩', '了各', '的必', '/2', '，而', '了人', '吸納', '年一', '礎。', '到，', '迄今', '一段', '的霸', '軍力', '也可', '形成', '偽善', '仍將', '折點', '現勝', '言論', '化了', '，將', '有關', '恐戰', '港鳳', '紀之', '、博', '齊平', '治亂', '此為', '以被', '至連', '成一', ':2', '雙方', '壟斷', '些，', '獨立', '顯示', '國開', '漂亮', '最自', '止一', '\n（', '。川', '紀說', '大智', '經濟', '國最', '歷史', '心危', '許這', '到底', '實。', '量與', '輯。', '時間', '個政', '09', '個方', '在在', '踐踏', '看中', '個巨', '負結', '度深', '之後', '存續', '化約', '到2', '值不', '不意', '造成', '19', '睨全', '益集', '衰轉', '，並', '，所', '如今', '等的', '）為', '的毀', '源。', '大博', '6 ', '視台', '（含', '進入', '最終', '上世', '現了', '才前', '事務', '化成', '已然', '小聰', '，比', '而衰', '94', '的核', '義到', '的司', '作者', '不了', '的是', '與結', '評論', '權由', '受質', '制與', '報…', '機。', '21', '、國', '技、', '私，', '了全', '有著', '弈是', '行其', '人以', '與價', '貨幣', '往美', '比在', '而且', '巨大', '、華', '、情', '

In [21]:
test_str1 = 'GeeksforGeeks'
test_str2 = 'Codefreaks'
  
# using set() + intersection() to 
# get string intersection 
res = set(test_str1).intersection(test_str2) 
          
# printing intersection 
print ("String intersection is : " + str(res))

String intersection is : {'f', 'o', 'r', 's', 'k', 'e'}


In [22]:
'''
上面，出現部份的 key 裏，會內含帶一些標點符號的 key。
想刪掉這種 key。
要想辦法，將含這些奇怪符號的 key 給刪掉。

以下找一個比較簡潔的作法。
從網路上找到這一個例子：
'''

test_str1 = '。\n'
test_str2 = '\n；—、。， ）（'   #以這個來包含我們先瀘掉的 特別符號
  
# using set() + intersection() to 
# get string intersection 
res = set(test_str1).intersection(test_str2) 
          
# printing intersection 
print ("String intersection is : " + str(res))
type(set({}))
res == set({})

String intersection is : {'。', '\n'}


False

In [23]:
'''
試寫一下我的狀況
注意這個 vac 只有一份，
如果 delete 之後，要記得重路再補一次
'''
to_be_deleted = '\n:/》…；—、。， ）（'  # 這些就是我一個一個去看，然後找到的
key_to_be_deleted = []
for key in vac.keys():
    #key_str = str(key)
    res = set(key).intersection(to_be_deleted)
    if res != set({}):
        key_to_be_deleted.append(key)

print("原本 vac 的 key 有： " + str(len(vac)) + "個。")
print("發現有含特殊符號的有： " + str(len(key_to_be_deleted)) + "個")
print(key_to_be_deleted)

#vac.pop(key)


原本 vac 的 key 有： 511個。
發現有含特殊符號的有： 103個
['平》', '機\n', ':2', '0/', '/2', '6 ', ' 石', '\n\n', '件，', '（含', '、工', '業、', '、科', '技、', '、國', '等）', '，或', '早，', '，將', '果。', '，意', '，開', '行；', '，但', '機。', '之，', '，美', '，中', '果，', '。\n', '\n觀', '始，', '（2', '）為', '，從', '，再', '，贏', '重，', '值。', '，而', '，成', '，並', '國，', '礎。', '展，', '、美', '，充', '了；', '二、', '力，', '，實', '；三', '（經', '濟、', '、軍', '事、', '、情', '報…', '），', '\n然', '而，', '，畢', '輯。', '後，', '爭，', '嘯；', '位，', '段、', '，所', '些，', '—美', '殘。', '為，', '，這', '。川', '客，', '，有', '慧，', '私，', '實。', '到，', '，甚', '，無', '、過', '，不', '疑，', '源。', '，貧', '距、', '、華', '，比', '平、', '、民', '主、', '、博', '愛、', '。所', '，才', '，說', '關。', '，人', '\n（', '員）']


In [24]:
'''
我接著用較簡潔的方法 (comprehension) 寫：
但竟然發現 key_to_be_deleted = []
'''
to_be_deleted = '\n:/》…；—、。， ）（'
key_to_be_deleted = [key for key in vac if set(key).intersection(to_be_deleted) != set({})]

print(len(key_to_be_deleted))
print(key_to_be_deleted)

103
['平》', '機\n', ':2', '0/', '/2', '6 ', ' 石', '\n\n', '件，', '（含', '、工', '業、', '、科', '技、', '、國', '等）', '，或', '早，', '，將', '果。', '，意', '，開', '行；', '，但', '機。', '之，', '，美', '，中', '果，', '。\n', '\n觀', '始，', '（2', '）為', '，從', '，再', '，贏', '重，', '值。', '，而', '，成', '，並', '國，', '礎。', '展，', '、美', '，充', '了；', '二、', '力，', '，實', '；三', '（經', '濟、', '、軍', '事、', '、情', '報…', '），', '\n然', '而，', '，畢', '輯。', '後，', '爭，', '嘯；', '位，', '段、', '，所', '些，', '—美', '殘。', '為，', '，這', '。川', '客，', '，有', '慧，', '私，', '實。', '到，', '，甚', '，無', '、過', '，不', '疑，', '源。', '，貧', '距、', '、華', '，比', '平、', '、民', '主、', '、博', '愛、', '。所', '，才', '，說', '關。', '，人', '\n（', '員）']


In [25]:
'''
接下來，再將這些 key_to_be_deleted 砍掉。
'''
for key in key_to_be_deleted:
    vac.pop(key)

print("剩下 vac 的 key 有： " + str(len(vac)) + "個。")

剩下 vac 的 key 有： 408個。


In [26]:
%whos

Variable            Type             Data/Info
----------------------------------------------
f                   TextIOWrapper    <_io.TextIOWrapper name='<...>ode='r' encoding='utf-8'>
f_content           str              
f_contents          str              1) This is a test file\n2<...>inth line\n10) Tenth line
f_whole             str              石齊平》美國霸權的核心危機\n18:212020/<...>的判斷。\n\n（作者為香港鳳凰衛視台資深評論員）
key                 str              員）
key_to_be_deleted   list             n=103
os                  module           <module 'os' from 'C:\\Us<...>\\Anaconda3\\lib\\os.py'>
path_name           str              D:\Google雲端硬碟\GettingStar<...>Pi-book_release\Chapter03
read_count          int              2
res                 set              set()
test_str1           str              。\n
test_str2           str              \n；—、。， ）（
to_be_deleted       str              \n:/》…；—、。， ）（
vac                 dict             n=408
value               int              17


## Python 中拼音庫 PyPinyin 的用法！這個庫有點意思哈

原文網址：https://kknews.cc/code/klmpzxr.html

## Installing Python Packages from a Jupyter Notebook
https://jakevdp.github.io/blog/2017/12/05/installing-python-packages-from-jupyter/

In [27]:
# 從 jupyter notebook 安裝 pypingyin 套件`
!pip install pypinyin



In [29]:
from pypinyin import pinyin 

In [30]:
print(pinyin('中心'))

[['zhōng'], ['xīn']]


In [31]:
a = pinyin('中心')

In [32]:
type(a)

list

In [33]:
a

[['zhōng'], ['xīn']]

In [34]:
print(len(vac))

408


In [35]:
pinyin_list_vac = [pinyin(key) for key in vac]

In [36]:
len(pinyin_list_vac)

408

In [37]:
len(set(pinyin_list_vac))

TypeError: unhashable type: 'list'

In [39]:
'''
{中文:拼音}
'''
dict_key_py = {key: str(pinyin(key)) for key in vac.keys()}

In [40]:
# dict_py
len(dict_key_py)

408

In [41]:
len(dict_key_py.values())

408

In [42]:
len(set(dict_key_py.values()))

406

In [43]:
'''
怎麼找得到同音詞？
'''
homophone_dict = {}
for key, value in dict_key_py.items():
    if value in homophone_dict.keys():
        print(value, homophone_dict[value])
        print(value, [key])
        homophone_dict[value].append(key)
        print(value, homophone_dict[value])
    else:
        homophone_dict[value] = [key]

#print(len(homophone_dict))

[['de'], ['shì']] ['的是']
[['de'], ['shì']] ['地釋']
[['de'], ['shì']] ['的是', '地釋']
[['quán'], ['de']] ['權的']
[['quán'], ['de']] ['權地']
[['quán'], ['de']] ['權的', '權地']


In [44]:
new_dict = {}
for key, value in vac.items():
    if str(pinyin(key)) in new_dict.keys():
        print(key + str(pinyin(key)))
        new_dict[str(pinyin(key))] += 1
    else:
        new_dict[str(pinyin(key))] = 1

print(len(new_dict))
    

地釋[['de'], ['shì']]
權地[['quán'], ['de']]
406


In [None]:
%lsmagic

In [None]:
#id(vac) == id(vac_copy)

## 我遇到一個狀況：下面我要將內含標點符號的 key 給刪掉，但是在展示兩種寫法 (list comprehension 以及對等的 for loop時，發現，要是前一個被刪掉後，後面那個就看不到了。然後，我想跟脆也準備一份 copy，結果，竟然是指向相同的 dictionay 的物件，所以用不上。如果真的要解決，就得強迫另外再作一個 dictionary。