In [1]:
from collections import Counter
import pandas as pd
import sqlite3
from IPython.display import display, Audio, Video, HTML

In [2]:
# export from anki app and unzip it
cnx = sqlite3.connect('miscs/collection.anki21')
df_dict = {}
for table_name in ['cards', 'col', 'graves', 'notes', 'revlog']:
    df = pd.read_sql_query(f"SELECT * FROM {table_name}", cnx)
    df_dict[table_name] = df

In [3]:
words_with_queue_df = df_dict['cards'].join(df_dict['notes'], lsuffix='_cards', rsuffix='_notes')[["queue", "sfld"]]
learned_set = set(word.lower() for word in words_with_queue_df[words_with_queue_df["queue"] != 0]["sfld"])

``` shell
pip3 install youtube-dl
youtube-dl --proxy socks5://127.0.0.1:1086 --write-sub --sub-lang en --skip-download https://www.youtube.com/watch?v=ZNG7g83lI-s --output "miscs/youtube1"
```

In [39]:
# import nltk
# nltk.set_proxy('http://127.0.0.1:1087')
# nltk.download('punkt')
# nltk.download('wordnet')
# nltk.download('stopwords')

import string
import glob
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem.porter import PorterStemmer
from nltk.stem import WordNetLemmatizer 


porter_stemmer  = PorterStemmer()
bad_words = ['-->','</c>'] 
all_words = []
stop_words = set(stopwords.words('english'))

lemma = WordNetLemmatizer()
for filename in glob.glob("miscs/*.vtt"):
    print(filename)
    with open(filename) as oldfile:
        for line in oldfile:
            if not any(bad_word in line for bad_word in bad_words):
                for word in word_tokenize(line):
                    word_n = lemma.lemmatize(word.lower(),'v')
                    word_n = lemma.lemmatize(word_n,'n')
                    if word_n not in learned_set and word_n not in stop_words:
                        if word_n in string.punctuation or len(word_n) < 3 or "'" in word_n or "." in word_n:
                            continue
                        all_words.append(word_n)

miscs/youtube.en.vtt
miscs/youtube1.en.vtt
miscs/youtube2.en.vtt


In [40]:
lemma.lemmatize('derailleurs')

'derailleurs'

In [41]:
all_words_counter = Counter(all_words)

In [42]:
all_words_counter.most_common(30)

[('derailleur', 48),
 ('cog', 36),
 ('adjuster', 29),
 ('outward', 21),
 ('largest', 21),
 ('shifter', 17),
 ('smallest', 17),
 ('lever', 15),
 ('clockwise', 14),
 ('inward', 10),
 ('pedal', 10),
 ('counterclockwise', 10),
 ('derailleurs', 9),
 ('loosen', 8),
 ('chainring', 8),
 ('chainrings', 7),
 ('linkage', 6),
 ('sprocket', 6),
 ('overview', 5),
 ('smaller', 5),
 ('dial', 4),
 ('increment', 4),
 ('clamp', 4),
 ('webvtt', 3),
 ('caption', 3),
 ('calvin', 3),
 ('jones', 3),
 ('pulley', 3),
 ('hex', 3),
 ('wrench', 3)]

In [9]:
import functools
import translators as ts
import eng_to_ipa as ipa

@functools.lru_cache(maxsize=10000, typed=False)
def get_words_trans(word: str, trans_vendor: str = "alibaba"):
    if trans_vendor == "alibaba":
        chn_meaning = ts.alibaba(word, from_language='en', to_language='zh')
    else:
        chn_meaning = ""
    word_ipa = ipa.convert(word)
    audio_url = "https://dict.youdao.com/dictvoice?audio=" + word
    return (chn_meaning, word_ipa, audio_url)

Using China server backend.


In [43]:
results = []
for (word, freq) in all_words_counter.most_common():
    (chn_meaning, word_ipa, audio_url) = get_words_trans(word)
    print(f'{word} : {word_ipa} : {chn_meaning} : {freq}')
    results.append((word, word_ipa, chn_meaning))
    display(HTML(f'<video controls="" name="media" style="height: 80px;"><source src="{audio_url}" type="audio/mpeg"></video>'))

# then import miscs/words.txt to ankis
with open("miscs/words.txt", 'w') as f:
    for result in results:
        f.writelines(f'{result[0]}\t{result[1]}\t{result[2]}\n')
    

derailleur : derailleur* : 变速器 : 48


cog : kɔg : 齿轮 : 36


adjuster : əˈʤəstər : 调节器 : 29


outward : ˈaʊtwərd : 向外 : 21


largest : ˈlɑrʤəst : 最大的 : 21


shifter : ˈʃɪftər : 移位器 : 17


smallest : sˈmɔləst : 最小 : 17


lever : ˈlɛvər : 杠杆 : 15


clockwise : ˈklɑkˌwaɪz : 顺时针方向 : 14


inward : ˈɪnwərd : 向内 : 10


pedal : ˈpɛdəl : 踏板 : 10


counterclockwise : ˌkaʊnərˈklɔkwaɪz : 逆时针方向 : 10


derailleurs : derailleurs* : 脱轨器 : 9


loosen : ˈlusən : 松开 : 8


chainring : chainring* : 链环 : 8


chainrings : chainrings* : 链环 : 7


linkage : ˈlɪŋkɪʤ : 连接 : 6


sprocket : ˈsprɑkət : 链轮 : 6


overview : ˈoʊvərvˌju : 概述 : 5


smaller : sˈmɔlər : 更小 : 5


dial : daɪəl : 刻度盘 : 4


increment : ˈɪnkrəmənt : 增量 : 4


clamp : klæmp : 夹具 : 4


webvtt : webvtt* : webvtt : 3


caption : ˈkæpʃən : 说明 : 3


calvin : ˈkælvɪn : 卡尔文 : 3


jones : ʤoʊnz : 琼斯 : 3


pulley : ˈpʊli : 滑轮 : 3


hex : hɛks : 十六进制 : 3


wrench : rɛnʧ : 扳手 : 3


slack : slæk : 松弛 : 3


pinch : pɪnʧ : 捏 : 3


millimeter : ˈmɪləˌmitər : 毫米 : 3


shorten : ˈʃɔrtən : 缩短 : 3


lengthen : ˈlɛŋθən : 加长 : 3


spoke : spoʊk : 辐条 : 2


screwdriver : ˈskruˌdraɪvər : 螺丝刀 : 2


hanger : ˈhæŋər : 衣架 : 2


alignment : əˈlaɪnmənt : 对齐 : 2


outermost : ˈaʊtərˌmoʊst : 最外层 : 2


purposely : ˈpərpəsli : 故意 : 2


inboard : ˈɪnˌbɔrd : 内侧 : 2


drivetrain : drivetrain* : 动力传动系统 : 2


gauge : geɪʤ : 仪表 : 2


adequately : ˈædəkwɪtli : 充分 : 2


troubleshoot : troubleshoot* : 故障排除 : 2


teeth : tiθ : 牙齿 : 2


parallel : ˈpɛrəˌlɛl : 平行 : 2


rotate : ˈroʊˌteɪt : 旋转 : 2


taut : tɔt : 拉紧 : 2


crank : kræŋk : 曲柄 : 2


intentionally : ˌɪnˈtɛnʃənəli : 故意 : 2


usable : ˈjuzəbəl : 可用 : 2


flex : flɛks : 弯曲 : 2


bracket : ˈbrækɪt : 支架 : 2


thumbs-up : thumbs-up* : 赞 : 2


l-screw : l-screw* : 左螺钉 : 2


optimal : ˈɑptɪməl : 最优 : 1


outlook : ˈaʊˌtlʊk : 展望 : 1


pas : pɑz : pas : 1


predetermine : ˌpridɪˈtərmən : 预先确定 : 1


unmarked : ənˈmɑrkt : 无标记 : 1


actuate : ˈæˌkʧuˈeɪt : 驱动 : 1


easiest : ˈiziəst : 最简单的 : 1


collectively : kəˈlɛktɪvli : 集体 : 1


overly : ˈoʊvərli : 过度 : 1


tighter : ˈtaɪtər : 更紧 : 1


earlier : ˈərliər : 更早的 : 1


incremental : ˌɪnkrəˈmɛntəl : 增量 : 1


cadence : ˈkeɪdəns : 节奏 : 1


unthreaded : unthreaded* : 无线程 : 1


furthest : ˈfərθəst : 最远 : 1


fine-tune : fine-tune* : 微调 : 1


quarter-turn : quarter-turn* : 四分之一转弯 : 1


next-to-largest : next-to-largest* : 第二大 : 1


too-tight : too-tight* : 太紧了 : 1


incrementally : ˌɪnkrəˈmɛntəˌli : 递增 : 1


specification : ˌspɛsɪfɪˈkeɪʃən : 规格 : 1


double-check : ˈdəbəˌlʧɛk : 仔细检查 : 1


discus : ˈdɪskəs : 铁饼 : 1


applicable : ˈæpləkəbəl : 适用 : 1


intutive : intutive* : 直觉 : 1


easier : ˈiziər : 更简单 : 1


adder : ˈædər : 加法器 : 1


braze-on : braze-on* : 项目完结，系统自动填充内容 : 1


rotational : roʊˈteɪʃənəl : 旋转 : 1


slacken : sˈlækən : slacken : 1


noticeable : ˈnoʊtəsəbəl : 引人注目 : 1


chain-to-cage : chain-to-cage* : 链条到笼子 : 1


rethread : rethread* : 重新线程 : 1


wobble : ˈwɑbəl : 摇摆 : 1


simulate : ˈsɪmjəˌleɪt : 模拟 : 1


one-quarter : one-quarter* : 四分之一 : 1


systematically : ˌsɪstəˈmætɪkli : 系统地 : 1


half-turn : half-turn* : 半转弯 : 1


large-to-large : large-to-large* : 大到大 : 1


small-to-small : small-to-small* : 小到小 : 1


rattle : ˈrætəl : 拨浪鼓 : 1


built-in : ˈbɪlˌtɪn : 内置 : 1


test-ridden : test-ridden* : 试穿 : 1


greater : ˈgreɪtər : 更大 : 1


functionality : ˌfəŋkʃəˈnælɪti : 功能 : 1


parallelogram : parallelogram* : 平行四边形 : 1


mechanical-type : mechanical-type* : 机械式 : 1


shift-ramps : shift-ramps* : 换挡坡道 : 1


larger : ˈlɑrʤər : 更大 : 1


amp : æmp : 安培 : 1


h-screw : h-screw* : h螺钉 : 1


h-limit : h-limit* : h极限 : 1


movent : movent* : movent : 1


pre-determined : pre-determined* : 预定 : 1


triple : ˈtrɪpəl : 三重 : 1


crankset : crankset* : 曲柄组 : 1


youtube : ˈjuˌtub : youtube : 1


subscribe : səbˈskraɪb : 订阅 : 1


latest : ˈleɪtəst : 最新 : 1


'ˈædəkwɪtli'

In [117]:
type(reuslt)

str