In [105]:
import re
import requests
import requests_html
import string



In [106]:
CATEGORY = 'Category:Korean_terms_with_IPA_pronunciation'

LIMIT = 500    
INITIAL_QUERY = f'https://en.wiktionary.org/w/api.php?action=query&format=json&list=categorymembers&cmtitle={CATEGORY}&cmlimit={LIMIT}'
CONTINUE_TEMPLATE = string.Template(INITIAL_QUERY + "&cmcontinue=$cmcontinue")

PAGE_TEMPLATE = string.Template("https://en.wiktionary.org/wiki/$word")     
LI_SELECTOR1 = '//li[sup[a[@title = "Appendix:Korean pronunciation"]] and span[@class = "IPA"]]' # a few Korean words have this format too.
LI_SELECTOR2 ='//li[span[sup[a[@title = "Appendix:Korean pronunciation"]]] and span[@class = "IPA"]]' # this is added for Korean
SPAN_SELECTOR = '//li[span[@class = "IPA"]]'    
PHONEMES = r"\[(.+?)\]"   


In [107]:
def _yield_phn(request):
    try:
        for li in request.html.xpath(LI_SELECTOR2):
            for span in li.xpath(SPAN_SELECTOR):
                m = re.search(PHONEMES, span.text)     
                if m:
                    yield m
    except:
        for li in request.html.xpath(LI_SELECTOR1):
            for span in li.xpath(SPAN_SELECTOR):
                print(span.text, '\n\n')   
                if m:
                    yield m

In [108]:
def _print_data(data):
    session = requests_html.HTMLSession()
    """ <example of data>
query":{"categorymembers":[{"pageid":81811,"ns":0,"title":"Homo sapiens"},
{"pageid":3072481,"ns":0,"title":"\u0901"}...."""
    #f = open('kor.tsv', 'a')
    for member in data["query"]["categorymembers"]:
        word = member["title"]  
        # Skips multiword examples.
        if " " in word:
            continue
        query = PAGE_TEMPLATE.substitute(word=word)
        request = session.get(query)  
        
        for m in _yield_phn(request):
            pron = m.group(1)   
            print(f"{word}\t{pron}")
          

In [109]:
def main():
    data = requests.get(INITIAL_QUERY).json() 
    print("Initial query is requested")
    _print_data(data)
    print("Initial query is processed.")
    code = data["continue"]["cmcontinue"]   
    """ <example>
    continue":{"cmcontinue":"page|414245494c4c45204d4552450a414245494c4c45204dc3885245|6478110","continue":"-||"}
    """
    next_query = CONTINUE_TEMPLATE.substitute(cmcontinue=code)
    i = 1
    while True:
        data = requests.get(next_query).json()
        print(f"{i+1} query is requested.")
        _print_data(data)
        print(f"{i+1} query is processed.")
        # Then this is the last one.
        i += 1
        if not "continue" in data:
            break
        code = data["continue"]["cmcontinue"]   
        next_query = CONTINUE_TEMPLATE.substitute(cmcontinue=code)
        
if __name__ == "__main__":
    main()

Initial query is requested
10월	ɕʰiwʌ̹ɭ
11월	ɕʰibiɾwʌ̹ɭ
12월	ɕʰibiwʌ̹ɭ
1월	iɾwʌ̹ɭ
2월	ˈiːwʌ̹ɭ
3월	sʰa̠mwʌ̹ɭ
4월	ˈsʰa̠ːwʌ̹ɭ
5월	ˈo̞ːwʌ̹ɭ
6월	juwʌ̹ɭ
6월	ɾjuwʌ̹ɭ
7월	t͡ɕʰiɾwʌ̹ɭ
8월	pʰa̠ɾwʌ̹ɭ
9월	kuwʌ̹ɭ
NG	e̞nd͡ʑi
OK	o̞kʰe̞i
PC방	pʰiɕ͈iba̠ŋ
ᆫ다	nda̠
ᆫ데	nde̞
ᆫ지	nd͡ʑi
ᆯ게	ɭk͈e̞
ᆯ지	ɭt͡ɕ͈i
ᆸ니까	mnik͈a̠
ᆸ니다	mnida̠
ᆸ시다	pɕ͈ida̠
ㄴㄴ	no̞no̞
ㅄ	pjʌ̹ŋɕʰin
ㅇㅇ	iɯŋiɯŋ
ㅈㅅ	t͡ɕwe̞sʰo̞ŋ
ㅋㅋㅋ	kxɯkxɯkxɯ
ㅚ	we̞
ㅢ	ɰi
가	ka̠
가	ka̠ː
가	ka̠
가	ka̠
가	ka̠ː
가	ka̠
가가우스어	ka̠ɡa̠usʰɯʌ̹
가감	ka̠ɡa̠m
가강수량	ka̠ɡa̠ŋsʰuɾja̠ŋ
가게	ˈka̠ːɡe̞
가격	ka̠ɡjʌ̹k̚
가계	ka̠ɡje̞
가곡	ka̠ɡo̞k̚
가공	ka̠ɡo̞ŋ
가공품	ka̠ɡo̞ŋpʰum
가공하다	ka̠ɡo̞ŋɦa̠da̠
가관	ˈka̠ːɡwa̠n
가구	ka̠ɡu
가구	ka̠ɡu
가극	ka̠ɡɯk̚
가까이	ka̠k͈a̠i
가까이하다	ka̠k͈a̠iɦa̠da̠
가깝다	ka̠k͈a̠p̚t͈a̠
가꾸다	ka̠k͈uda̠
가끔	ka̠k͈ɯm
가끔씩	ka̠k͈ɯmɕ͈ik̚
가나	ka̠na̠
가나	ka̠na̠
가난	ka̠na̠n
가난하다	ka̠na̠nɦa̠da̠
가난히	ka̠na̠nʝi
가내공업	ka̠ne̞ɡo̞ŋʌ̹p̚
가는돌고기	ka̠nɯndo̞ɭɡo̞ɡi
가늘다	ka̠nɯɭda̠
가늠	ka̠nɯm
가늠하다	ka̠nɯmɦa̠da̠
가능	ˈka̠ːnɯŋ
가능성	ˈka̠ːnɯŋs͈ʌ̹ŋ
가능하다	ˈka̠ːnɯŋɦa̠da̠
가닛	ka̠nit̚
가다	ka̠da̠
가돌리늄	ka̠do̞ɭʎiɲjum
가두녀성	ka̠duɲjʌ̹sʰʌ̹ŋ
가두다	ka̠duda̠
가두리	ˈka̠ːduɾi
가두배추	ka̠dube̞t͡ɕʰu
가드

건너다	ˈkɘːnnʌ̹da̠
건너오다	ˈkɘːnnʌ̹o̞da̠
건너편	ˈkɘːnnʌ̹pʰjʌ̹n
건널목	ˈkɘːnnʌ̹ɭmo̞k̚
건네다	ˈkɘːnne̞da̠
건달	kʌ̹nda̠ɭ
건답	kʌ̹nda̠p̚
건드리다	ˈkɘːndɯɾida̠
건망증	ˈkɘːnma̠ŋt͡ɕ͈ɯŋ
건물	ˈkɘːnmuɭ
건반	kʌ̹nba̠n
건배	kʌ̹nbe̞
건설	ˈkɘːnsʰʌ̹ɭ
건설하다	ˈkɘːnsʰʌ̹ɾɦa̠da̠
건의	ˈkɘːnɰi
건전하다	kʌ̹nd͡ʑʌ̹nɦa̠da̠
건조기	kʌ̹nd͡ʑo̞ɡi
건조하다	kʌ̹nd͡ʑo̞ɦa̠da̠
건지다	kʌ̹nd͡ʑida̠
건초	kʌ̹nt͡ɕʰo̞
건축	ˈkɘːnt͡ɕʰuk̚
건축가	ˈkɘːnt͡ɕʰuk̚k͈a̠
건축물	ˈkɘːnt͡ɕʰuŋmuɭ
건축학	ˈkɘːnt͡ɕʰukʰa̠k̚
걷기	ˈkɘːt̚k͈i
걷다	ˈkɘːt̚t͈a̠
걷다	kʌ̹t̚t͈a̠
걷다	kʌ̹t̚t͈a̠
걸다	ˈkɘːɭda̠
걸레	kʌ̹ɭɭe̞
걸리다	kʌ̹ɭʎida̠
걸림씨	kʌ̹ɭʎimɕ͈i
걸신	kʌ̹ɭɕ͈in
걸어	kʌ̹ɾʌ̹
걸어가다	kʌ̹ɾʌ̹ɡa̠da̠
걸음	kʌ̹ɾɯm
걸음걸이	kʌ̹ɾɯmɡʌ̹ɾi
걸음마	kʌ̹ɾɯmma̠
걸인	kʌ̹ɾin
걸작	kʌ̹ɭt͡ɕ͈a̠k̚
걸쭉하다	kʌ̹ɭt͡ɕ͈ukʰa̠da̠
걸치다	ˈkɘːɭt͡ɕʰida̠
걸프렌드	kʌ̹ɭpʰɯɾe̞ndɯ
걸핏걸핏	kʌ̹ɭpʰit̚k͈ʌ̹ɭpʰit̚
검	kɘːm
검	kɘːm
검다	ˈkɘːmda̠
검댕	kʌ̹mt͈e̞ŋ
검독수리	kʌ̹mdo̞ks͈uɾi
검둥오리	kʌ̹mduŋo̞ɾi
검둥오리사촌	kʌ̹mduŋo̞ɾisʰa̠t͡ɕʰo̞n
검둥이	kʌ̹mduŋi
검사	ˈkɘːmsʰa̠
검열	ˈkɘːmɲjʌ̹ɭ
검은금	kʌ̹mɯnɡɯm
검은담비	kʌ̹mɯnda̠mbi
검은댕기해오라기	kʌ̹mɯnde̞ŋɡiɦe̞o̞ɾa̠ɡi
검은딸기	kʌ̹mɯnt͈a̠ɭɡi
검은머리흰따오기	kʌ̹mɯnmʌ̹ɾiʝint͈a̠o̞ɡi
검은머리흰죽지	kʌ̹mɯnmʌ̹ɾiʝind͡ʑuk̚t͡ɕ͈i
검은목논병아리	kʌ

관찰하다	kwa̠nt͡ɕʰa̠ɾɦa̠da̠
관코박쥐	kwa̠nkʰo̞ba̠k̚t͡ɕ͈ɥi
관하다	kwa̠nɦa̠da̠
관형사	kwa̠nʝjʌ̹ŋsʰa̠
관화	kwa̠nβwa̠
괄시	kwa̠ɭɕʰi
괄약근	kwa̠ɾja̠k̚k͈ɯn
괄호	kwa̠ɾβo̞
괌	kwa̠m
괌도	kwa̠mdo̞
광	kwa̠ːŋ
광	kwa̠ŋ
광검	kwa̠ŋɡʌ̹m
광견병	kwa̠ŋɡjʌ̹np͈jʌ̹ŋ
광경	kwa̠ŋɡjʌ̹ŋ
광고	ˈkwa̠ːŋɡo̞
광구	kwa̠ŋɡu
광구	ˈkwa̠ːŋɡu
광구	ˈkwa̠ːŋɡu
광년	kwa̠ŋɲjʌ̹n
광대	ˈkwa̠ːŋde̞
광대뼈	ˈkwa̠ːŋde̞p͈jʌ̹
광동	kwa̠ŋdo̞ŋ
광동어	kwa̠ŋdo̞ŋʌ̹
광둥	kwa̠ŋduŋ
광명성절	kwa̠ŋmjʌ̹ŋsʰʌ̹ŋd͡ʑʌ̹ɭ
광물	ˈkwa̠ːŋmuɭ
광부	kwa̠ŋbu
광산	kwa̠ŋsʰa̠n
광서	kwa̠ŋsʰʌ̹
광석	ˈkwa̠ːŋsʰʌ̹k̚
광선	kwa̠ŋsʰʌ̹n
광시	kwa̠ŋɕʰi
광야	ˈkwa̠ːŋja̠
광업	ˈkwa̠ːŋʌ̹p̚
광역시	ˈkwa̠ːŋjʌ̹kɕ͈i
광원	kwa̠ŋwʌ̹n
광음사전	kwa̠ŋɯmsʰa̠d͡ʑʌ̹n
광장	ˈkwa̠ːŋd͡ʑa̠ŋ
광주	kwa̠ŋd͡ʑu
광주	ˈkwa̠ːŋd͡ʑu
광천수	ˈkwa̠ːŋt͡ɕʰʌ̹nsʰu
광초	kwa̠ŋt͡ɕʰo̞
광학	kwa̠ŋɦa̠k̚
광합성	kwa̠ŋɦa̠ps͈ʌ̹ŋ
광호흡	kwa̠ŋβo̞ɣɯp̚
광화문	kwa̠ŋβwa̠mun
괜찮다	kwe̞nt͡ɕʰa̠ntʰa̠
괴다	ˈkwe̞ːda̠
괴롭다	kwe̞ɾo̞p̚t͈a̠
괴롭히다	kwe̞ɾo̞pʰida̠
괴뢰	ˈkwe̞ːɾwe̞
괴물	ˈkwe̞ːmuɭ
괴수	ˈkwe̞ːsʰu
괴짜	ˈkwe̞ːt͡ɕ͈a̠
괴한	ˈkwe̞ːɦa̠n
굉장히	kwe̞ŋd͡ʑa̠ŋʝi
교가	kjoɡa̠
교각	kjoɡa̠k̚
교거	kjoɡʌ̹
교과서	ˈkjoːɡwa̠sʰʌ̹
교구	kjoɡu
교도	ˈkjoːdo̞
교도소	ˈkjoːdo̞sʰo̞
교또	kjot͈o̞
교량	kjoɾja̠ŋ
교류	kjoɾju

기차다	kit͡ɕʰa̠da̠
기차역	kit͡ɕʰa̠jʌ̹k̚
기체	kit͡ɕʰe̞
기초	kit͡ɕʰo̞
기초하다	kit͡ɕʰo̞ɦa̠da̠
기총	kit͡ɕʰo̞ŋ
기치	kit͡ɕʰi
기침	kit͡ɕʰim
기침하다	kit͡ɕʰimɦa̠da̠
기타	kitʰa̠
기타	kitʰa̠
기합	kiɦa̠p̚
기호	kiβo̞
기회	kiβwe̞
기회주의자	kiβwe̞d͡ʑuɰid͡ʑa̠
기획	kiβwe̞k̚
기후	kiβu
긴급	kinɡɯp̚
긴꼬리꼬마쥐	kink͈o̞ɾik͈o̞ma̠d͡ʑɥi
긴꼬리윗수염박쥐	kink͈o̞ɾiɥit̚s͈ujʌ̹mba̠k̚t͡ɕ͈ɥi
긴날개박쥐	kinna̠ɭɡe̞ba̠k̚t͡ɕ͈ɥi
긴몰개	ˈkiːnmo̞ɭɡe̞
긴발톱첨서	kinba̠ɭtʰo̞p̚t͡ɕʰʌ̹msʰʌ̹
긴부리참돌고래	kinbuɾit͡ɕʰa̠mdo̞ɭɡo̞ɾe̞
긴장	kind͡ʑa̠ŋ
긷다	ˈkiːt̚t͈a̠
길	kiɭ
길거리	kiɭk͈ʌ̹ɾi
길냥이	ˈkiːɭʎja̠ŋi
길다	ˈkiːɭda̠
길림	kiɭʎim
길이	kiɾi
길잡이	kiɭd͡ʑa̠bi
김	kim
김멜	kimme̞ɭ
김밥	ˈkiːmp͈a̠p̚
김일성화	kimiɭsʰʌ̹ŋβwa̠
김정일화	kimd͡ʑʌ̹ŋiɾβwa̠
김책	kimt͡ɕʰe̞k̚
김치	kimt͡ɕʰi
김치전	kimt͡ɕʰid͡ʑʌ̹n
김치찌개	kimt͡ɕʰit͡ɕ͈iɡe̞
깁	kip̚
깁다	ˈkiːp̚t͈a̠
깁스	kips͈ɯ
깃	kit̚
깃발	kit̚p͈a̠ɭ
깃털	kit̚tʰʌ̹ɭ
깊다	kip̚t͈a̠
깊이	kipʰi
까	k͈a̠
까까	k͈a̠k͈a̠
까뀌	ˈk͈a̠ːk͈ɥi
까다	k͈a̠da̠
까다롭다	ˈk͈a̠ːda̠ɾo̞p̚t͈a̠
까닭	k͈a̠da̠k̚
까렐리야	k͈a̠ɾe̞ɭʎija̠
까마귀	k͈a̠ma̠ɡɥi
까마귓과	k͈a̠ma̠ɡɥit̚k͈wa̠
까막눈	k͈a̠ma̠ŋnun
까맣다	ˈk͈a̠ːma̠tʰa̠
까벨	k͈a̠be̞ɭ
까불다	k͈a̠buɭda̠
까자흐스딴	k͈a̠d͡ʑa̠ɣɯsʰɯt͈a̠n
까치	k͈a̠t͡ɕʰi
까치돌고래	k͈a̠

노처녀	ˈno̞ːt͡ɕʰʌ̹ɲjʌ̹
노출	no̞t͡ɕʰuɭ
노크	no̞kxɯ
노크노크	no̞kxɯno̞kxɯ
노크하다	no̞kxɯɦa̠da̠
노트	no̞tʰɯ
노트북	no̞tʰɯbuk̚
노파	ˈno̞ːpʰa̠
노화	no̞βwa̠
노환	ˈno̞ːβwa̠n
녹	no̞k̚
녹다	no̞k̚t͈a̠
녹두나물	no̞k̚t͈una̠muɭ
녹말	no̞ŋma̠ɭ
녹색	no̞ks͈e̞k̚
녹음	no̞ɡɯm
녹음기	no̞ɡɯmɡi
녹음실	no̞ɡɯmɕʰiɭ
녹이다	no̞ɡida̠
녹차	no̞k̚t͡ɕʰa̠
논다니	ˈno̞ːnda̠ni
논리	no̞ɭʎi
논리학	no̞ɭʎiɦa̠k̚
논문	no̞nmun
논병아리	no̞nbjʌ̹ŋa̠ɾi
논의	no̞nɰi
논의하다	no̞nɰiɦa̠da̠
논쟁	no̞nd͡ʑe̞ŋ
논쟁점	no̞nd͡ʑe̞ŋt͡ɕ͈ʌ̹m
논평	no̞npʰjʌ̹ŋ
논하다	no̞nɦa̠da̠
놀다	ˈno̞ːɭda̠
놀라다	ˈno̞ːɭɭa̠da̠
놀라움	ˈno̞ːɭɭa̠um
놀랍다	ˈno̞ːɭɭa̠p̚t͈a̠
놀리다	no̞ɭʎida̠
놀아나다	no̞ɾa̠na̠da̠
놀이	no̞ɾi
놀이공원	no̞ɾiɡo̞ŋwʌ̹n
놀이터	no̞ɾitʰʌ̹
놈	no̞m
놋쇠	no̞t̚s͈we̞
농	no̞ŋ
농	no̞ːŋ
농경	no̞ŋɡjʌ̹ŋ
농구	no̞ŋɡu
농노	no̞ŋno̞
농담	ˈno̞ːŋda̠m
농담	no̞ŋda̠m
농담하다	ˈno̞ːŋda̠mɦa̠da̠
농민	no̞ŋmin
농부	no̞ŋbu
농사	no̞ŋsʰa̠
농산물	no̞ŋsʰa̠nmuɭ
농어	no̞ŋʌ̹
농업	no̞ŋʌ̹p̚
농장	no̞ŋd͡ʑa̠ŋ
농촌	no̞ŋt͡ɕʰo̞n
높다	no̞p̚t͈a̠
높아지다	no̞pʰa̠d͡ʑida̠
높이	no̞pʰi
높이다	no̞pʰida̠
놓다	no̞tʰa̠
놓이다	no̞ida̠
놓치다	no̞t̚t͡ɕʰida̠
놔두다	nwa̠duda̠
뇌	nwe̞
뇌	nwe̞ː
뇌	nwe̞ː
뇌관	nwe̞ɡwa̠n
뇌물	nwe̞muɭ
뇌우	nwe̞u
뇨소	ɲjosʰo̞
누	nu
누구	nuɡu
누구세요	nuɡu

KeyboardInterrupt: 