## English analogy

#### Import Spacy and download english model

In [11]:
# !python -m spacy download en_core_web_sm

In [1]:
import spacy

nlp_en = spacy.load("en_core_web_sm")

doc = nlp_en("This is a sentence.")

print([(w.text, w.pos_) for w in doc])

2023-08-14 13:51:38.938946: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


[('This', 'PRON'), ('is', 'AUX'), ('a', 'DET'), ('sentence', 'NOUN'), ('.', 'PUNCT')]


#### Import Direct English Language module

In [2]:
import en_core_web_sm

nlp_en = en_core_web_sm.load()

doc = nlp_en("This is a sentence.")

print([(w.text, w.pos_) for w in doc])

[('This', 'PRON'), ('is', 'AUX'), ('a', 'DET'), ('sentence', 'NOUN'), ('.', 'PUNCT')]


#### Download Korean Spacy model

In [2]:
# !python -m spacy download ko_core_news_sm
# !pip install -U pkuseg
# !pip install jieba
# !pip install stopwordsiso

Collecting ko-core-news-sm==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ko_core_news_sm-3.5.0/ko_core_news_sm-3.5.0-py3-none-any.whl (14.7 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.7/14.7 MB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0mm
Installing collected packages: ko-core-news-sm
Successfully installed ko-core-news-sm-3.5.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ko_core_news_sm')


#### Import Direct Korean Language module

In [3]:
import spacy
nlp_ko = spacy.load("ko_core_news_sm")
doc = nlp_ko("모든 사람은 교육을 받을 권리를 가진다 . 교육은 최소한 초등 및 기초단계에서는 무상이어야 한다. 초등교육은 의무적이어야 한다. 기술 및 직업교육은 일반적으로 접근이 가능하여야 하며, 고등교육은 모든 사람에게 실력에 근거하여 동등하게 접근 가능하여야 한다.")
print([(w.text, w.pos_) for w in doc])

[('모든', 'ADJ'), ('사람은', 'NOUN'), ('교육을', 'NOUN'), ('받을', 'VERB'), ('권리를', 'NOUN'), ('가진다', 'VERB'), ('.', 'PUNCT'), ('교육은', 'NOUN'), ('최소한', 'ADV'), ('초등', 'NOUN'), ('및', 'CCONJ'), ('기초단계에서는', 'NOUN'), ('무상이어야', 'VERB'), ('한다', 'AUX'), ('.', 'PUNCT'), ('초등교육은', 'ADV'), ('의무적이어야', 'VERB'), ('한다', 'AUX'), ('.', 'PUNCT'), ('기술', 'NOUN'), ('및', 'CCONJ'), ('직업교육은', 'NOUN'), ('일반적으로', 'ADV'), ('접근이', 'NOUN'), ('가능하여야', 'VERB'), ('하며', 'CCONJ'), (',', 'PUNCT'), ('고등교육은', 'PROPN'), ('모든', 'ADJ'), ('사람에게', 'ADV'), ('실력에', 'CCONJ'), ('근거하여', 'SCONJ'), ('동등하게', 'PROPN'), ('접근', 'NOUN'), ('가능하여야', 'VERB'), ('한다', 'AUX'), ('.', 'PUNCT')]


In [4]:
import ko_core_news_sm
nlp_ko = ko_core_news_sm.load()
doc = nlp_ko("교육은 인격의 완전한 발전과 인권과 기본적 자유에 대한 존중의 강화를 목표로 한다. 교육은 모든 국가 , 인종 또는 종교 집단간에 이해, 관용 및 우의를 증진하며 , 평화의 유지를 위한 국제연합의 활동을 촉진하여야 한부모는 자녀에게 제공되는 교육의 종류를 선택할 우선권을 가진다")
print([(w.text, w.pos_) for w in doc])

[('교육은', 'NOUN'), ('인격의', 'NOUN'), ('완전한', 'VERB'), ('발전과', 'CCONJ'), ('인권과', 'NOUN'), ('기본적', 'NOUN'), ('자유에', 'ADV'), ('대한', 'VERB'), ('존중의', 'VERB'), ('강화를', 'NOUN'), ('목표로', 'ADV'), ('한다', 'VERB'), ('.', 'PUNCT'), ('교육은', 'NOUN'), ('모든', 'ADJ'), ('국가', 'NOUN'), (',', 'PUNCT'), ('인종', 'NOUN'), ('또는', 'CCONJ'), ('종교', 'NOUN'), ('집단간에', 'VERB'), ('이해', 'NOUN'), (',', 'PUNCT'), ('관용', 'NOUN'), ('및', 'CCONJ'), ('우의를', 'ADV'), ('증진하며', 'CCONJ'), (',', 'PUNCT'), ('평화의', 'NOUN'), ('유지를', 'NOUN'), ('위한', 'VERB'), ('국제연합의', 'NOUN'), ('활동을', 'NOUN'), ('촉진하여야', 'VERB'), ('한부모는', 'PROPN'), ('자녀에게', 'ADV'), ('제공되는', 'VERB'), ('교육의', 'NOUN'), ('종류를', 'NOUN'), ('선택할', 'VERB'), ('우선권을', 'ADV'), ('가진다', 'VERB')]


#### Linguistic Features - Engineering and extraction

In [5]:
# parts of speech tagging
for token in doc:
    print(((token.text, 
            token.lemma_, 
            token.pos_, 
            token.tag_,
            token.dep_,
            token.shape_,
            token.is_alpha,
            token.is_stop,
            )))

('교육은', '교육+은', 'NOUN', 'ncpa+jxt', 'dislocated', 'xxx', True, False)
('인격의', '인격+의', 'NOUN', 'ncn+jcm', 'nmod', 'xxx', True, False)
('완전한', '완전+하+ㄴ', 'VERB', 'ncps+xsm+etm', 'amod', 'xxx', True, False)
('발전과', '발전+과', 'CCONJ', 'ncpa+jcj', 'obj', 'xxx', True, False)
('인권과', '인권+과', 'NOUN', 'ncn+xsn', 'conj', 'xxx', True, False)
('기본적', '기본+적', 'NOUN', 'ncn+xsn', 'amod', 'xxx', True, False)
('자유에', '자유+에', 'ADV', 'ncn+jca', 'obl', 'xxx', True, False)
('대한', '대하+ㄴ', 'VERB', 'pvg+etm', 'acl', 'xx', True, False)
('존중의', '존중의', 'VERB', 'ncps+xsm+etm', 'amod', 'xxx', True, False)
('강화를', '강화+를', 'NOUN', 'ncpa+jco', 'conj', 'xxx', True, False)
('목표로', '목표+로', 'ADV', 'ncpa+jca', 'advcl', 'xxx', True, False)
('한다', '하+ㄴ다', 'VERB', 'pvg+ef', 'ROOT', 'xx', True, False)
('.', '.', 'PUNCT', 'sf', 'punct', '.', False, False)
('교육은', '교육+은', 'NOUN', 'ncpa+jxt', 'dislocated', 'xxx', True, False)
('모든', '모든', 'ADJ', 'mma', 'amod', 'xx', True, False)
('국가', '국가', 'NOUN', 'ncn', 'compound', 'xx', True, F

In [6]:
## Output in different ways
for token in doc:
    print('%s_%s' % (token.text, token.tag_))
    
out = ''
for token in doc:
    out = out + ' '+ '/'.join((token.text, token.tag_))
print(out)

교육은_ncpa+jxt
인격의_ncn+jcm
완전한_ncps+xsm+etm
발전과_ncpa+jcj
인권과_ncn+xsn
기본적_ncn+xsn
자유에_ncn+jca
대한_pvg+etm
존중의_ncps+xsm+etm
강화를_ncpa+jco
목표로_ncpa+jca
한다_pvg+ef
._sf
교육은_ncpa+jxt
모든_mma
국가_ncn
,_sp
인종_ncn
또는_maj
종교_ncn
집단간에_ncn+jp+ep+etm
이해_ncpa
,_sp
관용_ncn
및_maj
우의를_ncps+xsa
증진하며_ncpa+xsv+ecc
,_sp
평화의_ncps+jcm
유지를_ncpa+jco
위한_pvg+etm
국제연합의_ncn+ncn+jcm
활동을_ncpa+jco
촉진하여야_ncpa+xsv+etm
한부모는_ncn+ncn+jxt
자녀에게_ncn+jca
제공되는_ncpa+xsv+etm
교육의_ncpa+jcm
종류를_ncn+jco
선택할_ncpa+xsv+etm
우선권을_nq+jca
가진다_pvg+etm
 교육은/ncpa+jxt 인격의/ncn+jcm 완전한/ncps+xsm+etm 발전과/ncpa+jcj 인권과/ncn+xsn 기본적/ncn+xsn 자유에/ncn+jca 대한/pvg+etm 존중의/ncps+xsm+etm 강화를/ncpa+jco 목표로/ncpa+jca 한다/pvg+ef ./sf 교육은/ncpa+jxt 모든/mma 국가/ncn ,/sp 인종/ncn 또는/maj 종교/ncn 집단간에/ncn+jp+ep+etm 이해/ncpa ,/sp 관용/ncn 및/maj 우의를/ncps+xsa 증진하며/ncpa+xsv+ecc ,/sp 평화의/ncps+jcm 유지를/ncpa+jco 위한/pvg+etm 국제연합의/ncn+ncn+jcm 활동을/ncpa+jco 촉진하여야/ncpa+xsv+etm 한부모는/ncn+ncn+jxt 자녀에게/ncn+jca 제공되는/ncpa+xsv+etm 교육의/ncpa+jcm 종류를/ncn+jco 선택할/ncpa+xsv+etm 우선권을/nq+jca 가진다/pvg+etm


#### Visualization Linguistic Features

In [9]:
# Visualize
from spacy import displacy
displacy.render(doc, style="dep")

In [10]:
options = {"compact": True, "bg": "#09a3d5",
           "color": "white", "font": "Source Sans Pro",
          "distance": 120}
displacy.render(doc, style="dep", options=options)

In [11]:
## longer paragraphs
text_long = '''武漢肺炎全球肆虐，至今已有2906萬人確診、92萬染疫身亡，而流亡美國的中國大陸病毒學家閻麗夢，14日時開通了推特帳號，並公布一份長達26頁的科學論文，研究直指武肺病毒與自然人畜共通傳染病的病毒不同，並呼籲追查武漢P4實驗室及美國衛生研究院（NIH）之間的金流，引發討論。'''
text_long_list = text_long.split(sep="，")
len(text_long_list)

for c in text_long_list:
    print(c)

武漢肺炎全球肆虐
至今已有2906萬人確診、92萬染疫身亡
而流亡美國的中國大陸病毒學家閻麗夢
14日時開通了推特帳號
並公布一份長達26頁的科學論文
研究直指武肺病毒與自然人畜共通傳染病的病毒不同
並呼籲追查武漢P4實驗室及美國衛生研究院（NIH）之間的金流
引發討論。


In [13]:
## parse the texts
doc2 = list(nlp_ko.pipe(text_long_list))
len(doc2)

8

In [15]:
import jieba
import jieba.posseg as pseg

text = '飞机是今天晚上七点钟准时降落在北京首都国际机场的'

words = pseg.cut(text)
for w in words:
    print('%s %s' % (w.word, w.flag))

飞机 n
是 v
今天 t
晚上 t
七点钟 m
准时 v
降落 v
在 p
北京 ns
首都国际机场 nt
的 uj


In [16]:
import stopwordsiso
from stopwordsiso import stopwords
kor_stop_words = list(stopwords(["ko"]))  # Chinese

In [17]:
kor_stop_words

['할지라도',
 '하지 않는다면',
 '이렇게말하자면',
 '그들',
 '그리고',
 '삼',
 '과연',
 '할수있다',
 '하려고하다',
 '허걱',
 '아무거나',
 '이와 같다',
 '지말고',
 '하도록시키다',
 '그위에',
 '것',
 '헐떡헐떡',
 '할 생각이다',
 '“',
 '아니라면',
 '하마터면',
 '하자마자',
 '；',
 '할수있어',
 '＊',
 '일지라도',
 '￥',
 '어느때',
 '양자',
 '관하여',
 '곧',
 '자기',
 '`',
 '얼마간',
 '할 따름이다',
 '４',
 '을',
 '및',
 '비로소',
 '매번',
 '통하여',
 '때가 되어',
 '그래서',
 '인젠',
 '。',
 '이지만',
 '한데',
 '다음으로',
 '모두',
 '그러면',
 '향하다',
 '안 그러면',
 '전자',
 '알 수 있다',
 '시작하여',
 '윙윙',
 '이었다',
 '요만한 것',
 '모',
 '응당',
 '위해서',
 '하기는한데',
 '아니나다를가',
 '1',
 '인 듯하다',
 '하는 김에',
 '단지',
 '그',
 '어느해',
 '6',
 '이와 반대로',
 '봐라',
 '그리하여',
 '지든지',
 '&',
 '에게',
 '｛',
 '삐걱거리다',
 '부터',
 '그렇지않으면',
 '5',
 '＠',
 '+',
 '으로써',
 '했어요',
 '어느',
 '이와같다면',
 '"',
 '<',
 '자',
 '겸사겸사',
 '잇따라',
 '하기 때문에',
 '이천칠',
 '로 인하여',
 '대해 말하자면',
 '비교적',
 '입장에서',
 '라 해도',
 '꽈당',
 '｜',
 '하나',
 '헉헉',
 '잠시',
 '중의하나',
 '８',
 '말할것도 없고',
 '휘익',
 '개의치않고',
 '둥둥',
 '《',
 '다시 말하자면',
 '무렵',
 '하고 있다',
 '버금',
 '뒤이어',
 '바꿔 말하면',
 '논하지 않다',
 '좀',
 '우선',
 '뿐만아니라',
 '어떠한',
 '위에서 서술한바와같

In [21]:
# import pickle

# with open('kor_stop_words.txt', 'wb') as f:
#     pickle.dump(kor_stop_words, f)

In [22]:
with open("kor_stop_words.txt","wt") as file:
    for thestring in kor_stop_words:
        print(thestring, file=file)

## References

1. https://pypi.org/project/jieba/
2. https://spacy.io/models/ko/