これからspaCy（日本語版）の練習をしていく。
「spaCyを使った先進的な自然言語処理」というサイトに載っている問題集を中心に進めていく。
https://course.spacy.io/ja

In [1]:
import spacy

In order to use Japanese version, I had to disable LUA(Limited User Account). According to Microfost, if it is set as false (0), "Windows does not notify the user when programs try to install software or make changes to the computer.
We do not recommend using this setting, but it can be selected for systems that use programs 
that are not certified for Windows 8, Windows Server 2012, Windows 7 or Windows Server 2008 R2 
because they do not support UAC(User Account Controls)."

To disable LUA, here is what I did: 
Windows logo key + R, type regedit
H key local machine -> software -> Microsoft -> Windows -> Current version -> Policies -> System -> Enable LUA -> 0 

In [2]:
nlp = spacy.load("ja_core_news_sm")

In [3]:
text = nlp('今日からSpaCyの日本語バージョンを試してみます。')

In [4]:
for w in text:
    print(w.text, w.pos_, w.dep_)

今日 NOUN obl
から ADP case
SpaCy NOUN nmod
の ADP case
日本 PROPN compound
語 NOUN compound
バージョン NOUN obj
を ADP case
試し VERB ROOT
て SCONJ mark
み AUX aux
ます AUX aux
。 PUNCT punct


In [5]:
for w in text:
    print(f'text:{w.text}, pos:{w.pos_}, tag:{w.tag_}, lemma:{w.lemma_}')

text:今日, pos:NOUN, tag:名詞-普通名詞-副詞可能, lemma:今日
text:から, pos:ADP, tag:助詞-格助詞, lemma:から
text:SpaCy, pos:NOUN, tag:名詞-普通名詞-一般, lemma:spacy
text:の, pos:ADP, tag:助詞-格助詞, lemma:の
text:日本, pos:PROPN, tag:名詞-固有名詞-地名-国, lemma:日本
text:語, pos:NOUN, tag:名詞-普通名詞-一般, lemma:語
text:バージョン, pos:NOUN, tag:名詞-普通名詞-一般, lemma:バージョン
text:を, pos:ADP, tag:助詞-格助詞, lemma:を
text:試し, pos:VERB, tag:動詞-一般, lemma:試す
text:て, pos:SCONJ, tag:助詞-接続助詞, lemma:て
text:み, pos:AUX, tag:動詞-非自立可能, lemma:みる
text:ます, pos:AUX, tag:助動詞, lemma:ます
text:。, pos:PUNCT, tag:補助記号-句点, lemma:。


In [6]:
def show_lemmas(textfile):
    for token in textfile:
        print(f'{token.text:{15}} {token.pos_:{15}} {token.tag_:{20}} {token.lemma_}')

In [26]:
show_lemmas(text)

今日              NOUN            名詞-普通名詞-副詞可能         今日
から              ADP             助詞-格助詞               から
SpaCy           NOUN            名詞-普通名詞-一般           spacy
の               ADP             助詞-格助詞               の
日本              PROPN           名詞-固有名詞-地名-国         日本
語               NOUN            名詞-普通名詞-一般           語
バージョン           NOUN            名詞-普通名詞-一般           バージョン
を               ADP             助詞-格助詞               を
試し              VERB            動詞-一般                試す
て               SCONJ           助詞-接続助詞              て
み               AUX             動詞-非自立可能             みる
ます              AUX             助動詞                  ます
。               PUNCT           補助記号-句点              。


In [8]:
doc2 = nlp('テキスト処理を学びます。最初のトークンを選んでみます。')
token1 = doc2[0]
print(token1)

テキスト


In [9]:
for token in doc2:
    print(token.text, token.pos_, token.dep_)

テキスト NOUN compound
処理 NOUN obj
を ADP case
学び VERB ROOT
ます AUX aux
。 PUNCT punct
最初 NOUN nmod
の ADP case
トークン NOUN obj
を ADP case
選ん VERB ROOT
で SCONJ mark
み AUX aux
ます AUX aux
。 PUNCT punct


In [10]:
# 「最初のトークン」のみを表示
# 最後の数字にあたるトークンは表示されないので注意

first_token = doc2[6:9]
print(first_token)

最初のトークン


In [12]:
# spaCyのDocとTokenオブジェクトと、その語彙属性（lexical attributes）を使って、 文字列の中からパーセンテージを表す部分を抜き出す。
# つまり、数字とパーセント記号からなる連続した二つのトークンを探す。
# 例文＆コードは以下のウェブサイトから取得：
# https://course.spacy.io/ja/chapter1

doc2 = nlp(
    "1990年には東アジアの60%以上の人々が極度の貧困状態に陥っていました。"
    "今では4%以下になっています。")

for token in doc2:
    # トークンが数字に似ているかどうかをチェック
    if token.like_num:
        # docの次のトークンを取得
        next_token = doc2[token.i + 1]
        # 次のトークンの文字列が「%」に一致するかどうかをチェック
        if next_token.text == "%":
            print("Percentage found:", token.text)

Percentage found: 60
Percentage found: 4


In [18]:
# 自分でコードを試してみる。
# 参考URL：
# https://news.yahoo.co.jp/articles/50ecf18eeecfe9f383f67b84f424d651e27edd37

doc3 = nlp('最も売れなかったのは「かぜ薬」(金額前年比70.4％:以下同じ)だ。'
          'その他、「リップクリーム」(83.7％)、「パック」(84.3％)、「ファンデーション」(84.7％)などは、在宅勤務の普及や外出を控える行動様式をストレートに反映した結果といえる。'
          )

for token in doc3: 
    if token.like_num:
        next_token = doc3[token.i +1]
        if next_token.text == "％":    # イコールは必ず２つ。next_tokenのあとの.textを忘れない
            print("Percentage found:", token.text)

Percentage found: 70.4
Percentage found: 83.7
Percentage found: 84.3
Percentage found: 84.7


注意：％が全角（原文通り）だとPercentage foundが返されるが、半角の%では何も返されない。