## テキスト解析

Spacyによるテキスト解析を行う。

まず、Spacyパッケージをインストールする。


In [1]:
!pip install spacy
!pip install ja-ginza

Collecting spacy
  Downloading spacy-3.7.5-cp311-cp311-macosx_11_0_arm64.whl.metadata (27 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Downloading spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Downloading spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Downloading murmurhash-1.0.10-cp311-cp311-macosx_11_0_arm64.whl.metadata (2.0 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Downloading cymem-2.0.8-cp311-cp311-macosx_11_0_arm64.whl.metadata (8.4 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Downloading preshed-3.0.9-cp311-cp311-macosx_11_0_arm64.whl.metadata (2.2 kB)
Collecting thinc<8.3.0,>=8.2.2 (from spacy)
  Downloading thinc-8.2.5-cp311-cp311-macosx_11_0_arm64.whl.metadata (15 kB)
Collecting wasabi<1.2.0,>=0.9.1 (from spacy)
  Downloading wasabi-1.1.3-py3-none-any.whl.metadata (28 kB)
Collecting srsly<3.0.0,>=2.4.3 (from spacy)
  Downlo

In [2]:
# import spacy package.
import spacy
from spacy import displacy

## テキスト解析モデルを読み込む
Spacyでは、日本語を含む様々な言語のコーパスで学習された解析モデルが利用できる。
このような学習済みモデルを使うことで、自分でモデルを訓練する必要がない。
ここでは、日本語解析モデル「ja_ginza」を読み込む。
もし英語のテキストを解析したい場合は、「en_core_web_sm」などの英語解析モデルも使用できる。

In [3]:
nlp = spacy.load('ja_ginza')

###テキスト解析を行う

解析用のテキストを定義する:

In [29]:
# text = 'いよいよサッカーのワールドカップが始まった。今回の日本代表への期待はこれまで以上に大きい。海外のトップクラブで活躍する選手が多いからだ。'
text = '中国が風力発電機の特許競争力で2023年に初めて首位になった。欧州最大手のベスタスを抱えるデンマークを逆転した。中国勢はコスト削減につながる風車の大型化で技術力を高めており、6割に達する世界シェアのさらなる拡大が見込まれる。太陽光パネルに続き、風力発電機でも価格攻勢を強めており、米欧は脱炭素の関連産業の保護に動き始めた。'

先ほど読み込んだテキスト解析モデル（nlp）を使ってテキスト解析を行う：

In [30]:
doc = nlp(text)

## 文分割と単語分割
文分割の結果を確認する:

In [31]:
print("==== 文分割:Text====")
for i, sent in enumerate(doc.sents):
    print(f'{i+1}番目の文：', sent)

==== 文分割:Text====
1番目の文： 中国が風力発電機の特許競争力で2023年に初めて首位になった。
2番目の文： 欧州最大手のベスタスを抱えるデンマークを逆転した。
3番目の文： 中国勢はコスト削減につながる風車の大型化で技術力を高めており、6割に達する世界シェアのさらなる拡大が見込まれる。
4番目の文： 太陽光パネルに続き、風力発電機でも価格攻勢を強めており、米欧は脱炭素の関連産業の保護に動き始めた。


単語分割の結果を確認する。

In [32]:
words = [token.text for token in doc]

print("==== 単語分割:Text====")
print(words)

==== 単語分割:Text====
['中国', 'が', '風力', '発電機', 'の', '特許', '競争力', 'で', '2023', '年', 'に', '初めて', '首位', 'に', 'なっ', 'た', '。', '欧州', '最大手', 'の', 'ベスタス', 'を', '抱える', 'デンマーク', 'を', '逆転', 'し', 'た', '。', '中国', '勢', 'は', 'コスト削減', 'に', 'つながる', '風車', 'の', '大型', '化', 'で', '技術力', 'を', '高め', 'て', 'おり', '、', '6', '割', 'に', '達する', '世界', 'シェア', 'の', 'さらなる', '拡大', 'が', '見込ま', 'れる', '。', '太陽光', 'パネル', 'に', '続き', '、', '風力', '発電機', 'で', 'も', '価格', '攻勢', 'を', '強め', 'て', 'おり', '、', '米欧', 'は', '脱炭素', 'の', '関連', '産業', 'の', '保護', 'に', '動き始め', 'た', '。']


最初の文の単語分割結果を確認する。

In [33]:
sentences = list(doc.sents)
first_sentence = sentences[0]
second_sentence = sentences[1]
third_sentence = sentences[2]
forth_sentence = sentences[3]

words_of_first_sentence = [token.text for token in first_sentence]
words_of_second_sentence = [token.text for token in second_sentence]
words_of_third_sentence = [token.text for token in third_sentence]
words_of_forth_sentence = [token.text for token in forth_sentence]

print(words_of_first_sentence)
print(words_of_second_sentence)
print(words_of_third_sentence)
print(words_of_forth_sentence)

['中国', 'が', '風力', '発電機', 'の', '特許', '競争力', 'で', '2023', '年', 'に', '初めて', '首位', 'に', 'なっ', 'た', '。']
['欧州', '最大手', 'の', 'ベスタス', 'を', '抱える', 'デンマーク', 'を', '逆転', 'し', 'た', '。']
['中国', '勢', 'は', 'コスト削減', 'に', 'つながる', '風車', 'の', '大型', '化', 'で', '技術力', 'を', '高め', 'て', 'おり', '、', '6', '割', 'に', '達する', '世界', 'シェア', 'の', 'さらなる', '拡大', 'が', '見込ま', 'れる', '。']
['太陽光', 'パネル', 'に', '続き', '、', '風力', '発電機', 'で', 'も', '価格', '攻勢', 'を', '強め', 'て', 'おり', '、', '米欧', 'は', '脱炭素', 'の', '関連', '産業', 'の', '保護', 'に', '動き始め', 'た', '。']


## 形態素解析

In [34]:
print("==== 形態素解析:first_sentence (単語表記｜原型｜品詞)====")
for token in first_sentence:
    print(token.text, token.lemma_, token.pos_)

print("==== 形態素解析:second_sentence (単語表記｜原型｜品詞)====")
for token in second_sentence:
    print(token.text, token.lemma_, token.pos_)

print("==== 形態素解析:third_sentence (単語表記｜原型｜品詞)====")
for token in third_sentence:
    print(token.text, token.lemma_, token.pos_)

print("==== 形態素解析:forth_sentence (単語表記｜原型｜品詞)====")
for token in forth_sentence:
    print(token.text, token.lemma_, token.pos_)

==== 形態素解析:first_sentence (単語表記｜原型｜品詞)====
中国 中国 PROPN
が が ADP
風力 風力 NOUN
発電機 発電機 NOUN
の の ADP
特許 特許 NOUN
競争力 競争力 NOUN
で で ADP
2023 2023 NUM
年 年 NOUN
に に ADP
初めて 初めて ADV
首位 首位 NOUN
に に ADP
なっ なる VERB
た た AUX
。 。 PUNCT
==== 形態素解析:second_sentence (単語表記｜原型｜品詞)====
欧州 欧州 PROPN
最大手 最大手 NOUN
の の ADP
ベスタス ベスタス NOUN
を を ADP
抱える 抱える VERB
デンマーク デンマーク PROPN
を を ADP
逆転 逆転 VERB
し する AUX
た た AUX
。 。 PUNCT
==== 形態素解析:third_sentence (単語表記｜原型｜品詞)====
中国 中国 PROPN
勢 勢 NOUN
は は ADP
コスト削減 コスト削減 ADJ
に に AUX
つながる つながる VERB
風車 風車 NOUN
の の ADP
大型 大型 NOUN
化 化 NOUN
で で ADP
技術力 技術力 NOUN
を を ADP
高め 高める VERB
て て SCONJ
おり おる VERB
、 、 PUNCT
6 6 NUM
割 割 NOUN
に に ADP
達する 達する VERB
世界 世界 NOUN
シェア シェア NOUN
の の ADP
さらなる さらなる ADJ
拡大 拡大 NOUN
が が ADP
見込ま 見込む VERB
れる れる AUX
。 。 PUNCT
==== 形態素解析:forth_sentence (単語表記｜原型｜品詞)====
太陽光 太陽光 NOUN
パネル パネル NOUN
に に ADP
続き 続く VERB
、 、 PUNCT
風力 風力 NOUN
発電機 発電機 NOUN
で で ADP
も も ADP
価格 価格 NOUN
攻勢 攻勢 NOUN
を を ADP
強め 強める VERB
て て SCONJ
おり おる VERB
、 、 PUNCT
米欧 米欧 NOUN
は は ADP
脱炭素 脱炭素 NOUN
の の 

## 構文解析
依存構造解析の結果を確認する。

In [35]:
print("==== 構文解析:first_sentence (単語表記--依存関係ラベル-->主辞)====")
for token in first_sentence:
    modifier = token.text
    dependency_relation = token.dep_
    head = token.head.text
    print(f'{modifier} --{dependency_relation}--> {head}')

print("==== 構文解析:second_sentence (単語表記--依存関係ラベル-->主辞)====")
for token in second_sentence:
    modifier = token.text
    dependency_relation = token.dep_
    head = token.head.text
    print(f'{modifier} --{dependency_relation}--> {head}')

print("==== 構文解析:third_sentence (単語表記--依存関係ラベル-->主辞)====")
for token in third_sentence:
    modifier = token.text
    dependency_relation = token.dep_
    head = token.head.text
    print(f'{modifier} --{dependency_relation}--> {head}')

print("==== 構文解析:forth_sentence (単語表記--依存関係ラベル-->主辞)====")
for token in forth_sentence:
    modifier = token.text
    dependency_relation = token.dep_
    head = token.head.text
    print(f'{modifier} --{dependency_relation}--> {head}')

==== 構文解析:first_sentence (単語表記--依存関係ラベル-->主辞)====
中国 --nsubj--> なっ
が --case--> 中国
風力 --compound--> 発電機
発電機 --nmod--> 競争力
の --case--> 発電機
特許 --compound--> 競争力
競争力 --obl--> なっ
で --case--> 競争力
2023 --nummod--> 年
年 --obl--> なっ
に --case--> 年
初めて --advmod--> なっ
首位 --obl--> なっ
に --case--> 首位
なっ --ROOT--> なっ
た --aux--> なっ
。 --punct--> なっ
==== 構文解析:second_sentence (単語表記--依存関係ラベル-->主辞)====
欧州 --compound--> 最大手
最大手 --nmod--> ベスタス
の --case--> 最大手
ベスタス --obj--> 抱える
を --case--> ベスタス
抱える --acl--> デンマーク
デンマーク --obj--> 逆転
を --case--> デンマーク
逆転 --ROOT--> 逆転
し --aux--> 逆転
た --aux--> 逆転
。 --punct--> 逆転
==== 構文解析:third_sentence (単語表記--依存関係ラベル-->主辞)====
中国 --compound--> 勢
勢 --nsubj--> 高め
は --case--> 勢
コスト削減 --advcl--> つながる
に --aux--> コスト削減
つながる --acl--> 風車
風車 --nmod--> 化
の --case--> 風車
大型 --compound--> 化
化 --obl--> 高め
で --case--> 化
技術力 --obj--> 高め
を --case--> 技術力
高め --advcl--> 見込ま
て --mark--> 高め
おり --fixed--> て
、 --punct--> 高め
6 --nummod--> 割
割 --obl--> 達する
に --case--> 割
達する --advcl--> 見込ま
世界 --compound--> シ

依存構文木を可視化モジュールdisplacyを使って確認する。

displacyの詳細は以下のリンクで確認できる：https://spacy.io/usage/visualizers

In [36]:
svg = displacy.render(first_sentence,
                      style="dep",
                      options={'compact':True},
                      jupyter=True)

svg2 = displacy.render(second_sentence,
                      style="dep",
                      options={'compact':True},
                      jupyter=True)

svg3 = displacy.render(third_sentence,
                      style="dep",
                      options={'compact':True},
                      jupyter=True)

svg4 = displacy.render(forth_sentence,
                      style="dep",
                      options={'compact':True},
                      jupyter=True)

依存関係ラベルの詳細は以下のコマンドにより確認できる：

In [37]:
spacy.explain('nsubj')

'nominal subject'

## 固有表現認識
固有表現認識（NER）は、テキストデータから人名、地名、組織名など特定の情報を抽出する自然言語処理のタスクです。

In [38]:
print("==== 固有表現認識 (NER):first_sentence ====")
for ent in first_sentence.ents:
    print(ent.text, ent.label_)

print("==== 固有表現認識 (NER):second_sentence ====")
for ent in second_sentence.ents:
    print(ent.text, ent.label_)

print("==== 固有表現認識 (NER):third_sentence ====")
for ent in third_sentence.ents:
    print(ent.text, ent.label_)

print("==== 固有表現認識 (NER):forth_sentence ====")
for ent in forth_sentence.ents:
    print(ent.text, ent.label_)

==== 固有表現認識 (NER):first_sentence ====
中国 Country
2023年 Date
首位 Rank
==== 固有表現認識 (NER):second_sentence ====
欧州最大手 International_Organization
デンマーク Country
==== 固有表現認識 (NER):third_sentence_2 ====
中国勢 Military
6割 Percent
==== 固有表現認識 (NER):forth_sentence_2 ====


displacyによる可視化：

In [39]:
svg = displacy.render(first_sentence,
                      style="ent",
                      jupyter=True)
svg2 = displacy.render(second_sentence,
                      style="ent",
                      jupyter=True)
svg3 = displacy.render(third_sentence,
                      style="ent",
                      jupyter=True)
svg4 = displacy.render(forth_sentence,
                      style="ent",
                      jupyter=True)



In [43]:
#英語ver
nlp_en = spacy.load('en_core_web_sm')

In [47]:
text_en = "Democratic President Joe Biden's family has urged him to ignore calls to step aside following his disastrous debate against Republican Donald Trump. He spent Sunday with relatives at a presidential retreat where they encouraged him to keep fighting, according to the BBC's US partner CBS News. Anxiety has gripped sections of his party following a rambling and at times incoherent performance in Atlanta."

In [48]:
doc_en = nlp_en(text_en)

In [49]:
print("==== 文分割:Text_en====")
for i, sent in enumerate(doc_en.sents):
    print(f'{i+1}番目の文：', sent)

==== 文分割:Text_en====
1番目の文： Democratic President Joe Biden's family has urged him to ignore calls to step aside following his disastrous debate against Republican Donald Trump.
2番目の文： He spent Sunday with relatives at a presidential retreat where they encouraged him to keep fighting, according to the BBC's US partner CBS News.
3番目の文： Anxiety has gripped sections of his party following a rambling and at times incoherent performance in Atlanta.


In [50]:
words = [token.text for token in doc_en]

print("==== 単語分割:Text====")
print(words)

==== 単語分割:Text====
['Democratic', 'President', 'Joe', 'Biden', "'s", 'family', 'has', 'urged', 'him', 'to', 'ignore', 'calls', 'to', 'step', 'aside', 'following', 'his', 'disastrous', 'debate', 'against', 'Republican', 'Donald', 'Trump', '.', 'He', 'spent', 'Sunday', 'with', 'relatives', 'at', 'a', 'presidential', 'retreat', 'where', 'they', 'encouraged', 'him', 'to', 'keep', 'fighting', ',', 'according', 'to', 'the', 'BBC', "'s", 'US', 'partner', 'CBS', 'News', '.', 'Anxiety', 'has', 'gripped', 'sections', 'of', 'his', 'party', 'following', 'a', 'rambling', 'and', 'at', 'times', 'incoherent', 'performance', 'in', 'Atlanta', '.']


In [51]:
sentences = list(doc_en.sents)
first_sentence = sentences[0]
second_sentence = sentences[1]
third_sentence = sentences[2]

words_of_first_sentence = [token.text for token in first_sentence]
words_of_second_sentence = [token.text for token in second_sentence]
words_of_third_sentence = [token.text for token in third_sentence]

print(words_of_first_sentence)
print(words_of_second_sentence)
print(words_of_third_sentence)

['Democratic', 'President', 'Joe', 'Biden', "'s", 'family', 'has', 'urged', 'him', 'to', 'ignore', 'calls', 'to', 'step', 'aside', 'following', 'his', 'disastrous', 'debate', 'against', 'Republican', 'Donald', 'Trump', '.']
['He', 'spent', 'Sunday', 'with', 'relatives', 'at', 'a', 'presidential', 'retreat', 'where', 'they', 'encouraged', 'him', 'to', 'keep', 'fighting', ',', 'according', 'to', 'the', 'BBC', "'s", 'US', 'partner', 'CBS', 'News', '.']
['Anxiety', 'has', 'gripped', 'sections', 'of', 'his', 'party', 'following', 'a', 'rambling', 'and', 'at', 'times', 'incoherent', 'performance', 'in', 'Atlanta', '.']


In [52]:
print("==== 形態素解析:first_sentence (単語表記｜原型｜品詞)====")
for token in first_sentence:
    print(token.text, token.lemma_, token.pos_)

print("==== 形態素解析:second_sentence (単語表記｜原型｜品詞)====")
for token in second_sentence:
    print(token.text, token.lemma_, token.pos_)

print("==== 形態素解析:third_sentence (単語表記｜原型｜品詞)====")
for token in third_sentence:
    print(token.text, token.lemma_, token.pos_)

==== 形態素解析:first_sentence (単語表記｜原型｜品詞)====
Democratic democratic ADJ
President President PROPN
Joe Joe PROPN
Biden Biden PROPN
's 's PART
family family NOUN
has have AUX
urged urge VERB
him he PRON
to to PART
ignore ignore VERB
calls call NOUN
to to PART
step step VERB
aside aside ADV
following follow VERB
his his PRON
disastrous disastrous ADJ
debate debate NOUN
against against ADP
Republican Republican PROPN
Donald Donald PROPN
Trump Trump PROPN
. . PUNCT
==== 形態素解析:second_sentence (単語表記｜原型｜品詞)====
He he PRON
spent spend VERB
Sunday Sunday PROPN
with with ADP
relatives relative NOUN
at at ADP
a a DET
presidential presidential ADJ
retreat retreat NOUN
where where SCONJ
they they PRON
encouraged encourage VERB
him he PRON
to to PART
keep keep VERB
fighting fight VERB
, , PUNCT
according accord VERB
to to ADP
the the DET
BBC BBC PROPN
's 's PART
US US PROPN
partner partner NOUN
CBS CBS PROPN
News News PROPN
. . PUNCT
==== 形態素解析:third_sentence (単語表記｜原型｜品詞)====
Anxiety anxiety NOUN
has ha

In [53]:
print("==== 構文解析:first_sentence (単語表記--依存関係ラベル-->主辞)====")
for token in first_sentence:
    modifier = token.text
    dependency_relation = token.dep_
    head = token.head.text
    print(f'{modifier} --{dependency_relation}--> {head}')

print("==== 構文解析:second_sentence (単語表記--依存関係ラベル-->主辞)====")
for token in second_sentence:
    modifier = token.text
    dependency_relation = token.dep_
    head = token.head.text
    print(f'{modifier} --{dependency_relation}--> {head}')

print("==== 構文解析:third_sentence (単語表記--依存関係ラベル-->主辞)====")
for token in third_sentence:
    modifier = token.text
    dependency_relation = token.dep_
    head = token.head.text
    print(f'{modifier} --{dependency_relation}--> {head}')


==== 構文解析:first_sentence (単語表記--依存関係ラベル-->主辞)====
Democratic --amod--> President
President --compound--> Biden
Joe --compound--> Biden
Biden --poss--> family
's --case--> Biden
family --nsubj--> urged
has --aux--> urged
urged --ROOT--> urged
him --dobj--> urged
to --aux--> ignore
ignore --xcomp--> urged
calls --dobj--> ignore
to --aux--> step
step --relcl--> calls
aside --advmod--> step
following --prep--> ignore
his --poss--> debate
disastrous --amod--> debate
debate --pobj--> following
against --prep--> debate
Republican --compound--> Trump
Donald --compound--> Trump
Trump --pobj--> against
. --punct--> urged
==== 構文解析:second_sentence (単語表記--依存関係ラベル-->主辞)====
He --nsubj--> spent
spent --ROOT--> spent
Sunday --npadvmod--> spent
with --prep--> spent
relatives --pobj--> with
at --prep--> relatives
a --det--> retreat
presidential --amod--> retreat
retreat --pobj--> at
where --advmod--> encouraged
they --nsubj--> encouraged
encouraged --relcl--> retreat
him --dobj--> encouraged
to --aux--

In [54]:
svg = displacy.render(first_sentence,
                      style="dep",
                      options={'compact':True},
                      jupyter=True)

svg2 = displacy.render(second_sentence,
                      style="dep",
                      options={'compact':True},
                      jupyter=True)

svg3 = displacy.render(third_sentence,
                      style="dep",
                      options={'compact':True},
                      jupyter=True)

In [55]:
print("==== 固有表現認識 (NER):first_sentence ====")
for ent in first_sentence.ents:
    print(ent.text, ent.label_)

print("==== 固有表現認識 (NER):second_sentence ====")
for ent in second_sentence.ents:
    print(ent.text, ent.label_)

print("==== 固有表現認識 (NER):third_sentence ====")
for ent in third_sentence.ents:
    print(ent.text, ent.label_)

==== 固有表現認識 (NER):first_sentence ====
Democratic NORP
Joe Biden's PERSON
Republican NORP
Donald Trump PERSON
==== 固有表現認識 (NER):second_sentence ====
Sunday DATE
BBC ORG
US GPE
CBS News ORG
==== 固有表現認識 (NER):third_sentence ====
Atlanta GPE


In [56]:
svg = displacy.render(first_sentence,
                      style="ent",
                      jupyter=True)
svg2 = displacy.render(second_sentence,
                      style="ent",
                      jupyter=True)
svg3 = displacy.render(third_sentence,
                      style="ent",
                      jupyter=True)