# 本ノートブックの目的
自然言語処理により文章を分析するための技術検証を行う。

## 感情分析
文章のポジティブ・ネガティブを分析する。

In [17]:
from transformers import pipeline
import fugashi
from pprint import pprint

In [18]:
# モデル構築
text_classification_pipeline = pipeline(
    model="llm-book/bert-base-japanese-v3-marc_ja"
)

In [4]:
positive_text = "世界には言葉がわからなくても感動する音楽がある。"
# positive_textの極性を予測
print(text_classification_pipeline(positive_text)[0])

{'label': 'positive', 'score': 0.9993619322776794}


In [10]:
negative_text = "私は今日は仕事にやる気が出ないです。"
# positive_textの極性を予測
before = time.time()
print(text_classification_pipeline(negative_text)[0])
after = time.time()
print("it took {}sec".format(after - before))

{'label': 'negative', 'score': 0.9925611615180969}
it took 10.234767198562622sec


## 要約生成

In [13]:
# モデル構築
text2text_pipeline = pipeline(
    model="llm-book/t5-base-long-livedoor-news-corpus"
)

Downloading (…)neration_config.json:   0%|          | 0.00/142 [00:00<?, ?B/s]

Downloading spiece.model:   0%|          | 0.00/798k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/2.43M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

今夜はNHKスペシャル「世界を変えた男 スティーブ・ジョブズ」をチェック!


In [14]:
# articleの要約を生成
article = "ついに始まった３連休。テレビを見ながら過ごしている人も多いのではないだろうか？　今夜オススメなのは何と言っても、NHKスペシャル「世界を変えた男 スティーブ・ジョブズ」だ。実は知らない人も多いジョブズ氏の養子に出された生い立ちや、アップル社から一時追放されるなどの経験。そして、彼が追い求めた理想の未来とはなんだったのか、ファンならずとも気になる内容になっている。 今年、亡くなったジョブズ氏の伝記は日本でもベストセラーになっている。今後もアップル製品だけでなく、世界でのジョブズ氏の影響は大きいだろうと想像される。ジョブズ氏のことをあまり知らないという人もこの機会にぜひチェックしてみよう。 世界を変えた男　スティーブ・ジョブズ（NHKスペシャル）"
before = time.time()
print(text2text_pipeline(article)[0]["generated_text"])
after = time.time()
print("it took {}sec".format(after - before))

今夜はNHKスペシャル「世界を変えた男 スティーブ・ジョブズ」をチェック!
it took 131.39983487129211sec


## 固有表現認識

In [15]:
# モデル構築
ner_pipeline = pipeline(
    model="llm-book/bert-base-japanese-v3-ner-wikipedia-dataset",
    aggregation_strategy="simple",
)

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.93k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/443M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/529 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/231k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

In [19]:
text = "大谷翔平は岩手県水沢市出身のプロ野球選手"
# text中の固有表現を抽出
before = time.time()
pprint(ner_pipeline(text))
after = time.time()
print("it took {}sec".format(after - before))

[{'end': None,
  'entity_group': '人名',
  'score': 0.99823624,
  'start': None,
  'word': '大谷 翔平'},
 {'end': None,
  'entity_group': '地名',
  'score': 0.9986874,
  'start': None,
  'word': '岩手 県 水沢 市'}]
it took 12.459259748458862sec
