<a href="https://colab.research.google.com/github/hsswkwk/turbo-chainsaw/blob/feature-add-nlp/notebooks/nlp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 自然言語処理（Natural language processing, NLP）
人間の言語をコンピュータに理解させ、様々な処理を行わせるための技術。
<br>

## 単語分割
テキストを単語や文節といった意味を持つ最小単位に分けるプロセス。

### 形態素解析
テキストを単語や文節などの意味を持つ最小単位（形態素）に分割する。JanomeやMeCabといったライブラリが使われる。

### N-gram解析
テキストをn個連続する文字や単語の並びとして分割する手法。<br>
例）「自然言語処理」というテキストを2-gramで分割すると、「自然」「然言」「言語」「語処」「処理」

<br>

## 構文解析
単語分割によって分けられた単語や文節が、文中でどのような文法的な関係にあるかを解析し、文全体の構造を明らかにするプロセス。CaboChaやGinza、Stanzaといったライブラリが使われる。

### 係り受け解析
文中の単語や文節間の修飾・被修飾の関係（どの単語がどの単語にかかっているか）を明らかにする。

### 句構造解析
文を、名詞句、動詞句、形容詞句などの句に分解し、それぞれの句がどのように階層的に構成されているかを解析する。

<br>

## 意味解析
構文解析によって明らかになった文の構造や、単語そのものが持つ意味に基づいて、文全体の意味を理解するプロセス。

### 語彙意味論
個々の単語が持つ意味や、単語間の意味的な関係性（同義語、類義語、上位語、下位語など）を扱う。WordNetのような意味辞書や、Word2Vec、fastTextのような単語の分散表現（単語の意味をベクトルで表現する手法）が用いられる。

### 語義曖昧性解消
文脈の中で複数の意味を持ちうる単語（多義語）が、具体的にどの意味で使用されているかを解析する。

### 述語項構造解析
文中の動詞（述語）に対して、その動詞が要求する要素（誰が、何を、いつ、どこで、どのようになど）を特定し、それぞれの要素が文中のどの単語や句に対応するのかを解析する。

### BERT
Googleが開発した自然言語処理のためのTransformerベースの強力な事前学習済みモデル。
BERTはテキストを双方向に処理していて単語の周囲の文脈全体をより深く理解できる。また、大量のテキストデータを用いて、Masked Language Model (MLM)、Next Sentence Prediction (NSP)を学習する。

#### Masked Language Model (MLM)
入力文の一部の単語をマスク（隠す）し、マスクされた単語を予測するように学習する。

#### Next Sentence Prediction (NSP)
2つの文の関係性（次の文かどうか）を予測するように学習する。

<br>

## 文脈解析
文や単語が置かれている文脈、つまり前後の文章や周囲の単語、あるいは会話や文書全体といったより広範な情報を考慮して、その意味や意図を理解するプロセス。spaCy、Hugging Face Transformers、AllenNLP、Flairといったライブラリが使われる。
<br>
文脈解析は以下のような場面で必要となる。
#### 多義語の解消
文脈によって意味が変わる単語の正しい意味を特定する。

#### 代名詞の参照解決
「彼」「彼女」「それ」といった代名詞が、文中のどの名詞を指しているのかを特定する。

#### 省略の補完
会話や文章で省略されている情報を、文脈から推測して補完する。

#### 発話意図の理解
単に発言内容だけでなく、その発言の裏にある意図（質問、指示、皮肉など）を理解する。

<br>

## 感情分析
テキストデータに含まれる感情、意見、態度などの主観的な情報を抽出・分析するプロセス。TextBlob、VaderSentiment、Flairといったライブラリが使われる。

#### ルールベースのアプローチ
感情を示す単語やフレーズの辞書を作成し、それに基づいて感情を判断する。

#### 機械学習ベースのアプローチ
大量の感情ラベル付きデータを用いて、感情分類モデルを学習させる。

#### ハイブリッドアプローチ
ルールベースと機械学習ベースのアプローチを組み合わせる。

<br>

## トピック分析
大量のテキストデータから、そのデータに含まれる主要なトピック（話題）を抽出するプロセス。Gensim、sklearnといったライブラリが使われる。

### 潜在ディリクレ配分法 (Latent Dirichlet Allocation, LDA)
文書群の中に隠れたテーマ構造を発見するために用いられる確率的トピックモデリング手法。

<br>

## 応用
* テキストの要約
* 機械翻訳
* 文章生成
* 質問応答
* 情報抽出
* 文字変換予測
など

In [1]:
# spaCy
# https://spacy.io
#
# 効率的な自然言語処理（NLP）パイプラインを構築するために設計されたライブラリ
#
# * 75以上の言語をサポート
# * 25言語に対応する84の学習済みパイプライン
# * BERTなどの事前学習済みトランスフォーマーを使用したマルチタスク学習
# * 事前学習済み単語ベクトル
# * 最先端の速度
# * 本番環境で使用可能な学習システム
# * 言語学的に動機付けられたトークン化
# * 固有表現抽出、品詞タグ付け、依存関係解析、文分割、テキスト分類、見出し語化、形態素解析、エンティティリンクなどのコンポーネント
# * カスタムコンポーネントと属性で簡単に拡張可能
# * PyTorch、TensorFlow、その他のフレームワークのカスタムモデルをサポート
# * 構文とNER用のビジュアライザーを内蔵
# * モデルのパッケージ化、デプロイ、ワークフロー管理が容易
# * 堅牢で厳密に評価された精度
#
!pip install -U spacy -q
!pip install spacy[ja] -q
!pip install ja-ginza -q

import collections
import networkx as nx
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import spacy
from spacy.tokens import Doc


nlp = spacy.load("ja_ginza")


# https://news.yahoo.co.jp/articles/a4642672635a37b14522e345769da9e9bad89c1e
text = """
人気キャラクター「ちいかわ」のおもちゃが付くマクドナルドのハッピーセットを転売目的で購入する人が多発し、キャンペーンが早期終了となった。
桜美林大学准教授の西山守さんは「最近のハッピーセットの特典は大人ウケを狙ったものや、ハンバーガーの価値を超えたものが多く見受けられる。
『お子さまセット』としての原点に立ち返るべきではないか」という――。
■ハッピーセットが前倒しで終了
日本マクドナルドは5月24日、ハッピーセットの「マインクラフト ザ・ムービー」「ちいかわ」第2弾の早期終了を発表した。同時に5月30日から開始予定の第3弾の中止も発表している。
第1弾は5月16日に販売を開始したが、顧客が殺到し、わずか3日後の19日に販売終了した。転売が相次いだり、セットメニューと思しき商品が大量廃棄されたりする問題も起こっていた。
第2弾においても、フリマサイトで大量の転売が起きるに至っている。
なぜ、マクドナルドは第1弾のトラブルを知りながら、十分な対応を取ることができなかったのだろうか？　今後、こうしたことが起こらないためには、どのような対策を講じるべきなのだろうか？
■過去の教訓は活かせなかったのか？
先述の通り、第2弾で起きた買い占めや転売の問題は、すでに第1弾でも起きている。
第2弾開始の際は、“1人4セット”という制限を設け、「転売または再販売、その他営利を目的としたご購入はお控えください」といった周知を行ったが、効果は限定的だったようだ。
この対応は、実は第1弾と同じであり、それを第2弾で改めて広く周知したに過ぎない。購入数を1人あたり1セットなり、2セットに減らすなり、販売対象を子供に限定するなりの対応が取れなかったのだろうか？
そうすれば、買い占めや転売にも手間がかかるので、一定の効果を上げることはできたのではないかと思う。
第2弾開始までの期間が短いため、購入条件に変更を加えることが難しかったのかもしれない。マクドナルドの店舗数は、日本全国で約3000店もある。全店舗津々浦々に変更を周知し、
十全な対応をするのは容易なことではなかったのではないだろうか。
ただ、マクドナルド側で何らかの対策を講じることはできなかっただろうかという疑問は残される。
"""


In [2]:
# spaCyを使用したキーワード抽出
# 参考: https://qiita.com/automation2025/items/4cf2d5bf7276f05ed665#%E7%AC%AC12%E7%AB%A0-%E3%82%AD%E3%83%BC%E3%83%AF%E3%83%BC%E3%83%89%E6%8A%BD%E5%87%BA

def preprocess(nlp, text):
    doc = nlp(text)
    return " ".join([token.lemma_ for token in doc if not token.is_stop and token.pos_ != "PUNCT"])

preprocessed_text = preprocess(nlp, text)
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform([preprocessed_text])

feature_names = vectorizer.get_feature_names_out()
feature_index = tfidf_matrix[0,:].nonzero()[1]
tfidf_scores = zip(feature_index, [tfidf_matrix[0, x] for x in feature_index])
for word, score in [(feature_names[i], s) for (i, s) in tfidf_scores]:
  print(f"\t{word}: {score:.3f}")


	人気: 0.050
	キャラクター: 0.050
	ちい: 0.100
	おもちゃ: 0.050
	付く: 0.050
	マクドナルド: 0.249
	ハッピー: 0.199
	セット: 0.448
	転売: 0.299
	目的: 0.100
	購入: 0.199
	多発: 0.050
	キャンペーン: 0.050
	早期: 0.100
	終了: 0.199
	桜美林大学: 0.050
	准教授: 0.050
	西山: 0.050
	最近: 0.050
	特典: 0.050
	大人: 0.050
	ウケ: 0.050
	狙う: 0.050
	ハンバーガー: 0.050
	価値: 0.050
	超える: 0.050
	多い: 0.050
	見受ける: 0.050
	お子さま: 0.050
	原点: 0.050
	立ち返る: 0.050
	前倒し: 0.050
	日本: 0.100
	24: 0.050
	マイン: 0.050
	クラフト: 0.050
	ムービー: 0.050
	発表: 0.100
	同時: 0.050
	30: 0.050
	開始: 0.199
	予定: 0.050
	中止: 0.050
	16: 0.050
	販売: 0.149
	顧客: 0.050
	殺到: 0.050
	わずか: 0.050
	19: 0.050
	次ぐ: 0.050
	だり: 0.050
	メニュー: 0.050
	思し: 0.050
	商品: 0.050
	大量: 0.100
	廃棄: 0.050
	問題: 0.100
	起こる: 0.100
	フリマ: 0.050
	サイト: 0.050
	起きる: 0.149
	至る: 0.050
	なぜ: 0.050
	トラブル: 0.050
	知る: 0.050
	十分: 0.050
	対応: 0.199
	取る: 0.050
	今後: 0.050
	どのような: 0.050
	対策: 0.100
	講じる: 0.100
	過去: 0.050
	教訓: 0.050
	活かせる: 0.050
	先述: 0.050
	通り: 0.050
	買い占め: 0.100
	すでに: 0.050
	1人: 0.100
	制限: 0.050
	設ける: 0.050
	再販売: 0.050
	営利: 0.050
	控える: 0.050
	くださる:

In [3]:
# spaCyを使用した文章の要約
# 参考: https://qiita.com/automation2025/items/4cf2d5bf7276f05ed665
def textrank_summarize(nlp, text, num_sentences=3):
    doc = nlp(text)
    sentences = [sent.text.strip() for sent in doc.sents]

    # 文同士の類似度を計算
    similarity_matrix = np.zeros((len(sentences), len(sentences)))
    for i, sent1 in enumerate(sentences):
        for j, sent2 in enumerate(sentences):
            if i != j:
                similarity_matrix[i][j] = nlp(sent1).similarity(nlp(sent2))

    # グラフを作成
    nx_graph = nx.from_numpy_array(similarity_matrix)
    scores = nx.pagerank(nx_graph)

    # スコアの高い文を抽出
    ranked_sentences = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
    summary = " ".join([ranked_sentences[i][1] for i in range(min(num_sentences, len(ranked_sentences)))])

    return summary


summary = textrank_summarize(nlp, text)
print("要約:")
print(summary)

  similarity_matrix[i][j] = nlp(sent1).similarity(nlp(sent2))


要約:
なぜ、マクドナルドは第1弾のトラブルを知りながら、十分な対応を取ることができなかったのだろうか？ 第2弾開始の際は、“1人4セット”という制限を設け、「転売または再販売、その他営利を目的としたご購入はお控えください」といった周知を行ったが、効果は限定的だったようだ。 第2弾開始までの期間が短いため、購入条件に変更を加えることが難しかったのかもしれない。
