<a href="https://colab.research.google.com/github/hsswkwk/turbo-chainsaw/blob/feature-add-nlp/notebooks/nlp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 自然言語処理（Natural language processing, NLP）
人間の言語をコンピュータに理解させ、様々な処理を行わせるための技術。
<br>

## 単語分割
テキストを単語や文節といった意味を持つ最小単位に分けるプロセス。

### 形態素解析
テキストを単語や文節などの意味を持つ最小単位（形態素）に分割する。JanomeやMeCabといったライブラリが使われる。

### N-gram解析
テキストをn個連続する文字や単語の並びとして分割する手法。<br>
例）「自然言語処理」というテキストを2-gramで分割すると、「自然」「然言」「言語」「語処」「処理」

<br>

## 構文解析
単語分割によって分けられた単語や文節が、文中でどのような文法的な関係にあるかを解析し、文全体の構造を明らかにするプロセス。CaboChaやGinza、Stanzaといったライブラリが使われる。

### 係り受け解析
文中の単語や文節間の修飾・被修飾の関係（どの単語がどの単語にかかっているか）を明らかにする。

### 句構造解析
文を、名詞句、動詞句、形容詞句などの句に分解し、それぞれの句がどのように階層的に構成されているかを解析する。

<br>

## 意味解析
構文解析によって明らかになった文の構造や、単語そのものが持つ意味に基づいて、文全体の意味を理解するプロセス。

### 語彙意味論
個々の単語が持つ意味や、単語間の意味的な関係性（同義語、類義語、上位語、下位語など）を扱う。WordNetのような意味辞書や、Word2Vec、fastTextのような単語の分散表現（単語の意味をベクトルで表現する手法）が用いられる。

### 語義曖昧性解消
文脈の中で複数の意味を持ちうる単語（多義語）が、具体的にどの意味で使用されているかを解析する。

### 述語項構造解析
文中の動詞（述語）に対して、その動詞が要求する要素（誰が、何を、いつ、どこで、どのようになど）を特定し、それぞれの要素が文中のどの単語や句に対応するのかを解析する。

### BERT
Googleが開発した自然言語処理のためのTransformerベースの強力な事前学習済みモデル。
BERTはテキストを双方向に処理していて単語の周囲の文脈全体をより深く理解できる。また、大量のテキストデータを用いて、Masked Language Model (MLM)、Next Sentence Prediction (NSP)を学習する。

#### Masked Language Model (MLM)
入力文の一部の単語をマスク（隠す）し、マスクされた単語を予測するように学習する。

#### Next Sentence Prediction (NSP)
2つの文の関係性（次の文かどうか）を予測するように学習する。

<br>

## 文脈解析
文や単語が置かれている文脈、つまり前後の文章や周囲の単語、あるいは会話や文書全体といったより広範な情報を考慮して、その意味や意図を理解するプロセス。spaCy、Hugging Face Transformers、AllenNLP、Flairといったライブラリが使われる。
<br>
文脈解析は以下のような場面で必要となる。
#### 多義語の解消
文脈によって意味が変わる単語の正しい意味を特定する。

#### 代名詞の参照解決
「彼」「彼女」「それ」といった代名詞が、文中のどの名詞を指しているのかを特定する。

#### 省略の補完
会話や文章で省略されている情報を、文脈から推測して補完する。

#### 発話意図の理解
単に発言内容だけでなく、その発言の裏にある意図（質問、指示、皮肉など）を理解する。

<br>

## 感情分析
テキストデータに含まれる感情、意見、態度などの主観的な情報を抽出・分析するプロセス。TextBlob、VaderSentiment、Flairといったライブラリが使われる。

#### ルールベースのアプローチ
感情を示す単語やフレーズの辞書を作成し、それに基づいて感情を判断する。

#### 機械学習ベースのアプローチ
大量の感情ラベル付きデータを用いて、感情分類モデルを学習させる。

#### ハイブリッドアプローチ
ルールベースと機械学習ベースのアプローチを組み合わせる。

<br>

## トピック分析
大量のテキストデータから、そのデータに含まれる主要なトピック（話題）を抽出するプロセス。Gensim、sklearnといったライブラリが使われる。

### 潜在ディリクレ配分法 (Latent Dirichlet Allocation, LDA)
文書群の中に隠れたテーマ構造を発見するために用いられる確率的トピックモデリング手法。

<br>


In [1]:
# spaCyを使用した文章の要約

!pip install -U spacy
!pip install spacy[ja]
!pip install ja-ginza

import collections
import numpy as np
import pandas as pd
import spacy

# モデルのロード
nlp = spacy.load("ja_ginza")

# spaCyを使った処理の例
text = "これはテストの文章です。"
doc = nlp(text)

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.dep_)

<module 'numpy.version' from '/usr/local/lib/python3.11/dist-packages/numpy/version.py'>
これ これ PRON nsubj
は は ADP case
テスト テスト NOUN nmod
の の ADP case
文章 文章 NOUN ROOT
です です AUX cop
。 。 PUNCT punct
