<a href="https://colab.research.google.com/github/naoya5614/Kaggle/blob/main/Introduction_To_Natural_Language_Processing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 自然言語処理入門

# [1] 自然言語処理の基本

## 1.文字列の操作

### 1-1.スライス

In [None]:
target = 'naturallanguage'
ans  = target[5::2]
print(ans)

### 1-2.文字列を逆順に並べ換える

In [None]:
target = 'naturallanguage'
ans  = target[-5::-2]
print(ans)

### 1-3.文字列の結合

In [None]:
target = ('a', 'b', 'c', 'd', 'e')
ans = 'X'.join(target)
print(ans)

## 2.自然言語の前処理

### 2-1.正規表現

**Pythonで正規表現を使う**
```
re.findall(r'正規表現', 検索文字列)
result = re.findall(r'\d', target)
# \Dは0~9の数字以外を表し
result = re.findall(r'\D', target)
# [abc]は[]のなかのいずれかの一文字、つまりa, b, cを含む箇所の抽出を表し、大文字小文字も区別
result = re.findall(r'[abc]', target)
# -を用いて範囲を指定することも可能
result = re.findall(r'[a-c]', target)
# [の直後に^をつけ、文字の補集合を表すことが出来る。[^a-c]は小文字のa,b,c以外を表す
result = re.findall(r'[^a-c]', target)
```



### 2-2.数字・記号の置き換え

**文字列を置換する**
```
re.sub(正規表現, 置換先文字列, 対象文字列)
```
**アルファベット以外は正規表現[^a-zA-Z]で表現する**
```
text = "I bought 3 apples @ the grocery store:)"
preprocessed_text = re.sub(r'[^a-zA-Z]', ' ', text)
preprocessed_text
```

In [None]:
import re
text = "abc123"
preprocessed_text = re.sub(r'[^a-zA-Z]', '5', text)
print(preprocessed_text)

### 2-3.URLの削除

In [None]:
# モジュールのインポート
import re

# 文字列の定義
text = "click this URL: https://aaa.com/"

# 変数textからURLを削除
preprocessed_text = re.sub('https?://\S+', '', text)

# 結果の表示
print(preprocessed_text)

### 2-4.正規化

**全ての大文字を小文字に変換する**
```
テキスト.lower()
```
**日本語文字列を半角・全角変換する**
```
import mojimoji
# 全角から半角への変換
mojimoji.zen_to_han(u'ネコ')

# 半角から全角への変換
mojimoji.han_to_zen(u'ﾈｺ')
```




In [None]:
# 英語を大文字から小文字に変換
text_en = "NLP"
preprocessed_text_en = text_en.lower()
print(preprocessed_text_en)

# 日本語を全角から半角に変換
import mojimoji
text_jp ='シゼンゲンゴ'
preprocessed_text_jp = mojimoji.zen_to_han(text_jp)
print(preprocessed_text_jp)

## 3.形態素解析

### 3-1.英文のトークン化

**文章を意味の区切りの最小単位（単語）に分割する(トークン化)**
```
# スペースで分割
text = "I bought some apples."
preprocessed_text = text.split()
preprocessed_text
```
**ピリオドをスペース+ピリオドに置き換えたのち、split()で単語に分割する**
```
# replace(置換元文字列、置換先文字列)

text = "I bought some apples."
preprocessed_text = text.replace('.', ' .').split()
preprocessed_text
```



In [None]:
text = "I am studying NLP"
preprocessed_text = text.split()
print(preprocessed_text)

### 3-2.日本語のトークン化

**日本語のトークン化ツール**
```
import MeCab
m = MeCab.Tagger("-Owakati")
```
**テキストの分かち書きをする**
```
# パーサー.parse(テキスト)
print(m.parse("日本語の形態素解析は難しい。"))
```




In [None]:
# MeCabのインポート
import MeCab
# パーサーの設定
m = MeCab.Tagger("-Owakati")

text = "私は毎日コーヒーを飲みます。"
# 分かち書き
ans = m.parse(text)
print(ans)

### 3-3.日本語の形態素解析

**単語ごとの品詞を確認する**
```
# 出力は単語の文字列 読み 原形 品詞の種類 活用の種類 活用形が順に表示される
import MeCab
m = MeCab.Tagger("-Ochasen")
m.parse("日本語は難しい。")
```



In [None]:
# MeCabのインポート
import MeCab
# パーサーの設定
m = MeCab.Tagger("-Ochasen")

text = "私は毎日コーヒーを飲みます。"
# 形態素解析
ans = m.parse(text)
print(ans)

## 4.構文解析

### 4-1.係り受け解析

**各単語の係り先について決定する作業(係り受け解析)**
```
import CaboCha
c = CaboCha.Parser()
```
**係り受け解析の結果をツリー形式で表示する**
```
# パーサー.parseToString(テキスト)

tree = c.parseToString(text)
print(tree)
```




In [None]:
# CaboChaのインポート
import CaboCha
# パーサーの設定
c = CaboCha.Parser()

text = "新型コロナウイルスの感染拡大が世界的に大きな影響を与える中で、地域の現状について認識を完全に共有しました。"
# 係り受け解析を行い、ツリー形式で表示
tree = c.parseToString(text)
print(tree)

### 4-2.詳細な係り受け解析

**係り受け解析結果を、lattice形式と呼ばれるより詳細な形態にて表示する**
```
# ツリー.toString(CaboCha.FORMAT_LATTICE)

import CaboCha
c = CaboCha.Parser()
text = "太郎はこの本を二郎を見た女性に渡した。"
tree =  c.parse(text)

# lattice形式に変換して表示
print(tree.toString(CaboCha.FORMAT_LATTICE))
```



In [None]:
# CaboChaのインポート
import CaboCha
# パーサーの設定
c = CaboCha.Parser()

text = "新型コロナウイルスの感染拡大が世界的に大きな影響を与える中で、地域の現状について認識を完全に共有しました。"

# 係り受け解析を行い、lattice形式で表示
tree = c.parse(text)
ans = tree.toString(CaboCha.FORMAT_LATTICE)
print(ans)

# [2] 自然言語処理の手法（機械学習）

## 1.n-gram

### 1-1.n-gram

```
文章を連続するN個の文字、もしくはN個の単語単位で単語を切り出す手法
```

## 2.Bag of Words

### 2-1.Bag of Words(BoW)

```
文章を含まれる単語とその頻度により表現する手法
```
**文章をベクトル化する**
```
from sklearn.feature_extraction.text import CountVectorizer

# ベクトル化する文章
corpus = [
     'This is the first document.',
     'This document is the second document.',
     'And this is the third one.',
     'Is this the first document?',
 ]
```
**corpus内部の単語の出現回数をカウントする**
```
bow_vectorizer = CountVectorizer()
bow_vectorizer.fit(corpus)
```
**出現単語とidを辞書型で表示する**
```
print(bow_vectorizer.vocabulary_)
```
**corpusをベクトルに変換する**
```
# 出力は疎行列ですが、X.toarray()でnumpy.ndarrayに変換する
X = bow_vectorizer.transform(corpus)
print(X.toarray())
```
**出現回数の順に並んだ行列の列名を確認する**
```
print(bow_vectorizer.get_feature_names())
```








In [None]:
# CountVectorizerのインポート
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
     'I go to work by bus.',
     'The bus is always crowded.',
     'You will stay by my side.',
]

# CountVectorizerのインスタンス化
bow_vectorizer = CountVectorizer()
# fit
bow_vectorizer.fit(corpus)
print("corpus内の単語:", bow_vectorizer.vocabulary_)

# テキストの変換
X = bow_vectorizer.transform(corpus)
print("出力ベクトル", X.toarray())
print("出力ベクトルの形状", X.shape)
print("出力ベクトルの列名:", bow_vectorizer.get_feature_names())

## 3.tf-idf

### 3-1.tf-idfのアルゴリズム

**tf**
```
*   単語の文章内の出現頻度をカウント
```
**idf**
```
*   ある単語が出てくる文書頻度の逆数
*   多くの文書に出てくる単語は重要度が低いことを意味する
```




### 3-2.tf-idfの使用方法

**tf-idfの計算をする**
```
# モジュールのimport、文書A, Bの定義
from sklearn.feature_extraction.text import TfidfVectorizer
documentA = 'the man went out for a walk'
documentB = 'the children sat around the fire'

# 文書A, Bの変換をする
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform([documentA, documentB])
type(vectors)
```
**疎行列を密行列に変換する**
```
dense = vectors.todense()
feature_names = vectorizer.get_feature_names()
```
**見やすくするためにpandasのデータフレーム型にする**
```
import pandas as pd

denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names)
```





In [None]:
# TfidfVectorizerのインポート
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# 文書の定義
documentA = 'the man went out for a walk'
documentB = 'the children sat around the fire'

# TfidfVectorizerのインスタンス化し、vectorizerと命名
vectorizer = TfidfVectorizer()

# documentA,Bのfit、変換を行い、変数vectorsに代入
vectors = vectorizer.fit_transform([documentA, documentB])

# vectorizer内の単語リストを取得
feature_names = vectorizer.get_feature_names()

# 取得した単語リストの表示
print(feature_names)

# 変数vectorsを密行列に変換
dense = vectors.todense()

#　リストに変換し、データフレーム型に変換
denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names)

# データフレームの表示
print(df)

## 4.LDA

### 4-1.LDA

**トピックモデル**
```
文書がどのようなトピック（分野など）から、どのような割合で構成されているかについて推定するアルゴリズムであり、教師なし分類モデル
```
**LDA(Latent Dirichlet Allocation)**
```
*   トピック数kを仮定する
*   各単語にトピックを割り当てることで、これらのk個のトピックを文書mに分散させる (この分散をαとする）
*   文書mの各単語wについて、そのトピックは間違っているが、他のすべての単語には正しいトピックが割り当てられていると仮定する
*   文書mにどのようなトピックがあるか、すべての文書で単語wが特定のトピックに割り当てられた回数 (この分布をβとする）に基づき、確率的に単語をトピックに割り当てる
```

### 4-2.LDAの使用方法

**単語とその単語の整数で表されたidのマッピングを作成するモジュールを読み込む**
```
import gensim
from gensim import corpora
```
**解析対象の文書を用意する**
```
documents = ["I quickly put on my red winter jacket, black snow pants, waterproof boots, homemade mittens, and handknit scarf",
              "The incessant ticking and chiming echoed off the weathered walls of the clock repair shop",
              "Nervously, I unfolded the wrinkled and stained letter from my long-dead ancestor",
              "Into the suitcase, I carelessly threw a pair of ripped jeans, my favorite sweater from high school, an old pair of tube socks with stripes, and $20,000 in cash",
              "The mangy, scrawny stray dog hurriedly gobbled down the grain-free, organic dog food",
              "The truth is that, apart from breaking news, the modern media will not report anything much after 5 pm",
              "In terms of the number of people involved, it was a major disaster, and some of us followed the regular daily news bulletins",
              "The first reports only a few weeks after this devastating earthquake reveal that tourist bookings have dropped drastically",
              "Low-lying Louisiana stands to suffer some inundation if climate change projections come true"]
```
**各文書を大文字から小文字に変換することで正規化を行い、スペースで単語に分割する**
```
# ストップワードの指定
stop_words = ['a','the', 'and', 'this', 'that',  'have', 'of']
# 正規化、トークン化、stopwordsの削除
texts = [[word for word in document.lower().split() if word not in stop_words] for document in documents]
#一つ目の文章の前処理結果を確認
print(texts[0])
```
**単語id・出現頻度の情報を持つ配列に変換する**
```
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
print(corpus[0])
```






**LDAによる解析を行う**
```
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=3, id2word=dictionary)
# 1つ目のトピックを確認
print(lda.show_topics()[0])

# 新たな文書のトピックを解析する
test_documents = ["Millions of years ago, changes in the earth's climate caused animal and plant life to diversify."]

# 前処理を行い、作成した辞書を適用する
# 前処理
test_texts = [[word for word in document.lower().split()] for document in test_documents]

# 作成した辞書を適用
test_corpus = [dictionary.doc2bow(text) for text in test_texts]

# LDAの適用結果を見る
for topics in lda[test_corpus]:
    print(topics)
```



In [None]:
# gensimのインポート
import gensim
from gensim import corpora

# 文書の定義
documents = ["I quickly put on my red winter jacket, black snow pants, waterproof boots, homemade mittens, and handknit scarf",
              "The incessant ticking and chiming echoed off the weathered walls of the clock repair shop",
              "Nervously, I unfolded the wrinkled and stained letter from my long-dead ancestor",
              "Into the suitcase, I carelessly threw a pair of ripped jeans, my favorite sweater from high school, an old pair of tube socks with stripes, and $20,000 in cash",
              "The mangy, scrawny stray dog hurriedly gobbled down the grain-free, organic dog food",
              "The truth is that, apart from breaking news, the modern media will not report anything much after 5 pm",
              "In terms of the number of people involved, it was a major disaster, and some of us followed the regular daily news bulletins",
              "The first reports only a few weeks after this devastating earthquake reveal that tourist bookings have dropped drastically",
              "Low-lying Louisiana stands to suffer some inundation if climate change projections come true"]

# ストップワードの指定
stop_words = ['a','the', 'and', 'this', 'that',  'have', 'of']

# 正規化、トークン化
texts = [[word for word in document.lower().split() if word not in stop_words] for document in documents]

# textsを単語id, 単語, 単語出現回数の情報を持つ辞書型データに変換
dictionary = corpora.Dictionary(texts)

# textsを単語id・出現頻度の情報を持つ配列
corpus = [dictionary.doc2bow(text) for text in texts]

# モデルの設定
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=3, id2word=dictionary)
# 1番目の文章のトピックを表示
print("1番目の文章のトピック:", lda.show_topics()[0])

# 新たな文書のトピックを判定
test_documents = ["Millions of years ago, changes in the earth's climate caused animal and plant life to diversify."]

# 単語を分割
test_texts = [[word for word in document.lower().split()] for document in test_documents]

# 既存の辞書を使用して、コーパスを作成
test_corpus = [dictionary.doc2bow(text) for text in test_texts]

# トピックを表示
for topics_per_document in lda[test_corpus]:
    print("新しい文書のトピック:", topics_per_document)

## 5.Word2Vec

### 5-1.Word2Vecのアルゴリズム

```
指定された次元の空間で単語を表現するアルゴリズム
```
**単語の分散表現(word embedding)**
```
単語を高次元の実数ベクトルで表現する技術
```




### 5-2.Word2Vecの使用方法

```
from gensim.models import Word2Vec
```
**解析に使う文書を用意し、前処理を行う**
```
documents = ["I quickly put on my red winter jacket, black snow pants, waterproof boots, homemade mittens, and handknit scarf",
              "The incessant ticking and chiming echoed off the weathered walls of the clock repair shop",
              "Nervously, I unfolded the wrinkled and stained letter from my long-dead ancestor",
              "Into the suitcase, I carelessly threw a pair of ripped jeans, my favorite sweater from high school, an old pair of tube socks with stripes, and $20,000 in cash",
              "The mangy, scrawny stray dog hurriedly gobbled down the grain-free, organic dog food",
              "The truth is that, apart from breaking news, the modern media will not report anything much after 5 pm",
              "In terms of the number of people involved, it was a major disaster, and some of us followed the regular daily news bulletins",
              "The first reports only a few weeks after this devastating earthquake reveal that tourist bookings have dropped drastically",
              "Low-lying Louisiana stands to suffer some inundation if climate change projections come true"]

# 前処理
texts = [[word for word in document.lower().split()] for document in documents]
```
**Word2Vecモデルの主要なパラメータ**
```
sg	1はskip-gram, 0がCBOW
size	隠れ層の次元
window	コンテクストとして認識する前後の単語数を指定
min_count	指定の数以下の出現回数の単語は無視する
```
**Word2Vec実装例**
```
model = Word2Vec(texts,  sg=0, size=10, window=5, min_count=1)
```
**意味が近い単語が表示する**
```
print(model.most_similar('news'))
```

In [None]:
# Word2Vecのインポート
from gensim.models import Word2Vec

documents = ["I quickly put on my red winter jacket, black snow pants, waterproof boots, homemade mittens, and handknit scarf",
              "The incessant ticking and chiming echoed off the weathered walls of the clock repair shop",
              "Nervously, I unfolded the wrinkled and stained letter from my long-dead ancestor",
              "Into the suitcase, I carelessly threw a pair of ripped jeans, my favorite sweater from high school, an old pair of tube socks with stripes, and $20,000 in cash",
              "The mangy, scrawny stray dog hurriedly gobbled down the grain-free, organic dog food",
              "The truth is that, apart from breaking news, the modern media will not report anything much after 5 pm",
              "In terms of the number of people involved, it was a major disaster, and some of us followed the regular daily news bulletins",
              "The first reports only a few weeks after this devastating earthquake reveal that tourist bookings have dropped drastically",
              "Low-lying Louisiana stands to suffer some inundation if climate change projections come true"]

# 大文字を小文字に変換し、単語に分割
texts = [[word for word in document.lower().split()] for document in documents]

#モデルの作成
model = Word2Vec(texts, sg=0, size=10, window=5, min_count=1)

# newsに最も近い単語は？
print(model.most_similar('news'))

# [3] 自然言語処理の実践（映画レビュー分類）

## 1.データの読み込みと目的変数の数値化

### 1-1.データの読み込み

**先頭の5行を表示する**
```
import pandas as pd

df = pd.read_csv('IMDB Dataset.csv')
print(df.head(5))
```



In [None]:
import pandas as pd

df = pd.read_csv('IMDB Dataset.csv')
print(df.head(5))

### 1-2.目的変数の分布の確認

**列に入っているカテゴリごとにデータ数をカウントする**
```
df['sentiment'].value_counts()
```



In [None]:
# sentiment列に入っているカテゴリごとにデータ数をカウント
print(df['sentiment'].value_counts())

### 1-3.カテゴリ変数の数値化

**カテゴリを数値に変換する**
```
labels = df['sentiment'].apply(lambda x: 0 if x == 'negative' else 1)
```

In [None]:
labels = df['sentiment'].apply(lambda x: 0 if x == 'negative' else 1)

## 2.前処理

### 2-1.前処理

**各文章について以下の処置を施す**
```
*   URL部分を削除する
*   記号や数字を削除する
*   正規化（大文字を小文字に変換する）
*   文末のピリオドをスペース+ピリオドに変換したのち、文章をスペースごとに単語に分解する
*   分解した単語を繋げる
```
**分割後再びスペースで単語を繋げ、文章に戻す**
```
import re
from sklearn.feature_extraction import text

def cleaning(text):    
    #URL部分の削除
    text = re.sub('https?://\S+|www\.\S+', '', text)
    #記号や数字を削除
    text = re.sub("[^a-zA-Z]", " ", text)
    #正規化（大文字を小文字に変換）
    text  = text.lower()
    #文末のピリオドをスペース+ピリオドに変換したのち、文章をスペースごとに単語に分解する
    text = text.replace('.', ' .').split()
    #分解した単語を繋げる
    text = " ".join(text)
    return text

clean_text = df['review'].map(cleaning)
```
**前処理前の文章と前処理後の文章を比較する**
```
#前処理前
df['review'][0]

#前処理後
clean_text[0]
```

In [None]:
import pandas as pd
import re
from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS

df = pd.read_csv('IMDB Dataset.csv')

#クリーニング用関数作成
def cleaning(text):
    text = re.sub('https?://\S+|www\.\S+', '', text) #URLの削除
    text = re.sub("[^a-zA-Z]", " ", text) #記号・数字の削除
    text  = text.lower() #大文字を小文字に変換
    text = text.replace('.', ' .').split() #トークン化
    text = " ".join(text)
    return text

#df['review']全体にcleaning関数の処理を行う
clean_text = df['review'].map(cleaning)

## 3.Bag of Words

### 3-1.Bag of Wordsの映画レビューデータセットへの適用

**ベクトル化する**
```
# CountVectorizerをインポート
from sklearn.feature_extraction.text import CountVectorizer
# max_featuresを指定してインスタンス化
bow_vectorizer = CountVectorizer(max_features = 3000) 
# fit, transformを一括で行う
bow = bow_vectorizer.fit_transform(clean_text)
# 出力の形状を確認
print(bow.shape)
```



In [None]:
from sklearn.feature_extraction.text import CountVectorizer
bow_vectorizer = CountVectorizer(max_features = 3000) 
bow = bow_vectorizer.fit_transform(clean_text)
print("得られたベクトルの形状:", bow.shape)

## 4.モデリング

### 4-1.学習用・評価用データの分割

**学習用データと評価用データの分割する**
```
train_X, test_X, train_y, test_y = train_test_split(説明変数, 目的変数, test_size = 数値)
```
**分割比率（評価用データの割合）を指定する**
```
from sklearn.model_selection import train_test_split
x_bow_train, x_bow_test, y_bow_train, y_bow_test = train_test_split(bow, labels, test_size=0.5, random_state=42)
```

In [None]:
from sklearn.model_selection import train_test_split
x_bow_train, x_bow_test, y_bow_train, y_bow_test = train_test_split(bow, labels, test_size=0.5)

### 4-2.モデルの学習・予測

**XGBoost(eXtreme Gradient Boosting) **
```
決定木を複数組み合わせて総合的に結果を出す勾配ブースティングアルゴリズムの先進的な実装例で、データサイエンスのコンペでよく使われる手法
```
**決定木**
```
*   質問に対する分岐を階層的に作ることで判別を行うモデル
*   予測が非常に高速
*   基本的に2択の分岐が繰り返される構造のため、可視化が可能で、人間が理解しやすい（ただし木が大きくなると理解が難しくなる）
*   数値データとカテゴリデータが混在していても適用可能
```
**XGBClassifierをインポート**
```
# max_depthで木の深さの上限、n_estimatorsで学習ラウンド数、n_jobsで計算時の並列スレッド数を指定する
# XGBClassifierをインポート
from xgboost import XGBClassifier

# モデルの設定
mod = XGBClassifier(max_depth=6, n_estimators=5000, n_jobs=-1)
#　学習
mod.fit(x_bow_train, y_bow_train)
```
**モデルの推論を行う**
```
pred = mod.predict(x_bow_test)
```





In [None]:
from xgboost import XGBClassifier

mod = XGBClassifier(max_depth=6, n_estimators=5000, n_jobs=-1)
mod.fit(x_bow_train, y_bow_train)
pred = mod.predict(x_bow_test)

### 4-3.モデルの評価

**混同行列を出力する**
```
from sklearn.metrics import confusion_matrix, classification_report
# 混同行列の出力
conf_mx = confusion_matrix(y_bow_test, pred)
```
**混同行列をpandasのデータフレーム形式に直す**
```
label_name = ['negative', 'positive']
conf_df = pd.DataFrame(data=conf_mx, index=[x + "(act)" for x in label_name], columns=[x + "(pred)" for x in label_name])
conf_df
```




In [None]:
# confusion_matrixをインポート
from sklearn.metrics import confusion_matrix
import pandas as  pd

# 混同行列の作成
conf_mx = confusion_matrix(y_bow_test, pred)

# データフレームに結果を格納
label_name = ['negative', 'positive']
conf_df = pd.DataFrame(data=conf_mx, index=[x + "(act)" for x in label_name], columns=[x + "(pred)" for x in label_name])

# データフレームに変換した混同行列を表示
print(conf_df)