<a href="https://colab.research.google.com/github/davidson00000/NLP_BERT/blob/main/BERT1_Introduction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# BERT入門　/ プロ集団に学ぶ新世代の自然言語処理
## １章　NLPの基礎知識
### NLPとは
### 機械学習とは？

In [None]:
## 形態素解析
## ディープラーニング以前の自然言語処理
!pip install janome


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting janome
  Downloading Janome-0.4.2-py2.py3-none-any.whl (19.7 MB)
[K     |████████████████████████████████| 19.7 MB 1.2 MB/s 
[?25hInstalling collected packages: janome
Successfully installed janome-0.4.2


In [None]:
# Janomeライブラリ
from janome.tokenizer import Tokenizer

In [None]:
t = Tokenizer()
text = "私は去年、東京都」に住んでいました。"

for token in t.tokenize(text):
  print(token)

私	名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
去年	名詞,副詞可能,*,*,*,*,去年,キョネン,キョネン
、	記号,読点,*,*,*,*,、,、,、
東京	名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー
都	名詞,接尾,地域,*,*,*,都,ト,ト
」	記号,括弧閉,*,*,*,*,」,」,」
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
住ん	動詞,自立,*,*,五段・マ行,連用タ接続,住む,スン,スン
で	助詞,接続助詞,*,*,*,*,で,デ,デ
い	動詞,非自立,*,*,一段,連用形,いる,イ,イ
まし	助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。	記号,句点,*,*,*,*,。,。,。


### 1.1.2　文章データの取り扱い

In [11]:
# ファイルの読み込み、及びテキスト部分の出力
texts = []
for line in open('/content/drive/MyDrive/Colab Notebooks/sample.txt'):
  #　２列目のみ取得する
  row, text = line.split(',')
  print(text)
  texts.append(text)

私は東京都に住んでいます。

私の母は1960年に京都に生まれました。

好きな将棋の格言は”歩のない将棋は負け将棋”です。

明日、京都から大阪まで移動する。

明日の東京の天気は晴れです。

私は犬より猫が好きだ。

豊洲駅までは30分かかる。

今年は2021年です。

2021年には東京オリンピックが開催された。

自然言語解析は楽しい。


### 1.1.3 正規表現

In [12]:
# 正規表現用のモジュール読み込み
import re

#　前節で読み込んだファイルの内容の利用
for line in texts:

#数値の繰り返し+年を抽出
  m = re.search(r'[0-9]+年',line)
  if m:
    print(m.group())

1960年
2021年
2021年


### 1.1.4　単語の出現頻度のカウント

In [21]:
from collections import defaultdict

word_count = defaultdict(int)
# 対象品詞の絞り込み

target_pos = ['名詞','動詞']
# 1行ずつ読み込む
for line in texts:
# tokenize()メソッドはjanome.tokenizer.Tokenオブジェクトを要素とするリストを返す
  for token in t.tokenize(line):
    if token.part_of_speech.split(',')[0] in target_pos:
      word_count[token.surface] += 1

# 頻度の降順で並べ替え
print(sorted(word_count.items(), key=lambda x:x[1], reverse = True))

[('私', 3), ('東京', 3), ('年', 3), ('将棋', 3), ('京都', 2), ('好き', 2), ('明日', 2), ('2021', 2), ('都', 1), ('住ん', 1), ('い', 1), ('母', 1), ('1960', 1), ('生まれ', 1), ('格言', 1), ('歩', 1), ('負け', 1), ('大阪', 1), ('移動', 1), ('する', 1), ('天気', 1), ('晴れ', 1), ('犬', 1), ('猫', 1), ('豊洲', 1), ('駅', 1), ('30', 1), ('分', 1), ('かかる', 1), ('今年', 1), ('オリンピック', 1), ('開催', 1), ('さ', 1), ('れ', 1), ('自然', 1), ('言語', 1), ('解析', 1)]


- surface (表層形)
- part_of_speech (品詞)
- infl_type (活用型)
- infl_form (活用形)
- base_form (基本形)
- reading (読み)
- phonetic (発音)
- node_type

## 2章　NLPの技術解説
BERT登場以前の、機械学習をベースとした自然言語処理技術

### 2.1　Bag of Words
Bag of Words : 文章中に出現する単語の数を数える手法

In [25]:
pip install scikit-learn

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [35]:
# 原型での処理
# 書くの活用 :書かない　書きます　書く　書くとき　書けば　書け
from sklearn.feature_extraction.text import CountVectorizer

def base_toknizer(text):
    tok = []
    for token in t.tokenize(text):
      if token.part_of_speech.split(',')[0] in target_pos:
        #　単語の原形でカウントする
        tok.append(token.base_form)
    return tok
print (sorted(word_count.items(), key=lambda x:x[1], reverse = True))

bow = CountVectorizer(analyzer = base_toknizer)
count = bow.fit_transform(texts)
bow.vocabulary
print('Bag of Words')
bow.vocabulary_

[('私', 3), ('東京', 3), ('年', 3), ('将棋', 3), ('京都', 2), ('好き', 2), ('明日', 2), ('2021', 2), ('都', 1), ('住ん', 1), ('い', 1), ('母', 1), ('1960', 1), ('生まれ', 1), ('格言', 1), ('歩', 1), ('負け', 1), ('大阪', 1), ('移動', 1), ('する', 1), ('天気', 1), ('晴れ', 1), ('犬', 1), ('猫', 1), ('豊洲', 1), ('駅', 1), ('30', 1), ('分', 1), ('かかる', 1), ('今年', 1), ('オリンピック', 1), ('開催', 1), ('さ', 1), ('れ', 1), ('自然', 1), ('言語', 1), ('解析', 1)]
Bag of Words


{'1960': 0,
 '2021': 1,
 '30': 2,
 'いる': 3,
 'かかる': 4,
 'する': 5,
 'れる': 6,
 'オリンピック': 7,
 '京都': 8,
 '今年': 9,
 '住む': 10,
 '分': 11,
 '大阪': 12,
 '天気': 13,
 '好き': 14,
 '将棋': 15,
 '年': 16,
 '明日': 17,
 '晴れ': 18,
 '東京': 19,
 '格言': 20,
 '歩': 21,
 '母': 22,
 '犬': 23,
 '猫': 24,
 '生まれる': 25,
 '私': 26,
 '移動': 27,
 '自然': 28,
 '解析': 29,
 '言語': 30,
 '豊洲': 31,
 '負け': 32,
 '都': 33,
 '開催': 34,
 '駅': 35}

## 2.2 ニューラルネット時代の言語処理技術
### 2.2.1 Word2vec

Bag of Wordsは、単語をリスト化し、番号を振っていた。文章が長くなると、リストの長さが膨大になる。

In [43]:
# Word2vec

# Word2vecモデルのダウンロード
!wget https://github.com/singletongue/WikiEntVec/releases/download/20190520/jawiki.entity_vectors.100d.txt.bz2

# Word2vecモデルの解凍
!bunzip2 jawiki.entity_vectors.100d.txt.bz2

--2022-08-12 23:48:14--  https://github.com/singletongue/WikiEntVec/releases/download/20190520/jawiki.entity_vectors.100d.txt.bz2
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/141127256/e5090680-8e07-11e9-80ca-3a181ed71885?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20220812%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20220812T234814Z&X-Amz-Expires=300&X-Amz-Signature=7ae7adb66f2d39467c645d4aad42cce383f9ffae4fc22a1591cc34a4baf3acae&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=141127256&response-content-disposition=attachment%3B%20filename%3Djawiki.entity_vectors.100d.txt.bz2&response-content-type=application%2Foctet-stream [following]
--2022-08-12 23:48:14--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/14112725

In [44]:
#Word2vecモデルの内容確認
!more jawiki.entity_vectors.100d.txt

760421 100
日本 0.4520714 -0.19837324 -0.0015788715 -0.48525184 0.12867138 -0.40463993 -0.1
9930173 0.14862037 0.09306887 -0.4320028 0.11725942 -0.35307536 -0.1727769 0.428
4713 -0.04056627 0.07141669 -0.39473304 0.33938986 0.034265626 -0.45469996 0.038
515776 0.13663252 -0.06767282 -0.45000896 0.13756935 0.311879 -0.23445292 -0.149
30196 -0.28180087 0.17006221 -0.051960766 -0.33804327 -0.13512492 -0.7719164 -0.
3125033 -0.71328574 0.010320896 -0.00067029067 -0.2789912 -0.4916789 -0.21915731
 0.19832732 0.030204117 0.13834745 -0.14036447 -0.13610172 0.187396 -0.3751949 0
.6577871 0.006339073 -0.26538402 0.43348807 -0.26014853 -0.06991509 -0.21274127 
-0.43985733 0.45450464 -0.13382943 -0.094291344 -0.34834403 0.07539692 0.2435396
9 0.109915584 0.24385884 -0.46034643 -0.19285709 -0.1055345 -0.30793774 0.013696
885 0.63961303 -0.269822 0.2495977 0.06515607 0.1095789 0.08423731 -0.018316932 
0.41482037 0.50642014 0.020767301 -0.037124906 0.11368862 -0.26962015 0.23045753
 -0.056367222 0.157

In [70]:
from gensim.models import KeyedVectors
model_dir = 'jawiki.entity_vectors.100d.txt'
model = KeyedVectors.load_word2vec_format(model_dir, binary=False)
similar_words = model.most_similar('書籍')
for words in similar_words:
  print(str(words[0])+ " : " + str(words[1]))

出版 : 0.8862687349319458
出版物 : 0.8345963358879089
新刊 : 0.8311768770217896
雑誌 : 0.817315399646759
洋書 : 0.8087277412414551
出版社 : 0.8023096323013306
分野別図書目録 : 0.7940995097160339
定期刊行物 : 0.784931480884552
学術書 : 0.7802145481109619
本 : 0.7740463614463806


In [71]:
similarity1 = model.similarity("英語", "日本語")
print('類似度1: ' + str(similarity1))
similarity2 = model.similarity("英語", "犬")
print('類似度2: ' + str(similarity2))

類似度1: 0.6530423
類似度2: 0.21262255
