# 現場のプロが伝える前処理技術 Chapter3

# Chapter3-1 自然言語データの処理の基本

### 自然言語処理の作業手順

テキスト読み込み  
↓  
クレイジング  
↓　　　　　← データオーグメンテーション  
形態素解析  
↓　　　　　← データオーグメンテーション  
ベクトル化  
↓  
学習/推定  
↓  
可視化/評価  → 改善ループ  
↓  
レポート作成/報告  → フィードバック

## Chapter3-2 テキスト読み込み

#### 3-2-1 一覧データの取得

In [1]:
%%time
import numpy
import pandas

# 青空文庫の一覧データのURLにアクセスし、データフレームとして保持
aozora_list_url = "http://aozora-word.hahasoha.net/aozora_word_list_utf8.csv.gz"
df = pandas.read_csv(aozora_list_url, header=0, encoding="UTF-8")
df.head(2)

CPU times: user 2.11 s, sys: 676 ms, total: 2.79 s
Wall time: 2.84 s


Unnamed: 0,作品id,作品名,作品名読み,ソート用読み,副題,副題読み,原題,初出,分類番号,文字遣い種別,...,テキストファイル最終更新日,テキストファイル符号化方式,テキストファイル文字集合,テキストファイル修正回数,XHTML/HTMLファイルURL,XHTML/HTMLファイル最終更新日,XHTML/HTMLファイル符号化方式,XHTML/HTMLファイル文字集合,XHTML/HTMLファイル修正回数,file
0,2,三十三の死,さんじゅうさんのし,さんしゆうさんのし,,,,,NDC 913,旧字旧仮名,...,2005-12-28,ShiftJIS,JIS X 0208,2,http://www.aozora.gr.jp/cards/000012/files/2_2...,2005-12-28,ShiftJIS,JIS X 0208,0,2_20959.html
1,5,あいびき,あいびき,あいひき,,,,,NDC 983,新字新仮名,...,2006-01-06,ShiftJIS,JIS X 0208,3,http://www.aozora.gr.jp/cards/000005/files/5_2...,2006-01-06,ShiftJIS,JIS X 0208,0,5_21310.html


#### 3-2-2 一覧データの理解

In [2]:
# 再現性を担保するため、乱数のシードを明示的に指定
seed = 1
rs = numpy.random.RandomState(seed)

# ランダムサンプリング
sample_idx = rs.randint(0, len(df))
sample_idx

235

In [3]:
df.iloc[sample_idx]

作品id                                                              000246
作品名                                                                  畜犬談
作品名読み                                                             ちくけんだん
ソート用読み                                                            ちくけんたん
副題                                                           ―伊馬鵜平君に与える―
副題読み                                                      ―いまうへいくんにあたえる―
原題                                                                   NaN
初出                                                    「文学者」1939（昭和14）年8月
分類番号                                                             NDC 913
文字遣い種別                                                             新字新仮名
作品著作権フラグ                                                              なし
公開日                                                           1999-04-12
最終更新日                                                         2012-10-31
図書カードurl               http://www.aozora.gr.jp/card

In [4]:
# 情報量が多すぎるので表示される情報を絞る。
# 分類番号は文章分類で使用する。
df.iloc[sample_idx][["テキストファイルurl", "XHTML/HTMLファイルURL", "XHTML/HTMLファイル符号化方式", "分類番号"]]

テキストファイルurl            http://www.aozora.gr.jp/cards/000035/files/246...
XHTML/HTMLファイルURL      http://www.aozora.gr.jp/cards/000035/files/246...
XHTML/HTMLファイル符号化方式                                             ShiftJIS
分類番号                                                             NDC 913
Name: 235, dtype: object

#### HTMLのテキスト取得手順
- URLにリクエストして、レスポンスを取得。
- HTTPコードが200以上の時は、例外処理。
- HTMLオブジェクトを取得
- HTMLオブジェクトからテキストコンテンツを取得し表示
  -  最初の100文字
  -  区切り線
  -  最後の100文字

In [5]:
sample_zip_url = df.iloc[sample_idx]["テキストファイルurl"]    # zip
sample_html_url = df.iloc[sample_idx]["XHTML/HTMLファイルURL"]    # html
sample_encoding = df.iloc[sample_idx]["XHTML/HTMLファイル符号化方式"]    # encoding
sample_zip_url, sample_html_url, sample_encoding

('http://www.aozora.gr.jp/cards/000035/files/246_ruby_1636.zip',
 'http://www.aozora.gr.jp/cards/000035/files/246_34649.html',
 'ShiftJIS')

In [6]:
import lxml.html
import requests

html = None

# 指定されたURL にリクエストし、レスポンスを取得
response = requests.get(sample_html_url)

# HTTPコードが200以外の場合は、例外処理
if response.status_code != 200:
    raise Exception(f"HTTP Error. status code: {response.status_code}")

# HTMLオブジェクトを取得
html = lxml.html.fromstring(response.content)


# HTMLオブジェクトから、テキストコンテンツを取得し表示
# - 最初の150文字
print(html.text_content()[:150])

# - 区切り線を表示
print("\n", "~ " * 50, sep="")
print("~ " * 50, "\n")

# - 最後の150文字
print(html.text_content()[-150:])

ModuleNotFoundError: No module named 'lxml'

#### 3-2-4 テキストデータの取得(ZIP)

In [7]:
import io
import requests
import zipfile

# URLからダウンロード
response = requests.get(sample_zip_url)

# ダウンロードしたzipデータをファイルとして展開（解答）
z = zipfile.ZipFile(io.BytesIO(response.content))
z.extractall("./data")

# ローカルのテキストファイルパスを変数として保持
txt_file = "./data/" + z.infolist()[0].filename

# エンコーディングを指定して、テキストファイルを読み込み
with open(txt_file, "r", encoding=sample_encoding) as f:
    # ファイル全体を読み込み内容を保持
    content = f.read()

    # 最初の300文字を表示
    print(content[:300])

    # 区切り線を表示
    print("\n", "~ " * 50, sep="")
    print("~ " * 50, "\n")

    # 最後の100文字を表示
    print(content[-300:])

畜犬談
―伊馬鵜平君に与える―
太宰治

-------------------------------------------------------
【テキスト中に現れる記号について】

《》：ルビ
（例）喰《く》いつかれる

｜：ルビの付く文字列の始まりを特定する記号
（例）十匹｜這《は》っている
-------------------------------------------------------

　私は、犬については自信がある。いつの日か、かならず喰《く》いつかれるであろうという自信である。私は、きっと噛《か》まれるにちがいない。自信があるのである。よくぞ、きょうまで喰いつ

~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ 
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~  

かい？」
「ええ」家内は、浮かぬ顔をしていた。
「ポチにやれ、二つあるなら、二つやれ。おまえも我慢しろ。皮膚病なんてのは、すぐなおるよ」
「ええ」家内は、やはり浮かぬ顔をしていた。



底本：「日本文学全集70　太宰治集」集英社
　　　1972（昭和47）年3月初版
初出：「文学者」
　　　1939（昭和14）年8月
入力：網迫
校正：田尻幹二
1999年4月12日公開
2009年3月6日修正
青空文庫作成ファイル：
このファイルは、インターネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。



#### 3-2-5 エンコーディング
- LINUX系OSのデフォルトはUTF-8
- windowsはShirt-JIS、またはその拡張版のCPS932

google colabはUTF-8をデフォルトとしている。  
自然言語でもUTF-8が多い。


In [8]:
import traceback
try:
    with open(txt_file, "r") as f:
        lines = f.readlines()
except UnicodeDecodeError as e:
    stack_trace = traceback.format_exc(chain=e)
    print(stack_trace)

Traceback (most recent call last):
  File "<ipython-input-8-b1c27d6ca8fc>", line 4, in <module>
    lines = f.readlines()
  File "/opt/conda/lib/python3.8/codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 0: invalid start byte



In [9]:
import locale
locale.getpreferredencoding(False)

'UTF-8'

In [10]:
# 一覧からの取得した文字コードを確認
sample_encoding

'ShiftJIS'

In [11]:
# UTF-8 を明示的に指定
try:
    with open(txt_file, "r", encoding="UTF-8") as f:
        lines = f.readlines()
except UnicodeDecodeError as e:
    stack_trace = traceback.format_exc(chain=e)
    print(stack_trace)

Traceback (most recent call last):
  File "<ipython-input-11-22eb386eb1ee>", line 4, in <module>
    lines = f.readlines()
  File "/opt/conda/lib/python3.8/codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 0: invalid start byte



In [12]:
# Shift-JIS を明示的に指定
with open(txt_file, "r", encoding="Shift-JIS") as f:
    lines = f.readlines()

In [13]:
# CP9328 を明示的に指定
with open(txt_file, "r", encoding="CP932") as f:
    lines = f.readlines()

#### 3-2-6-1 TSV(タブ区切り)形式
csvではカンマなどを含む区切り位置が多少面倒な事がある、TSVでは値に入る事がほとんど無い区切り文字を使用することで、  
区切り位置が入っているか確認して加工する必要がなくなります。  

Excelをコピーしてテキストファイルに入れるとTSV型式になるので比較的よく見る。

In [14]:
!rm -rf diabetes-data* Diabetes-Data
!ls
!echo "-----"
!curl -sSLO https://archive.ics.uci.edu/ml/machine-learning-databases/diabetes/diabetes-data.tar.Z
!tar xzf diabetes-data.tar.Z
!head -n 5 Diabetes-Data/data-01
!echo "-----"
!ls

answer			   preprocess_knock_Python.ipynb
data			   preprocess_knock_R.ipynb
Entity_Relationship.ipynb  preprocess_knock_SQL.ipynb
genbapro_chapter3.ipynb
-----
04-21-1991	9:09	58	100
04-21-1991	9:09	33	009
04-21-1991	9:09	34	013
04-21-1991	17:08	62	119
04-21-1991	17:08	33	007
-----
answer	       diabetes-data.tar.Z	  preprocess_knock_Python.ipynb
data	       Entity_Relationship.ipynb  preprocess_knock_R.ipynb
Diabetes-Data  genbapro_chapter3.ipynb	  preprocess_knock_SQL.ipynb


In [15]:
# ダウンロードしたデータを読み込む
df = pandas.read_csv("Diabetes-Data/data-01", sep="\t", header=None)

# データの可読性を上げるため、カラムを設定
df.columns = ["date", "time", "code", "value"]
df.head(3)

Unnamed: 0,date,time,code,value
0,04-21-1991,9:09,58,100
1,04-21-1991,9:09,33,9
2,04-21-1991,9:09,34,13


In [16]:
# 使用したファイルを削除
!rm -rf diabetes-data.*
!rm -rf Diabetes-Data

#### 3-2-6-2 Excel 形式

CSV型式やTSV型式に変換することで読み込めます。  
pandasはそのままExcelから読み込めるようになっています。

In [17]:
pip install xlrd -U

Note: you may need to restart the kernel to use updated packages.


In [18]:
xls_url = "http://www.city.chofu.tokyo.jp/www/contents/1557709709559/simple/86.xls"
pandas.read_excel(xls_url, header=1)

Unnamed: 0,年度,西暦,総数,男,女
0,H23,2011.0,182828.0,89874.0,92954.0
1,H24,2012.0,183154.0,89846.0,93308.0
2,H25,2013.0,183951.0,89946.0,94005.0
3,H26,2014.0,184292.0,89942.0,94350.0
4,H27,2015.0,185287.0,90338.0,94949.0
5,H28,2016.0,191032.0,93115.0,97917.0
6,H29,2017.0,193677.0,94205.0,99472.0
7,資料　選挙管理委員会事務局,,,,


#### 3-2-63 JSON形式
Webアプリケーションの業務利用など多く使われており、近年増えている。

In [19]:
%%bash
apt update -y
apt install -y autoconf automake build-essential libtool python-dev
apt install -y jq  # コマンドライン
pip install jq  # python モジュール

Reading package lists...
Collecting jq
  Downloading jq-1.1.2-cp38-cp38-manylinux2010_x86_64.whl (582 kB)
Installing collected packages: jq
Successfully installed jq-1.1.2




E: Could not open lock file /var/lib/apt/lists/lock - open (13: Permission denied)
E: Unable to lock directory /var/lib/apt/lists/


E: Could not open lock file /var/lib/dpkg/lock-frontend - open (13: Permission denied)
E: Unable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), are you root?


E: Could not open lock file /var/lib/dpkg/lock-frontend - open (13: Permission denied)
E: Unable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), are you root?


In [20]:
%%bash
# Wikipedia API へアクセスして、取得した内容(JSON形式のデータ)を `wikipedia.json` に保存
curl -sS -XPOST \
    "https://ja.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exlimit=1" \
    --data-urlencode "titles=自然言語" -o wikipedia.json

# 保存した内容(JSON形式)を整形して表示
cat wikipedia.json | jq .

/usr/bin/bash: line 7: jq: command not found


CalledProcessError: Command 'b'# Wikipedia API \xe3\x81\xb8\xe3\x82\xa2\xe3\x82\xaf\xe3\x82\xbb\xe3\x82\xb9\xe3\x81\x97\xe3\x81\xa6\xe3\x80\x81\xe5\x8f\x96\xe5\xbe\x97\xe3\x81\x97\xe3\x81\x9f\xe5\x86\x85\xe5\xae\xb9(JSON\xe5\xbd\xa2\xe5\xbc\x8f\xe3\x81\xae\xe3\x83\x87\xe3\x83\xbc\xe3\x82\xbf)\xe3\x82\x92 `wikipedia.json` \xe3\x81\xab\xe4\xbf\x9d\xe5\xad\x98\ncurl -sS -XPOST \\\n    "https://ja.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exlimit=1" \\\n    --data-urlencode "titles=\xe8\x87\xaa\xe7\x84\xb6\xe8\xa8\x80\xe8\xaa\x9e" -o wikipedia.json\n\n# \xe4\xbf\x9d\xe5\xad\x98\xe3\x81\x97\xe3\x81\x9f\xe5\x86\x85\xe5\xae\xb9(JSON\xe5\xbd\xa2\xe5\xbc\x8f)\xe3\x82\x92\xe6\x95\xb4\xe5\xbd\xa2\xe3\x81\x97\xe3\x81\xa6\xe8\xa1\xa8\xe7\xa4\xba\ncat wikipedia.json | jq .\n'' returned non-zero exit status 127.

In [21]:
import json
from jq import jq

# JSON形式のファイルを読み込む
with open("wikipedia.json", "r") as f:
    jsn = json.load(f)

# JSONオブジェクトを表示
print(jsn)



In [22]:
# Wikipedia ページの本文をテキストとして抽出
text = jq('.query.pages."68".extract').transform(jsn, text_output=True)

# 抽出した本文を表示
print(text)

"<p><b>\u81ea\u7136\u8a00\u8a9e</b>\uff08\u3057\u305c\u3093\u3052\u3093\u3054\u3001\u82f1: <span lang=\"en\">natural language</span>\uff09\u3068\u306f\u3001\u8a00\u8a9e\u5b66\u3084\u8ad6\u7406\u5b66\u3001\u8a08\u7b97\u6a5f\u79d1\u5b66\u306e\u5c02\u9580\u7528\u8a9e\u3067\u3001\u300c\u82f1\u8a9e\u300d\u30fb\u300c\u4e2d\u56fd\u8a9e\u300d\u30fb\u300c\u65e5\u672c\u8a9e\u300d\u3068\u3044\u3063\u305f\u300c\u25cb\u25cb\u8a9e\u300d\u306e\u7dcf\u79f0\u3002\u3064\u307e\u308a\u666e\u901a\u306e\u300c\u8a00\u8a9e\u300d\u306e\u3053\u3068\u3002\u4eba\u9593\u304c\u610f\u601d\u758e\u901a\u306e\u305f\u3081\u306b\u65e5\u5e38\u7684\u306b\u7528\u3044\u308b\u8a00\u8a9e\u3067\u3042\u308a\u3001\u6587\u5316\u7684\u80cc\u666f\u3092\u6301\u3063\u3066\u304a\u306e\u305a\u304b\u3089\u767a\u5c55\u3057\u3066\u304d\u305f\u8a00\u8a9e\u3002\n</p><p>\u5bfe\u7fa9\u8a9e\u306f\u300c\u4eba\u5de5\u8a00\u8a9e\u300d\u300c\u5f62\u5f0f\u8a00\u8a9e\u300d\u3001\u3059\u306a\u308f\u3061\u30d7\u30ed\u30b0\u30e9\u30df\u30f3\u30b0\u8a00\

In [23]:
import re

# HTMLタグを削除
formatted = re.sub(r"</?\w+(\s+[^>]+)?>", "", text)

# `\n` という文字列を、改行コードに変更
formatted = formatted.replace("\\n", "\n")

# 整形後のテキストを表示
print(formatted[:150], "...")

"\u81ea\u7136\u8a00\u8a9e\uff08\u3057\u305c\u3093\u3052\u3093\u3054\u3001\u82f1: natural language\uff09\u3068\u306f\u3001\u8a00\u8a9e\u5b66\u3084\u8ad ...


In [24]:
%%bash
curl -sS \
    "https://ja.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exlimit=1&explaintext=true" \
    --data-urlencode "titles=自然言語" \
| jq '.query.pages."68".extract' \
| cut -c-100    # 先頭100バイトだけ表示


/usr/bin/bash: line 4: jq: command not found
curl: (23) Failure writing output to destination


In [25]:
%%bash
curl -sS -XPOST \
    "https://ja.wikipedia.org/w/api.php?format=json&action=query&prop=extracts" \
    --data "exlimit=1" \
    --data "explaintext=true" \
    --data-urlencode "titles=自然言語" \
| jq '.query.pages."68".extract' \
| cut -c-100    # 先頭100バイトだけ表示

/usr/bin/bash: line 6: jq: command not found
curl: (23) Failure writing output to destination


# Chapter3-3 データクレンジング

形態素解析するために不要なものを取り除く処理。  

クレンジング対象  
- ヘッダ、フッタ情報 (タイトルや作者などのメタ情報、文末の文章説明)
- 文章の始まり、終わり、改行や会話、段落の先頭の全角スペース（\u3000)
- ふりがなやルビ

処理後に綺麗な処理ができているか確認し、イメージ通りに出来るまで繰り返し分集合を作る。

## 3-3-1 テキスト文書の不要文字の削除


In [26]:
with open(txt_file, "r", encoding=sample_encoding) as f:
    # ファイル全体を読み込み、内容を保持
    lines = f.readlines()

In [27]:
print(*lines[:15])

畜犬談
 ―伊馬鵜平君に与える―
 太宰治
 
 -------------------------------------------------------
 【テキスト中に現れる記号について】
 
 《》：ルビ
 （例）喰《く》いつかれる
 
 ｜：ルビの付く文字列の始まりを特定する記号
 （例）十匹｜這《は》っている
 -------------------------------------------------------
 
 　私は、犬については自信がある。いつの日か、かならず喰《く》いつかれるであろうという自信である。私は、きっと噛《か》まれるにちがいない。自信があるのである。よくぞ、きょうまで喰いつかれもせず無事に過してきたものだと不思議な気さえしているのである。諸君、犬は猛獣である。馬を斃《たお》し、たまさかには獅子《しし》と戦ってさえこれを征服するとかいうではないか。さもありなんと私はひとり淋しく首肯《しゅこう》しているのだ。あの犬の、鋭い牙《きば》を見るがよい。ただものではない。いまは、あのように街路で無心のふうを装い、とるに足らぬもののごとくみずから卑下して、芥箱《ごみばこ》を覗《のぞ》きまわったりなどしてみせているが、もともと馬を斃すほどの猛獣である。いつなんどき、怒り狂い、その本性を暴露するか、わかったものではない。犬はかならず鎖に固くしばりつけておくべきである。少しの油断もあってはならぬ。世の多くの飼い主は、みずから恐ろしき猛獣を養い、これに日々わずかの残飯《ざんぱん》を与えているという理由だけにて、まったくこの猛獣に心をゆるし、エスやエスやなど、気楽に呼んで、さながら家族の一員のごとく身辺に近づかしめ、三歳のわが愛子をして、その猛獣の耳をぐいと引っぱらせて大笑いしている図にいたっては、戦慄《せんりつ》、眼を蓋《おお》わざるを得ないのである。不意に、わんといって喰いついたら、どうする気だろう。気をつけなければならぬ。飼い主でさえ、噛みつかれぬとは保証できがたい猛獣を、（飼い主だから、絶対に喰いつかれぬということは愚かな気のいい迷信にすぎない。あの恐ろしい牙のある以上、かならず噛む。けっして噛まないということは、科学的に証明できるはずはないのである）その猛獣を、放し飼いにして、往来をうろうろ徘徊《はいかい》させておくとは、どんなもの

In [28]:
print(*lines[-15:])

「ポチにやれ、二つあるなら、二つやれ。おまえも我慢しろ。皮膚病なんてのは、すぐなおるよ」
 「ええ」家内は、やはり浮かぬ顔をしていた。
 
 
 
 底本：「日本文学全集70　太宰治集」集英社
 　　　1972（昭和47）年3月初版
 初出：「文学者」
 　　　1939（昭和14）年8月
 入力：網迫
 校正：田尻幹二
 1999年4月12日公開
 2009年3月6日修正
 青空文庫作成ファイル：
 このファイルは、インターネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。



In [29]:
# 文章の開始行、末尾行インデックス番号の取得
import re
idx_start, idx_end = -1, -1
for idx, line in enumerate(lines):
    # 本文の開始行のインデックス（番号）を特定する
    if re.search(r"^---", line):
        idx_start = idx + 1

    # 本文の末尾行のインデックス（番号）を特定する
    if re.search(r"^底本：", line):
        idx_end = idx - 1

print(idx_start, idx_end)

13 70


In [30]:
# 開始行と末尾行間のインデックス毎にfor文内の処理を行う。
prepped_lines = []
for line in lines[idx_start:idx_end]:
    # 行の前後の空白コード(半角スペース、改行コードなど))を削除
    line = line.strip()

    # ルビを削除
    line = re.sub(r"｜", "", line)
    line = re.sub(r"《.*?》", "", line)

    # 入力者の注釈を削除
    line = re.sub(r"※?［＃.*?］", "", line)

    # Unicode の全角スペースを削除
    line = re.sub(r"\u3000+", " ", line)

    # 変換後の行が空行の場合は、スキップ
    if line == "":
        continue
    prepped_lines.append(line)


まとめ
- 削除の指定には正規表現を使用する。
- 最短一致(.*?)にしないと、最初から最後の間まで全部削除される可能性があるため。
- 全角スペースは半角スペースに変換し、何か文字列があれば処理済みの行の配列に保持している。

慣れないうちは、変換結果を見ながらPDCA細かく回していく。

In [31]:
# 最初の10行を表示
# prepped_lines[:10]
# 最後の10行を表示
# prepped_lines[-10:]

# 再現性を担保するため、乱数のシードを明示的に指定
numpy.random.seed(7)

# ランダムに選んだ行から10行を表示
sample_line_idx = numpy.random.randint(0, len(prepped_lines))
print("sample_line_idx:", sample_line_idx)
prepped_lines[sample_line_idx:sample_line_idx+10]

sample_line_idx: 47


['「ポチ、食え」私はポチを見たくなかった。ぼんやりそこに立ったまま、「ポチ、食え」足もとで、ぺちゃぺちゃ食べている音がする。一分たたぬうちに死ぬはずだ。',
 '私は猫背になって、のろのろ歩いた。霧が深い。ほんのちかくの山が、ぼんやり黒く見えるだけだ。南アルプス連峰も、富士山も、何も見えない。朝露で、下駄がびしょぬれである。私はいっそうひどい猫背になって、のろのろ帰途についた。橋を渡り、中学校のまえまで来て、振り向くとポチが、ちゃんといた。面目なげに、首を垂れ、私の視線をそっとそらした。',
 '私も、もう大人である。いたずらな感傷はなかった。すぐ事態を察知した。薬品が効かなかったのだ。うなずいて、もうすでに私は、白紙還元である。家へ帰って、',
 '「だめだよ。薬が効かないのだ。ゆるしてやろうよ。あいつには、罪がなかったんだぜ。芸術家は、もともと弱い者の味方だったはずなんだ」私は、途中で考えてきたことをそのまま言ってみた。「弱者の友なんだ。芸術家にとって、これが出発で、また最高の目的なんだ。こんな単純なこと、僕は忘れていた。僕だけじゃない。みんなが、忘れているんだ。僕は、ポチを東京へ連れてゆこうと思うよ。友がもしポチの恰好を笑ったら、ぶん殴ってやる。卵あるかい？」',
 '「ええ」家内は、浮かぬ顔をしていた。',
 '「ポチにやれ、二つあるなら、二つやれ。おまえも我慢しろ。皮膚病なんてのは、すぐなおるよ」',
 '「ええ」家内は、やはり浮かぬ顔をしていた。']

## 3-3-2 HTML文書から本文のみ取得／抽出

In [32]:
# XPathを利用して、本文のみを抽出
main_text = html.xpath("//div[@class='main_text']")
content = main_text[0].text_content()

# 最初の100文字を表示
print(content[:100])

# 区切り線を表示
print("\n", "~ " * 50, sep="")
print("~ " * 50, "\n")

# 最後の100文字を表示
print(content[-100:])

NameError: name 'html' is not defined

### 3-3-2-1 行分割

文字列型を行単位に分割したリスト型へ変換する処理。  
一般的に行末端記号は、CRLF(\r\n)である文章と、LF(\n)である文章がある。

In [33]:
# 行末記号をLF(\n)に統一 ... CRLF(\r\n) を LF(\n)に変換
content = content.replace("\r\n", "\n")

# 行単位に分割
lines = content.split("\n")

In [34]:
# 最初の10行を確認
# lines[:10]
# 最後の10行を確認
lines[-10:]

['\u3000\u3000\u30001972（昭和47）年3月初版',
 '初出：「文学者」',
 '\u3000\u3000\u30001939（昭和14）年8月',
 '入力：網迫',
 '校正：田尻幹二',
 '1999年4月12日公開',
 '2009年3月6日修正',
 '青空文庫作成ファイル：',
 'このファイルは、インターネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。',
 '']

### 3-3-2-2 不要文字列の削除・変換

In [35]:
import re

prepped_lines = []
for line in lines:
    # 行の先頭、末尾の空白・改行コードを削除
    line = line.strip()

    # Unicode の全角スペースを削除
    line = re.sub(r"\u3000", " ", line)

    # ふりがなを削除
    line = re.sub(r"（.*?）", "", line)

    # 上記変換により、空行になったらスキップ
    if line == "":
        continue

    # 変換後の line を処理済行リストとして保持
    prepped_lines.append(line)

In [36]:
# 作成した処理済行リストの最初の10行を確認
# prepped_lines[:10]
# 作成した処理済行リストの最後の10行を確認
prepped_lines[-10:]

['底本：「日本文学全集70 太宰治集」集英社',
 '1972年3月初版',
 '初出：「文学者」',
 '1939年8月',
 '入力：網迫',
 '校正：田尻幹二',
 '1999年4月12日公開',
 '2009年3月6日修正',
 '青空文庫作成ファイル：',
 'このファイルは、インターネットの図書館、青空文庫で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。']

# Chapter3-4 形態素解析

## 3-4-1 MeCab


昨今の一番メジャーな形態素解析ツールです。  
C++で実装されているため、高速に動作し、言語、辞書、コーパスに依存しない凡庸的な設計が大きな特徴です。

In [37]:
!apt upgrade -y

[1;31mE: [0mCould not open lock file /var/lib/dpkg/lock-frontend - open (13: Permission denied)[0m
[1;31mE: [0mUnable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), are you root?[0m


In [40]:
# MeCab をインストール
!apt update
!apt install -y libmecab-dev mecab mecab-ipadic-utf8 mecab-utils

Reading package lists... Done
[1;31mE: [0mCould not open lock file /var/lib/apt/lists/lock - open (13: Permission denied)[0m
[1;31mE: [0mUnable to lock directory /var/lib/apt/lists/[0m
[1;31mE: [0mCould not open lock file /var/lib/dpkg/lock-frontend - open (13: Permission denied)[0m
[1;31mE: [0mUnable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), are you root?[0m


In [41]:
%%bash
# NEologd 辞書をインストール

## 開始時刻を表示
date

## 古い辞書があれば削除
rm -rf mecab-ipadic-neologd

## 辞書のgit リポジトリをclone
git clone https://github.com/neologd/mecab-ipadic-neologd.git
ls

## 辞書をインストール
cd mecab-ipadic-neologd && bin/install-mecab-ipadic-neologd -n -a -y 2M

## [issue](https://github.com/SamuraiT/mecab-python3#common-issues) への対応
pip install unidic-lite

## 修了時刻を表示
date

Sat 10 Apr 2021 07:10:01 AM UTC
answer
data
Entity_Relationship.ipynb
genbapro_chapter3.ipynb
preprocess_knock_Python.ipynb
preprocess_knock_R.ipynb
preprocess_knock_SQL.ipynb
wikipedia.json
Sat 10 Apr 2021 07:10:16 AM UTC


Cloning into 'mecab-ipadic-neologd'...
error: RPC failed; curl 56 GnuTLS recv error (-54): Error in the pull function.
fatal: the remote end hung up unexpectedly
fatal: early EOF
fatal: index-pack failed
/usr/bin/bash: line 14: cd: mecab-ipadic-neologd: No such file or directory


In [42]:
%%time

import MeCab

# NElogd 辞書をシステム辞書として設定し、Tagger オブジェクトを生成
dirdic = "/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd"
tokenizer = MeCab.Tagger(f"-O chasen -d {dirdic}")

# 再現性を担保するため、乱数のシードを明示的に指定
numpy.random.seed(12345)

# 処理済行リストからランダムに1行を選択し保持
idx = numpy.random.randint(0, len(prepped_lines))
line = prepped_lines[idx]

# 1行をパース
node = tokenizer.parseToNode(line)

# パース後のノード（トークン＝単語）単位でループ処理
parsed_mecab = []
while node:
    # 文書表現上の単語(表層形)を保持
    word = node.surface

    # 解析結果の特徴情報を保持
    feature = node.feature.split(",")

    # 原形を保持
    base = feature[-3]


    # 品詞を保持
    pos = feature[0]

    # 単語を保持
    parsed_mecab.append(word)

    # 単語(表層形)、原形と品詞を表示
    print(f"{word}\t{base}\t{pos}")

    # ノードを次に更新
    node = node.next

ModuleNotFoundError: No module named 'MeCab'

In [44]:
%%time

# 1行をパースしてパース済テキストを取得
parsed = tokenizer.parse(line)

# パース済テキストを改行コード(各単語の情報単位))で分割
splitted = [l.split("\t") for l in parsed.split("\n")]

# 分割した単語情報単位でループ処理
for s in splitted:
    # 文書表現上の単語を保持
    word = s[0]

    base = ""
    # 単語の原形を保持
    if len(s) > 2:
        base = s[2]

    pos = ""
    if len(s) > 3:
        # 品詞を保持
        pos = s[3].split("-")[0]

    # 単語と品詞を表示
    print(f"{word}\t{base}\t{pos}")

NameError: name 'tokenizer' is not defined

## 3-4-2 Janome
Mecabに次いで有名なツールで、pipだけで利用できるため使い易い。  
Pure Pythonで実装されており辞書を内包しているライブラリです。

In [45]:
%%time

import janome.tokenizer
import janome.analyzer
import janome.charfilter
import janome.tokenfilter


# Tokenizer オブジェクトを生成
tokenizer = janome.tokenizer.Tokenizer()

# 品詞フィルタを生成 (除外する品詞リストを指定)
stop_poses = ["BOS/EOS", "助詞", "助動詞", "接続詞", "記号", "補助記号", "未知語"]
token_filters = [janome.tokenfilter.POSStopFilter(stop_poses)]

# Unicode で正規化するフィルタを生成
char_filters = [janome.charfilter.UnicodeNormalizeCharFilter()]

# Analyzer オブジェクトを生成
aly = janome.analyzer.Analyzer(char_filters, tokenizer, token_filters)

# トークン（区切った単語）毎にループ処理
parsed_janome = []
for token in aly.analyze(line):
    # 単語を保持
    parsed_janome.append(token.surface)

    # 単語(表層形)、原形と品詞を表示
    print(token.surface, token.base_form, token.part_of_speech.split(",")[0])

ModuleNotFoundError: No module named 'janome'

## 3-4-3 SudachiPy
単語の揺らぎを正規化する機能を持ち、Small,Core,Fullの３種類の辞書を持っているpythonライブラリです。

In [46]:
%%bash

# SudachiPy をインストール
pip install SudachaiPy

# 辞書をインストール
wget https://object-storage.tyo2.conoha.io/v1/nc_2520839e1f9641b08211a5c85243124a/sudachi/SudachiDict_full-20190718.tar.gz
pip install SudachiDict_full-20190718.tar.gz

# SudachiPy にFullの辞書をリンク
sudachipy link -t full

Processing ./SudachiDict_full-20190718.tar.gz


ERROR: Could not find a version that satisfies the requirement SudachaiPy
ERROR: No matching distribution found for SudachaiPy
--2021-04-10 07:13:34--  https://object-storage.tyo2.conoha.io/v1/nc_2520839e1f9641b08211a5c85243124a/sudachi/SudachiDict_full-20190718.tar.gz
Resolving object-storage.tyo2.conoha.io (object-storage.tyo2.conoha.io)... 157.7.224.17
Connecting to object-storage.tyo2.conoha.io (object-storage.tyo2.conoha.io)|157.7.224.17|:443... connected.
HTTP request sent, awaiting response... 401 Unauthorized

Username/Password Authentication Failed.
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory: '/home/jovyan/work/SudachiDict_full-20190718.tar.gz'

/usr/bin/bash: line 10: sudachipy: command not found


CalledProcessError: Command 'b'\n# SudachiPy \xe3\x82\x92\xe3\x82\xa4\xe3\x83\xb3\xe3\x82\xb9\xe3\x83\x88\xe3\x83\xbc\xe3\x83\xab\npip install SudachaiPy\n\n# \xe8\xbe\x9e\xe6\x9b\xb8\xe3\x82\x92\xe3\x82\xa4\xe3\x83\xb3\xe3\x82\xb9\xe3\x83\x88\xe3\x83\xbc\xe3\x83\xab\nwget https://object-storage.tyo2.conoha.io/v1/nc_2520839e1f9641b08211a5c85243124a/sudachi/SudachiDict_full-20190718.tar.gz\npip install SudachiDict_full-20190718.tar.gz\n\n# SudachiPy \xe3\x81\xabFull\xe3\x81\xae\xe8\xbe\x9e\xe6\x9b\xb8\xe3\x82\x92\xe3\x83\xaa\xe3\x83\xb3\xe3\x82\xaf\nsudachipy link -t full\n'' returned non-zero exit status 127.

In [None]:
# ディスクを有効活用するため、不要データを削除
!rm -rf SudachiDict_full-*

In [None]:
%%time

import sudachipy.dictionary
import sudachipy.tokenizer


# SudachiPyの辞書オブジェクトを生成
sdct = sudachipy.dictionary.Dictionary().create()

# 単語(NEologd 単位)の分割モードを生成
# # mode = sudachipy.tokenizer.Tokenizer.SplitMode.A        # 短単位 (like UniDic)
# # mode = sudachipy.tokenizer.Tokenizer.SplitMode.B        # 中単位
mode = sudachipy.tokenizer.Tokenizer.SplitMode.C        # NE単位 (like neolog-d)

# 分割されたトークン(単語)単位でループ処理
parsed_sudachi = []
for tkn in sdct.tokenize(line, mode):
    # 単語(表層形)を保持
    word = tkn.surface()

    # 原形を保持
    base = tkn.dictionary_form()

    # 品詞を保持
    pos = tkn.part_of_speech()[0]

    # 正規化形を保持
    nrm = tkn.normalized_form()

    # 単語を保持
    parsed_sudachi.append(word)

    # 単語(表層形)、原形と品詞を表示
    print(f"{word}\t{base}\t{pos}\t{nrm}")

In [None]:
# "シュミレーション" を形態素解析し、正規化
tkn = sdct.tokenize("シュミレーション", mode)[0]
word = tkn.surface()
nrm = tkn.normalized_form()
print(word, "->", nrm)

In [None]:
# "シュミレート" を形態素解析し、正規化
tkn = sdct.tokenize("シュミレート", mode)[0]
word = tkn.surface()
nrm = tkn.normalized_form()
print(word, "->", nrm)

## 3-4-4 nagisa¶
リカレントニューラルネットワークでモデル化実装されている、pipだけでインストール可能。  
他の辞書と同様に辞書が実装できる、また絵文字やURLに対しても解析が出来る特徴を持ちます。




In [47]:
%%time
import nagisa


# 1行をパース
parsed = nagisa.tagging(line)

# 分割した単語、品詞単位でループ処理
parsed_nagisa = []
for word, pos in zip(parsed.words, parsed.postags):
    # 単語を保持
    parsed_nagisa.append(word)

    # 単語と品詞を表示
    print(f"{word}\t{pos}")

ModuleNotFoundError: No module named 'nagisa'

In [48]:
# 品詞フィルタを生成 (除外する品詞リストを指定) ... Janome と同じリスト
stop_poses = ["BOS/EOS", "助詞", "助動詞", "接続詞", "記号", "補助記号", "未知語"]
parsed = nagisa.filter(line, filter_postags=stop_poses)

# 分割した単語、品詞単位でループ処理
for word, pos in zip(parsed.words, parsed.postags):
    # 単語と品詞を表示
    print(f"{word}\t{pos}")

NameError: name 'nagisa' is not defined

In [49]:
# URL, 絵文字を含むテキストを用意
text = 'https://www.google.co.jp/で検索中・・・（-o-;）'

# URL, 絵文字を含むテキストをパース
parsed = nagisa.tagging(text)

# 分割した単語、品詞単位でループ処理
for word, pos in zip(parsed.words, parsed.postags):
    # 単語と品詞を表示
    print(f"{word}\t{pos}")

NameError: name 'nagisa' is not defined

## 3-4-5 Sentence Piece
単語ではなく、部分単語(サブワード、ワブトークン)単位で分割できるツール。  
ニューラルネットワークの教師なし学習でモデル化されている。  
学習済みモデルを内包するnagisaとは異なり、与えれた文書集合（コーパス）から学習する事ができます。(学習させないといけない)  
昨今注目されているELMo、BEATもサブワードによる分割を利用しているので注目されつつあります。  
但し、単語単位では無いので単語が与える影響を考える際は、工夫する必要があります。




In [50]:
import lxml.html
import warnings
from tqdm import tqdm_notebook as tqdm


# 文書(行リスト)とラベルを保持するクラス
class DataRecord(object):
    def __init__(self, doc, label):
        self.doc = doc
        self.label = label


# 青空文庫の文書集合を扱うクラス
class Aozoraset(object):
    url = "http://aozora-word.hahasoha.net/aozora_word_list_utf8.csv.gz"

    # 初期化処理
    def __init__(self, seed=777, n_docs=10):
        self.seed = seed
        self.n_docs = n_docs
        self.rs = numpy.random.RandomState(seed)
        self.list_df = None
        self.dataset = None
        self.labelset = None
        
    # 青空文庫を読み込む処理
    def load(self):
        # 一覧を読み込み、コンテンツを読み込む
        self._load_list()._load_contents()
        
    # 青空文庫の一覧を読み込みする処理
    def _load_list(self):
        # 青空文庫の一覧URLから一覧表を読み込み
        self.list_df = ( pandas.read_csv(self.url, header=0, encoding="UTF-8")
                        .drop_duplicates(["作品id"]) )

        return self
        
    # 一覧に対応する文書コンテンツ(集合)を読み込みする処理
    def _load_contents(self):
        # `n_docs` の数だけ、文書を取得
        dataset = []
        for idx, rec in tqdm(self.list_df.iloc[:self.n_docs].iterrows(), total=self.n_docs):
            try:
                # URL、ラベル情報を取得
                url = rec["XHTML/HTMLファイルURL"]
                label = rec["分類番号"]

                # コンテンツを取得
                content = self._load_content(url)
                lines = content.split("\n")

                # クレンジング
                lines = self._clean_lines(lines)

                # 行リスト、label をまとめてインスタンス化し、リストに保持
                drec = DataRecord(lines, label)
                dataset.append(drec)
            except Exception as e:
                # 例外発生時は、警告表示し当該処理をスキップ(処理を継続)
                warnings.warn(f"Couldn't get the html via http[{e}], url: {url}")
                continue
        self.dataset = numpy.array(dataset)
        return self

    # 指定されたURLのコンテンツ(本文)を読み込みする処理
    def _load_content(self, url):
        # 指定されたURL にリクエストし、レスポンスを取得
        response = requests.get(url)

        # HTTPコードが200以外の場合は、例外処理
        if response.status_code != 200:
            raise Exception(f"response code: {response.status_code}")

        # HTMLオブジェクトを取得
        html = lxml.html.fromstring(response.content)

        # XPathを利用して、コンテンツを取得
        main_text = html.xpath("//div[@class='main_text']")
        content = main_text[0].text_content()
        return content

    # 与えられた文書(行リスト)のクレンジング処理
    @staticmethod
    def _clean_lines(lines):
        prepped_lines = []
        for line in lines:
            # 行の先頭、末尾の空白・改行コードを削除
            line = line.strip()
        
            # Unicode の全角スペースを削除
            line = re.sub(r"\u3000", " ", line)
        
            # ふりがなを削除
            line = re.sub(r"（.*?）", "", line)
        
            # 上記変換により、空行になったらスキップ
            if line == "":
                continue
        
            # 変換後の line を処理済行リストとして保持
            prepped_lines.append(line)
        return prepped_lines        

ModuleNotFoundError: No module named 'lxml'

In [51]:
!rm -rf aoset.gz

In [52]:

%%time
import joblib
import pathlib


# データセットインスタンスを生成
aoset = Aozoraset()

# データセットを保存するファイルパスを保持
aoset_file = "aoset.gz"
p = pathlib.Path(aoset_file)

# 過去に保存済のデータセットがあれば保存済みデータセットを読み込み
if p.exists():
    aoset = joblib.load(aoset_file)
    assert isinstance(aoset, Aozoraset)

# 過去に保存済のデータセットがなければ、青空文庫のサイトから読み込み
else:
    # 青空文庫データセットの読み込み
    aoset.load()

    # 正常に読み込めたら、ローカルに保存しておく
    joblib.dump(aoset, aoset_file, compress=("gzip", 3))

NameError: name 'Aozoraset' is not defined

In [53]:
%%time

# 青空文庫データセットを文書単位で、行リストをすべて同じファイル(`sp.txt`)に出力
with open("sp.txt", "w", encoding="UTF-8") as f:
    for drec in aoset.dataset:
        for _line in drec.doc:
            f.write(_line + "\n")

import sentencepiece as spm

# Sentence Piece の学習
spm.SentencePieceTrainer.train('--input=sp.txt --model_prefix=m --vocab_size=5000')

# Sentence Piece の学習済モデル(`m.model`)を読み込み
sp = spm.SentencePieceProcessor()
sp.Load("m.model")

# 1行を分割したピースのリストを取得し表示
parsed_spieces = sp.encode_as_pieces(line)
print(parsed_spieces)

NameError: name 'aoset' is not defined

In [54]:
# ディスクの有効活用のため、不要ファイルを削除
!rm -f sp.txt m.*

# Chapter3-5 ベクトル化

単語、サブワードに分割した結果を数値処理できるように各単語や各文章をベクトルに変換します。  

ベクトル化では基本的に疎なベクトル（ほとんどが0をとるベクトル）を作成し、そのあと何らかの変換を行い密なベクトルへ変換します。  
この密なベクトルを特徴抽出、埋め込みとも言います。


## 3-5-1 単語のベクトル化
基本的なOne-Hotベクトルと、One-Hotの応用で利用も多いword2vecがある。

In [56]:
import MeCab

# Transer クラス
class Transer(object):
    def transform(self, X, **kwargs):
        return X

    def fit(self, X, y, **kwargs):
        return self


# JpTokenizer クラス
class JpTokenizer(Transer):
    stop_poses = ["BOS/EOS", "助詞", "助動詞", "接続詞", "記号", "補助記号", "未知語"]

    def transform(self, X, **kwargs):
        # 文書(行リスト)単位でループ
        docs = []
        for lines in X:
            doc = []
            # 行単位でループ
            for line in lines:
                sentence = self.tokenize(line)
                doc.extend(sentence)
            docs.append(doc)
        return docs

    # 行単位のトークナイズ処理
    def tokenize(self, line: str) -> list:
        # return line.split(" ") for example
        raise NotImplementedError("tokenize()")


# JpTokenizerMeCab クラス
class JpTokenizerMeCab(JpTokenizer):
    # 初期処理
    def __init__(self):
        self.dicdir = ("/usr/lib/x86_64-linux-gnu/mecab/dic"
                       "/mecab-ipadic-neologd")
        self.taggerstr = f"-O chasen -d {self.dicdir}"
        self.tokenizer = MeCab.Tagger(self.taggerstr)

    # 行単位のトークナイズ処理(の実装)
    def tokenize(self, line: str) -> list:
        # 行文字列を受け取りトークナイズを行う
        sentence = []
        parsed = self.tokenizer.parse(line)
        splitted = [l.split("\t") for l in parsed.split("\n")]
        for s in splitted:
            if len(s) == 1:     # may be "EOS"
                break
            surface, yomi, base, features = s[:4]
            word = surface      # surface form
            # word = base         # original form
            pos = features.split("-")[0]
            if pos not in self.stop_poses:
                sentence.append(word)
        return sentence

ModuleNotFoundError: No module named 'MeCab'

In [57]:
# MeCabのトークナイザを生成
tokener = JpTokenizerMeCab()

# 青空文庫のデータセットから文書のみを抽出
X = [drec.doc for drec in aoset.dataset]

# 文書集合に対して形態素解析を実行
parsed_docs = tokener.transform(X)

# 解析後の文書を先頭から5つを表示
for idx in range(5):
    print(f"{idx}:", *parsed_docs[idx][:30])

NameError: name 'JpTokenizerMeCab' is not defined

### 3-5-1-1 One-Hot
One-Hotベクトルとは、特定のK番目の１要素が1で残りの要素全てが0であるようなベクトルを指します。

In [59]:
# sklearn による One-Hot ベクトル化
from sklearn.preprocessing import OneHotEncoder
onehot = OneHotEncoder(handle_unknown='ignore')
X = toydata = [['Male'], ['Female'], ['Female']]
onehot.fit(X)
onehot.transform(X).toarray()

array([[0., 1.],
       [1., 0.],
       [1., 0.]])

In [60]:
# pandas による One-Hot ベクトル化
pandas.get_dummies(['Male', 'Female', 'Female'])

Unnamed: 0,Female,Male
0,0,1
1,1,0
2,1,0


In [61]:
# OneHotEncoder に入力するために変換
words = [[word] for doc in parsed_docs for word in doc]
print("words:", words[:10], "...")

# One-Hot ベクトルに変換
onehot = OneHotEncoder(handle_unknown='ignore')
X = words
onehot.fit(X)
vectors_onehot = onehot.transform(X).toarray().astype(numpy.int)

print("vectors_onehot:", vectors_onehot)

NameError: name 'parsed_docs' is not defined

In [62]:
# 各ベクトル（各行）の要素の最小値が0であることを確認
print("min==0", all(vectors_onehot.min(axis=1) == 0))

# 各ベクトル（各行）の要素の最大値が1であることを確認
print("max==1", all(vectors_onehot.max(axis=1) == 1))

# 各ベクトル（各行）の要素の合計値が1であることを確認
print("sum==1", all(vectors_onehot.sum(axis=1) == 1))

NameError: name 'vectors_onehot' is not defined

In [63]:
# One-Hot ベクトルの型を表示
print("One-Hot:", vectors_onehot.shape)

# 文書を単語分割(リスト化)した単語の数(重複あり)を表示
print("words:", len(words))

# 文書に含まれる単語（語彙）の数(重複なし)を表示
vocab = set([w[0] for w in words])
print("vocab:", len(vocab))

NameError: name 'vectors_onehot' is not defined

In [64]:
# 文書の中の単語インデックスをランダムに取得
idx = numpy.random.randint(0, len(words))

# ランダムに取得したインデックスに対応する単語ベクトルの次元(語彙)を特定
dim_idx = vectors_onehot[idx].argmax()

# One-Hot ベクトルを作成
v = numpy.zeros_like(vectors_onehot[idx], dtype=numpy.int)
v[dim_idx] = 1
assert numpy.all(v == vectors_onehot[idx])

# One-Hot ベクトルから単語に変換(復元を試みる)
w = onehot.inverse_transform([v]).ravel()

# One-Hot ベクトルに変換して単語に逆変換できていることを確認
print(words[idx], "->", v, f"(k={dim_idx}/{vectors_onehot.shape[1]})", "->", w)

NameError: name 'words' is not defined

### 3-5-1-2 Word2vec
One-Hotベクトルを前後の文脈を使ってベクトル表現を得る方法です。  
CBoWとSkip-gramという２つのモデルが提案され、gensimライブラリではパラメータで指定できます。

- CBowは、対象単語の周辺単語から対象単語を推定できるようにエンコードします。
- Skip-gramは対象の単語から周辺の単語を推定できるようにエンコードします。

周辺の単語をめぐる長さの事をW(ウィンドウサイズ)と言います。

Tips 局所表現と分散表現  
One-Hotによるベクトルなどの疎なベクトル表現は局所表現で、word2vecなどの密なベクトル表現は分散表現によるベクトル表現です。



In [65]:
import math
from gensim.models import Word2Vec

# 簡易ハッシュ関数
def _hash(s):
    n = len(s)
    h = 0
    for idx, c in enumerate(s):
        h += ord(c) * math.factorial(n-idx)
    return h

vector_size = 128
corpus = parsed_docs
model = Word2Vec(corpus, size=vector_size, min_count=1, window=5, workers=1, seed=333, hashfxn=_hash)
model

ModuleNotFoundError: No module named 'gensim'

In [66]:
# 再現性を担保するため、乱数のシードを明示的に指定
numpy.random.seed(123)

# corpus の中からランダムに文書インデックスを選択
didx = numpy.random.randint(0, len(corpus))

# 選んだ文書からランダムに単語インデックスを選択
widx = numpy.random.randint(0, len(corpus[didx]))

# ランダムに選んだインデックスに対応する単語を保持し、表示
w = parsed_docs[didx][widx]
print("word:", w)

# 選択した単語をベクトルに変換
v = model.wv[w]

# ベクトルを表示
print(f"vector[{w}]:", v)

# ベクトルの型を表示
print(f"vector[{w}].shape:", v.shape)

NameError: name 'corpus' is not defined

In [67]:
# 再現性を担保するため、乱数のシードを明示的に指定
numpy.random.seed(123)

# ベクトルにノイズを付与
noise = numpy.random.normal(loc=0.0, scale=0.001, size=v.shape)
vv = v + noise

# 元ベクトルに一番近いベクトルを表示
print("original word:", model.wv.similar_by_vector(v, topn=1)[0])

# 元ベクトルに近いベクトル、トップ4 を表示
print("neighbours for v:", model.wv.similar_by_vector(v, topn=4))

# ノイズを付与した元ベクトルに一番近いベクトルを表示
print("nearest neighbour for v + noise:", model.wv.similar_by_vector(vv, topn=1))

# ノイズを付与した元ベクトルに近いベクトル、トップ3 を表示
print("neighbours for v + noise:", model.wv.similar_by_vector(vv, topn=3))

NameError: name 'v' is not defined

In [68]:
print("word:", w)
print("similar_by_word:", model.wv.similar_by_word(w, topn=3))
print("similar_by_vector:", model.wv.similar_by_vector(v, topn=4))

NameError: name 'w' is not defined

In [69]:
from sklearn.metrics.pairwise import cosine_similarity

# 類似単語を取得
similars = model.wv.similar_by_vector(v, topn=5)
assert numpy.all(v == model.wv[w])

# 元の単語(wとその単語に近い単語群でループ
for simvec in similars[1:]:
    w2, s2 = simvec
    print("-" * 50)
    print("smilar_by_vector:", w2, s2)

    # cosine類似度を計算し表示
    v2 = model.wv[w2]
    cs = cosine_similarity([v], [v2])
    print("cosine_similarity:", w2, cs)
    print("allclose:", numpy.allclose(s2, cs[0][0]))
print("-" * 50)

NameError: name 'model' is not defined

## 3-5-2 文書のベクトル化

### 3-5-2-1 BoW　(Bag of Words)
One-Hotベクトルを拡張した文書のベクトル化手法。  
文章内の単語の数をベクトルの要素数としてベクトル化する手法です。



In [70]:
from sklearn.feature_extraction.text import CountVectorizer

# 恒等関数を用意
# # CountVectorizer などで、英語としてトークナイズ処理をさせないようにするため
def tokenize_idently(sentence: list):
    return sentence

# トイデータを用意
toydocs = [
    ['今日', 'は', '、', '晴れ', 'です', 'が', '、', 
        '明日', 'は', '晴れ', 'そう', 'に', 'ない', 'です', 'ね', '。'],
    ['晴れ', 'たら', 'いい', 'のに', '。'],
    ['今日', 'は', '、', 'あいにく', 'の', '雨', 'です', 'ね', '。',
        '明日', 'は', '、', '晴れ', 'らしい', 'です', 'よ', '！'],
]
corpus = toydocs

# BoW ベクトルに変換
bow = CountVectorizer(lowercase=False, tokenizer=tokenize_idently)
vectors_bow = bow.fit_transform(corpus).toarray()

# BoW ベクトルを表示
print("vectors_bow:", vectors_bow)

vectors_bow: [[2 1 0 0 1 1 0 2 1 1 1 0 0 2 0 0 1 1 2 0 0]
 [0 1 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0]
 [2 1 1 0 0 0 0 2 0 0 1 1 0 2 1 1 1 1 1 1 1]]


In [71]:
bow.vocabulary_

{'今日': 16,
 'は': 13,
 '、': 0,
 '晴れ': 18,
 'です': 7,
 'が': 4,
 '明日': 17,
 'そう': 5,
 'に': 9,
 'ない': 8,
 'ね': 10,
 '。': 1,
 'たら': 6,
 'いい': 3,
 'のに': 12,
 'あいにく': 2,
 'の': 11,
 '雨': 19,
 'らしい': 15,
 'よ': 14,
 '！': 20}

In [72]:
bow.inverse_transform(vectors_bow)

[array(['、', '。', 'が', 'そう', 'です', 'ない', 'に', 'ね', 'は', '今日', '明日', '晴れ'],
       dtype='<U4'),
 array(['。', 'いい', 'たら', 'のに', '晴れ'], dtype='<U4'),
 array(['、', '。', 'あいにく', 'です', 'ね', 'の', 'は', 'よ', 'らしい', '今日', '明日',
        '晴れ', '雨', '！'], dtype='<U4')]

In [73]:
# OneHotEncoder へ入力するために、corpus を変換
corpus = toydocs
words = [[w] for s in corpus for w in s]

# corpus で学習
onehot = OneHotEncoder(handle_unknown='ignore')
X = words
onehot.fit(X)

# corpus の文書単位でループ
sum_onehots = []
for doc in corpus:
    # corpus を文書単位でOne-Hotベクトルに変換
    X = [[w] for w in doc]
    vectors_onehot = onehot.transform(X).toarray().astype(numpy.int)

    # 文書単位で、One-Hot ベクトルの合計ベクトルを算出
    sum_onehot = vectors_onehot.sum(axis=0)
    sum_onehots.append(sum_onehot)
sum_onehots = numpy.array(sum_onehots)

# 作成した文書毎のベクトルを表示
print(sum_onehots)

[[2 1 0 0 1 1 0 2 1 1 1 0 0 2 0 0 1 1 2 0 0]
 [0 1 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0]
 [2 1 1 0 0 0 0 2 0 0 1 1 0 2 1 1 1 1 1 1 1]]


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  vectors_onehot = onehot.transform(X).toarray().astype(numpy.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  vectors_onehot = onehot.transform(X).toarray().astype(numpy.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  vectors_onehot = onehot.transform(X).toarray().astype(numpy.int)


In [74]:
print(vectors_bow)

[[2 1 0 0 1 1 0 2 1 1 1 0 0 2 0 0 1 1 2 0 0]
 [0 1 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0]
 [2 1 1 0 0 0 0 2 0 0 1 1 0 2 1 1 1 1 1 1 1]]


In [75]:
assert (sum_onehots == vectors_bow).all()   # 要素すべてが一致しているはず、ということの表明（満たされなかったらエラー）
sum_onehots == vectors_bow

array([[ True,  True,  True,  True,  True,  True,  True,  True,  True,
         True,  True,  True,  True,  True,  True,  True,  True,  True,
         True,  True,  True],
       [ True,  True,  True,  True,  True,  True,  True,  True,  True,
         True,  True,  True,  True,  True,  True,  True,  True,  True,
         True,  True,  True],
       [ True,  True,  True,  True,  True,  True,  True,  True,  True,
         True,  True,  True,  True,  True,  True,  True,  True,  True,
         True,  True,  True]])

In [76]:
bow = CountVectorizer(lowercase=False, tokenizer=tokenize_idently)
vectors_bow = bow.fit_transform(parsed_docs).toarray()
vectors_bow

NameError: name 'parsed_docs' is not defined

In [77]:
vectors_bow.shape

(3, 21)

In [78]:
(vectors_bow == 0).sum(axis=1) / vectors_bow.shape[1]

array([0.42857143, 0.76190476, 0.33333333])

### 3-5-2-2 TF-IDF (Term Frequency Inverse Document Frequency)
BoWを拡張した文書のベクトル化手法です。  
BoWベクトルを正規化したTFに、各単語を含む文書数の逆数に相当するIDFを掛けることで、  
どの文章にも高頻度で現れる女子や句読点などの単語に低い重みをつけてエンコードし、  
逆に特定の文書にしか表れない単語を重要語として高い重みをつけてエンコードします。



In [79]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = toydocs

tfidf = TfidfVectorizer(lowercase=False, tokenizer=tokenize_idently)
vectors_tfidf = tfidf.fit_transform(corpus).toarray()
vectors_tfidf

array([[0.40055242, 0.15553234, 0.        , 0.        , 0.26333915,
        0.26333915, 0.        , 0.40055242, 0.26333915, 0.26333915,
        0.20027621, 0.        , 0.        , 0.40055242, 0.        ,
        0.        , 0.20027621, 0.20027621, 0.31106469, 0.        ,
        0.        ],
       [0.        , 0.30714405, 0.        , 0.52004008, 0.        ,
        0.        , 0.52004008, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.52004008, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.30714405, 0.        ,
        0.        ],
       [0.38793189, 0.15063186, 0.25504191, 0.        , 0.        ,
        0.        , 0.        , 0.38793189, 0.        , 0.        ,
        0.19396595, 0.25504191, 0.        , 0.38793189, 0.25504191,
        0.25504191, 0.19396595, 0.19396595, 0.15063186, 0.25504191,
        0.25504191]])

In [80]:
[numpy.linalg.norm(docvec) for docvec in vectors_tfidf]


[1.0, 0.9999999999999999, 0.9999999999999999]

In [81]:
import numpy
from sklearn.feature_extraction.text import CountVectorizer

corpus = toydocs

# BoW ベクトルに変換
bow = CountVectorizer(lowercase=False, tokenizer=tokenize_idently)
vectors_bow = bow.fit_transform(corpus).toarray()

# tf を計算 (BoW を正規化)
# # BoW ベクトル(各単語の各文書における出現頻度)を各文書の単語数で正規化
vectors_tf = vectors_bow / vectors_bow.sum(axis=1).reshape(-1, 1)

# 各文書が単語を含む(1)か否(0)かをベクトル化
vectors_td = (vectors_bow > 0).astype(numpy.float32)

# idf の計算 / 単語を含む文書の発生確率に対する情報量を計算
all_df = len(vectors_td)
vectors_df = vectors_td.sum(axis=0) 
vectors_idf = numpy.log( (all_df + 1) / (vectors_df + 1) ) + 1

# tfidf を計算し、L2ノルムで正規化
vectors_tfidf_custom = vectors_tf * vectors_idf
vectors_tfidf_custom /= numpy.linalg.norm(vectors_tfidf_custom, axis=1).reshape(-1, 1)

In [82]:
vectors_tfidf_custom

array([[0.40055242, 0.15553235, 0.        , 0.        , 0.26333915,
        0.26333915, 0.        , 0.40055242, 0.26333915, 0.26333915,
        0.20027621, 0.        , 0.        , 0.40055242, 0.        ,
        0.        , 0.20027621, 0.20027621, 0.31106469, 0.        ,
        0.        ],
       [0.        , 0.30714405, 0.        , 0.52004008, 0.        ,
        0.        , 0.52004008, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.52004008, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.30714405, 0.        ,
        0.        ],
       [0.38793189, 0.15063186, 0.25504191, 0.        , 0.        ,
        0.        , 0.        , 0.38793189, 0.        , 0.        ,
        0.19396595, 0.25504191, 0.        , 0.38793189, 0.25504191,
        0.25504191, 0.19396595, 0.19396595, 0.15063186, 0.25504191,
        0.25504191]])

In [83]:
vectors_tfidf

array([[0.40055242, 0.15553234, 0.        , 0.        , 0.26333915,
        0.26333915, 0.        , 0.40055242, 0.26333915, 0.26333915,
        0.20027621, 0.        , 0.        , 0.40055242, 0.        ,
        0.        , 0.20027621, 0.20027621, 0.31106469, 0.        ,
        0.        ],
       [0.        , 0.30714405, 0.        , 0.52004008, 0.        ,
        0.        , 0.52004008, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.52004008, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.30714405, 0.        ,
        0.        ],
       [0.38793189, 0.15063186, 0.25504191, 0.        , 0.        ,
        0.        , 0.        , 0.38793189, 0.        , 0.        ,
        0.19396595, 0.25504191, 0.        , 0.38793189, 0.25504191,
        0.25504191, 0.19396595, 0.19396595, 0.15063186, 0.25504191,
        0.25504191]])

In [84]:
numpy.allclose(vectors_tfidf_custom, vectors_tfidf)

True

In [85]:
corpus = parsed_docs
tfidf = TfidfVectorizer(lowercase=False, tokenizer=tokenize_idently)
vectors_tfidf = tfidf.fit_transform(corpus).toarray()
print("vectors_tfidf:", vectors_tfidf)

NameError: name 'parsed_docs' is not defined

In [86]:
vectors_tfidf.shape

(3, 21)

In [87]:
(vectors_tfidf == 0).sum(axis=1) / vectors_tfidf.shape[1]

array([0.42857143, 0.76190476, 0.33333333])

### 3-5-2-3 Doc2vec
word2vecの文章ベクトル版です。  
word2vecによるベクトル化に加え、各文章に対応するParagraphidをベクトル化した結果のベクトルを使って  
入力した単語から対象の単語を推定できるように学習します。

In [88]:
corpus = toydocs
print(corpus)

[['今日', 'は', '、', '晴れ', 'です', 'が', '、', '明日', 'は', '晴れ', 'そう', 'に', 'ない', 'です', 'ね', '。'], ['晴れ', 'たら', 'いい', 'のに', '。'], ['今日', 'は', '、', 'あいにく', 'の', '雨', 'です', 'ね', '。', '明日', 'は', '、', '晴れ', 'らしい', 'です', 'よ', '！']]


In [89]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

# Doc2Vec のパラメータを設定
params = dict(
    vector_size=7,
    window=5,
    min_count=1,
    workers=2,
    seed=777,
)

# doc2vec に入力するためにTaggedDocument のリストを生成
tagged_docs = [TaggedDocument(doc, [idx, f"doc-{idx:02d}"]) for idx, doc in enumerate(corpus)]

# doc2vec の学習を実行
model = Doc2Vec(tagged_docs, **params)
model

ModuleNotFoundError: No module named 'gensim'

In [90]:
w = "晴れ"
print(f"{w}:", model.wv[w])

NameError: name 'model' is not defined

In [91]:
paragraph = corpus[0]
print("paragraph:", paragraph)
print("paragraph vector (trained):", model["doc-00"])
print("paragraph vector (infer) 1:", model.infer_vector(paragraph))
print("paragraph vector (infer) 2:", model.infer_vector(paragraph))

paragraph: ['今日', 'は', '、', '晴れ', 'です', 'が', '、', '明日', 'は', '晴れ', 'そう', 'に', 'ない', 'です', 'ね', '。']


NameError: name 'model' is not defined

In [92]:
paragraph = ["今日", "は"]
print("paragraph:", paragraph)

pv1 = model.infer_vector(paragraph)
pv2 = model.infer_vector(paragraph)

print("paragraph vector 1:", pv1)
print("paragraph vector 2:", pv2)
print("pv1 == pv2:", pv1==pv2)

from sklearn.metrics.pairwise import cosine_similarity
cs = cosine_similarity([pv1], [pv2])
print("cosine similarity:", cs)
print("allclose:", numpy.allclose(cs, 1))

paragraph: ['今日', 'は']


NameError: name 'model' is not defined

In [93]:
# TaggedDocument のリストを生成
corpus = parsed_docs
tagged_docs = [TaggedDocument(doc, [idx, f"doc-{idx:02d}"]) for idx, doc in enumerate(corpus)]

# Doc2Vec のパラメータを設定
params = dict(
    vector_size=128,  # 十分な次元数に変更
    window=5,
    min_count=1,
    workers=2,
    epochs=7,  # 学習回数を7 に変更
)

# 学習を実行
model = Doc2Vec(tagged_docs, **params)

NameError: name 'parsed_docs' is not defined

In [94]:
%time
paragraph = corpus[0]
print("paragraph:", paragraph)

pv1 = model.infer_vector(paragraph)
pv2 = model.infer_vector(paragraph)

print("paragraph vector:", pv1[:3], "...")
print("paragraph vector:", pv2[:3], "...")

cs = cosine_similarity([pv1], [pv2])
print("cosine similarity:", cs)
print("allclose:", numpy.allclose(cs, 1))
print("mse:", ((pv1-pv2)**2).sum())

CPU times: user 10 µs, sys: 1e+03 ns, total: 11 µs
Wall time: 24.1 µs
paragraph: ['今日', 'は', '、', '晴れ', 'です', 'が', '、', '明日', 'は', '晴れ', 'そう', 'に', 'ない', 'です', 'ね', '。']


NameError: name 'model' is not defined

In [95]:
%time
pv1 = model.infer_vector(paragraph, epochs=500)
pv2 = model.infer_vector(paragraph, epochs=500)
print("paragraph vector:", pv1[:3], "...")
print("paragraph vector:", pv2[:3], "...")
print("cosine similarity:", cosine_similarity([pv1], [pv2]))
print("allclose:", numpy.allclose(cs, 1))
print("mse:", ((pv1-pv2)**2).sum())

CPU times: user 9 µs, sys: 0 ns, total: 9 µs
Wall time: 14.8 µs


NameError: name 'model' is not defined

# Chapter3-6 オーグメンテーション（データの増幅)

純粋に精度を上げるという効果がある訳ではなく、学習データに類似するデータに対する頑健性を高める効果があり、  
結果として検証データ、テストデータに対して副次的に精度が向上する事がある。  
そのため、学習データに対して類似しないデータに対しての精度向上には繋がらない。


## 3-6-1 データ収集時のオーグメンテーション
最も効果が見込める方法は人手によるオーグメンテーションです。  
企業固有の表現や言い回しがあるため、導入先の企業社員の方やビジネスサイドの社員の方に協力を仰ぎ、増幅に協力してもらう事が有効です。

導入先企業での作業が難しい場合  
- AI/自然言語処理の品質を落としてもよい → 分析する企業やAIベンダ、専門業者に頼みましょう。
- 人手を裂けない、多少変な日本語でも良い → 機械翻訳（google翻訳など） → 無料は学習１回しかできない。

In [97]:
parsed_docs[0][:10]

NameError: name 'parsed_docs' is not defined

In [98]:
!pip install --upgrade google-cloud-translate

Collecting google-cloud-translate
  Downloading google_cloud_translate-3.1.0-py2.py3-none-any.whl (101 kB)
[K     |████████████████████████████████| 101 kB 1.5 MB/s ta 0:00:01
[?25hCollecting google-cloud-core<2.0dev,>=1.3.0
  Downloading google_cloud_core-1.6.0-py2.py3-none-any.whl (28 kB)
Collecting proto-plus>=0.4.0
  Downloading proto_plus-1.18.1-py3-none-any.whl (42 kB)
[K     |████████████████████████████████| 42 kB 232 kB/s  eta 0:00:01
[?25hCollecting google-api-core[grpc]<2.0.0dev,>=1.22.2
  Downloading google_api_core-1.26.3-py2.py3-none-any.whl (93 kB)
[K     |████████████████████████████████| 93 kB 203 kB/s eta 0:00:01
Collecting googleapis-common-protos<2.0dev,>=1.6.0
  Downloading googleapis_common_protos-1.53.0-py2.py3-none-any.whl (198 kB)
[K     |████████████████████████████████| 198 kB 17.4 MB/s eta 0:00:01
Collecting google-auth<2.0dev,>=1.21.1
  Downloading google_auth-1.28.1-py2.py3-none-any.whl (136 kB)
[K     |████████████████████████████████| 136 kB 10.7 

In [99]:
from google.colab import drive
drive.mount('/content/gdrive')

ModuleNotFoundError: No module named 'google.colab'

In [100]:
from google.colab import drive
drive.mount('/content/gdrive')

ModuleNotFoundError: No module named 'google.colab'

In [101]:
# 環境変数に、秘密鍵ファイル(JSON)を指定
import os
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "gdrive/My Drive/secret/key.json"

# Translate APIv2 をインポート
from google.cloud import translate_v2 as translate

# Client インスタンスを生成
translate_client = translate.Client()

# 指定された行(lines)毎に、日->英->日の翻訳で文章を作成する関数を定義
def augment_by_translation(lines: list, do_print=True):
    augmented = []
    for text in lines:
        # 翻訳(日->英)
        translation = translate_client.translate(
            text, target_language='en')
        translated_en = translation['translatedText']
        
        # 再翻訳(英->日)
        translation = translate_client.translate(
            translated_en, target_language='ja')
        restored = translation['translatedText']

        # 増幅データとして保持
        augmented.append(restored)

        # テキストを表示
        if do_print:
            print("-" * 80)
            print(f'Original: {text}')
            print(f'English: {translated_en}')
            print(f'Restored: {restored}')
    return augmented

augmented = augment_by_translation(prepped_lines)

DefaultCredentialsError: File gdrive/My Drive/secret/key.json was not found.

In [102]:
augmented2 = augment_by_translation(augmented)

NameError: name 'augment_by_translation' is not defined

## 3-6-2 形態素解析後のオーグメンテーション

形態素解析後では、別の類義語に置き換えることで、データ増幅をする事ができます。  
- Sudachiの類義語辞書らを選択する方法
- Wikipediaのword2vecから類義語を選択する方法

In [103]:
# Wikipediaの方法
!ls
!wget https://github.com/singletongue/WikiEntVec/releases/download/20190520/jawiki.all_vectors.100d.txt.bz2 -O jawiki-model.txt.bz2
!bzip2 -d jawiki-model.txt.bz2
!ls

answer			   preprocess_knock_Python.ipynb
data			   preprocess_knock_R.ipynb
Entity_Relationship.ipynb  preprocess_knock_SQL.ipynb
genbapro_chapter3.ipynb    wikipedia.json
--2021-04-10 08:03:16--  https://github.com/singletongue/WikiEntVec/releases/download/20190520/jawiki.all_vectors.100d.txt.bz2
Resolving github.com (github.com)... 52.192.72.89
Connecting to github.com (github.com)|52.192.72.89|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github-releases.githubusercontent.com/141127256/0f0df900-8e07-11e9-8309-25da3d3b21b1?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20210410%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20210410T080316Z&X-Amz-Expires=300&X-Amz-Signature=ba411812fd883ad11b4b903933ddc0e71bfd5864455024dcce4644d37d68fc2f&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=141127256&response-content-disposition=attachment%3B%20filename%3Djawiki.all_vectors.100d.txt.bz2&response-content-type=application%2

In [104]:
!ls -l jawiki-model.txt
!date

-rw-r--r-- 1 jovyan users 1748273390 Jun 13  2019 jawiki-model.txt
Sat 10 Apr 2021 08:10:28 AM UTC


In [105]:
%%time
import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('jawiki-model.txt', binary=False)

ModuleNotFoundError: No module named 'gensim'

In [106]:
word = "増幅"
print(f"{word}:", model.wv[word][:5])
print(f"neighbour of {word}:", model.similar_by_vector("増幅", topn=3))

NameError: name 'model' is not defined

In [None]:
# 指定されたドキュメントからランダムにインデックスを取得
def random_index(doc):
    for _ in doc:
        idx = numpy.random.randint(0, len(doc))
        word = doc[idx]
        if word in model.wv:
            return idx
    return -1   # means Not Found

# Wikipedia を使ったオーグメンテーション
def do_augmentation_by_wikipedia(docs, replace_rate=0.2):
    # replace_rate = 0.2   # 元文書からの変換割合

    # 文書毎に処理
    augmented = []
    replaced = []
    for doc in docs:
        # 類義語に変換する回数
        max_replaces = int(len(doc) * replace_rate)

        # 変換数分ループ処理
        doc_new = doc.copy()
        replaced_pairs = []
        for _ in range(max_replaces):
            # 変換する場所・インデックスをランダムに取得
            idx = random_index(doc)
            if idx < 0:     # Not Found
                break
            word = doc_new[idx]
            # 類義語(一番近い単語)を取得
            word_similar = model.similar_by_word(word, topn=1)[0]
            # 取得した類義語で更新
            doc_new[idx] = word_similar[0]
            # 変換前と後の単語を記録用に保持
            replaced_pairs.append((idx, word, word_similar[0]))
            # print(f"{_}:", word, "->", word_similar[0], "at", idx)   # デバッグ用
        augmented.append(doc_new)
        replaced.append(replaced_pairs)
    
    return augmented, replaced

In [None]:
%%time
# around 5 min
augmented, replaced = do_augmentation_by_wikipedia(parsed_docs)

In [None]:
doc_idx = numpy.random.randint(0, len(parsed_docs))
print(f"org[{doc_idx}]:", "".join(parsed_docs[doc_idx]))
print(f"aug[{doc_idx}]:", "".join(augmented[doc_idx]))

In [None]:
sorted(replaced[doc_idx])[:5]

In [None]:
%%time
# around 5 min
augmented2, replaced2 = do_augmentation_by_wikipedia(augmented)

In [None]:
doc_idx = numpy.random.randint(0, len(parsed_docs))
print(f"org[{doc_idx}]:", "".join(parsed_docs[doc_idx]))
print(f"aug[{doc_idx}]:", "".join(augmented2[doc_idx]))

# 3-6-3 ベクトル化後のオーグメンテーション

ベクトル化を行った後に実行可能なオーグメンテーション。  
One-Hotベクトルに対するノイズ付与と、Word2vecで埋め込んだベクトルに対するノイズ付与があります。  
※Doc2vecに対してもWord2vecと同じ方法で、正規乱数を付与してのオーグメンテーションができます。

## 3-6-3-1 One-Hot ベクトルのオーグメンテーション

In [None]:
# OneHotEncoder に入力するために変換
words = [[word] for doc in parsed_docs for word in doc]
X = words

# One-Hot ベクトルに変換
onehot = OneHotEncoder(handle_unknown='ignore')
vectors_onehot = onehot.fit_transform(X).toarray().astype(numpy.int)

# One-Hot であることを確認
# # 各ベクトル（各行）の要素の最小値が0であること
min_equals_0 = all(vectors_onehot.min(axis=1) == 0)

# # 各ベクトル（各行）の要素の最大値が1であること
max_equals_1 = all(vectors_onehot.max(axis=1) == 1)

# # 各ベクトル（各行）の要素の合計値が1であること
sum_equals_1 = all(vectors_onehot.sum(axis=1) == 1)

is_one_hot = all([min_equals_0, max_equals_1, sum_equals_1])
is_one_hot


In [None]:
# 桁数を使って、ベルヌーイ分布の確率を設定
## ノイズフラグ=1になる個数を5個以下(ノイズとみなしても良さそうな個数)に抑えるための工夫
pw = numpy.ceil(numpy.log10(vectors_onehot.shape[1]))
noise_prob = 0.5 * 10**(-pw)

# ベルヌーイ分布から乱数ベクトル(ノイズベクトル)を取得
noise_vectors = numpy.ranacdom.binomial(1, noise_prob, vectors_onehot.shape)
set(noise_vectors.ravel())

In [None]:
noise_vectors.shape

In [None]:
# 基本統計量を表示
nvsum = pandas.Series(noise_vectors.sum(axis=1))
nvsum.describe()

In [None]:
%%bash
apt-get install -y fonts-ipafont-gothic > /dev/null
cachedir=$(python -c 'import matplotlib as m; print(m.get_cachedir())')
rm -f $cachedir/fontlist-v300.json
pip install japanize-matplotlib > /dev/null

In [None]:
import matplotlib
from matplotlib import pyplot
import japanize_matplotlib

matplotlib.rc('font', family="IPAexGothic")

In [None]:
# ヒストグラムを表示
bins = nvsum.max()
pyplot.clf()
pyplot.xlabel("ノイズベクトルのノイズ次元の個数")
pyplot.ylabel("個数に対する頻度")
nvsum.hist(bins=bins)

In [None]:
# (参考) 各値の個数を表示
for n in range(nvsum.max() + 1):
    print(f"{n}:", (nvsum == n).sum())

In [None]:
noise_rate = 0.2
vectors_augmented = vectors_onehot + noise_rate * noise_vectors
vaug = pandas.Series(vectors_augmented.sum(axis=1))
pyplot.clf()
pyplot.xlabel("ベクトル毎の全次元の合計値")
pyplot.ylabel("合計値に対する頻度")
vaug.hist()

In [None]:
# コピーを生成
v = vectors_augmented.copy()

# 配列の型(shape)を確認
print("v.shape:", v.shape)
print("v.sum(axis=1).shape:", v.sum(axis=1).shape)

# 各要素(次元)の値が1になるように正規化
v = v / v.sum(axis=1).reshape(-1, 1)
v

In [None]:
numpy.allclose(v.sum(axis=1), 1.0)

## 3-6-3-2 Word2vec ベクトルのオーグメンテーション

In [None]:
from gensim.models import Word2Vec
vector_size = 128
corpus = parsed_docs
model = Word2Vec(corpus, size=vector_size, min_count=1, window=5)
model

In [None]:
import random
word = random.sample(model.wv.vocab.keys(), 1)
print("word:", word)

v = model.wv[word]
sv = pandas.Series(v.ravel())
sv.describe()

In [None]:
scale_rate = 0.1
noise_vector = numpy.random.normal(0.0, scale= scale_rate * sv.std(), size=v.shape)
snv = pandas.Series(noise_vector.ravel())
snv.describe()

In [None]:
pyplot.clf()
pyplot.xlabel("ノイズベクトルの各次元の値")
pyplot.ylabel("各次元の値に対する頻度")
snv.hist(bins=20)

In [None]:
def augment_by_normal_noise(word, scale_rate=0.1):
    v = model.wv[word]
    noise_vector = numpy.random.normal(0.0, scale= scale_rate* v.std(), size=v.shape)
    return v + noise_vector

word = random.sample(model.wv.vocab.keys(), 1)
print("word:", word)
aug_vector1 = augment_by_normal_noise(word)
aug_vector2 = augment_by_normal_noise(word)
print("aug_vector1:", aug_vector1.ravel()[:5])
print("aug_vector2:", aug_vector2.ravel()[:5])
(aug_vector1 == aug_vector2).all()

In [None]:
restored_word1 = model.similar_by_vector(aug_vector1.ravel(), topn=1)
restored_word2 = model.similar_by_vector(aug_vector2.ravel(), topn=1)
print("original word:", word)
print("restored_word1:", restored_word1)
print("restored_word2:", restored_word2)

In [107]:
aug_vector1 = augment_by_normal_noise(word, scale_rate=7.0)
aug_vector2 = augment_by_normal_noise(word, scale_rate=7.0)

restored_word1 = model.similar_by_vector(aug_vector1.ravel(), topn=1)
restored_word2 = model.similar_by_vector(aug_vector2.ravel(), topn=1)

print("original word:", word)
print("restored_word1:", restored_word1)
print("restored_word2:", restored_word2)

NameError: name 'augment_by_normal_noise' is not defined

In [108]:
!date

Sat 10 Apr 2021 08:10:42 AM UTC


# その他の方法

テキスト生成モデル(GAN)を使ってのオーグメンテーションすることもできます。  
現在は学習データの分布から生成するため、学習データの分布と異なる実データでの精度には限界があると言われていますが、  
画像データでは学習なしの画像生成も実現しているので、今後に注目したい技術です。