# 現場のプロが伝える前処理技術 Chapter3

# Chapter3-1 自然言語データの処理の基本

### 自然言語処理の作業手順

テキスト読み込み  
↓  
クレイジング  
↓　　　　　← データオーグメンテーション  
形態素解析  
↓　　　　　← データオーグメンテーション  
ベクトル化  
↓  
学習/推定  
↓  
可視化/評価  → 改善ループ  
↓  
レポート作成/報告  → フィードバック

## Chapter3-2 テキスト読み込み

#### 3-2-1 一覧データの取得

In [18]:
%%time
import numpy
import pandas

# 青空文庫の一覧データのURLにアクセスし、データフレームとして保持
aozora_list_url = "http://aozora-word.hahasoha.net/aozora_word_list_utf8.csv.gz"
df = pandas.read_csv(aozora_list_url, header=0, encoding="UTF-8")
df.head(2)

CPU times: user 176 ms, sys: 15.4 ms, total: 192 ms
Wall time: 474 ms


Unnamed: 0,作品id,作品名,作品名読み,ソート用読み,副題,副題読み,原題,初出,分類番号,文字遣い種別,...,テキストファイル最終更新日,テキストファイル符号化方式,テキストファイル文字集合,テキストファイル修正回数,XHTML/HTMLファイルURL,XHTML/HTMLファイル最終更新日,XHTML/HTMLファイル符号化方式,XHTML/HTMLファイル文字集合,XHTML/HTMLファイル修正回数,file
0,2,三十三の死,さんじゅうさんのし,さんしゆうさんのし,,,,,NDC 913,旧字旧仮名,...,2005-12-28,ShiftJIS,JIS X 0208,2,http://www.aozora.gr.jp/cards/000012/files/2_2...,2005-12-28,ShiftJIS,JIS X 0208,0,2_20959.html
1,5,あいびき,あいびき,あいひき,,,,,NDC 983,新字新仮名,...,2006-01-06,ShiftJIS,JIS X 0208,3,http://www.aozora.gr.jp/cards/000005/files/5_2...,2006-01-06,ShiftJIS,JIS X 0208,0,5_21310.html


#### 3-2-2 一覧データの理解

In [3]:
# 再現性を担保するため、乱数のシードを明示的に指定
seed = 1
rs = numpy.random.RandomState(seed)

# ランダムサンプリング
sample_idx = rs.randint(0, len(df))
sample_idx

235

In [4]:
df.iloc[sample_idx]

作品id                                                              000246
作品名                                                                  畜犬談
作品名読み                                                             ちくけんだん
ソート用読み                                                            ちくけんたん
副題                                                           ―伊馬鵜平君に与える―
副題読み                                                      ―いまうへいくんにあたえる―
原題                                                                   NaN
初出                                                    「文学者」1939（昭和14）年8月
分類番号                                                             NDC 913
文字遣い種別                                                             新字新仮名
作品著作権フラグ                                                              なし
公開日                                                           1999-04-12
最終更新日                                                         2012-10-31
図書カードurl               http://www.aozora.gr.jp/card

In [20]:
# 情報量が多すぎるので表示される情報を絞る。
# 分類番号は文章分類で使用する。
df.iloc[sample_idx][["テキストファイルurl", "XHTML/HTMLファイルURL", "XHTML/HTMLファイル符号化方式", "分類番号"]]

テキストファイルurl            http://www.aozora.gr.jp/cards/000035/files/246...
XHTML/HTMLファイルURL      http://www.aozora.gr.jp/cards/000035/files/246...
XHTML/HTMLファイル符号化方式                                             ShiftJIS
分類番号                                                             NDC 913
Name: 235, dtype: object

#### HTMLのテキスト取得手順
- URLにリクエストして、レスポンスを取得。
- HTTPコードが200以上の時は、例外処理。
- HTMLオブジェクトを取得
- HTMLオブジェクトからテキストコンテンツを取得し表示
  -  最初の100文字
  -  区切り線
  -  最後の100文字

In [21]:
sample_zip_url = df.iloc[sample_idx]["テキストファイルurl"]    # zip
sample_html_url = df.iloc[sample_idx]["XHTML/HTMLファイルURL"]    # html
sample_encoding = df.iloc[sample_idx]["XHTML/HTMLファイル符号化方式"]    # encoding
sample_zip_url, sample_html_url, sample_encoding

('http://www.aozora.gr.jp/cards/000035/files/246_ruby_1636.zip',
 'http://www.aozora.gr.jp/cards/000035/files/246_34649.html',
 'ShiftJIS')

In [22]:
import lxml.html
import requests

html = None

# 指定されたURL にリクエストし、レスポンスを取得
response = requests.get(sample_html_url)

# HTTPコードが200以外の場合は、例外処理
if response.status_code != 200:
    raise Exception(f"HTTP Error. status code: {response.status_code}")

# HTMLオブジェクトを取得
html = lxml.html.fromstring(response.content)


# HTMLオブジェクトから、テキストコンテンツを取得し表示
# - 最初の150文字
print(html.text_content()[:150])

# - 区切り線を表示
print("\n", "~ " * 50, sep="")
print("~ " * 50, "\n")

# - 最後の150文字
print(html.text_content()[-150:])



	
	
	
	太宰治 畜犬談 ―伊馬鵜平君に与える―
	
	
	


畜犬談
―伊馬鵜平君に与える―
太宰治




　私は、犬については自信がある。いつの日か、かならず喰（く）いつかれるであろうという自信である。私は、きっと噛（か）まれるにちがいない。自信が

~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ 
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~  

ーネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。






●表記について

	このファイルは W3C 勧告 XHTML1.1 にそった形式で作成されています。






#### 3-2-4 テキストデータの取得(ZIP)

In [15]:
import io
import requests
import zipfile

# URLからダウンロード
response = requests.get(sample_zip_url)

# ダウンロードしたzipデータをファイルとして展開（解答）
z = zipfile.ZipFile(io.BytesIO(response.content))
z.extractall("./data")

# ローカルのテキストファイルパスを変数として保持
txt_file = "./data/" + z.infolist()[0].filename

# エンコーディングを指定して、テキストファイルを読み込み
with open(txt_file, "r", encoding=sample_encoding) as f:
    # ファイル全体を読み込み内容を保持
    content = f.read()

    # 最初の300文字を表示
    print(content[:300])

    # 区切り線を表示
    print("\n", "~ " * 50, sep="")
    print("~ " * 50, "\n")

    # 最後の100文字を表示
    print(content[-300:])

畜犬談
―伊馬鵜平君に与える―
太宰治

-------------------------------------------------------
【テキスト中に現れる記号について】

《》：ルビ
（例）喰《く》いつかれる

｜：ルビの付く文字列の始まりを特定する記号
（例）十匹｜這《は》っている
-------------------------------------------------------

　私は、犬については自信がある。いつの日か、かならず喰《く》いつかれるであろうという自信である。私は、きっと噛《か》まれるにちがいない。自信があるのである。よくぞ、きょうまで喰いつ

~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ 
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~  

かい？」
「ええ」家内は、浮かぬ顔をしていた。
「ポチにやれ、二つあるなら、二つやれ。おまえも我慢しろ。皮膚病なんてのは、すぐなおるよ」
「ええ」家内は、やはり浮かぬ顔をしていた。



底本：「日本文学全集70　太宰治集」集英社
　　　1972（昭和47）年3月初版
初出：「文学者」
　　　1939（昭和14）年8月
入力：網迫
校正：田尻幹二
1999年4月12日公開
2009年3月6日修正
青空文庫作成ファイル：
このファイルは、インターネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。



#### 3-2-5 エンコーディング
- LINUX系OSのデフォルトはUTF-8
- windowsはShirt-JIS、またはその拡張版のCPS932

google colabはUTF-8をデフォルトとしている。  
自然言語でもUTF-8が多い。


In [29]:
import traceback
try:
    with open(txt_file, "r") as f:
        lines = f.readlines()
except UnicodeDecodeError as e:
    stack_trace = traceback.format_exc(chain=e)
    print(stack_trace)

Traceback (most recent call last):
  File "<ipython-input-29-b1c27d6ca8fc>", line 4, in <module>
    lines = f.readlines()
  File "/usr/local/lib/python3.9/codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 0: invalid start byte



In [31]:
import locale
locale.getpreferredencoding(False)

'UTF-8'

In [25]:
# 一覧からの取得した文字コードを確認
sample_encoding

'ShiftJIS'

In [26]:
# UTF-8 を明示的に指定
try:
    with open(txt_file, "r", encoding="UTF-8") as f:
        lines = f.readlines()
except UnicodeDecodeError as e:
    stack_trace = traceback.format_exc(chain=e)
    print(stack_trace)

Traceback (most recent call last):
  File "<ipython-input-26-22eb386eb1ee>", line 4, in <module>
    lines = f.readlines()
  File "/usr/local/lib/python3.9/codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 0: invalid start byte



In [27]:
# Shift-JIS を明示的に指定
with open(txt_file, "r", encoding="Shift-JIS") as f:
    lines = f.readlines()

In [28]:
# CP9328 を明示的に指定
with open(txt_file, "r", encoding="CP932") as f:
    lines = f.readlines()

#### 3-2-6-1 TSV(タブ区切り)形式
csvではカンマなどを含む区切り位置が多少面倒な事がある、TSVでは値に入る事がほとんど無い区切り文字を使用することで、  
区切り位置が入っているか確認して加工する必要がなくなります。  

Excelをコピーしてテキストファイルに入れるとTSV型式になるので比較的よく見る。

In [32]:
!rm -rf diabetes-data* Diabetes-Data
!ls
!echo "-----"
!curl -sSLO https://archive.ics.uci.edu/ml/machine-learning-databases/diabetes/diabetes-data.tar.Z
!tar xzf diabetes-data.tar.Z
!head -n 5 Diabetes-Data/data-01
!echo "-----"
!ls

awesomebook  genbapro_chapter2.ipynb  genbapro_preprocessing
data	     genbapro_chapter3.ipynb  preprocessing.book.ipynb
-----
04-21-1991	9:09	58	100
04-21-1991	9:09	33	009
04-21-1991	9:09	34	013
04-21-1991	17:08	62	119
04-21-1991	17:08	33	007
-----
Diabetes-Data  diabetes-data.tar.Z	genbapro_preprocessing
awesomebook    genbapro_chapter2.ipynb	preprocessing.book.ipynb
data	       genbapro_chapter3.ipynb


In [33]:
# ダウンロードしたデータを読み込む
df = pandas.read_csv("Diabetes-Data/data-01", sep="\t", header=None)

# データの可読性を上げるため、カラムを設定
df.columns = ["date", "time", "code", "value"]
df.head(3)

Unnamed: 0,date,time,code,value
0,04-21-1991,9:09,58,100
1,04-21-1991,9:09,33,9
2,04-21-1991,9:09,34,13


In [34]:
# 使用したファイルを削除
!rm -rf diabetes-data.*
!rm -rf Diabetes-Data

#### 3-2-6-2 Excel 形式

CSV型式やTSV型式に変換することで読み込めます。  
pandasはそのままExcelから読み込めるようになっています。

In [40]:
pip install xls

Collecting PyV8
  Using cached PyV8-0.5.zip (22 kB)
Building wheels for collected packages: PyV8
  Building wheel for PyV8 (setup.py) ... [?25lerror
[31m  ERROR: Command errored out with exit status 1:
   command: /usr/local/bin/python -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install-jb0eowk0/pyv8_8c8c2cf0b7864209a81fdbe9939e96f4/setup.py'"'"'; __file__='"'"'/tmp/pip-install-jb0eowk0/pyv8_8c8c2cf0b7864209a81fdbe9939e96f4/setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(__file__);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' bdist_wheel -d /tmp/pip-wheel-8pk8wzfj
       cwd: /tmp/pip-install-jb0eowk0/pyv8_8c8c2cf0b7864209a81fdbe9939e96f4/
  Complete output (17 lines):
  running bdist_wheel
  running build
  running build_py
  creating build
  creating build/lib.linux-aarch64-3.9
  copying PyV8.py -> build/lib.linux-aarch64-3.9
  running build_ext
  building '_PyV8' extension
  creating bu

In [41]:
xls_url = "http://www.city.chofu.tokyo.jp/www/contents/1557709709559/simple/86.xls"
pandas.read_excel(xls_url, header=1)

ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.

#### 3-2-63 JSON形式
Webアプリケーションの業務利用など多く使われており、近年増えている。

In [51]:
%%bash
apt update -y
apt install -y autoconf automake build-essential libtool python-dev
apt install jq  # コマンドライン
pip install jq==0.1.8  # python モジュール

Hit:1 http://deb.debian.org/debian buster InRelease
Hit:2 http://security.debian.org/debian-security buster/updates InRelease
Hit:3 http://deb.debian.org/debian buster-updates InRelease
Reading package lists...
Building dependency tree...
Reading state information...
30 packages can be upgraded. Run 'apt list --upgradable' to see them.
Reading package lists...
Building dependency tree...
Reading state information...
autoconf is already the newest version (2.69-11).
automake is already the newest version (1:1.16.1-4).
build-essential is already the newest version (12.6).
libtool is already the newest version (2.4.6-9).
python-dev is already the newest version (2.7.16-1).
0 upgraded, 0 newly installed, 0 to remove and 30 not upgraded.
Reading package lists...
Building dependency tree...
Reading state information...
The following additional packages will be installed:
  libjq1 libonig5
The following NEW packages will be installed:
  jq libjq1 libonig5
0 upgraded, 3 newly installed, 0 to r









CalledProcessError: Command 'b'apt update -y\napt install -y autoconf automake build-essential libtool python-dev\napt install jq  # \xe3\x82\xb3\xe3\x83\x9e\xe3\x83\xb3\xe3\x83\x89\xe3\x83\xa9\xe3\x82\xa4\xe3\x83\xb3\npip install jq==0.1.8  # python \xe3\x83\xa2\xe3\x82\xb8\xe3\x83\xa5\xe3\x83\xbc\xe3\x83\xab\n'' returned non-zero exit status 1.

In [None]:
%%bash
# Wikipedia API へアクセスして、取得した内容(JSON形式のデータ)を `wikipedia.json` に保存
curl -sS -XPOST \
    "https://ja.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exlimit=1" \
    --data-urlencode "titles=自然言語" -o wikipedia.json

# 保存した内容(JSON形式)を整形して表示
cat wikipedia.json | jq .

In [43]:
import json
from jq import jq

# JSON形式のファイルを読み込む
with open("wikipedia.json", "r") as f:
    jsn = json.load(f)

# JSONオブジェクトを表示
print(jsn)

ModuleNotFoundError: No module named 'jq'

In [44]:
# Wikipedia ページの本文をテキストとして抽出
text = jq('.query.pages."68".extract').transform(jsn, text_output=True)

# 抽出した本文を表示
print(text)

NameError: name 'jq' is not defined

In [45]:
import re

# HTMLタグを削除
formatted = re.sub(r"</?\w+(\s+[^>]+)?>", "", text)

# `\n` という文字列を、改行コードに変更
formatted = formatted.replace("\\n", "\n")

# 整形後のテキストを表示
print(formatted[:150], "...")

NameError: name 'text' is not defined

In [52]:
%%bash
curl -sS \
    "https://ja.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exlimit=1&explaintext=true" \
    --data-urlencode "titles=自然言語" \
| jq '.query.pages."68".extract' \
| cut -c-100    # 先頭100バイトだけ表示


bash: line 4: jq: command not found
curl: (23) Failed writing body (0 != 5746)


In [53]:
%%bash
curl -sS -XPOST \
    "https://ja.wikipedia.org/w/api.php?format=json&action=query&prop=extracts" \
    --data "exlimit=1" \
    --data "explaintext=true" \
    --data-urlencode "titles=自然言語" \
| jq '.query.pages."68".extract' \
| cut -c-100    # 先頭100バイトだけ表示

bash: line 6: jq: command not found
curl: (23) Failed writing body (0 != 5746)


# Chapter3-3 データクレンジング

形態素解析するために不要なものを取り除く処理。  

クレンジング対象  
- ヘッダ、フッタ情報 (タイトルや作者などのメタ情報、文末の文章説明)
- 文章の始まり、終わり、改行や会話、段落の先頭の全角スペース（\u3000)
- ふりがなやルビ

処理後に綺麗な処理ができているか確認し、イメージ通りに出来るまで繰り返し分集合を作る。

## 3-3-1 テキスト文書の不要文字の削除


In [55]:
with open(txt_file, "r", encoding=sample_encoding) as f:
    # ファイル全体を読み込み、内容を保持
    lines = f.readlines()

In [56]:
print(*lines[:15])

畜犬談
 ―伊馬鵜平君に与える―
 太宰治
 
 -------------------------------------------------------
 【テキスト中に現れる記号について】
 
 《》：ルビ
 （例）喰《く》いつかれる
 
 ｜：ルビの付く文字列の始まりを特定する記号
 （例）十匹｜這《は》っている
 -------------------------------------------------------
 
 　私は、犬については自信がある。いつの日か、かならず喰《く》いつかれるであろうという自信である。私は、きっと噛《か》まれるにちがいない。自信があるのである。よくぞ、きょうまで喰いつかれもせず無事に過してきたものだと不思議な気さえしているのである。諸君、犬は猛獣である。馬を斃《たお》し、たまさかには獅子《しし》と戦ってさえこれを征服するとかいうではないか。さもありなんと私はひとり淋しく首肯《しゅこう》しているのだ。あの犬の、鋭い牙《きば》を見るがよい。ただものではない。いまは、あのように街路で無心のふうを装い、とるに足らぬもののごとくみずから卑下して、芥箱《ごみばこ》を覗《のぞ》きまわったりなどしてみせているが、もともと馬を斃すほどの猛獣である。いつなんどき、怒り狂い、その本性を暴露するか、わかったものではない。犬はかならず鎖に固くしばりつけておくべきである。少しの油断もあってはならぬ。世の多くの飼い主は、みずから恐ろしき猛獣を養い、これに日々わずかの残飯《ざんぱん》を与えているという理由だけにて、まったくこの猛獣に心をゆるし、エスやエスやなど、気楽に呼んで、さながら家族の一員のごとく身辺に近づかしめ、三歳のわが愛子をして、その猛獣の耳をぐいと引っぱらせて大笑いしている図にいたっては、戦慄《せんりつ》、眼を蓋《おお》わざるを得ないのである。不意に、わんといって喰いついたら、どうする気だろう。気をつけなければならぬ。飼い主でさえ、噛みつかれぬとは保証できがたい猛獣を、（飼い主だから、絶対に喰いつかれぬということは愚かな気のいい迷信にすぎない。あの恐ろしい牙のある以上、かならず噛む。けっして噛まないということは、科学的に証明できるはずはないのである）その猛獣を、放し飼いにして、往来をうろうろ徘徊《はいかい》させておくとは、どんなもの

In [57]:
print(*lines[-15:])

「ポチにやれ、二つあるなら、二つやれ。おまえも我慢しろ。皮膚病なんてのは、すぐなおるよ」
 「ええ」家内は、やはり浮かぬ顔をしていた。
 
 
 
 底本：「日本文学全集70　太宰治集」集英社
 　　　1972（昭和47）年3月初版
 初出：「文学者」
 　　　1939（昭和14）年8月
 入力：網迫
 校正：田尻幹二
 1999年4月12日公開
 2009年3月6日修正
 青空文庫作成ファイル：
 このファイルは、インターネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。



In [60]:
# 文章の開始行、末尾行インデックス番号の取得
import re
idx_start, idx_end = -1, -1
for idx, line in enumerate(lines):
    # 本文の開始行のインデックス（番号）を特定する
    if re.search(r"^---", line):
        idx_start = idx + 1

    # 本文の末尾行のインデックス（番号）を特定する
    if re.search(r"^底本：", line):
        idx_end = idx - 1

print(idx_start, idx_end)

13 70


In [61]:
# 開始行と末尾行間のインデックス毎にfor文内の処理を行う。
prepped_lines = []
for line in lines[idx_start:idx_end]:
    # 行の前後の空白コード(半角スペース、改行コードなど))を削除
    line = line.strip()

    # ルビを削除
    line = re.sub(r"｜", "", line)
    line = re.sub(r"《.*?》", "", line)

    # 入力者の注釈を削除
    line = re.sub(r"※?［＃.*?］", "", line)

    # Unicode の全角スペースを削除
    line = re.sub(r"\u3000+", " ", line)

    # 変換後の行が空行の場合は、スキップ
    if line == "":
        continue
    prepped_lines.append(line)


まとめ
- 削除の指定には正規表現を使用する。
- 最短一致(.*?)にしないと、最初から最後の間まで全部削除される可能性があるため。
- 全角スペースは半角スペースに変換し、何か文字列があれば処理済みの行の配列に保持している。

慣れないうちは、変換結果を見ながらPDCA細かく回していく。

In [67]:
# 最初の10行を表示
# prepped_lines[:10]
# 最後の10行を表示
# prepped_lines[-10:]

# 再現性を担保するため、乱数のシードを明示的に指定
numpy.random.seed(7)

# ランダムに選んだ行から10行を表示
sample_line_idx = numpy.random.randint(0, len(prepped_lines))
print("sample_line_idx:", sample_line_idx)
prepped_lines[sample_line_idx:sample_line_idx+10]

sample_line_idx: 47


['「ポチ、食え」私はポチを見たくなかった。ぼんやりそこに立ったまま、「ポチ、食え」足もとで、ぺちゃぺちゃ食べている音がする。一分たたぬうちに死ぬはずだ。',
 '私は猫背になって、のろのろ歩いた。霧が深い。ほんのちかくの山が、ぼんやり黒く見えるだけだ。南アルプス連峰も、富士山も、何も見えない。朝露で、下駄がびしょぬれである。私はいっそうひどい猫背になって、のろのろ帰途についた。橋を渡り、中学校のまえまで来て、振り向くとポチが、ちゃんといた。面目なげに、首を垂れ、私の視線をそっとそらした。',
 '私も、もう大人である。いたずらな感傷はなかった。すぐ事態を察知した。薬品が効かなかったのだ。うなずいて、もうすでに私は、白紙還元である。家へ帰って、',
 '「だめだよ。薬が効かないのだ。ゆるしてやろうよ。あいつには、罪がなかったんだぜ。芸術家は、もともと弱い者の味方だったはずなんだ」私は、途中で考えてきたことをそのまま言ってみた。「弱者の友なんだ。芸術家にとって、これが出発で、また最高の目的なんだ。こんな単純なこと、僕は忘れていた。僕だけじゃない。みんなが、忘れているんだ。僕は、ポチを東京へ連れてゆこうと思うよ。友がもしポチの恰好を笑ったら、ぶん殴ってやる。卵あるかい？」',
 '「ええ」家内は、浮かぬ顔をしていた。',
 '「ポチにやれ、二つあるなら、二つやれ。おまえも我慢しろ。皮膚病なんてのは、すぐなおるよ」',
 '「ええ」家内は、やはり浮かぬ顔をしていた。']

## 3-3-2 HTML文書から本文のみ取得／抽出

In [68]:
# XPathを利用して、本文のみを抽出
main_text = html.xpath("//div[@class='main_text']")
content = main_text[0].text_content()

# 最初の100文字を表示
print(content[:100])

# 区切り線を表示
print("\n", "~ " * 50, sep="")
print("~ " * 50, "\n")

# 最後の100文字を表示
print(content[-100:])





　私は、犬については自信がある。いつの日か、かならず喰（く）いつかれるであろうという自信である。私は、きっと噛（か）まれるにちがいない。自信があるのである。よくぞ、きょうまで喰いつかれ

~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ 
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~  

い？」
「ええ」家内は、浮かぬ顔をしていた。
「ポチにやれ、二つあるなら、二つやれ。おまえも我慢しろ。皮膚病なんてのは、すぐなおるよ」
「ええ」家内は、やはり浮かぬ顔をしていた。






### 3-3-2-1 行分割

文字列型を行単位に分割したリスト型へ変換する処理。  
一般的に行末端記号は、CRLF(\r\n)である文章と、LF(\n)である文章がある。

In [69]:
# 行末記号をLF(\n)に統一 ... CRLF(\r\n) を LF(\n)に変換
content = content.replace("\r\n", "\n")

# 行単位に分割
lines = content.split("\n")

In [72]:
# 最初の10行を確認
# lines[:10]
# 最後の10行を確認
lines[-10:]

['\u3000私は猫背（ねこぜ）になって、のろのろ歩いた。霧が深い。ほんのちかくの山が、ぼんやり黒く見えるだけだ。南アルプス連峰も、富士山も、何も見えない。朝露で、下駄がびしょぬれである。私はいっそうひどい猫背になって、のろのろ帰途についた。橋を渡り、中学校のまえまで来て、振り向くとポチが、ちゃんといた。面目なげに、首を垂れ、私の視線をそっとそらした。',
 '\u3000私も、もう大人である。いたずらな感傷はなかった。すぐ事態を察知した。薬品が効かなかったのだ。うなずいて、もうすでに私は、白紙還元である。家へ帰って、',
 '「だめだよ。薬が効かないのだ。ゆるしてやろうよ。あいつには、罪がなかったんだぜ。芸術家は、もともと弱い者の味方だったはずなんだ」私は、途中で考えてきたことをそのまま言ってみた。「弱者の友なんだ。芸術家にとって、これが出発で、また最高の目的なんだ。こんな単純なこと、僕は忘れていた。僕だけじゃない。みんなが、忘れているんだ。僕は、ポチを東京へ連れてゆこうと思うよ。友がもしポチの恰好（かっこう）を笑ったら、ぶん殴（なぐ）ってやる。卵あるかい？」',
 '「ええ」家内は、浮かぬ顔をしていた。',
 '「ポチにやれ、二つあるなら、二つやれ。おまえも我慢しろ。皮膚病なんてのは、すぐなおるよ」',
 '「ええ」家内は、やはり浮かぬ顔をしていた。',
 '',
 '',
 '',
 '']

### 3-3-2-2 不要文字列の削除・変換

In [73]:
import re

prepped_lines = []
for line in lines:
    # 行の先頭、末尾の空白・改行コードを削除
    line = line.strip()

    # Unicode の全角スペースを削除
    line = re.sub(r"\u3000", " ", line)

    # ふりがなを削除
    line = re.sub(r"（.*?）", "", line)

    # 上記変換により、空行になったらスキップ
    if line == "":
        continue

    # 変換後の line を処理済行リストとして保持
    prepped_lines.append(line)

In [75]:
# 作成した処理済行リストの最初の10行を確認
# prepped_lines[:10]
# 作成した処理済行リストの最後の10行を確認
prepped_lines[-10:]

['「よし！ 強いぞ」ほめてやって私は歩きだし、橋をかたかた渡って、ここはもう練兵場である。',
 'むかしポチは、この練兵場に捨てられた。だからいま、また、この練兵場へ帰ってきたのだ。おまえのふるさとで死ぬがよい。',
 '私は立ちどまり、ぼとりと牛肉の大片を私の足もとへ落として、',
 '「ポチ、食え」私はポチを見たくなかった。ぼんやりそこに立ったまま、「ポチ、食え」足もとで、ぺちゃぺちゃ食べている音がする。一分たたぬうちに死ぬはずだ。',
 '私は猫背になって、のろのろ歩いた。霧が深い。ほんのちかくの山が、ぼんやり黒く見えるだけだ。南アルプス連峰も、富士山も、何も見えない。朝露で、下駄がびしょぬれである。私はいっそうひどい猫背になって、のろのろ帰途についた。橋を渡り、中学校のまえまで来て、振り向くとポチが、ちゃんといた。面目なげに、首を垂れ、私の視線をそっとそらした。',
 '私も、もう大人である。いたずらな感傷はなかった。すぐ事態を察知した。薬品が効かなかったのだ。うなずいて、もうすでに私は、白紙還元である。家へ帰って、',
 '「だめだよ。薬が効かないのだ。ゆるしてやろうよ。あいつには、罪がなかったんだぜ。芸術家は、もともと弱い者の味方だったはずなんだ」私は、途中で考えてきたことをそのまま言ってみた。「弱者の友なんだ。芸術家にとって、これが出発で、また最高の目的なんだ。こんな単純なこと、僕は忘れていた。僕だけじゃない。みんなが、忘れているんだ。僕は、ポチを東京へ連れてゆこうと思うよ。友がもしポチの恰好を笑ったら、ぶん殴ってやる。卵あるかい？」',
 '「ええ」家内は、浮かぬ顔をしていた。',
 '「ポチにやれ、二つあるなら、二つやれ。おまえも我慢しろ。皮膚病なんてのは、すぐなおるよ」',
 '「ええ」家内は、やはり浮かぬ顔をしていた。']

# Chapter3-4 形態素解析

## 3-4-1 MeCab

In [1]:
# MeCab をインストール
!apt update
!apt install -y libmecab-dev mecab mecab-ipadic-utf8 mecab-utils

Hit:1 http://deb.debian.org/debian buster InRelease
Hit:2 http://security.debian.org/debian-security buster/updates InRelease
Hit:3 http://deb.debian.org/debian buster-updates InRelease
Reading package lists... Done[33m[33m
Building dependency tree       
Reading state information... Done
30 packages can be upgraded. Run 'apt list --upgradable' to see them.
Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following additional packages will be installed:
  libmecab2 mecab-ipadic mecab-jumandic mecab-jumandic-utf8
The following NEW packages will be installed:
  libmecab-dev libmecab2 mecab mecab-ipadic mecab-ipadic-utf8 mecab-jumandic
  mecab-jumandic-utf8 mecab-utils
0 upgraded, 8 newly installed, 0 to remove and 30 not upgraded.
Need to get 23.6 MB of archives.
After this operation, 276 MB of additional disk space will be used.
Get:1 http://deb.debian.org/debian buster/main arm64 libmecab2 arm64 0.996-6 [230 kB]
Get:2 http://deb.debi

In [9]:
pip install mecab-ipadic

[31mERROR: Could not find a version that satisfies the requirement mecab-ipadic[0m
[31mERROR: No matching distribution found for mecab-ipadic[0m
Note: you may need to restart the kernel to use updated packages.


In [2]:
%%bash
# NEologd 辞書をインストール

## 開始時刻を表示
date

## 古い辞書があれば削除
rm -rf mecab-ipadic-neologd

## 辞書のgit リポジトリをclone
git clone https://github.com/neologd/mecab-ipadic-neologd.git
ls

## 辞書をインストール
cd mecab-ipadic-neologd && bin/install-mecab-ipadic-neologd -n -a -y

## [issue](https://github.com/SamuraiT/mecab-python3#common-issues) への対応
pip install unidic-lite

## 修了時刻を表示
date

Sat Apr 10 07:44:44 JST 2021
awesomebook
data
genbapro_chapter2.ipynb
genbapro_chapter3.ipynb
genbapro_preprocessing
preprocessing.book.ipynb
Sat Apr 10 07:45:02 JST 2021


Cloning into 'mecab-ipadic-neologd'...
error: RPC failed; curl 56 GnuTLS recv error (-54): Error in the pull function.
fatal: the remote end hung up unexpectedly
fatal: early EOF
fatal: index-pack failed
bash: line 14: cd: mecab-ipadic-neologd: No such file or directory
