# テキストの前処理

## テキストのクリーニング

In [1]:
# 簡単なHTML文書の例
html = """
<html>
    <body>
        これは<a href="http://example.com">Example</a>です。
    </body>
</html>
"""
print(html)


<html>
    <body>
        これは<a href="http://example.com">Example</a>です。
    </body>
</html>



In [0]:
from bs4 import BeautifulSoup  # bs4からBeautifulSoupをインポートします

In [0]:
def clean_html(html, strip=True):  # strip=Trueの時，改行を除去します
    soup = BeautifulSoup(html, "html.parser")  # BeautifulSoupのオブジェクトを生成します
    text = soup.get_text(strip=strip)  # soupオブジェクトのget_textを実行します
    return text

In [4]:
text_cleaned = clean_html(html)
print(text_cleaned)

これはExampleです。


## 単語分割

In [5]:
!sudo sed -i -e 's|disco|eoan|g' /etc/apt/sources.list
!sudo apt update

[33m0% [Working][0m            Get:1 http://security.ubuntu.com/ubuntu bionic-security InRelease [88.7 kB]
[33m0% [Connecting to archive.ubuntu.com (91.189.88.152)] [1 InRelease 0 B/88.7 kB [0m[33m0% [Waiting for headers] [Waiting for headers] [Connecting to developer.downloa[0m[33m0% [1 InRelease gpgv 88.7 kB] [Waiting for headers] [Waiting for headers] [Conn[0m                                                                               Get:2 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran35/ InRelease [3,626 B]
[33m0% [1 InRelease gpgv 88.7 kB] [Waiting for headers] [2 InRelease 0 B/3,626 B 0%[0m[33m0% [1 InRelease gpgv 88.7 kB] [Waiting for headers] [Connecting to developer.do[0m                                                                               Hit:3 http://ppa.launchpad.net/graphics-drivers/ppa/ubuntu bionic InRelease
[33m0% [1 InRelease gpgv 88.7 kB] [Waiting for headers] [Connecting to developer.do[0m                             

In [6]:
!apt-get install mecab
!apt-get install libmecab-dev
!apt-get install mecab-ipadic-utf8
!apt-get -q -y install swig
# ここまでMeCabのインストール
!apt-get install file
!git clone https://github.com/neologd/mecab-ipadic-neologd.git
!echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n
# ここまでNEologdのインストール
!pip install mecab-python3
# MeCabをPythonで使うためのツールのインストール

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following additional packages will be installed:
  libmecab2 mecab-jumandic mecab-jumandic-utf8 mecab-utils
The following NEW packages will be installed:
  libmecab2 mecab mecab-jumandic mecab-jumandic-utf8 mecab-utils
0 upgraded, 5 newly installed, 0 to remove and 39 not upgraded.
Need to get 16.5 MB of archives.
After this operation, 219 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libmecab2 amd64 0.996-5 [257 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab-utils amd64 0.996-5 [4,856 B]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab-jumandic-utf8 all 7.0-20130310-4 [16.2 MB]
Get:4 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab-jumandic all 7.0-20130310-4 [2,212 B]
Get:5 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab amd64 0.996-5 [132 kB]
Fetched 16.5 MB in 1

In [0]:
import MeCab

In [11]:
text = "早稲田大学は大隈重信が作りました"

mecab_tagger = MeCab.Tagger()
text_tokenized = mecab_tagger.parse(text) # 形態素解析をする

print(text_tokenized)

早稲田大学	名詞,固有名詞,組織,*,*,*,早稲田大学,ワセダダイガク,ワセダダイガク
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
大隈	名詞,固有名詞,人名,姓,*,*,大隈,オオクマ,オークマ
重信	名詞,固有名詞,人名,名,*,*,重信,シゲノブ,シゲノブ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
作り	動詞,自立,*,*,五段・ラ行,連用形,作る,ツクリ,ツクリ
まし	助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
EOS



In [9]:
mecab_tagger = MeCab.Tagger("-Owakati")  # 分かち書きをする
text_tokenized = mecab_tagger.parse(text)
text_tokenized = text_tokenized.strip().split()  # スペースで区切ったリストに変換

print(text_tokenized)

['最近', '、', '世間', 'で', 'は', 'どう', 'ぶつ', 'の', '森', 'が', '流行っ', 'て', 'い', 'ます', 'ね', '。']


In [12]:
mecab_tagger = MeCab.Tagger(
    "-Owakati -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd")  # 辞書を追加する
text_tokenized = mecab_tagger.parse(text)
text_tokenized = text_tokenized.strip().split()

print(text_tokenized)

['早稲田大学', 'は', '大隈重信', 'が', '作りました']


## ストップワード

In [0]:
import urllib

In [0]:
slothlib_path = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt'
slothlib_file = urllib.request.urlopen(slothlib_path)  # URLを開く
slothlib_stopwords = [line.decode("utf-8").strip() for line in slothlib_file]  # ストップワードをリストに格納
slothlib_stopwords = [ss for ss in slothlib_stopwords if not ss==u'']  # 空行を削除

In [15]:
print("単語数:", len(slothlib_stopwords))
for ss in slothlib_stopwords:
    print(ss)

単語数: 310
あそこ
あたり
あちら
あっち
あと
あな
あなた
あれ
いくつ
いつ
いま
いや
いろいろ
うち
おおまか
おまえ
おれ
がい
かく
かたち
かやの
から
がら
きた
くせ
ここ
こっち
こと
ごと
こちら
ごっちゃ
これ
これら
ごろ
さまざま
さらい
さん
しかた
しよう
すか
ずつ
すね
すべて
ぜんぶ
そう
そこ
そちら
そっち
そで
それ
それぞれ
それなり
たくさん
たち
たび
ため
だめ
ちゃ
ちゃん
てん
とおり
とき
どこ
どこか
ところ
どちら
どっか
どっち
どれ
なか
なかば
なに
など
なん
はじめ
はず
はるか
ひと
ひとつ
ふく
ぶり
べつ
へん
ぺん
ほう
ほか
まさ
まし
まとも
まま
みたい
みつ
みなさん
みんな
もと
もの
もん
やつ
よう
よそ
わけ
わたし
ハイ
上
中
下
字
年
月
日
時
分
秒
週
火
水
木
金
土
国
都
道
府
県
市
区
町
村
各
第
方
何
的
度
文
者
性
体
人
他
今
部
課
係
外
類
達
気
室
口
誰
用
界
会
首
男
女
別
話
私
屋
店
家
場
等
見
際
観
段
略
例
系
論
形
間
地
員
線
点
書
品
力
法
感
作
元
手
数
彼
彼女
子
内
楽
喜
怒
哀
輪
頃
化
境
俺
奴
高
校
婦
伸
紀
誌
レ
行
列
事
士
台
集
様
所
歴
器
名
情
連
毎
式
簿
回
匹
個
席
束
歳
目
通
面
円
玉
枚
前
後
左
右
次
先
春
夏
秋
冬
一
二
三
四
五
六
七
八
九
十
百
千
万
億
兆
下記
上記
時間
今回
前回
場合
一つ
年生
自分
ヶ所
ヵ所
カ所
箇所
ヶ月
ヵ月
カ月
箇月
名前
本当
確か
時点
全部
関係
近く
方法
我々
違い
多く
扱い
新た
その後
半ば
結局
様々
以前
以後
以降
未満
以上
以下
幾つ
毎日
自体
向こう
何人
手段
同じ
感じ


In [17]:
slothlib_stopwords = set(slothlib_stopwords)  # listをsetに変換（こちらの方が動作が早い）

text = "この前どうぶつの森を買いに行きました。"
text_tokenized = mecab_tagger.parse(text)
text_tokenized = text_tokenized.strip().split()

def remove_stopwords(words, stop_words):
    words = [w for w in words if w not in stop_words]
    return words

print("除去前:", text_tokenized)
text_filtered = remove_stopwords(text_tokenized, slothlib_stopwords)
print("除去後:", text_filtered)

除去前: ['この', '前', 'どうぶつの森', 'を', '買い', 'に', '行き', 'まし', 'た', '。']
除去後: ['この', 'どうぶつの森', 'を', '買い', 'に', '行き', 'た', '。']


## 単語種の統一

In [18]:
text = "President Obama is speaking at the White House."
text = text.lower()
print(text)

president obama is speaking at the white house.


In [0]:
import re

def normalize_number(text):
    replaced_text = re.sub(r"\d+", "0", text)
    return replaced_text

In [21]:
text = "2万0689・24ドル"
text = normalize_number(text)
print(text)

0万0・0ドル


## 実践編

In [22]:
# 日本語のAmazonのレビュー（の一部）をダウンロード・解凍します
!mkdir data
!wget https://github.com/tealgreen0503/introduction_to_nlp/raw/master/data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz -P data/
!gunzip -d ./data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz

--2020-05-16 08:22:10--  https://github.com/tealgreen0503/introduction_to_nlp/raw/master/data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/tealgreen0503/introduction_to_nlp/master/data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz [following]
--2020-05-16 08:22:10--  https://raw.githubusercontent.com/tealgreen0503/introduction_to_nlp/master/data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 7451914 (7.1M) [application/octet-stream]
Saving to: ‘data/amazon_reviews_multilingual_JP_v1_00_20000.ts

In [0]:
import pandas as pd

from bs4 import BeautifulSoup
import MeCab

In [24]:
filename = "./data/amazon_reviews_multilingual_JP_v1_00_20000.tsv"
df = pd.read_csv(filename, sep='\t')
df.head()

Unnamed: 0.1,Unnamed: 0,marketplace,customer_id,review_id,product_id,product_parent,product_title,product_category,star_rating,helpful_votes,total_votes,vine,verified_purchase,review_headline,review_body,review_date,binay_star_rating
0,99073,JP,34358093,R9TYD8A9ENBE6,B000MQCT24,478822638,不都合な真実 スペシャル・コレクターズ・エディション [DVD],Video DVD,5,5,16,N,N,真実に脅威、行動に感銘,現在、地球温暖化の悪影響が、ここまで顕在化しているとは<br />想像していませんでした。特...,2007-11-04,1
1,125692,JP,36548710,R1Q6WECZUAPYKQ,B002UVJRBU,361934951,コブラ [DVD],Video DVD,4,0,1,N,N,どれ観ようか迷ってるあなたへ,このアクション映画ほど、男気を感じたものはあったのだろうか。<br />シンプル構成で時間を...,2010-03-09,1
2,48826,JP,29252575,R12WC68974OFXC,B004LOMB2Q,435106875,Evernote,Mobile_Apps,1,5,8,N,Y,さらばEvernote・・・,このアプリを入れて以来、かなりお世話になりました。<br />私の場合、PCで作成したデータ...,2014-07-08,0
3,213947,JP,40520850,REJLAX4RYEANG,B0065S9HBO,155337585,"OLYMPUS 自動開閉レンズキャップ XZ-1,XZ-2用 LC-63A",Camera,5,0,1,N,Y,旅行用に便利です,取り出してさっと撮影することが必要な旅行用に不可欠だと思います。,2014-09-15,1
4,89626,JP,33631852,R3QTC8MBNJCKC2,B00FGJNS72,573339465,POLARIS Office,Mobile_Apps,5,3,3,N,Y,とても良い,Kindleで使用しています。<br /><br />複数のCloudが管理できたり、ワード...,2013-12-28,1


In [25]:
df_train = df[["review_body", "binay_star_rating"]]
df_train.head()

Unnamed: 0,review_body,binay_star_rating
0,現在、地球温暖化の悪影響が、ここまで顕在化しているとは<br />想像していませんでした。特...,1
1,このアクション映画ほど、男気を感じたものはあったのだろうか。<br />シンプル構成で時間を...,1
2,このアプリを入れて以来、かなりお世話になりました。<br />私の場合、PCで作成したデータ...,0
3,取り出してさっと撮影することが必要な旅行用に不可欠だと思います。,1
4,Kindleで使用しています。<br /><br />複数のCloudが管理できたり、ワード...,1


In [27]:
df_train.review_body.values[0]  # 数字を変えると違うレビューを見ることができます

'現在、地球温暖化の悪影響が、ここまで顕在化しているとは<br />想像していませんでした。特に、このまま海面温度が上昇を<br />続けると、早晩、南極・北極の氷が大規模に溶けることに<br />よって相当の範囲の陸地が海に没し、十億人単位での難民が<br />発生するという事実には、本当に衝撃を受けました。<br /><br />ある人が、「人間は地球にすくう癌細胞のようである。<br />増殖・破壊を続け、最終的には自らも寄生先の死によって<br />滅ぶ運命にある」と言っていたことを思い出しました。<br /><br />一方、主人公であるゴア氏が、聴衆が数十人〜数百人程度の<br />世界中の教室・会議場をまわって危機を訴えるという、地道<br />な「草の根」の活動にも大変感銘を受けました。個人的には、<br />ゴア氏には、ブッシュ氏との大統領戦における、「賢いが<br />傲慢で冷徹」というイメージが強かったのですが、およそ<br />そんなことはない（＝きっと、ブッシュ陣営のネガティブ・<br />キャンペーンの影響を愚かにも受けていたのでしょう）、<br />信念を持ち、実行力が伴った、特筆すべき政治家であること<br />も分かりました。<br /><br />温暖化の危機、ゴア氏ほかの活動家・学者の行動に対する<br />不明を恥じると共に、自らもCO2ゼロ化に向けて早速行動<br />したいと思いました。<br /><br />なお、当作品は、語られる事象のすべてが具体的かつ<br />客観的に科学的根拠に支えられており、ドキュメンタリー<br />としても秀逸だと思います。<br /><br />是非ご覧になってみて下さい。お奨めします。'

In [0]:
# HTML除去
def clean_html(html, strip=True):
    soup = BeautifulSoup(html, "html.parser")
    text = soup.get_text(strip=strip)
    return text

# 単語分割
def tokenize(text, neologd=False):
    if neologd:
        mecab_tagger = MeCab.Tagger(
            "-Owakati -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd")
    else:
        mecab_tagger = MeCab.Tagger("-Owakati")
    text_tokenized = mecab_tagger.parse(text)
    text_tokenized = text_tokenized.strip().split()

    return text_tokenized

In [35]:
review = df_train.review_body.values[0]
print(review)
# 以下でclean_htmlとtokinizeを試してみましょう
review = clean_html(review)
print(review)
review = tokenize(review, neologd=True)
print(review)

現在、地球温暖化の悪影響が、ここまで顕在化しているとは<br />想像していませんでした。特に、このまま海面温度が上昇を<br />続けると、早晩、南極・北極の氷が大規模に溶けることに<br />よって相当の範囲の陸地が海に没し、十億人単位での難民が<br />発生するという事実には、本当に衝撃を受けました。<br /><br />ある人が、「人間は地球にすくう癌細胞のようである。<br />増殖・破壊を続け、最終的には自らも寄生先の死によって<br />滅ぶ運命にある」と言っていたことを思い出しました。<br /><br />一方、主人公であるゴア氏が、聴衆が数十人〜数百人程度の<br />世界中の教室・会議場をまわって危機を訴えるという、地道<br />な「草の根」の活動にも大変感銘を受けました。個人的には、<br />ゴア氏には、ブッシュ氏との大統領戦における、「賢いが<br />傲慢で冷徹」というイメージが強かったのですが、およそ<br />そんなことはない（＝きっと、ブッシュ陣営のネガティブ・<br />キャンペーンの影響を愚かにも受けていたのでしょう）、<br />信念を持ち、実行力が伴った、特筆すべき政治家であること<br />も分かりました。<br /><br />温暖化の危機、ゴア氏ほかの活動家・学者の行動に対する<br />不明を恥じると共に、自らもCO2ゼロ化に向けて早速行動<br />したいと思いました。<br /><br />なお、当作品は、語られる事象のすべてが具体的かつ<br />客観的に科学的根拠に支えられており、ドキュメンタリー<br />としても秀逸だと思います。<br /><br />是非ご覧になってみて下さい。お奨めします。
現在、地球温暖化の悪影響が、ここまで顕在化しているとは想像していませんでした。特に、このまま海面温度が上昇を続けると、早晩、南極・北極の氷が大規模に溶けることによって相当の範囲の陸地が海に没し、十億人単位での難民が発生するという事実には、本当に衝撃を受けました。ある人が、「人間は地球にすくう癌細胞のようである。増殖・破壊を続け、最終的には自らも寄生先の死によって滅ぶ運命にある」と言っていたことを思い出しました。一方、主人公であるゴア氏が、聴衆が数十人〜数百人程度の世界中の教室・会議場をまわって危機を訴える