# 日本語テキストの前処理

日本語テキストの前処理として次のようなステップでサンプルテキストsample_textの前処理を行う.
1. 不要な文字列削除
2. ルールに沿った文字列の変換
3. 単語への分割

Reference : https://note.com/narudesu/n/na35de30a583a

In [152]:
sample_texts = ["お友達の紹介で,女子2人で三時のティータイムに利用しました。",
               "2人用のソファに並んでいただきますv(^^)vなかよし(笑)",
               "最後に出された,モンブランのケーー－キ.",
               "やばっっっ!!これはうまーい!!",
               "とってもDeliciousで、サービスもGoodでした😀",
               "これで2,500円はとってもお得です☆",
              "皆さんにもおすすめです！\n リンクはこちらから",
               "https://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8",
               "おとなりのcookie-shopもおいしそうでした(ニコニコ)!"]

## 不要な単語の削除

### 改行コードの削除
改行コードCR(\r), LF(\n), CR+LF(\r\n)の削除する.

In [153]:
for i,text in enumerate(sample_texts):
    sample_texts[i] = text.replace("\n","").replace("\r","")
print(sample_texts)

['お友達の紹介で,女子2人で三時のティータイムに利用しました。', '2人用のソファに並んでいただきますv(^^)vなかよし(笑)', '最後に出された,モンブランのケーー－キ.', 'やばっっっ!!これはうまーい!!', 'とってもDeliciousで、サービスもGoodでした😀', 'これで2,500円はとってもお得です☆', '皆さんにもおすすめです！ リンクはこちらから', 'https://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8', 'おとなりのcookie-shopもおいしそうでした(ニコニコ)!']


### URLの削除
正規表現を用いてURLの削除を行う.

In [154]:
import re

for i,text in enumerate(sample_texts):
    text = re.sub(r'http?://[\w/:%#\$&\?\(\)~\.=\+\-]+', '', text)
    sample_texts[i] = re.sub(r'https?://[\w/:%#\$&\?\(\)~\.=\+\-]+', '', text)
print(sample_texts)

['お友達の紹介で,女子2人で三時のティータイムに利用しました。', '2人用のソファに並んでいただきますv(^^)vなかよし(笑)', '最後に出された,モンブランのケーー－キ.', 'やばっっっ!!これはうまーい!!', 'とってもDeliciousで、サービスもGoodでした😀', 'これで2,500円はとってもお得です☆', '皆さんにもおすすめです！ リンクはこちらから', '', 'おとなりのcookie-shopもおいしそうでした(ニコニコ)!']


### 絵文字の削除
demojiライブラリを用いて絵文字の削除を行う.

In [155]:
import demoji

for i,text in enumerate(sample_texts):
    sample_texts[i] = demoji.replace(string=text,repl="")
print(sample_texts)

['お友達の紹介で,女子2人で三時のティータイムに利用しました。', '2人用のソファに並んでいただきますv(^^)vなかよし(笑)', '最後に出された,モンブランのケーー－キ.', 'やばっっっ!!これはうまーい!!', 'とってもDeliciousで、サービスもGoodでした', 'これで2,500円はとってもお得です☆', '皆さんにもおすすめです！ リンクはこちらから', '', 'おとなりのcookie-shopもおいしそうでした(ニコニコ)!']


### 半角記号削除
半角記号を羅列して削除する. ハイフン「-」はWi-fiのような単語があるため処理の対象外とする.

In [156]:
import string

for i,text in enumerate(sample_texts):
    sample_texts[i] = text.translate(str.maketrans( '', '',string.punctuation))
print(sample_texts)

['お友達の紹介で女子2人で三時のティータイムに利用しました。', '2人用のソファに並んでいただきますvvなかよし笑', '最後に出されたモンブランのケーー－キ', 'やばっっっこれはうまーい', 'とってもDeliciousで、サービスもGoodでした', 'これで2500円はとってもお得です☆', '皆さんにもおすすめです！ リンクはこちらから', '', 'おとなりのcookieshopもおいしそうでしたニコニコ']


### 全角記号削除
半角記号と同様に全角記号を削除する.

In [157]:
for i,text in enumerate(sample_texts):
    sample_texts[i] = re.sub(u'[■-♯]', "", text)
print(sample_texts)

['お友達の紹介で女子2人で三時のティータイムに利用しました。', '2人用のソファに並んでいただきますvvなかよし笑', '最後に出されたモンブランのケーー－キ', 'やばっっっこれはうまーい', 'とってもDeliciousで、サービスもGoodでした', 'これで2500円はとってもお得です', '皆さんにもおすすめです！ リンクはこちらから', '', 'おとなりのcookieshopもおいしそうでしたニコニコ']


## ルールに沿った文字列の変換

### 全角英数字を半角英数字に変化して, 2回以上連続する長音を1回に変換
「キターーー」のような語を「キター」に変換する.

In [158]:
import neologdn

for i,text in enumerate(sample_texts):
    sample_texts[i] = neologdn.normalize(text)
print(sample_texts)

['お友達の紹介で女子2人で三時のティータイムに利用しました。', '2人用のソファに並んでいただきますvvなかよし笑', '最後に出されたモンブランのケーキ', 'やばっっっこれはうまーい', 'とってもDeliciousで、サービスもGoodでした', 'これで2500円はとってもお得です', '皆さんにもおすすめです!リンクはこちらから', '', 'おとなりのcookieshopもおいしそうでしたニコニコ']


### 区切り文字を0に変換
12,345,678のようなコンマ月の数字をすべて0に変換する. 数字が特に意味を持たないようなときにこの処理を行う.

In [160]:
re.sub(r'\b\d{1,3}(,\d{3})*\b', '0', "12,345,678")

'0'

### 数字を全て0に変換
数字を全て0に変換する. 数字が特に意味を持たないようなときにこの処理を行う.

In [161]:
re.sub(r'\d+', '0', "12345678")

'0'

## 単語への分割

### 形態素解析
形態素解析とは文を形態素に分解する処理を行うことである. 例文「私は台所で料理します」を形態素解析すると「私/は/台所/で/料理/し/ます」になる.

In [172]:
import MeCab

text = "私は台所で料理します"

tagger = MeCab.Tagger()

for line in tagger.parse(text).splitlines():
    print(line)

私	ワタクシ	ワタクシ	私-代名詞	代名詞			0
は	ワ	ハ	は	助詞-係助詞			
台所	ダイドコロ	ダイドコロ	台所	名詞-普通名詞-一般			0
で	デ	デ	で	助詞-格助詞			
料理	リョーリ	リョウリ	料理	名詞-普通名詞-サ変可能			1
し	シ	スル	為る	動詞-非自立可能	サ行変格	連用形-一般	0
ます	マス	マス	ます	助動詞	助動詞-マス	終止形-一般	
EOS
