# 特徴量エンジニアリング

## BoW

In [0]:
corpus = ["when in Rome, do as the Romans do.",
          "all roads lead to Rome."]

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

count_vec = CountVectorizer()
count_vec.fit(corpus)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [3]:
print("Vocabulary size: {}".format(len(count_vec.vocabulary_)))
print("Vocabulary content:\n {}".format(count_vec.vocabulary_))

Vocabulary size: 11
Vocabulary content:
 {'when': 10, 'in': 3, 'rome': 7, 'do': 2, 'as': 1, 'the': 8, 'romans': 6, 'all': 0, 'roads': 5, 'lead': 4, 'to': 9}


In [4]:
bag_of_words = count_vec.transform(corpus)
bag_of_words = bag_of_words.toarray()

print(corpus[0], "->\t", bag_of_words[0])
print(corpus[1], "->\t\t", bag_of_words[1])

when in Rome, do as the Romans do. ->	 [0 1 2 1 0 0 1 1 1 0 1]
all roads lead to Rome. ->		 [1 0 0 0 1 1 0 1 0 1 0]


## tf-idf

In [0]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vec = TfidfVectorizer()
tfidf_vec.fit(corpus)
tfidf = tfidf_vec.transform(corpus)

In [6]:
import pandas as pd

vocab = tfidf_vec.get_feature_names()
pd.DataFrame(tfidf.toarray(), columns=vocab).round(2)

Unnamed: 0,all,as,do,in,lead,roads,romans,rome,the,to,when
0,0.0,0.32,0.65,0.32,0.0,0.0,0.32,0.23,0.32,0.0,0.32
1,0.47,0.0,0.0,0.0,0.47,0.47,0.0,0.34,0.0,0.47,0.0


## n-gram

In [7]:
count_vec = CountVectorizer(ngram_range=(2, 2))  # bigramのとき
count_vec.fit(corpus)

print("Vocabulary size: {}".format(len(count_vec.vocabulary_)))
print("Vocabulary content:\n {}".format(count_vec.vocabulary_))

bi_gram = count_vec.transform(corpus)
bi_gram = bi_gram.toarray()

print()
print(corpus[0], "->\t", bi_gram[0])
print(corpus[1], "->\t\t", bi_gram[1])

Vocabulary size: 11
Vocabulary content:
 {'when in': 10, 'in rome': 3, 'rome do': 7, 'do as': 2, 'as the': 1, 'the romans': 8, 'romans do': 6, 'all roads': 0, 'roads lead': 5, 'lead to': 4, 'to rome': 9}

when in Rome, do as the Romans do. ->	 [0 1 1 1 0 0 1 1 1 0 1]
all roads lead to Rome. ->		 [1 0 0 0 1 1 0 0 0 1 0]


## 実践編

In [8]:
# 日本語のAmazonのレビュー（の一部）をダウンロード・解凍します
!mkdir data
!wget https://github.com/tealgreen0503/introduction_to_nlp/raw/master/data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz -P data/
!gunzip -d ./data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz

--2020-05-16 08:45:08--  https://github.com/tealgreen0503/introduction_to_nlp/raw/master/data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz
Resolving github.com (github.com)... 140.82.118.3
Connecting to github.com (github.com)|140.82.118.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/tealgreen0503/introduction_to_nlp/master/data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz [following]
--2020-05-16 08:45:09--  https://raw.githubusercontent.com/tealgreen0503/introduction_to_nlp/master/data/amazon_reviews_multilingual_JP_v1_00_20000.tsv.gz
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 7451914 (7.1M) [application/octet-stream]
Saving to: ‘data/amazon_reviews_multilingual_JP_v1_00_20000.ts

In [9]:
#!sudo sed -i -e 's|disco|eoan|g' /etc/apt/sources.list
#!sudo apt update
# ここまでaptのアップデート
!apt-get install mecab
!apt-get install libmecab-dev
!apt-get install mecab-ipadic-utf8
!apt-get -q -y install swig
# ここまでMeCabのインストール
#!apt-get install file
#!git clone https://github.com/neologd/mecab-ipadic-neologd.git
#!echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n
# ここまでNEologdのインストール
!pip install mecab-python3
# MeCabをPythonで使うためのツールのインストール

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following additional packages will be installed:
  libmecab2 mecab-jumandic mecab-jumandic-utf8 mecab-utils
The following NEW packages will be installed:
  libmecab2 mecab mecab-jumandic mecab-jumandic-utf8 mecab-utils
0 upgraded, 5 newly installed, 0 to remove and 31 not upgraded.
Need to get 16.5 MB of archives.
After this operation, 219 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libmecab2 amd64 0.996-5 [257 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab-utils amd64 0.996-5 [4,856 B]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab-jumandic-utf8 all 7.0-20130310-4 [16.2 MB]
Get:4 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab-jumandic all 7.0-20130310-4 [2,212 B]
Get:5 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab amd64 0.996-5 [132 kB]
Fetched 16.5 MB in 0

In [0]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

from bs4 import BeautifulSoup
import MeCab

In [11]:
filename = "./data/amazon_reviews_multilingual_JP_v1_00_20000.tsv"
df = pd.read_csv(filename, sep='\t')
df_train = df[["review_body", "binay_star_rating"]]
df_train.head()

Unnamed: 0,review_body,binay_star_rating
0,現在、地球温暖化の悪影響が、ここまで顕在化しているとは<br />想像していませんでした。特...,1
1,このアクション映画ほど、男気を感じたものはあったのだろうか。<br />シンプル構成で時間を...,1
2,このアプリを入れて以来、かなりお世話になりました。<br />私の場合、PCで作成したデータ...,0
3,取り出してさっと撮影することが必要な旅行用に不可欠だと思います。,1
4,Kindleで使用しています。<br /><br />複数のCloudが管理できたり、ワード...,1


In [0]:
# HTML除去
def clean_html(html, strip=True):
    soup = BeautifulSoup(html, "html.parser")
    text = soup.get_text(strip=strip)
    return text

# 単語分割
class Tokenizer:
    def __init__(self, neologd=False):
        if neologd:
            self.mecab_tagger = MeCab.Tagger(
                "-Owakati -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd")
        else:
            self.mecab_tagger = MeCab.Tagger("-Owakati")

    def __call__(self, text):
        text_tokenized = self.mecab_tagger.parse(text)
        text_tokenized = text_tokenized.strip().split()

        return text_tokenized

In [0]:
corpus_train = df_train.review_body.values[:1000]  # 大きすぎる動かないので1000に限定
tokenize = Tokenizer(neologd=False)

In [14]:
corpus_train = [clean_html(text) for text in corpus_train]
corpus_train = [" ".join(tokenize(text))for text in corpus_train]
for text in corpus_train[:5]:
    print(text)

現在 、 地球 温暖 化 の 悪影響 が 、 ここ まで 顕在 化 し て いる と は 想像 し て い ませ ん でし た 。 特に 、 この まま 海面 温度 が 上昇 を 続ける と 、 早晩 、 南極 ・ 北極 の 氷 が 大 規模 に 溶ける こと によって 相当 の 範囲 の 陸地 が 海 に 没し 、 十 億 人 単位 で の 難民 が 発生 する という 事実 に は 、 本当に 衝撃 を 受け まし た 。 ある 人 が 、 「 人間 は 地球 に すくう 癌 細胞 の よう で ある 。 増殖 ・ 破壊 を 続け 、 最終 的 に は 自ら も 寄生 先 の 死 によって 滅ぶ 運命 に ある 」 と 言っ て い た こと を 思い出し まし た 。 一方 、 主人公 で ある ゴア 氏 が 、 聴衆 が 数 十 人 〜 数 百 人 程度 の 世界中 の 教室 ・ 会議 場 を まわっ て 危機 を 訴える という 、 地道 な 「 草の根 」 の 活動 に も 大変 感銘 を 受け まし た 。 個人 的 に は 、 ゴア 氏 に は 、 ブッシュ 氏 と の 大統領 戦 における 、 「 賢い が 傲慢 で 冷徹 」 という イメージ が 強かっ た の です が 、 およそ そんな こと は ない （ ＝ きっと 、 ブッシュ 陣営 の ネガティブ ・ キャンペーン の 影響 を 愚か に も 受け て い た の でしょ う ） 、 信念 を 持ち 、 実行 力 が 伴っ た 、 特筆 す べき 政治 家 で ある こと も 分かり まし た 。 温暖 化 の 危機 、 ゴア 氏 ほか の 活動 家 ・ 学者 の 行動 に対する 不明 を 恥じる と共に 、 自ら も CO 2 ゼロ 化 に 向け て 早速 行動 し たい と 思い まし た 。 なお 、 当 作品 は 、 語ら れる 事象 の すべて が 具体 的 かつ 客観 的 に 科学 的 根拠 に 支え られ て おり 、 ドキュメンタリー として も 秀逸 だ と 思い ます 。 是非 ご覧 に なっ て み て 下さい 。 お 奨め し ます 。
この アクション 映画 ほど 、 男気 を 感じ た もの は あっ た の だろ う か 。 シンプル 構成 で 時間 を 

### BoW

In [15]:
count_vec = CountVectorizer()
bow = count_vec.fit_transform(corpus_train)
print("Vocabulary size: {}".format(len(count_vec.vocabulary_)))
print("Vocabulary content:\n {}".format(count_vec.vocabulary_))

Vocabulary size: 13529
Vocabulary content:
 {'現在': 10935, '地球': 8295, '温暖': 10667, '悪影響': 9301, 'ここ': 2011, 'まで': 2934, '顕在': 13212, 'いる': 1716, '想像': 9335, 'ませ': 2920, 'でし': 2494, '特に': 10866, 'この': 2030, 'まま': 2943, '海面': 10602, '温度': 10666, '上昇': 6751, '続ける': 11602, '早晩': 9944, '南極': 7839, '北極': 7811, '規模': 12191, '溶ける': 10691, 'こと': 2022, 'によって': 2689, '相当': 11181, '範囲': 11450, '陸地': 13059, '没し': 10515, '単位': 7845, '難民': 13112, '発生': 11089, 'する': 2213, 'という': 2503, '事実': 6945, '本当に': 10133, '衝撃': 12039, '受け': 7977, 'まし': 2909, 'ある': 1625, '人間': 7016, 'すくう': 2182, '細胞': 11513, 'よう': 3088, '増殖': 8349, '破壊': 11267, '続け': 11601, '最終': 10072, '自ら': 11817, '寄生': 8725, '滅ぶ': 10695, '運命': 12793, '言っ': 12263, '思い出し': 9210, '一方': 6673, '主人公': 6890, 'ゴア': 4103, '聴衆': 11765, '程度': 11351, '世界中': 6828, '教室': 9817, '会議': 7125, 'まわっ': 2948, '危機': 7865, '訴える': 12298, '地道': 8298, '草の根': 11938, '活動': 10561, '大変': 8468, '感銘': 9400, '個人': 7305, 'ブッシュ': 5627, '大統領': 8490, 'における': 2672, '賢い': 12502, '傲慢'

In [16]:
print(bow[0].shape)
print(bow[0])

(1, 13529)
  (0, 10935)	1
  (0, 8295)	2
  (0, 10667)	2
  (0, 9301)	1
  (0, 2011)	1
  (0, 2934)	1
  (0, 13212)	1
  (0, 1716)	1
  (0, 9335)	1
  (0, 2920)	1
  (0, 2494)	1
  (0, 10866)	1
  (0, 2030)	1
  (0, 2943)	1
  (0, 10602)	1
  (0, 10666)	1
  (0, 6751)	1
  (0, 11602)	1
  (0, 9944)	1
  (0, 7839)	1
  (0, 7811)	1
  (0, 12191)	1
  (0, 10691)	1
  (0, 2022)	4
  (0, 2689)	2
  :	:
  (0, 2298)	1
  (0, 9201)	2
  (0, 2598)	1
  (0, 7229)	1
  (0, 12355)	1
  (0, 3117)	1
  (0, 6953)	1
  (0, 2206)	1
  (0, 7458)	1
  (0, 1910)	1
  (0, 8695)	1
  (0, 11327)	1
  (0, 10201)	1
  (0, 9773)	1
  (0, 3112)	1
  (0, 1830)	1
  (0, 5027)	1
  (0, 2522)	1
  (0, 11322)	1
  (0, 2915)	2
  (0, 9983)	1
  (0, 2073)	1
  (0, 2629)	1
  (0, 6766)	1
  (0, 8545)	1


### tf-idf

In [17]:
count_vec = TfidfVectorizer()
bow = count_vec.fit_transform(corpus_train)
print("Vocabulary size: {}".format(len(count_vec.vocabulary_)))
print("Vocabulary content:\n {}".format(count_vec.vocabulary_))
print(bow[0].shape)
print(bow[0])

Vocabulary size: 13529
Vocabulary content:
 {'現在': 10935, '地球': 8295, '温暖': 10667, '悪影響': 9301, 'ここ': 2011, 'まで': 2934, '顕在': 13212, 'いる': 1716, '想像': 9335, 'ませ': 2920, 'でし': 2494, '特に': 10866, 'この': 2030, 'まま': 2943, '海面': 10602, '温度': 10666, '上昇': 6751, '続ける': 11602, '早晩': 9944, '南極': 7839, '北極': 7811, '規模': 12191, '溶ける': 10691, 'こと': 2022, 'によって': 2689, '相当': 11181, '範囲': 11450, '陸地': 13059, '没し': 10515, '単位': 7845, '難民': 13112, '発生': 11089, 'する': 2213, 'という': 2503, '事実': 6945, '本当に': 10133, '衝撃': 12039, '受け': 7977, 'まし': 2909, 'ある': 1625, '人間': 7016, 'すくう': 2182, '細胞': 11513, 'よう': 3088, '増殖': 8349, '破壊': 11267, '続け': 11601, '最終': 10072, '自ら': 11817, '寄生': 8725, '滅ぶ': 10695, '運命': 12793, '言っ': 12263, '思い出し': 9210, '一方': 6673, '主人公': 6890, 'ゴア': 4103, '聴衆': 11765, '程度': 11351, '世界中': 6828, '教室': 9817, '会議': 7125, 'まわっ': 2948, '危機': 7865, '訴える': 12298, '地道': 8298, '草の根': 11938, '活動': 10561, '大変': 8468, '感銘': 9400, '個人': 7305, 'ブッシュ': 5627, '大統領': 8490, 'における': 2672, '賢い': 12502, '傲慢'

### n-gram

In [22]:
count_vec = CountVectorizer(ngram_range=(2,2))
count_vec.fit(corpus_train)
bow = count_vec.transform(corpus_train)
print("Vocabulary size: {}".format(len(count_vec.vocabulary_)))
print("Vocabulary content:\n {}".format(count_vec.vocabulary_))

Vocabulary size: 57879
Vocabulary content:
 {'現在 地球': 48639, '地球 温暖': 38123, '温暖 悪影響': 47578, '悪影響 ここ': 42002, 'ここ まで': 7248, 'まで 顕在': 20307, '顕在 いる': 57130, 'いる 想像': 5356, '想像 ませ': 42113, 'ませ でし': 19725, 'でし 特に': 12667, '特に この': 48301, 'この まま': 7724, 'まま 海面': 20349, '海面 温度': 47432, '温度 上昇': 47572, '上昇 続ける': 31777, '続ける 早晩': 51021, '早晩 南極': 44301, '南極 北極': 36670, '北極 規模': 36587, '規模 溶ける': 53495, '溶ける こと': 47671, 'こと によって': 7420, 'によって 相当': 17159, '相当 範囲': 49587, '範囲 陸地': 50342, '陸地 没し': 56470, '没し 単位': 47143, '単位 難民': 36690, '難民 発生': 56600, '発生 する': 49221, 'する という': 9252, 'という 事実': 13904, '事実 本当に': 32653, '本当に 衝撃': 45765, '衝撃 受け': 52915, '受け まし': 37130, 'まし ある': 18528, 'ある 人間': 4243, '人間 地球': 32892, '地球 すくう': 38116, 'すくう 細胞': 9043, '細胞 よう': 50625, 'よう ある': 21340, 'ある 増殖': 4269, '増殖 破壊': 38311, '破壊 続け': 49826, '続け 最終': 51010, '最終 自ら': 45433, '自ら 寄生': 51911, '寄生 によって': 39968, 'によって 滅ぶ': 17155, '滅ぶ 運命': 47677, '運命 ある': 55621, 'ある 言っ': 4359, '言っ こと': 53860, 'こと 思い出し': 7522, '思い出し まし': 4155