[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/shimizu-biz/nlp_workshop/blob/master/step1.ipynb)

# step1

Jupyter Notebookはプログラミングを行うだけでなく、Linuxコマンドも打つことができます。
Linuxコマンドを実行するには'%%bash'と行頭に書きます。まず、lsコマンドが動くことを確認しましょう。
"In [x]:"となっているセルをクリックし、Ctrl+EnterもしくはRunボタンを押すことでセルのコードを実行できます。

In [18]:
%%bash
ls

jv.bin
jv.tsv
pretrained_model.bin.zip
sample_data
word2vec.gensim.model
word2vec.gensim.model.syn1neg.npy
word2vec.gensim.model.wv.syn0.npy


Mecabをインストールしましょう

In [19]:
%%bash
apt-get install mecab -y
apt-get install libmecab-dev
apt install mecab-ipadic-utf8 -y

Reading package lists...
Building dependency tree...
Reading state information...
mecab is already the newest version (0.996-5).
0 upgraded, 0 newly installed, 0 to remove and 3 not upgraded.
Reading package lists...
Building dependency tree...
Reading state information...
libmecab-dev is already the newest version (0.996-5).
0 upgraded, 0 newly installed, 0 to remove and 3 not upgraded.
Reading package lists...
Building dependency tree...
Reading state information...
mecab-ipadic-utf8 is already the newest version (2.7.0-20070801+main-1).
0 upgraded, 0 newly installed, 0 to remove and 3 not upgraded.






Mecabをコマンドから操作してみましょう

In [20]:
%%bash
mecab
今日はいい天気ですね

今日	名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
いい	形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
天気	名詞,一般,*,*,*,*,天気,テンキ,テンキ
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
ね	助詞,終助詞,*,*,*,*,ね,ネ,ネ
EOS


好きな文章の形態素解析をしてみましょう。（書き換えて何度でも実行できます）

PythonでMeCabを使うためのライブラリをインストールしましょう

In [21]:
%%bash
apt-get install python3-pip -y
pip3 install mecab-python3

Reading package lists...
Building dependency tree...
Reading state information...
python3-pip is already the newest version (9.0.1-2.3~ubuntu1).
0 upgraded, 0 newly installed, 0 to remove and 3 not upgraded.


ここからはPythonを使っていきましょう

Jupyter Notebookは対話的にPythonのプログラミングができます。
「%%」などは特につける必要がありません

MeCabのインポートをしましょう

In [0]:
import MeCab

分かち書きを行う関数を作成しましょう

In [0]:
def mas_ls(text):#mecabを使って分かち書き
    m = MeCab.Tagger("-Owakati")
    return m.parse(text)[:-1]

今作成した関数を使ってみましょう
結果を「変数result」として残しておきます

In [24]:
str = "NTTコミュニケーションズが2016年10月31日に提供を開始したAI（人工知能）サービス「Communication Engine “COTOHA™”」（以下「COTOHA」）は、NTTが40年以上にわたって蓄積・精錬してきた30万語におよぶ日本語データベースや処理技術を活用。日本語での書き言葉や話し言葉の高精度な分析・理解による、的確なコミュニケーションを実現しました。"
result = mas_ls(str)
print (result)

NTT コミュニケーションズ が 2016 年 10 月 31 日 に 提供 を 開始 し た AI （ 人工 知能 ） サービス 「 Communication Engine “ COTOHA ™”」（ 以下 「 COTOHA 」 ） は 、 NTT が 40 年 以上 にわたって 蓄積 ・ 精錬 し て き た 30 万 語 に およぶ 日本語 データベース や 処理 技術 を 活用 。 日本語 で の 書き言葉 や 話し言葉 の 高 精度 な 分析 ・ 理解 による 、 的確 な コミュニケーション を 実現 し まし た 。 


機械学習ライブラリsklearnのCountVectorizerを使って、単語の出現頻度を数えてみましょう

In [0]:
from sklearn.feature_extraction.text import CountVectorizer

どの単語について集計するか決めましょう（今回は手動で設定しますが、もちろん自動でもできます）

In [0]:
corpus = ["NTT","コミュニケーションズ","COTOHA","日本語",]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
features = vectorizer.get_feature_names()

先ほど分かち書きした結果（変数result）を集計します

In [27]:
new_doc = [result]
new_X = vectorizer.transform(new_doc)
features = vectorizer.get_feature_names()
print(features)
print(new_X.toarray())

['cotoha', 'ntt', 'コミュニケーションズ', '日本語']
[[2 2 1 2]]


bag of wordsでは語順の情報が失われてしまいます

In [28]:
str = "りんごは好きだが、ぶどうは嫌いだ"
result = mas_ls(str)
corpus = ["りんご","みかん","ぶどう","好き","嫌い","普通"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
features = vectorizer.get_feature_names()
new_doc = [result]
new_X = vectorizer.transform(new_doc)
features = vectorizer.get_feature_names()
print(features)
print(new_X.toarray())

['ぶどう', 'みかん', 'りんご', '好き', '嫌い', '普通']
[[1 0 1 1 1 0]]


In [29]:
str = "ぶどうは好きだが、りんごは嫌いだ"
result = mas_ls(str)
corpus = ["りんご","みかん","ぶどう","好き","嫌い","普通"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
features = vectorizer.get_feature_names()
new_doc = [result]
new_X = vectorizer.transform(new_doc)
features = vectorizer.get_feature_names()
print(features)
print(new_X.toarray())

['ぶどう', 'みかん', 'りんご', '好き', '嫌い', '普通']
[[1 0 1 1 1 0]]


おまけ

In [30]:
%%html
<marquee style='width: 30%; color: blue;'><b>htmlも書けるよ</b></marquee>

In [33]:
%%bash
pwd

/content


In [32]:
!pwd

/content
