In [None]:
# plt.show()で可視化されない人はこのセルを実行してください。
%matplotlib inline

In [None]:
# 初めの一回だけこのセルを実行してください、データセットをダウンロードして展開します
# 一回実行すれば、データセットはダウンロードされたままなので、再起動後等再び実行する必要はありません
import urllib.request
import zipfile

# URLを指定
url = "https://storage.googleapis.com/tutor-contents-dataset/5050_nlp_data.zip"
save_name = url.split('/')[-1]

# ダウンロードする
mem = urllib.request.urlopen(url).read()

# ファイルへ保存
with open(save_name, mode='wb') as f:
    f.write(mem)

# zipファイルをカレントディレクトリに展開する
zfile = zipfile.ZipFile(save_name)
zfile.extractall('.')

# 文章の単語分割と正規化

- **[1.1 自然言語処理の基本](#1.1-自然言語処理の基本)**
    - **[1.1.1 自然言語処理の概要](#1.1.1-自然言語処理の概要)**
    - **[1.1.2 言語による違い](#1.1.2-言語による違い)**
<br><br>
- **[1.2 文章の単語分割](#1.2-文章の単語分割)**
    - **[1.2.1 形態素解析とNgram](#1.2.1-形態素解析とNgram)**
    - **[1.2.2 MeCab](#1.2.2-MeCab)**
    - **[1.2.3 janome1](#1.2.3-janome1)**
    - **[1.2.4 janome2](#1.2.4-janome2)**
    - **[1.2.5 split関数](#1.2.5-split関数)**
    - **[1.2.6 janome3](#1.2.6-janome3)**
    - **[1.2.7 Ngram](#1.2.7-Ngram)**
<br><br>
- **[1.3 正規化](#1.3-正規化)**
    - **[1.3.1 正規化1](#1.3.1-正規化1)**
    - **[1.3.2 正規化2](#1.3.2-正規化2)**
    - **[1.3.3 正規化3](#1.3.3-正規化3)**
    - **[1.3.4 正規表現](#1.3.4-正規表現)**



***

## 1.1 自然言語処理の基本

### 1.1.1 自然言語処理の概要

<b style='color: #AA0000'>自然言語</b>(NL, Natural Language)とは、日本語や英語のような **自然発生的に生まれた言語** のことを指し、プログラミング言語のような人工言語(Artificial Language)とは対比の存在です。

<b style='color: #AA0000'>自然言語処理</b>(NLP, Natural Language Processing)とは、人間が日常的に使っている **自然言語をコンピュータに処理させる技術** のことです。  
自然言語処理を用いたタスクには、文書分類・機械翻訳・文書要約・質疑応答・対話などがあります。

自然言語処理でよく使われるワードとして、以下のようなものがあげられます。
> - **トークン**：自然言語を解析する際、文章の最小単位として扱われる文字や文字列のこと。
> - **タイプ**：単語の種類を表す用語。
> - **文章**：まとまった内容を表す文のこと。自然言語処理では一文を指すことが多い。
> - **文書**：複数の文章から成るデータ一件分を指すことが多い。
> - **コーパス**：文書または音声データにある種の情報を与えたデータ。
> - **シソーラス**：単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけた類語辞典・辞書。
> - **形態素**：意味を持つ最小の単位。「食べた」という単語は、2つの形態素「食べ」と「た」に分解できる。
> - **単語**：単一または複数の形態素から構成される小さな単位。
> - **表層**：原文の記述のこと。
> - **原形**：活用する前の記述のこと。
> - **特徴**：文章や文書から抽出された情報のこと。
> - **辞書**：自然言語処理では、単語のリストを指す。

#### 問題

- 下の中から自然言語処理が用いられているものを選んでください。

- AppleのSiri
- Gunosy
- 検索エンジン
- 上記のすべて

#### ヒント

- 自然言語を処理させるものは全て自然言語処理になります。

#### 解答

- 上記のすべて

***

### 1.1.2 言語による違い

文章の意味を機械に理解させるためには、単語分割を行う必要があります。
例えば、「私はアイデミーで勉強します。」という文は
```
　私　|　は　|　アイデミー　｜　で　｜　勉強し　｜　ます　｜
 名詞　副助詞　 　名詞　　　格助詞　   動詞　 　助動詞
```
のように単語の区切りを同定し、その品詞と基本形を上記のように求めることができます。日本語は単語の区切りを同定することが難しいですが、一方で複数の解釈を持つ単語が少ないので品詞や、基本形を求めることは容易です。<br>

中国語やタイ語も単語分割が必要な言語です。<br>

英語の場合は、
```
I | study | at | aidemy.
名詞　動詞　前置詞　名詞
```

のように単語の区切りは空白やピリオド等の記号により同定できますが、多くの語が複数の品詞をもつため品詞を同定することは難しいです。<br>
以上からわかるように**言語ごとに問題の所在、難しさが異なるのが自然言語処理の特徴**です。


以下のようにひらがな表記の時は特に難しいです。
```
くるま | で | まつ
くる | まで | まつ
```



#### 問題

- 以下の文章の空欄に入る語句の組み合わせを選んでください。
- 日本語や「」は自然言語処理において「」を同定することが難しいです。

- 「中国語」、「品詞」
- 「英語」、「単語の区切り」
- 「タイ語」、「単語の区切り」
- 「フランス語」、「品詞」

#### ヒント

- フランス語は英語と同じくラテン語から派生しています。

#### 解答

- 「タイ語」、「単語の区切り」

***

## 1.2 文章の単語分割

### 1.2.1 形態素解析とNgram

文章の単語分割の手法は大きく二つ存在し、 <b style='color: #AA0000'>形態素解析</b>と <b style='color: #AA0000'>Ngram</b>があります。<br>
<b style='color: #AA0000'>形態素</b>とは **意味を持つ最小の言語単位** のことであり、単語は一つ以上の形態素を持ちます。<br>
<b style='color: #AA0000'>形態素解析</b>とは、辞書を利用して形態素に分割し、さらに形態素ごとに品詞などのタグ付け（情報の付与）を行うことを指します。


一方で <b style='color: #AA0000'>Ngram</b>とは、 **N文字ごとに単語を切り分ける** 、または **N単語ごとに文章を切り分ける** 解析手法のことです。<br>

1文字、あるいは1単語ごとに切り出したものを **モノグラム** 、2文字（単語）ごとに切り出したものを **バイグラム** 、3文字（単語）ごとに切り出したものを **トリグラム** と呼びます。

例えば「あいうえお」という文の文字のモノグラム・バイグラム・トリグラムを考えてみると以下のようになります。
```
モノグラム：{あ, い, う, え, お}
バイグラム：{あい, いう, うえ, えお}
トリグラム：{あいう, いうえ, うえお}
```

Ngram は形態素解析のように辞書や文法的な解釈が不要であるため、 **言語に関係なく** 用いることができます。<br>
また Ngram は特徴抽出の漏れが発生しにくいメリットがありますが、ノイズが大きくなるデメリットがあります。
逆に形態素解析は辞書の性能差が生じてしまう代わりにノイズが少ないです。

例えば、「東京都の世界一有名なIT企業」という少し長い文字列について検索する際、バイグラムによって文字列を分割し検索すると「京都」の企業がヒットする可能性が出てしまいます。
なぜなら「東京都」の文字バイグラムを列挙すると{東京, 京都}となるからです。  
形態素解析を適切に用いるとこのようなことは起こりませんが、性能の高い辞書を用意する必要があります。

**＜用語＞**

> - **単語分割**：文章を単語に分割すること
> - **品詞タグ付け**：単語を品詞に分類して、タグ付けをする処理のこと
> - **形態素解析**：形態素への分割と品詞タグ付けの作業をまとめたもの

#### 問題

- 以下の文章の空欄に当てはまる語句の組み合わせを選んでください。
- 形態素解析は「」を用いて「」をします。

- 「辞書」、「文章の分割」
- 「ルール」、「文章の分割と品詞の同定」
- 「ルール」、「文章の分割」
- 「辞書」、「文章の分割と品詞の同定」

#### ヒント

- 形態素解析は、二つのことをします。

#### 解答

- 「辞書」、「文章の分割と品詞の同定」

***

### 1.2.2 MeCab

形態素解析の難しさについてなんとなくイメージが掴めたと思います。「形態素解析なんてできるの？」とお思いかもしれませんが、安心してください。<br>とても優秀なツールが存在します。

形態素解析を行うにあたりあらかじめ形態素解析ツールが用意されており、日本語の形態素解析器として代表的なものに<b style='color: #AA0000'>MeCab</b>や<b style='color: #AA0000'>janome</b>などがあります。  

MeCabやjanomeは辞書を参考に形態素解析を行います。  
ここではMecabの使い方を学習します。以下のMecabを使った形態素解析の実行例を見てください。

```python 
import MeCab

mecab = MeCab.Tagger("-Owakati")
print(mecab.parse("明日は晴れるでしょう。"))
# 出力結果
明日 は 晴れる でしょ う 。 
```
```python
mecab = MeCab.Tagger("-Ochasen")
print(mecab.parse("明日は晴れるでしょう。"))

"""
# 出力結果
明日	アシタ	明日	名詞-副詞可能		
は	ハ	は	助詞-係助詞		
晴れる	ハレル	晴れる	動詞-自立	一段	基本形
でしょ	デショ	です	助動詞	特殊・デス	未然形
う	ウ	う	助動詞	不変化型	基本形
。	。	。	記号-句点		

EOS
"""
```

**MeCab**では`MeCab.Tagger()`の引数を変更することによりデータの出力形式を変更することができます。<br>
例のように、`"-Owakati"`を引数とすると単語ごとに分ける**分かち書き**、`"-Ochasen"`を引数とすると**形態素解析**を行います。<br>
`.parse("文章")`とすることにより引数の文章を指定された形式で出力させることができます。  


#### 問題

- 説明文の例を参考に「ダックスフンドが歩いている。」という文をMeCabを用いて形態素解析してください。

In [None]:
import MeCab

# 形態素解析をしてください
mecab = 
print()

#### ヒント

- MeCabの「C」は大文字であることに注意しましょう。

```python
import MeCab

mecab = MeCab.Tagger("-Ochasen")
print(mecab.parse("明日は晴れるでしょう。"))
```

#### 解答例

In [None]:
import MeCab

# 形態素解析をしてください
mecab = MeCab.Tagger("-Ochasen")
print(mecab.parse("ダックスフンドが歩いている。"))

***

### 1.2.3 janome (1)

<b style='color: #AA0000'>janome</b>も有名な日本語の形態素解析器の一つです。

janomeの利点としては、MeCabのインストールが面倒なことに対して、パッケージのインストールが容易な点です。<br>
janomeは初めに`Tokenizer`をインポートし、`Tokenizer` オブジェクトを **`Tokenizer()`** によって作成します。<br>

```python 
from janome.tokenizer import Tokenizer

t = Tokenizer()
```
`Tokenizer`の`tokenize`メソッドに解析したい文字列渡すことで形態素解析できます。<br>
`tokenize`メソッドの返り値はタグ付けされたトークン（`Token`オブジェクト）のリストです。<br>

```python 

#形態素解析
from janome.tokenizer import Tokenizer

tokenizer = Tokenizer()  # Tokenizerオブジェクトの作成
tokens = tokenizer.tokenize("pythonの本を読んだ")
for token in tokens:
    print(token)
    print()

"""
# 出力結果 
  python	名詞,固有名詞,組織,*,*,*,python,*,*
  の	助詞,連体化,*,*,*,*,の,ノ,ノ
  本	名詞,一般,*,*,*,*,本,ホン,ホン
  を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
  読ん	動詞,自立,*,*,五段・マ行,連用タ接続,読む,ヨン,ヨン
  だ	助動詞,*,*,*,特殊・タ,基本形,だ,ダ,ダ
"""
```


#### 問題

- 説明文を参考に、「明日は晴れるだろうか。」をjanomeで形態素解析をしてください。

In [None]:
from janome.tokenizer import Tokenizer

# 形態素解析をしてください
tokenizer = Tokenizer()
tokens = tokenizer.tokenize("明日は晴れるだろうか。")
for token in tokens:
    print(token)
    print()

#### ヒント

```python
from janome.tokenizer import Tokenizer

# Tokenizerオブジェクトの作成
tokenizer = Tokenizer()
tokens = tokenizer.tokenize("pythonの本を読んだ")
for token in tokens:
    print(token)
    print()
```

#### 解答例

In [None]:
from janome.tokenizer import Tokenizer

# 形態素解析をしてください
tokenizer = Tokenizer()
tokens = tokenizer.tokenize("明日は晴れるだろうか。")
for token in tokens:
    print(token)
    print()

***

### 1.2.4 janome (2)

<a href='https://aidemy.net/courses/5050/exercises/SJ2Gc28jIlM' target='_blank'>janome(1)</a>では、形態素解析を行いましたが、`tokenize`メソッドの引数に **`wakati=True`** を指定することにより分かち書きをさせることができます。<br>
`wakati=True`にした時の返り値は **分かち書きのリスト** となります。
```python
from janome.tokenizer import Tokenizer

# 分かち書き
t = Tokenizer()
tokens = t.tokenize("pythonの本を読んだ", wakati=True)
print(tokens)
# 出力結果
["python", "の", "本", "を", "読ん", "だ"]
```

#### 問題

- 説明文の例を参考に「すもももももももものうち」をjanomeで分かち書きにして表示してください。

In [None]:
from janome.tokenizer import Tokenizer

# 分かち書きをしてください
t = 
tokens = 
print(tokens)

#### ヒント

```python
from janome.tokenizer import Tokenizer

t = Tokenizer()
tokens = t.tokenize("pythonの本を読んだ", wakati=True)
print(tokens)
```

#### 解答例

In [None]:
from janome.tokenizer import Tokenizer

# 分かち書きをしてください
t = Tokenizer()
tokens = t.tokenize("すもももももももものうち", wakati=True)
print(tokens)

***

### 1.2.5 split関数

自然言語処理にあたって文書データ等をダウンロードした際、`"banana, apple, strawberry"` のように単語と単語が特殊な文字で区切られていることがよくあります。  
そのようなときにPythonの組み込み関数である <b style='color: #AA0000'>split関数</b>関数をよく用いるのでここで説明します。
<b style='color: #AA0000'>split関数</b>は、数字・アルファベット・記号などが入り混じった **文字列を、ある規則に従って切り分けてリスト化** してくれる関数です。<br>
文字列がスペースや区切り文字`(「,」, 「.」, 「_」など)`によって区切られている時に、 **`文字列.split("区切り文字")`** とすることで空白や区切り文字で区切られたリストを得ることができます。

```python
fruits = "banana, apple, strawberry"
print(fruits)  # str
print(fruits.split(","))  # list
# 出力結果
banana, apple, strawberry
["banana", " apple", " strawberry"]
```
```python
fruits = "banana apple srawberry"
print(fruits)  # str
print(fruits.split())  # list
# 出力結果
banana apple srawberry
["banana", "apple", "srawberry"]
```

#### 問題

- `split()`関数を用いて、`['1', '2', '3', '4', '5']`を出力してください。

In [None]:
number = "1,2,3,4,5"
print(number)
# ["1", "2", "3", "4", "5"]を出力してください

#### ヒント

- 区切り文字は「,」"カンマ"です。

#### 解答例

In [None]:
number = "1,2,3,4,5"
print(number)
# ["1", "2", "3", "4", "5"]を出力してください
print(number.split(","))

***

### 1.2.6 janome (3)

また、各トークン（`Token`オブジェクト）に対して、`Token.surface`で表層形を取り出すことができ、`Token.part_of_speech`で品詞を取り出すことができます。<br>
**表層形**とは、文中において文字列として実際に出現する形式のことです。


```python
tokens = t.tokenize("pythonの本を読んだ")
#表層形
for token in tokens:
    print(token.surface)
# 出力結果
python 
の
本
を
読ん
だ
```
```python
# 品詞
for token in tokens:
    print(token.part_of_speech)
# 出力結果
名詞,固有名詞,組織,*
助詞,連体化,*,*
名詞,一般,*,*
助詞,格助詞,一般,*
動詞,自立,*,*
助動詞,*,*,*

```

#### 問題

- 説明文の例と<a href='https://aidemy.net/courses/5050/exercises/HkTGq3UsLgz' target='_blank'>janome(2)</a>を参考に、「豚の肉を食べた」という文から名詞と動詞を取り出して以下のようにリスト表記で出力してください。<br>
   `["豚", "肉", "食べ"]`

In [None]:
from janome.tokenizer import Tokenizer

t = Tokenizer()
tokens = t.tokenize("豚の肉を食べた")

# 以下のリストに答えを代入してください
word = []

# 以下に回答を作成してください
for token in tokens:
    part_of_speech = 
    if 
        word.append(token.surface)
print(word)

#### ヒント

- "豚"の形態素解析をすると品詞は`「名詞,一般,*,*」`と出力されます。そのため`.split[0]`とすることで品詞を取り出すことができます。
- 名詞と動詞を取り出したいので、`or`を使うと綺麗に書くことができます。
- 文字列を追加しリストを作りたい時は、`append`メソッドを用いましょう。

#### 解答例

In [None]:
from janome.tokenizer import Tokenizer

t = Tokenizer()
tokens = t.tokenize("豚の肉を食べた")

# 以下のリストに答えを代入してください
word = []

# 以下に回答を作成してください
for token in tokens:
    part_of_speech = token.part_of_speech.split(",")[0]
    if part_of_speech == "名詞" or part_of_speech == "動詞":
        word.append(token.surface)
print(word)

***

### 1.2.7 Ngram

引き続き、単語分割という機械が文章の意味を理解するための方法について紹介していきます。<br>
<b style='color: #AA0000'>Ngram</b>とは、 先ほど述べたように**N文字ごとに単語を切り分ける** 、または **N単語ごとに文章を切り分ける** 解析手法のことです。<br>
**Ngram**のアルゴリズムは以下の`gen_Ngram`ように書くことができます。<br>
<b style='color: #AA0000'>単語のNgram</b>を求めたい場合は、**引数に単語と切り出したい数**を入れます。<br>
<b style='color: #AA0000'>文章のNgram</b>を求めたい場合は、**janomeの`tokenize`関数を用いて分かち書きのリストを作成し、その分かち書きのリストと切り出したい数**を引数に入れます。 <br>
<br>
"pythonの本を読んだ"、という文章を3単語ごと(N=3)に分割する場合を考えましょう。<br>
janomeを用いると` ["python", "の", "本", "を", "読ん", "だ"]`と分割されます。連続した3単語は、6 - 3 + 1 (品詞を元に分割された数 - N + 1) = 4個取ることができます。<br>
結果は`["pythonの本", "の本を", "本を読ん", "を読んだ"]`となります。


```python
from janome.tokenizer import Tokenizer
tokenizer = Tokenizer()
tokens = tokenizer.tokenize("pythonの本を読んだ", wakati=True)
# tokens = ["python", "の", "本", "を", "読ん", "だ"]

def gen_Ngram(words,N):
    ngram = [] # ここに切り出した単語を追加していきます。
    for i in range(len(words)-N+1): # 連続したN個の単語が取れるまでfor文で繰り返します。
        cw = "".join(words[i:i+N]) # N個分の単語をつなげてcwに代入します。
        ngram.append(cw)

    return ngram

print(gen_Ngram(tokens, 2))
print(gen_Ngram(tokens, 3))
# 文章のトリグラムの場合
gen_Ngram(tokens, 3)
# 出力結果
["pythonの本", "の本を", "本を読ん", "を読んだ"]

# 単語のバイグラムの場合
gen_Ngram("bird", 2)
# 出力結果
["bi", "ir", "rd"]

```



#### 問題

- 「太郎はこの本を二郎を見た女性に渡した。」という文からNgram（文章のバイグラムとトリグラム）を生成し表示てください。

In [None]:
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize("太郎はこの本を二郎を見た女性に渡した。", wakati=True)

def gen_Ngram(words,N):
    # Ngramを生成してください





    return ngram

print(gen_Ngram(tokens, 2))
print(gen_Ngram(tokens, 3))

#### ヒント

- リストで参照できないインデックスを入力してしまうとエラーになってしまします。Ngramのアルゴリズムを参考に繰り返しの範囲に気を付けましょう。

#### 解答例

In [None]:
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize("太郎はこの本を二郎を見た女性に渡した。", wakati=True)

def gen_Ngram(words,N):
    # Ngramを生成してください
    ngram = []
    for i in range(len(words)-N+1):
        cw = "".join(words[i:i+N])
        ngram.append(cw)

    return ngram

print(gen_Ngram(tokens, 2))
print(gen_Ngram(tokens, 3))

***

## 1.3 正規化

### 1.3.1 正規化 (1)

自然言語処理では、複数の文書から特徴を抽出する場合、入力ルールが統一されておらず表記揺れが発生している場合があります。（例 iPhoneとiphone）<br>
同じはずの単語を別のものとして解析してしまい、意図しない解析結果がもたらされてしまいます。<br>
全角を半角に統一や大文字を小文字に統一等、ルールベースで文字を変換することを <b style='color: #AA0000'>正規化</b>と言います。

**正規化を行い過ぎると本来区別すべき内容も区別できなくなる** ため注意しましょう。

**＜用語＞**

> - **表記揺れ**：同じ文書の中で、同音・同義で使われるべき語句が異なって表記されていること
> - **正規化**：表記揺れを防ぐためルールベースで文字や数字を変換すること

文字列の正規化において、ライブラリの <b style='color: #AA0000'>NEologd</b>を用いると容易に正規化を行うことができます。<br>
**`neologdn.normalize("正規化したい文字列")`** と表記すると、正規化された文字列が返り値として渡されます。

**`neologdn`** で行うことができる正規化は以下のものとなります。
> - 全角英数字を半角に統一　`ａｉ -> ai`
> - 半角カタカナを全角に統一 `ｶﾀｶﾅ -> カタカナ`
> - 長音短縮 `ワーーーーーーーーイ -> ワーイ`
> - 似た文字種の統一 `"− ー - "-> "-"`
> - 不必要なスペースの削除 `"ス　　　ペ　ース　　　"-> "スペース"`　
> - 繰り返しの制限 （問題で確認）



#### 問題

- `neologdn`をインポートして実行結果から正規化されていることを確認してください。

In [None]:
# neologdnをインポートしてください


# 半角カタカナを全角に統一
a = neologdn.normalize("ｶﾀｶﾅ")
print(a)

# 長音短縮
b = neologdn.normalize("長音短縮ウェーーーーイ")
print(b)

# 似た文字の統一
c = neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")
print(c)

# 全角英数字を半角に統一 + 不要なスペースの削除
d = neologdn.normalize("　　　ＤＬ　　デ  ィ ープ ラ  ーニング　　　　　")
print(d)

# 繰り返しの制限
e = neologdn.normalize("かわいいいいいいいいい", repeat=6)
print(e)

#### ヒント

- `import ライブラリ名`

#### 解答例

In [None]:
# neologdnをインポートしてください
import neologdn

# 半角カタカナを全角に統一
a = neologdn.normalize("ｶﾀｶﾅ")
print(a)

# 長音短縮
b = neologdn.normalize("アイデミーーーーーーーー")
print(b)

# 似た文字の統一
c = neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")
print(c)

# 全角英数字を半角に統一 + 不要なスペースの削除
d = neologdn.normalize("　　　ＤＬ　　デ  ィ ープ ラ  ーニング　　　　　")
print(d)

# 繰り返しの制限
e = neologdn.normalize("あいでみいいいいいいいいいいい", repeat=6)
print(e)

***

### 1.3.2 正規化 (2)

<a href='https://aidemy.net/courses/5050/exercises/HkZm5nLiIgM' target='_blank'>正規化(1)</a>では、ライブラリを用いた正規化について見てきました。<br>
次は、自分のデータに合わせて正規化したいときのために **自分自身で正規化をするための方法** について説明します。<br>

文書中に「iphone」「iPhone」の２種類の単語があった時に、これらを同一のものとして扱うために表記を統一する必要があります。<br>
大文字を小文字に揃えたいときは、 **`.lower()`** を文字列につけることにより揃えることができます。

以下の例のようにコード内で何度も用いるようなものは関数にすることが多いです。

```python 
def lower_text(text):
    return text.lower()
lower_letters = lower_text("iPhone")
print(lower_letters)
# 出力結果
iphone
```

#### 問題

- 説明文の例を参考に、「iPhone, IPAD, MacBook」を小文字にして出力してください。

In [None]:
text = "iPhone, IPAD, MacBook"
# 「iPhone, IPAD, MacBook」を小文字にして出力してください



#### ヒント

- 関数としなくても良いです。

#### 解答例

In [None]:
text = "iPhone, IPAD, MacBook"
# 「iPhone, IPAD, MacBook」を小文字にして出力してください
print(text.lower())

***

### 1.3.3 正規化 (3)

また正規化では、数字の置き換えを行うことがあります。<br>
数字の置き換えを行う理由としては、 **数値表現が多様で出現頻度が高い割には自然言語処理のタスクに役に立たない場合があるから** です。<br>
たとえば、ニュース記事を「スポーツ」や「政治」のようなカテゴリに分類するタスクを考えましょう。この時、記事中には多様な数字表現が出現すると思いますが、カテゴリの分類にはほとんど役に立たないと考えられます。そのため、 **数字を別の記号に置き換えて語彙数を減らしてしまいます。**

ここでは正規表現という特殊な表現方法を使って文字列を変換します。正規表現について詳しくは正規化(4)にて説明します。  
正規表現操作にはPythonの標準ライブラリ <b style='color: #AA0000'>re</b>を使います。<br>
文字列を別の文字列に置き換えるには、<br> **`re.sub(正規表現, 置換する文字列, 置換される文字列全体 [, 置換回数])`**<br>
つまり、第一引数に置き換えたいものを正規表現で指定し、第二引数に置き換える文字列を示す。<br>
第三引数に置換する文字列全体を指定します。第四引数の回数を指定しないと、全て置換されることになります。<br>
以下の例を見てみましょう。"昨日は6時に起きて11時に寝た。"という文章があるとします。<br>
`normalize_number`は文章から数字を削除する関数です。<br>
`re.sub`の第一引数`\d`は数字列を表す正規表現です。これを用いることで任意の数字列を指定することができます。<br>
第二引数は`"<NUM>"`となっており、第一引数で指定された文字列を`<NUM>`に書き換える操作になります。<br>
第三引数で文章を指定しており、第四引数が指定されていないので、文章中の数字列を全て変更する操作を行います。



```python 
import re

def normalize_number(text):
    replaced_text = re.sub("\d", "<NUM>", text)
    return replaced_text
replaced_text = normalize_number("昨日は6時に起きて11時に寝た。")
print(replaced_text)
# 出力結果
昨日は<NUM>時に起きて<NUM>時に寝た。
```

#### 問題

- 説明文の例を参考に`終日は前日よりも39.03ドル(0.19%)高い。`という文に対して、数字を`!`に置き換えることで、単語の正規化をおこなってください。

In [None]:
import re

def normalize_number(text):
    replaced_text = 
    return replaced_text

replaced_text = 
print(replaced_text)

#### ヒント

- 文字列の置き換えは`re.sub(正規表現, 置換する文字列, 置換される文字列全体 [, 置換回数])`を利用してください。
- `macOS`の場合、`\`は`option` + `¥`で入力することができます。

#### 解答例

In [None]:
import re

def normalize_number(text):
    replaced_text = re.sub("\d", "!", text)
    return replaced_text

replaced_text = normalize_number("終日は前日よりも39.03ドル(0.19%)高い。")
print(replaced_text)

***

### 1.3.4 正規表現

<b style='color: #AA0000'>正規表現</b>とは、文字列の集合を一つの文字や別の文字列で置き換える表現法のことです。<br>
文字列の検索機能などで広く使われています。

```
12A3B -> \d\dA\dB
```
上記の例では、半角数字を全て正規表現`\d`で表しています。<br>
正規表現(3)のように自然言語処理では、解析に必要ないと思われる文字列の集合を置き換えることによりデータ量を減らします。<br>
正規表現はそのような文字列の集合を置換するときに用いられます。

自然言語処理でよく用いられる正規表現は以下の表の通りです。

|正規表現|意味|
|:---|:---:|
|`\d or [0-9]`|数字|
|`\D or [^0-9]`|数字以外|
|`\s or [\t\n\r\f\v]`|空白|
|`\w or [a-xA-Z0-9_]`|英数字|
|`\W or [\a-zA-Z0-9_]`|英数字以外|

#### 問題

- 以下の文章の空欄に入る最も適当な語句の組み合わせを選んでください。
- 正規表現とは、「」ために「」の集合を置換します。

- 「見やすくする」、「文字列」
- 「データ量を減らす」、「文字列」
- 「データ量を減らす」、「数字」

#### ヒント

- 解析に必要ない文字列の存在のためにデータ量が非常に大きくなってしまう場合があります。

#### 解答

- 「データ量を減らす」、「文字列」

## 1.5 まとめ問題(提出不要)

青空文庫のデータをもとにこころ(夏目漱石)の読み込みを行います
(データは /5050_nlp_dataに配置されています)

kokoro.txtは、shift-jisで記述されているため、注意してください。

出典:<a href="https://www.aozora.gr.jp/" target="_blank">[青空文庫]</a>

#### 問題

- kokoro.txtを読み込んでください
- テキストには、《　》でルビ(ふりがな)が振ってあります。
- また、各章の説明が [　] で囲まれています。
- ここでは、簡単のため、《　》　と　[　] 本体と内部の文章を取り除けばいいものとします。
- 読み込んだ文章の動詞をjanomeを用いて取り出し、print()を用い出力してください


In [None]:
import re
from janome.tokenizer import Tokenizer

#ファイルパスは適宜変更してください
text_data = open("./5050_nlp_data/kokoro.txt",encoding = "shift-jis")
text = text_data.read()
text_data.close()

#ルビと括弧を削除してください
text = 
text = 

#動詞のみを出力してください
t = Tokenizer()
tokens = 

for token in tokens:
    if(token.part_of_speech.split(",")[0] == "動詞"):
        print(token.surface)


#### ヒント

- ルビ《　》を削除する正規表現としては、"《[^》]+》"があります。
- [　]については、"［.+?］"を使用してください

#### 解答例

In [None]:
import re
from janome.tokenizer import Tokenizer

#ファイルパスは適宜変更してください
text_data = open("./5050_nlp_data/kokoro.txt",encoding = "shift-jis")
text = text_data.read()
text_data.close()

#ルビと括弧を削除してください
text = re.sub(u"《[^》]+》", "", text)
text = re.sub(u"［.+?］", "", text)

#動詞のみを出力してください
t = Tokenizer()
tokens = t.tokenize(text)

for token in tokens:
    if(token.part_of_speech.split(",")[0] == "動詞"):
        print(token.surface)


品詞は、`token.part_of_speech`で取り出すことができます。

品詞は`「名詞,一般,*,*」`と出力されます。そのため`.split[0]`とすることで品詞を取り出すことができます。

***