# 単語操作や全文検索

## 単語操作

ここまで、単語操作として、Pythonの文字列メソッドで文字の置き換えなどを行いました。

ここでは、正規表現について簡単に説明します。

正規表現は汎用的な文字列操作として利用されます。ただし、考え方が複雑なので、一つのプログラミング言語を理解するよな難しさがあります。

### 正規表現の主な用途

- 複雑な文字列のマッチするか
- 複雑な文字列の置き換え
- 文字列のフォーマット確認

### 正規表現の例

- 文字列がURLか？ `http://` または `https://` から始まり その後の文字が「英数字、ドット、ハイフン」なのか
- メールアドレスの `@` を _at_ に置き換える
- 電話番号のフォーマットとして正しいかを確認

In [1]:
import re

URL文字列か？

In [2]:
re.search(r"^https?://\w+[a-z1-9.\-]+\w$", "http://yahoo.co.jp")

<re.Match object; span=(0, 18), match='http://yahoo.co.jp'>

In [3]:
re.search(r"^https?://\w+[a-z1-9.\-]+\w$", "htt://hit-u.ac.jp")

https://jex.im/regulex/#!flags=&re=%5Ehttps%3F%3A%2F%2F%5Cw%2B%5Ba-z1-9.%5C-%5D%2B%5Cw%24

## 全文検索

全文検索とは、文書に指定の単語が含まれている物を見つける

- 網羅的に文書をすべて確認する
- 転置インデックスを用いる

### 網羅的な確認

- ブラウザでページ内に文字があるか？
- PDF内の検索

すべての文字を確認するので、コストが高い

### 転置インデックスを用いる

- 事前に、文書内に入っている単語を抜き出し、文書番号を付ける
- 単語から文書番号の辞書に転換する　(転置)
- 検索単語から上記の辞書を調べて、文書番号を知る

以下の3つの文書を例にする

- 1: Pythonはソフトウエア
- 2: ソフトウエアを使ってアプリを作る
- 3: Pythonで検索エンジンを作る

In [4]:
docs = {1: ["Python", "ソフトウエア"], 
        2: ["ソフトウエア", "使う", "アプリ", "作る"], 
        3: ["Python", "検索", "エンジン", "作る"]}

In [5]:
from collections import defaultdict
index = defaultdict(set)
for doc_id, words in docs.items():
    for word in words:
        index[word].add(doc_id) 

In [6]:
index

defaultdict(set,
            {'Python': {1, 3},
             'ソフトウエア': {1, 2},
             '使う': {2},
             'アプリ': {2},
             '作る': {2, 3},
             '検索': {3},
             'エンジン': {3}})

In [7]:
index.get("使う")

{2}

In [8]:
index.get("Python")

{1, 3}