# 1. 転置インデックスとマッチング

（想定実行時間：それぞれ1分以内）



## 1. ディクショナリ

英語製品データについて、以下の連想配列を構築せよ。
ただし、単語はスペースで区切られているものとする（以降の問題でも同じ）。

- キー： `product_title` フィールドに出現する単語。
- 値：その単語の出現回数。ただし、全ての製品における合計とする。

また、単語の異なり数が約90万であることを確かめよ。



### 回答


In [19]:
import pandas as pd
import pathlib
import re
from typing import Dict

esci_path = pathlib.Path("../esci-data/shopping_queries_dataset")
print("Start loading products...")
df_products = pd.read_parquet(esci_path.joinpath("shopping_queries_dataset_products.parquet"))
print("Loaded products.")
df_products_us = df_products[df_products["product_locale"] == "us"]

dict_split_default: Dict[str, int] = {}
dict_split_space: Dict[str, int] = {}
dict_split_re: Dict[str, int] = {}

print("Start counting...")
# product_titleのカラムでループ処理
for title in df_products_us["product_title"]:
    # titleをスペースで分割 (正規表現：912923)
    for word in re.split('\s+', title):
        # 辞書に数を数えながら追加
        if len(word) > 0:
            if word in dict_split_re:
                dict_split_re[word] = dict_split_re[word] + 1
            else:
                dict_split_re[word] = 1
        
    # titleをスペースで分割 (" "：917132)
    for word in title.split(" "):
        # 辞書に数を数えながら追加
        if len(word) > 0:
            if word in dict_split_space:
                dict_split_space[word] = dict_split_space[word] + 1
            else:
                dict_split_space[word] = 1
    # titleをスペースで分割 (split()：912923)
    for word in title.split():
        # 辞書に数を数えながら追加
        if len(word) > 0:
            if word in dict_split_default:
                dict_split_default[word] = dict_split_default[word] + 1
            else:
                dict_split_default[word] = 1


# 辞書のキーの数＝単語の異なり数
#len(dict_split_default.keys())

print(f"split with \\s+ {len(dict_split_re.keys())}")
print(f"split \" \" {len(dict_split_space.keys())}")
print(f"split NONE {len(dict_split_default.keys())}")
print(f"{list(set(dict_split_space.keys())-set(dict_split_default.keys()))}")


Start loading products...
Loaded products.
Start counting...
split with \s+ 912923
split " " 917132
split NONE 912923


## 2. ポスティングリスト

単語 `Information` を `product_title` フィールドに含む製品の `product_id` の配列を出力せよ。
ただし、大文字と小文字を区別するものとする（例えば `Information` と `information` は異なる単語とする。以降の問題でも同じ）。
また、`product_id` は辞書順とし、重複してはならない（以降の問題でも同じ）。

また、この配列の要素数が110であることを確かめよ。



### 回答


In [34]:
from typing import Set

title_postings: Dict[str, Set[str]] = {}

print("Start counting...")
# product_titleのカラムでループ処理
for product in df_products_us.itertuples():
    # titleをスペースで分割 (split()：912923)
    for word in product.product_title.split():
        # 辞書に数を数えながら追加
        if word in title_postings:
            title_postings[word].add(product.product_id)
        else:
            title_postings[word] = {product.product_id}

# InformationのIDのリスト
ids = list(title_postings["Information"])
ids.sort()
print(f"Postings list size of \"Information\" is {len(ids)}")
ids



Start counting...
Postings list size of "Information" is 110


['0133741621',
 '0134296540',
 '0135217725',
 '0262031639',
 '0399159258',
 '073860836X',
 '0738610364',
 '0804717265',
 '0823085546',
 '0993294812',
 '107014598X',
 '1081837160',
 '1097276546',
 '1099719615',
 '1099741408',
 '1099998190',
 '1118674367',
 '1118890795',
 '1118988531',
 '111900294X',
 '1119101603',
 '1138366404',
 '1426215436',
 '1440574561',
 '1440854475',
 '1440875049',
 '1441317295',
 '1441317996',
 '1491911689',
 '1510750789',
 '1545261261',
 '1593995520',
 '1598849891',
 '1619549506',
 '1631592963',
 '1688868674',
 '1690155701',
 '1695096584',
 '1697447031',
 '1796683000',
 '1796688916',
 '1798422395',
 '1938377001',
 '3030418189',
 'B000RR4AU2',
 'B000XYT3IS',
 'B000XYT3J2',
 'B000XYT3JC',
 'B000XYT3JM',
 'B000Y2TU7S',
 'B000Y2TU82',
 'B0019WTCYS',
 'B002QX43ZM',
 'B00BZA22B4',
 'B00BZA22BE',
 'B00G334QXU',
 'B00OVNI8XI',
 'B00RZJ2Y2Q',
 'B00T0ROWE4',
 'B00U9AJB24',
 'B00VEYRZBI',
 'B010CKGBVE',
 'B018OERCSQ',
 'B01EHX2BH0',
 'B01H301G4I',
 'B01IL2G2XW',
 'B06XBPJV

## 3. 転置インデックス

以下の連想配列を構築せよ：

- キー：`product_title` フィールドに出現する単語。
- 値：その単語を `product_title` フィールドに含む製品の `product_id` の配列。

また、この連想配列について、以下のことを確かめよ：

- エントリ数が `1.` の連想配列のそれと等しいこと。
- `Information` に紐づいた配列が `2.` の配列と等しいこと。

以降、このデータ構造を**転置インデックス**、転置インデックスの値を**ポスティングリスト**と呼ぶ。



### 回答

2ですでに作ってしまったので、数の確認だけにとどめる。

In [35]:

print(f"エントリー数が等しいかどうか？{len(title_postings) == len(dict_split_default)}")


エントリー数が等しいかどうか？True


## 4. 永続化

転置インデックスをメモリからディスクに書き込んだり、ディスクからメモリに読み込んだりできるようにせよ。



### 回答


In [40]:
import pickle
dump_file = pathlib.Path("./inverted_index.dump")
with dump_file.open(mode="wb") as dwf:
    pickle.dump(obj=title_postings, file=dwf)

with dump_file.open(mode="rb") as drf:
    loaded_dict = pickle.load(file=drf)

ids = list(loaded_dict["Information"])
ids.sort()
print(f"Postings list size of \"Information\" is {len(ids)}")
ids

Postings list size of "Information" is 110


['0133741621',
 '0134296540',
 '0135217725',
 '0262031639',
 '0399159258',
 '073860836X',
 '0738610364',
 '0804717265',
 '0823085546',
 '0993294812',
 '107014598X',
 '1081837160',
 '1097276546',
 '1099719615',
 '1099741408',
 '1099998190',
 '1118674367',
 '1118890795',
 '1118988531',
 '111900294X',
 '1119101603',
 '1138366404',
 '1426215436',
 '1440574561',
 '1440854475',
 '1440875049',
 '1441317295',
 '1441317996',
 '1491911689',
 '1510750789',
 '1545261261',
 '1593995520',
 '1598849891',
 '1619549506',
 '1631592963',
 '1688868674',
 '1690155701',
 '1695096584',
 '1697447031',
 '1796683000',
 '1796688916',
 '1798422395',
 '1938377001',
 '3030418189',
 'B000RR4AU2',
 'B000XYT3IS',
 'B000XYT3J2',
 'B000XYT3JC',
 'B000XYT3JM',
 'B000Y2TU7S',
 'B000Y2TU82',
 'B0019WTCYS',
 'B002QX43ZM',
 'B00BZA22B4',
 'B00BZA22BE',
 'B00G334QXU',
 'B00OVNI8XI',
 'B00RZJ2Y2Q',
 'B00T0ROWE4',
 'B00U9AJB24',
 'B00VEYRZBI',
 'B010CKGBVE',
 'B018OERCSQ',
 'B01EHX2BH0',
 'B01H301G4I',
 'B01IL2G2XW',
 'B06XBPJV

## 5. ブーリアンAND検索

転置インデックスを用いて、2単語 `Information` と `Science` を**ともに** `product_title` フィールドに含む製品の `product_id` の配列を出力せよ。
ただし、配列が非常に長い場合にも効率的なコードにせよ（以降の問題でも同じ）。

また、この配列の要素数が3であることを確かめよ。



### 回答


In [43]:
# 楽な実装
info_set = loaded_dict["Information"]
sci_set = loaded_dict["Science"]
info_and_sci = list(info_set & sci_set)
print(f"Length = {len(info_and_sci)}")
info_and_sci

Length = 3


['1440875049', '1440854475', '1598849891']

## 6. ブーリアンOR検索

転置インデックスを用いて、2単語 `Information` と `Retrieval` の**少なくとも片方を** `product_title` フィールドに含む製品の `product_id` の配列を出力せよ。

また、この配列の要素数が129であることを確かめよ。



### 回答


In [45]:
# 楽な実装
info_set = loaded_dict["Information"]
ret_set = loaded_dict["Retrieval"]
info_and_ret = list(info_set | ret_set)
print(f"Length = {len(info_and_ret)}")
info_and_ret

Length = 129


['B08CTGZP2P',
 'B00BZA22BE',
 '1118988531',
 'B07CYYK2QR',
 '1491911689',
 '1441317996',
 'B07X37KV1K',
 'B07VHMM1NR',
 'B0897WT9N9',
 'B000XYT3JC',
 '0399159258',
 'B0849TDTHZ',
 '1593995520',
 '111900294X',
 'B00Q3HJRJE',
 'B0871ML4JC',
 'B000XYT3J2',
 'B000Y2TU7S',
 '1598849891',
 '1099998190',
 'B078HXC36G',
 '1081837160',
 '1619549506',
 '1796688916',
 'B07JX575DQ',
 '0133741621',
 '0134296540',
 'B00VEYRZBI',
 '1690155701',
 '1118890795',
 'B00U9AJB24',
 'B0030G7YSM',
 'B01EHX2BH0',
 'B078HHVWQ4',
 'B0721B8M3J',
 'B00G334QXU',
 'B00N4TDRCC',
 'B00QLZLWNW',
 '1426215436',
 'B07GSNL817',
 'B000XYT3IS',
 'B074T1BM2G',
 '3030418189',
 'B093QLNFHR',
 'B06XBPJVKC',
 '0993294812',
 '1138366404',
 'B08YRNTCK1',
 'B08WVDM19B',
 'B087QKHJ98',
 '107014598X',
 'B00Q3HKEI2',
 'B07F8Y9Q6L',
 'B08BFNFYN6',
 'B07GC1SMBD',
 'B00PMZ8QKY',
 '1510750789',
 '1099719615',
 'B0838VZ58P',
 '1097276546',
 '1440854475',
 '1938377001',
 'B0816B6CRM',
 'B07G2MM464',
 'B07L8BHBRL',
 'B07RZ9933S',
 'B00T0ROW

## 7. 条件の否定

`5.` の条件を**満たさず**、かつ、`6.` の条件を満たす製品の `product_id` の配列を出力せよ。

また、この配列の要素数が126であることを確かめよ。



### 回答


In [48]:
info_or_ret_set = (info_set | ret_set)
info_and_sci_set =  (info_set & sci_set)
if len(info_or_ret_set) > len(info_and_sci_set):
    seven_result = list( info_or_ret_set - info_and_sci_set)
else:
    seven_result = list( info_and_sci_set - info_or_ret_set)
print(f"Length = {len(seven_result)}")
seven_result


Length = 126


['B00BZA22BE',
 '1118988531',
 'B07CYYK2QR',
 '1441317996',
 'B0849TDTHZ',
 'B0871ML4JC',
 'B000XYT3J2',
 '1099998190',
 'B078HXC36G',
 '1081837160',
 '1619549506',
 'B00VEYRZBI',
 '1690155701',
 'B01EHX2BH0',
 'B0721B8M3J',
 'B00N4TDRCC',
 'B07GSNL817',
 'B093QLNFHR',
 'B06XBPJVKC',
 '0993294812',
 '1138366404',
 'B08YRNTCK1',
 'B08WVDM19B',
 'B087QKHJ98',
 '107014598X',
 'B00Q3HKEI2',
 'B07F8Y9Q6L',
 'B08BFNFYN6',
 '1099719615',
 'B0838VZ58P',
 '1938377001',
 'B0816B6CRM',
 'B07G2MM464',
 'B07L8BHBRL',
 'B010CKGBVE',
 'B01L8BGT9A',
 'B07RFSHK6P',
 '1697447031',
 'B000RR4AU2',
 'B089T8BGC5',
 'B07PLQ65QW',
 '1796683000',
 'B00OVNI8XI',
 '0823085546',
 'B087B4H1T6',
 'B085DJ6GHF',
 '1441317295',
 'B084GWG2J5',
 'B07MMQZNTQ',
 '0135217725',
 'B087NY41CY',
 '0738610364',
 'B07XRHJKQW',
 '1118674367',
 '0804717265',
 'B07YBT4HQZ',
 '073860836X',
 'B018OERCSQ',
 'B073NPGMPQ',
 'B00BZA22B4',
 '1440574561',
 '1798422395',
 'B000Y2TU82',
 '1119101603',
 'B09713RXX4',
 'B07P2B31C6',
 'B08DN27M

## 8. 完全一致

`product_brand` フィールドに関する転置インデックスを構築せよ。
ただし単語に区切らず、フィールドの値をそのまま連想配列のキーとすること。



### 回答


In [49]:
brand_postings: Dict[str, Set[str]] = {}

print("Start counting...")
# product_brandのカラムでループ処理
for product in df_products_us.itertuples():
    brand = product.product_brand
    if brand in brand_postings:
        brand_postings[brand].add(product.product_id)
    else:
        brand_postings[brand] = {product.product_id}

len(brand_postings)

Start counting...


211171

## 9. 複数フィールドの横断

転置インデックスを用いて、`product_title` フィールドに単語 `Amazon` を含み、かつ、`product_brand` フィールドの値が `Amazon Basics` **ではない**製品の数が8,681であることを確かめよ。



### 回答


In [50]:
amazon_title_set = loaded_dict["Amazon"]
amazon_basics_brand_set = brand_postings["Amazon Basics"]

if len(amazon_basics_brand_set) > len(amazon_title_set):
    nine_result = list( amazon_basics_brand_set - amazon_title_set)
else:
    nine_result = list( amazon_title_set - amazon_basics_brand_set)

len(nine_result)


8681

## 10. プレフィックス

`3.` で構築した転置インデックスを圧縮する。
`product_id` が固定長であり、かつ辞書順にソートされていることを利用して、ポスティングリスト上で前の `product_id` と共通のプレフィックスを省略せよ。
このとき、ポスティングリストのイテレータ（`product_id` を復元して返す）も実装せよ。



### 回答


## 11. 符号化

前問で構築した転置インデックスを更に圧縮する。
ポスティングリストとは別に全ての `product_id` の辞書順の配列を保存しておき、そのインデックスによってポスティングリストから `product_id` を参照するようにせよ。
また、イテレータも実装せよ。



### 回答


## 12. Variable Byte Encoding

前問で構築した転置インデックスを更に圧縮する。
ポスティングリスト中のインデックスが単調増加することを利用して、前のインデックスからの差を保存せよ。
このとき、差は小さな整数になると期待されるので、variable byte encodingにより圧縮せよ。
また、イテレータも実装せよ。


### 回答
