# 0. 準備

## 0. 準備の準備

本ハンズオンで利用するデータセットの一部はGit LFSを介して提供されている。
Git LFSをインストールせよ。


### 回答

Dev Containerを利用し、Dockerのイメージをビルドするタイミングで`sudo apt install git-lfs -y`コマンドでインストールするようにした。
参考：[.devcontainer/postCreateCommand.sh](../.devcontainer/postCreateCommand.sh)


## 1. データセットの入手

本ハンズオンではAmazonのShopping Queries Datasetを利用する。
以下から `git clone` せよ。

https://github.com/amazon-science/esci-data


### 回答

リポジトリ直下（ir100ディレクトリ）で以下のコマンドを実行。DockerのVolumeとしてマウントしてあるので、ホスト側のディレクトリにはデータは存在しない。


In [None]:
!git clone https://github.com/amazon-science/esci-data ../esci-data

## 2. ライブラリの入手

このデータセットの一部はParquet形式である。
Parquet形式のファイルを読み込むためのライブラリを入手せよ。


### 回答

Poetryをパッケージマネージャーとして利用するので、以下のコマンドで追加。


In [None]:
!poetry add pandas datasets

## 3. 製品データの読み込み

ライブラリの機能で製品データ（以下）をメモリに読み込め。

```
./esci-data/shopping_queries_dataset/shopping_queries_dataset_products.parquet
```

（想定実行時間：1分以内）



### 回答


In [None]:

import pandas as pd
import pathlib

esci_path = pathlib.Path("../esci-data/shopping_queries_dataset")
print("Start loading products...")
df_products = pd.read_parquet(esci_path.joinpath("shopping_queries_dataset_products.parquet"))
print("Loaded products.")

## 4. 製品データの確認

製品を1つランダムに取り出し表示せよ。
何度か実行せよ。


### 回答



In [None]:
df_products.sample()

In [None]:

df_products.sample()

In [None]:

df_products.sample()

## 5. クエリデータの読み込み

クエリデータ（以下）をメモリに読み込め。

```
./esci-data/shopping_queries_dataset/shopping_queries_dataset_examples.parquet
```

（想定実行時間：1分以内）



### 回答




In [None]:
print("Start loading examples...")
df_examples = pd.read_parquet(esci_path.joinpath("shopping_queries_dataset_examples.parquet"))
print("Loaded examples.")

## 6. クエリデータの確認

クエリを1つランダムに取り出し表示せよ。
何度か実行せよ。



### 回答

In [None]:
df_examples.sample()

In [None]:
df_examples.sample()

In [None]:
df_examples.sample()

## 7. フィルタリング

題材の製品データ、クエリデータそれぞれ `product_locale` が `us` であるものを抽出せよ。

これ以降、特に断りがなければ、以下の理由からこれらのサブセットを用いる。

- 単語がスペース区切りで扱いやすいため。
- `product_locale` 内では `product_id` がユニークで扱いやすいため。

また、それぞれ**英語製品データ**、**英語クエリデータ**と呼ぶ。


### 回答


In [None]:
df_products_us = df_products[df_products["product_locale"] == "us"]
df_examples_us = df_examples[df_examples["product_locale"] == "us"]

## 8. 結合

英語製品データと英語クエリデータを、`product_id` をキーとして結合せよ。
これを**英語結合データ**と呼ぶ。

また、英語結合データのエントリを1つランダムに取り出し表示せよ。
何度か実行せよ。


### 回答


In [None]:
pd_examples_products_us = pd.merge(
    df_examples_us,
    df_products_us,
    how='left',
    left_on=['product_id'],
    right_on=['product_id']
)

pd_examples_products_us.sample()


In [None]:

pd_examples_products_us.sample()

In [None]:

pd_examples_products_us.sample()