# 0. 準備

## 0. 準備の準備

本ハンズオンで利用するデータセットの一部はGit LFSを介して提供されている。
Git LFSをインストールせよ。


### 回答

Dev Containerを利用し、Dockerのイメージをビルドするタイミングで`sudo apt install git-lfs -y`コマンドでインストールするようにした。
参考：[.devcontainer/postCreateCommand.sh](../.devcontainer/postCreateCommand.sh)


## 1. データセットの入手

本ハンズオンではAmazonのShopping Queries Datasetを利用する。
以下から `git clone` せよ。

https://github.com/amazon-science/esci-data


### 回答

リポジトリ直下（ir100ディレクトリ）で以下のコマンドを実行。DockerのVolumeとしてマウントしてあるので、ホスト側のディレクトリにはデータは存在しない。

```
git clone https://github.com/amazon-science/esci-data
```

## 2. ライブラリの入手

このデータセットの一部はParquet形式である。
Parquet形式のファイルを読み込むためのライブラリを入手せよ。


### 回答

Poetryをパッケージマネージャーとして利用するので、以下のコマンドで追加。


In [2]:
!poetry add pandas datasets

The following packages are already present in the pyproject.toml and will be skipped:

  • [36mpandas[39m
  • [36mdatasets[39m

If you want to update it to the latest compatible version, you can use `poetry update package`.
If you prefer to upgrade it to the latest available version, you can use `poetry add package@latest`.

Nothing to add.


## 3. 製品データの読み込み

ライブラリの機能で製品データ（以下）をメモリに読み込め。

```
./esci-data/shopping_queries_dataset/shopping_queries_dataset_products.parquet
```

（想定実行時間：1分以内）



### 回答


In [4]:

import pandas as pd
import pathlib

esci_path = pathlib.Path("../esci-data/shopping_queries_dataset")
print("Start loading products...")
df_products = pd.read_parquet(esci_path.joinpath("shopping_queries_dataset_products.parquet"))
print("Loaded products.")

Start loading products...
Loaded products.


## 4. 製品データの確認

製品を1つランダムに取り出し表示せよ。
何度か実行せよ。


### 回答



In [6]:
df_products.sample()

Unnamed: 0,product_id,product_title,product_description,product_bullet_point,product_brand,product_color,product_locale
1231958,B082TWJPP2,Cable Management Box Hide Wires and Surge Prot...,,"➢ORGANIZE - Clutter free, keep cords neat, tid...",Recomfit,,us


In [7]:

df_products.sample()

Unnamed: 0,product_id,product_title,product_description,product_bullet_point,product_brand,product_color,product_locale
1263942,B07QWTTZ1K,Supertrip Snorkel Set Adults-Anti-Fog Film Scu...,<p><b>SUPERTRIP</b> was founded on the vision ...,🌊【NEWEST ANTI-FOG DESIGN】- Supertrip Snorkel S...,Supertrip,Pink,us


In [8]:

df_products.sample()

Unnamed: 0,product_id,product_title,product_description,product_bullet_point,product_brand,product_color,product_locale
1354417,B017C0H0XK,"Franklin Brass Kinla Towel Bar, Rubbed Bronze ...",,"EXCLUSIVE - Kinla, a Franklin Brass collection...",Franklin Brass,Oil Rubbed Bronze,us


## 5. クエリデータの読み込み

クエリデータ（以下）をメモリに読み込め。

```
./esci-data/shopping_queries_dataset/shopping_queries_dataset_examples.parquet
```

（想定実行時間：1分以内）



### 回答




In [10]:
print("Start loading examples...")
df_examples = pd.read_parquet(esci_path.joinpath("shopping_queries_dataset_examples.parquet"))
print("Loaded examples.")

Start loading examples...
Loaded examples.


## 6. クエリデータの確認

クエリを1つランダムに取り出し表示せよ。
何度か実行せよ。



### 回答

In [11]:
df_examples.sample()

         example_id                        query  query_id  product_id  \
1628343     1628343  ppg automotive paint colors     82967  B010GGGSRG   

        product_locale esci_label  small_version  large_version  split  
1628343             us          I              1              1  train  


In [12]:
df_examples.sample()

        example_id                     query  query_id  product_id  \
603303      603303  crash bandicoot ps1 game     29873  B000066BZ2   

       product_locale esci_label  small_version  large_version  split  
603303             us          E              1              1  train  


In [None]:
df_examples.sample()

## 7. フィルタリング

題材の製品データ、クエリデータそれぞれ `product_locale` が `us` であるものを抽出せよ。

これ以降、特に断りがなければ、以下の理由からこれらのサブセットを用いる。

- 単語がスペース区切りで扱いやすいため。
- `product_locale` 内では `product_id` がユニークで扱いやすいため。

また、それぞれ**英語製品データ**、**英語クエリデータ**と呼ぶ。


### 回答


In [13]:
df_products_us = df_products[df_products["product_locale"] == "us"]
df_examples_us = df_examples[df_examples["product_locale"] == "us"]

## 8. 結合

英語製品データと英語クエリデータを、`product_id` をキーとして結合せよ。
これを**英語結合データ**と呼ぶ。

また、英語結合データのエントリを1つランダムに取り出し表示せよ。
何度か実行せよ。


### 回答


pd_examples_products_us = pd.merge(
    df_examples_us,
    df_products_us,
    how='left',
    left_on=['product_id'],
    right_on=['product_id']
)

pd_examples_products_us.sample()
