# 0. 概要

本セッションでは、名寄せを題材とした、Snowflakeの文字列処理やLLM関数を活用しながら、SnowflakeにおけるCortex LLMの活用方法を学ぶ、データエンジニアリング向けセッションである。なお、一部のパートでは皆様と手を動かすところもございます。
- **<\*\*\*\>** のところが皆様に修正して頂きたい点であります。


# 1. データの準備

この章では外部にある3種類のCSVファイルをSnowflake テーブルとして投入する

In [None]:

-- 念の為クロスリージョン推論を有効化するため（USリージョン以外の環境用）
use role accountadmin;
alter account set CORTEX_ENABLED_CROSS_REGION = 'AWS_US';


In [None]:
-- データベースの作成, スキーマの準備
use schema snowretail_db.snowretail_schema;

-- Stageに入っている、必要なファイルを確認
ls @file;

In [None]:
-- データの投入
-- Step1: テーブル作成
create or replace TABLE CUSTOMER_REVIEWS (
	REVIEW_ID VARCHAR(16777216),
	PRODUCT_ID VARCHAR(16777216),
	CUSTOMER_ID VARCHAR(16777216),
	RATING NUMBER(38,1),
	REVIEW_TEXT VARCHAR(16777216),
	REVIEW_DATE TIMESTAMP_NTZ(9),
	PURCHASE_CHANNEL VARCHAR(16777216),
	HELPFUL_VOTES NUMBER(38,0)
);

create or replace TABLE EC_DATA (
	TRANSACTION_ID VARCHAR(16777216),
	TRANSACTION_DATE DATE,
	PRODUCT_ID VARCHAR(16777216),
	PRODUCT_NAME VARCHAR(16777216),
	QUANTITY NUMBER(38,0),
	UNIT_PRICE NUMBER(38,0),
	TOTAL_PRICE NUMBER(38,0)
);

create or replace TABLE PRODUCT_MASTER (
	PRODUCT_ID VARCHAR(16777216),
	PRODUCT_NAME VARCHAR(16777216),
	UNIT_PRICE NUMBER(38,0)
);

create or replace TABLE RETAIL_DATA (
	TRANSACTION_ID VARCHAR(16777216),
	TRANSACTION_DATE DATE,
	PRODUCT_ID VARCHAR(16777216),
	PRODUCT_NAME VARCHAR(16777216),
	QUANTITY NUMBER(38,0),
	UNIT_PRICE NUMBER(38,0),
	TOTAL_PRICE NUMBER(38,0)
);

create or replace TABLE SNOW_RETAIL_DOCUMENTS (
	DOCUMENT_ID VARCHAR(16777216),
	TITLE VARCHAR(16777216),
	CONTENT VARCHAR(16777216),
	DOCUMENT_TYPE VARCHAR(16777216),
	DEPARTMENT VARCHAR(16777216),
	CREATED_AT TIMESTAMP_NTZ(9),
	UPDATED_AT TIMESTAMP_NTZ(9),
	VERSION NUMBER(38,1)
);

-- Step2: データロード
create or replace temp file format temp_ff
    type = csv
    skip_header = 1
; 

create or replace temp file format temp_ff_2
	TYPE=CSV
    SKIP_HEADER=1
    FIELD_OPTIONALLY_ENCLOSED_BY='"'
; 

copy into CUSTOMER_REVIEWS
from @FILE
file_format = (format_name = temp_ff)
files = ('customer_reviews.csv');

copy into EC_DATA
from @FILE
file_format = (format_name = temp_ff)
files = ('ec_data.csv');

copy into PRODUCT_MASTER
from @FILE
file_format = (format_name = temp_ff)
files = ('product_master.csv');

copy into RETAIL_DATA
from @FILE
file_format = (format_name = temp_ff)
files = ('retail_data.csv');

copy into SNOW_RETAIL_DOCUMENTS
from @FILE
file_format = (format_name = temp_ff_2)
files = ('snow_retail_documents.csv');

# 2. データのチェック

この章では1章で入れたテーブルデータの中身を確認する

**商品名のパターン**

- 商品名には**大文字／小文字変換**、**半角カタカナ変換、全角変換**が施されている
- メーカーと商品には**空白の有無**、**ハイフンの除去**、**接尾語の追加**などがされている
- 商品名の末尾には **[半額セール]、[期間限定]、[閉店セール]**　などのタグが入っている
- 小売やECのデータには**メーカー名がない製品**が存在している

In [None]:
-- 商品マスタの確認

select * from product_master;

In [None]:
-- 店舗データの確認

select * from retail_data limit 100;

In [None]:
-- ECデータの確認

select * from ec_data limit 100;

何も加工処理せずに、プロダクト名だけで突合しようとしてもできない

In [None]:
-- 店舗データと商品マスタを突合

select
    count(*) as record_cnt
from product_master as a
inner join retail_data as b
on contains(a.product_name,b.product_name) --a.product_nameにb.product_nameが含まれているか
limit 100;


In [None]:
-- ECデータと商品マスタを突合

select
    count(*) as record_cnt
from product_master as a
inner join ec_data as b
on contains(a.product_name,b.product_name) --a.product_nameにb.product_nameが含まれているか
limit 100;

## 3. データの加工処理（名寄せ）

## 不要なタグを削除

**処理内容:**

1.	正規表現 r'[\[\【\（\＜\［].*?[\]\】\）\＞\］]' は、角括弧、全角括弧、その他囲い文字で囲まれた部分を検出して削除する。
2.	さらに「店頭」や「ネット」といった特定の語句も除去し、余分な表記が残らないようにする。
3.	複数の空白文字（スペース、タブ、改行）をすべて取り除く。



***皆さんがSQLを書くところです。**<\*\*\*\>* **のところにSQLを書いてください。**

📝正規表現(Regexp_replace)


In [None]:
-- ECデータの商品名を正規化し、正規化後の商品名ごとにレコード数を集計。
-- カッコや記号で囲まれた部分や「店舗」「ネット」、空白文字の除去

WITH normalized_ec_data AS(
    SELECT
      PRODUCT_NAME AS ORIGINAL_NAME,
      lower(
        <***>(
          regexp_replace(
            regexp_replace(PRODUCT_NAME, '[\[\【\（\＜\［].*?[\]\】\）\＞\］]', ''),
            '(店頭|ネット)',
            ''
          ),
          '\\s+',
          ''
        )
      ) AS NORMALIZED_PRODUCT_NAME
    FROM ec_data
)

select 
    NORMALIZED_PRODUCT_NAME
    ,count(*) as record_cnt
from normalized_ec_data
group by all
order by NORMALIZED_PRODUCT_NAME

処理内容
- 全角半角文字を統一する

***皆さんがSQLを書くところです。**<\*\*\*\>* **のところにSQLを書いてください。**

📝文字操作(collate)


In [None]:
-- ECデータの商品名を正規化し、正規化後の商品名ごとにレコード数を集計。
-- 正規化後の商品名を「Unicode大文字・小文字区別なし（case-insensitive）」で比較・集計

WITH normalized_ec_data AS(
    SELECT
      PRODUCT_NAME AS ORIGINAL_NAME,
        regexp_replace(
          regexp_replace(
            regexp_replace(PRODUCT_NAME, '[\[\【\（\＜\［].*?[\]\】\）\＞\］]', ''),
            '(店頭|ネット)',
            ''
          ),
          '\\s+',
          ''
        )
      AS NORMALIZED_PRODUCT_NAME
    FROM ec_data
)

select 
    <***>(NORMALIZED_PRODUCT_NAME, 'unicode-ci') as NORMALIZED_PRODUCT_NAME
    ,count(*) as record_cnt
from normalized_ec_data
group by all
order by NORMALIZED_PRODUCT_NAME

## 正規表現を適用して突合

In [None]:
/*
 店舗データ（retail_data）と商品マスタ（product_master）を「商品名の正規化」によって突合。
 商品名の表記ゆれや不要な情報を除去したうえで、部分一致（contains）かつ大文字小文字を区別しない形でマッチング。
*/

-- 店舗データに商品名（PRODUCT_NAME）を正規化したカラム（NORMALIZED_PRODUCT_NAME）を追加。
WITH normalized_retail_data AS(
    SELECT
      *,
        regexp_replace(
          regexp_replace(
            regexp_replace(PRODUCT_NAME, '[\[\【\（\＜\［].*?[\]\】\）\＞\］]', ''),
            '(店頭|ネット)',
            ''
          ),
          '\\s+',
          ''
        )
      AS NORMALIZED_PRODUCT_NAME
    FROM retail_data
),

-- 正規化済みの店舗データと商品マスタを、正規化後の商品名の部分一致（contains）で突合。
normalized_product_master AS(
    SELECT
      product_id as product_id_master,
      PRODUCT_NAME AS ORIGINAL_NAME_master,
        regexp_replace(
          regexp_replace(
            regexp_replace(PRODUCT_NAME, '[\[\【\（\＜\［].*?[\]\】\）\＞\］]', ''),
            '(店頭|ネット)',
            ''
          ),
          '\\s+',
          ''
        )
      AS NORMALIZED_PRODUCT_NAME_master
    FROM product_master
),

-- 上記で突合した結果を100件まで表示。
retail_joined_master_product AS(
    select 
        b.* exclude(NORMALIZED_PRODUCT_NAME_master),
        a.* exclude(product_id, NORMALIZED_PRODUCT_NAME),
        case when a.product_id = b.product_id_master then 1 else 0 end correct_flg
    from normalized_retail_data as a
    left outer join normalized_product_master as b
    on contains(collate(b.NORMALIZED_PRODUCT_NAME_master, 'unicode-ci'), collate(a.NORMALIZED_PRODUCT_NAME, 'unicode-ci'))
) 

select
    *
-- count(*)
from retail_joined_master_product
-- where product_id_master is not null
limit 100;

In [None]:
/*
  ECサイトデータと商品マスタを「商品名の正規化」によって突合。
  商品名の表記ゆれや不要な情報を除去したうえで、部分一致（contains）かつ大文字小文字を区別しない形でマッチング。
*/


-- ECデータに商品名（PRODUCT_NAME）を正規化したカラム（NORMALIZED_PRODUCT_NAME）を追加。
WITH normalized_ec_data AS(
    SELECT
      *,
        regexp_replace(
          regexp_replace(
            regexp_replace(PRODUCT_NAME, '[\[\【\（\＜\［].*?[\]\】\）\＞\］]', ''),
            '(店頭|ネット)',
            ''
          ),
          '\\s+',
          ''
        )
     AS NORMALIZED_PRODUCT_NAME
    FROM ec_data
),

-- 正規化済みのECデータと商品マスタを、正規化後の商品名の部分一致（contains）で突合。
normalized_product_master AS(
    SELECT
      product_id as product_id_master,
      PRODUCT_NAME AS ORIGINAL_NAME_master,
        regexp_replace(
          regexp_replace(
            regexp_replace(PRODUCT_NAME, '[\[\【\（\＜\［].*?[\]\】\）\＞\］]', ''),
            '(店頭|ネット)',
            ''
          ),
          '\\s+',
          ''
        )
     AS NORMALIZED_PRODUCT_NAME_master
    FROM product_master
),

-- 上記で突合した結果を100件まで表示。
ec_joined_master_product AS(
    select 
        b.* exclude(NORMALIZED_PRODUCT_NAME_master),
        a.* exclude(product_id, NORMALIZED_PRODUCT_NAME),
        case when a.product_id = b.product_id_master then 1 else 0 end correct_flg
    from normalized_ec_data as a
    left outer join normalized_product_master as b
    on contains(collate(b.NORMALIZED_PRODUCT_NAME_master, 'unicode-ci'), collate(a.NORMALIZED_PRODUCT_NAME, 'unicode-ci'))
) 

select
    *
-- count(*)
from ec_joined_master_product
-- where product_id_master is not null
limit 100;

## 3. ベクトル検索の利用

この章では商品名をベクトル化した後に、類似度計算からマスターデータと購買履歴のデータを突合する


📝ルールベースの辛いところ

📝Embedding(エンベディング）

### 小売、ECの商品名に対してEmbeddingを適用し、ベクトル化を実施
***皆さんがSQLを書くところです。**<\*\*\*\>* **のところにSQLを書いてください。**

📝Cortex Embedding関数

In [None]:
-- 商品マスターの各商品名に対してベクトルを生成し、結果を新しいテーブルに保存
create or replace table product_master_embed as 
select 
    *, 
    snowflake.cortex.<***>('multilingual-e5-large', product_name) as product_name_embed 
from product_master;

In [None]:
-- 店舗データの各商品名に対してベクトルを生成し、結果を新しいテーブルに保存
create or replace table retail_data_embed as 
select 
    *, 
    snowflake.cortex.embed_text_1024('multilingual-e5-large', product_name) as product_name_embed 
from retail_data;

In [None]:
-- 25と同じなので、ここはスキップしてください
/*
-- EC DATA
create or replace table ec_data_embed as 
select 
    *, 
    snowflake.cortex.embed_text_1024('multilingual-e5-large', product_name) as product_name_embed 
from ec_data;
*/

In [None]:
-- 店舗データの商品名をベクトル化した結果を確認
select * from retail_data_embed limit 10;

📝ファジーマッチング

vector_cosine_similarityは、2つのベクトル間のコサイン類似度を計算する関数（ベクトル間の「向きの近さ」を数値化）

In [None]:
-- 商品マスタと店舗データの間で、商品名のベクトル（product_name_embed）を用いてコサイン類似度が0.9以上のペアを抽出

with match_retail_product_master as (
    select 
        a.* exclude(product_name_embed)
        ,b.* exclude(product_id, product_name_embed)
        ,vector_cosine_similarity(a.product_name_embed, b.product_name_embed) as similarity
        ,case when a.product_id = b.product_id then 1 else 0 end correct_flg
    from product_master_embed a, retail_data_embed b
    where vector_cosine_similarity(a.product_name_embed, b.product_name_embed) > 0.9
)

select * from match_retail_product_master limit 100;

In [None]:
-- 28と同じなので、ここはスキップしてください
/*
-- 商品マスタとECデータの間で、商品名のベクトル（product_name_embed）を用いてコサイン類似度が0.9以上のペアを抽出
with match_ec_product_master as (
    select 
        a.* exclude(product_name_embed)
        ,b.* exclude(product_id, product_name_embed)
        ,vector_cosine_similarity(a.product_name_embed, b.product_name_embed) as similarity
        ,case when a.product_id = b.product_id then 1 else 0 end correct_flg
    from product_master_embed a, ec_data_embed b
    where vector_cosine_similarity(a.product_name_embed, b.product_name_embed) > 0.9
)

select count(distinct transaction_id) from match_ec_product_master limit 1000;
*/

### ベクトル検索精度を向上

Embeddingを適用する前に生データから不要なデータを抽出するだけでも精度を向上させることができる

📝とはいえ、加工・整形は結合精度を高めるために重要


In [None]:
-- ECデータの商品名を正規化し、正規化済み商品名に対してベクトルを生成し、新しいテーブルnormalized_ec_data_embedとして保存

create or replace table normalized_ec_data_embed as 
with normalized_ec_data as(
    SELECT
      *,
      upper(
        regexp_replace(
          regexp_replace(
            regexp_replace(PRODUCT_NAME, '[\[\【\（\＜\［].*?[\]\】\）\＞\］]', ''),
            '(店頭|ネット)',
            ''
          ),
          '\\s+',
          ''
        )
      ) AS normalized_product_name
    FROM ec_data
)

select 
    *, 
    snowflake.cortex.embed_text_1024('multilingual-e5-large', collate(normalized_product_name, 'unicode-ci')) as normalized_product_name_embed 
from normalized_ec_data;

In [None]:
-- 店舗データの商品名を正規化し、正規化済み商品名に対してベクトルを生成し、新しいテーブルnormalized_retail_data_embedとして保存

create or replace table normalized_retail_data_embed as 
with normalized_retail_data as(
    SELECT
      *,
      upper(
        regexp_replace(
          regexp_replace(
            regexp_replace(PRODUCT_NAME, '[\[\【\（\＜\［].*?[\]\】\）\＞\］]', ''),
            '(店頭|ネット)',
            ''
          ),
          '\\s+',
          ''
        )
      ) AS normalized_product_name
    FROM retail_data
)

select 
    *, 
    snowflake.cortex.embed_text_1024('multilingual-e5-large', collate(normalized_product_name, 'unicode-ci')) as normalized_product_name_embed 
from normalized_retail_data;

In [None]:
-- ベクトル化された商品名同士のコサイン類似度を用いて、ECデータと商品マスタの間で「意味的に類似した商品名」がどれだけ紐づくかを調べる。
-- コサイン類似度が0.9以上という高い閾値でマッチしたレコードの件数を集計


with match_ec_product_master as (
    select 
        a.* exclude(product_name_embed)
        ,b.* exclude(product_id, normalized_product_name_embed)
        ,vector_cosine_similarity(a.product_name_embed, b.normalized_product_name_embed) as similarity
        ,case when a.product_id = b.product_id then 1 else 0 end correct_flg
    from product_master_embed a, normalized_ec_data_embed b
    where vector_cosine_similarity(product_name_embed, normalized_product_name_embed) > 0.9 

)

-- select * from match_ec_product_master limit 1000;
select count(distinct transaction_id) from match_ec_product_master limit 1000;

- データをクレンジングすることでも精度向上が見込める
- Embedding用モデル自体を変更することでも精度向上が見込める。Snowflakeではvoyageやsnowflake arcticなどがある。


In [None]:
-- ベクトル化による商品名マッチングにおいて「コサイン類似度が0.9未満にもかかわらず、商品IDは一致しているデータを抽出（AIによる意味的な類似度判定と実際のマスタIDによる正解の間にギャップがあるケース）

with match_ec_product_master as (
    select 
        a.* exclude(product_name_embed)
        ,b.* exclude(product_id, normalized_product_name_embed)
        ,vector_cosine_similarity(a.product_name_embed, b.normalized_product_name_embed) as similarity
        ,case when a.product_id = b.product_id then 1 else 0 end correct_flg
    from product_master_embed a, normalized_ec_data_embed b
    where vector_cosine_similarity(product_name_embed, normalized_product_name_embed) < 0.9 

)

select 
    *
from match_ec_product_master 
where correct_flg = 1
limit 100;

## 4. Cortex LLMの活用方法

ベクトル検索で紐づかないデータに対して、LLMを活用していく

## LLMでメーカーと商品名を分離

ここでは、Snowflake Cortexの関数の一つである**Complete**関数を利用し、Anthropic社の**Claude3.5**モデルでメーカーと商品名を分離する。また、出力形式を統一するために、**Cortex Complete Structure Output**の機能を利用し、JSON形式で結果を出力させる。

📝Cortex Complete関数

***皆さんがSQLを書くところです。**<\*\*\*\>* **のところにSQLを書いてください。**


In [None]:
/*
 Cortex LLMを活用し、商品マスターテーブルの商品名列から「メーカー名」と「商品名」を自動で分離・抽出し、その結果を新しいテーブルproduct_master_applied_llmとして保存する
- COMPLETE関数を使うことでプロンプトに応じた柔軟なテキスト生成や情報抽出が可能
- response_formatでスキーマを指定することで、LLMの出力をJSON形式で受け取り、SQLで簡単にパース・利用できる
*/

create or replace table product_master_applied_llm as
with normalized_product_master as(
    select
        *,
        snowflake.cortex.<***>('claude-3-5-sonnet', [
            {
                'role': 'user',
                'content': concat('入力値からメーカーと商品名を分離してください。なお、必ずしもメーカー名があるわけではなく、メーカー名がない場合は空欄で返してください。入力値は',product_name,'です')
            }
            ],
            {
            'temperature': 0.7, -- LLMにおける出力ランダム性（0が決定的/予測可能・一貫性重視、1が多様で創造的)
            'max_tokens': 8000,
            'response_format': {
                'type': 'json',
                'schema': {
                    'type': 'object',
                    'properties': {
                        'sub_maker_name': {
                            'type': 'string',
                            'description': 'メーカーの名前'
                        },
                        'sub_product_name': {
                            'type': 'string',
                            'description': '商品の名前'
                        }
                    }
                }
            }
        }) as result_json
    from product_master
),

normalized_product_master_2 as (
    select 
        *,
        result_json:structured_output[0].raw_message.sub_maker_name::varchar as sub_maker_name,
        result_json:structured_output[0].raw_message.sub_product_name::varchar as sub_product_name
    from normalized_product_master
)

select 
    *
from normalized_product_master_2;

In [None]:
-- 商品マスターテーブルの商品名列から「メーカー名」と「商品名」を自動で分離・抽出できたか確認
select * from product_master_applied_llm limit 100

In [None]:
-- LLMで分離・抽出した商品名（sub_product_name）をベクトル化し、ベクトルを新しいテーブルに保存
create or replace table product_master_llm_embed as 
select 
    *, 
    snowflake.cortex.embed_text_1024('multilingual-e5-large', sub_product_name) as product_name_embed 
from product_master_applied_llm;

In [None]:
/*
 「商品マスタとECデータ間の商品名ベクトルのコサイン類似度が低かった（0.9未満）にもかかわらず、実際にはproduct_idが一致していた（正解ペア）」について、LLMで再分離、ベクトル化したものを用いて再度コサイン類似度を計算し、AIによるベクトル化の改善効果を検証
*/


-- 商品マスタとECデータ（normalized_ec_data_embed）の全組み合わせでベクトル類似度0.9以下を抽出
with match_ec_product_master as (
    select 
        a.*  exclude(product_name_embed)
        ,b.* exclude(product_id)
        ,case when a.product_id = b.product_id then 1 else 0 end correct_flg
        ,vector_cosine_similarity(a.product_name_embed, b.normalized_product_name_embed) as similarity_before
    from product_master_embed a, normalized_ec_data_embed b
    where vector_cosine_similarity(product_name_embed, normalized_product_name_embed) < 0.9 

), 

-- product_idが一致しているがベクトル類似度が低かったペアのみを抽出。
match_ec_product_master_2 as (
    select 
        *
    from match_ec_product_master 
    where correct_flg = 1
),

-- 新たに作成したベクトルを使い再度コサイン類似度を計算し、コサイン類似度が0.9超のみ抽出。
match_ec_product_master_3 as (
    select 
        a.* exclude(product_name_embed)
        ,b.* exclude(product_id, normalized_product_name_embed)
        ,vector_cosine_similarity(a.product_name_embed, b.normalized_product_name_embed) as similarity_after
    from product_master_llm_embed a, match_ec_product_master_2 b
    where vector_cosine_similarity(product_name_embed, normalized_product_name_embed) > 0.9 

)

-- 以前はベクトル類似度が低くマッチしなかったが、新しいベクトル化で高類似度となった正解ペアを一覧表示。
select * from match_ec_product_master_3;

## データ加工におけるLLMの利用シーン

今回のように正規表現では手間のかかる処理をLLMに実行させるというのは非常にわかりやすい例である。
また他のユースケースとしては
- データ分類やメタデータの付与（例. 家電、テレビ、衣類など抽象列を作成する）
- 欠損値の補完
- 表記揺れの統一（住所などの異なるフォーマットの統一）

などLLMを利用することで、従来では難しかった処理を容易に解決できるかもしれない

📝LLMの利用シーン

📝フォーマット統一


## LLM as a Judgement

LLMの別の使い方として、従来は人間がやっていた出力結果に対する確認処理を、LLMに代行させるというLLM as a Judgementにも活用することができる。今回の例では相対的にコサイン類度が低い結果に対してLLMに判定させる処理を実施する

📝評価(LLM as a Judge)

In [None]:
/*
「ベクトル類似度が低かったが、実際には同一商品であるペア」について、LLMを“審査員”として起用し、商品名ペアが同一商品かどうかを“人間的な観点”で再評価させる
*/

-- ベクトル類似度による初期マッチング(商品マスタとECデータの全組み合わせから、ベクトル類似度が0.9未満のペア抽出)
with match_ec_product_master as (
    select 
        a.product_id
        ,a.product_name as product_name_master
        ,b.* exclude(product_id)
        ,case when a.product_id = b.product_id then 1 else 0 end correct_flg
        ,vector_cosine_similarity(a.product_name_embed, b.normalized_product_name_embed) as similarity_before
    from product_master_embed a, normalized_ec_data_embed b
    where vector_cosine_similarity(product_name_embed, normalized_product_name_embed) < 0.9 

), 

--精度が低い正解ペア（product_id一致）のみ抽出
match_ec_product_master_2 as (
    select 
        *
    from match_ec_product_master 
    where correct_flg = 1
    limit 20
),

-- LLM as a Judgeによる再評価
-- ここでLLMは「評価者」として、与えられた情報とルールに基づき、人間的な観点でスコアと理由を返す
match_ec_product_master_3 as (
    select
        *,
        snowflake.cortex.complete('claude-3-5-sonnet', [
            {
                'role': 'user',
                'content': concat('あなたは、二つの異なる名前の商品が入力された情報を元に同じかどうかを判定するスペシャリストです。
                次のルールに従って結果を出力してください。
                1. 類似度のスコアを0から1でNumericな値で返すこと。 0が異なる製品で、1が同一製品を指す。
                2. その選択した理由も返してください。
                比較して欲しい情報は',product_name_master,'と', product_name, 'です')
            }
            ],
            {
            'temperature': 0.7,
            'max_tokens': 8000,
            'response_format': {
                'type': 'json',
                'schema': {
                    'type': 'object',
                    'properties': {
                        'score': {
                            'type': 'number',
                            'description': 'メーカーの名前'
                        },
                        'reason': {
                            'type': 'string',
                            'description': 'スコアの理由'
                        }
                    }
                }
            }
        }) as result_json
    from match_ec_product_master_2
), 

-- LLMの評価結果を抽出(LLMの出力（score, reason）をSQLカラムとして抽出)
match_ec_product_master_4 as (
    select 
        *,
        result_json:structured_output[0].raw_message.score::float as llm_score,
        result_json:structured_output[0].raw_message.reason::varchar as llm_reason
    from match_ec_product_master_3
)

-- ベクトル類似度が低かったが、LLM as a Judgeによる再評価でどのようなスコア・理由が返されたかを一覧表示
select 
    *
from match_ec_product_master_4;

📝非構造化データの構造化

📝分類・メタデータ付与


## 5.最終結果の作成

In [None]:
/*
ECデータ（normalized_ec_data_embed）と商品マスタ（product_master_embed, product_master_llm_embed）をベクトル類似度でマッチングし、最も高い類似度（0.9超）を持つペアのみを抽出した新テーブル（ec_data_with_product_master）を作成
*/

create or replace table ec_data_with_product_master as 

    with combined_product_master as (
        select a.*, b.product_name_embed as product_name_llm_embed from product_master_embed as a
        inner join product_master_llm_embed as b
        on a.product_id = b.product_id
    ),
    
    match_ec_product_master as (
        select 
            a.product_id as product_id_master
            ,a.product_name as product_name_master
            ,a.unit_price as unit_price_master 
            ,b.* exclude(product_id, normalized_product_name, normalized_product_name_embed)
            ,vector_cosine_similarity(a.product_name_embed, b.normalized_product_name_embed) as similarity_before
            ,vector_cosine_similarity(a.product_name_llm_embed, b.normalized_product_name_embed) as similarity_after
            ,greatest(similarity_before, similarity_after) as similarity -- beforeとafterを比較して高い方の値を出す
            ,case when a.product_id = b.product_id then 1 else 0 end correct_flg
        from combined_product_master a, normalized_ec_data_embed b
    
    ), 
    
    match_ec_product_master_2 as (
        select 
            * exclude(similarity_before, similarity_after, correct_flg)
        from match_ec_product_master 
        where similarity > 0.9
    )
    
    
    select * from match_ec_product_master_2


In [None]:
/*
retail_data（normalized_retail_data_embed）と商品マスタ（product_master_embed, product_master_llm_embed）をベクトル類似度でマッチングし、最も高い類似度（0.9超）を持つペアのみを抽出した新テーブル（retail_data_with_product_master）を作成
*/
create or replace table retail_data_with_product_master as 

    with combined_product_master as (
        select a.*, b.product_name_embed as product_name_llm_embed from product_master_embed as a
        inner join product_master_llm_embed as b
        on a.product_id = b.product_id
    ),
    
    match_retail_product_master as (
        select 
            a.product_id as product_id_master
            ,a.product_name as product_name_master
            ,a.unit_price as unit_price_master 
            ,b.* exclude(product_id, normalized_product_name, normalized_product_name_embed)
            ,vector_cosine_similarity(a.product_name_embed, b.normalized_product_name_embed) as similarity_before
            ,vector_cosine_similarity(a.product_name_llm_embed, b.normalized_product_name_embed) as similarity_after
            ,greatest(similarity_before, similarity_after) as similarity -- beforeとafterを比較して高い方の値を出す
            ,case when a.product_id = b.product_id then 1 else 0 end correct_flg
        from combined_product_master a, normalized_retail_data_embed b
    
    ), 
    
    match_retail_product_master_2 as (
        select 
            * exclude(similarity_before, similarity_after, correct_flg)
        from match_retail_product_master 
        where similarity > 0.9
    )
    
    
    select * from match_retail_product_master_2


In [None]:
select * from retail_data_with_product_master limit 100;

## (オプショナル） Cortex Searchの利用

上記の一連処理を容易にアプリケーション化することが可能なサービスである

In [None]:
-- ウェアハウスの作成
create or replace warehouse cortex_search_wh with WAREHOUSE_SIZE='X-SMALL';

-- パラメータをオン
alter table product_master set change_tracking = true;

-- Cortex Search オブジェクトを作成する
create or replace cortex search service product_master_service
  on product_name
  attributes product_name
  warehouse = cortex_search_wh
  target_lag = '1 day'
  embedding_model = 'voyage-multilingual-2'
  as (
    select * from product_master
  );
  

In [None]:
-- 作成したCortex Search Serviceを確認する
SELECT
  *
FROM
  TABLE (
    cortex_search_data_scan(
      SERVICE_NAME => 'product_master_service'
    )
  );

In [None]:
-- SQLを用いて、SEARCH_PREVIEWを利用し、任意のクエリを投げてみる
SELECT
  snowflake.cortex.search_preview (
      'product_master_service',
      '{
          "query": "一番搾りビール",
          "columns": ["product_name"],
          "limit": 2
      }'
  );

In [None]:
# Pythonを用いて、Cortex Search Serviceにアクセスする。
# なお、実行する前に右上のパッケージで[snowflake, snowflake-ml-python, snowflake-snowpark-python]をインポートする
from snowflake.core import Root
from snowflake.snowpark import Session
from snowflake.snowpark.context import get_active_session
import json

session = get_active_session()
root = Root(session)

product_master_search_service = (root
  .databases["snowretail_db"]
  .schemas["snowretail_schema"]
  .cortex_search_services["product_master_service"]
)

resp = product_master_search_service.search(
  query="一番搾りビール",
  columns=["product_name"],
  limit=2
)

# 一度、JSON文字列を辞書型に変換する
resp_dict = json.loads(resp.to_json())

# 改めてjson.dumpsで日本語を正しく表示する
print(json.dumps(resp_dict, ensure_ascii=False, indent=2))

Cortex Searchは変数による代入が対応しておらず、リテラルのみに対応している。つまり、テーブルデータを一括で突合するというのができないというのが現状である。