# セットアップ

こちらのノートブックでは、Open CDP (Open source Customer Data Platform)で作成された、複数カテゴリストアにおけるユーザー行動ログのパブリックデータをPostgreSQLデータベースにロードします。

## 事前準備

下記のノートを実行する前に、2点の事前準備が完了しているか確認してください。

- [eCommerce behavior data from multi category store](https://www.kaggle.com/datasets/mkechinov/ecommerce-behavior-data-from-multi-category-store)からデータセットをダウンロードし、解凍したCSVファイル群がpostgres/input/ecommerceフォルダ内に配置されている
- PostgreSQLデータベースの接続に必要なパスワードを記載した.envファイルが、jupyter/workフォルダ内に配置されている

In [1]:
%load_ext dotenv
%load_ext sql

In [2]:
import os
%dotenv
dsl = f"postgresql://postgres:{os.environ.get('POSTGRES_PASSWORD')}@postgres:5432/postgres"
%sql $dsl

## 新しいスキーマを作成

- 既存のデータとは異なるデータ群のテーブルを作成する場合、新しいスキーマを作成することで、テーブルのグルーピングができます。
- スキーマの切り替えは、 `SET search_path` でおこないます。

In [3]:
%%sql
CREATE SCHEMA IF NOT EXISTS ecommerce;
SET search_path = ecommerce;

 * postgresql://postgres:***@postgres:5432/postgres
Done.
Done.


[]

In [4]:
%%sql
\d

 * postgresql://postgres:***@postgres:5432/postgres
0 rows affected.


Schema,Name,Type,Owner


## テーブルの作成

In [5]:
%%sql
DROP TABLE IF EXISTS event_log;
CREATE TABLE event_log (
  event_time TIMESTAMP,
  event_type TEXT,
  product_id INTEGER,
  category_id BIGINT,
  category_code TEXT,
  brand TEXT,
  price NUMERIC,
  user_id INTEGER,
  user_session TEXT
);

 * postgresql://postgres:***@postgres:5432/postgres
Done.
Done.


[]

In [6]:
%%sql
\d

 * postgresql://postgres:***@postgres:5432/postgres
1 rows affected.


Schema,Name,Type,Owner
ecommerce,event_log,table,postgres


## CSVファイルのデータを各テーブルにロード

In [7]:
%%sql
COPY event_log FROM '/opt/work/input/ecommerce/2019-Oct.csv' DELIMITERS ',' WITH NULL '' CSV HEADER;

 * postgresql://postgres:***@postgres:5432/postgres
42448764 rows affected.


[]

In [8]:
%%sql
COPY event_log FROM '/opt/work/input/ecommerce/2019-Nov.csv' DELIMITERS ',' WITH NULL '' CSV HEADER;

 * postgresql://postgres:***@postgres:5432/postgres
67501979 rows affected.


[]

In [9]:
%%sql
SELECT * FROM event_log LIMIT 3;

 * postgresql://postgres:***@postgres:5432/postgres
3 rows affected.


event_time,event_type,product_id,category_id,category_code,brand,price,user_id,user_session
2019-10-01 00:00:00,view,44600062,2103807459595387724,,shiseido,35.79,541312140,72d76fde-8bb3-4e00-8c23-a032dfed738c
2019-10-01 00:00:00,view,3900821,2053013552326770905,appliances.environment.water_heater,aqua,33.2,554748717,9333dfbd-b87a-4708-9857-6336556b0fcc
2019-10-01 00:00:01,view,17200506,2053013559792632471,furniture.living_room.sofa,,543.1,519107250,566511c2-e2e3-422b-b695-cf8e6e792ca8
