# セットアップ

パブリックデータとして公開されているCSVファイル群をPostgreSQLデータベースにロードし、SQLでデータ分析やレコメンドシステムの構築を実践するための環境構築をおこないます。

サンプルのデータセットには、kaggle.comの[Anime Recommendation Database 2020](https://www.kaggle.com/datasets/hernan4444/anime-recommendation-database-2020)を使用します。
このデータセットには、世界最大級のアニメ・マンガコミュニティである[「MyAnimeList」](https://myanimelist.net/)から取得された、17,562件のアニメデータと、325,770人のユーザによるアニメの評価データが含まれています。

## 事前準備

下記のノートを実行する前に、2点の事前準備が完了しているか確認してください。

- [Anime Recommendation Database 2020](https://www.kaggle.com/datasets/hernan4444/anime-recommendation-database-2020)からデータセットをダウンロードし、解凍したCSVファイル群がpostgres/input_dataフォルダ内に配置されている
- PostgreSQLデータベースの接続に必要なパスワードを記載した.envファイルが、jupyter/workフォルダ内に配置されている

In [1]:
%load_ext dotenv
%load_ext sql

In [2]:
import os
%dotenv
dsl = f"postgresql://postgres:{os.environ.get('POSTGRES_PASSWORD')}@postgres:5432/postgres"
%sql $dsl

## データベース上にテーブル群を作成

ポイント

- ノートブックの各セルの先頭に「%%sql」と記載すると、PostgreSQLに対してコマンドやSQLを実行できます。
- PostgreSQLの\\dコマンドで、現在のデータベースのテーブル一覧を確認できます（他のコマンドは\\?で確認してください）
- CREATE TABLE文を使って、新しい空のテーブルを作成できます。

In [3]:
%%sql
\d

 * postgresql://postgres:***@postgres:5432/postgres
0 rows affected.


Schema,Name,Type,Owner


In [4]:
%%sql
DROP TABLE IF EXISTS anime;
CREATE TABLE anime (
  mal_id INTEGER,
  name TEXT,
  score NUMERIC,
  genres TEXT,
  english_name TEXT,
  japanese_name TEXT,
  type TEXT,
  episodes INTEGER,
  aired TEXT,
  premiered TEXT,
  producers TEXT,
  licensors TEXT,
  studios TEXT,
  source TEXT,
  duration TEXT,
  rating TEXT,
  ranked NUMERIC,
  popularity INTEGER,
  members INTEGER,
  favorites INTEGER,
  watching INTEGER,
  completed INTEGER,
  on_hold INTEGER,
  dropped INTEGER,
  plan_to_watch INTEGER,
  score_10 NUMERIC,
  score_9 NUMERIC,
  score_8 NUMERIC,
  score_7 NUMERIC,
  score_6 NUMERIC,
  score_5 NUMERIC,
  score_4 NUMERIC,
  score_3 NUMERIC,
  score_2 NUMERIC,
  score_1 NUMERIC
);

 * postgresql://postgres:***@postgres:5432/postgres
Done.
Done.


[]

In [5]:
%%sql
DROP TABLE IF EXISTS anime_with_synopsis;
CREATE TABLE anime_with_synopsis (
  mal_id INTEGER,
  name TEXT,
  score NUMERIC,
  genres TEXT,
  synopsis TEXT
);

 * postgresql://postgres:***@postgres:5432/postgres
Done.
Done.


[]

In [6]:
%%sql
DROP TABLE IF EXISTS animelist;
CREATE TABLE animelist (
  user_id INTEGER,
  anime_id INTEGER,
  rating INTEGER,
  watching_status INTEGER,
  watched_episodes INTEGER
);

 * postgresql://postgres:***@postgres:5432/postgres
Done.
Done.


[]

In [7]:
%%sql
DROP TABLE IF EXISTS rating_complete;
CREATE TABLE rating_complete (
  user_id INTEGER,
  anime_id INTEGER,
  rating INTEGER
);

 * postgresql://postgres:***@postgres:5432/postgres
Done.
Done.


[]

In [8]:
%%sql
DROP TABLE IF EXISTS watching_status;
CREATE TABLE watching_status (
  status INTEGER,
  description TEXT
);

 * postgresql://postgres:***@postgres:5432/postgres
Done.
Done.


[]

In [9]:
%%sql
\d

 * postgresql://postgres:***@postgres:5432/postgres
5 rows affected.


Schema,Name,Type,Owner
public,anime,table,postgres
public,anime_with_synopsis,table,postgres
public,animelist,table,postgres
public,rating_complete,table,postgres
public,watching_status,table,postgres


## CSVファイルのデータを各テーブルにロード

ポイント

- PostgreSQLのCOPY文を使って、csvファイルのデータをテーブルにロードできます。
- ファイルのパスはPostgreSQLサーバ内のローカルファイルのパスになります。
- ダウンロードしたCSVファイルでは、欠損値が'Unknown'という文字列で記載されているため、'Unknown'はNULLとして取り込みます。
- 巨大なデータの読み込みには数分程度の時間がかかります。

In [10]:
%%sql
COPY anime FROM '/opt/work/input_data/anime.csv' DELIMITERS ',' WITH NULL 'Unknown' CSV HEADER;

 * postgresql://postgres:***@postgres:5432/postgres
17562 rows affected.


[]

In [11]:
%%sql
SELECT * FROM anime LIMIT 3;

 * postgresql://postgres:***@postgres:5432/postgres
3 rows affected.


mal_id,name,score,genres,english_name,japanese_name,type,episodes,aired,premiered,producers,licensors,studios,source,duration,rating,ranked,popularity,members,favorites,watching,completed,on_hold,dropped,plan_to_watch,score_10,score_9,score_8,score_7,score_6,score_5,score_4,score_3,score_2,score_1
1,Cowboy Bebop,8.78,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",Cowboy Bebop,カウボーイビバップ,TV,26,"Apr 3, 1998 to Apr 24, 1999",Spring 1998,Bandai Visual,"Funimation, Bandai Entertainment",Sunrise,Original,24 min. per ep.,R - 17+ (violence & profanity),28.0,39,1251960,61971,105808,718161,71513,26678,329800,229170.0,182126.0,131625.0,62330.0,20688.0,8904.0,3184.0,1357.0,741.0,1580.0
5,Cowboy Bebop: Tengoku no Tobira,8.39,"Action, Drama, Mystery, Sci-Fi, Space",Cowboy Bebop:The Movie,カウボーイビバップ 天国の扉,Movie,1,"Sep 1, 2001",,"Sunrise, Bandai Visual",Sony Pictures Entertainment,Bones,Original,1 hr. 55 min.,R - 17+ (violence & profanity),159.0,518,273145,1174,4143,208333,1935,770,57964,30043.0,49201.0,49505.0,22632.0,5805.0,1877.0,577.0,221.0,109.0,379.0
6,Trigun,8.24,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen",Trigun,トライガン,TV,26,"Apr 1, 1998 to Sep 30, 1998",Spring 1998,Victor Entertainment,"Funimation, Geneon Entertainment USA",Madhouse,Manga,24 min. per ep.,PG-13 - Teens 13 or older,266.0,201,558913,12944,29113,343492,25465,13925,146918,50229.0,75651.0,86142.0,49432.0,15376.0,5838.0,1965.0,664.0,316.0,533.0


In [12]:
%%sql
COPY anime_with_synopsis FROM '/opt/work/input_data/anime_with_synopsis.csv' DELIMITERS ',' WITH NULL 'Unknown' CSV HEADER;

 * postgresql://postgres:***@postgres:5432/postgres
16214 rows affected.


[]

In [13]:
%%sql
COPY animelist FROM '/opt/work/input_data/animelist.csv' DELIMITERS ',' WITH NULL 'Unknown' CSV HEADER;

 * postgresql://postgres:***@postgres:5432/postgres
109224747 rows affected.


[]

In [14]:
%%sql
COPY rating_complete FROM '/opt/work/input_data/rating_complete.csv' DELIMITERS ',' WITH NULL 'Unknown' CSV HEADER;

 * postgresql://postgres:***@postgres:5432/postgres
57633278 rows affected.


[]

In [15]:
%%sql
COPY watching_status FROM '/opt/work/input_data/watching_status.csv' DELIMITERS ',' WITH NULL 'Unknown' CSV HEADER;

 * postgresql://postgres:***@postgres:5432/postgres
5 rows affected.


[]

## インデックスの作成（オプション）

- データベースにインデックスを作成しておくと、特定のSQLを効率的に実行できます
- 下記の例では、各テーブルのIDとなるカラムにインデックスを作成しています

In [16]:
%%sql
CREATE INDEX ON anime (mal_id);

 * postgresql://postgres:***@postgres:5432/postgres
Done.


[]

In [17]:
%%sql
CREATE INDEX ON anime_with_synopsis (mal_id);

 * postgresql://postgres:***@postgres:5432/postgres
Done.


[]

In [18]:
%%sql
CREATE INDEX ON animelist (user_id, anime_id);

 * postgresql://postgres:***@postgres:5432/postgres
Done.


[]

In [19]:
%%sql
CREATE INDEX ON rating_complete (user_id, anime_id);

 * postgresql://postgres:***@postgres:5432/postgres
Done.


[]

In [20]:
%%sql
CREATE INDEX ON watching_status (status);

 * postgresql://postgres:***@postgres:5432/postgres
Done.


[]