# SQL100本ノック
MySQLコンテナ構築手順とJupyterLabからの接続方法も知りたかったので、  
SQL100本ノックのリポジトリのコンテナは使わず自前で近い環境を構築してみた。  
[SQL100本ノックのリポジトリ](https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master/docker/work)

In [None]:
# pymysqlあるからいらなかったかも
!pip install mysql-connector-python

In [None]:
# セルから直接SQLを実行できるようにipython-sqlをインストール
!pip install ipython-sql
!pip install sqlalchemy
!pip install pymysql

## MySQLコンテナとの接続設定＆マジックコマンド設定

In [1]:
%load_ext sql

import os
import mysql.connector
import pymysql
from sqlalchemy import create_engine

# 接続パラメータの設定
config = {
  'host': os.environ['MYSQL_IP'], 
  'user': os.environ['MYSQL_USR'],
  'password': os.environ['MYSQL_PW'],
  'database': 'test'
}

dsl = 'mysql://{user}:{password}@{host}/{database}'.format(**config)
# conn = create_engine(dsl)

# MagicコマンドでSQLを書くための設定。%sqlにそのまま文字列を指定する必要があるので、$をつけてコマンドへ渡す
%sql $dsl

## MySQLと接続出来ることを確認

In [2]:
%sql show tables

 * mysql://remote_user:***@172.20.0.2/test
3 rows affected.


Tables_in_test
receipt
sample_db
test


In [3]:
%%sql
select user from mysql.user

 * mysql://remote_user:***@172.20.0.2/test
6 rows affected.


user
remote_user
root
mysql.infoschema
mysql.session
mysql.sys
root


## 100本ノックのテーブル準備

In [30]:
%%sql
# レシート明細のテーブル作成
CREATE TABLE receipt (
    sales_ymd INT,
    sales_epoch INT,
    store_cd INT,
    receipt_no INT,
    receipt_sub_no INT,
    customer_id VARCHAR(255),
    product_cd VARCHAR(255),
    quantity INT,
    amount INT
)


 * mysql://remote_user:***@172.20.0.2/test
0 rows affected.


[]

In [37]:
%%sql
LOAD DATA LOCAL INFILE '../../100knocks-preprocess/docker/work/data/receipt.csv'
INTO TABLE receipt
FIELDS TERMINATED BY ',' 
ENCLOSED BY '"'
LINES TERMINATED BY '\n'
IGNORE 1 ROWS;  -- ヘッダー行がある場合

 * mysql://remote_user:***@172.20.0.2/test
104681 rows affected.


[]

※注意：  
LOAD DATA LOCAL INFILE（クライアント側にあるファイルをDBに読み込ませる）を使うには、  
local_infileの設定をサーバーとクライアント両方で有効にする必要があることに注意。  
[参考：local_infileの設定をサーバーとクライアント両方で有効にする](https://qiita.com/kawa247/items/336697936ae408c22a1e#1local_infile%E3%81%AE%E8%A8%AD%E5%AE%9A%E3%82%92%E3%82%B5%E3%83%BC%E3%83%90%E3%83%BC%E3%81%A8%E3%82%AF%E3%83%A9%E3%82%A4%E3%82%A2%E3%83%B3%E3%83%88%E4%B8%A1%E6%96%B9%E3%81%A7%E6%9C%89%E5%8A%B9%E3%81%AB%E3%81%99%E3%82%8B)


---
>S-001: レシート明細データ（receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [4]:
%%sql
select * from receipt LIMIT 10

 * mysql://remote_user:***@172.20.0.2/test
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1541203200,0,112,1,CS006214000001,P070305012,1,158
20181118,1542499200,0,1132,2,CS008415000097,P070701017,1,81
20170712,1499817600,0,1102,1,CS028414000014,P060101005,1,170
20190205,1549324800,0,1132,1,ZZ000000000000,P050301001,1,25
20180821,1534809600,0,1102,2,CS025415000050,P060102007,1,90
20190605,1559692800,0,1112,1,CS003515000195,P050102002,1,138
20181205,1543968000,0,1102,2,CS024514000042,P080101005,1,30
20190922,1569110400,0,1102,1,CS040415000178,P070501004,1,128
20170504,1493856000,0,1112,2,ZZ000000000000,P071302010,1,770
20191010,1570665600,0,1102,1,CS027514000015,P071101003,1,680


---
> S-002: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、  
> 商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。

In [8]:
%%sql
SELECT 
    sales_ymd, 
    customer_id, 
    product_cd, 
    amount 
FROM receipt 
LIMIT 10;

 * mysql://remote_user:***@172.20.0.2/test
10 rows affected.


sales_ymd,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-003: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。  
> ただし、sales_ymdをsales_dateに項目名を変更しながら抽出すること。

In [12]:
%%sql
SELECT
    sales_ymd AS sales_date, # ASでカラム名を変えられる
    customer_id,
    product_cd,
    amount
FROM receipt
LIMIT 10;

 * mysql://remote_user:***@172.20.0.2/test
10 rows affected.


sales_date,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-004: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、  
> 以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [15]:
%%sql
SELECT
    sales_ymd,
    customer_id,
    product_cd,
    amount
FROM receipt
WHERE customer_id = 'CS018205000001'

 * mysql://remote_user:***@172.20.0.2/test
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-005: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、  
> 以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [18]:
%%sql
SELECT
    sales_ymd,
    customer_id,
    product_cd,
    amount
FROM
    receipt
WHERE 
    customer_id = 'CS018205000001' 
    AND amount >= 1000

 * mysql://remote_user:***@172.20.0.2/test
3 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-006: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、  
> 以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [21]:
%%sql
SELECT
    sales_ymd,
    customer_id,
    product_cd,
    quantity,
    amount
FROM
    receipt
WHERE 
    customer_id = 'CS018205000001' 
    AND (amount >= 1000 OR quantity >= 5)
;

 * mysql://remote_user:***@172.20.0.2/test
5 rows affected.


sales_ymd,customer_id,product_cd,quantity,amount
20180911,CS018205000001,P071401012,1,2200
20180414,CS018205000001,P060104007,6,600
20170614,CS018205000001,P050206001,5,990
20190226,CS018205000001,P071401020,1,2200
20180911,CS018205000001,P071401005,1,1100


---
> S-007: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、  
> 以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [23]:
%%sql
SELECT
    sales_ymd,
    customer_id,
    product_cd,
    amount
FROM 
    receipt
WHERE
    customer_id = 'CS018205000001'
    AND amount BETWEEN 1000 AND 2000 # A以上、B以下の行をフィルタリング


 * mysql://remote_user:***@172.20.0.2/test
1 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401005,1100


---
> S-008: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、  
> 以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [25]:
%%sql
SELECT 
    sales_ymd,
    customer_id,
    product_cd,
    amount
FROM 
    receipt
WHERE
    customer_id = 'CS018205000001'
    AND product_cd != 'P071401019'

 * mysql://remote_user:***@172.20.0.2/test
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


In [None]:
# 顧客のテーブル作成
CREATE TABLE customer (
    customer_id VARCHAR(255),
    customer_name VARCHAR(255),
    gender_cd VARCHAR(255),
    gender VARCHAR(255),
    birth_day DATE,
    age INT,
    postal_cd
)

In [None]:
# # 接続パラメータの設定
# config = {
#   'host': os.environ['MYSQL_IP'], 
#   'user': os.environ['MYSQL_USR'],
#   'password': os.environ['MYSQL_PW'],
#   'database': 'test'
# }

# # データベース接続
# conn = mysql.connector.connect(**config)

# # カーソルの作成
# cursor = conn.cursor()

# # SQLクエリの実行（例）
# cursor.execute("SELECT * FROM test")

# # データの取得
# for row in cursor:
#     print(row)


In [None]:
# # 接続のクローズ
# cursor.close()
# conn.close()