<a href="https://colab.research.google.com/github/kichimura60/100knock/blob/main/docker/work/preprocess_knock_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データサイエンス100本ノック（構造化データ加工編） - Python

## はじめに
- 初めに以下のセルを実行してください
- 必要なライブラリのインポートとデータベース（PostgreSQL）からのデータ読み込みを行います
- pandas等、利用が想定されるライブラリは以下セルでインポートしています
- その他利用したいライブラリがあれば適宜インストールしてください（"!pip install ライブラリ名"でインストールも可能）
- 処理は複数回に分けても構いません
- 名前、住所等はダミーデータであり、実在するものではありません

In [1]:
import os
import pandas as pd
import numpy as np
from dateutil.relativedelta import relativedelta
import math
from sqlalchemy import create_engine
from sklearn import preprocessing
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import TimeSeriesSplit
from imblearn.under_sampling import RandomUnderSampler


if 'PG_PORT' in os.environ:

    host = 'db'
    port = os.environ['PG_PORT']
    database = os.environ['PG_DATABASE']
    user = os.environ['PG_USER']
    password = os.environ['PG_PASSWORD']

    # pd.read_sql用のコネクタ
    conn = create_engine(f"postgresql://{user}:{password}@{host}:{port}/{database}")

    df_customer = pd.read_sql(sql='select * from customer', con=conn)
    df_category = pd.read_sql(sql='select * from category', con=conn)
    df_product = pd.read_sql(sql='select * from product', con=conn)
    df_receipt = pd.read_sql(sql='select * from receipt', con=conn)
    df_store = pd.read_sql(sql='select * from store', con=conn)
    df_geocode = pd.read_sql(sql='select * from geocode', con=conn)

else:
    if not os.path.exists('../data/'):
        !git clone https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess
        os.chdir('100knocks-preprocess/docker/work/answer')

    dtype = {
        'customer_id': str,
        'gender_cd': str,
        'postal_cd': str,
        'application_store_cd': str,
        'status_cd': str,
        'category_major_cd': str,
        'category_medium_cd': str,
        'category_small_cd': str,
        'product_cd': str,
        'store_cd': str,
        'prefecture_cd': str,
        'tel_no': str,
        'postal_cd': str,
        'street': str
    }

    df_customer = pd.read_csv("../data/customer.csv", dtype=dtype)
    df_category = pd.read_csv("../data/category.csv", dtype=dtype)
    df_product = pd.read_csv("../data/product.csv", dtype=dtype)
    df_receipt = pd.read_csv("../data/receipt.csv", dtype=dtype)
    df_store = pd.read_csv("../data/store.csv", dtype=dtype)
    df_geocode = pd.read_csv("../data/geocode.csv", dtype=dtype)


Cloning into '100knocks-preprocess'...
remote: Enumerating objects: 1971, done.[K
remote: Counting objects: 100% (766/766), done.[K
remote: Compressing objects: 100% (199/199), done.[K
remote: Total 1971 (delta 623), reused 642 (delta 554), pack-reused 1205 (from 1)[K
Receiving objects: 100% (1971/1971), 25.95 MiB | 8.51 MiB/s, done.
Resolving deltas: 100% (1104/1104), done.


# 演習問題

---
> P-001: レシート明細データ（df_receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [2]:
df_receipt.head(10)

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
0,20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
1,20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
2,20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
3,20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
4,20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90
5,20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138
6,20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30
7,20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128
8,20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770
9,20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680


---
> P-002: レシート明細データ（df_receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。

In [3]:
df_receipt.columns

Index(['sales_ymd', 'sales_epoch', 'store_cd', 'receipt_no', 'receipt_sub_no',
       'customer_id', 'product_cd', 'quantity', 'amount'],
      dtype='object')

In [4]:
df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']].head(10)

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> P-003: レシート明細データ（df_receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。ただし、sales_ymdをsales_dateに項目名を変更して抽出すること。

In [5]:
df = df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']].head(10)
df.columns = ['sales_date', 'customer_id', 'product_cd', 'amount']
df

Unnamed: 0,sales_date,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> P-004: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [6]:
df = df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']]
df[df['customer_id']=="CS018205000001"]

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
9843,20180414,CS018205000001,P060104007,600
21110,20170614,CS018205000001,P050206001,990
27673,20170614,CS018205000001,P060702015,108
27840,20190216,CS018205000001,P071005024,102
28757,20180414,CS018205000001,P071101002,278
39256,20190226,CS018205000001,P070902035,168
58121,20190924,CS018205000001,P060805001,495
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


---
> P-005: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [7]:
df[(df['customer_id']=="CS018205000001")&(df['amount']>=1000)]

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


---
> P-006: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [8]:
df = df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'quantity', 'amount']]
row = (df['customer_id']=="CS018205000001") & ((df['amount']>=1000) | (df['quantity']>=5))
df[row]

Unnamed: 0,sales_ymd,customer_id,product_cd,quantity,amount
36,20180911,CS018205000001,P071401012,1,2200
9843,20180414,CS018205000001,P060104007,6,600
21110,20170614,CS018205000001,P050206001,5,990
68117,20190226,CS018205000001,P071401020,1,2200
72254,20180911,CS018205000001,P071401005,1,1100


---
> P-007: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [9]:
df = df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']]
row = (df['customer_id']=="CS018205000001") & ((df['amount']>=1000) & (df['amount']<=2000))
df[row]

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
72254,20180911,CS018205000001,P071401005,1100


---
> P-008: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [10]:
row = (df['customer_id']=="CS018205000001") & (df['product_cd']!="P071401019")
df[row]

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
9843,20180414,CS018205000001,P060104007,600
21110,20170614,CS018205000001,P050206001,990
27673,20170614,CS018205000001,P060702015,108
27840,20190216,CS018205000001,P071005024,102
28757,20180414,CS018205000001,P071101002,278
39256,20190226,CS018205000001,P070902035,168
58121,20190924,CS018205000001,P060805001,495
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


---
> P-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。
>
> `df_store.query('not(prefecture_cd == "13" | floor_area > 900)')`

In [11]:
df_store.query('not(prefecture_cd == "13" | floor_area > 900)')

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
38,S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


In [12]:
df_store.query('(prefecture_cd != "13" & floor_area <= 900)')

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
38,S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> P-010: 店舗データ（df_store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件表示せよ。

In [13]:
df_store.query('store_cd.str.startswith("S14")').head(10)

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
4,S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
7,S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
9,S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
12,S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
16,S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
19,S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> P-011: 顧客データ（df_customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件表示せよ。

In [14]:
df_customer.query('customer_id.astype("str").str.endswith("1")').head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
1,CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
3,CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
14,CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
31,CS028314000011,小菅 あおい,1,女性,1983-11-26,35,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151123,1-20080426-5
56,CS039212000051,藤島 恵梨香,1,女性,1997-02-03,22,166-0001,東京都杉並区阿佐谷北**********,S13039,20171121,1-20100215-4
59,CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
63,CS004702000041,野島 洋,0,男性,1943-08-24,75,176-0022,東京都練馬区向山**********,S13004,20170218,0-00000000-0
74,CS041515000001,栗田 千夏,1,女性,1967-01-02,52,206-0001,東京都多摩市和田**********,S13041,20160422,E-20100803-F
85,CS029313000221,北条 ひかり,1,女性,1987-06-19,31,279-0011,千葉県浦安市美浜**********,S12029,20180810,0-00000000-0
102,CS034312000071,望月 奈央,1,女性,1980-09-20,38,213-0026,神奈川県川崎市高津区久末**********,S14034,20160106,0-00000000-0


---
> P-012: 店舗データ（df_store）から、住所 (address) に"横浜市"が含まれるものだけ全項目表示せよ。

In [15]:
df_store.query('address.str.contains("横浜市")')

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
7,S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
9,S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
12,S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
16,S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
26,S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
40,S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> P-013: 顧客データ（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件表示せよ。

In [16]:
df_customer.query('status_cd.str.match("^[A-F].*?")').head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
2,CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
6,CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
15,CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
21,CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
32,CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
33,CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
40,CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
44,CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
53,CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F


---
> P-014: 顧客データ（df_customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [17]:
df_customer.query('status_cd.str.match(".*?[1-9]$")').head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
4,CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
9,CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
14,CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
16,CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
22,CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
23,CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
24,CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
27,CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
28,CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


---
> P-015: 顧客データ（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [18]:
df_customer.query('status_cd.str.match("^[A-F].*?[1-9]$")').head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
68,CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
71,CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
122,CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
144,CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
178,CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
252,CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
259,CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
293,CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
297,CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


---
> P-016: 店舗データ（df_store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [19]:
df_store.query('tel_no.str.match("[0-9]{3}-[0-9]{3}-[0-9]{4}")')

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
0,S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
1,S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
4,S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
7,S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
9,S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
11,S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
12,S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
16,S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> P-017: 顧客データ（df_customer）を生年月日（birth_day）で高齢順にソートし、先頭から全項目を10件表示せよ。

In [20]:
df_customer.sort_values("birth_day").head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
18817,CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
12328,CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
15682,CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
15302,CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
1681,CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
7511,CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
2378,CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
4680,CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
16070,CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0
6305,CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0


---
> P-018: 顧客データ（df_customer）を生年月日（birth_day）で若い順にソートし、先頭から全項目を10件表示せよ。

In [21]:
df_customer.sort_values("birth_day", ascending=False).head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
15639,CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
7468,CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
10745,CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
19811,CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
7039,CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
3670,CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
12493,CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
15977,CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
5716,CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
15097,CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


---
> P-019: レシート明細データ（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [22]:
# df_receipt["amount_rank"] = df_receipt.rank(ascending=False)["amount"]
# df_receipt[['customer_id', 'amount', 'amount_rank']].head(10)
(
    df_receipt
    .assign(amount_rank = df_receipt.rank(ascending=False)["amount"])
    [['customer_id', 'amount', 'amount_rank']]
    .head(10)
)

Unnamed: 0,customer_id,amount,amount_rank
0,CS006214000001,158,55726.0
1,CS008415000097,81,95429.0
2,CS028414000014,170,52143.5
3,ZZ000000000000,25,104415.0
4,CS025415000050,90,90577.5
5,CS003515000195,138,64384.0
6,CS024514000042,30,104226.0
7,CS040415000178,128,69170.5
8,ZZ000000000000,770,9971.0
9,CS027514000015,680,11150.0


---
> P-020: レシート明細データ（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [23]:
# df_receipt["amount_rank"] = df_receipt.rank(method='first',ascending=False)["amount"]
# df_receipt[['customer_id', 'amount', 'amount_rank']].head(10)
(
    df_receipt
    .assign(amount_rank = df_receipt.rank(method='first',ascending=False)["amount"])
    [['customer_id', 'amount', 'amount_rank']]
    .head(10)
)

Unnamed: 0,customer_id,amount,amount_rank
0,CS006214000001,158,55059.0
1,CS008415000097,81,95294.0
2,CS028414000014,170,51700.0
3,ZZ000000000000,25,104339.0
4,CS025415000050,90,89871.0
5,CS003515000195,138,62707.0
6,CS024514000042,30,104114.0
7,CS040415000178,128,67915.0
8,ZZ000000000000,770,9935.0
9,CS027514000015,680,10529.0


---
> P-021: レシート明細データ（df_receipt）に対し、件数をカウントせよ。

In [24]:
df_receipt.describe()
df_receipt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104681 entries, 0 to 104680
Data columns (total 9 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   sales_ymd       104681 non-null  int64 
 1   sales_epoch     104681 non-null  int64 
 2   store_cd        104681 non-null  object
 3   receipt_no      104681 non-null  int64 
 4   receipt_sub_no  104681 non-null  int64 
 5   customer_id     104681 non-null  object
 6   product_cd      104681 non-null  object
 7   quantity        104681 non-null  int64 
 8   amount          104681 non-null  int64 
dtypes: int64(6), object(3)
memory usage: 7.2+ MB


---
> P-022: レシート明細データ（df_receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [25]:
df_receipt['customer_id'].nunique()

8307

---
> P-023: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [26]:
gr_store = df_receipt.groupby('store_cd')
gr_store.sum()[['amount', 'quantity']]

Unnamed: 0_level_0,amount,quantity
store_cd,Unnamed: 1_level_1,Unnamed: 2_level_1
S12007,638761,2099
S12013,787513,2425
S12014,725167,2358
S12029,794741,2555
S12030,684402,2403
S13001,811936,2347
S13002,727821,2340
S13003,764294,2197
S13004,779373,2390
S13005,629876,2004


---
> P-024: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）を求め、10件表示せよ。

In [27]:
gr_customer = df_receipt.groupby('customer_id')
gr_customer['sales_ymd'].max().head(10)

Unnamed: 0_level_0,sales_ymd
customer_id,Unnamed: 1_level_1
CS001113000004,20190308
CS001114000005,20190731
CS001115000010,20190405
CS001205000004,20190625
CS001205000006,20190224
CS001211000025,20190322
CS001212000027,20170127
CS001212000031,20180906
CS001212000046,20170811
CS001212000070,20191018


---
> P-025: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに最も古い売上年月日（sales_ymd）を求め、10件表示せよ。

In [28]:
gr_customer['sales_ymd'].min().head(10)

Unnamed: 0_level_0,sales_ymd
customer_id,Unnamed: 1_level_1
CS001113000004,20190308
CS001114000005,20180503
CS001115000010,20171228
CS001205000004,20170914
CS001205000006,20180207
CS001211000025,20190322
CS001212000027,20170127
CS001212000031,20180906
CS001212000046,20170811
CS001212000070,20191018


---
> P-026: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）と古い売上年月日を求め、両者が異なるデータを10件表示せよ。

In [29]:
gr_customer['sales_ymd'].agg(['min','max']).rename(columns={'min': 'old', 'max': 'recent'}).query('old != recent').head(10)

Unnamed: 0_level_0,old,recent
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001114000005,20180503,20190731
CS001115000010,20171228,20190405
CS001205000004,20170914,20190625
CS001205000006,20180207,20190224
CS001214000009,20170306,20190902
CS001214000017,20180828,20191006
CS001214000048,20171109,20190929
CS001214000052,20180208,20190617
CS001215000005,20170206,20181021
CS001215000040,20170214,20171022


---
> P-027: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [30]:
gr_store['amount'].mean().sort_values(ascending=False).head(5)

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,402.86747
S13015,351.11196
S13003,350.915519
S14010,348.791262
S13001,348.470386


---
> P-028: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [31]:
gr_store['amount'].median().sort_values(ascending=False).head(5)

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,190.0
S14010,188.0
S14050,185.0
S14040,180.0
S13003,180.0


---
> P-029: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求め、10件表示させよ。

In [32]:
gr_store['product_cd'].apply(lambda x: x.mode()).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,product_cd
store_cd,Unnamed: 1_level_1,Unnamed: 2_level_1
S12007,0,P060303001
S12013,0,P060303001
S12014,0,P060303001
S12029,0,P060303001
S12030,0,P060303001
S13001,0,P060303001
S13002,0,P060303001
S13003,0,P071401001
S13004,0,P060303001
S13005,0,P040503001


---
> P-030: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の分散を計算し、降順で5件表示せよ。

In [33]:
gr_store['amount'].var().sort_values(ascending=False).head()

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,441863.252526
S14011,306442.242432
S14034,297068.39274
S13001,295558.842618
S13015,295427.197086


In [34]:
gr_store['amount'].var(ddof=0).sort_values(ascending=False).head()

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,440088.701311
S14011,306314.558164
S14034,296920.081011
S13001,295431.993329
S13015,295294.361116


---
> P-031: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標準偏差を計算し、降順で5件表示せよ。

TIPS:

PandasとNumpyでddofのデフォルト値が異なることに注意しましょう
```
Pandas：
DataFrame.std(self, axis=None, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)
Numpy:
numpy.std(a, axis=None, dtype=None, out=None, ddof=0, keepdims=)
```

In [35]:
gr_store['amount'].std().sort_values(ascending=False).head()

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,664.727954
S14011,553.572256
S14034,545.039808
S13001,543.653237
S13015,543.532149


---
> P-032: レシート明細データ（df_receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [36]:
df_receipt['amount'].quantile([0,0.25,0.5,0.75,1.0])

Unnamed: 0,amount
0.0,10.0
0.25,102.0
0.5,170.0
0.75,288.0
1.0,10925.0


In [37]:
df_receipt['amount'].describe()

Unnamed: 0,amount
count,104681.0
mean,320.560083
std,477.702749
min,10.0
25%,102.0
50%,170.0
75%,288.0
max,10925.0


---
> P-033: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [38]:
gr_store.mean(numeric_only=True).query('amount >= 330')

Unnamed: 0_level_0,sales_ymd,sales_epoch,receipt_no,receipt_sub_no,quantity,amount
store_cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
S12013,20179850.0,1527047000.0,1069.097694,1.493501,1.016771,330.19413
S13001,20180160.0,1528056000.0,1060.802575,1.499142,1.007296,348.470386
S13003,20179670.0,1526609000.0,1051.205693,1.504132,1.008724,350.915519
S13004,20179810.0,1527011000.0,1044.009342,1.505308,1.014862,330.943949
S13015,20180080.0,1527775000.0,1054.598921,1.495953,1.010791,351.11196
S13019,20179960.0,1527750000.0,1031.952134,1.504986,1.013562,330.208616
S13020,20179870.0,1527414000.0,1032.391599,1.500636,1.011031,337.879932
S13052,20190860.0,1567115000.0,1052.441767,1.477912,1.004016,402.86747
S14010,20180190.0,1527790000.0,1044.757723,1.499559,1.010591,348.791262
S14011,20179850.0,1527270000.0,1080.03875,1.497917,1.014167,335.718333


---
> P-034: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [39]:
mean_amount = (
 gr_customer
 .sum(numeric_only=True)
 .query('not(index.str.startswith("Z"))')
 ['amount']
 .mean()
)
mean_amount

2547.742234529256

---
> P-035: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出し、10件表示せよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [40]:
(
    gr_customer
    .sum(numeric_only=True)
    .query('not(index.str.startswith("Z"))')
    .query('amount >= @mean_amount')
).head(10)

Unnamed: 0_level_0,sales_ymd,sales_epoch,receipt_no,receipt_sub_no,quantity,amount
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CS001115000010,121084668,9198489600,672,9,6,3044
CS001205000006,242185018,18351878400,14084,18,12,3337
CS001214000009,282508294,21327667200,1568,21,15,4685
CS001214000017,242228132,18555091200,1344,18,12,4132
CS001214000052,242244422,18525542400,1344,18,12,5639
CS001215000040,201704736,14937350400,1120,15,10,3496
CS001304000006,80681688,5971276800,4708,6,4,3726
CS001305000005,322867318,24340089600,18252,24,16,3485
CS001305000011,161484546,12350880000,9296,12,8,4370
CS001315000180,40342036,3016569600,2224,3,2,3300


---
> P-036: レシート明細データ（df_receipt）と店舗データ（df_store）を内部結合し、レシート明細データの全項目と店舗データの店舗名（store_name）を10件表示せよ。

In [41]:
df_store.head()

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
0,S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
1,S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
4,S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0


In [42]:
df_receipt.head()

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
0,20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
1,20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
2,20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
3,20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
4,20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90


In [43]:
(
    df_receipt
    .merge(df_store, on='store_cd', how='inner')
    [df_receipt.columns.to_list()+['store_name']]
    .head(10)
)

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
0,20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
1,20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81,成城店
2,20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170,二ツ橋店
3,20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25,新山下店
4,20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90,大和店
5,20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138,狛江店
6,20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30,三田店
7,20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128,長津田店
8,20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770,十条仲原店
9,20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680,南藤沢店


---
> P-037: 商品データ（df_product）とカテゴリデータ（df_category）を内部結合し、商品データの全項目とカテゴリデータのカテゴリ小区分名（category_small_name）を10件表示せよ。

In [44]:
(
    df_product
    .merge(df_category,
          #  on=['category_major_cd', 'category_medium_cd', 'category_small_cd'],
           how='inner')
    [df_product.columns.to_list() + ['category_small_name']]
    .head(10)
)

Unnamed: 0,﻿product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_name
0,P040101001,4,401,40101,198.0,149.0,弁当類
1,P040101002,4,401,40101,218.0,164.0,弁当類
2,P040101003,4,401,40101,230.0,173.0,弁当類
3,P040101004,4,401,40101,248.0,186.0,弁当類
4,P040101005,4,401,40101,268.0,201.0,弁当類
5,P040101006,4,401,40101,298.0,224.0,弁当類
6,P040101007,4,401,40101,338.0,254.0,弁当類
7,P040101008,4,401,40101,420.0,315.0,弁当類
8,P040101009,4,401,40101,498.0,374.0,弁当類
9,P040101010,4,401,40101,580.0,435.0,弁当類


In [45]:
print(df_product.columns)
df_category.columns

Index(['﻿product_cd', 'category_major_cd', 'category_medium_cd',
       'category_small_cd', 'unit_price', 'unit_cost'],
      dtype='object')


Index(['﻿category_major_cd', 'category_major_name', 'category_medium_cd',
       'category_medium_name', 'category_small_cd', 'category_small_name'],
      dtype='object')

---
> P-038: 顧客データ（df_customer）とレシート明細データ（df_receipt）から、顧客ごとの売上金額合計を求め、10件表示せよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [46]:
print(df_customer.columns)
print(df_receipt.columns)

Index(['customer_id', 'customer_name', 'gender_cd', 'gender', 'birth_day',
       'age', 'postal_cd', 'address', 'application_store_cd',
       'application_date', 'status_cd'],
      dtype='object')
Index(['sales_ymd', 'sales_epoch', 'store_cd', 'receipt_no', 'receipt_sub_no',
       'customer_id', 'product_cd', 'quantity', 'amount'],
      dtype='object')


In [47]:
(
    df_customer
    .merge(df_receipt, on='customer_id', how='left')
    .fillna({'amount': 0})
    .query('gender_cd == "1"')
    .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .sum(numeric_only=True)
    ['amount']
    .head(10)
)

Unnamed: 0_level_0,amount
customer_id,Unnamed: 1_level_1
CS001112000009,0.0
CS001112000019,0.0
CS001112000021,0.0
CS001112000023,0.0
CS001112000024,0.0
CS001112000029,0.0
CS001112000030,0.0
CS001113000004,1298.0
CS001113000010,0.0
CS001114000005,626.0


---
> P-039: レシート明細データ（df_receipt）から、売上日数の多い顧客の上位20件を抽出したデータと、売上金額合計の多い顧客の上位20件を抽出したデータをそれぞれ作成し、さらにその2つを完全外部結合せよ。ただし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [48]:
pd.concat(
    [
    df_receipt
    .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .count()
    ['sales_ymd']
    .sort_values(ascending=False)
    .head(20),
    df_receipt
    .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .sum(numeric_only=True)
    ['amount']
    .sort_values(ascending=False)
    .head(20)
    ],
    join='outer',
    axis=1
)

Unnamed: 0_level_0,sales_ymd,amount
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS040214000008,46.0,
CS015415000185,44.0,20153.0
CS010214000010,44.0,18585.0
CS010214000002,42.0,
CS028415000007,42.0,19127.0
CS007515000107,40.0,
CS021514000045,40.0,
CS016415000141,40.0,18372.0
CS017415000097,40.0,23086.0
CS022515000226,38.0,


In [49]:
df_receipt.head()

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
0,20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
1,20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
2,20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
3,20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
4,20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90


---
> P-040: 全ての店舗と全ての商品を組み合わせたデータを作成したい。店舗データ（df_store）と商品データ（df_product）を直積し、件数を計算せよ。

In [50]:
(
    df_store
    .merge(df_product, how='cross')
    .size
)

8505440

---
> P-041: レシート明細データ（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前回売上があった日からの売上金額増減を計算せよ。そして結果を10件表示せよ。

In [51]:
(
    df_receipt
    .groupby('sales_ymd')
    ['amount']
    .sum()
    .to_frame()
    .assign(amount_dif=lambda x: x['amount'].diff())
    .head(10)
)

Unnamed: 0_level_0,amount,amount_dif
sales_ymd,Unnamed: 1_level_1,Unnamed: 2_level_1
20170101,33723,
20170102,24165,-9558.0
20170103,27503,3338.0
20170104,36165,8662.0
20170105,37830,1665.0
20170106,32387,-5443.0
20170107,23415,-8972.0
20170108,24737,1322.0
20170109,26718,1981.0
20170110,20143,-6575.0


---
> P-042: レシート明細データ（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、前回、前々回、3回前に売上があった日のデータを結合せよ。そして結果を10件表示せよ。

In [52]:
(
    df_receipt
    .assign(sales_ymd=lambda x: x['sales_ymd'].astype(str).astype('datetime64[ns]'))
    .groupby('sales_ymd')
    ['amount']
    .sum()
    .to_frame()
    .assign(amount_1daybef=lambda x: x['amount'].shift(freq='D'),
            amount_2daybef=lambda x: x['amount'].shift(freq='2D'),
            amount_3daybef=lambda x: x['amount'].shift(freq='3D'))
    .head(10)
    # .shape
)

Unnamed: 0_level_0,amount,amount_1daybef,amount_2daybef,amount_3daybef
sales_ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-01-01,33723,,,
2017-01-02,24165,33723.0,,
2017-01-03,27503,24165.0,33723.0,
2017-01-04,36165,27503.0,24165.0,33723.0
2017-01-05,37830,36165.0,27503.0,24165.0
2017-01-06,32387,37830.0,36165.0,27503.0
2017-01-07,23415,32387.0,37830.0,36165.0
2017-01-08,24737,23415.0,32387.0,37830.0
2017-01-09,26718,24737.0,23415.0,32387.0
2017-01-10,20143,26718.0,24737.0,23415.0


In [53]:
print(df_receipt['sales_ymd'].max())
print(df_receipt['sales_ymd'].min())
df_receipt['sales_ymd'].astype(str).astype('datetime64[ns]').max() - df_receipt['sales_ymd'].astype(str).astype('datetime64[ns]').min()

20191031
20170101


Timedelta('1033 days 00:00:00')

---
> P-043： レシート明細データ（df_receipt）と顧客データ（df_customer）を結合し、性別コード（gender_cd）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータを作成せよ。性別コードは0が男性、1が女性、9が不明を表すものとする。
>
> ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [54]:
df_customer.age.max()

90

In [55]:
(
    df_customer
    .assign(
        age_bin = pd.cut(df_customer['age'],
                        np.arange(0, 101, 10),
                        include_lowest=True, right=False,
                        labels=['{0}歳代'.format(i) for i in range(0, 100, 10)])
        )
    .merge(df_receipt, how='left', on='customer_id')
    .fillna({'amount': 0})
    .pivot_table(index='age_bin', columns='gender_cd', values='amount', aggfunc='sum', observed=False)
)


gender_cd,0,1,9
age_bin,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0歳代,0.0,0.0,0.0
10歳代,1591.0,149836.0,4317.0
20歳代,72940.0,1363724.0,44328.0
30歳代,177322.0,693047.0,50441.0
40歳代,19355.0,9320791.0,483512.0
50歳代,54320.0,6685192.0,342923.0
60歳代,272469.0,987741.0,71418.0
70歳代,13435.0,29764.0,2427.0
80歳代,46360.0,262923.0,5111.0
90歳代,0.0,6260.0,0.0


---
> P-044： 043で作成した売上サマリデータ（df_sales_summary）は性別の売上を横持ちさせたものであった。このデータから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を"00"、女性を"01"、不明を"99"とする。

In [56]:
(
    df_customer
    .assign(
        age_bin = pd.cut(df_customer['age'],
                        np.arange(0, 101, 10),
                        include_lowest=True, right=False,
                        labels=['{0}歳代'.format(i) for i in range(0, 100, 10)])
        )
    .assign(
        gender_cd = df_customer['gender_cd'].map({'0': '00','1': '01','9': '99'})
    )
    .merge(df_receipt, how='left', on='customer_id')
    .fillna({'amount': 0})
    .groupby(['age_bin', 'gender_cd'], observed=False)
    ['amount']
    .sum()
)

Unnamed: 0_level_0,Unnamed: 1_level_0,amount
age_bin,gender_cd,Unnamed: 2_level_1
0歳代,0,0.0
0歳代,1,0.0
0歳代,99,0.0
10歳代,0,1591.0
10歳代,1,149836.0
10歳代,99,4317.0
20歳代,0,72940.0
20歳代,1,1363724.0
20歳代,99,44328.0
30歳代,0,177322.0


---
> P-045: 顧客データ（df_customer）の生年月日（birth_day）は日付型でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [57]:
df_customer['birth_day']

Unnamed: 0,birth_day
0,1981-04-29
1,1952-04-01
2,1976-10-04
3,1933-03-27
4,1995-03-29
...,...
21966,1959-10-12
21967,1970-10-19
21968,1972-12-16
21969,1964-06-05


In [58]:
(
    df_customer
    .assign(birth_day=lambda x: x['birth_day'].astype('datetime64[ns]'))
    .assign(birth_day=lambda x: x['birth_day'].dt.strftime('%Y%m%d'))
    [['customer_id', 'birth_day']]
    # ['birth_day']
)

Unnamed: 0,customer_id,birth_day
0,CS021313000114,19810429
1,CS037613000071,19520401
2,CS031415000172,19761004
3,CS028811000001,19330327
4,CS001215000145,19950329
...,...,...
21966,CS002512000474,19591012
21967,CS029414000065,19701019
21968,CS012403000043,19721216
21969,CS033512000184,19640605


---
> P-046: 顧客データ（df_customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [59]:
(
    df_customer
     .assign(application_date=lambda x: x['application_date'].astype(str).astype('datetime64[ns]'))
     [['customer_id', 'application_date']]
    .head(10)
)

Unnamed: 0,customer_id,application_date
0,CS021313000114,2015-09-05
1,CS037613000071,2015-04-14
2,CS031415000172,2015-05-29
3,CS028811000001,2016-01-15
4,CS001215000145,2017-06-05
5,CS020401000016,2015-02-25
6,CS015414000103,2015-07-22
7,CS029403000008,2015-05-15
8,CS015804000004,2015-06-07
9,CS033513000180,2015-07-28


---
> P-047: レシート明細データ（df_receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型に変換し、レシート番号（receipt_no）、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [60]:
(
    df_receipt
     .assign(sales_ymd=lambda x: x['sales_ymd'].astype(str).astype('datetime64[ns]'))
     [['receipt_no', 'receipt_sub_no', 'sales_ymd']]
    .head(10)
)

Unnamed: 0,receipt_no,receipt_sub_no,sales_ymd
0,112,1,2018-11-03
1,1132,2,2018-11-18
2,1102,1,2017-07-12
3,1132,1,2019-02-05
4,1102,2,2018-08-21
5,1112,1,2019-06-05
6,1102,2,2018-12-05
7,1102,1,2019-09-22
8,1112,2,2017-05-04
9,1102,1,2019-10-10


---
> P-048: レシート明細データ（df_receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [61]:
import datetime
(
    df_receipt
     .assign(sales_epoch=lambda x: x['sales_epoch'].apply(datetime.datetime.fromtimestamp))
     [['receipt_no', 'receipt_sub_no', 'sales_epoch']]
    .head(10)
)

Unnamed: 0,receipt_no,receipt_sub_no,sales_epoch
0,112,1,2018-11-03
1,1132,2,2018-11-18
2,1102,1,2017-07-12
3,1132,1,2019-02-05
4,1102,2,2018-08-21
5,1112,1,2019-06-05
6,1102,2,2018-12-05
7,1102,1,2019-09-22
8,1112,2,2017-05-04
9,1102,1,2019-10-10


---
> P-049: レシート明細データ（df_receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「年」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [62]:
(
    df_receipt
     .assign(sales_year=lambda x: x['sales_epoch'].apply(datetime.datetime.fromtimestamp).dt.year)
     [['receipt_no', 'receipt_sub_no', 'sales_year']]
    .head(10)
)

Unnamed: 0,receipt_no,receipt_sub_no,sales_year
0,112,1,2018
1,1132,2,2018
2,1102,1,2017
3,1132,1,2019
4,1102,2,2018
5,1112,1,2019
6,1102,2,2018
7,1102,1,2019
8,1112,2,2017
9,1102,1,2019


---
> P-050: レシート明細データ（df_receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「月」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「月」は0埋め2桁で取り出すこと。

In [63]:
(
    df_receipt
     .assign(sales_month=lambda x: x['sales_epoch'].apply(datetime.datetime.fromtimestamp).dt.strftime('%m'))
     [['receipt_no', 'receipt_sub_no', 'sales_month']]
    .head(10)
)

Unnamed: 0,receipt_no,receipt_sub_no,sales_month
0,112,1,11
1,1132,2,11
2,1102,1,7
3,1132,1,2
4,1102,2,8
5,1112,1,6
6,1102,2,12
7,1102,1,9
8,1112,2,5
9,1102,1,10


---
> P-051: レシート明細データ（df_receipt）の売上エポック秒を日付型に変換し、「日」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「日」は0埋め2桁で取り出すこと。

In [64]:
(
    df_receipt
     .assign(sales_day=lambda x: x['sales_epoch'].apply(datetime.datetime.fromtimestamp).dt.strftime('%d'))
     [['receipt_no', 'receipt_sub_no', 'sales_day']]
    .head(10)
)

Unnamed: 0,receipt_no,receipt_sub_no,sales_day
0,112,1,3
1,1132,2,18
2,1102,1,12
3,1132,1,5
4,1102,2,21
5,1112,1,5
6,1102,2,5
7,1102,1,22
8,1112,2,4
9,1102,1,10


---
> P-052: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2,000円以下を0、2,000円より大きい金額を1に二値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [65]:
(
    df_receipt
    .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .sum(numeric_only=True)
    .assign(over_2000=lambda x: (x['amount']>=2000).astype(int))
    [['amount', 'over_2000']]
    .head(10)
)

Unnamed: 0_level_0,amount,over_2000
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,0
CS001114000005,626,0
CS001115000010,3044,1
CS001205000004,1988,0
CS001205000006,3337,1
CS001211000025,456,0
CS001212000027,448,0
CS001212000031,296,0
CS001212000046,228,0
CS001212000070,456,0


---
> P-053: 顧客データ（df_customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に二値化せよ。さらにレシート明細データ（df_receipt）と結合し、全期間において売上実績のある顧客数を、作成した二値ごとにカウントせよ。

In [66]:
df_customer['postal_cd'].head()

Unnamed: 0,postal_cd
0,259-1113
1,136-0076
2,151-0053
3,245-0016
4,144-0055


In [67]:
def is_tokyo(postal_cd):
  '''
  住所が東京か判定
  '''
  is_tokyo = 0
  if int(postal_cd[:3])<=209:
    is_tokyo = 1
  return is_tokyo

(
    df_customer
    .query('not(customer_id.str.startswith("Z"))')
    .assign(postal_tokyo=lambda x: x['postal_cd'].apply(is_tokyo))
    .merge(
        df_receipt, on='customer_id', how='left'
    )
    .groupby('postal_tokyo')
    .nunique()
    ['customer_id']
    .head(10)
)

Unnamed: 0_level_0,customer_id
postal_tokyo,Unnamed: 1_level_1
0,10043
1,11928


---
> P-054: 顧客データ（df_customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに10件表示せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。

In [68]:
df_customer['address'].head()

Unnamed: 0,address
0,神奈川県伊勢原市粟窪**********
1,東京都江東区南砂**********
2,東京都渋谷区代々木**********
3,神奈川県横浜市泉区和泉町**********
4,東京都大田区仲六郷**********


In [69]:
pref_cd_tbl = {
    '埼玉県.*': 11,
    '千葉県.*': 12,
    '東京都.*': 13,
    '神奈川県.*': 14
    }

(
    df_customer
    .assign(pref_cd=lambda x: x['address'].replace(pref_cd_tbl, regex=True))
    [['customer_id', 'address', 'pref_cd']]
    .head(10)
)

  .assign(pref_cd=lambda x: x['address'].replace(pref_cd_tbl, regex=True))


Unnamed: 0,customer_id,address,pref_cd
0,CS021313000114,神奈川県伊勢原市粟窪**********,14
1,CS037613000071,東京都江東区南砂**********,13
2,CS031415000172,東京都渋谷区代々木**********,13
3,CS028811000001,神奈川県横浜市泉区和泉町**********,14
4,CS001215000145,東京都大田区仲六郷**********,13
5,CS020401000016,東京都板橋区若木**********,13
6,CS015414000103,東京都江東区北砂**********,13
7,CS029403000008,千葉県浦安市海楽**********,12
8,CS015804000004,東京都江東区北砂**********,13
9,CS033513000180,神奈川県横浜市旭区善部町**********,14


---
> P-055: レシート明細（df_receipt）データの売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに10件表示せよ。カテゴリ値は順に1〜4とする。
>
> - 最小値以上第1四分位未満 ・・・ 1を付与
> - 第1四分位以上第2四分位未満 ・・・ 2を付与
> - 第2四分位以上第3四分位未満 ・・・ 3を付与
> - 第3四分位以上 ・・・ 4を付与

In [70]:
(
    df_receipt
    .groupby('customer_id')
    .sum(numeric_only=True)
    .assign(cat_amount=lambda x: pd.qcut(x['amount'], 4, labels=[1,2,3,4]))
    [['amount', 'cat_amount']]
    .head(10)
)

Unnamed: 0_level_0,amount,cat_amount
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,2
CS001114000005,626,2
CS001115000010,3044,3
CS001205000004,1988,3
CS001205000006,3337,3
CS001211000025,456,1
CS001212000027,448,1
CS001212000031,296,1
CS001212000046,228,1
CS001212000070,456,1


---
> P-056: 顧客データ（df_customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに10件表示せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。

In [71]:
(
    df_customer
    .assign(
        age_bin = pd.cut(df_customer['age'],
                        [0, 10, 20, 30, 40, 50, 60, 100],
                        include_lowest=True, right=False,
                        labels=['{0}歳代'.format(i) for i in range(0, 70, 10)])
        )
    [['customer_id', 'birth_day', 'age_bin']]
    .head(10)
)

Unnamed: 0,customer_id,birth_day,age_bin
0,CS021313000114,1981-04-29,30歳代
1,CS037613000071,1952-04-01,60歳代
2,CS031415000172,1976-10-04,40歳代
3,CS028811000001,1933-03-27,60歳代
4,CS001215000145,1995-03-29,20歳代
5,CS020401000016,1974-09-15,40歳代
6,CS015414000103,1977-08-09,40歳代
7,CS029403000008,1973-08-17,40歳代
8,CS015804000004,1931-05-02,60歳代
9,CS033513000180,1962-07-11,50歳代


---
> P-057: 056の抽出結果と性別コード（gender_cd）により、新たに性別×年代の組み合わせを表すカテゴリデータを作成し、10件表示せよ。組み合わせを表すカテゴリの値は任意とする。

In [72]:
(
    df_customer
    .assign(
        decade = pd.cut(df_customer['age'],
                        [0, 10, 20, 30, 40, 50, 60, 100],
                        include_lowest=True, right=False,
                        labels=['{0}歳代'.format(i) for i in range(0, 70, 10)])
        )
    .assign(gen_decade = lambda x: x['gender'] + '_' + x['decade'].astype(str))
    [['customer_id', 'birth_day', 'gen_decade']]
    .head(10)
)

Unnamed: 0,customer_id,birth_day,gen_decade
0,CS021313000114,1981-04-29,女性_30歳代
1,CS037613000071,1952-04-01,不明_60歳代
2,CS031415000172,1976-10-04,女性_40歳代
3,CS028811000001,1933-03-27,女性_60歳代
4,CS001215000145,1995-03-29,女性_20歳代
5,CS020401000016,1974-09-15,男性_40歳代
6,CS015414000103,1977-08-09,女性_40歳代
7,CS029403000008,1973-08-17,男性_40歳代
8,CS015804000004,1931-05-02,男性_60歳代
9,CS033513000180,1962-07-11,女性_50歳代


---
> P-058: 顧客データ（df_customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに10件表示せよ。

In [73]:
(
    df_customer
    .join(pd.get_dummies(df_customer['gender_cd'], prefix='gender'))
    [['customer_id', 'gender_0', 'gender_1', 'gender_9']]
    .head(10)
)

Unnamed: 0,customer_id,gender_0,gender_1,gender_9
0,CS021313000114,False,True,False
1,CS037613000071,False,False,True
2,CS031415000172,False,True,False
3,CS028811000001,False,True,False
4,CS001215000145,False,True,False
5,CS020401000016,True,False,False
6,CS015414000103,False,True,False
7,CS029403000008,True,False,False
8,CS015804000004,True,False,False
9,CS033513000180,False,True,False


---
> P-059: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに10件表示せよ。標準化に使用する標準偏差は、分散の平方根、もしくは不偏分散の平方根のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

TIPS:
- query()の引数engineで'python'か'numexpr'かを選択でき、デフォルトはインストールされていればnumexprが、無ければpythonが使われます。さらに、文字列メソッドはengine='python'でないとquery()内で使えません。


In [74]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import scale

ss = StandardScaler()

(
    df_receipt
    .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .sum(numeric_only=True)
    .assign(amount_ss = lambda x: scale(x['amount']))
    [['amount', 'amount_ss']]
    .head(10)
    # .describe().round(3)
)

Unnamed: 0_level_0,amount,amount_ss
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,-0.459378
CS001114000005,626,-0.70639
CS001115000010,3044,0.182413
CS001205000004,1988,-0.205749
CS001205000006,3337,0.290114
CS001211000025,456,-0.768879
CS001212000027,448,-0.771819
CS001212000031,296,-0.827691
CS001212000046,228,-0.852686
CS001212000070,456,-0.768879


---
> P-060: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [75]:
from sklearn.preprocessing import minmax_scale

(
    df_receipt
    .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .sum(numeric_only=True)
    .assign(amount_ss = lambda x: minmax_scale(x['amount']))
    [['amount', 'amount_ss']]
    .head(10)
    # .describe().round(3)
)

Unnamed: 0_level_0,amount,amount_ss
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,0.053354
CS001114000005,626,0.024157
CS001115000010,3044,0.129214
CS001205000004,1988,0.083333
CS001205000006,3337,0.141945
CS001211000025,456,0.016771
CS001212000027,448,0.016423
CS001212000031,296,0.009819
CS001212000046,228,0.006865
CS001212000070,456,0.016771


---
> P-061: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を常用対数化（底10）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [76]:
(
    df_receipt
    .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .sum(numeric_only=True)
    .assign(amount_log10 = lambda x: np.log10(x['amount']))
    [['amount', 'amount_log10']]
    .head(10)
)

Unnamed: 0_level_0,amount,amount_log10
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,3.113275
CS001114000005,626,2.796574
CS001115000010,3044,3.483445
CS001205000004,1988,3.298416
CS001205000006,3337,3.523356
CS001211000025,456,2.658965
CS001212000027,448,2.651278
CS001212000031,296,2.471292
CS001212000046,228,2.357935
CS001212000070,456,2.658965


---
> P-062: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を自然対数化（底e）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [77]:
(
    df_receipt
    .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .sum(numeric_only=True)
    .assign(amount_log = lambda x: np.log(x['amount']))
    [['amount', 'amount_log']]
    .head(10)
)

Unnamed: 0_level_0,amount,amount_log
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,7.16858
CS001114000005,626,6.43935
CS001115000010,3044,8.020928
CS001205000004,1988,7.594884
CS001205000006,3337,8.112827
CS001211000025,456,6.122493
CS001212000027,448,6.104793
CS001212000031,296,5.690359
CS001212000046,228,5.429346
CS001212000070,456,6.122493


---
> P-063: 商品データ（df_product）の単価（unit_price）と原価（unit_cost）から各商品の利益額を算出し、結果を10件表示せよ。

In [78]:
(
    df_product
    .assign(profit = df_product['unit_price'] - df_product['unit_cost'])
    .head(10)
)

Unnamed: 0,﻿product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,profit
0,P040101001,4,401,40101,198.0,149.0,49.0
1,P040101002,4,401,40101,218.0,164.0,54.0
2,P040101003,4,401,40101,230.0,173.0,57.0
3,P040101004,4,401,40101,248.0,186.0,62.0
4,P040101005,4,401,40101,268.0,201.0,67.0
5,P040101006,4,401,40101,298.0,224.0,74.0
6,P040101007,4,401,40101,338.0,254.0,84.0
7,P040101008,4,401,40101,420.0,315.0,105.0
8,P040101009,4,401,40101,498.0,374.0,124.0
9,P040101010,4,401,40101,580.0,435.0,145.0


---
> P-064: 商品データ（df_product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。ただし、単価と原価には欠損が生じていることに注意せよ。

In [79]:
(
    df_product
    # [df_product['unit_price'].isnull()]
    .dropna(subset=['unit_price', 'unit_cost'])
    .assign(profit_ratio = (df_product['unit_price'] - df_product['unit_cost'])/df_product['unit_price'])
    .mean(numeric_only=True)
    # .info()
    # .head(10)
)

Unnamed: 0,0
unit_price,402.575576
unit_cost,302.189464
profit_ratio,0.249114


---
> P-065: 商品データ（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [80]:
(
    df_product
    .dropna(subset=['unit_price', 'unit_cost'])
    .assign(unit_price_30 = lambda x: np.floor(x['unit_cost']/0.7))
    .assign(profit_ratio = lambda x: (x['unit_price_30'] - x['unit_cost'])/x['unit_price_30'])
    # .mean(numeric_only=True)
    # .info()
    .head(10)
)

Unnamed: 0,﻿product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,unit_price_30,profit_ratio
0,P040101001,4,401,40101,198.0,149.0,212.0,0.29717
1,P040101002,4,401,40101,218.0,164.0,234.0,0.299145
2,P040101003,4,401,40101,230.0,173.0,247.0,0.299595
3,P040101004,4,401,40101,248.0,186.0,265.0,0.298113
4,P040101005,4,401,40101,268.0,201.0,287.0,0.299652
5,P040101006,4,401,40101,298.0,224.0,320.0,0.3
6,P040101007,4,401,40101,338.0,254.0,362.0,0.298343
7,P040101008,4,401,40101,420.0,315.0,450.0,0.3
8,P040101009,4,401,40101,498.0,374.0,534.0,0.299625
9,P040101010,4,401,40101,580.0,435.0,621.0,0.299517


---
> P-066: 商品データ（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を丸めること（四捨五入または偶数への丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [81]:
(
    df_product
    .dropna(subset=['unit_price', 'unit_cost'])
    .assign(unit_price_30 = lambda x: (x['unit_cost']/0.7).round())
    .assign(profit_ratio = lambda x: (x['unit_price_30'] - x['unit_cost'])/x['unit_price_30'])
    # .mean(numeric_only=True)
    # .info()
    .head(10)
)

Unnamed: 0,﻿product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,unit_price_30,profit_ratio
0,P040101001,4,401,40101,198.0,149.0,213.0,0.300469
1,P040101002,4,401,40101,218.0,164.0,234.0,0.299145
2,P040101003,4,401,40101,230.0,173.0,247.0,0.299595
3,P040101004,4,401,40101,248.0,186.0,266.0,0.300752
4,P040101005,4,401,40101,268.0,201.0,287.0,0.299652
5,P040101006,4,401,40101,298.0,224.0,320.0,0.3
6,P040101007,4,401,40101,338.0,254.0,363.0,0.300275
7,P040101008,4,401,40101,420.0,315.0,450.0,0.3
8,P040101009,4,401,40101,498.0,374.0,534.0,0.299625
9,P040101010,4,401,40101,580.0,435.0,621.0,0.299517


---
> P-067: 商品データ（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [82]:
(
    df_product
    .dropna(subset=['unit_price', 'unit_cost'])
    .assign(unit_price_30 = lambda x: np.ceil(x['unit_cost']/0.7))
    .assign(profit_ratio = lambda x: (x['unit_price_30'] - x['unit_cost'])/x['unit_price_30'])
    # .mean(numeric_only=True)
    # .info()
    .head(10)
)

Unnamed: 0,﻿product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,unit_price_30,profit_ratio
0,P040101001,4,401,40101,198.0,149.0,213.0,0.300469
1,P040101002,4,401,40101,218.0,164.0,235.0,0.302128
2,P040101003,4,401,40101,230.0,173.0,248.0,0.302419
3,P040101004,4,401,40101,248.0,186.0,266.0,0.300752
4,P040101005,4,401,40101,268.0,201.0,288.0,0.302083
5,P040101006,4,401,40101,298.0,224.0,320.0,0.3
6,P040101007,4,401,40101,338.0,254.0,363.0,0.300275
7,P040101008,4,401,40101,420.0,315.0,451.0,0.301552
8,P040101009,4,401,40101,498.0,374.0,535.0,0.300935
9,P040101010,4,401,40101,580.0,435.0,622.0,0.300643


---
> P-068: 商品データ（df_product）の各商品について、消費税率10％の税込み金額を求めよ。1円未満の端数は切り捨てとし、結果を10件表示せよ。ただし、単価（unit_price）には欠損が生じていることに注意せよ。

In [83]:
(
    df_product
    .dropna(subset=['unit_price'])
    .assign(price_with_tax = lambda x: np.floor(x['unit_price']*1.1))
    # .mean(numeric_only=True)
    # .info()
    .head(10)
)

Unnamed: 0,﻿product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,price_with_tax
0,P040101001,4,401,40101,198.0,149.0,217.0
1,P040101002,4,401,40101,218.0,164.0,239.0
2,P040101003,4,401,40101,230.0,173.0,253.0
3,P040101004,4,401,40101,248.0,186.0,272.0
4,P040101005,4,401,40101,268.0,201.0,294.0
5,P040101006,4,401,40101,298.0,224.0,327.0
6,P040101007,4,401,40101,338.0,254.0,371.0
7,P040101008,4,401,40101,420.0,315.0,462.0
8,P040101009,4,401,40101,498.0,374.0,547.0
9,P040101010,4,401,40101,580.0,435.0,638.0


---
> P-069: レシート明細データ（df_receipt）と商品データ（df_product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分コード（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分コード"07"（瓶詰缶詰）の売上実績がある顧客のみとし、結果を10件表示せよ。

In [84]:
df_product.columns

Index(['﻿product_cd', 'category_major_cd', 'category_medium_cd',
       'category_small_cd', 'unit_price', 'unit_cost'],
      dtype='object')

In [85]:
df_product.rename(columns={'\ufeffproduct_cd': 'product_cd'}, inplace=True)
# df_product['product_cd']

In [86]:
(
    df_receipt
    .merge(df_product, on='product_cd', how='inner')
    .assign(amount_07 = lambda x: x['amount']*(x['category_major_cd']=="07"))
    .groupby('customer_id')
    .sum(numeric_only=True)
    .query('amount_07 > 0')
    .assign(amount_ratio_07 = lambda x: x['amount_07']/x['amount'])
    .head(10)
)

Unnamed: 0_level_0,sales_ymd,sales_epoch,receipt_no,receipt_sub_no,quantity,amount,unit_price,unit_cost,amount_07,amount_ratio_07
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
CS001113000004,40380616,3104006400,224,3,2,1298,1298.0,974.0,1298,1.0
CS001114000005,80742468,6179673600,448,6,4,626,626.0,468.0,486,0.776358
CS001115000010,121084668,9198489600,672,9,6,3044,3044.0,2284.0,2694,0.88502
CS001205000004,201827152,15379891200,11740,15,10,1988,1988.0,1502.0,346,0.174044
CS001205000006,242185018,18351878400,14084,18,12,3337,3337.0,2512.0,2004,0.600539
CS001212000027,40340254,2970950400,224,3,2,448,448.0,336.0,200,0.446429
CS001212000031,40361812,3072384000,224,3,2,296,296.0,222.0,296,1.0
CS001212000046,40341622,3004819200,224,3,2,228,228.0,171.0,108,0.473684
CS001212000070,40382036,3142713600,224,3,2,456,456.0,336.0,308,0.675439
CS001213000018,40341038,2990304000,224,3,2,243,243.0,179.0,145,0.596708


---
> P-070: レシート明細データ（df_receipt）の売上日（sales_ymd）に対し、顧客データ（df_customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [87]:
(
    df_receipt
    .sort_values(['customer_id', 'sales_epoch', 'receipt_sub_no'])
    .head(10)
)

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
31349,20190308,1552003200,S13001,112,1,CS001113000004,P071001012,1,98
35811,20190308,1552003200,S13001,112,2,CS001113000004,P071401009,1,1200
7131,20180503,1525305600,S13001,112,1,CS001114000005,P070101119,1,338
2818,20180503,1525305600,S13001,112,2,CS001114000005,P080803001,1,100
91976,20190731,1564531200,S13001,112,1,CS001114000005,P070301002,1,148
46293,20190731,1564531200,S13001,112,2,CS001114000005,P050101001,1,40
19722,20171228,1514419200,S13001,112,1,CS001115000010,P071401019,1,2200
101778,20171228,1514419200,S13001,112,2,CS001115000010,P071001073,1,120
96027,20180701,1530403200,S13001,112,1,CS001115000010,P070101003,1,48
8234,20180701,1530403200,S13001,112,2,CS001115000010,P070802002,1,98


In [88]:
(
    df_receipt
    # .query('not(customer_id.str.startswith("Z"))')
    # .merge(df_customer, on='customer_id', how='left')
    .merge(df_customer, on='customer_id', how='inner')
    .assign(application_date=lambda x: x['application_date'].astype(str).astype('datetime64[ns]'))
    .assign(sales_ymd=lambda x: x['sales_ymd'].astype(str).astype('datetime64[ns]'))
    .assign(member_period=lambda x: (x['sales_ymd']-x['application_date']).dt.days)
    [['customer_id', 'sales_ymd', 'application_date', 'member_period']]
    .drop_duplicates()
    .sort_values('customer_id')
    .head(10)
)

Unnamed: 0,customer_id,sales_ymd,application_date,member_period
19735,CS001113000004,2019-03-08,2015-11-05,1219
29128,CS001114000005,2019-07-31,2016-04-12,1205
1772,CS001114000005,2018-05-03,2016-04-12,751
5161,CS001115000010,2018-07-01,2015-04-17,1171
12330,CS001115000010,2017-12-28,2015-04-17,986
2919,CS001115000010,2019-04-05,2015-04-17,1449
14156,CS001205000004,2019-03-12,2016-06-15,1000
4113,CS001205000004,2018-09-04,2016-06-15,811
483,CS001205000004,2018-08-21,2016-06-15,797
6875,CS001205000004,2017-09-14,2016-06-15,456


---
> P-071: レシート明細データ（df_receipt）の売上日（sales_ymd）に対し、顧客データ（df_customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [89]:
(
    df_receipt
    .merge(df_customer[['customer_id', 'application_date']], on='customer_id', how='inner')
    .assign(application_date=lambda x: x['application_date'].astype(str).astype('datetime64[ns]'))
    .assign(sales_ymd=lambda x: x['sales_ymd'].astype(str).astype('datetime64[ns]'))
    .assign(member_period=lambda df: df.apply(
        lambda row: relativedelta(row['sales_ymd'], row['application_date']).years * 12
        + relativedelta(row['sales_ymd'], row['application_date']).months
        , axis=1))
    [['customer_id', 'sales_ymd', 'application_date', 'member_period']]
    .drop_duplicates()
    # .sort_values(['customer_id', 'sales_ymd'], ascending=False)
    .head(10)
)

Unnamed: 0,customer_id,sales_ymd,application_date,member_period
0,CS006214000001,2018-11-03,2015-02-01,45
1,CS008415000097,2018-11-18,2015-03-22,43
2,CS028414000014,2017-07-12,2015-07-11,24
3,CS025415000050,2018-08-21,2016-01-31,30
4,CS003515000195,2019-06-05,2015-03-06,50
5,CS024514000042,2018-12-05,2015-10-10,37
6,CS040415000178,2019-09-22,2015-06-27,50
7,CS027514000015,2019-10-10,2015-11-01,47
8,CS025415000134,2019-09-18,2015-07-20,49
9,CS021515000126,2017-10-10,2015-05-08,29


---
> P-072: レシート明細データ（df_receipt）の売上日（df_customer）に対し、顧客データ（df_customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [90]:
(
    df_receipt
    .merge(df_customer[['customer_id', 'application_date']], on='customer_id', how='inner')
    .assign(application_date=lambda x: x['application_date'].astype(str).astype('datetime64[ns]'))
    .assign(sales_ymd=lambda x: x['sales_ymd'].astype(str).astype('datetime64[ns]'))
    .assign(member_period=lambda df: df.apply(
        lambda row: relativedelta(row['sales_ymd'], row['application_date']).years, axis=1
        ))
    [['customer_id', 'sales_ymd', 'application_date', 'member_period']]
    .drop_duplicates()
    # .sort_values(['customer_id', 'sales_ymd'], ascending=False)
    .head(10)
)

Unnamed: 0,customer_id,sales_ymd,application_date,member_period
0,CS006214000001,2018-11-03,2015-02-01,3
1,CS008415000097,2018-11-18,2015-03-22,3
2,CS028414000014,2017-07-12,2015-07-11,2
3,CS025415000050,2018-08-21,2016-01-31,2
4,CS003515000195,2019-06-05,2015-03-06,4
5,CS024514000042,2018-12-05,2015-10-10,3
6,CS040415000178,2019-09-22,2015-06-27,4
7,CS027514000015,2019-10-10,2015-11-01,3
8,CS025415000134,2019-09-18,2015-07-20,4
9,CS021515000126,2017-10-10,2015-05-08,2


---
> P-073: レシート明細データ（df_receipt）の売上日（sales_ymd）に対し、顧客データ（df_customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [91]:
(
    df_receipt
    .merge(df_customer, on='customer_id', how='inner')
    .assign(application_date=lambda x: x['application_date'].astype(str).astype('datetime64[ns]'))
    .assign(sales_ymd=lambda x: x['sales_ymd'].astype(str).astype('datetime64[ns]'))
    .assign(member_period=lambda x: (x['sales_ymd']-x['application_date']).dt.total_seconds().astype(int))
    [['customer_id', 'sales_ymd', 'application_date', 'member_period']]
    .drop_duplicates()
    # .sort_values('customer_id')
    .head(10)
)

Unnamed: 0,customer_id,sales_ymd,application_date,member_period
0,CS006214000001,2018-11-03,2015-02-01,118454400
1,CS008415000097,2018-11-18,2015-03-22,115516800
2,CS028414000014,2017-07-12,2015-07-11,63244800
3,CS025415000050,2018-08-21,2016-01-31,80611200
4,CS003515000195,2019-06-05,2015-03-06,134092800
5,CS024514000042,2018-12-05,2015-10-10,99532800
6,CS040415000178,2019-09-22,2015-06-27,133747200
7,CS027514000015,2019-10-10,2015-11-01,124329600
8,CS025415000134,2019-09-18,2015-07-20,131414400
9,CS021515000126,2017-10-10,2015-05-08,76550400


---
> P-074: レシート明細データ（df_receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、直前の月曜日付とともに10件表示せよ（sales_ymdは数値でデータを保持している点に注意）。

In [92]:
(
    df_receipt
    .assign(sales_ymd=lambda x: x['sales_ymd'].astype(str).astype('datetime64[ns]'))
    .assign(sales_dayofweek=lambda x: x['sales_ymd'].dt.dayofweek)
    .assign(sales_monday=lambda x: x['sales_ymd'] - pd.to_timedelta(x['sales_dayofweek'], unit='D'))
    [['sales_ymd', 'sales_dayofweek', 'sales_monday']]
    .head(10)
)

Unnamed: 0,sales_ymd,sales_dayofweek,sales_monday
0,2018-11-03,5,2018-10-29
1,2018-11-18,6,2018-11-12
2,2017-07-12,2,2017-07-10
3,2019-02-05,1,2019-02-04
4,2018-08-21,1,2018-08-20
5,2019-06-05,2,2019-06-03
6,2018-12-05,2,2018-12-03
7,2019-09-22,6,2019-09-16
8,2017-05-04,3,2017-05-01
9,2019-10-10,3,2019-10-07


---
> P-075: 顧客データ（df_customer）からランダムに1%のデータを抽出し、先頭から10件表示せよ。

In [93]:
(
    df_customer
    .sample(frac=0.1, random_state=0)
    .head(10)
)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
13517,CS005513000263,大野 はるみ,1,女性,1959-02-13,60,165-0035,東京都中野区白鷺**********,S13005,20170420,0-00000000-0
13442,CS026513000233,本上 愛梨,1,女性,1965-02-28,54,253-0022,神奈川県茅ヶ崎市松浪**********,S14026,20150523,2-20090503-5
10188,CS009301000001,目黒 慶二,0,男性,1984-08-13,34,152-0035,東京都目黒区自由が丘**********,S13009,20150323,0-00000000-0
13413,CS034612000080,成海 里奈,1,女性,1954-08-12,64,213-0013,神奈川県川崎市高津区末長**********,S14034,20141208,0-00000000-0
21900,CS028314000040,堤 夏希,1,女性,1986-08-03,32,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151105,3-20080524-5
9066,CS034413000147,平尾 恵子,1,女性,1958-01-16,61,211-0013,神奈川県川崎市中原区上平間**********,S14034,20160121,4-20080414-5
4934,CS001312000261,波多野 恵梨香,1,女性,1987-04-07,31,210-0022,神奈川県川崎市川崎区池田**********,S13001,20160502,0-00000000-0
5129,CS030503000037,梅本 悟志,9,不明,1964-09-07,54,272-0823,千葉県市川市東菅野**********,S12030,20150529,0-00000000-0
641,CS038705000005,加藤 芳正,0,男性,1940-03-18,79,279-0004,千葉県浦安市猫実**********,S13038,20151130,0-00000000-0
16973,CS031414000049,大後 めぐみ,1,女性,1972-06-07,46,151-0071,東京都渋谷区本町**********,S13031,20150427,C-20100827-E


---
> P-076: 顧客データ（df_customer）から性別コード（gender_cd）の割合に基づきランダムに10%のデータを層化抽出し、性別コードごとに件数を集計せよ。

In [99]:
len(df_customer)*0.1

2197.1

In [103]:
(
    df_customer
    .groupby('gender_cd')
    # .describe()
    .apply(lambda x: len(x.sample(frac=0.1, random_state=0)))
    # .head()
)

  .apply(lambda x: len(x.sample(frac=0.1, random_state=0)))


Unnamed: 0_level_0,0
gender_cd,Unnamed: 1_level_1
0,298
1,1792
9,107


---
> P-077: レシート明細データ（df_receipt）の売上金額を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。なお、外れ値は売上金額合計を対数化したうえで平均と標準偏差を計算し、その平均から3σを超えて離れたものとする（自然対数と常用対数のどちらでも可）。結果は10件表示せよ。

In [116]:
(
    df_receipt
    # .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .sum(numeric_only=True)
    .assign(log_amount=lambda x: np.log10(x['amount']))
    .assign(is_outlier=lambda x: x['log_amount'] > (x['log_amount'].mean() + 3*x['log_amount'].std()))
    .query('is_outlier == True')
    .head(10)
)

Unnamed: 0_level_0,sales_ymd,sales_epoch,receipt_no,receipt_sub_no,quantity,amount,log_amount,is_outlier
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
ZZ000000000000,787052752466,59755720204800,40444034,58588,39418,12395003,7.093247,True


---
> P-078: レシート明細データ（df_receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第1四分位と第3四分位の差であるIQRを用いて、「第1四分位数-1.5×IQR」を下回るもの、または「第3四分位数+1.5×IQR」を超えるものとする。結果は10件表示せよ。

In [118]:
(
    df_receipt
    .query('not(customer_id.str.startswith("Z"))')
    .groupby('customer_id')
    .sum(numeric_only=True)
    ['amount']
    .reset_index()
    .assign(
        below_outlier=lambda x: x['amount'] < (x['amount'].quantile(0.25) - 1.5 * (x['amount'].quantile(0.75) - x['amount'].quantile(0.25))),
        above_outlier=lambda x: x['amount'] > (x['amount'].quantile(0.75) + 1.5 * (x['amount'].quantile(0.75) - x['amount'].quantile(0.25)))
        )
    .query('(below_outlier == True) or (above_outlier == True)')
    .head(10)
)

Unnamed: 0,customer_id,amount,below_outlier,above_outlier
98,CS001414000048,8584,False,True
332,CS001605000009,18925,False,True
549,CS002415000594,9568,False,True
1180,CS004414000181,9584,False,True
1558,CS005415000137,8734,False,True
1733,CS006414000001,9156,False,True
1736,CS006414000029,9179,False,True
1752,CS006415000105,10042,False,True
1755,CS006415000147,12723,False,True
1757,CS006415000157,10648,False,True


---
> P-079: 商品データ（df_product）の各項目に対し、欠損数を確認せよ。

In [120]:
(
    df_product
    # .info()
    .isnull()
    .sum()
)

Unnamed: 0,0
product_cd,0
category_major_cd,0
category_medium_cd,0
category_small_cd,0
unit_price,7
unit_cost,7


---
> P-080: 商品データ（df_product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

In [122]:
(
    df_product
    .dropna()
    .info()
)
df_product.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10023 entries, 0 to 10029
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   product_cd          10023 non-null  object 
 1   category_major_cd   10023 non-null  object 
 2   category_medium_cd  10023 non-null  object 
 3   category_small_cd   10023 non-null  object 
 4   unit_price          10023 non-null  float64
 5   unit_cost           10023 non-null  float64
dtypes: float64(2), object(4)
memory usage: 548.1+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10030 entries, 0 to 10029
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   product_cd          10030 non-null  object 
 1   category_major_cd   10030 non-null  object 
 2   category_medium_cd  10030 non-null  object 
 3   category_small_cd   10030 non-null  object 
 4   unit_price          10023 non-null  float64


---
> P-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たな商品データを作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [124]:
df_product.describe()

Unnamed: 0,unit_price,unit_cost
count,10023.0,10023.0
mean,402.575576,302.189464
std,517.73622,389.196815
min,10.0,7.0
25%,155.0,116.0
50%,252.0,189.0
75%,428.0,321.0
max,10925.0,8604.0


In [123]:
(
    df_product
    .fillna(df_product.mean(numeric_only=True).round())
    .describe()
)

Unnamed: 0,unit_price,unit_cost
count,10030.0,10030.0
mean,402.575872,302.189332
std,517.555505,389.060967
min,10.0,7.0
25%,155.0,116.0
50%,252.0,189.0
75%,428.0,321.0
max,10925.0,8604.0


---
> P-082: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [126]:
(
    df_product
    .fillna(df_product.median(numeric_only=True).round())
    .describe(include='all')
)

Unnamed: 0,product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
count,10030,10030.0,10030.0,10030.0,10030.0,10030.0
unique,10030,6.0,57.0,228.0,,
top,P040101001,7.0,707.0,91401.0,,
freq,1,4065.0,893.0,228.0,,
mean,,,,,402.470489,302.110469
std,,,,,517.570783,389.072451
min,,,,,10.0,7.0
25%,,,,,155.0,116.0
50%,,,,,252.0,189.0
75%,,,,,428.0,321.0


---
> P-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品のカテゴリ小区分コード（category_small_cd）ごとに算出した中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [130]:
(
    df_product
    .fillna(
        df_product
        .groupby('category_small_cd')
        [['unit_price', 'unit_cost']]
        .transform('median')
        .round()
    )
    .describe(include='all')
)

Unnamed: 0,product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
count,10030,10030.0,10030.0,10030.0,10030.0,10030.0
unique,10030,6.0,57.0,228.0,,
top,P040101001,7.0,707.0,91401.0,,
freq,1,4065.0,893.0,228.0,,
mean,,,,,402.502293,302.134596
std,,,,,517.582679,389.081267
min,,,,,10.0,7.0
25%,,,,,155.0,116.0
50%,,,,,252.0,189.0
75%,,,,,428.0,321.0


---
> P-084: 顧客データ（df_customer）の全顧客に対して全期間の売上金額に占める2019年売上金額の割合を計算し、新たなデータを作成せよ。ただし、売上実績がない場合は0として扱うこと。そして計算した割合が0超のものを抽出し、結果を10件表示せよ。また、作成したデータに欠損が存在しないことを確認せよ。

In [133]:
df_receipt.head()

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
0,20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
1,20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
2,20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
3,20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
4,20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90


In [146]:
(
    df_receipt
    .query('not(customer_id.str.startswith("Z"))')
    .assign(sales_y=lambda x: x['sales_ymd'].astype(str).astype('datetime64[ns]').dt.year)
    .assign(amt_2019=lambda x: x.query('sales_y == 2019')['amount'])
    .groupby('customer_id')
    [['amount', 'amt_2019']]
    .sum()
    .assign(amt_ratio=lambda x: x['amt_2019']/x['amount'])
    .merge(df_customer['customer_id'], on='customer_id', how='right')
    .fillna(0)
    .query('amt_ratio > 0')
    .head(10)
    # .describe(include='all')
    # .info()
)

Unnamed: 0,customer_id,amount,amt_2019,amt_ratio
2,CS031415000172,5088.0,2971.0,0.583923
6,CS015414000103,3122.0,874.0,0.279949
12,CS011215000048,3444.0,248.0,0.072009
15,CS029415000023,5167.0,3767.0,0.72905
21,CS035415000029,7504.0,5823.0,0.775986
23,CS023513000066,771.0,208.0,0.26978
24,CS035513000134,1565.0,463.0,0.295847
27,CS001515000263,216.0,216.0,1.0
30,CS006415000279,229.0,229.0,1.0
32,CS031415000106,7741.0,215.0,0.027774


---
> P-085: 顧客データ（df_customer）の全顧客に対し、郵便番号（postal_cd）を用いてジオコードデータ（df_geocode）を紐付け、新たな顧客データを作成せよ。ただし、1つの郵便番号（postal_cd）に複数の経度（longitude）、緯度（latitude）情報が紐づく場合は、経度（longitude）、緯度（latitude）の平均値を算出して使用すること。また、作成結果を確認するために結果を10件表示せよ。

In [147]:
df_customer.describe(include='all')

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
count,21971,21971,21971.0,21971,21971,21971.0,21971,21971,21971,21971.0,21971
unique,21971,18689,3.0,3,12759,,1239,1235,53,,7021
top,CS021313000114,紺野 花,1.0,女性,1976-09-06,,144-0056,東京都大田区西六郷**********,S13001,,0-00000000-0
freq,1,7,17918.0,17918,8,,298,298,1339,,13665
mean,,,,,,50.745255,,,,20155740.0,
std,,,,,,14.563619,,,,9283.068,
min,,,,,,11.0,,,,20131200.0,
25%,,,,,,41.0,,,,20150500.0,
50%,,,,,,49.0,,,,20150820.0,
75%,,,,,,60.0,,,,20160510.0,


---
> P-086: 085で作成した緯度経度つき顧客データに対し、会員申込店舗コード（application_store_cd）をキーに店舗データ（df_store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客住所（address）の緯度・経度を用いて申込み店舗と顧客住所の距離（単位：km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は以下の簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示せよ。

$$
\mbox{緯度（ラジアン）}：\phi \\
\mbox{経度（ラジアン）}：\lambda \\
\mbox{距離}L = 6371 * \arccos(\sin \phi_1 * \sin \phi_2
+ \cos \phi_1 * \cos \phi_2 * \cos(\lambda_1 − \lambda_2))
$$

---
> P-087: 顧客データ（df_customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなして1顧客1レコードとなるように名寄せした名寄顧客データを作成し、顧客データの件数、名寄顧客データの件数、重複数を算出せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残し、売上金額合計が同一もしくは売上実績がない顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

---
> P-088: 087で作成したデータを元に、顧客データに統合名寄IDを付与したデータを作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
> - 重複していない顧客：顧客ID（customer_id）を設定
> - 重複している顧客：前設問で抽出したレコードの顧客IDを設定
>
> 顧客IDのユニーク件数と、統合名寄IDのユニーク件数の差も確認すること。

---
> P-089: 売上実績がある顧客を、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

---
> P-090: レシート明細データ（df_receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月の時系列モデル構築用データを3セット作成せよ。

---
> P-091: 顧客データ（df_customer）の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

---
> P-092: 顧客データ（df_customer）の性別について、第三正規形へと正規化せよ。

---
> P-093: 商品データ（df_product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータ（df_category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データを作成せよ。

---
> P-094: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|
>
> ファイル出力先のパスは以下のようにすること
>
> |出力先|
> |:--:|
> |./data|

---
> P-095: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|CP932|
>
> ファイル出力先のパスは以下のようにすること。
>
> |出力先|
> |:--:|
> |./data|

---
> P-096: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|無し|UTF-8|
>
> ファイル出力先のパスは以下のようにすること。
>
> |出力先|
> |:--:|
> |./data|

---
> P-097: 094で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|

---
> P-098: 096で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|ヘッダ無し|UTF-8|

---
> P-099: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|
>
> ファイル出力先のパスは以下のようにすること
>
> |出力先|
> |:--:|
> |./data|

---
> P-100: 099で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|

# これで１００本終わりです。おつかれさまでした！