# データサイエンス100本ノック（構造化データ加工編） - Python

## はじめに
- 初めに以下のセルを実行してください
- 必要なライブラリのインポートとデータベース（PostgreSQL）からのデータ読み込みを行います
- pandas等、利用が想定されるライブラリは以下セルでインポートしています
- その他利用したいライブラリがあれば適宜インストールしてください（"!pip install ライブラリ名"でインストールも可能）
- 処理は複数回に分けても構いません
- 名前、住所等はダミーデータであり、実在するものではありません

In [1]:
%load_ext sql
import os
import pandas as pd
import numpy as np
from datetime import datetime, date
from dateutil.relativedelta import relativedelta
import math
import psycopg2
from sqlalchemy import create_engine
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from imblearn.under_sampling import RandomUnderSampler

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)

# pd.read_sql用のコネクタ
conn = psycopg2.connect(**pgconfig)
# pd.to_sql用のcreate engine
engine = create_engine(dsl)
# MagicコマンドでSQLを書くための設定
%sql $dsl

df_customer = pd.read_sql(sql='select * from customer', con=conn)
df_category = pd.read_sql(sql='select * from category', con=conn)
df_product = pd.read_sql(sql='select * from product', con=conn)
df_receipt = pd.read_sql(sql='select * from receipt', con=conn)
df_store = pd.read_sql(sql='select * from store', con=conn)
df_geocode = pd.read_sql(sql='select * from geocode', con=conn)

# 演習問題

---
> P-001: レシート明細のデータフレーム（df_receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [2]:
df_receipt.head(10)

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
0,20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158
1,20181118,1258502400,S13008,1132,2,CS008415000097,P070701017,1,81
2,20170712,1215820800,S14028,1102,1,CS028414000014,P060101005,1,170
3,20190205,1265328000,S14042,1132,1,ZZ000000000000,P050301001,1,25
4,20180821,1250812800,S14025,1102,2,CS025415000050,P060102007,1,90
5,20190605,1275696000,S13003,1112,1,CS003515000195,P050102002,1,138
6,20181205,1259971200,S14024,1102,2,CS024514000042,P080101005,1,30
7,20190922,1285113600,S14040,1102,1,CS040415000178,P070501004,1,128
8,20170504,1209859200,S13020,1112,2,ZZ000000000000,P071302010,1,770
9,20191010,1286668800,S14027,1102,1,CS027514000015,P071101003,1,680


---
> P-002: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。

In [3]:
df_receipt[["sales_ymd", "customer_id", "product_cd", "amount"]].head(10)

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> P-003: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。ただし、sales_ymdはsales_dateに項目名を変更しながら抽出すること。

In [4]:
df_receipt[["sales_ymd", "customer_id", "product_cd", "amount"]].rename(columns={"sales_ymd":"sales_date"}).head(10)

Unnamed: 0,sales_date,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> P-004: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [5]:
df_receipt[["sales_ymd", "customer_id", "product_cd", "amount"]].query('customer_id == "CS018205000001"')

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
9843,20180414,CS018205000001,P060104007,600
21110,20170614,CS018205000001,P050206001,990
27673,20170614,CS018205000001,P060702015,108
27840,20190216,CS018205000001,P071005024,102
28757,20180414,CS018205000001,P071101002,278
39256,20190226,CS018205000001,P070902035,168
58121,20190924,CS018205000001,P060805001,495
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


---
> P-005: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [6]:
df_receipt[["sales_ymd", "customer_id", "product_cd", "amount"]].query('customer_id == "CS018205000001" & amount >= 1000')

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


---
> P-006: レシート明細データフレーム「df_receipt」から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [7]:
df_receipt[["sales_ymd", "customer_id", "product_cd", "quantity", "amount"]]\
    .query('customer_id == "CS018205000001" & (amount >= 1000 | quantity >= 5)')

Unnamed: 0,sales_ymd,customer_id,product_cd,quantity,amount
36,20180911,CS018205000001,P071401012,1,2200
9843,20180414,CS018205000001,P060104007,6,600
21110,20170614,CS018205000001,P050206001,5,990
68117,20190226,CS018205000001,P071401020,1,2200
72254,20180911,CS018205000001,P071401005,1,1100


---
> P-007: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [8]:
df_receipt[["sales_ymd", "customer_id", "product_cd", "quantity", "amount"]]\
    .query('customer_id == "CS018205000001" & (1000 <= amount <= 2000)')

Unnamed: 0,sales_ymd,customer_id,product_cd,quantity,amount
72254,20180911,CS018205000001,P071401005,1,1100


---
> P-008: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [9]:
df_receipt[["sales_ymd", "customer_id", "product_cd", "amount"]]\
    .query('customer_id == "CS018205000001" & product_cd != "P071401019"')

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
9843,20180414,CS018205000001,P060104007,600
21110,20170614,CS018205000001,P050206001,990
27673,20170614,CS018205000001,P060702015,108
27840,20190216,CS018205000001,P071005024,102
28757,20180414,CS018205000001,P071101002,278
39256,20190226,CS018205000001,P070902035,168
58121,20190924,CS018205000001,P060805001,495
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


---
> P-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。

`df_store.query('not(prefecture_cd == "13" | floor_area > 900)')`

In [10]:
df_store.query('prefecture_cd != "13" & floor_area <= 900')

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
38,S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> P-010: 店舗データフレーム（df_store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件だけ表示せよ。

In [11]:
df_store[df_store["store_cd"].str.startswith("S14")].head(10)

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
4,S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
7,S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
9,S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
12,S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
16,S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
19,S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> P-011: 顧客データフレーム（df_customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件だけ表示せよ。

In [12]:
df_customer[df_customer["customer_id"].str.endswith("1")].head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
1,CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
3,CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
14,CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
31,CS028314000011,小菅 あおい,1,女性,1983-11-26,35,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151123,1-20080426-5
56,CS039212000051,藤島 恵梨香,1,女性,1997-02-03,22,166-0001,東京都杉並区阿佐谷北**********,S13039,20171121,1-20100215-4
59,CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
63,CS004702000041,野島 洋,0,男性,1943-08-24,75,176-0022,東京都練馬区向山**********,S13004,20170218,0-00000000-0
74,CS041515000001,栗田 千夏,1,女性,1967-01-02,52,206-0001,東京都多摩市和田**********,S13041,20160422,E-20100803-F
85,CS029313000221,北条 ひかり,1,女性,1987-06-19,31,279-0011,千葉県浦安市美浜**********,S12029,20180810,0-00000000-0
102,CS034312000071,望月 奈央,1,女性,1980-09-20,38,213-0026,神奈川県川崎市高津区久末**********,S14034,20160106,0-00000000-0


---
> P-012: 店舗データフレーム（df_store）から横浜市の店舗だけ全項目表示せよ。

In [13]:
df_store[df_store["address"].str.contains("横浜市")]

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
7,S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
9,S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
12,S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
16,S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
26,S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
40,S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> P-013: 顧客データフレーム（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件だけ表示せよ。

In [14]:
df_customer[df_customer["status_cd"].str.contains("^[A-F]", regex=True)].head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
2,CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
6,CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
15,CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
21,CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
32,CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
33,CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
40,CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
44,CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
53,CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F


---
> P-014: 顧客データフレーム（df_customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [15]:
df_customer[df_customer["status_cd"].str.contains("[1-9]$", regex=True)].head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
4,CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
9,CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
14,CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
16,CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
22,CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
23,CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
24,CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
27,CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
28,CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


---
> P-015: 顧客データフレーム（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [16]:
df_customer[df_customer["status_cd"].str.contains("^[A-F].*[1-9]$", regex=True)].head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
68,CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
71,CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
122,CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
144,CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
178,CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
252,CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
259,CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
293,CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
297,CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


---
> P-016: 店舗データフレーム（df_store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [17]:
df_store[df_store["tel_no"].str.contains("[0-9]{3}-[0-9]{3}-[0-9]{4}", regex=True)]

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
0,S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
1,S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
4,S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
7,S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
9,S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
11,S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
12,S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
16,S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> P-17: 顧客データフレーム（df_customer）を生年月日（birth_day）で高齢順にソートし、先頭10件を全項目表示せよ。

In [18]:
df_customer.sort_values("birth_day", ascending=True).head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
18817,CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
12328,CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
15682,CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
15302,CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
1681,CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
7511,CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
2378,CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
4680,CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
16070,CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0
6305,CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0


---
> P-18: 顧客データフレーム（df_customer）を生年月日（birth_day）で若い順にソートし、先頭10件を全項目表示せよ。

In [19]:
df_customer.sort_values("birth_day", ascending=False).head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
15639,CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
7468,CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
10745,CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
19811,CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
7039,CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
3670,CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
12493,CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
15977,CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
5716,CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
15097,CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


---
> P-19: レシート明細データフレーム（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [20]:
df_tmp = df_receipt[["customer_id", "amount"]].copy()
df_tmp["rank"] = df_tmp["amount"].rank(method="min")
df_tmp.sort_values("rank")

Unnamed: 0,customer_id,amount,rank
52852,CS037414000047,10,1.0
70644,ZZ000000000000,10,1.0
54105,ZZ000000000000,10,1.0
25546,CS020415000192,10,1.0
30885,ZZ000000000000,10,1.0
...,...,...,...
72747,ZZ000000000000,5480,104676.0
10320,ZZ000000000000,5480,104676.0
54095,CS028605000002,5780,104679.0
62317,ZZ000000000000,6800,104680.0


---
> P-020: レシート明細データフレーム（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [21]:
df_tmp = df_receipt[["customer_id", "amount"]].copy()
df_tmp["rank"] = df_tmp["amount"].rank(method="first", ascending=False)
df_tmp.sort_values("rank")

Unnamed: 0,customer_id,amount,rank
1202,CS011415000006,10925,1.0
62317,ZZ000000000000,6800,2.0
54095,CS028605000002,5780,3.0
4632,CS015515000034,5480,4.0
10320,ZZ000000000000,5480,5.0
...,...,...,...
100628,CS011115000005,10,104677.0
101952,CS022514000024,10,104678.0
102222,ZZ000000000000,10,104679.0
102690,ZZ000000000000,10,104680.0


---
> P-021: レシート明細データフレーム（df_receipt）に対し、件数をカウントせよ。

In [22]:
df_receipt.shape[0]

104681

---
> P-022: レシート明細データフレーム（df_receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [23]:
len(df_receipt["customer_id"].unique())

8307

---
> P-023: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [24]:
df_receipt.groupby("store_cd").sum()[["amount","quantity"]]

Unnamed: 0_level_0,amount,quantity
store_cd,Unnamed: 1_level_1,Unnamed: 2_level_1
S12007,638761,2099
S12013,787513,2425
S12014,725167,2358
S12029,794741,2555
S12030,684402,2403
S13001,811936,2347
S13002,727821,2340
S13003,764294,2197
S13004,779373,2390
S13005,629876,2004


---
> P-024: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）を求め、10件表示せよ。

In [27]:
df_receipt.groupby("customer_id").max()[["sales_ymd"]].head(10)

Unnamed: 0_level_0,sales_ymd
customer_id,Unnamed: 1_level_1
CS001113000004,20190308
CS001114000005,20190731
CS001115000010,20190405
CS001205000004,20190625
CS001205000006,20190224
CS001211000025,20190322
CS001212000027,20170127
CS001212000031,20180906
CS001212000046,20170811
CS001212000070,20191018


---
> P-025: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も古い売上日（sales_ymd）を求め、10件表示せよ。

In [28]:
df_receipt.groupby("customer_id").min()[["sales_ymd"]].head(10)

Unnamed: 0_level_0,sales_ymd
customer_id,Unnamed: 1_level_1
CS001113000004,20190308
CS001114000005,20180503
CS001115000010,20171228
CS001205000004,20170914
CS001205000006,20180207
CS001211000025,20190322
CS001212000027,20170127
CS001212000031,20180906
CS001212000046,20170811
CS001212000070,20191018


---
> P-026: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）と古い売上日を求め、両者が異なるデータを10件表示せよ。

In [32]:
df_tmp = df_receipt.groupby('customer_id').agg({'sales_ymd':['max','min']})
df_tmp[df_tmp["sales_ymd"]["max"] != df_tmp["sales_ymd"]["min"]].head(10)

Unnamed: 0_level_0,sales_ymd,sales_ymd
Unnamed: 0_level_1,max,min
customer_id,Unnamed: 1_level_2,Unnamed: 2_level_2
CS001114000005,20190731,20180503
CS001115000010,20190405,20171228
CS001205000004,20190625,20170914
CS001205000006,20190224,20180207
CS001214000009,20190902,20170306
CS001214000017,20191006,20180828
CS001214000048,20190929,20171109
CS001214000052,20190617,20180208
CS001215000005,20181021,20170206
CS001215000040,20171022,20170214


---
> P-027: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [35]:
df_receipt.groupby("store_cd").mean().sort_values("amount", ascending=False)[["amount"]].head(5)

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,402.86747
S13015,351.11196
S13003,350.915519
S14010,348.791262
S13001,348.470386


---
> P-028: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [36]:
df_receipt.groupby("store_cd").median().sort_values("amount", ascending=False)[["amount"]].head(5)

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,190.0
S14010,188.0
S14050,185.0
S14040,180.0
S13003,180.0


---
> P-029: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求めよ。

In [40]:
df_receipt.groupby("store_cd")["product_cd"].apply(lambda x: x.mode())

store_cd   
S12007    0    P060303001
S12013    0    P060303001
S12014    0    P060303001
S12029    0    P060303001
S12030    0    P060303001
S13001    0    P060303001
S13002    0    P060303001
S13003    0    P071401001
S13004    0    P060303001
S13005    0    P040503001
S13008    0    P060303001
S13009    0    P060303001
S13015    0    P071401001
S13016    0    P071102001
S13017    0    P060101002
S13018    0    P071401001
S13019    0    P071401001
S13020    0    P071401001
S13031    0    P060303001
S13032    0    P060303001
S13035    0    P040503001
S13037    0    P060303001
S13038    0    P060303001
S13039    0    P071401001
S13041    0    P071401001
S13043    0    P060303001
S13044    0    P060303001
S13051    0    P050102001
          1    P071003001
          2    P080804001
S13052    0    P050101001
S14006    0    P060303001
S14010    0    P060303001
S14011    0    P060101001
S14012    0    P060303001
S14021    0    P060101001
S14022    0    P060303001
S14023    0    P071401001


---
> P-030: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本分散を計算し、降順でTOP5を表示せよ。

In [41]:
df_receipt.groupby("store_cd").var().sort_values("amount", ascending=False)[["amount"]].head(5)

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,441863.252526
S14011,306442.242432
S14034,297068.39274
S13001,295558.842618
S13015,295427.197086


---
> P-031: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本標準偏差を計算し、降順でTOP5を表示せよ。

In [42]:
df_receipt.groupby("store_cd").std().sort_values("amount", ascending=False)[["amount"]].head(5)

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,664.727954
S14011,553.572256
S14034,545.039808
S13001,543.653237
S13015,543.532149


---
> P-032: レシート明細データフレーム（df_receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [43]:
np.percentile(df_receipt['amount'], q=[25, 50, 75,100])

array([  102.,   170.,   288., 10925.])

---
> P-033: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [48]:
df_receipt.groupby("store_cd").mean().query('amount >= 330')

Unnamed: 0_level_0,sales_ymd,sales_epoch,receipt_no,receipt_sub_no,quantity,amount
store_cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
S12013,20179850.0,1243044000.0,1069.097694,1.493501,1.016771,330.19413
S13001,20180160.0,1244054000.0,1060.802575,1.499142,1.007296,348.470386
S13003,20179670.0,1242606000.0,1051.205693,1.504132,1.008724,350.915519
S13004,20179810.0,1243010000.0,1044.009342,1.505308,1.014862,330.943949
S13015,20180080.0,1243773000.0,1054.598921,1.495953,1.010791,351.11196
S13019,20179960.0,1243748000.0,1031.952134,1.504986,1.013562,330.208616
S13020,20179870.0,1243412000.0,1032.391599,1.500636,1.011031,337.879932
S13052,20190860.0,1283118000.0,1052.441767,1.477912,1.004016,402.86747
S14010,20180190.0,1243788000.0,1044.757723,1.499559,1.010591,348.791262
S14011,20179850.0,1243268000.0,1080.03875,1.497917,1.014167,335.718333


---
> P-034: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。


In [55]:
df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby("customer_id").sum().mean()

sales_ymd         1.595806e+08
sales_epoch       9.840095e+09
receipt_no        8.408617e+03
receipt_sub_no    1.186167e+01
quantity          7.999518e+00
amount            2.547742e+03
dtype: float64

---
> P-035: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、データは10件だけ表示させれば良い。

In [59]:
m = df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby("customer_id").sum().mean()["amount"]
df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby("customer_id").sum().query("amount >= @m").head(10)

Unnamed: 0_level_0,sales_ymd,sales_epoch,receipt_no,receipt_sub_no,quantity,amount
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CS001115000010,121084668,7494508800,672,9,6,3044
CS001205000006,242185018,14943916800,14084,18,12,3337
CS001214000009,282508294,17351712000,1568,21,15,4685
CS001214000017,242228132,15147129600,1344,18,12,4132
CS001214000052,242244422,15117580800,1344,18,12,5639
CS001215000040,201704736,12097036800,1120,15,10,3496
CS001304000006,80681688,4835289600,4708,6,4,3726
CS001305000005,322867318,19795968000,18252,24,16,3485
CS001305000011,161484546,10078905600,9296,12,8,4370
CS001315000180,40342036,2448576000,2224,3,2,3300


---
> P-036: レシート明細データフレーム（df_receipt）と店舗データフレーム（df_store）を内部結合し、レシート明細データフレームの全項目と店舗データフレームの店舗名（store_name）を10件表示させよ。

In [65]:
df_receipt.merge(df_store[["store_cd","store_name"]], on="store_cd").head(10)

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
0,20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
1,20181116,1258329600,S14006,112,2,ZZ000000000000,P080401001,1,48,葛が谷店
2,20170118,1200614400,S14006,1162,1,CS006815000006,P050406035,1,220,葛が谷店
3,20190524,1274659200,S14006,1192,1,CS006514000034,P060104003,1,80,葛が谷店
4,20190419,1271635200,S14006,112,2,ZZ000000000000,P060501002,1,148,葛が谷店
5,20181119,1258588800,S14006,1152,2,ZZ000000000000,P050701001,1,88,葛が谷店
6,20171211,1228953600,S14006,1132,2,CS006515000175,P090903001,1,80,葛が谷店
7,20191021,1287619200,S14006,1112,2,CS006415000221,P040602001,1,405,葛が谷店
8,20170710,1215648000,S14006,1132,2,CS006411000036,P090301051,1,330,葛が谷店
9,20190805,1280966400,S14006,112,1,CS006211000012,P050104001,1,115,葛が谷店


---
> P-037: 商品データフレーム（df_product）とカテゴリデータフレーム（df_category）を内部結合し、商品データフレームの全項目とカテゴリデータフレームの小区分名（category_small_name）を10件表示させよ。

In [69]:
df_product.merge(df_category[["category_small_cd", "category_small_name"]], on="category_small_cd")

Unnamed: 0,product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_name
0,P040101001,04,0401,040101,198.0,149.0,弁当類
1,P040101002,04,0401,040101,218.0,164.0,弁当類
2,P040101003,04,0401,040101,230.0,173.0,弁当類
3,P040101004,04,0401,040101,248.0,186.0,弁当類
4,P040101005,04,0401,040101,268.0,201.0,弁当類
...,...,...,...,...,...,...,...
10025,P091503001,09,0915,091503,280.0,210.0,園芸用品
10026,P091503002,09,0915,091503,680.0,510.0,園芸用品
10027,P091503003,09,0915,091503,1080.0,810.0,園芸用品
10028,P091503004,09,0915,091503,1130.0,848.0,園芸用品


---
> P-038: 顧客データフレーム（df_customer）とレシート明細データフレーム（df_receipt）から、各顧客ごとの売上金額合計を求めよ。ただし、買い物の実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが'Z'から始まるもの）は除外すること。なお、結果は10件だけ表示させれば良い。

In [88]:
df_tmp = df_customer[(df_customer["gender_cd"]=="1") & (~df_customer["customer_id"].str.startswith("Z"))]
df_receipt.merge(df_tmp, on="customer_id", how="right").groupby("customer_id").sum()["amount"].head(10)

customer_id
CS001112000009       0.0
CS001112000019       0.0
CS001112000021       0.0
CS001112000023       0.0
CS001112000024       0.0
CS001112000029       0.0
CS001112000030       0.0
CS001113000004    1298.0
CS001113000010       0.0
CS001114000005     626.0
Name: amount, dtype: float64

---
> P-039: レシート明細データフレーム（df_receipt）から売上日数の多い顧客の上位20件と、売上金額合計の多い顧客の上位20件を抽出し、完全外部結合せよ。ただし、非会員（顧客IDが'Z'から始まるもの）は除外すること。

In [95]:
df_sum = df_receipt.groupby('customer_id').amount.sum().reset_index()
df_sum = df_sum.query('not customer_id.str.startswith("Z")', engine='python')
df_sum = df_sum.sort_values('amount', ascending=False).head(20)

df_cnt = df_receipt[~df_receipt.duplicated(subset=['customer_id', 'sales_ymd'])]
df_cnt = df_cnt.query('not customer_id.str.startswith("Z")', engine='python')
df_cnt = df_cnt.groupby('customer_id').sales_ymd.count().reset_index()
df_cnt = df_cnt.sort_values('sales_ymd', ascending=False).head(20)

pd.merge(df_sum, df_cnt, how='outer', on='customer_id')

Unnamed: 0,customer_id,amount,sales_ymd
0,CS017415000097,23086.0,20.0
1,CS015415000185,20153.0,22.0
2,CS031414000051,19202.0,19.0
3,CS028415000007,19127.0,21.0
4,CS001605000009,18925.0,
5,CS010214000010,18585.0,22.0
6,CS016415000141,18372.0,20.0
7,CS006515000023,18372.0,
8,CS011414000106,18338.0,
9,CS038415000104,17847.0,


---
> P-040: 全ての店舗と全ての商品を組み合わせると何件のデータとなるか調査したい。店舗（df_store）と商品（df_product）を直積した件数を計算せよ。

In [96]:
df_store_tmp = df_store.copy()
df_product_tmp = df_product.copy()

df_store_tmp['key'] = 0
df_product_tmp['key'] = 0
len(pd.merge(df_store_tmp, df_product_tmp, how='outer', on='key'))

531590

---
> P-041: レシート明細データフレーム（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前日からの売上金額増減を計算せよ。なお、計算結果は10件表示すればよい。

In [4]:
df_tmp = df_receipt.groupby("sales_ymd").sum()[["amount"]]
df_tmp["lag"] = df_tmp["amount"] - df_tmp["amount"].shift()
df_tmp.head(10)

Unnamed: 0_level_0,amount,lag
sales_ymd,Unnamed: 1_level_1,Unnamed: 2_level_1
20170101,33723,
20170102,24165,-9558.0
20170103,27503,3338.0
20170104,36165,8662.0
20170105,37830,1665.0
20170106,32387,-5443.0
20170107,23415,-8972.0
20170108,24737,1322.0
20170109,26718,1981.0
20170110,20143,-6575.0


---
> P-042: レシート明細データフレーム（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、１日前、２日前、３日前のデータを結合せよ。結果は10件表示すればよい。

In [5]:
df_tmp = df_receipt.groupby("sales_ymd").sum()[["amount"]]
df_tmp["last_day"] = df_tmp["amount"].shift()
df_tmp["two_days_ago"] = df_tmp["amount"].shift(2)
df_tmp["three_days_ago"] = df_tmp["amount"].shift(3)
df_tmp.head(10)

Unnamed: 0_level_0,amount,last_day,two_days_ago,three_days_ago
sales_ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
20170101,33723,,,
20170102,24165,33723.0,,
20170103,27503,24165.0,33723.0,
20170104,36165,27503.0,24165.0,33723.0
20170105,37830,36165.0,27503.0,24165.0
20170106,32387,37830.0,36165.0,27503.0
20170107,23415,32387.0,37830.0,36165.0
20170108,24737,23415.0,32387.0,37830.0
20170109,26718,24737.0,23415.0,32387.0
20170110,20143,26718.0,24737.0,23415.0


---
> P-043： レシート明細データフレーム（df_receipt）と顧客データフレーム（df_customer）を結合し、性別（gender）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータフレーム（df_sales_summary）を作成せよ。性別は0が男性、1が女性、9が不明を表すものとする。
>
> ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [15]:
df_tmp = df_receipt.merge(df_customer, on="customer_id")
df_tmp["generation"] = np.floor(df_tmp["age"] / 10).astype(int) * 10
df_sales_summary = pd.pivot_table(df_tmp, values="amount", index="generation", columns="gender", aggfunc=np.sum)
df_sales_summary

gender,不明,女性,男性
generation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10,4317.0,149836.0,1591.0
20,44328.0,1363724.0,72940.0
30,50441.0,693047.0,177322.0
40,483512.0,9320791.0,19355.0
50,342923.0,6685192.0,54320.0
60,71418.0,987741.0,272469.0
70,2427.0,29764.0,13435.0
80,5111.0,262923.0,46360.0
90,,6260.0,


---
> P-044： 前設問で作成した売上サマリデータフレーム（df_sales_summary）は性別の売上を横持ちさせたものであった。このデータフレームから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を'00'、女性を'01'、不明を'99'とする。

In [45]:
df_tmp = df_sales_summary.copy()
df_tmp.rename(columns={'男性':'00','女性':'01','不明':'99'}, inplace=True)
df_tmp.stack()

generation  gender
10          99           4317.0
            01         149836.0
            00           1591.0
20          99          44328.0
            01        1363724.0
            00          72940.0
30          99          50441.0
            01         693047.0
            00         177322.0
40          99         483512.0
            01        9320791.0
            00          19355.0
50          99         342923.0
            01        6685192.0
            00          54320.0
60          99          71418.0
            01         987741.0
            00         272469.0
70          99           2427.0
            01          29764.0
            00          13435.0
80          99           5111.0
            01         262923.0
            00          46360.0
90          01           6260.0
dtype: float64

---
> P-045: 顧客データフレーム（df_customer）の生年月日（birth_day）は日付型（Date）でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [14]:
df_tmp = df_customer.copy()
df_tmp["birth_day"] = pd.to_datetime(df_customer["birth_day"], format="%Y-%m-%d").dt.strftime("%Y%m%d")
df_tmp[["customer_id", "birth_day"]].head(10)

Unnamed: 0,customer_id,birth_day
0,CS021313000114,19810429
1,CS037613000071,19520401
2,CS031415000172,19761004
3,CS028811000001,19330327
4,CS001215000145,19950329
...,...,...
21966,CS002512000474,19591012
21967,CS029414000065,19701019
21968,CS012403000043,19721216
21969,CS033512000184,19640605


---
> P-046: 顧客データフレーム（df_customer）の申し込み日（application_date）はYYYYMMD形式の文字列型でデータを保有している。これを日付型（dateやdatetime）に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [18]:
pd.concat((df_customer["customer_id"], pd.to_datetime(df_customer["application_date"], format="%Y%m%d")), axis=1).head(10)

Unnamed: 0,customer_id,application_date
0,CS021313000114,2015-09-05
1,CS037613000071,2015-04-14
2,CS031415000172,2015-05-29
3,CS028811000001,2016-01-15
4,CS001215000145,2017-06-05
...,...,...
21966,CS002512000474,2017-11-10
21967,CS029414000065,2015-03-13
21968,CS012403000043,2015-04-06
21969,CS033512000184,2016-02-06


---
> P-047: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型（dateやdatetime）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [23]:
df_tmp = df_receipt[["receipt_no", "receipt_sub_no"]].copy()
df_tmp.join(pd.to_datetime(df_receipt["sales_ymd"], format="%Y%m%d")).head(10)

Unnamed: 0,receipt_no,receipt_sub_no,sales_ymd
0,112,1,2018-11-03
1,1132,2,2018-11-18
2,1102,1,2017-07-12
3,1132,1,2019-02-05
4,1102,2,2018-08-21
5,1112,1,2019-06-05
6,1102,2,2018-12-05
7,1102,1,2019-09-22
8,1112,2,2017-05-04
9,1102,1,2019-10-10


---
> P-048: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型（dateやdatetime）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [24]:
df_tmp = df_receipt[["receipt_no", "receipt_sub_no"]].copy()
df_tmp.join(pd.to_datetime(df_receipt["sales_epoch"], unit="s")).head(10)

Unnamed: 0,receipt_no,receipt_sub_no,sales_epoch
0,112,1,2009-11-03
1,1132,2,2009-11-18
2,1102,1,2008-07-12
3,1132,1,2010-02-05
4,1102,2,2009-08-21
5,1112,1,2010-06-05
6,1102,2,2009-12-05
7,1102,1,2010-09-22
8,1112,2,2008-05-04
9,1102,1,2010-10-10


---
> P-049: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"年"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [25]:
df_tmp = df_receipt[["receipt_no", "receipt_sub_no"]].copy()
df_tmp.join(pd.to_datetime(df_receipt["sales_epoch"], unit="s").dt.year).head(10)

Unnamed: 0,receipt_no,receipt_sub_no,sales_epoch
0,112,1,2009
1,1132,2,2009
2,1102,1,2008
3,1132,1,2010
4,1102,2,2009
5,1112,1,2010
6,1102,2,2009
7,1102,1,2010
8,1112,2,2008
9,1102,1,2010


---
> P-050: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"月"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"月"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [27]:
df_tmp = df_receipt[["receipt_no", "receipt_sub_no"]].copy()
df_tmp.join(pd.to_datetime(df_receipt["sales_epoch"], unit="s").dt.strftime("%m")).head(10)

Unnamed: 0,receipt_no,receipt_sub_no,sales_epoch
0,112,1,11
1,1132,2,11
2,1102,1,7
3,1132,1,2
4,1102,2,8
5,1112,1,6
6,1102,2,12
7,1102,1,9
8,1112,2,5
9,1102,1,10


---
> P-051: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"日"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"日"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [28]:
df_tmp = df_receipt[["receipt_no", "receipt_sub_no"]].copy()
df_tmp.join(pd.to_datetime(df_receipt["sales_epoch"], unit="s").dt.strftime("%d")).head(10)

Unnamed: 0,receipt_no,receipt_sub_no,sales_epoch
0,112,1,3
1,1132,2,18
2,1102,1,12
3,1132,1,5
4,1102,2,21
5,1112,1,5
6,1102,2,5
7,1102,1,22
8,1112,2,4
9,1102,1,10


---
> P-052: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2000円以下を0、2000円超を1に2値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [35]:
df_tmp = df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby("customer_id").sum()
df_tmp["is_over_2000"] = df_tmp[["amount"]].where(df_tmp["amount"]>2000,0).mask(df_tmp["amount"]>2000,1)
df_tmp[["amount","is_over_2000"]].head(10)

Unnamed: 0_level_0,amount,is_over_2000
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,0
CS001114000005,626,0
CS001115000010,3044,1
CS001205000004,1988,0
CS001205000006,3337,1
CS001211000025,456,0
CS001212000027,448,0
CS001212000031,296,0
CS001212000046,228,0
CS001212000070,456,0


---
> P-053: 顧客データフレーム（df_customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に２値化せよ。さらにレシート明細データフレーム（df_receipt）と結合し、全期間において買い物実績のある顧客数を、作成した2値ごとにカウントせよ。

In [50]:
df_tmp = df_customer.copy()
df_tmp["isin_tokyo"] = df_customer["postal_cd"].apply(lambda x: 1 if int(x[:3])>=100 and int(x[:3])<=209 else 0)
df_tmp = df_tmp.merge(df_receipt.groupby("customer_id").sum().reset_index(), on="customer_id", how="left")
df_tmp["is_purchase"] = df_tmp["amount"].notna()
df_tmp.groupby("isin_tokyo").sum()[["is_purchase"]].astype(int)

Unnamed: 0_level_0,is_purchase
isin_tokyo,Unnamed: 1_level_1
0,3906
1,4400


---
> P-054: 顧客データデータフレーム（df_customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに抽出せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。結果は10件表示させれば良い。

In [63]:
address_dic = {
    "埼玉県":"11",
    "千葉県":"12",
    "東京都":"13",
    "神奈川県":"14"
}
df_tmp = df_customer[["customer_id","address"]].copy()
df_tmp["prefecture"] = df_tmp["address"].str.extract("(.+[都道府県])", expand=False).map(address_dic)
df_tmp.head(10)

Unnamed: 0,customer_id,address,prefecture
0,CS021313000114,神奈川県伊勢原市粟窪**********,14
1,CS037613000071,東京都江東区南砂**********,13
2,CS031415000172,東京都渋谷区代々木**********,13
3,CS028811000001,神奈川県横浜市泉区和泉町**********,14
4,CS001215000145,東京都大田区仲六郷**********,13
5,CS020401000016,東京都板橋区若木**********,13
6,CS015414000103,東京都江東区北砂**********,13
7,CS029403000008,千葉県浦安市海楽**********,12
8,CS015804000004,東京都江東区北砂**********,13
9,CS033513000180,神奈川県横浜市旭区善部町**********,14


---
> P-055: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額と合計ともに表示せよ。カテゴリ値は上から順に1〜4とする。結果は10件表示させれば良い。
>
> - 最小値以上第一四分位未満
> - 第一四分位以上第二四分位未満
> - 第二四分位以上第三四分位未満
> - 第三四分位以上

In [78]:
df_tmp = df_receipt.groupby("customer_id").sum()[["amount"]]
quantile = df_tmp["amount"].quantile([0, 0.25, 0.5, 0.75, 1.0])
def to_category(x):
    for index_i, i in enumerate(quantile):
        if(index_i!=0):
            if(pre_i <= x < i):
                return index_i
            if(x == quantile[1.0]):
                return 4
        pre_i = i

df_tmp["quantile"] = df_tmp["amount"].apply(to_category)
display(quantile)
df_tmp.head(10)

0.00          70.0
0.25         548.5
0.50        1478.0
0.75        3651.0
1.00    12395003.0
Name: amount, dtype: float64

Unnamed: 0_level_0,amount,quantile
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,2
CS001114000005,626,2
CS001115000010,3044,3
CS001205000004,1988,3
CS001205000006,3337,3
CS001211000025,456,1
CS001212000027,448,1
CS001212000031,296,1
CS001212000046,228,1
CS001212000070,456,1


---
> P-056: 顧客データフレーム（df_customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに抽出せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。先頭10件を表示させればよい。

In [83]:
df_tmp = df_customer[["customer_id", "birth_day", "age"]].copy()
df_tmp["generation"] = ((df_customer["age"]/10).astype(int) * 10).mask(df_tmp["age"]>=60, 60)
df_tmp.head(10)

Unnamed: 0,customer_id,birth_day,age,generation
0,CS021313000114,1981-04-29,37,30
1,CS037613000071,1952-04-01,66,60
2,CS031415000172,1976-10-04,42,40
3,CS028811000001,1933-03-27,86,60
4,CS001215000145,1995-03-29,24,20
5,CS020401000016,1974-09-15,44,40
6,CS015414000103,1977-08-09,41,40
7,CS029403000008,1973-08-17,45,40
8,CS015804000004,1931-05-02,87,60
9,CS033513000180,1962-07-11,56,50


---
> P-057: 前問題の抽出結果と性別（gender）を組み合わせ、新たに性別×年代の組み合わせを表すカテゴリデータを作成せよ。組み合わせを表すカテゴリの値は任意とする。先頭10件を表示させればよい。

In [86]:
df_tmp = df_customer[["customer_id", "birth_day", "age", "gender"]].copy()
df_tmp["generation"] = ((df_customer["age"]/10).astype(int) * 10).mask(df_tmp["age"]>=60, 60)
df_tmp["generation_gender"] = df_tmp["generation"].astype(str) + "_" + df_tmp["gender"]
df_tmp.head(10)

Unnamed: 0,customer_id,birth_day,age,gender,generation,generation_gender
0,CS021313000114,1981-04-29,37,女性,30,30_女性
1,CS037613000071,1952-04-01,66,不明,60,60_不明
2,CS031415000172,1976-10-04,42,女性,40,40_女性
3,CS028811000001,1933-03-27,86,女性,60,60_女性
4,CS001215000145,1995-03-29,24,女性,20,20_女性
5,CS020401000016,1974-09-15,44,男性,40,40_男性
6,CS015414000103,1977-08-09,41,女性,40,40_女性
7,CS029403000008,1973-08-17,45,男性,40,40_男性
8,CS015804000004,1931-05-02,87,男性,60,60_男性
9,CS033513000180,1962-07-11,56,女性,50,50_女性


---
> P-058: 顧客データフレーム（df_customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに抽出せよ。結果は10件表示させれば良い。

In [91]:
pd.get_dummies(df_customer[['customer_id', 'gender_cd']], columns=["gender_cd"]).head(10)

Unnamed: 0,customer_id,gender_cd_0,gender_cd_1,gender_cd_9
0,CS021313000114,0,1,0
1,CS037613000071,0,0,1
2,CS031415000172,0,1,0
3,CS028811000001,0,1,0
4,CS001215000145,0,1,0
5,CS020401000016,1,0,0
6,CS015414000103,0,1,0
7,CS029403000008,1,0,0
8,CS015804000004,1,0,0
9,CS033513000180,0,1,0


---
> P-059: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに表示せよ。標準化に使用する標準偏差は、不偏標準偏差と標本標準偏差のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [98]:
from sklearn.preprocessing import scale
df_tmp = df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby("customer_id").sum()[["amount"]]
df_tmp["amount_std"] = scale(df_tmp["amount"])
df_tmp.head(10)

Unnamed: 0_level_0,amount,amount_std
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,-0.459378
CS001114000005,626,-0.70639
CS001115000010,3044,0.182413
CS001205000004,1988,-0.205749
CS001205000006,3337,0.290114
CS001211000025,456,-0.768879
CS001212000027,448,-0.771819
CS001212000031,296,-0.827691
CS001212000046,228,-0.852686
CS001212000070,456,-0.768879


---
> P-060: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [101]:
from sklearn.preprocessing import minmax_scale
df_tmp = df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby("customer_id").sum()[["amount"]]
df_tmp["amount_mm"] = minmax_scale(df_tmp["amount"])
df_tmp.head(10)

Unnamed: 0_level_0,amount,amount_mm
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,0.053354
CS001114000005,626,0.024157
CS001115000010,3044,0.129214
CS001205000004,1988,0.083333
CS001205000006,3337,0.141945
CS001211000025,456,0.016771
CS001212000027,448,0.016423
CS001212000031,296,0.009819
CS001212000046,228,0.006865
CS001212000070,456,0.016771


---
> P-061: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を常用対数化（底=10）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [102]:
df_tmp = df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby("customer_id").sum()[["amount"]]
df_tmp["amount_log10"] = np.log10(df_tmp["amount"])
df_tmp.head(10)

Unnamed: 0_level_0,amount,amount_log10
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,3.113275
CS001114000005,626,2.796574
CS001115000010,3044,3.483445
CS001205000004,1988,3.298416
CS001205000006,3337,3.523356
CS001211000025,456,2.658965
CS001212000027,448,2.651278
CS001212000031,296,2.471292
CS001212000046,228,2.357935
CS001212000070,456,2.658965


---
> P-062: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を自然対数化(底=e）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [103]:
df_tmp = df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby("customer_id").sum()[["amount"]]
df_tmp["amount_log10"] = np.log(df_tmp["amount"])
df_tmp.head(10)

Unnamed: 0_level_0,amount,amount_log10
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,7.16858
CS001114000005,626,6.43935
CS001115000010,3044,8.020928
CS001205000004,1988,7.594884
CS001205000006,3337,8.112827
CS001211000025,456,6.122493
CS001212000027,448,6.104793
CS001212000031,296,5.690359
CS001212000046,228,5.429346
CS001212000070,456,6.122493


---
> P-063: 商品データフレーム（df_product）の単価（unit_price）と原価（unit_cost）から、各商品の利益額を算出せよ。結果は10件表示させれば良い。

In [106]:
df_tmp = df_product[["product_cd", "unit_price", "unit_cost"]].copy()
df_tmp["profit"] = df_tmp["unit_price"] - df_tmp["unit_cost"]
df_tmp.head(10)

Unnamed: 0,product_cd,unit_price,unit_cost,profit
0,P040101001,198.0,149.0,49.0
1,P040101002,218.0,164.0,54.0
2,P040101003,230.0,173.0,57.0
3,P040101004,248.0,186.0,62.0
4,P040101005,268.0,201.0,67.0
5,P040101006,298.0,224.0,74.0
6,P040101007,338.0,254.0,84.0
7,P040101008,420.0,315.0,105.0
8,P040101009,498.0,374.0,124.0
9,P040101010,580.0,435.0,145.0


---
> P-064: 商品データフレーム（df_product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。
ただし、単価と原価にはNULLが存在することに注意せよ。

In [107]:
df_tmp = df_product[["product_cd", "unit_price", "unit_cost"]].copy()
df_tmp["profit_rate"] = (df_tmp["unit_price"] - df_tmp["unit_cost"]) / df_tmp["unit_cost"]
df_tmp["profit_rate"].dropna().mean()

0.33204020577573146

---
> P-065: 商品データフレーム（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [112]:
df_tmp = df_product[["product_cd", "unit_price", "unit_cost"]].copy()
df_tmp["proper_price"] = (df_tmp["unit_cost"]/0.7).apply(np.floor)
df_tmp.head(10)

Unnamed: 0,product_cd,unit_price,unit_cost,proper_price
0,P040101001,198.0,149.0,212.0
1,P040101002,218.0,164.0,234.0
2,P040101003,230.0,173.0,247.0
3,P040101004,248.0,186.0,265.0
4,P040101005,268.0,201.0,287.0
5,P040101006,298.0,224.0,320.0
6,P040101007,338.0,254.0,362.0
7,P040101008,420.0,315.0,450.0
8,P040101009,498.0,374.0,534.0
9,P040101010,580.0,435.0,621.0


---
> P-066: 商品データフレーム（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を四捨五入すること（0.5については偶数方向の丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [113]:
df_tmp = df_product[["product_cd", "unit_price", "unit_cost"]].copy()
df_tmp["proper_price"] = (df_tmp["unit_cost"]/0.7).apply(np.round)
df_tmp.head(10)

Unnamed: 0,product_cd,unit_price,unit_cost,proper_price
0,P040101001,198.0,149.0,213.0
1,P040101002,218.0,164.0,234.0
2,P040101003,230.0,173.0,247.0
3,P040101004,248.0,186.0,266.0
4,P040101005,268.0,201.0,287.0
5,P040101006,298.0,224.0,320.0
6,P040101007,338.0,254.0,363.0
7,P040101008,420.0,315.0,450.0
8,P040101009,498.0,374.0,534.0
9,P040101010,580.0,435.0,621.0


---
> P-067: 商品データフレーム（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [114]:
df_tmp = df_product[["product_cd", "unit_price", "unit_cost"]].copy()
df_tmp["proper_price"] = (df_tmp["unit_cost"]/0.7).apply(np.ceil)
df_tmp.head(10)

Unnamed: 0,product_cd,unit_price,unit_cost,proper_price
0,P040101001,198.0,149.0,213.0
1,P040101002,218.0,164.0,235.0
2,P040101003,230.0,173.0,248.0
3,P040101004,248.0,186.0,266.0
4,P040101005,268.0,201.0,288.0
5,P040101006,298.0,224.0,320.0
6,P040101007,338.0,254.0,363.0
7,P040101008,420.0,315.0,451.0
8,P040101009,498.0,374.0,535.0
9,P040101010,580.0,435.0,622.0


---
> P-068: 商品データフレーム（df_product）の各商品について、消費税率10%の税込み金額を求めよ。 1円未満の端数は切り捨てとし、結果は10件表示すれば良い。ただし、単価（unit_price）にはNULLが存在することに注意せよ。

In [3]:
df_tmp = df_product[["product_cd", "unit_price", "unit_cost"]].copy()
df_tmp["price_tax"] = (df_tmp["unit_cost"]*1.1).apply(np.floor)
df_tmp.head(10)

Unnamed: 0,product_cd,unit_price,unit_cost,price_tax
0,P040101001,198.0,149.0,163.0
1,P040101002,218.0,164.0,180.0
2,P040101003,230.0,173.0,190.0
3,P040101004,248.0,186.0,204.0
4,P040101005,268.0,201.0,221.0
5,P040101006,298.0,224.0,246.0
6,P040101007,338.0,254.0,279.0
7,P040101008,420.0,315.0,346.0
8,P040101009,498.0,374.0,411.0
9,P040101010,580.0,435.0,478.0


---
> P-069: レシート明細データフレーム（df_receipt）と商品データフレーム（df_product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分"07"（瓶詰缶詰）の購入実績がある顧客のみとし、結果は10件表示させればよい。

In [12]:
df_tmp = pd.merge(df_receipt, df_product[["product_cd","category_major_cd"]])
df_tmp = df_tmp.groupby("customer_id").sum()[["amount"]].join(\
    df_tmp.query("category_major_cd == '07'").groupby("customer_id").sum()[["amount"]].rename(columns={"amount":"07_amount"}),how="inner")
df_tmp["ratio"] = df_tmp["07_amount"]/df_tmp["amount"]
df_tmp.head(10)

Unnamed: 0_level_0,amount,07_amount,ratio
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CS001113000004,1298,1298,1.0
CS001114000005,626,486,0.776358
CS001115000010,3044,2694,0.88502
CS001205000004,1988,346,0.174044
CS001205000006,3337,2004,0.600539
CS001212000027,448,200,0.446429
CS001212000031,296,296,1.0
CS001212000046,228,108,0.473684
CS001212000070,456,308,0.675439
CS001213000018,243,145,0.596708


---
> P-070: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [22]:
df_tmp = df_receipt[["sales_ymd","customer_id"]].merge(df_customer[["customer_id","application_date"]], on="customer_id")
df_tmp["sales_ymd"] = pd.to_datetime(df_tmp["sales_ymd"], format="%Y%m%d")
df_tmp["application_date"] = pd.to_datetime(df_tmp["application_date"], format="%Y%m%d")
df_tmp["interval"] = df_tmp["sales_ymd"] - df_tmp["application_date"]
df_tmp.head(10)

Unnamed: 0,sales_ymd,customer_id,application_date,interval
0,2018-11-03,CS006214000001,2015-02-01,1371 days
1,2017-05-09,CS006214000001,2015-02-01,828 days
2,2017-06-08,CS006214000001,2015-02-01,858 days
3,2017-06-08,CS006214000001,2015-02-01,858 days
4,2018-10-28,CS006214000001,2015-02-01,1365 days
5,2018-10-28,CS006214000001,2015-02-01,1365 days
6,2017-05-09,CS006214000001,2015-02-01,828 days
7,2019-09-08,CS006214000001,2015-02-01,1680 days
8,2018-01-31,CS006214000001,2015-02-01,1095 days
9,2017-07-05,CS006214000001,2015-02-01,885 days


---
> P-071: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [28]:
df_tmp = df_receipt[["sales_ymd","customer_id"]].merge(df_customer[["customer_id","application_date"]], on="customer_id")
df_tmp["sales_ymd"] = pd.to_datetime(df_tmp["sales_ymd"], format="%Y%m%d")
df_tmp["application_date"] = pd.to_datetime(df_tmp["application_date"], format="%Y%m%d")

df_tmp["interval_month"] = (df_tmp["sales_ymd"].dt.year - df_tmp["application_date"].dt.year) * 12 \
    + (df_tmp["sales_ymd"].dt.month - df_tmp["application_date"].dt.month)
df_tmp.head(10)

Unnamed: 0,sales_ymd,customer_id,application_date,interval_month
0,2018-11-03,CS006214000001,2015-02-01,45
1,2017-05-09,CS006214000001,2015-02-01,27
2,2017-06-08,CS006214000001,2015-02-01,28
3,2017-06-08,CS006214000001,2015-02-01,28
4,2018-10-28,CS006214000001,2015-02-01,44
5,2018-10-28,CS006214000001,2015-02-01,44
6,2017-05-09,CS006214000001,2015-02-01,27
7,2019-09-08,CS006214000001,2015-02-01,55
8,2018-01-31,CS006214000001,2015-02-01,35
9,2017-07-05,CS006214000001,2015-02-01,29


---
> P-072: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い。（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [30]:
df_tmp = df_receipt[["sales_ymd","customer_id"]].merge(df_customer[["customer_id","application_date"]], on="customer_id")
df_tmp["sales_ymd"] = pd.to_datetime(df_tmp["sales_ymd"], format="%Y%m%d")
df_tmp["application_date"] = pd.to_datetime(df_tmp["application_date"], format="%Y%m%d")

df_tmp["interval_year"] = df_tmp["sales_ymd"].dt.year - df_tmp["application_date"].dt.year
df_tmp.head(10)

Unnamed: 0,sales_ymd,customer_id,application_date,interval_month
0,2018-11-03,CS006214000001,2015-02-01,3
1,2017-05-09,CS006214000001,2015-02-01,2
2,2017-06-08,CS006214000001,2015-02-01,2
3,2017-06-08,CS006214000001,2015-02-01,2
4,2018-10-28,CS006214000001,2015-02-01,3
5,2018-10-28,CS006214000001,2015-02-01,3
6,2017-05-09,CS006214000001,2015-02-01,2
7,2019-09-08,CS006214000001,2015-02-01,4
8,2018-01-31,CS006214000001,2015-02-01,3
9,2017-07-05,CS006214000001,2015-02-01,2


---
> P-073: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [39]:
df_tmp = df_receipt[["sales_ymd","customer_id"]].merge(df_customer[["customer_id","application_date"]], on="customer_id")
df_tmp["sales_ymd"] = pd.to_datetime(df_tmp["sales_ymd"], format="%Y%m%d")
df_tmp["application_date"] = pd.to_datetime(df_tmp["application_date"], format="%Y%m%d")

df_tmp["interval_second"] = (df_tmp["sales_ymd"] - df_tmp["application_date"]) / pd.Timedelta('1s')
df_tmp.head(10)

Unnamed: 0,sales_ymd,customer_id,application_date,interval_second
0,2018-11-03,CS006214000001,2015-02-01,118454400.0
1,2017-05-09,CS006214000001,2015-02-01,71539200.0
2,2017-06-08,CS006214000001,2015-02-01,74131200.0
3,2017-06-08,CS006214000001,2015-02-01,74131200.0
4,2018-10-28,CS006214000001,2015-02-01,117936000.0
5,2018-10-28,CS006214000001,2015-02-01,117936000.0
6,2017-05-09,CS006214000001,2015-02-01,71539200.0
7,2019-09-08,CS006214000001,2015-02-01,145152000.0
8,2018-01-31,CS006214000001,2015-02-01,94608000.0
9,2017-07-05,CS006214000001,2015-02-01,76464000.0


---
> P-074: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、当該週の月曜日付とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値でデータを保持している点に注意）。

In [52]:
from datetime import timedelta
df_tmp = df_receipt[["customer_id","sales_ymd"]].copy()
df_tmp["sales_ymd"] = pd.to_datetime(df_tmp["sales_ymd"], format="%Y%m%d")
df_tmp['monday'] = df_tmp['sales_ymd'].apply(lambda x: x - relativedelta(days=x.weekday()))
df_tmp['elapsed_weekday'] = df_tmp['sales_ymd'] - df_tmp['monday']
df_tmp.head(10)

Unnamed: 0,customer_id,sales_ymd,monday,elapsed_weekday
0,CS006214000001,2018-11-03,2018-10-29,5 days
1,CS008415000097,2018-11-18,2018-11-12,6 days
2,CS028414000014,2017-07-12,2017-07-10,2 days
3,ZZ000000000000,2019-02-05,2019-02-04,1 days
4,CS025415000050,2018-08-21,2018-08-20,1 days
5,CS003515000195,2019-06-05,2019-06-03,2 days
6,CS024514000042,2018-12-05,2018-12-03,2 days
7,CS040415000178,2019-09-22,2019-09-16,6 days
8,ZZ000000000000,2017-05-04,2017-05-01,3 days
9,CS027514000015,2019-10-10,2019-10-07,3 days


---
> P-075: 顧客データフレーム（df_customer）からランダムに1%のデータを抽出し、先頭から10件データを抽出せよ。

In [53]:
df_customer.sample(frac=0.01).head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
4146,CS023311000034,尾崎 ちえみ,1,女性,1987-01-07,32,144-0056,東京都大田区西六郷**********,S14023,20150706,0-00000000-0
13019,CS006413000100,紺野 奈央,1,女性,1976-09-23,42,224-0066,神奈川県横浜市都筑区見花山**********,S14006,20150918,2-20090920-2
94,CS024313000029,宮崎 桃子,1,女性,1979-09-26,39,214-0035,神奈川県川崎市多摩区長沢**********,S14024,20150510,0-00000000-0
17370,CS026312000082,菊地 奈々,1,女性,1981-01-12,38,253-0001,神奈川県茅ヶ崎市赤羽根**********,S14026,20160129,0-00000000-0
11969,CS030515000240,田辺 芽以,1,女性,1967-01-09,52,272-0823,千葉県市川市東菅野**********,S12030,20150614,3-20100128-4
19612,CS025213000001,高村 倫子,1,女性,1990-04-25,28,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20151116,0-00000000-0
14352,CS039215000058,菊地 そら,1,女性,1990-12-26,28,168-0081,東京都杉並区宮前**********,S13039,20180619,0-00000000-0
9969,CS033503000035,菊地 沙知絵,1,女性,1957-01-26,62,160-0023,東京都新宿区西新宿**********,S14033,20150518,0-00000000-0
1087,CS021615000059,広末 朝香,1,女性,1951-08-27,67,259-1143,神奈川県伊勢原市下糟屋**********,S14021,20150322,D-20100828-C
17900,CS033615000153,西本 あおい,1,女性,1952-08-10,66,246-0022,神奈川県横浜市瀬谷区三ツ境**********,S14033,20180308,0-00000000-0


---
> P-076: 顧客データフレーム（df_customer）から性別（gender_cd）の割合に基づきランダムに10%のデータを層化抽出データし、性別ごとに件数を集計せよ。

In [59]:
from sklearn.model_selection import train_test_split
_, df_tmp = train_test_split(df_customer, test_size=0.1, stratify=df_customer['gender'])
df_tmp["gender"].value_counts()

女性    1793
男性     298
不明     107
Name: gender, dtype: int64

---
> P-077: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を平均から3σ以上離れたものとする。結果は10件表示させれば良い。

In [6]:
df_tmp = df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby('customer_id').sum()[["amount"]]
amount_mean = df_tmp["amount"].mean()
amount_std = df_tmp["amount"].std()
print(f"mean:{amount_mean}, std:{amount_std}")
df_tmp.query('abs(amount) >= @amount_mean + 3*@amount_std').head(10)

mean:2547.742234529256, std:2720.6740383612914


Unnamed: 0_level_0,amount
customer_id,Unnamed: 1_level_1
CS001605000009,18925
CS006415000147,12723
CS006515000023,18372
CS006515000125,12575
CS006515000209,11373
CS007115000006,11528
CS007514000056,13293
CS007514000094,15735
CS007515000107,11188
CS007615000026,11959


---
> P-078: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第一四分位と第三四分位の差であるIQRを用いて、「第一四分位数-1.5×IQR」よりも下回るもの、または「第三四分位数+1.5×IQR」を超えるものとする。結果は10件表示させれば良い。

In [9]:
df_tmp = df_receipt[~df_receipt["customer_id"].str.startswith("Z")].groupby('customer_id').sum()[["amount"]]
quantile = df_tmp["amount"].quantile([0, 0.25, 0.5, 0.75, 1.0])
iqr = quantile[0.75]-quantile[0.25]
upper_bound = quantile[0.75] + 1.5*iqr
lower_bound = quantile[0.25] - 1.5*iqr
display(quantile)
df_tmp.query("amount<=@lower_bound | @upper_bound<=amount").head(10)

0.00       70.00
0.25      548.25
0.50     1478.00
0.75     3649.75
1.00    23086.00
Name: amount, dtype: float64

Unnamed: 0_level_0,amount
customer_id,Unnamed: 1_level_1
CS001414000048,8584
CS001605000009,18925
CS002415000594,9568
CS004414000181,9584
CS005415000137,8734
CS006414000001,9156
CS006414000029,9179
CS006415000105,10042
CS006415000147,12723
CS006415000157,10648


---
> P-079: 商品データフレーム（df_product）の各項目に対し、欠損数を確認せよ。

In [10]:
df_product.isna().sum()

product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            7
unit_cost             7
dtype: int64

---
> P-080: 商品データフレーム（df_product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たなdf_product_1を作成せよ。なお、削除前後の件数を表示させ、前設問で確認した件数だけ減少していることも確認すること。

In [13]:
df_product_1 = df_product.dropna()
print(f"df_product:{df_product.shape} \ndf_product_1:{df_product_1.shape}")

df_product:(10030, 6), 
df_product_1:(10023, 6)


---
> P-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たなdf_product_2を作成せよ。なお、平均値について1円未満は四捨五入とし、0.5については偶数寄せでかまわない。補完実施後、各項目について欠損が生じていないことも確認すること。

In [17]:
df_product_2 = df_product.fillna(np.round(df_product.mean()))
print(f"df_product:\n{df_product.isna().sum()} \n\ndf_product_1:\n{df_product_2.isna().sum()}")

df_product:
product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            7
unit_cost             7
dtype: int64 

df_product_1:
product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            0
unit_cost             0
dtype: int64


---
> P-082: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たなdf_product_3を作成せよ。なお、中央値について1円未満は四捨五入とし、0.5については偶数寄せでかまわない。補完実施後、各項目について欠損が生じていないことも確認すること。

In [18]:
df_product_3 = df_product.fillna(np.round(df_product.median()))
print(f"df_product:\n{df_product.isna().sum()} \n\ndf_product_1:\n{df_product_3.isna().sum()}")

df_product:
product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            7
unit_cost             7
dtype: int64 

df_product_1:
product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            0
unit_cost             0
dtype: int64


---
> P-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品の小区分（category_small_cd）ごとに算出した中央値で補完した新たなdf_product_4を作成せよ。なお、中央値について1円未満は四捨五入とし、0.5については偶数寄せでかまわない。補完実施後、各項目について欠損が生じていないことも確認すること。

In [21]:
df_list = []
for i in df_product["category_small_cd"].unique():
    category = df_product.query("category_small_cd == @i")
    df_list.append(category.fillna(np.round(category.median())))
df_product_4 = pd.concat(df_list)
df_product_4.isna().sum()

product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            0
unit_cost             0
dtype: int64

In [23]:
# こっちの方が速い
df_tmp = df_product.groupby('category_small_cd').median().reset_index()
df_tmp.columns = ['category_small_cd', 'median_price', 'median_cost']

df_tmp = pd.merge(df_product, df_tmp, how='inner', on='category_small_cd')
df_product_4['unit_price'].fillna(df_tmp["median_price"],inplace=True)
df_product_4['unit_cost'].fillna(df_tmp["median_cost"],inplace=True)

df_product_4.isnull().sum()

product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            0
unit_cost             0
dtype: int64

---
> P-084: 顧客データフレーム（df_customer）の全顧客に対し、全期間の売上金額に占める2019年売上金額の割合を計算せよ。ただし、販売実績のない場合は0として扱うこと。そして計算した割合が0超のものを抽出せよ。 結果は10件表示させれば良い。また、作成したデータにNAやNANが存在しないことを確認せよ。

In [42]:
df_tmp = df_receipt.copy()
df_tmp["sales_ymd"] = pd.to_datetime(df_tmp["sales_ymd"], format="%Y%m%d")

df_sales_2019 = df_tmp[df_tmp["sales_ymd"].dt.year == 2019]
df_sales_amount = df_tmp.groupby("customer_id").sum().reset_index()
df_sales_amount_2019 = df_sales_2019.groupby("customer_id").sum().reset_index().rename(columns={"amount":"amount_2019"})

df_sales_rate = df_sales_amount.merge(df_sales_amount_2019, on="customer_id", how="left")[["customer_id","amount","amount_2019"]]
df_sales_rate["rate"] = df_sales_rate["amount_2019"]/df_sales_rate["amount"]

df_customer_rate = df_customer[["customer_id"]].merge(df_sales_rate, on="customer_id", how="left").fillna(0)
display(df_customer_rate.query("rate > 0").sort_values("customer_id").head(10))
df_customer_rate.isna().sum()

Unnamed: 0,customer_id,amount,amount_2019,rate
3718,CS001113000004,1298.0,1298.0,1.0
19087,CS001114000005,626.0,188.0,0.300319
16778,CS001115000010,3044.0,578.0,0.189882
2786,CS001205000004,1988.0,702.0,0.353119
8428,CS001205000006,3337.0,486.0,0.14564
16733,CS001211000025,456.0,456.0,1.0
19987,CS001212000070,456.0,456.0,1.0
7728,CS001214000009,4685.0,664.0,0.141729
8924,CS001214000017,4132.0,2962.0,0.716844
18827,CS001214000048,2374.0,1889.0,0.795703


customer_id    0
amount         0
amount_2019    0
rate           0
dtype: int64

---
> P-085: 顧客データフレーム（df_customer）の全顧客に対し、郵便番号（postal_cd）を用いて経度緯度変換用データフレーム（df_geocode）を紐付け、新たなdf_customer_1を作成せよ。ただし、複数紐づく場合は経度（longitude）、緯度（latitude）それぞれ平均を算出すること。


In [52]:
df_customer_1 = df_customer.merge(df_geocode.groupby("postal_cd").mean().reset_index(), on="postal_cd")
df_customer_1.head()

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,longitude,latitude
0,CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0,139.31779,35.41358
1,CS021303000023,堀 一徳,0,男性,1980-04-05,38,259-1113,神奈川県伊勢原市粟窪**********,S14021,20160411,0-00000000-0,139.31779,35.41358
2,CS021303000007,石倉 俊二,0,男性,1987-07-04,31,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150707,0-00000000-0,139.31779,35.41358
3,CS021313000183,草野 未來,1,女性,1986-12-21,32,259-1113,神奈川県伊勢原市粟窪**********,S14021,20170611,0-00000000-0,139.31779,35.41358
4,CS021314000098,筒井 れいな,1,女性,1985-09-21,33,259-1113,神奈川県伊勢原市粟窪**********,S14021,20160901,0-00000000-0,139.31779,35.41358


---
> P-086: 前設問で作成した緯度経度つき顧客データフレーム（df_customer_1）に対し、申込み店舗コード（application_store_cd）をキーに店舗データフレーム（df_store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客の緯度・経度を用いて距離（km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示すれば良い。

$$
緯度（ラジアン）：\phi \\
経度（ラジアン）：\lambda \\
距離L = 6371 * arccos(sin \phi_1 * sin \phi_2
+ cos \phi_1 * cos \phi_2 * cos(\lambda_1 − \lambda_2))
$$

In [67]:
from math import acos, sin, cos 
df_tmp = df_customer_1.merge(df_store.rename(columns={"longitude":"longitude_store","latitude":"latitude_store","address":"address_store"})
                             , left_on="application_store_cd", right_on="store_cd")

for i in ["longitude","latitude","longitude_store","latitude_store"]:
    df_tmp[i] = np.radians(df_tmp[i])

def calc_distance(x1, y1, x2, y2):
    return 6371*acos(sin(x1)*sin(x2) + cos(x1)*cos(x2)*cos(y1-y2))

df_tmp["distance"] = df_tmp[["longitude","latitude","longitude_store","latitude_store"]].\
                        apply(lambda x: calc_distance(x[0], x[1], x[2], x[3]), axis=1)

df_tmp[["customer_id","address","address_store","distance"]].head(10)

Unnamed: 0,customer_id,address,address_store,distance
0,CS021313000114,神奈川県伊勢原市粟窪**********,神奈川県伊勢原市伊勢原四丁目,1.140524
1,CS021303000023,神奈川県伊勢原市粟窪**********,神奈川県伊勢原市伊勢原四丁目,1.140524
2,CS021303000007,神奈川県伊勢原市粟窪**********,神奈川県伊勢原市伊勢原四丁目,1.140524
3,CS021313000183,神奈川県伊勢原市粟窪**********,神奈川県伊勢原市伊勢原四丁目,1.140524
4,CS021314000098,神奈川県伊勢原市粟窪**********,神奈川県伊勢原市伊勢原四丁目,1.140524
5,CS021314000093,神奈川県伊勢原市粟窪**********,神奈川県伊勢原市伊勢原四丁目,1.140524
6,CS021413000049,神奈川県伊勢原市粟窪**********,神奈川県伊勢原市伊勢原四丁目,1.140524
7,CS021313000025,神奈川県伊勢原市伊勢原**********,神奈川県伊勢原市伊勢原四丁目,0.36706
8,CS021413000022,神奈川県伊勢原市伊勢原**********,神奈川県伊勢原市伊勢原四丁目,0.36706
9,CS021413000094,神奈川県伊勢原市伊勢原**********,神奈川県伊勢原市伊勢原四丁目,0.36706


---
> P-087:  顧客データフレーム（df_customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなし、1顧客1レコードとなるように名寄せした名寄顧客データフレーム（df_customer_u）を作成せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残すものとし、売上金額合計が同一もしくは売上実績の無い顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [68]:
df_tmp = df_receipt.groupby('customer_id').agg({'amount':sum}).reset_index()
df_customer_u = pd.merge(df_customer, df_tmp, how='left', on='customer_id').sort_values(['amount', 'customer_id']
                                                                                        , ascending=[False, True])
df_customer_u.drop_duplicates(subset=['customer_name', 'postal_cd'], keep='first', inplace=True)

print('減少数: ', len(df_customer) - len(df_customer_u))

減少数:  30


---
> P-088: 前設問で作成したデータを元に、顧客データフレームに統合名寄IDを付与したデータフレーム（df_customer_n）を作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
> - 重複していない顧客：顧客ID（customer_id）を設定
> - 重複している顧客：前設問で抽出したレコードの顧客IDを設定

In [69]:
df_customer_n = pd.merge(df_customer, df_customer_u[['customer_name', 'postal_cd', 'customer_id']],
                        how='inner', on =['customer_name', 'postal_cd'])
df_customer_n.rename(columns={'customer_id_x':'customer_id', 'customer_id_y':'integration_id'}, inplace=True)

print('ID数の差', len(df_customer_n['customer_id'].unique()) - len(df_customer_n['integration_id'].unique()))

ID数の差 30


---
> P-閑話: df_customer_1, df_customer_nは使わないので削除する。

In [70]:
del df_customer_1
del df_customer_n

---
> P-089: 売上実績のある顧客に対し、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [77]:
from sklearn.model_selection import train_test_split
df_tmp = pd.merge(df_customer, df_receipt['customer_id'], how='inner', on='customer_id')
df_train, df_test = train_test_split(df_tmp, test_size=0.2, random_state=71)
print(df_train.shape, df_test.shape)

(52545, 11) (13137, 11)


---
> P-090: レシート明細データフレーム（df_receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月のモデル構築用データを3セット作成せよ。

In [100]:
from datetime import datetime
from dateutil.relativedelta import relativedelta

df_tmp = df_receipt.copy()
df_tmp["sales_ymd"] = pd.to_datetime(df_tmp["sales_ymd"],format="%Y%m%d")
df_tmp["sales_ym"] = df_tmp["sales_ymd"].dt.strftime("%Y%m")
df_month = df_tmp.groupby("sales_ym").sum()[["amount"]].reset_index()

def hold_out(df,start_train):
    start_pred = start_train + relativedelta(years=1)
    end_pred = start_pred + relativedelta(months=6)
    df["sales_ym"] = pd.to_datetime(df["sales_ym"], format="%Y%m")
    df_train = df.query("@start_train <= sales_ym < @start_pred")
    df_test = df.query("@start_pred <= sales_ym < @end_pred")
    return df_train, df_test, start_pred

df_train_1, df_test_1, next_train = hold_out(df_month, datetime(2017,1,1))
df_train_2, df_test_2, next_train = hold_out(df_month, next_train)
df_train_3, df_test_3, _ = hold_out(df_month, next_train)

display(df_train_2)

Unnamed: 0,sales_ym,amount
12,2018-01-01,944509
13,2018-02-01,864128
14,2018-03-01,946588
15,2018-04-01,937099
16,2018-05-01,1004438
17,2018-06-01,1012329
18,2018-07-01,1058472
19,2018-08-01,1045793
20,2018-09-01,977114
21,2018-10-01,1069939


---
> P-091: 顧客データフレーム（df_customer）の各顧客に対し、売上実績のある顧客数と売上実績のない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [107]:
from imblearn.under_sampling import RandomUnderSampler
df_tmp = df_customer.copy()
df_tmp = df_tmp.merge(df_receipt.groupby("customer_id").sum().reset_index(), on="customer_id", how="left")[["customer_id","amount"]]
df_tmp["is_purchase"] = df_tmp["amount"].notna()

rs = RandomUnderSampler(random_state=71)

df_sample, _ = rs.fit_sample(df_tmp, df_tmp.is_purchase)
df_sample["is_purchase"].value_counts()

True     8306
False    8306
Name: is_purchase, dtype: int64

---
> P-092: 顧客データフレーム（df_customer）では、性別に関する情報が非正規化の状態で保持されている。これを第三正規化せよ。

In [109]:
df_gender = df_customer[['gender_cd', 'gender']].drop_duplicates()
df_customer_norm = df_customer.drop(columns='gender')

---
> P-093: 商品データフレーム（df_product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータフレーム（df_category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データフレームを作成せよ。

In [117]:
df_product_add = pd.merge(df_product, df_category[['category_small_cd', 'category_major_name','category_medium_name','category_small_name']], 
                           how = 'inner', on = 'category_small_cd')
df_product_add.head()

Unnamed: 0,product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_name,category_medium_name,category_small_name
0,P040101001,4,401,40101,198.0,149.0,惣菜,御飯類,弁当類
1,P040101002,4,401,40101,218.0,164.0,惣菜,御飯類,弁当類
2,P040101003,4,401,40101,230.0,173.0,惣菜,御飯類,弁当類
3,P040101004,4,401,40101,248.0,186.0,惣菜,御飯類,弁当類
4,P040101005,4,401,40101,268.0,201.0,惣菜,御飯類,弁当類


---
> P-094: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [118]:
df_product_add.to_csv("./data/df_product_add_UTF8.csv", encoding='UTF-8', index=False)

---
> P-095: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはCP932

In [119]:
df_product_add.to_csv("./data/df_product_add_CP932.csv", encoding='CP932', index=False)

---
> P-096: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [120]:
df_product_add.to_csv("./data/df_product_add_UTF8_noheader.csv", encoding='UTF-8', index=False, header=False)

---
> P-097: 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [121]:
df_tmp = pd.read_csv("./data/df_product_add_UTF8.csv", encoding='UTF-8')
df_tmp.head(10)

Unnamed: 0,product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_name,category_medium_name,category_small_name
0,P040101001,4,401,40101,198.0,149.0,惣菜,御飯類,弁当類
1,P040101002,4,401,40101,218.0,164.0,惣菜,御飯類,弁当類
2,P040101003,4,401,40101,230.0,173.0,惣菜,御飯類,弁当類
3,P040101004,4,401,40101,248.0,186.0,惣菜,御飯類,弁当類
4,P040101005,4,401,40101,268.0,201.0,惣菜,御飯類,弁当類
5,P040101006,4,401,40101,298.0,224.0,惣菜,御飯類,弁当類
6,P040101007,4,401,40101,338.0,254.0,惣菜,御飯類,弁当類
7,P040101008,4,401,40101,420.0,315.0,惣菜,御飯類,弁当類
8,P040101009,4,401,40101,498.0,374.0,惣菜,御飯類,弁当類
9,P040101010,4,401,40101,580.0,435.0,惣菜,御飯類,弁当類


---
> P-098: 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [123]:
df_tmp = pd.read_csv("./data/df_product_add_UTF8.csv", encoding='UTF-8', header=None)
df_tmp.head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_name,category_medium_name,category_small_name
1,P040101001,04,0401,040101,198.0,149.0,惣菜,御飯類,弁当類
2,P040101002,04,0401,040101,218.0,164.0,惣菜,御飯類,弁当類
3,P040101003,04,0401,040101,230.0,173.0,惣菜,御飯類,弁当類
4,P040101004,04,0401,040101,248.0,186.0,惣菜,御飯類,弁当類
5,P040101005,04,0401,040101,268.0,201.0,惣菜,御飯類,弁当類
6,P040101006,04,0401,040101,298.0,224.0,惣菜,御飯類,弁当類
7,P040101007,04,0401,040101,338.0,254.0,惣菜,御飯類,弁当類
8,P040101008,04,0401,040101,420.0,315.0,惣菜,御飯類,弁当類
9,P040101009,04,0401,040101,498.0,374.0,惣菜,御飯類,弁当類


---
> P-099: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [125]:
df_product_add.to_csv("./data/df_product_add_UTF8.tsv", encoding='UTF-8', index=False)

---
> P-100: 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [126]:
df_tmp = pd.read_csv("./data/df_product_add_UTF8.tsv", encoding='UTF-8')
df_tmp.head(10)

Unnamed: 0,product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_name,category_medium_name,category_small_name
0,P040101001,4,401,40101,198.0,149.0,惣菜,御飯類,弁当類
1,P040101002,4,401,40101,218.0,164.0,惣菜,御飯類,弁当類
2,P040101003,4,401,40101,230.0,173.0,惣菜,御飯類,弁当類
3,P040101004,4,401,40101,248.0,186.0,惣菜,御飯類,弁当類
4,P040101005,4,401,40101,268.0,201.0,惣菜,御飯類,弁当類
5,P040101006,4,401,40101,298.0,224.0,惣菜,御飯類,弁当類
6,P040101007,4,401,40101,338.0,254.0,惣菜,御飯類,弁当類
7,P040101008,4,401,40101,420.0,315.0,惣菜,御飯類,弁当類
8,P040101009,4,401,40101,498.0,374.0,惣菜,御飯類,弁当類
9,P040101010,4,401,40101,580.0,435.0,惣菜,御飯類,弁当類


# これで１００本終わりです。おつかれさまでした！