# データサイエンス100本ノック（構造化データ加工編） - Python

## はじめに
- 初めに以下のセルを実行してください
- 必要なライブラリのインポートとデータベース（PostgreSQL）からのデータ読み込みを行います
- pandas等、利用が想定されるライブラリは以下セルでインポートしています
- その他利用したいライブラリがあれば適宜インストールしてください（"!pip install ライブラリ名"でインストールも可能）
- 処理は複数回に分けても構いません
- 名前、住所等はダミーデータであり、実在するものではありません

In [78]:
%load_ext sql
import os
import pandas as pd
import numpy as np
from datetime import datetime, date
from dateutil.relativedelta import relativedelta
import math
import psycopg2
from sqlalchemy import create_engine
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from imblearn.under_sampling import RandomUnderSampler

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)

# pd.read_sql用のコネクタ
conn = psycopg2.connect(**pgconfig)
# pd.to_sql用のcreate engine
engine = create_engine(dsl)
# MagicコマンドでSQLを書くための設定
%sql $dsl

df_customer = pd.read_sql(sql='select * from customer', con=conn)
df_category = pd.read_sql(sql='select * from category', con=conn)
df_product = pd.read_sql(sql='select * from product', con=conn)
df_receipt = pd.read_sql(sql='select * from receipt', con=conn)
df_store = pd.read_sql(sql='select * from store', con=conn)
df_geocode = pd.read_sql(sql='select * from geocode', con=conn)

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


# 演習問題

---
> P-001: レシート明細のデータフレーム（df_receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [2]:
df_receipt.head(10)

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
0,20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158
1,20181118,1258502400,S13008,1132,2,CS008415000097,P070701017,1,81
2,20170712,1215820800,S14028,1102,1,CS028414000014,P060101005,1,170
3,20190205,1265328000,S14042,1132,1,ZZ000000000000,P050301001,1,25
4,20180821,1250812800,S14025,1102,2,CS025415000050,P060102007,1,90
5,20190605,1275696000,S13003,1112,1,CS003515000195,P050102002,1,138
6,20181205,1259971200,S14024,1102,2,CS024514000042,P080101005,1,30
7,20190922,1285113600,S14040,1102,1,CS040415000178,P070501004,1,128
8,20170504,1209859200,S13020,1112,2,ZZ000000000000,P071302010,1,770
9,20191010,1286668800,S14027,1102,1,CS027514000015,P071101003,1,680


---
> P-002: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。

In [5]:
df_receipt[["sales_ymd","customer_id","product_cd","amount"]].head(10)

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> P-003: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。ただし、sales_ymdはsales_dateに項目名を変更しながら抽出すること。

In [6]:
tmp = df_receipt[["sales_ymd","customer_id","product_cd","amount"]]
tmp.rename(columns={"sales_ymd":"sales_date"}).head(10)


Unnamed: 0,sales_date,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> P-004: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [8]:
tmp = df_receipt[["sales_ymd","customer_id","product_cd","amount"]]
filter = tmp["customer_id"] == "CS018205000001"
tmp[filter]

Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
9843,20180414,CS018205000001,P060104007,600
21110,20170614,CS018205000001,P050206001,990
27673,20170614,CS018205000001,P060702015,108
27840,20190216,CS018205000001,P071005024,102
28757,20180414,CS018205000001,P071101002,278
39256,20190226,CS018205000001,P070902035,168
58121,20190924,CS018205000001,P060805001,495
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


---
> P-005: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [14]:
%%time
tmp = df_receipt[["sales_ymd","customer_id","product_cd","amount"]]
filter = (tmp["customer_id"] == "CS018205000001") & (tmp["amount"] >= 1000)
tmp[filter]

CPU times: user 111 ms, sys: 5.3 ms, total: 116 ms
Wall time: 108 ms


Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


In [16]:
%%time
tmp = df_receipt[["sales_ymd","customer_id","product_cd","amount"]]
tmp = tmp.query("customer_id == 'CS018205000001' & amount >= 1000")
tmp

CPU times: user 169 ms, sys: 0 ns, total: 169 ms
Wall time: 158 ms


Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


---
> P-006: レシート明細データフレーム「df_receipt」から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [19]:
%%time
tmp = df_receipt[["sales_ymd","customer_id","product_cd","quantity","amount"]]
filter = (tmp["customer_id"] == "CS018205000001") & ((tmp["amount"] >= 1000) | (tmp["quantity"] >=5))
tmp[filter]

CPU times: user 149 ms, sys: 0 ns, total: 149 ms
Wall time: 146 ms


Unnamed: 0,sales_ymd,customer_id,product_cd,quantity,amount
36,20180911,CS018205000001,P071401012,1,2200
9843,20180414,CS018205000001,P060104007,6,600
21110,20170614,CS018205000001,P050206001,5,990
68117,20190226,CS018205000001,P071401020,1,2200
72254,20180911,CS018205000001,P071401005,1,1100


In [22]:
%%time
tmp = df_receipt[["sales_ymd","customer_id","product_cd","quantity","amount"]]
tmp.query("customer_id == 'CS018205000001' & (amount >= 1000 | quantity >= 5)")

CPU times: user 118 ms, sys: 11.3 ms, total: 129 ms
Wall time: 116 ms


Unnamed: 0,sales_ymd,customer_id,product_cd,quantity,amount
36,20180911,CS018205000001,P071401012,1,2200
9843,20180414,CS018205000001,P060104007,6,600
21110,20170614,CS018205000001,P050206001,5,990
68117,20190226,CS018205000001,P071401020,1,2200
72254,20180911,CS018205000001,P071401005,1,1100


---
> P-007: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [24]:
%%time
tmp = df_receipt[["sales_ymd","customer_id","product_cd","amount"]]
tmp.query("customer_id == 'CS018205000001' & (2000 >= amount >= 1000)")

CPU times: user 100 ms, sys: 4.85 ms, total: 105 ms
Wall time: 86.9 ms


Unnamed: 0,sales_ymd,customer_id,product_cd,amount
72254,20180911,CS018205000001,P071401005,1100


---
> P-008: レシート明細のデータフレーム（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [25]:
%%time
tmp = df_receipt[["sales_ymd","customer_id","product_cd","amount"]]
tmp.query("customer_id == 'CS018205000001' & product_cd != 'P071401019'")

CPU times: user 167 ms, sys: 52.4 ms, total: 220 ms
Wall time: 145 ms


Unnamed: 0,sales_ymd,customer_id,product_cd,amount
36,20180911,CS018205000001,P071401012,2200
9843,20180414,CS018205000001,P060104007,600
21110,20170614,CS018205000001,P050206001,990
27673,20170614,CS018205000001,P060702015,108
27840,20190216,CS018205000001,P071005024,102
28757,20180414,CS018205000001,P071101002,278
39256,20190226,CS018205000001,P070902035,168
58121,20190924,CS018205000001,P060805001,495
68117,20190226,CS018205000001,P071401020,2200
72254,20180911,CS018205000001,P071401005,1100


---
> P-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。

`df_store.query('not(prefecture_cd == "13" | floor_area > 900)')`

In [27]:
df_store.query("prefecture_cd !='13' & floor_area <= 900")

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
38,S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> P-010: 店舗データフレーム（df_store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件だけ表示せよ。

In [31]:
filter = df_store["store_cd"].str.startswith("S14")
df_store[filter].head(10)

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
4,S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
7,S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
9,S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
12,S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
16,S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
19,S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> P-011: 顧客データフレーム（df_customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件だけ表示せよ。

In [33]:
filter = df_customer["customer_id"].str.endswith("1")
df_customer[filter].head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
1,CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
3,CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
14,CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
31,CS028314000011,小菅 あおい,1,女性,1983-11-26,35,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151123,1-20080426-5
56,CS039212000051,藤島 恵梨香,1,女性,1997-02-03,22,166-0001,東京都杉並区阿佐谷北**********,S13039,20171121,1-20100215-4
59,CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
63,CS004702000041,野島 洋,0,男性,1943-08-24,75,176-0022,東京都練馬区向山**********,S13004,20170218,0-00000000-0
74,CS041515000001,栗田 千夏,1,女性,1967-01-02,52,206-0001,東京都多摩市和田**********,S13041,20160422,E-20100803-F
85,CS029313000221,北条 ひかり,1,女性,1987-06-19,31,279-0011,千葉県浦安市美浜**********,S12029,20180810,0-00000000-0
102,CS034312000071,望月 奈央,1,女性,1980-09-20,38,213-0026,神奈川県川崎市高津区久末**********,S14034,20160106,0-00000000-0


---
> P-012: 店舗データフレーム（df_store）から横浜市の店舗だけ全項目表示せよ。

In [35]:
filter = df_store["address"].str.contains("横浜市")
df_store[filter]

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
7,S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
9,S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
12,S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
16,S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
18,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
20,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
26,S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
40,S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> P-013: 顧客データフレーム（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件だけ表示せよ。

In [45]:
# filter = df_customer["status_cd"].str.match("[A-F]")
filter = df_customer["status_cd"].str.contains("^[A-F]",regex = True)
df_customer[filter].head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
2,CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
6,CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
15,CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
21,CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
32,CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
33,CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
40,CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
44,CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
53,CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F


---
> P-014: 顧客データフレーム（df_customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [46]:
filter = df_customer["status_cd"].str.contains("[1-9]$",regex = True)
df_customer[filter].head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
4,CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
9,CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
14,CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
16,CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
22,CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
23,CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
24,CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
27,CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
28,CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


---
> P-015: 顧客データフレーム（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [48]:
filter = df_customer["status_cd"].str.contains("^[A-F].*[1-9]$",regex = True)
df_customer[filter].head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
68,CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
71,CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
122,CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
144,CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
178,CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
252,CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
259,CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
293,CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
297,CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


---
> P-016: 店舗データフレーム（df_store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [49]:
filter = df_store["tel_no"].str.contains("^[0-9]{3}-[0-9]{3}-[0-9]{4}$",regex = True)
df_store[filter]

Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
0,S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
1,S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
2,S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
3,S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
4,S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
7,S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
9,S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
11,S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
12,S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
16,S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> P-17: 顧客データフレーム（df_customer）を生年月日（birth_day）で高齢順にソートし、先頭10件を全項目表示せよ。

In [50]:
tmp = df_customer.sort_values("birth_day",ascending=True)
tmp.head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
18817,CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
12328,CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
15682,CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
15302,CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
1681,CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
7511,CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
2378,CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
4680,CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
16070,CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0
6305,CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0


---
> P-18: 顧客データフレーム（df_customer）を生年月日（birth_day）で若い順にソートし、先頭10件を全項目表示せよ。

In [51]:
tmp = df_customer.sort_values("birth_day",ascending=False)
tmp.head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
15639,CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
7468,CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
10745,CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
19811,CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
7039,CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
3670,CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
12493,CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
15977,CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
5716,CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
15097,CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


---
> P-19: レシート明細データフレーム（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [54]:
tmp = pd.concat([
    df_receipt[["customer_id","amount"]],
    df_receipt["amount"].rank(method="min",ascending=False)  # methodは同順位の時の処理。デフォは平均をとる
    ],axis=1)
tmp.columns=["customer_id","amount","ranking"]
tmp = tmp.sort_values("ranking",ascending = True)
tmp.head(10)

Unnamed: 0,customer_id,amount,ranking
1202,CS011415000006,10925,1.0
62317,ZZ000000000000,6800,2.0
54095,CS028605000002,5780,3.0
4632,CS015515000034,5480,4.0
72747,ZZ000000000000,5480,4.0
10320,ZZ000000000000,5480,4.0
97294,CS021515000089,5440,7.0
28304,ZZ000000000000,5440,7.0
92246,CS009415000038,5280,9.0
68553,CS040415000200,5280,9.0


---
> P-020: レシート明細データフレーム（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [55]:
tmp = pd.concat([
    df_receipt[["customer_id","amount"]],
    df_receipt["amount"].rank(method="first",ascending=False)  # methodは同順位の時の処理。firstは登場順に順位付け
    ],axis=1)
tmp.columns=["customer_id","amount","ranking"]
tmp = tmp.sort_values("ranking",ascending = True)
tmp.head(10)

Unnamed: 0,customer_id,amount,ranking
1202,CS011415000006,10925,1.0
62317,ZZ000000000000,6800,2.0
54095,CS028605000002,5780,3.0
4632,CS015515000034,5480,4.0
10320,ZZ000000000000,5480,5.0
72747,ZZ000000000000,5480,6.0
28304,ZZ000000000000,5440,7.0
97294,CS021515000089,5440,8.0
596,CS015515000083,5280,9.0
11275,CS017414000114,5280,10.0


---
> P-021: レシート明細データフレーム（df_receipt）に対し、件数をカウントせよ。

In [64]:
# df_receipt.count()
df_receipt.describe()

Unnamed: 0,sales_ymd,sales_epoch,receipt_no,receipt_sub_no,quantity,amount
count,104681.0,104681.0,104681.0,104681.0,104681.0,104681.0
mean,20180630.0,1245802000.0,1053.543699,1.500855,1.011282,320.560083
std,8012.852,25816480.0,298.326621,0.500002,0.114136,477.702749
min,20170100.0,1199146000.0,112.0,1.0,1.0,10.0
25%,20171010.0,1223683000.0,1112.0,1.0,1.0,102.0
50%,20180700.0,1246752000.0,1142.0,2.0,1.0,170.0
75%,20190310.0,1268352000.0,1172.0,2.0,1.0,288.0
max,20191030.0,1288483000.0,1664.0,2.0,8.0,10925.0


---
> P-022: レシート明細データフレーム（df_receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [65]:
# len(df_receipt["customer_id"].unique())
len(set(df_receipt["customer_id"]))

8307

---
> P-023: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [68]:
tmp = df_receipt.groupby("store_cd")
tmp = tmp.agg({"amount":"sum","quantity":"sum"})
tmp.reset_index()

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fca238c8c50>

---
> P-024: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）を求め、10件表示せよ。

In [69]:
tmp = df_receipt.groupby("customer_id")
tmp = tmp.sales_ymd.max()
tmp = tmp.reset_index()
tmp.head(10)

Unnamed: 0,customer_id,sales_ymd
0,CS001113000004,20190308
1,CS001114000005,20190731
2,CS001115000010,20190405
3,CS001205000004,20190625
4,CS001205000006,20190224
5,CS001211000025,20190322
6,CS001212000027,20170127
7,CS001212000031,20180906
8,CS001212000046,20170811
9,CS001212000070,20191018


---
> P-025: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も古い売上日（sales_ymd）を求め、10件表示せよ。

In [70]:
tmp = df_receipt.groupby("customer_id")
tmp = tmp.sales_ymd.min()
tmp = tmp.reset_index()
tmp.head(10)

Unnamed: 0,customer_id,sales_ymd
0,CS001113000004,20190308
1,CS001114000005,20180503
2,CS001115000010,20171228
3,CS001205000004,20170914
4,CS001205000006,20180207
5,CS001211000025,20190322
6,CS001212000027,20170127
7,CS001212000031,20180906
8,CS001212000046,20170811
9,CS001212000070,20191018


---
> P-026: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）と古い売上日を求め、両者が異なるデータを10件表示せよ。

In [84]:
tmp = df_receipt.groupby("customer_id")
tmp = tmp.agg({"sales_ymd":["max","min"]})
tmp = tmp.reset_index()
tmp.columns = ["_".join(x) for x in tmp.columns]
tmp = tmp.query("sales_ymd_max != sales_ymd_min")
tmp.head(10)

Unnamed: 0,customer_id_,sales_ymd_max,sales_ymd_min
1,CS001114000005,20190731,20180503
2,CS001115000010,20190405,20171228
3,CS001205000004,20190625,20170914
4,CS001205000006,20190224,20180207
13,CS001214000009,20190902,20170306
14,CS001214000017,20191006,20180828
16,CS001214000048,20190929,20171109
17,CS001214000052,20190617,20180208
20,CS001215000005,20181021,20170206
21,CS001215000040,20171022,20170214


---
> P-027: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [91]:
tmp = df_receipt.groupby("store_cd")
tmp = tmp.agg({"amount":"mean"})
tmp = tmp.sort_values("amount",ascending=False)
tmp.head(5)

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,402.86747
S13015,351.11196
S13003,350.915519
S14010,348.791262
S13001,348.470386


---
> P-028: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [92]:
tmp = df_receipt.groupby("store_cd")
tmp = tmp.agg({"amount":"median"})
tmp = tmp.sort_values("amount",ascending=False)
tmp.head(5)

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,190
S14010,188
S14050,185
S14040,180
S13003,180


---
> P-029: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求めよ。

In [125]:
%%time
from collections import Counter
func = lambda x:Counter(x).most_common()[0][0] #何故かこっちの方が早い
# import scipy as sp
# func = lambda x:sp.stats.mode(x).mode
tmp = df_receipt.groupby("store_cd")
tmp = tmp.agg({"product_cd":func})
tmp

CPU times: user 105 ms, sys: 0 ns, total: 105 ms
Wall time: 99.5 ms


Unnamed: 0_level_0,product_cd
store_cd,Unnamed: 1_level_1
S12007,P060303001
S12013,P060303001
S12014,P060303001
S12029,P060303001
S12030,P060303001
S13001,P060303001
S13002,P060303001
S13003,P071401001
S13004,P060303001
S13005,P040503001


In [114]:
%%time
tmp = df_receipt.groupby("store_cd")
tmp = tmp.product_cd.apply(lambda x:x.mode())
tmp = tmp.reset_index()
tmp

CPU times: user 156 ms, sys: 0 ns, total: 156 ms
Wall time: 150 ms


Unnamed: 0,store_cd,level_1,product_cd
0,S12007,0,P060303001
1,S12013,0,P060303001
2,S12014,0,P060303001
3,S12029,0,P060303001
4,S12030,0,P060303001
5,S13001,0,P060303001
6,S13002,0,P060303001
7,S13003,0,P071401001
8,S13004,0,P060303001
9,S13005,0,P040503001


---
> P-030: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本分散を計算し、降順でTOP5を表示せよ。

In [128]:
%%time
tmp = df_receipt.groupby("store_cd")
func = lambda x:np.var(x)
tmp = tmp.agg({"amount":func})
tmp = tmp.sort_values("amount",ascending=False)
tmp.head(5)

CPU times: user 35.2 ms, sys: 1.48 ms, total: 36.7 ms
Wall time: 33.5 ms


Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,440088.701311
S14011,306314.558164
S14034,296920.081011
S13001,295431.993329
S13015,295294.361116


---
> P-031: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本標準偏差を計算し、降順でTOP5を表示せよ。

In [129]:
%%time
tmp = df_receipt.groupby("store_cd")
func = lambda x:np.std(x)
tmp = tmp.agg({"amount":func})
tmp = tmp.sort_values("amount",ascending=False)
tmp.head(5)

CPU times: user 33.2 ms, sys: 0 ns, total: 33.2 ms
Wall time: 30.7 ms


Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S13052,663.391816
S14011,553.456916
S14034,544.903736
S13001,543.536561
S13015,543.409938


---
> P-032: レシート明細データフレーム（df_receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [132]:
np.percentile(df_receipt["amount"],q = [25,50,75,100])

array([  102.,   170.,   288., 10925.])

In [133]:
df_receipt["amount"].quantile(q=np.arange(5)/4)

0.00       10.0
0.25      102.0
0.50      170.0
0.75      288.0
1.00    10925.0
Name: amount, dtype: float64

---
> P-033: レシート明細データフレーム（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [135]:
tmp = df_receipt.groupby("store_cd")
tmp = tmp.agg({"amount":"mean"})
filter = tmp["amount"]>=330
tmp[filter]

Unnamed: 0_level_0,amount
store_cd,Unnamed: 1_level_1
S12013,330.19413
S13001,348.470386
S13003,350.915519
S13004,330.943949
S13015,351.11196
S13019,330.208616
S13020,337.879932
S13052,402.86747
S14010,348.791262
S14011,335.718333


---
> P-034: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。


In [142]:
%%time
filter = df_receipt["customer_id"].str.contains("^[^Z]",regex=True)
tmp = df_receipt[filter]
tmp = tmp.groupby("customer_id")
tmp = tmp.agg({"amount":"sum"})
tmp["amount"].mean()

CPU times: user 199 ms, sys: 1.49 ms, total: 201 ms
Wall time: 197 ms


2547.742234529256

In [166]:
%%time
# df_receipt.query("not customer_id.str.startswith('Z')",engine="python").groupby("customer_id").amount.sum().mean()
tmp = df_receipt.query("not customer_id.str.startswith('Z')",engine="python")
tmp = tmp.groupby("customer_id")
tmp = tmp["amount"].sum()
tmp.mean() # 順々に代入するのと一行に書くのは速度は大して変わらない

CPU times: user 116 ms, sys: 9.42 ms, total: 126 ms
Wall time: 120 ms


2547.742234529256

---
> P-035: レシート明細データフレーム（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、データは10件だけ表示させれば良い。

In [170]:
%%time
flg = df_receipt.query("not customer_id.str.startswith('Z')",engine="python").groupby("customer_id").amount.sum().mean()
tmp = df_receipt.query("not customer_id.str.startswith('Z')",engine="python")
tmp = tmp.groupby("customer_id")
tmp = tmp["amount"].sum().reset_index()
tmp[tmp["amount"] >= flg].head(10)

CPU times: user 275 ms, sys: 0 ns, total: 275 ms
Wall time: 271 ms


Unnamed: 0,customer_id,amount
2,CS001115000010,3044
4,CS001205000006,3337
13,CS001214000009,4685
14,CS001214000017,4132
17,CS001214000052,5639
21,CS001215000040,3496
30,CS001304000006,3726
32,CS001305000005,3485
33,CS001305000011,4370
53,CS001315000180,3300


---
> P-036: レシート明細データフレーム（df_receipt）と店舗データフレーム（df_store）を内部結合し、レシート明細データフレームの全項目と店舗データフレームの店舗名（store_name）を10件表示させよ。

In [172]:
pd.merge(df_receipt,df_store[["store_cd","store_name"]],how = "inner",on="store_cd").head(10)

Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
0,20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
1,20181116,1258329600,S14006,112,2,ZZ000000000000,P080401001,1,48,葛が谷店
2,20170118,1200614400,S14006,1162,1,CS006815000006,P050406035,1,220,葛が谷店
3,20190524,1274659200,S14006,1192,1,CS006514000034,P060104003,1,80,葛が谷店
4,20190419,1271635200,S14006,112,2,ZZ000000000000,P060501002,1,148,葛が谷店
5,20181119,1258588800,S14006,1152,2,ZZ000000000000,P050701001,1,88,葛が谷店
6,20171211,1228953600,S14006,1132,2,CS006515000175,P090903001,1,80,葛が谷店
7,20191021,1287619200,S14006,1112,2,CS006415000221,P040602001,1,405,葛が谷店
8,20170710,1215648000,S14006,1132,2,CS006411000036,P090301051,1,330,葛が谷店
9,20190805,1280966400,S14006,112,1,CS006211000012,P050104001,1,115,葛が谷店


---
> P-037: 商品データフレーム（df_product）とカテゴリデータフレーム（df_category）を内部結合し、商品データフレームの全項目とカテゴリデータフレームの小区分名（category_small_name）を10件表示させよ。

In [180]:
# print(df_product.columns,df_category.columns,sep="\n")
pd.merge(df_product,df_category,how="inner",on=["category_major_cd","category_medium_cd","category_small_cd"]).head(10)

Unnamed: 0,product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_name,category_medium_name,category_small_name
0,P040101001,4,401,40101,198.0,149.0,惣菜,御飯類,弁当類
1,P040101002,4,401,40101,218.0,164.0,惣菜,御飯類,弁当類
2,P040101003,4,401,40101,230.0,173.0,惣菜,御飯類,弁当類
3,P040101004,4,401,40101,248.0,186.0,惣菜,御飯類,弁当類
4,P040101005,4,401,40101,268.0,201.0,惣菜,御飯類,弁当類
5,P040101006,4,401,40101,298.0,224.0,惣菜,御飯類,弁当類
6,P040101007,4,401,40101,338.0,254.0,惣菜,御飯類,弁当類
7,P040101008,4,401,40101,420.0,315.0,惣菜,御飯類,弁当類
8,P040101009,4,401,40101,498.0,374.0,惣菜,御飯類,弁当類
9,P040101010,4,401,40101,580.0,435.0,惣菜,御飯類,弁当類


---
> P-038: 顧客データフレーム（df_customer）とレシート明細データフレーム（df_receipt）から、各顧客ごとの売上金額合計を求めよ。ただし、買い物の実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが'Z'から始まるもの）は除外すること。なお、結果は10件だけ表示させれば良い。

In [192]:
tmp = df_receipt.groupby("customer_id").agg({"amount":"sum"})
mrgdf = pd.merge(df_customer,tmp,how="left",on="customer_id")
mrgdf = mrgdf.fillna(0)
mrgdf = mrgdf.query("gender_cd == '1' and not customer_id.str.startswith('Z')",engine="python")
mrgdf.head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,amount
0,CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0,0.0
2,CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C,5088.0
3,CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0,0.0
4,CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2,875.0
6,CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B,3122.0
9,CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5,868.0
11,CS035614000014,板倉 菜々美,1,女性,1954-07-16,64,154-0015,東京都世田谷区桜新町**********,S13035,20150804,0-00000000-0,0.0
12,CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9,3444.0
13,CS009413000079,市川 コウ,1,女性,1975-12-28,43,158-0093,東京都世田谷区上野毛**********,S13009,20151209,0-00000000-0,0.0
14,CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4,210.0


---
> P-039: レシート明細データフレーム（df_receipt）から売上日数の多い顧客の上位20件と、売上金額合計の多い顧客の上位20件を抽出し、完全外部結合せよ。ただし、非会員（顧客IDが'Z'から始まるもの）は除外すること。

In [198]:
df_sum = df_receipt.groupby("customer_id").agg({"amount":"sum"})
df_sum = df_sum.query("not customer_id.str.startswith('Z')",engine="python")
df_sum = df_sum.sort_values("amount",ascending=False).head(20)

func = lambda x:len(set(x))
df_dcnt = df_receipt.groupby("customer_id").agg({"sales_ymd":func})
df_dcnt = df_dcnt.query("not customer_id.str.startswith('Z')",engine="python")
df_dcnt = df_dcnt.sort_values("sales_ymd",ascending=False).head(20)

pd.merge(df_sum,df_dcnt,how="outer",on="customer_id").reset_index()

Unnamed: 0,customer_id,amount,sales_ymd
0,CS017415000097,23086.0,20.0
1,CS015415000185,20153.0,22.0
2,CS031414000051,19202.0,19.0
3,CS028415000007,19127.0,21.0
4,CS001605000009,18925.0,
5,CS010214000010,18585.0,22.0
6,CS016415000141,18372.0,20.0
7,CS006515000023,18372.0,
8,CS011414000106,18338.0,
9,CS038415000104,17847.0,


---
> P-040: 全ての店舗と全ての商品を組み合わせると何件のデータとなるか調査したい。店舗（df_store）と商品（df_product）を直積した件数を計算せよ。

In [204]:
store_tmp = df_store.copy()
store_tmp["key"] = 0

product_tmp = df_product.copy()
product_tmp["key"] = 0

len(pd.merge(store_tmp,product_tmp,how="outer",on="key"))

531590

---
> P-041: レシート明細データフレーム（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前日からの売上金額増減を計算せよ。なお、計算結果は10件表示すればよい。

In [213]:
tmp1 = df_receipt.groupby("sales_ymd").agg({"amount":"sum"})
tmp2 = tmp1.shift()
amounts = pd.merge(tmp1,tmp2,how="left",on="sales_ymd")
# amounts.columns = ["amount","shiftedAmount"]
amounts["diff"] = amounts["amount_x"] - amounts["amount_y"]
amounts.head(10)

Unnamed: 0_level_0,amount_x,amount_y,diff
sales_ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
20170101,33723,,
20170102,24165,33723.0,-9558.0
20170103,27503,24165.0,3338.0
20170104,36165,27503.0,8662.0
20170105,37830,36165.0,1665.0
20170106,32387,37830.0,-5443.0
20170107,23415,32387.0,-8972.0
20170108,24737,23415.0,1322.0
20170109,26718,24737.0,1981.0
20170110,20143,26718.0,-6575.0


---
> P-042: レシート明細データフレーム（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、１日前、２日前、３日前のデータを結合せよ。結果は10件表示すればよい。

In [217]:
tmp1 = df_receipt.groupby("sales_ymd").agg({"amount":"sum"})
tmp2 = tmp1.shift()
tmp3 = tmp2.shift(1)
tmp4 = tmp3.shift(1)

amounts = pd.merge(tmp1,tmp2,how="left",on="sales_ymd")
amounts = pd.merge(amounts,tmp3,how="left",on="sales_ymd")
amounts = pd.merge(amounts,tmp4,how="left",on="sales_ymd")

amounts.columns = ["amount","amounts_1","amounts_2","amounts_3"]
amounts["diff1"] = amounts["amount"] - amounts["amounts_1"]
amounts["diff2"] = amounts["amount"] - amounts["amounts_2"]
amounts["diff3"] = amounts["amount"] - amounts["amounts_3"]

amounts.head(10)

Unnamed: 0_level_0,amount,amounts_1,amounts_2,amounts_3,diff1,diff2,diff3
sales_ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
20170101,33723,,,,,,
20170102,24165,33723.0,,,-9558.0,,
20170103,27503,24165.0,33723.0,,3338.0,-6220.0,
20170104,36165,27503.0,24165.0,33723.0,8662.0,12000.0,2442.0
20170105,37830,36165.0,27503.0,24165.0,1665.0,10327.0,13665.0
20170106,32387,37830.0,36165.0,27503.0,-5443.0,-3778.0,4884.0
20170107,23415,32387.0,37830.0,36165.0,-8972.0,-14415.0,-12750.0
20170108,24737,23415.0,32387.0,37830.0,1322.0,-7650.0,-13093.0
20170109,26718,24737.0,23415.0,32387.0,1981.0,3303.0,-5669.0
20170110,20143,26718.0,24737.0,23415.0,-6575.0,-4594.0,-3272.0


---
> P-043： レシート明細データフレーム（df_receipt）と顧客データフレーム（df_customer）を結合し、性別（gender）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータフレーム（df_sales_summary）を作成せよ。性別は0が男性、1が女性、9が不明を表すものとする。
>
> ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [235]:
tmp = pd.merge(df_receipt,df_customer,how="inner",on="customer_id")
tmp["era"] = tmp["age"].apply(lambda x:math.floor(x/10)*10)
df_sales_summary = pd.pivot_table(tmp,index="era",columns="gender_cd",values="amount",aggfunc="sum").reset_index()
df_sales_summary.columns = ["era","male","female","unknown"]
df_sales_summary

Unnamed: 0,era,male,female,unknown
0,10,1591.0,149836.0,4317.0
1,20,72940.0,1363724.0,44328.0
2,30,177322.0,693047.0,50441.0
3,40,19355.0,9320791.0,483512.0
4,50,54320.0,6685192.0,342923.0
5,60,272469.0,987741.0,71418.0
6,70,13435.0,29764.0,2427.0
7,80,46360.0,262923.0,5111.0
8,90,,6260.0,


---
> P-044： 前設問で作成した売上サマリデータフレーム（df_sales_summary）は性別の売上を横持ちさせたものであった。このデータフレームから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を'00'、女性を'01'、不明を'99'とする。

In [242]:
tmp = df_sales_summary.set_index("era")
tmp = tmp.stack()
tmp = tmp.reset_index()
tmp = tmp.replace({"female":"01","male":"00","unknown":"99"})
df_sales_summary = tmp.rename(columns={"level_1":"gender_cd",0:"amount"})

df_sales_summary

Unnamed: 0,era,gender_cd,amount
0,10,0,1591.0
1,10,1,149836.0
2,10,99,4317.0
3,20,0,72940.0
4,20,1,1363724.0
5,20,99,44328.0
6,30,0,177322.0
7,30,1,693047.0
8,30,99,50441.0
9,40,0,19355.0


---
> P-045: 顧客データフレーム（df_customer）の生年月日（birth_day）は日付型（Date）でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [254]:
tmp1 = df_customer["customer_id"]
tmp2 = df_customer["birth_day"].astype("datetime64").dt.strftime("%Y%m%d")
pd.concat([tmp1,tmp2],axis=1).head(10)

Unnamed: 0,customer_id,birth_day
0,CS021313000114,19810429
1,CS037613000071,19520401
2,CS031415000172,19761004
3,CS028811000001,19330327
4,CS001215000145,19950329
5,CS020401000016,19740915
6,CS015414000103,19770809
7,CS029403000008,19730817
8,CS015804000004,19310502
9,CS033513000180,19620711


---
> P-046: 顧客データフレーム（df_customer）の申し込み日（application_date）はYYYYMMD形式の文字列型でデータを保有している。これを日付型（dateやdatetime）に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [255]:
tmp1 = df_customer["customer_id"]
tmp2 = df_customer["application_date"].astype("datetime64")
pd.concat([tmp1,tmp2],axis=1).head(10)

Unnamed: 0,customer_id,application_date
0,CS021313000114,2015-09-05
1,CS037613000071,2015-04-14
2,CS031415000172,2015-05-29
3,CS028811000001,2016-01-15
4,CS001215000145,2017-06-05
5,CS020401000016,2015-02-25
6,CS015414000103,2015-07-22
7,CS029403000008,2015-05-15
8,CS015804000004,2015-06-07
9,CS033513000180,2015-07-28


---
> P-047: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型（dateやdatetime）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [261]:
tmp1 = df_receipt[["receipt_no","receipt_sub_no"]]
tmp2 = df_receipt["sales_ymd"].astype("str").astype("datetime64")
pd.concat([tmp1,tmp2],axis=1).head(10)

Unnamed: 0,receipt_no,receipt_sub_no,sales_ymd
0,112,1,2018-11-03
1,1132,2,2018-11-18
2,1102,1,2017-07-12
3,1132,1,2019-02-05
4,1102,2,2018-08-21
5,1112,1,2019-06-05
6,1102,2,2018-12-05
7,1102,1,2019-09-22
8,1112,2,2017-05-04
9,1102,1,2019-10-10


---
> P-048: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型（dateやdatetime）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [270]:
%%time
tmp1 = pd.to_datetime(df_receipt["sales_epoch"],unit="s")
tmp2 = df_receipt[["receipt_no","receipt_sub_no"]]
ans = pd.concat([tmp1,tmp2],axis=1)
ans[:10]

CPU times: user 43.9 ms, sys: 259 µs, total: 44.1 ms
Wall time: 42.2 ms


Unnamed: 0,sales_epoch,receipt_no,receipt_sub_no
0,2009-11-03,112,1
1,2009-11-18,1132,2
2,2008-07-12,1102,1
3,2010-02-05,1132,1
4,2009-08-21,1102,2
5,2010-06-05,1112,1
6,2009-12-05,1102,2
7,2010-09-22,1102,1
8,2008-05-04,1112,2
9,2010-10-10,1102,1


---
> P-049: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"年"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [277]:
%%time
tmp1 = df_receipt[["receipt_no","receipt_sub_no"]]
tmp2 = pd.to_datetime(df_receipt["sales_epoch"],unit='s',origin='unix').dt.year
ans = pd.concat([tmp1,tmp2],axis=1)
ans[:10]

CPU times: user 35.1 ms, sys: 0 ns, total: 35.1 ms
Wall time: 32 ms


Unnamed: 0,receipt_no,receipt_sub_no,sales_epoch
0,112,1,2009
1,1132,2,2009
2,1102,1,2008
3,1132,1,2010
4,1102,2,2009
5,1112,1,2010
6,1102,2,2009
7,1102,1,2010
8,1112,2,2008
9,1102,1,2010


---
> P-050: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"月"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"月"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [283]:
%%time
tmp1 = df_receipt[["receipt_no","receipt_sub_no"]]
tmp2 = pd.to_datetime(df_receipt["sales_epoch"],unit='s',origin='unix').dt.strftime("%m")
ans = pd.concat([tmp1,tmp2],axis=1)
ans[:10]

CPU times: user 1.32 s, sys: 0 ns, total: 1.32 s
Wall time: 1.3 s


Unnamed: 0,receipt_no,receipt_sub_no,sales_epoch
0,112,1,11
1,1132,2,11
2,1102,1,7
3,1132,1,2
4,1102,2,8
5,1112,1,6
6,1102,2,12
7,1102,1,9
8,1112,2,5
9,1102,1,10


---
> P-051: レシート明細データフレーム（df_receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"日"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"日"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [284]:
%%time
tmp1 = df_receipt[["receipt_no","receipt_sub_no"]]
tmp2 = pd.to_datetime(df_receipt["sales_epoch"],unit='s',origin='unix').dt.strftime("%d")
ans = pd.concat([tmp1,tmp2],axis=1)
ans[:10]

CPU times: user 1.12 s, sys: 752 µs, total: 1.12 s
Wall time: 1.1 s


Unnamed: 0,receipt_no,receipt_sub_no,sales_epoch
0,112,1,3
1,1132,2,18
2,1102,1,12
3,1132,1,5
4,1102,2,21
5,1112,1,5
6,1102,2,5
7,1102,1,22
8,1112,2,4
9,1102,1,10


---
> P-052: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2000円以下を0、2000円超を1に2値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [301]:
tmp1 = df_receipt.query("not customer_id.str.startswith('Z')",engine="python")
tmp1 = tmp1.groupby("customer_id").agg({"amount":"sum"})
tmp2 = (tmp1 > 2000).astype(int)
ans = pd.concat([tmp1,tmp2],axis=1)
ans[:10]

Unnamed: 0_level_0,amount,amount
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001113000004,1298,0
CS001114000005,626,0
CS001115000010,3044,1
CS001205000004,1988,0
CS001205000006,3337,1
CS001211000025,456,0
CS001212000027,448,0
CS001212000031,296,0
CS001212000046,228,0
CS001212000070,456,0


---
> P-053: 顧客データフレーム（df_customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に２値化せよ。さらにレシート明細データフレーム（df_receipt）と結合し、全期間において買い物実績のある顧客数を、作成した2値ごとにカウントせよ。

In [340]:
tmp = df_customer[["customer_id","postal_cd"]].copy()
tmp["postal_flg"] = tmp["postal_cd"].apply(lambda x: 1 if 100<= int(x[0:3])<=209 else 0)

ans = pd.merge(tmp,df_receipt,how = "inner",on="customer_id")
ans = ans.groupby("postal_flg")
ans = ans.agg({'customer_id':'nunique'})
ans

Unnamed: 0_level_0,customer_id
postal_flg,Unnamed: 1_level_1
0,3906
1,4400


---
> P-054: 顧客データデータフレーム（df_customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに抽出せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。結果は10件表示させれば良い。

In [343]:
tmp1 = df_customer[["customer_id",'address']]
def func(x):
    s = x[:3]
    if s == "埼玉県":
        res = 11
    elif s == "千葉県":
        res = 12
    elif s == "東京都":
        res = 13
    elif s == "神奈川":
        res = 14
    return res
# tmp2 = df_customer['address'].apply(lambda x:func(x))
tmp2 = df_customer['address'].str[:3].map({"埼玉県":11,"千葉県":12,"東京都":13,"神奈川":14})

df_tmp = pd.concat([tmp1,tmp2],axis=1)
df_tmp[:10]

Unnamed: 0,customer_id,address,address.1
0,CS021313000114,神奈川県伊勢原市粟窪**********,14
1,CS037613000071,東京都江東区南砂**********,13
2,CS031415000172,東京都渋谷区代々木**********,13
3,CS028811000001,神奈川県横浜市泉区和泉町**********,14
4,CS001215000145,東京都大田区仲六郷**********,13
5,CS020401000016,東京都板橋区若木**********,13
6,CS015414000103,東京都江東区北砂**********,13
7,CS029403000008,千葉県浦安市海楽**********,12
8,CS015804000004,東京都江東区北砂**********,13
9,CS033513000180,神奈川県横浜市旭区善部町**********,14


---
> P-055: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額と合計ともに表示せよ。カテゴリ値は上から順に1〜4とする。結果は10件表示させれば良い。
>
> - 最小値以上第一四分位未満
> - 第一四分位以上第二四分位未満
> - 第二四分位以上第三四分位未満
> - 第三四分位以上

In [358]:
tmp1 = df_receipt.groupby("customer_id").agg({"amount":"sum"}).reset_index()
qts = tmp1.quantile([0.25,0.50,0.75])
# q25 = np.quantile(tmp1["amount"],0.25)
# q50 = np.quantile(tmp1["amount"],0.50)
# q75 = np.quantile(tmp1["amount"],0.75)
lis_qts = list(qts["amount"])

def func(x):
    for i,num in enumerate(lis_qts):
        if x < num:
            return i+1
    else:
        return 4

tmp1["pct_group"] = tmp1["amount"].apply(lambda x:func(x))
tmp1[:10]

Unnamed: 0,customer_id,amount,pct_group
0,CS001113000004,1298,2
1,CS001114000005,626,2
2,CS001115000010,3044,3
3,CS001205000004,1988,3
4,CS001205000006,3337,3
5,CS001211000025,456,1
6,CS001212000027,448,1
7,CS001212000031,296,1
8,CS001212000046,228,1
9,CS001212000070,456,1


---
> P-056: 顧客データフレーム（df_customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに抽出せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。先頭10件を表示させればよい。

In [8]:
tmp1 = df_customer[["customer_id","birth_day"]]
tmp2 = df_customer["age"]//10*10
filter = tmp2 >= 60
tmp2[filter] = 60
ans = pd.concat([tmp1,tmp2],axis=1)
ans[:10]

Unnamed: 0,customer_id,birth_day,age
0,CS021313000114,1981-04-29,30
1,CS037613000071,1952-04-01,60
2,CS031415000172,1976-10-04,40
3,CS028811000001,1933-03-27,60
4,CS001215000145,1995-03-29,20
5,CS020401000016,1974-09-15,40
6,CS015414000103,1977-08-09,40
7,CS029403000008,1973-08-17,40
8,CS015804000004,1931-05-02,60
9,CS033513000180,1962-07-11,50


---
> P-057: 前問題の抽出結果と性別（gender）を組み合わせ、新たに性別×年代の組み合わせを表すカテゴリデータを作成せよ。組み合わせを表すカテゴリの値は任意とする。先頭10件を表示させればよい。

In [10]:
tmp = df_customer["gender"]
ans = pd.concat([ans,tmp],axis=1)
ans["age_gender"] = ans["age"].astype("str") + ans["gender"]
ans[:10]

Unnamed: 0,customer_id,birth_day,age,gender,age_gender
0,CS021313000114,1981-04-29,30,女性,30女性
1,CS037613000071,1952-04-01,60,不明,60不明
2,CS031415000172,1976-10-04,40,女性,40女性
3,CS028811000001,1933-03-27,60,女性,60女性
4,CS001215000145,1995-03-29,20,女性,20女性
5,CS020401000016,1974-09-15,40,男性,40男性
6,CS015414000103,1977-08-09,40,女性,40女性
7,CS029403000008,1973-08-17,40,男性,40男性
8,CS015804000004,1931-05-02,60,男性,60男性
9,CS033513000180,1962-07-11,50,女性,50女性


---
> P-058: 顧客データフレーム（df_customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに抽出せよ。結果は10件表示させれば良い。

In [16]:
tmp = pd.get_dummies(df_customer[["gender_cd"]])
ans = pd.concat([df_customer["customer_id"],tmp],axis=1)
ans[:10]

Unnamed: 0,customer_id,gender_cd_0,gender_cd_1,gender_cd_9
0,CS021313000114,0,1,0
1,CS037613000071,0,0,1
2,CS031415000172,0,1,0
3,CS028811000001,0,1,0
4,CS001215000145,0,1,0
5,CS020401000016,1,0,0
6,CS015414000103,0,1,0
7,CS029403000008,1,0,0
8,CS015804000004,1,0,0
9,CS033513000180,0,1,0


---
> P-059: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに表示せよ。標準化に使用する標準偏差は、不偏標準偏差と標本標準偏差のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [17]:
tmp = df_receipt.query("not customer_id.str.startswith('Z')",engine="python")
tmp = tmp.groupby("customer_id").agg({"amount":"sum"})
tmp["amount_ss"] = (tmp - tmp.mean())/tmp.std(ddof=0)
# tmp["amount_ss"] = preprocessing.scale(tmp["amount"])
tmp.reset_index()[:10]

# tmp = df_receipt.query("not customer_id.str.startswith('Z')",engine="python").groupby("customer_id").agg({"amount":"sum"}).reset_index()
# tmp["smount_ss"] = preprocessing.scale(tmp["amount"])
# tmp[:10]

Unnamed: 0,customer_id,amount,amount_ss
0,CS001113000004,1298,-0.459378
1,CS001114000005,626,-0.70639
2,CS001115000010,3044,0.182413
3,CS001205000004,1988,-0.205749
4,CS001205000006,3337,0.290114
5,CS001211000025,456,-0.768879
6,CS001212000027,448,-0.771819
7,CS001212000031,296,-0.827691
8,CS001212000046,228,-0.852686
9,CS001212000070,456,-0.768879


---
> P-060: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [22]:
tmp = df_receipt.query("not customer_id.str.startswith('Z')",engine="python")
tmp = tmp.groupby("customer_id").agg({"amount":"sum"})
tmp["amount_mm"] = preprocessing.minmax_scale(tmp["amount"])
tmp.reset_index()[:10]

Unnamed: 0,customer_id,amount,amount_mm
0,CS001113000004,1298,0.053354
1,CS001114000005,626,0.024157
2,CS001115000010,3044,0.129214
3,CS001205000004,1988,0.083333
4,CS001205000006,3337,0.141945
5,CS001211000025,456,0.016771
6,CS001212000027,448,0.016423
7,CS001212000031,296,0.009819
8,CS001212000046,228,0.006865
9,CS001212000070,456,0.016771


---
> P-061: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を常用対数化（底=10）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [25]:
tmp = df_receipt.query("not customer_id.str.startswith('Z')",engine="python")
tmp = tmp.groupby("customer_id").agg({"amount":"sum"})
# tmp["amount_log10"] = np.log10(tmp["amount"])
tmp["amount_log10"] = np.log10(tmp["amount"] + 1)
tmp.reset_index()[:10]

Unnamed: 0,customer_id,amount,amount_log10
0,CS001113000004,1298,3.113609
1,CS001114000005,626,2.797268
2,CS001115000010,3044,3.483587
3,CS001205000004,1988,3.298635
4,CS001205000006,3337,3.523486
5,CS001211000025,456,2.659916
6,CS001212000027,448,2.652246
7,CS001212000031,296,2.472756
8,CS001212000046,228,2.359835
9,CS001212000070,456,2.659916


---
> P-062: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を自然対数化(底=e）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [26]:
tmp = df_receipt.query("not customer_id.str.startswith('Z')",engine="python")
tmp = tmp.groupby("customer_id").agg({"amount":"sum"})
# tmp["amount_loge"] = np.log(tmp["amount"])
tmp["amount_loge"] = np.log(tmp["amount"] + 1)
tmp.reset_index()[:10]

Unnamed: 0,customer_id,amount,amount_loge
0,CS001113000004,1298,7.16935
1,CS001114000005,626,6.440947
2,CS001115000010,3044,8.021256
3,CS001205000004,1988,7.595387
4,CS001205000006,3337,8.113127
5,CS001211000025,456,6.124683
6,CS001212000027,448,6.107023
7,CS001212000031,296,5.693732
8,CS001212000046,228,5.433722
9,CS001212000070,456,6.124683


---
> P-063: 商品データフレーム（df_product）の単価（unit_price）と原価（unit_cost）から、各商品の利益額を算出せよ。結果は10件表示させれば良い。

In [35]:
tmp = df_product["product_cd"]
tmp1 = df_product["unit_price"] - df_product["unit_cost"]
tmp2 = pd.concat([tmp,tmp1],axis=1)
tmp2.columns = ["product_cd","unit_profit"]
tmp2[:10]


Unnamed: 0,product_cd,unit_profit
0,P040101001,49.0
1,P040101002,54.0
2,P040101003,57.0
3,P040101004,62.0
4,P040101005,67.0
5,P040101006,74.0
6,P040101007,84.0
7,P040101008,105.0
8,P040101009,124.0
9,P040101010,145.0


---
> P-064: 商品データフレーム（df_product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。
ただし、単価と原価にはNULLが存在することに注意せよ。

In [38]:
tmp = df_product[["product_cd","unit_price","unit_cost"]].copy()
tmp["unit_profit_rate"] = (df_product["unit_price"] - df_product["unit_cost"]) / df_product["unit_price"]
tmp["unit_profit_rate"].mean(skipna = True)


0.24911389885176904

---
> P-065: 商品データフレーム（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [52]:
tmp = df_product[["product_cd","unit_price","unit_cost"]].copy()
tmp["unit_new_price"] = np.floor(df_product["unit_cost"] / (1 - 0.3))
tmp["unit_profit_rate"] = (tmp["unit_new_price"] - tmp["unit_cost"]) / tmp["unit_new_price"]
print(tmp["unit_profit_rate"].mean(skipna = True))
tmp[:10]
# tmp[tmp["unit_new_price"].isnull()]

0.298678449725414


Unnamed: 0,product_cd,unit_price,unit_cost,unit_new_price,unit_profit_rate
0,P040101001,198.0,149.0,212.0,0.29717
1,P040101002,218.0,164.0,234.0,0.299145
2,P040101003,230.0,173.0,247.0,0.299595
3,P040101004,248.0,186.0,265.0,0.298113
4,P040101005,268.0,201.0,287.0,0.299652
5,P040101006,298.0,224.0,320.0,0.3
6,P040101007,338.0,254.0,362.0,0.298343
7,P040101008,420.0,315.0,450.0,0.3
8,P040101009,498.0,374.0,534.0,0.299625
9,P040101010,580.0,435.0,621.0,0.299517


---
> P-066: 商品データフレーム（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を四捨五入すること（0.5については偶数方向の丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [54]:
tmp = df_product[["product_cd","unit_price","unit_cost"]].copy()
tmp["unit_new_price"] = np.round(df_product["unit_cost"] / (1 - 0.3))
tmp["unit_profit_rate"] = (tmp["unit_new_price"] - tmp["unit_cost"]) / tmp["unit_new_price"]
print(tmp["unit_profit_rate"].mean(skipna = True))
tmp[:10]
# tmp[tmp["unit_new_price"].isnull()]

0.2999568445636658


Unnamed: 0,product_cd,unit_price,unit_cost,unit_new_price,unit_profit_rate
0,P040101001,198.0,149.0,213.0,0.300469
1,P040101002,218.0,164.0,234.0,0.299145
2,P040101003,230.0,173.0,247.0,0.299595
3,P040101004,248.0,186.0,266.0,0.300752
4,P040101005,268.0,201.0,287.0,0.299652
5,P040101006,298.0,224.0,320.0,0.3
6,P040101007,338.0,254.0,363.0,0.300275
7,P040101008,420.0,315.0,450.0,0.3
8,P040101009,498.0,374.0,534.0,0.299625
9,P040101010,580.0,435.0,621.0,0.299517


---
> P-067: 商品データフレーム（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [55]:
tmp = df_product[["product_cd","unit_price","unit_cost"]].copy()
tmp["unit_new_price"] = np.ceil(df_product["unit_cost"] / (1 - 0.3))
tmp["unit_profit_rate"] = (tmp["unit_new_price"] - tmp["unit_cost"]) / tmp["unit_new_price"]
print(tmp["unit_profit_rate"].mean(skipna = True))
tmp[:10]
# tmp[tmp["unit_new_price"].isnull()]

0.3014164030578494


Unnamed: 0,product_cd,unit_price,unit_cost,unit_new_price,unit_profit_rate
0,P040101001,198.0,149.0,213.0,0.300469
1,P040101002,218.0,164.0,235.0,0.302128
2,P040101003,230.0,173.0,248.0,0.302419
3,P040101004,248.0,186.0,266.0,0.300752
4,P040101005,268.0,201.0,288.0,0.302083
5,P040101006,298.0,224.0,320.0,0.3
6,P040101007,338.0,254.0,363.0,0.300275
7,P040101008,420.0,315.0,451.0,0.301552
8,P040101009,498.0,374.0,535.0,0.300935
9,P040101010,580.0,435.0,622.0,0.300643


---
> P-068: 商品データフレーム（df_product）の各商品について、消費税率10%の税込み金額を求めよ。 1円未満の端数は切り捨てとし、結果は10件表示すれば良い。ただし、単価（unit_price）にはNULLが存在することに注意せよ。

In [58]:
tmp = df_product[["product_cd","unit_price","unit_cost"]].copy()
tmp["unit_price_tax"] = np.floor(df_product["unit_price"] * 1.1)
tmp[:10]
# tmp[tmp["unit_new_price"].isnull()]

Unnamed: 0,product_cd,unit_price,unit_cost,unit_price_tax
0,P040101001,198.0,149.0,217.0
1,P040101002,218.0,164.0,239.0
2,P040101003,230.0,173.0,253.0
3,P040101004,248.0,186.0,272.0
4,P040101005,268.0,201.0,294.0
5,P040101006,298.0,224.0,327.0
6,P040101007,338.0,254.0,371.0
7,P040101008,420.0,315.0,462.0
8,P040101009,498.0,374.0,547.0
9,P040101010,580.0,435.0,638.0


---
> P-069: レシート明細データフレーム（df_receipt）と商品データフレーム（df_product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分"07"（瓶詰缶詰）の購入実績がある顧客のみとし、結果は10件表示させればよい。

In [85]:
# df_receipt
# df_product
tmp1 = pd.merge(df_receipt,df_product,how="inner",on="product_cd")
tmp1 = tmp1.groupby("customer_id").agg({"amount":"sum"}).reset_index()

tmp2 = pd.merge(df_receipt,df_product.query("category_major_cd == '07'"),how="inner",on="product_cd")
tmp2 = tmp2.groupby("customer_id").agg({"amount":"sum"}).reset_index()

tmp3 = pd.merge(tmp1,tmp2,how="inner",on="customer_id")
tmp3["rate_07"] = tmp3["amount_y"] / tmp3["amount_x"]
tmp3[:10]



Unnamed: 0,customer_id,amount_x,amount_y,rate_07
0,CS001113000004,1298,1298,1.0
1,CS001114000005,626,486,0.776358
2,CS001115000010,3044,2694,0.88502
3,CS001205000004,1988,346,0.174044
4,CS001205000006,3337,2004,0.600539
5,CS001212000027,448,200,0.446429
6,CS001212000031,296,296,1.0
7,CS001212000046,228,108,0.473684
8,CS001212000070,456,308,0.675439
9,CS001213000018,243,145,0.596708


---
> P-070: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [96]:
tmp1 = df_receipt[["customer_id","sales_ymd"]]
tmp1["sales_ymd_"] = pd.to_datetime(tmp1["sales_ymd"].astype("str"))
# tmp1

tmp2 = df_customer[["customer_id","application_date"]]
tmp2["application_date_"] = pd.to_datetime(tmp2["application_date"])
# tmp2

tmp3 = pd.merge(tmp1,tmp2,how="inner",on="customer_id")
tmp3["elapsed_date"] = tmp3["sales_ymd_"] - tmp3["application_date_"]
tmp3 = tmp3.drop_duplicates()
tmp3.head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,customer_id,sales_ymd,sales_ymd_,application_date,application_date_,elapsed_date
0,CS006214000001,20181103,2018-11-03,20150201,2015-02-01,1371 days
1,CS006214000001,20170509,2017-05-09,20150201,2015-02-01,828 days
2,CS006214000001,20170608,2017-06-08,20150201,2015-02-01,858 days
4,CS006214000001,20181028,2018-10-28,20150201,2015-02-01,1365 days
7,CS006214000001,20190908,2019-09-08,20150201,2015-02-01,1680 days
8,CS006214000001,20180131,2018-01-31,20150201,2015-02-01,1095 days
9,CS006214000001,20170705,2017-07-05,20150201,2015-02-01,885 days
10,CS006214000001,20181110,2018-11-10,20150201,2015-02-01,1378 days
12,CS006214000001,20190410,2019-04-10,20150201,2015-02-01,1529 days
15,CS006214000001,20190601,2019-06-01,20150201,2015-02-01,1581 days


---
> P-071: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [106]:
tmp1 = df_receipt[["customer_id","sales_ymd"]]
tmp1["sales_ymd_"] = pd.to_datetime(tmp1["sales_ymd"].astype("str"))
# tmp1

tmp2 = df_customer[["customer_id","application_date"]]
tmp2["application_date_"] = pd.to_datetime(tmp2["application_date"])
# tmp2

tmp3 = pd.merge(tmp1,tmp2,how="inner",on="customer_id")
# func = lambda x:(x[0].year-x[1].year)*12 + x[0].month - x[1].month
func = lambda x:relativedelta(x[0],x[1]).years*12+relativedelta(x[0],x[1]).months
tmp3["elapsed_month"] = tmp3[["sales_ymd_","application_date_"]].apply(func,axis=1)
tmp3 = tmp3.drop_duplicates().reset_index()
tmp3.sort_values("customer_id").head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,index,customer_id,sales_ymd,sales_ymd_,application_date,application_date_,elapsed_month
29764,60376,CS001113000004,20190308,2019-03-08,20151105,2015-11-05,40
9915,20158,CS001114000005,20190731,2019-07-31,20160412,2016-04-12,39
9914,20156,CS001114000005,20180503,2018-05-03,20160412,2016-04-12,24
14331,29140,CS001115000010,20190405,2019-04-05,20150417,2015-04-17,47
14332,29141,CS001115000010,20180701,2018-07-01,20150417,2015-04-17,38
14333,29142,CS001115000010,20171228,2017-12-28,20150417,2015-04-17,32
3204,6526,CS001205000004,20190625,2019-06-25,20160615,2016-06-15,36
3203,6521,CS001205000004,20190312,2019-03-12,20160615,2016-06-15,32
3200,6518,CS001205000004,20180821,2018-08-21,20160615,2016-06-15,26
3202,6520,CS001205000004,20170914,2017-09-14,20160615,2016-06-15,14


---
> P-072: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い。（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [110]:
tmp1 = df_receipt[["customer_id","sales_ymd"]]
tmp1["sales_ymd_"] = pd.to_datetime(tmp1["sales_ymd"].astype("str"))
# tmp1

tmp2 = df_customer[["customer_id","application_date"]]
tmp2["application_date_"] = pd.to_datetime(tmp2["application_date"])
# tmp2

tmp3 = pd.merge(tmp1,tmp2,how="inner",on="customer_id")
# func = lambda x:(x[0].year-x[1].year)*12 + x[0].month - x[1].month
func = lambda x:relativedelta(x[0],x[1]).years
tmp3["elapsed_year"] = tmp3[["sales_ymd_","application_date_"]].apply(func,axis=1)
tmp3 = tmp3.drop_duplicates().reset_index()
# tmp3.sort_values("customer_id").head(10)
tmp3.head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,index,customer_id,sales_ymd,sales_ymd_,application_date,application_date_,elapsed_year
0,0,CS006214000001,20181103,2018-11-03,20150201,2015-02-01,3
1,1,CS006214000001,20170509,2017-05-09,20150201,2015-02-01,2
2,2,CS006214000001,20170608,2017-06-08,20150201,2015-02-01,2
3,4,CS006214000001,20181028,2018-10-28,20150201,2015-02-01,3
4,7,CS006214000001,20190908,2019-09-08,20150201,2015-02-01,4
5,8,CS006214000001,20180131,2018-01-31,20150201,2015-02-01,2
6,9,CS006214000001,20170705,2017-07-05,20150201,2015-02-01,2
7,10,CS006214000001,20181110,2018-11-10,20150201,2015-02-01,3
8,12,CS006214000001,20190410,2019-04-10,20150201,2015-02-01,4
9,15,CS006214000001,20190601,2019-06-01,20150201,2015-02-01,4


---
> P-073: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [116]:
tmp1 = df_receipt[["customer_id","sales_ymd"]]
tmp1["sales_ymd_"] = pd.to_datetime(tmp1["sales_ymd"].astype("str"))
# tmp1

tmp2 = df_customer[["customer_id","application_date"]]
tmp2["application_date_"] = pd.to_datetime(tmp2["application_date"])
# tmp2

tmp3 = pd.merge(tmp1,tmp2,how="inner",on="customer_id")
func = lambda x:x[0].timestamp() - x[1].timestamp()
# tmp3["elapsed_second"] = tmp3["sales_ymd_"].astype("int") - tmp3["application_date_"].astype("int")
tmp3["elapsed_year"] = tmp3[["sales_ymd_","application_date_"]].apply(func,axis=1)
tmp3 = tmp3.drop_duplicates()
tmp3.head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,customer_id,sales_ymd,sales_ymd_,application_date,application_date_,elapsed_year
0,CS006214000001,20181103,2018-11-03,20150201,2015-02-01,118454400.0
1,CS006214000001,20170509,2017-05-09,20150201,2015-02-01,71539200.0
2,CS006214000001,20170608,2017-06-08,20150201,2015-02-01,74131200.0
4,CS006214000001,20181028,2018-10-28,20150201,2015-02-01,117936000.0
7,CS006214000001,20190908,2019-09-08,20150201,2015-02-01,145152000.0
8,CS006214000001,20180131,2018-01-31,20150201,2015-02-01,94608000.0
9,CS006214000001,20170705,2017-07-05,20150201,2015-02-01,76464000.0
10,CS006214000001,20181110,2018-11-10,20150201,2015-02-01,119059200.0
12,CS006214000001,20190410,2019-04-10,20150201,2015-02-01,132105600.0
15,CS006214000001,20190601,2019-06-01,20150201,2015-02-01,136598400.0


---
> P-074: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、当該週の月曜日付とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値でデータを保持している点に注意）。

In [122]:
tmp1 = df_receipt[["customer_id","sales_ymd"]]
tmp1.loc[:,"sales_ymd_"] = pd.to_datetime(tmp1["sales_ymd"].astype("str"))

func = lambda x:x - relativedelta(days=x.weekday())
tmp1.loc[:,"monday"] = tmp1["sales_ymd_"].apply(func)

tmp1.loc[:,"elapsed_monday"] = tmp1["sales_ymd_"] - tmp1["monday"]
tmp1 = tmp1.drop_duplicates()
tmp1.head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[key] = _infer_fill_value(value)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[item] = s


Unnamed: 0,customer_id,sales_ymd,sales_ymd_,monday,elapsed_monday
0,CS006214000001,20181103,2018-11-03,2018-10-29,5 days
1,CS008415000097,20181118,2018-11-18,2018-11-12,6 days
2,CS028414000014,20170712,2017-07-12,2017-07-10,2 days
3,ZZ000000000000,20190205,2019-02-05,2019-02-04,1 days
4,CS025415000050,20180821,2018-08-21,2018-08-20,1 days
5,CS003515000195,20190605,2019-06-05,2019-06-03,2 days
6,CS024514000042,20181205,2018-12-05,2018-12-03,2 days
7,CS040415000178,20190922,2019-09-22,2019-09-16,6 days
8,ZZ000000000000,20170504,2017-05-04,2017-05-01,3 days
9,CS027514000015,20191010,2019-10-10,2019-10-07,3 days


---
> P-075: 顧客データフレーム（df_customer）からランダムに1%のデータを抽出し、先頭から10件データを抽出せよ。

In [123]:
df_customer.sample(frac=0.01)[:10]

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
9552,CS005415000184,宇野 沙知絵,1,女性,1973-03-26,46,165-0032,東京都中野区鷺宮**********,S13005,20150720,9-20100813-C
11423,CS029315000039,藤山 優,1,女性,1984-01-04,35,279-0021,千葉県浦安市富岡**********,S12029,20150614,A-20090421-5
1129,CS020414000104,奥野 倫子,1,女性,1972-07-25,46,174-0053,東京都板橋区清水町**********,S13020,20150511,C-20100929-B
1443,CS006301000003,滝沢 幸平,0,男性,1981-05-13,37,221-0864,神奈川県横浜市神奈川区菅田町**********,S14006,20150519,0-00000000-0
3899,CS023215000017,蒼井 なぎさ,1,女性,1989-12-21,29,212-0016,神奈川県川崎市幸区南幸町**********,S14023,20150618,F-20100312-C
14013,CS022713000075,吉永 恵梨香,1,女性,1945-12-16,73,249-0001,神奈川県逗子市久木**********,S14022,20180508,0-00000000-0
10753,CS020512000043,田崎 みゆき,1,女性,1964-04-17,54,174-0071,東京都板橋区常盤台**********,S13020,20150428,0-00000000-0
16738,CS004413000804,大矢 綾女,1,女性,1969-06-24,49,165-0034,東京都中野区大和町**********,S13004,20171213,0-00000000-0
21133,CS019412000008,山形 咲,1,女性,1976-02-08,43,173-0035,東京都板橋区大谷口**********,S13019,20150113,3-20100926-3
8824,CS030614000056,小笠原 涼,1,女性,1953-02-28,66,272-0021,千葉県市川市八幡**********,S12030,20151216,4-20081229-5


---
> P-076: 顧客データフレーム（df_customer）から性別（gender_cd）の割合に基づきランダムに10%のデータを層化抽出データし、性別ごとに件数を集計せよ。

In [124]:
# from sklearn.model_selection import train_test_split
# train_test_splitを使う

train,test = train_test_split(df_customer,test_size=0.1,stratify=df_customer["gender"])
test.groupby("gender_cd").agg({"customer_id":"count"})

Unnamed: 0_level_0,customer_id
gender_cd,Unnamed: 1_level_1
0,298
1,1793
9,107


In [127]:
test.head(10)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
10795,CS005713000041,戸塚 美帆,1,女性,1944-08-18,74,167-0022,東京都杉並区下井草**********,S13005,20150314,0-00000000-0
9864,CS003412000643,相原 奈央,1,女性,1977-10-23,41,214-0003,神奈川県川崎市多摩区菅稲田堤**********,S13003,20170429,0-00000000-0
7785,CS003702000044,綾瀬 はじめ,0,男性,1941-10-13,77,214-0011,神奈川県川崎市多摩区布田**********,S13003,20160325,0-00000000-0
21378,CS006514000125,岩沢 陽子,1,女性,1960-06-05,58,224-0032,神奈川県横浜市都筑区茅ケ崎中央**********,S14006,20160603,3-20100913-2
6059,CS009314000003,松永 ひろ子,1,女性,1980-03-17,39,158-0095,東京都世田谷区瀬田**********,S13009,20150812,7-20090619-8
5472,CS031315000210,紺野 芽以,1,女性,1985-05-15,33,151-0071,東京都渋谷区本町**********,S13031,20180602,0-00000000-0
19357,CS004413000398,田村 法子,1,女性,1974-01-16,45,165-0033,東京都中野区若宮**********,S13004,20160826,0-00000000-0
2535,CS009401000004,亀井 明,0,男性,1973-07-01,45,156-0052,東京都世田谷区経堂**********,S13009,20160220,0-00000000-0
2025,CS009314000042,石倉 美紀,1,女性,1982-10-13,36,158-0097,東京都世田谷区用賀**********,S13009,20150331,9-20100319-8
8846,CS021412000150,竹村 幸子,1,女性,1972-05-15,46,259-1147,神奈川県伊勢原市白根**********,S14021,20160201,0-00000000-0


---
> P-077: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を平均から3σ以上離れたものとする。結果は10件表示させれば良い。

In [129]:
# sklearnのpreprocess.scaleを利用すると標本標準偏差を得られる
tmp = df_receipt.query("not customer_id.str.startswith('Z')",engine="python")
tmp = tmp.groupby("customer_id").agg({"amount":"sum"})
tmp["amount_ss"] = preprocessing.scale(tmp["amount"])
filter = abs(tmp["amount_ss"]) >=3
tmp[filter][:10]

Unnamed: 0_level_0,amount,amount_ss
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
CS001605000009,18925,6.019921
CS006415000147,12723,3.740202
CS006515000023,18372,5.816651
CS006515000125,12575,3.6858
CS006515000209,11373,3.243972
CS007115000006,11528,3.300946
CS007514000056,13293,3.949721
CS007514000094,15735,4.847347
CS007515000107,11188,3.17597
CS007615000026,11959,3.459372


---
> P-078: レシート明細データフレーム（df_receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第一四分位と第三四分位の差であるIQRを用いて、「第一四分位数-1.5×IQR」よりも下回るもの、または「第三四分位数+1.5×IQR」を超えるものとする。結果は10件表示させれば良い。

In [132]:
tmp = df_receipt.query("not customer_id.str.startswith('Z')",engine="python")
tmp = tmp.groupby("customer_id").agg({"amount":"sum"})
qts = tmp.quantile([0,0.25, 0.5, 0.75, 1.0])
qts = list(qts["amount"])
q25 = qts[1]
q75 = qts[3]
iqr = q75-q25
lownum = q25 - 1.5*iqr
highnum = q75 + 1.5*iqr

tmp.query("amount < @lownum or amount > @highnum").head(10)

Unnamed: 0_level_0,amount
customer_id,Unnamed: 1_level_1
CS001414000048,8584
CS001605000009,18925
CS002415000594,9568
CS004414000181,9584
CS005415000137,8734
CS006414000001,9156
CS006414000029,9179
CS006415000105,10042
CS006415000147,12723
CS006415000157,10648


---
> P-079: 商品データフレーム（df_product）の各項目に対し、欠損数を確認せよ。

In [134]:
df_product.isnull().sum()

product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            7
unit_cost             7
dtype: int64

---
> P-080: 商品データフレーム（df_product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たなdf_product_1を作成せよ。なお、削除前後の件数を表示させ、前設問で確認した件数だけ減少していることも確認すること。

In [136]:
print(len(df_product))
df_product_1 = df_product.dropna()
print(len(df_product_1))

10030
10023


---
> P-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たなdf_product_2を作成せよ。なお、平均値について1円未満は四捨五入とし、0.5については偶数寄せでかまわない。補完実施後、各項目について欠損が生じていないことも確認すること。

In [155]:
pricemean = np.round(np.nanmean(df_product["unit_price"]))
costmean = np.round(np.nanmean(df_product["unit_cost"]))
print(pricemean,costmean)

pricemean = np.round(np.mean(df_product["unit_price"]))
costmean = np.round(np.mean(df_product["unit_cost"]))
print(pricemean,costmean)

df_product_2 = df_product.fillna({"unit_price":pricemean,"unit_cost":costmean})
df_product_2.isnull().sum()

403.0 302.0
403.0 302.0


product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            0
unit_cost             0
dtype: int64

---
> P-082: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たなdf_product_3を作成せよ。なお、中央値について1円未満は四捨五入とし、0.5については偶数寄せでかまわない。補完実施後、各項目について欠損が生じていないことも確認すること。

In [153]:
pricemedian = np.round(np.nanmedian(df_product["unit_price"]))
costmedian = np.round(np.nanmedian(df_product["unit_cost"]))
# pricemedian = np.round(np.median(df_product["unit_price"]))
# costmedian = np.round(np.median(df_product["unit_cost"]))

df_product_3 = df_product.fillna({"unit_price":pricemean,"unit_cost":costmean})
df_product_3.isnull().sum()

product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            0
unit_cost             0
dtype: int64

---
> P-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品の小区分（category_small_cd）ごとに算出した中央値で補完した新たなdf_product_4を作成せよ。なお、中央値について1円未満は四捨五入とし、0.5については偶数寄せでかまわない。補完実施後、各項目について欠損が生じていないことも確認すること。

In [152]:
func = lambda x:np.round(np.nanmedian(x))
tmp = df_product.groupby("category_small_cd").agg({"unit_price":func,"unit_cost":func}).reset_index()
tmp.columns = ["category_small_cd","price_median","cost_median"]

df_product_4 = pd.merge(df_product,tmp,how="inner",on="category_small_cd")
func2 = lambda x:x[1] if np.isnan(x[0]) else x[0]
df_product_4["unit_price"] = df_product_4[["unit_price","price_median"]].apply(func2,axis=1)
df_product_4["unit_cost"] = df_product_4[["unit_cost","cost_median"]].apply(func2,axis=1)

# tmp
# df_price.loc["040101"]
# df_product_4.head(10)
df_product_4.isnull().sum()

product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            0
unit_cost             0
price_median          0
cost_median           0
dtype: int64

---
> P-084: 顧客データフレーム（df_customer）の全顧客に対し、全期間の売上金額に占める2019年売上金額の割合を計算せよ。ただし、販売実績のない場合は0として扱うこと。そして計算した割合が0超のものを抽出せよ。 結果は10件表示させれば良い。また、作成したデータにNAやNANが存在しないことを確認せよ。

In [180]:
tmp1 = df_receipt.query("20190101 <= sales_ymd <= 20191231").groupby("customer_id").agg({"amount":"sum"}).reset_index()
tmp1.columns = ["customer_id","amount_2019"]
tmp2 = df_receipt.groupby("customer_id").agg({"amount":"sum"}).reset_index()
tmp2.columns = ["customer_id","amount_all"]

ans = pd.merge(df_customer,tmp1,how="left",on="customer_id")
ans = pd.merge(ans,tmp2,how="left",on="customer_id")
ans = ans.fillna(0)
ans["rateOf2019"] = ans["amount_2019"] / ans["amount_all"]
ans = ans.fillna(0)

ans = ans.query("rateOf2019 > 0")[["customer_id","amount_2019","amount_all","rateOf2019"]]
ans.sort_values("customer_id").head(10)
# ans.isnull().sum()
# ans.query("customer_id == 'CS001114000005'")
# ans.query("customer_id == 'CS001205000004'") #表示されるデータは違うけど内容は合ってるぽい

 

Unnamed: 0,customer_id,amount_2019,amount_all,rateOf2019
3718,CS001113000004,1298.0,1298.0,1.0
19087,CS001114000005,188.0,626.0,0.300319
16778,CS001115000010,578.0,3044.0,0.189882
2786,CS001205000004,702.0,1988.0,0.353119
8428,CS001205000006,486.0,3337.0,0.14564
16733,CS001211000025,456.0,456.0,1.0
19987,CS001212000070,456.0,456.0,1.0
7728,CS001214000009,664.0,4685.0,0.141729
8924,CS001214000017,2962.0,4132.0,0.716844
18827,CS001214000048,1889.0,2374.0,0.795703


---
> P-085: 顧客データフレーム（df_customer）の全顧客に対し、郵便番号（postal_cd）を用いて経度緯度変換用データフレーム（df_geocode）を紐付け、新たなdf_customer_1を作成せよ。ただし、複数紐づく場合は経度（longitude）、緯度（latitude）それぞれ平均を算出すること。


In [193]:
# df_geocode.columns
tmp1 = pd.merge(df_customer[["customer_id","postal_cd"]],df_geocode[["postal_cd","longitude","latitude"]],how="inner",on="postal_cd")
tmp1 = tmp1.groupby("customer_id").agg({"longitude":"mean","latitude":"mean"}).reset_index()
df_customer_1 = pd.merge(df_customer,tmp1,how="inner",on="customer_id")
df_customer_1.head(3)

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,longitude,latitude
0,CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0,139.31779,35.41358
1,CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0,139.83502,35.67193
2,CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C,139.68965,35.67374


---
> P-086: 前設問で作成した緯度経度つき顧客データフレーム（df_customer_1）に対し、申込み店舗コード（application_store_cd）をキーに店舗データフレーム（df_store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客の緯度・経度を用いて距離（km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示すれば良い。

$$
緯度（ラジアン）：\phi \\
経度（ラジアン）：\lambda \\
距離L = 6371 * arccos(sin \phi_1 * sin \phi_2
+ cos \phi_1 * cos \phi_2 * cos(\lambda_1 − \lambda_2))
$$

In [203]:
tmp = pd.merge(df_customer_1,df_store,how="inner",left_on="application_store_cd",right_on="store_cd")
tmp = tmp[["customer_id","address_x","longitude_x","latitude_x","address_y","longitude_y","latitude_y"]]

def calc_geo_distance(x1,y1,x2,y2):
    x1 = math.radians(x1)
    x2 = math.radians(x2)
    y1 = math.radians(y1)
    y2 = math.radians(y2)
    distance = 6371*math.acos(math.sin(y1)*math.sin(y2)+math.cos(y1)*math.cos(y2)*math.cos(x1-x2))
    return distance

tmp["distance"] = tmp[["longitude_x","latitude_x","longitude_y","latitude_y"]].apply(
    lambda x:calc_geo_distance(x[0],x[1],x[2],x[3]),axis=1
)
tmp = tmp[["customer_id","address_x","address_y","distance"]]
tmp[:10]

Unnamed: 0,customer_id,address_x,address_y,distance
0,CS021313000114,神奈川県伊勢原市粟窪**********,神奈川県伊勢原市伊勢原四丁目,1.394409
1,CS021313000025,神奈川県伊勢原市伊勢原**********,神奈川県伊勢原市伊勢原四丁目,0.474282
2,CS021411000096,神奈川県伊勢原市高森**********,神奈川県伊勢原市伊勢原四丁目,2.480155
3,CS021415000150,神奈川県伊勢原市上粕屋**********,神奈川県伊勢原市伊勢原四丁目,2.734723
4,CS021313000046,神奈川県伊勢原市池端**********,神奈川県伊勢原市伊勢原四丁目,1.111911
5,CS021103000002,神奈川県伊勢原市西富岡**********,神奈川県伊勢原市伊勢原四丁目,2.384941
6,CS021214000028,神奈川県伊勢原市桜台**********,神奈川県伊勢原市伊勢原四丁目,1.399344
7,CS021512000095,神奈川県伊勢原市沼目**********,神奈川県伊勢原市伊勢原四丁目,1.993991
8,CS021613000002,神奈川県伊勢原市桜台**********,神奈川県伊勢原市伊勢原四丁目,1.399344
9,CS021412000147,神奈川県伊勢原市三ノ宮**********,神奈川県伊勢原市伊勢原四丁目,3.50768


---
> P-087:  顧客データフレーム（df_customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなし、1顧客1レコードとなるように名寄せした名寄顧客データフレーム（df_customer_u）を作成せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残すものとし、売上金額合計が同一もしくは売上実績の無い顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [209]:
tmp = df_receipt.groupby("customer_id").agg({"amount":"sum"}).reset_index()
tmp = pd.merge(df_customer,tmp,how="left",on="customer_id")
tmp = tmp.sort_values(["amount","customer_id"],ascending=[False,True])
df_customer_u = tmp.drop_duplicates(subset=["customer_name","postal_cd"],keep="first")
df_customer_u
# print("減少数",len(df_customer)-len(df_customer_u))

Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,amount
16905,CS017415000097,福士 千夏,1,女性,1973-04-03,45,166-0014,東京都杉並区松ノ木**********,S13017,20151209,F-20101006-F,23086.0
12692,CS015415000185,岩淵 はるみ,1,女性,1973-09-19,45,135-0043,東京都江東区塩浜**********,S13015,20150322,F-20101014-F,20153.0
13550,CS031414000051,長澤 沙知絵,1,女性,1973-04-25,45,151-0064,東京都渋谷区上原**********,S13031,20150823,F-20101009-F,19202.0
4808,CS028415000007,紺野 あい,1,女性,1969-07-28,49,246-0023,神奈川県横浜市瀬谷区阿久和東**********,S14028,20151212,F-20100922-F,19127.0
14205,CS001605000009,安部 耕司,0,男性,1952-10-22,66,144-0035,東京都大田区南蒲田**********,S13001,20160203,F-20101019-E,18925.0
...,...,...,...,...,...,...,...,...,...,...,...,...
4377,CS053612000002,川島 ヒカル,1,女性,1957-12-18,61,272-0138,千葉県市川市南行徳**********,S12053,20180707,0-00000000-0,
1537,CS053615000001,大森 郁恵,1,女性,1952-10-27,66,279-0023,千葉県浦安市高洲**********,S12053,20180317,0-00000000-0,
3005,CS053615000003,田村 ひろ子,1,女性,1949-07-22,69,279-0022,千葉県浦安市今川**********,S12053,20190307,0-00000000-0,
7438,CS053702000002,松島 公顕,0,男性,1946-09-25,72,279-0031,千葉県浦安市舞浜**********,S12053,20180901,0-00000000-0,


---
> P-088: 前設問で作成したデータを元に、顧客データフレームに統合名寄IDを付与したデータフレーム（df_customer_n）を作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
> - 重複していない顧客：顧客ID（customer_id）を設定
> - 重複している顧客：前設問で抽出したレコードの顧客IDを設定

In [211]:
tmp = pd.merge(df_customer,df_customer_u[["customer_name","postal_cd","customer_id"]],how="left",on=["customer_name","postal_cd"])
df_customer_n = tmp.rename(columns={"customer_id_x":"customer_id","customer_id_y":"integration_id"})
# df_customer_n
print("ID数の差",df_customer_n["customer_id"].nunique() - df_customer_n["integration_id"].nunique())

ID数の差 30


---
> P-閑話: df_customer_1, df_customer_nは使わないので削除する。

In [212]:
del df_customer_1
del df_customer_n

---
> P-089: 売上実績のある顧客に対し、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [215]:
tmp = pd.merge(df_customer,df_receipt["customer_id"],how="inner",on="customer_id")
train,test = train_test_split(tmp,test_size=0.2,random_state=71)
# tmp
print("学習データ割合:",len(train)/len(tmp))
print("テストデータ割合:",len(test)/len(tmp))

学習データ割合: 0.7999908650771901
テストデータ割合: 0.2000091349228099


---
> P-090: レシート明細データフレーム（df_receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月のモデル構築用データを3セット作成せよ。

In [234]:
tmp = df_receipt.copy()
tmp["sales_date"] = pd.to_datetime(tmp["sales_ymd"].astype("str"))
tmp = tmp.set_index("sales_date")
tmp = tmp[["amount"]].resample("M").sum()

trains = [0]*3
tests = [0]*3
for i in range(3):
    trains[i] = tmp[i:12+i]
    tests[i] = tmp[12+i:18+i]

# trains[1]
tests[1]

Unnamed: 0_level_0,amount
sales_date,Unnamed: 1_level_1
2018-02-28,864128
2018-03-31,946588
2018-04-30,937099
2018-05-31,1004438
2018-06-30,1012329
2018-07-31,1058472


---
> P-091: 顧客データフレーム（df_customer）の各顧客に対し、売上実績のある顧客数と売上実績のない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [251]:
tmp1 = df_receipt.groupby("customer_id").agg({"amount":"sum"}).reset_index()
tmp = pd.merge(df_customer,tmp1,how="left",on="customer_id")
# tmp["buy_flg"] = tmp["amount"].apply(lambda x: 0 if np.isnan(x) else 1)
tmp["buy_flg"] = np.where(tmp["amount"].isnull(),0,1)
print(tmp["buy_flg"].value_counts())

rs = RandomUnderSampler(random_state=71)
df_sample,df_some = rs.fit_sample(tmp,tmp.buy_flg)
print(df_sample["buy_flg"].value_counts())

df_sample
# df_some

0    13665
1     8306
Name: buy_flg, dtype: int64
1    8306
0    8306
Name: buy_flg, dtype: int64


Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,amount,buy_flg
0,CS002513000098,紺野 美帆,1,女性,1962-02-25,57,185-0011,東京都国分寺市本多**********,S13002,20150701,0-00000000-0,,0
1,CS013403000031,宮部 明,0,男性,1973-04-07,45,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150426,0-00000000-0,,0
2,CS023712000022,堀井 しほり,9,不明,1939-09-16,79,212-0058,神奈川県川崎市幸区鹿島田**********,S14023,20150514,0-00000000-0,,0
3,CS001613000071,宍戸 麻由子,1,女性,1956-06-16,62,144-0055,東京都大田区仲六郷**********,S13001,20150304,0-00000000-0,,0
4,CS039511000070,河野 佳乃,1,女性,1968-01-03,51,167-0041,東京都杉並区善福寺**********,S13039,20181213,0-00000000-0,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
16607,CS002513000310,柳田 美嘉,1,女性,1963-09-17,55,187-0022,東京都小平市上水本町**********,S13002,20160911,1-20100711-2,202.0,1
16608,CS005415000024,若林 花,1,女性,1969-03-03,50,167-0022,東京都杉並区下井草**********,S13005,20150518,8-20100723-C,1598.0,1
16609,CS001413000156,上原 恵望子,1,女性,1974-12-10,44,144-0056,東京都大田区西六郷**********,S13001,20150724,1-20080210-1,203.0,1
16610,CS040314000065,谷川 紗季,1,女性,1987-01-14,32,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150703,1-20090421-4,243.0,1


---
> P-092: 顧客データフレーム（df_customer）では、性別に関する情報が非正規化の状態で保持されている。これを第三正規化せよ。

In [257]:
# df_customer
df_gender = df_customer[["gender_cd","gender"]].drop_duplicates()
df_customer_s = df_customer.drop(columns="gender")
df_customer_s

Unnamed: 0,customer_id,customer_name,gender_cd,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
0,CS021313000114,大野 あや子,1,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0
1,CS037613000071,六角 雅彦,9,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
2,CS031415000172,宇多田 貴美子,1,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
3,CS028811000001,堀井 かおり,1,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
4,CS001215000145,田崎 美紀,1,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
...,...,...,...,...,...,...,...,...,...,...
21966,CS002512000474,市村 夏希,1,1959-10-12,59,185-0034,東京都国分寺市光町**********,S13002,20171110,0-00000000-0
21967,CS029414000065,上村 怜奈,1,1970-10-19,48,279-0043,千葉県浦安市富士見**********,S12029,20150313,F-20101028-F
21968,CS012403000043,堀越 明,0,1972-12-16,46,231-0825,神奈川県横浜市中区本牧間門**********,S14012,20150406,0-00000000-0
21969,CS033512000184,池谷 華子,1,1964-06-05,54,245-0016,神奈川県横浜市泉区和泉町**********,S14033,20160206,0-00000000-0


---
> P-093: 商品データフレーム（df_product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータフレーム（df_category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データフレームを作成せよ。

---
> P-094: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

---
> P-095: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはCP932

---
> P-096: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

---
> P-097: 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

---
> P-098: 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

---
> P-099: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

---
> P-100: 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

# これで１００本終わりです。おつかれさまでした！