# **データのソート・抽出**

In [2]:
import pandas as pd

5.1 データの読み込み

In [24]:
# データの読み込み
df = pd.read_csv("transaction_history.csv", dtype={'customer_id': str})
df.head()

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
0,23085,G03257PD,2020/3/13,7200,True,6200.0,現金,2.0
1,15469,CKZF21ZC,2023/3/29,15400,False,,カード,2.0
2,15482,7NSE0G0R,2023/12/26,15400,False,,現金,1.0
3,17107,WVCPYZBH,2021/2/19,17100,False,,カード,2.0
4,24156,OELTJ7E2,2020/10/8,24100,True,23100.0,カード,1.0


5.2 Pythonでのソート方法

In [30]:
# データの読み込み
df = pd.read_csv("transaction_history.csv", dtype={'customer_id': str})

# purchase_amountの昇順でソート
df_sorted = df.sort_values(by="purchase_amount", ascending=True)

# 結果の表示
df_sorted.head()

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
66902,76897,UAC0W437,2018/5/6,5000,False,,現金,2.0
284581,243802,8FV985OY,2018/2/23,5000,False,,現金,1.0
69410,79405,Z9RDVYHO,2024/4/2,5000,False,,電子マネー,2.0
319409,257552,SGVU8S8C,2023/8/26,5000,False,,現金,1.0
378947,274231,LCYIMMBG,2022/11/2,5100,False,,現金,1.0


## 列単位の抽出

5.3 1列のみの抽出

In [7]:
# データの読み込みを行っていない場合は、この箇所を実行してください。
# import pandas as pd
# データの読み込み
# df = pd.read_csv("transaction_history.csv", dtype={'customer_id': str})
# 'purchase_channel'の列を抽出
purchase_channel_data = df['purchase_channel']
# 結果の表示
purchase_channel_data.head()

Unnamed: 0,purchase_channel
0,2
1,2
2,1
3,2
4,1


5.4　複数列を指定した抽出

In [8]:
# 'purchase_channel'と'product_id'の列を抽出
selected_columns_data = df[['purchase_channel', 'product_id']]

# 結果の表示
selected_columns_data.head()

Unnamed: 0,purchase_channel,product_id
0,2,G03257PD
1,2,CKZF21ZC
2,1,7NSE0G0R
3,2,WVCPYZBH
4,1,OELTJ7E2


5.5 連続した複数列を指定した抽出

In [9]:
# 'purcahse_date'から'payment_method'までの列を抽出
selected_columns_data = df.loc[:, 'purchase_date':'payment_method']

# 結果の表示
selected_columns_data.head()

Unnamed: 0,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method
0,2020/3/13,7200,True,6200.0,現金
1,2023/3/29,15400,False,,カード
2,2023/12/26,15400,False,,現金
3,2021/2/19,17100,False,,カード
4,2020/10/8,24100,True,23100.0,カード


5.6 最初の1行を抽出

In [10]:
# 最初の行だけを抽出
first_row = df.iloc[0]

# 結果の表示
first_row

Unnamed: 0,0
customer_id,00023085
product_id,G03257PD
purchase_date,2020/3/13
purchase_amount,7200
redeem_coupon,True
final_settlement_amount,6200.0
payment_method,現金
purchase_channel,2


 5.7 最後の 1 行を抽出

In [11]:
# 最後の行だけを抽出
last_row = df.iloc[-1]

# 結果の表示
last_row

Unnamed: 0,458166
customer_id,00012370
product_id,1QDAGFIK
purchase_date,2024/5/22
purchase_amount,217300
redeem_coupon,False
final_settlement_amount,
payment_method,電子マネー
purchase_channel,1


5.8  特定の 1 行を抽出

In [None]:
# 100行目だけを抽出（インデックスは0から始まるため、99を指定）
selected_row = df.iloc[99]

# 結果の表示
selected_row

Unnamed: 0,99
customer_id,00010094
product_id,JVL1ZCW5
purchase_date,2022/8/4
purchase_amount,9700
redeem_coupon,False
final_settlement_amount,
payment_method,コード決済
purchase_channel,2


5.9 複数行を指定した抽出

In [16]:
# 100行目, 200行目, 300行目, ..., 1000行目を抽出（インデックスは0から始まるため、99, 199, 299, ..., 999を指定）
selected_rows = df.iloc[range(99, 1000, 100)]

# 結果の表示
selected_rows

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
99,10094,JVL1ZCW5,2022/7/12,9700,False,,コード決済,2
199,10194,P7Z2P0J7,2022/1/5,120000,False,,カード,1
299,10294,T1SH3FV5,2021/3/1,8600,False,,コード決済,1
399,10394,5ZVRGG80,2023/8/29,9700,False,,現金,2
499,10494,MXG5GU6A,2023/11/8,150000,False,,現金,1
599,10594,EZX6KIHW,2020/3/23,60300,False,,現金,2
699,10694,P1ZRL92Z,2018/6/16,87400,False,,カード,1
799,10794,A99UL3I0,2022/2/22,9500,False,,現金,1
899,10894,QT2XG232,2021/12/1,187700,False,,現金,2
999,10994,GXY35238,2018/8/4,9100,False,,現金,2


5.10 特定の複数行を指定した抽出（10000 行目までのデータを 1000 行ごとに抽出）

In [20]:
# 1000行目, 2000行目, 3000行目, ..., 10000行目を抽出（インデックスは0から始まるため、999, 1999, 2999, ..., 9999を指定）
selected_rows = df.iloc[range(999, 10000, 1000)]

# 結果の表示
selected_rows

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
999,10994,GXY35238,2018/8/4,9100,False,,現金,2.0
1999,11994,MUPXCCGT,2019/7/7,9400,False,,現金,2.0
2999,12994,5NILMQN2,2023/9/26,8800,False,,現金,1.0
3999,13994,I07TX6A6,2020/1/4,10400,False,,現金,2.0
4999,14994,8WQPF4VA,2021/12/22,216600,False,,電子マネー,2.0
5999,15994,RAEXJZJT,2024/2/7,7700,False,,カード,1.0
6999,16994,Z8KW5Z6O,2018/8/14,68700,False,,現金,1.0
7999,17994,SWYCHNEC,2020/8/26,572900,False,,現金,2.0
8999,18994,F2WWJOMV,2022/3/26,77600,False,,コード決済,2.0
9999,19994,10AZE2G1,2023/9/9,191000,False,,現金,


5.11 1 行目から 5 行目までを抽出

In [22]:
#連続した複数行を指定した抽出
# 1行目から5行目までを抽出（インデックスは0から始まるため、0から4までを指定）
selected_rows = df.iloc[0:5]

# 結果の表示
selected_rows

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
0,23085,G03257PD,2020/3/13,7200,True,6200.0,現金,2.0
1,15469,CKZF21ZC,2023/3/29,15400,False,,カード,2.0
2,15482,7NSE0G0R,2023/12/26,15400,False,,現金,1.0
3,17107,WVCPYZBH,2021/2/19,17100,False,,カード,2.0
4,24156,OELTJ7E2,2020/10/8,24100,True,23100.0,カード,1.0


 5.12 最後の 10 行を抽出

In [25]:
# 最後の10行を抽出
last_10_rows = df.iloc[-10:]

# 結果の表示
last_10_rows

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
458157,287230,F83PFL8R,43815,71000,False,,現金,2.0
458158,287231,DXK813PK,44128,116800,False,,現金,2.0
458159,287232,XPV2FAYX,44912,65500,False,,カード,1.0
458160,287233,NPMQY68F,44583,113200,False,,コード決済,2.0
458161,287234,L06A4X2E,45093,8800,False,,電子マネー,1.0
458162,24236,YF829ECH,44820,188800,False,,カード,1.0
458163,12691,SPDDDXY2,43903,177200,False,,カード,2.0
458164,24355,UA56Q0XP,44572,141700,False,,現金,2.0
458165,24126,G4WT97YC,43545,224400,False,,現金,1.0
458166,12370,1QDAGFIK,45434,217300,False,,電子マネー,1.0


**指定した列のなかで該当する条件のみのデータを抽出する**

複数の指定の場合

In [27]:
# 'purchase_channel'が1のデータのみを抽出
selected_data = df[df['purchase_channel'] == 1]

# 結果の表示
selected_data.head()

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
2,15482,7NSE0G0R,2023/12/26,15400,False,,現金,1.0
4,24156,OELTJ7E2,2020/10/8,24100,True,23100.0,カード,1.0
5,10000,AMHRGDP0,2018/1/15,9300,False,,現金,1.0
9,10004,AVLRU30G,2021/12/12,69300,True,65835.0,カード,1.0
10,10005,P4LL02S3,2018/8/21,104100,False,,現金,1.0


 5.13 特定の顧客 ID に該当するデータの抽出

In [31]:
# 指定したcustomer_idが'00274047'に該当するデータのみを抽出
df_selected = df[df['customer_id'] == '00274047']
df_selected

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
378025,274047,R4FXF4Z8,2018/1/3,10000,False,,現金,2.0
378026,274047,SDHSZNMG,2022/4/9,213200,False,,カード,1.0
378027,274047,HD8ABYOE,2022/6/12,98600,False,,カード,2.0
378028,274047,HD8ABYOE,2018/9/12,8200,False,,カード,1.0
378029,274047,HD8ABYOE,2023/4/9,7700,False,,カード,1.0


5.14 特定の期間に該当するデータの抽出

In [32]:
# 'purchase_date'が2019/4/1から2019/4/30までのデータのみを抽出
start_date = pd.Timestamp('2019/04/01')
end_date = pd.Timestamp('2019/04/30')

# 'purchase_date'列を日時型に変換（エラーがあればNaTに置き換える）
df['purchase_date'] = pd.to_datetime(df['purchase_date'], errors='coerce')
# errors='coerce' は、無効な日付を NaT（Not a Time）として処理する設定

df_selected = df[(df['purchase_date'] >= start_date) & (df['purchase_date'] <= end_date)]
df_selected.head()

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
38,10033,Y7Q985SE,2019-04-22,150000,True,142500.0,現金,3.0
59,10054,MHHFD4X1,2019-04-20,108700,False,,現金,1.0
80,10075,55KQ8NNP,2019-04-23,9600,False,,現金,1.0
185,10180,JIUYKYAJ,2019-04-30,190600,False,,現金,5.0
349,10344,5G24T0E8,2019-04-07,10200,False,,現金,1.0


 5.15 特定の購入金額以上のデータの抽出

In [33]:
# purchase_amountが1000000以上に該当するデータのみを抽出
df_selected = df[df['purchase_amount'] >= 100000]
df_selected.head()

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
7,10002,BV0C09UO,2022-08-03,164700,False,,電子マネー,2.0
10,10005,P4LL02S3,2018-08-21,104100,False,,現金,1.0
12,10007,EYY8CTL9,2020-06-18,237100,False,,電子マネー,2.0
17,10012,AF8TFVC2,2020-02-08,188900,False,,現金,3.0
18,10013,8EHMIW6F,2021-07-07,118000,False,,コード決済,2.0


5.16 特定の文字列を含むデータを抽出

In [46]:
# 特定の商品名に該当するデータを抽出
# CSVファイルの読み込み
df = pd.read_csv('product_master.csv')

# 'product_name'に"ロンドン"を含むデータを抽出
df_london = df[df['product_name'].str.contains("ロンドン", na=False)]
df_london.head()

  df = pd.read_csv('product_master.csv')


Unnamed: 0,product_id,product_name,product_type,price,departure_city,destination_city,register_date,description
5,PN09LL2L,ブルーホーク航空 名古屋 → ロンドン 航空券（ビジネスクラス）,6,650000.0,名古屋,ロンドン,2022/4/5,名古屋からロンドンまで、ブルーホーク航空のビジネスクラスで快適な空の旅を。上質なサービスで特...
13,8KWGREHM,フロンティアウィングス 札幌 → ロンドン 航空券（ビジネスクラス）,6,586000.0,札幌,ロンドン,2023/12/28,札幌からロンドンまで、フロンティアウィングスのビジネスクラスで快適な空の旅を。上質なサービス...
33,2XPB6KZH,スカイフェア航空 福岡 → ロンドン 航空券（ビジネスクラス）,6,752000.0,福岡,ロンドン,2024/7/6,福岡からロンドンまで、スカイフェア航空のビジネスクラスで快適な空の旅を。上質なサービスで特別...
89,0ECZ8DO9,Mimosa Bay（ロンドン）宿泊,4,310000.0,,ロンドン,2020/12/2,福岡からロンドンへの快適な空の旅。ブルーホーク航空の高品質なサービスで、特別な旅をお楽しみく...
96,LCZ13MY8,フロンティアウィングス 福岡 → ロンドン 航空券,1,251000.0,福岡,ロンドン,2024/4/13,福岡からロンドンへの快適な空の旅。フロンティアウィングスの高品質なサービスで、特別な旅をお楽...


5.17 特定の文字列に完全一致するデータを抽出

In [42]:
#完全一致するものの抽出
# 'destination_city'に"ロンドン"が完全一致するデータを抽出
df_london_exact = df[df['destination_city'] == "ロンドン"]
df_london_exact.head()

Unnamed: 0,product_id,product_name,product_type,price,departure_city,destination_city,register_date,description
5,PN09LL2L,ブルーホーク航空 名古屋 → ロンドン 航空券（ビジネスクラス）,6,650000.0,名古屋,ロンドン,2022/4/5,名古屋からロンドンまで、ブルーホーク航空のビジネスクラスで快適な空の旅を。上質なサービスで特...
13,8KWGREHM,フロンティアウィングス 札幌 → ロンドン 航空券（ビジネスクラス）,6,586000.0,札幌,ロンドン,2023/12/28,札幌からロンドンまで、フロンティアウィングスのビジネスクラスで快適な空の旅を。上質なサービス...
33,2XPB6KZH,スカイフェア航空 福岡 → ロンドン 航空券（ビジネスクラス）,6,752000.0,福岡,ロンドン,2024/7/6,福岡からロンドンまで、スカイフェア航空のビジネスクラスで快適な空の旅を。上質なサービスで特別...
89,0ECZ8DO9,Mimosa Bay（ロンドン）宿泊,4,310000.0,,ロンドン,2020/12/2,福岡からロンドンへの快適な空の旅。ブルーホーク航空の高品質なサービスで、特別な旅をお楽しみく...
96,LCZ13MY8,フロンティアウィングス 福岡 → ロンドン 航空券,1,251000.0,福岡,ロンドン,2024/4/13,福岡からロンドンへの快適な空の旅。フロンティアウィングスの高品質なサービスで、特別な旅をお楽...


5.18 特定の文字列に前方一致するデータを抽出

In [43]:
#前方一致と後方一致
# "ロンドン"から始まるデータを抽出
df_london_start = df[df['product_name'].str.contains("^ロンドン")]
df_london_start

Unnamed: 0,product_id,product_name,product_type,price,departure_city,destination_city,register_date,description
172,IY50NB5R,ロンドンでの神秘的な7日間ツアー,3,416000.0,東京,ロンドン,2021/7/27,ロンドンの魅力を存分に楽しめる3日間のツアー。神秘的な体験を満喫し、心に残る旅を。


In [47]:
# "ロンドン"で終わるものを抽出
df_london_end = df[df['product_name'].str.contains("ロンドン$")]
df_london_end

Unnamed: 0,product_id,product_name,product_type,price,departure_city,destination_city,register_date,description
132,YCN2ENUA,スカイフェア航空 航空券（ビジネスクラス）東京 → ロンドン,6,654000.0,東京,ロンドン,2020/7/8,東京からロンドンまで、スカイフェア航空のビジネスクラスで快適な空の旅を。上質なサービスで特別...


5.20 ランダムサンプリング（インデックスなし）

In [48]:
# ランダムに100行を選択
sampled_df = df.sample(n=100)

sampled_df.head()

Unnamed: 0,product_id,product_name,product_type,price,departure_city,destination_city,register_date,description
115613,1GYYFZFC,ブルーホーク航空 札幌 → パリ 航空券（ビジネスクラス）,6,527000.0,札幌,パリ,2020/10/28,札幌からパリまで、ブルーホーク航空のビジネスクラスで快適な空の旅を。上質なサービスで特別な時...
195169,2UYJT5DT,Betelgeuse Gardens（ロンドン）宿泊,4,365000.0,東京,ロンドン,2023/8/2,東京からロンドンへの快適な空の旅。スカイフェア航空の高品質なサービスで、特別な旅をお楽しみく...
49261,06Z9HLQC,オーロラ航空 京都 → シンガポール 航空券,1,137000.0,京都,シンガポール,2021/9/10,京都からシンガポールへの快適な空の旅。オーロラ航空の高品質なサービスで、特別な旅をお楽しみく...
8772,8CU9LN71,サクラエアライン 東京 → ニューヨーク 航空券,1,252000.0,東京,ニューヨーク,2022/12/5,東京からニューヨークへの快適な空の旅。サクラエアラインの高品質なサービスで、特別な旅をお楽し...
21871,H7Q4DCHW,ネオエアライン 名古屋 → 旭川 航空券,2,23400.0,名古屋,旭川,2020/12/6,名古屋から旭川へ、ネオエアラインで快適な国内旅行を。お得な航空券で気軽に旅に出かけましょう。


 5.21 ランダムサンプリング（インデックスあり）

In [49]:
#インデックスあり
# ランダムに100行を選択
sampled_df_2 = df.sample(n=100).reset_index(drop=True)

sampled_df_2.head()

Unnamed: 0,product_id,product_name,product_type,price,departure_city,destination_city,register_date,description
0,XS86Q363,Mirfak View（ローマ）宿泊,4,892000.0,名古屋,ローマ,2022/6/18,名古屋からローマへの快適な空の旅。ブルーホーク航空の高品質なサービスで、特別な旅をお楽しみく...
1,PDX0PW6T,オーロラ航空 東京 → ニューヨーク 航空券（ビジネスクラス）,6,606000.0,東京,ニューヨーク,2021/12/1,東京からニューヨークまで、オーロラ航空のビジネスクラスで快適な空の旅を。上質なサービスで特別...
2,ZP6E77P7,感動のパリ 6日間ツアー,3,192000.0,東京,パリ,2023/5/7,パリの魅力を存分に楽しめる6日間のツアー。感動の体験を満喫し、心に残る旅を。
3,2ATEDV0Y,サクラスカイエア 東京 → 高松 航空券,2,10400.0,東京,高松,2021/10/26,東京から高松へ、サクラスカイエアで快適な国内旅行を。お得な航空券で気軽に旅に出かけましょう。
4,H8MSW4R7,ネオエアライン 名古屋 → 旭川 航空券,2,19000.0,名古屋,旭川,2021/6/18,名古屋から旭川へ、ネオエアラインで快適な国内旅行を。お得な航空券で気軽に旅に出かけましょう。


5.22 クラスターサンプリング

In [51]:
#データの読み込み
df = pd.read_csv('master_customer.csv', dtype={'customer_id': str})

In [52]:
#クラスター分析に用いるため、顧客IDと性別、初回購入のきっかけのデータを抽出
df_selected = df[['customer_id', 'gender', 'first_purchase_trigger']]

In [53]:
# df_selectedのfirst_purchase_trigger、sexと特徴量としてcustomer_idを分類する, 非階層型クラスター分析の手法であるK-meansを実行
from sklearn.cluster import KMeans

# KMeansを実行するためのデータの準備
# カテゴリ型の特徴量（文字など）を、ワンホットエンコーディング（1か0にする処理）で数値に変換
df_encoded = pd.get_dummies(df_selected, columns=['first_purchase_trigger', 'gender'], drop_first=True)
df_encoded.head()

Unnamed: 0,customer_id,first_purchase_trigger_2.0,first_purchase_trigger_3.0,first_purchase_trigger_4.0,first_purchase_trigger_5.0,first_purchase_trigger_6.0,first_purchase_trigger_7.0,first_purchase_trigger_8.0,first_purchase_trigger_9.0,first_purchase_trigger_10.0,gender_1.0,gender_2.0
0,23085,False,False,True,False,False,False,False,False,False,False,False
1,15469,False,False,False,False,False,False,False,False,False,False,False
2,15482,False,False,False,False,False,False,True,False,False,True,False
3,17107,True,False,False,False,False,False,False,False,False,False,False
4,24156,False,False,False,False,False,True,False,False,False,False,False


In [54]:
# 特徴量（X）と顧客IDを分ける（顧客IDはクラスタリングには使わない）
X = df_encoded.drop(columns=['customer_id'])
customer_ids = df_encoded['customer_id']

# KMeansモデルを初期化して学習させる（ここではクラスタ数4の例）
kmeans = KMeans(n_clusters=4, random_state=0)  # クラスタ数は変更可能
kmeans.fit(X)

# 分類されたクラスタラベルを元のデータフレームに追加する
df_selected['cluster_label'] = kmeans.labels_

# 結果を表示
df_selected.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_selected['cluster_label'] = kmeans.labels_


Unnamed: 0,customer_id,gender,first_purchase_trigger,cluster_label
0,23085,0.0,4.0,2
1,15469,0.0,,2
2,15482,1.0,8.0,1
3,17107,0.0,2.0,2
4,24156,0.0,7.0,2


5.23 クラスタラベルが1のみの顧客を抽出

In [56]:
# cluster_labelが1の顧客のみを抽出
df_cluster_1 = df_selected[df_selected['cluster_label'] == 1]

# 結果を表示
df_cluster_1.head()

Unnamed: 0,customer_id,gender,first_purchase_trigger,cluster_label
2,15482,1.0,8.0,1
5,10000,1.0,,1
7,10020,1.0,1.0,1
10,10096,1.0,,1
11,10098,1.0,,1


5.24 多段階サンプリング

In [57]:
# データの読み込み
df_master = pd.read_csv("master_customer.csv", dtype={'customer_id': str})
df_transaction = pd.read_csv("transaction_history.csv", dtype={'customer_id': str})

In [58]:
# ステップ1：層の作成
df_master_clean = df_master.dropna(subset=['region', 'gender', 'first_purchase_trigger'])

In [59]:
# ステップ2：層に基づいたサンプリング
# 層を作成
df_master_clean['stratum'] = df_master_clean['region'].astype(str) + '_' + \
                             df_master_clean['gender'].astype(str) + '_' + \
                             df_master_clean['first_purchase_trigger'].astype(str)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_master_clean['stratum'] = df_master_clean['region'].astype(str) + '_' + \


In [60]:
# 各層から同数または指定数をランダムに抽出
sampled_list = []
for stratum, group in df_master_clean.groupby('stratum'):
    n = min(100, len(group))  # 各層から最大100件を抽出
    sampled = group.sample(n=n, random_state=47) # random_state は乱数の指定 数字を指定すると固定されます
    sampled_list.append(sampled)

In [61]:
# 抽出結果を統合
df_sampled = pd.concat(sampled_list, ignore_index=True)
df_sampled.head()

Unnamed: 0,customer_id,registration_date,zip,region,gender,birthday,surname,firstname,surname_alpha,firstname_alpha,first_purchase_trigger,stratum
0,59419,2022/2/22,401-1232,京都府,0.0,1946/12/28,渡邊,朝陽,Watanabe,Asahi,1.0,京都府_0.0_1.0
1,45113,2018/4/30,516-5553,京都府,0.0,1954/9/10,岩崎,拓也,Iwasaki,Takuya,1.0,京都府_0.0_1.0
2,26436,2013/7/23,102-2777,京都府,0.0,1970/5/28,遠藤,三郎,Endou,Saburou,1.0,京都府_0.0_1.0
3,122675,2010/7/15,080-7592,京都府,0.0,1991/5/27,久保,蒼,Kubo,Aoi,1.0,京都府_0.0_1.0
4,197343,2013/6/21,551-8387,京都府,0.0,2003/2/14,新井,雄太,Arai,Yuta,1.0,京都府_0.0_1.0


In [62]:
# df_sampledのcustomer_idに一致するcustomer_idのデータをdf_transactionから抽出
# 顧客ID一覧を取得
sample_ids = df_sampled['customer_id'].unique()

# sample_ids の customer_id に一致するデータを df_transaction から抽出
df_extracted = df_transaction[df_transaction['customer_id'].isin(sample_ids)]

# 結果の表示
df_extracted.head()

Unnamed: 0,customer_id,product_id,purchase_date,purchase_amount,redeem_coupon,final_settlement_amount,payment_method,purchase_channel
0,23085,G03257PD,2020/3/13,7200,True,6200.0,現金,2.0
2,15482,7NSE0G0R,2023/12/26,15400,False,,現金,1.0
3,17107,WVCPYZBH,2021/2/19,17100,False,,カード,2.0
4,24156,OELTJ7E2,2020/10/8,24100,True,23100.0,カード,1.0
5,10000,AMHRGDP0,2018/1/15,9300,False,,現金,1.0


5.25 転置

In [63]:
# データの読み込み
df = pd.read_csv('master_customer.csv')

# 転置処理
df_transposed = df.T
df_transposed.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,9990,9991,9992,9993,9994,9995,9996,9997,9998,9999
customer_id,23085.0,15469.0,15482.0,17107.0,24156.0,10000.0,,10020.0,10056.0,10061.0,...,214988.0,214992.0,215000.0,215009.0,215017.0,9996.0,9997.0,9998.0,9999.0,10000.0
registration_date,2018/2/28,2019/6/9,2020/9/5,2016/1/1,2011/9/24,2022/8/15,,2019/9/1,2018/8/1,2015/2/27,...,2016/7/30,2017/9/13,2019/8/9,2012/2/3,2021/2/9,2022/2/14,2015/6/8,2010/3/26,2010/11/17,2013/3/6
zip,543-9190,363-1372,706-1755,277-3282,485-6282,209-8236,,386-1271,255-8778,181-2062,...,538-5753,901-0698,558-7676,906-7705,632-2538,038-1879,495-1602,685-2641,513-3788,409-8780
region,東京都,北海道,大阪府,愛知県,福岡県,広島県,,沖縄県,京都府,栃木県,...,福岡県,神奈川県,島根県,埼玉県,高知県,愛媛県,大阪府,東京都,奈良県,北海道
gender,0.0,0.0,1.0,0.0,0.0,1.0,,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,2.0


5.26 特定の列だけを転置

In [65]:
# カラムの指定
df_extracted = df[['customer_id', 'gender', 'birthday']]

# データの転置
df_transposed_2 = df_extracted.T

print(df_transposed_2)

                  0          1          2           3         4          5     \
customer_id    23085.0    15469.0    15482.0     17107.0   24156.0    10000.0   
gender             0.0        0.0        1.0         0.0       0.0        1.0   
birthday     1996/11/7  1992/9/16  1959/2/17  1977/11/11  1991/1/6  1981/5/22   

            6          7          8          9     ...       9990       9991  \
customer_id  NaN    10020.0    10056.0    10061.0  ...   214988.0   214992.0   
gender       NaN        1.0        0.0        0.0  ...        0.0        0.0   
birthday     NaN  2000/1/21  1970/2/27  1981/6/11  ...  1975/7/28  1980/9/28   

                 9992      9993       9994       9995       9996        9997  \
customer_id  215000.0  215009.0   215017.0     9996.0     9997.0      9998.0   
gender            0.0       0.0        0.0        0.0        0.0         1.0   
birthday     2001/1/8  1975/2/8  1969/7/22  1992/6/20  1958/7/29  1965/10/24   

                  9998        999