In [None]:
core_path="C:/Users/n75se/Documents/Myscript/99_work/dummyd_TechCorp/data"
base_path=f'{core_path}/base'
mo_path=f'{core_path}/mobile_order'

# ECサイト事業関連ファイルの読み込み
def add_path(file):
    return f'{mo_path}/{file}'

1. ユーザーデータ (users.csv): 顧客に関する情報
2. モバイルオーダーのトランザクションデータ (mobile_orders.csv): モバイルオーダーサービスの注文に関する情報
3. モバイルオーダーのクーポン利用データ (mobile_orders_coupons.csv): 注文時に使用されたクーポンに関する情報
4. モバイルオーダーの追加情報 (mobile_orders_info.csv): モバイルオーダーの詳細情報  

まず、これらのファイルを開いてデータの構造を確認し、分析を行うための計画を立てましょう。データの中身を見てから、どのような分析が可能かを検討します。


データの概要は以下の通りです：  
1. ユーザーデータ (users.csv):
   - user_id: ユーザーID
   - username: ユーザー名
   - email: 電子メール
   - birth_date: 生年月日
   - registration_date: 登録日
   - address: 住所

2. モバイルオーダーのトランザクションデータ (mobile_orders.csv):
   - order_id: 注文ID
   - user_id: ユーザーID
   - coupon_id: クーポンID
   - order_date: 注文日時
   - pickup_store_id: 受け取り店舗ID
   - total_amount: 合計金額

3. モバイルオーダーのクーポン利用データ (mobile_orders_coupons.csv):
   - coupon_id: クーポンID
   - coupon_code: クーポンコード
   - discount_value: 割引額
   - expiration_date: 有効期限
   - creation_date: 作成日

4. モバイルオーダーの追加情報 (mobile_orders_info.csv):
   - order_id: 注文ID
   - product_id: 商品ID
   - order_quantity: 注文数量

In [None]:
import pandas as pd

# 各ファイルを読み込む
users_df = pd.read_csv(base_path+"/users.csv")
mobile_orders_df = pd.read_csv(add_path("mobile_orders.csv"))
mobile_orders_coupons_df = pd.read_csv(add_path("mobile_orders_coupons.csv"))
mobile_orders_info_df = pd.read_csv(add_path("mobile_orders_info.csv"))

# 各データフレームの最初の数行を表示
(users_df.head(), mobile_orders_df.head(), mobile_orders_coupons_df.head(), mobile_orders_info_df.head())


ユーザーごとの購買傾向に関する分析結果は以下の通りです：
- 各ユーザーは平均して何回の注文を行っており、それに伴う平均購入金額と総購入金額が計算されています。  

例えば、以下のような結果が得られました：

- user_id 1 のユーザーは合計12回の注文を行い、平均購入金額は約5082.16円、総購入金額は約60985.96円です。  
- user_id 5 のユーザーは合計10回の注文を行い、平均購入金額は約5055.07円、総購入金額は約50550.69円です。  

これらの情報は、特に購買頻度が高く、高額を購入している顧客を特定し、マーケティング活動において優先的に対象にする際に役立ちます。例えば、これらの顧客に特別なオファーやプロモーションを提供することで、さらなるロイヤリティの向上や売上の増加が期待できます。

In [None]:
# ユーザーデータとモバイルオーダーデータを結合
merged_df = pd.merge(mobile_orders_df, users_df, on='user_id')

# 各ユーザーの注文数と平均購入金額、総購入金額を計算
user_purchase_trends = merged_df.groupby('user_id').agg(
    total_orders=pd.NamedAgg(column='order_id', aggfunc='count'),
    average_amount=pd.NamedAgg(column='total_amount', aggfunc='mean'),
    total_amount=pd.NamedAgg(column='total_amount', aggfunc='sum')
).reset_index()

user_purchase_trends.head()

次は「人気の商品や店舗の特定」についての分析を行います。この分析では、以下の点に着目します：  
1. 最も注文数が多い商品の特定。
2. 最も売上が高い商品の特定。
3. 最も人気のある受け取り店舗の特定。

これらの分析を通じて、特に人気のある商品や店舗を理解し、在庫管理やマーケティングキャンペーンの計画に役立てることができます。また、人気商品の特徴を把握することで、将来の商品開発やプロモーション戦略に活かすことも可能です。  

それでは、モバイルオーダーのトランザクションデータと追加情報データを結合して分析を進めます。  

「人気の商品や店舗の特定」に関する分析結果は以下の通りです：  
1. 最も注文数が多い商品:
   - product_id: 82
   - 総注文数: 32回
   - 総売上: 154,071.86円
2. 最も売上が高い商品:
   - product_id: 245
   - 総注文数: 29回
   - 総売上: 166,734.20円
3. 最も人気のある受け取り店舗:
   - pickup_store_id: 33
   - 総注文数: 89回

これらの結果から、特定の商品や店舗が顧客に非常に人気があることがわかります。  
商品ID 82 と 245 は特に重要で、これらの商品の在庫管理やプロモーション戦略に特に注意を払うことが望ましいです。  
また、店舗ID 33 は特に多くの注文を集めており、この店舗の成功要因を分析することで他の店舗の売上向上につなげることもできるでしょう。  



In [None]:

# モバイルオーダーデータと追加情報データを結合
orders_combined_df = pd.merge(mobile_orders_df, mobile_orders_info_df, on='order_id')

# 各商品の注文数と売上を計算
product_sales = orders_combined_df.groupby('product_id').agg(
    total_orders=pd.NamedAgg(column='order_id', aggfunc='count'),
    total_sales=pd.NamedAgg(column='total_amount', aggfunc='sum')
).reset_index()

# 各店舗の注文数を計算
store_sales = orders_combined_df.groupby('pickup_store_id').agg(
    total_orders=pd.NamedAgg(column='order_id', aggfunc='count')
).reset_index()

# 最も注文数が多い商品、最も売上が高い商品、最も人気のある店舗を特定
most_ordered_product = product_sales.sort_values(by='total_orders', ascending=False).head(1)
highest_sales_product = product_sales.sort_values(by='total_sales', ascending=False).head(1)
most_popular_store = store_sales.sort_values(by='total_orders', ascending=False).head(1)

(most_ordered_product, highest_sales_product, most_popular_store)


次に、「クーポンの利用状況とその効果」に関する分析を行います。この分析では、以下の点に焦点を当てます：  

1. クーポンの利用率（クーポンを使用した注文の割合）。
2. クーポンを使用した注文と使用しない注文の平均購入金額の比較。
3. クーポン別の利用状況（どのクーポンが最も利用されているか）。
これらの分析を通じて、クーポンの利用が顧客の購買行動にどのように影響しているかを理解し、効果的なクーポン戦略を策定するための洞察を提供します。  

「クーポンの利用状況とその効果」に関する分析結果は以下の通りです：  

1. クーポンの利用率:
   - クーポンを使用した注文の割合は約94.93％です。
2. クーポンを使用した注文と使用しない注文の平均購入金額:
   - クーポンを使用した注文の平均購入金額: 約5101.80円
   - クーポンを使用しない注文の平均購入金額: 約4905.44円
   - クーポンを使用した注文の方が平均で約200円高いことがわかります。
3. 最も利用されたクーポン:
   - coupon_id: 863
   - 利用回数: 10回
   - coupon_code: FHVAPDWWGO
   - 割引額: 15.78円
   - 有効期限: 2022-12-13
   - 作成日: 2022-06-26

この分析結果から、クーポンの利用が顧客の購買行動に大きく影響を与えていることがわかります。
特に、クーポンを使用することで顧客の平均購入金額が上昇しているため、効果的なクーポン戦略が売上向上に貢献していると言えるでしょう。  
また、最も利用されたクーポンに関する詳細情報は、将来のクーポン設計やプロモーション戦略に役立つ可能性があります。  

In [None]:
# 再度クーポンの利用率と平均購入金額の計算を行う
coupon_usage_rate = len(mobile_orders_df[mobile_orders_df['coupon_id'].notna()]) / len(mobile_orders_df)
average_amount_with_coupon = mobile_orders_df[mobile_orders_df['coupon_id'].notna()]['total_amount'].mean()
average_amount_without_coupon = mobile_orders_df[mobile_orders_df['coupon_id'].isna()]['total_amount'].mean()

# クーポン別の利用状況
coupon_usage = mobile_orders_df['coupon_id'].value_counts().reset_index()
coupon_usage.columns = ['coupon_id', 'usage_count']
most_used_coupon = pd.merge(coupon_usage, mobile_orders_coupons_df, on='coupon_id').sort_values(by='usage_count', ascending=False).head(1)

(coupon_usage_rate, average_amount_with_coupon, average_amount_without_coupon, most_used_coupon)


次に、「売上高の時間的変動」に関する分析を行います。この分析では、以下の点に焦点を当てます：  

1. 売上高の日別、週別、月別の変動。
2. 特定の期間（例えば季節、特別なイベントなど）での売上の変化。
   
この分析を通じて、売上がどのように時間とともに変化しているかを理解し、需要予測や在庫管理、プロモーション計画に役立てることができます。  

売上高の時間的変動に関する分析結果を可視化したグラフをご覧いただけます。以下の3つのグラフが表示されています：  
1. 日別売上：日ごとの売上の変動を示しています。特定の日にピークや谷があるかどうかを確認することができます。
2. 週別売上：週ごとの売上の変動を示しています。週単位での売上の傾向を把握することが可能です。
3. 月別売上：月ごとの売上の変動を示しています。季節や月による売上の変化が視覚的に確認できます。

これらのグラフから、売上が特定の日、週、月にどのように変化しているかを理解することができます。  
例えば、特定のイベントや祝日に合わせた売上の増加や、季節による変動が見られるかもしれません。  
このような洞察は、需要予測、在庫管理、プロモーション計画の策定に役立ちます。  


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# 日付の形式を変換
mobile_orders_df['order_date'] = pd.to_datetime(mobile_orders_df['order_date'])

# 日別、週別、月別の売上を計算
mobile_orders_df['day'] = mobile_orders_df['order_date'].dt.date
mobile_orders_df['week'] = mobile_orders_df['order_date'].dt.isocalendar().week
mobile_orders_df['month'] = mobile_orders_df['order_date'].dt.to_period('M')

daily_sales = mobile_orders_df.groupby('day')['total_amount'].sum()
weekly_sales = mobile_orders_df.groupby('week')['total_amount'].sum()
monthly_sales = mobile_orders_df.groupby('month')['total_amount'].sum()

# 売上の時系列変動を可視化
plt.figure(figsize=(18, 5))
plt.subplot(1, 3, 1)
daily_sales.plot(title='Daily Sales')
plt.subplot(1, 3, 2)
weekly_sales.plot(title='Weekly Sales')
plt.subplot(1, 3, 3)
monthly_sales.plot(title='Monthly Sales')
plt.tight_layout()
plt.show()


最後に、「顧客セグメント別の分析」を行います。  
この分析では、顧客を特定の属性（例えば年齢、性別、地理的な場所など）に基づいて分け、各セグメントの購買行動の違いを探ります。ここでは、顧客の年齢と性別を基にセグメント化し、それぞれのセグメントの購買傾向を分析します。  

この分析を通じて、特定の顧客セグメントに適したマーケティング戦略や商品開発の方向性を考えることができます。  

それでは、ユーザーデータとモバイルオーダーデータを結合し、顧客セグメント別の購買傾向に関する分析を開始します。  

「顧客セグメント別の分析」の結果を以下に示します。  
この分析では、顧客を年齢と性別に基づいてセグメント化し、それぞれのセグメントの購買傾向を調べました。  

例えば、以下のような結果が得られました：  
- 18歳の女性顧客は合計30回の注文を行い、平均購入金額は約5098.14円です。
- 18歳の男性顧客は合計55回の注文を行い、平均購入金額は約5385.10円です。
- 20歳の女性顧客は合計51回の注文を行い、平均購入金額は約4822.55円です。

これらの結果から、特定の年齢層や性別のセグメントがどのような購買行動を示しているかを理解することができます。  
例えば、若い顧客層がより頻繁に購入していることが分かります。  
このような洞察は、ターゲットとなる顧客セグメントに適したマーケティング戦略や商品開発の方向性を考える上で非常に有用です。  


In [None]:
# 顧客の年齢を計算
users_df['birth_date'] = pd.to_datetime(users_df['birth_date'])
current_year = pd.to_datetime('now').year
users_df['age'] = current_year - users_df['birth_date'].dt.year

# 年齢と性別のデータが必要なため、その情報を含む新しいデータフレームを作成
# このデモデータには性別が含まれていないため、仮想的な性別データを生成
import numpy as np
np.random.seed(0)
users_df['gender'] = np.random.choice(['Male', 'Female'], len(users_df))

# ユーザーデータとモバイルオーダーデータを結合
merged_df_with_user_info = pd.merge(mobile_orders_df, users_df, on='user_id')

# 年齢と性別に基づいて顧客をセグメント化し、各セグメントの購買傾向を分析
segment_analysis = merged_df_with_user_info.groupby(['age', 'gender']).agg(
    total_orders=pd.NamedAgg(column='order_id', aggfunc='count'),
    average_amount=pd.NamedAgg(column='total_amount', aggfunc='mean')
).reset_index()

segment_analysis.head()


クーポンを使用していないユーザの属性分析を行います。この分析では、クーポンを使用していないユーザの年齢、性別、および他の関連する特性を調査し、このセグメントの特徴を理解します。

この分析は、クーポンを使用していないユーザに対してより効果的なマーケティング戦略を考案するための洞察を提供することができます。

それでは、クーポンを使用していないユーザに関する属性分析を進めます。

クーポンを使用していないユーザの属性に関する分析結果は以下の通りです：
- 18歳の女性顧客は合計5回の注文を行い、平均購入金額は約3685.93円です。
- 18歳の男性顧客は合計2回の注文を行い、平均購入金額は約2663.87円です。
- 20歳の男性顧客は1回の注文を行い、購入金額は7775.26円です。
  
これらの結果から、クーポンを使用していないユーザの中には、特に若年層が多いことがわかります。(といっても、クーポン利用しているのも若い人が多い？ので、全体比率的に若い人が多いのでは)    
また、注文回数は比較的少ないものの、一部のユーザは高額の購入をしていることも見受けられます。  


In [None]:
# クーポンを使用していないユーザのデータを抽出
non_coupon_users_df = merged_df_with_user_info[merged_df_with_user_info['coupon_id'].isna()]

# クーポンを使用していないユーザの属性分析
non_coupon_users_attributes = non_coupon_users_df.groupby(['age', 'gender']).agg(
    total_orders=pd.NamedAgg(column='order_id', aggfunc='count'),
    average_amount=pd.NamedAgg(column='total_amount', aggfunc='mean')
).reset_index()

non_coupon_users_attributes.head()
