
### 데이터프레임 설명
1. **첫 번째 테이블**: `transactions_df`
   - **Transaction ID**: 거래 고유 ID
   - **Customer ID**: 고객 ID
   - **Purchase Amount**: 구매 금액
   - **Transaction Date**: 거래가 발생한 날짜

2. **두 번째 테이블**: `customers_df`
   - **Customer ID**: 고객 고유 ID
   - **Registration Date**: 고객의 가입 날짜
   - **Store Location**: 매장 위치

### 문제 목표
- 두 테이블을 `Customer ID`로 결합하여, **월별 총 구매 금액**을 계산한 뒤, 이를 **가장 많이 구매한 순서로 정렬**해봅니다.

### 문제 목표
- 두 테이블을 `Customer ID`로 결합하여, **월별 총 구매 금액**을 계산한 뒤, 이를 **가장 많이 구매한 순서로 정렬**해봅니다.

### 데이터 생성 코드

In [1]:

import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 1. transactions_df 데이터프레임 생성
np.random.seed(0)
transaction_ids = [f"T{str(i).zfill(4)}" for i in range(1, 51)]
customer_ids = np.random.choice([f"C{str(i).zfill(3)}" for i in range(1, 21)], size=50)
purchase_amounts = np.random.randint(5, 500, size=50)  # 구매 금액 (5달러 ~ 500달러)
transaction_dates = [datetime(2023, np.random.randint(1, 13), np.random.randint(1, 29)) for _ in range(50)]

transactions_df = pd.DataFrame({
    "Transaction ID": transaction_ids,
    "Customer ID": customer_ids,
    "Purchase Amount": purchase_amounts,
    "Transaction Date": transaction_dates
})

# 2. customers_df 데이터프레임 생성
unique_customer_ids = list(set(customer_ids))
registration_dates = [datetime(2022, np.random.randint(1, 13), np.random.randint(1, 29)) for _ in unique_customer_ids]
store_locations = np.random.choice(["Downtown", "Uptown", "Suburb", "Mall"], size=len(unique_customer_ids))

customers_df = pd.DataFrame({
    "Customer ID": unique_customer_ids,
    "Registration Date": registration_dates,
    "Store Location": store_locations
})

print("Transactions DataFrame:\n", transactions_df.head())
print("\nCustomers DataFrame:\n", customers_df.head())

Transactions DataFrame:
   Transaction ID Customer ID  Purchase Amount Transaction Date
0          T0001        C013              493       2023-06-17
1          T0002        C016              249       2023-02-06
2          T0003        C001              278       2023-10-04
3          T0004        C004              340       2023-01-06
4          T0005        C004              393       2023-01-18

Customers DataFrame:
   Customer ID Registration Date Store Location
0        C005        2022-02-09         Suburb
1        C002        2022-01-05         Suburb
2        C011        2022-12-28           Mall
3        C020        2022-10-07         Uptown
4        C018        2022-06-14         Uptown


In [4]:
print(len(transactions_df))
transactions_df.head()

50


Unnamed: 0,Transaction ID,Customer ID,Purchase Amount,Transaction Date
0,T0001,C013,493,2023-06-17
1,T0002,C016,249,2023-02-06
2,T0003,C001,278,2023-10-04
3,T0004,C004,340,2023-01-06
4,T0005,C004,393,2023-01-18


In [3]:
customers_df.head()

Unnamed: 0,Customer ID,Registration Date,Store Location
0,C005,2022-02-09,Suburb
1,C002,2022-01-05,Suburb
2,C011,2022-12-28,Mall
3,C020,2022-10-07,Uptown
4,C018,2022-06-14,Uptown


### 생성된 데이터 설명
1. **`transactions_df` 테이블**:
   - **Transaction ID**별로 고객의 구매 금액과 날짜를 기록합니다.
   
2. **`customers_df` 테이블**:
   - 각 **Customer ID**별로 가입 날짜와 매장 위치 정보를 기록합니다.

다음은 `transactions_df`와 `customers_df` 데이터를 활용해 해결할 수 있는 추가적인 문제들입니다. 각 문제는 **매출 분석**과 **고객 분석**을 목적으로 다양한 Pandas 기능을 연습할 수 있도록 구성했습니다.

---

### 문제 1: 매장 위치별 고객 평균 구매 금액 분석

- **설명**: `transactions_df`와 `customers_df`를 결합하여 **각 매장 위치**(Store Location)별 **평균 구매 금액**을 계산하세요.
- **요구사항**: 
  - `Customer ID`를 기준으로 두 테이블을 결합합니다.
  - 각 `Store Location`별로 평균 구매 금액을 계산하여 **평균 구매 금액이 높은 순서**로 정렬합니다.
  - 최종 결과는 **매장 위치(Store Location), 평균 구매 금액(Average Purchase Amount)**를 포함하는 데이터프레임 실제 마트 운영과 관련된 **고객 행동 분석**과 **매출 통계**를 수행하는 데 유용합니다.포함하고, 총 구매 금액이 높은 순서로 정렬하세요.

In [12]:
df_trans = transactions_df
df_cus = customers_df
merged_df = pd.merge(
    df_trans, df_cus,
    on="Customer ID",
    how="right"
)
merged_df.head()

Unnamed: 0,Transaction ID,Customer ID,Purchase Amount,Transaction Date,Registration Date,Store Location
0,T0010,C005,381,2023-01-08,2022-02-09,Suburb
1,T0048,C005,212,2023-10-17,2022-02-09,Suburb
2,T0013,C002,492,2023-03-12,2022-01-05,Suburb
3,T0038,C002,465,2023-09-27,2022-01-05,Suburb
4,T0041,C011,493,2023-01-05,2022-12-28,Mall


In [30]:
df_store_amout = merged_df.groupby("Store Location")["Purchase Amount"].mean().sort_values(ascending=False).reset_index()
df_store_amout

Unnamed: 0,Store Location,Purchase Amount
0,Downtown,352.0
1,Suburb,324.0
2,Uptown,259.842105
3,Mall,248.166667


---

### 문제 2: 월별 신규 고객 수 분석

- **설명**: `customers_df`를 사용하여 **월별 신규 가입 고객 수**를 계산하세요.
- **요구사항**:
  - `Registration Date`에서 연도-월 정보를 추출해 신규 가입 고객 수를 계산합니다.
  - 월별로 가입한 **신규 고객 수를 오름차순 정렬**합니다.
  - 최종 결과는 **연도-월(YearMonth), 신규 가입 고객 수(New Customers)**를 포함하는 데이터프레임으로 출력하세요.


In [31]:
df_cus.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Customer ID        20 non-null     object        
 1   Registration Date  20 non-null     datetime64[ns]
 2   Store Location     20 non-null     object        
dtypes: datetime64[ns](1), object(2)
memory usage: 612.0+ bytes


In [74]:
df_cus["Registration Date"] = pd.to_datetime(df_cus["Registration Date"])
df_year = df_cus["Registration Date"].dt.year
df_month = df_cus["Registration Date"].dt.month
df_year_month = df_cus["Registration Date"].dt.to_period("M")
df_month_register = df_cus.groupby(df_year_month)["Customer ID"].count().reset_index()
df_month_register.drop


Unnamed: 0,Registration Date,Customer ID
0,2022-01,2
1,2022-02,1
2,2022-04,2
3,2022-06,1
4,2022-07,3
5,2022-08,2
6,2022-09,4
7,2022-10,3
8,2022-12,2



---

### 문제 3: 고객별 누적 구매 금액 분석

- **설명**: `transactions_df` 데이터를 이용하여 **고객별 누적 구매 금액**을 계산하세요.
- **요구사항**:
  - 고객별로 `Purchase Amount`를 **누적**하여 각 거래에서의 누적 구매 금액을 계산합니다.
  - 최종 결과는 **Customer ID, Transaction ID, Transaction Date, 누적 구매 금액(Cumulative Purchase)**을 포함하는 데이터프레임으로 출력하세요.


In [91]:
df_trans.head()

Unnamed: 0,Transaction ID,Customer ID,Purchase Amount,Transaction Date,Cumulative Purchase
0,T0001,C013,493,2023-06-17,493
1,T0002,C016,249,2023-02-06,249
2,T0003,C001,278,2023-10-04,278
3,T0004,C004,340,2023-01-06,340
4,T0005,C004,393,2023-01-18,733


In [84]:
dir(df_trans.groupby("Customer ID")["Purchase Amount"])

['_SeriesGroupBy__examples_series_doc',
 '__annotations__',
 '__class__',
 '__class_getitem__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__orig_bases__',
 '__parameters__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__slots__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_accessors',
 '_agg_examples_doc',
 '_agg_general',
 '_agg_py_fallback',
 '_aggregate_multiple_funcs',
 '_aggregate_named',
 '_aggregate_with_numba',
 '_apply_filter',
 '_ascending_count',
 '_concat_objects',
 '_constructor',
 '_cumcount_array',
 '_cython_agg_general',
 '_cython_transform',
 '_deprecate_axis',
 '_descending_count',
 '_dir_additions',
 '_dir_deletions',
 '_fill',
 '_get_data_to_aggregate',
 '_get_inde

In [92]:
df_mean = df_trans.groupby("Customer ID")["Purchase Amount"].sum().reset_index()
df_mean.rename(columns={"Purchase Amount" : "Cumulative Purchase"})

Unnamed: 0,Customer ID,Cumulative Purchase
0,C001,1456
1,C002,957
2,C003,232
3,C004,1161
4,C005,593
5,C006,630
6,C007,1070
7,C008,304
8,C009,435
9,C010,495


---
### 문제 4: 인기 있는 구매 요일 분석

- **설명**: `transactions_df`의 거래 날짜에서 요일을 추출하여, **가장 인기 있는 구매 요일**을 분석하세요.
- **요구사항**:
  - `Transaction Date`에서 요일을 추출합니다.
  - 요일별 **구매 횟수를 집계**하여 **가장 많이 구매가 발생한 요일 순**으로 정렬합니다.
  - 최종 결과는 **요일(Day of Week)와 구매 횟수(Transaction Count)**로 구성된 데이터프레임을 출력하세요.


In [93]:
df_trans.head()

Unnamed: 0,Transaction ID,Customer ID,Purchase Amount,Transaction Date,Cumulative Purchase
0,T0001,C013,493,2023-06-17,493
1,T0002,C016,249,2023-02-06,249
2,T0003,C001,278,2023-10-04,278
3,T0004,C004,340,2023-01-06,340
4,T0005,C004,393,2023-01-18,733


In [94]:
df_trans.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Transaction ID       50 non-null     object        
 1   Customer ID          50 non-null     object        
 2   Purchase Amount      50 non-null     int32         
 3   Transaction Date     50 non-null     datetime64[ns]
 4   Cumulative Purchase  50 non-null     int32         
dtypes: datetime64[ns](1), int32(2), object(2)
memory usage: 1.7+ KB


In [102]:
mapped = {0: "월", 1: "화", 2: "수", 3: "목", 4: "금", 5: "토", 6: "일"}
df_day = df_trans.groupby(df_trans["Transaction Date"].dt.dayofweek.map(mapped)).size().sort_values(ascending=False).reset_index()

In [106]:
df_day = df_day.rename(columns={"Transaction Date" : "요일", 0:"Transaction Count"})
df_day

Unnamed: 0,요일,Transaction Count
0,월,9
1,토,9
2,금,8
3,일,8
4,수,7
5,목,5
6,화,4


---

### 문제 5: 상위 10% VIP 고객 분석

- **설명**: `transactions_df`에서 **총 구매 금액이 상위 10%에 속하는 VIP 고객**을 분석하세요.
- **요구사항**:
  - 각 고객의 총 구매 금액을 계산합니다.
  - 총 구매 금액이 상위 10%에 해당하는 고객을 추출합니다.
  - VIP 고객 목록에는 **Customer ID와 총 구매 금액(Total Purchase Amount)**을 포함하고, **총 구매 금액이 높은 순서**로 정렬하세요.

---

In [107]:
df_trans.head()

Unnamed: 0,Transaction ID,Customer ID,Purchase Amount,Transaction Date,Cumulative Purchase
0,T0001,C013,493,2023-06-17,493
1,T0002,C016,249,2023-02-06,249
2,T0003,C001,278,2023-10-04,278
3,T0004,C004,340,2023-01-06,340
4,T0005,C004,393,2023-01-18,733


In [119]:
df_amount = df_trans.groupby("Customer ID")["Purchase Amount"].sum().reset_index()
vvip_thres = df_amount["Purchase Amount"].quantile(0.9)
print(vvip_thres)
df_amount

1190.5000000000005


Unnamed: 0,Customer ID,Purchase Amount
0,C001,1456
1,C002,957
2,C003,232
3,C004,1161
4,C005,593
5,C006,630
6,C007,1070
7,C008,304
8,C009,435
9,C010,495


In [123]:
df_amount[df_amount["Purchase Amount"] >= vvip_thres].sort_values(by=["Purchase Amount"], ascending=False).reset_index(drop=True)

Unnamed: 0,Customer ID,Purchase Amount
0,C020,1999
1,C001,1456
