* 데이터셋 : https://archive.ics.uci.edu/ml/datasets/Online+Retail#
## 라이브러리 로드

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import datetime as dt
import matplotlib.pyplot as plt

## 폰트 설정

In [None]:
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()
    
    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        # Linux(colab)
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv

        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont
        
        font_family = "NanumBarunGothic"
    return font_family

plt.rc("font", family=get_font_family())
plt.rc("axes", unicode_minus=False)

<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

In [None]:
# pd.read_excel 로 데이터를 불러옵니다.
# 데이터의 용량이 커서 로드하는데 1분 이상 걸릴 수도 있습니다. 또 read_excel은 시간이 오래 걸립니다.
# csv로 로드하는 것이 훨씬빠릅니다.
# df = pd.read_excel("http://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx")
df = pd.read_csv("data/online_retail.csv")
df.shape

## 데이터 미리보기 및 요약

In [None]:
# head


In [None]:
# tail


## info

In [None]:
# 데이터 집합과 각 열들의 자료형을 확인합니다.


Attribute Information:

- InvoiceNo: 송장번호. 해당 거래에 할당된 6자리 정수
  * 이 코드가 문자 'c'로 시작하면 취소를 나타냅니다.
- StockCode: 제품 코드. 각 고유 제품에 고유하게 할당된 5자리 정수
- Description: 제품 이름
- Quantity: 거래당 각 제품의 수량 
  * 이 코드가 ‘-’(마이너스)로 시작하면 취소를 나타냅니다.
- InvoiceDate:  송장 날짜 및 시간. 숫자, 각 거래가 생성된 날짜 및 시간
- UnitPrice: 단가. 제품 가격(영국 화폐)
- CustomerID: 고객 번호. 해당 고객에게 고유하게 할당된 5자리 정수
- Country: 국가 이름. 해당 고객이 거주하는 국가의 이름

## 기술통계

In [None]:
# describe 를 통해 수치 타입의 기술통계를 구합니다.


In [None]:
# describe 를 통해 object 타입의 기술통계를 구합니다.


## 결측치

In [None]:
# 결측치 합계를 구합니다.


In [None]:
# 결측치 비율을 구합니다.


In [None]:
# 결측치를 시각화 합니다.


## 히스토그램으로 전체 수치변수 시각화

In [None]:
# 히스토그램은 측정값을 구간으로 나누어 도수분포로 나타낸 plot입니다.


## 전체 주문금액 파생변수 만들기
* 수량 X 금액으로 전체 금액 계산하기

In [None]:
# TotalPrice 는 RFM 중 MonetaryValue의 값이 됩니다.
df["TotalPrice"]


## 회원 vs 비회원 구매

In [None]:
# CustomerID 결측치 유무


## 매출액 상위 국가

In [None]:
# 국가별 매출액의 평균과 합계를 구합니다.
# TotalPrice를 통해 매출액 상위 10개만 가져옵니다.
top_sale_country =  df.groupby("Country")["TotalPrice"].agg(
    ["mean", "sum"]).sort_values("sum", ascending=False)
top_sale_country.head(10).style.format("{:,}")

## 날짜와 시간

In [None]:
# InvoiceDate를 datetime 모듈을 통해 날짜형식으로 변환해 줍니다.
df["InvoiceDate"] = pd.to_datetime(df["InvoiceDate"])
df["InvoiceDate"].head(1)

In [None]:
# year, month, day, dayofweek 를 InvoiceDate에서 추출하여 파생변수로 생성합니다.
df["InvoiceYear"] = df["InvoiceDate"].dt.year
df["InvoiceMonth"] = df["InvoiceDate"].dt.month
df["InvoiceDay"] = df["InvoiceDate"].dt.day
df["InvoiceDow"] = df["InvoiceDate"].dt.dayofweek
df.head(1)

In [None]:
# InvoiceDate 에서 time, hour 에 대한 파생변수도 생성합니다.
df["InvoiceTime"] = df["InvoiceDate"].dt.time
df["InvoiceHour"] = df["InvoiceDate"].dt.hour
df.head(1)

In [None]:
# day_name() 을 통해 InvoiceDate 에서 요일명을 추출하여 파생변수로 생성합니다.
df["InvoiceDayname"] = df["InvoiceDate"].dt.day_name()
df["InvoiceDayname"].sample(5)

In [None]:
# InvoiceDate 에서 앞에서 7개문자만 가져오면([:7]) 연, 월만 따로 생성합니다.
df["InvoiceYM"] = df["InvoiceDate"].astype(str).str[:7]
df[["InvoiceDate", "InvoiceYM"]].sample(5)

In [None]:
# countplot 으로 연도(InvoiceYear)별 구매 빈도수 시각화합니다.
sns.countplot(data=df, x="InvoiceYear")

In [None]:
# countplot 으로 월(InvoiceMonth)별 구매 빈도수 시각화합니다.

sns.countplot(data=df, x="InvoiceMonth")

In [None]:
# countplot 으로 연도-월별(InvoiceYM) 구매 빈도수 시각화합니다.
plt.figure(figsize=(12, 4))
sns.countplot(data=df, x="InvoiceYM")

### 요일별 빈도수

In [None]:
# countplot 으로 요일별( InvoiceDow ) 구매 빈도수 시각화합니다.
sns.countplot(data=df, x="InvoiceDow")

In [None]:
# 시간별( InvoiceHour ), 요일별( InvoiceDow )로 crosstab 을 통해 구매 빈도수 구합니다.
order_hour_dow = pd.crosstab(df["InvoiceHour"], df["InvoiceDow"])
order_hour_dow

In [None]:
# 리스트컴프리헨션(List comprehension)을 통해 토요일을 제외한 
# "월화수목금일"요일 문자열을 리스트를 컬럼명으로 대체합니다.
# 위에서 구한 값을 .style.background_gradient() 통해서 시각화합니다.
# order_hour_dow

order_hour_dow.columns = [w for w in "월화수목금일"]
order_hour_dow.style.background_gradient()

In [None]:
# 시간별_요열별 구매 주문( order_hour_dow )을 시각화합니다.
order_hour_dow.plot(figsize=(12, 3))

In [None]:
# 시간별_요열별 구매 주문( order_hour_dow )을 subplot을 통해 요일별 시각화합니다.

_ = order_hour_dow.plot.area(figsize=(12, 6), subplots=True)

In [None]:
# 시간별_요열별 구매 주문( order_hour_dow )을 heatmap을 통해 구매 빈도수를 시각화합니다.
plt.figure(figsize=(12, 8))
sns.heatmap(order_hour_dow, annot=True, fmt=',.0f',cmap="Blues")

### 시간대 빈도수

In [None]:
# countplot으로 시간대( InvoiceHour ) 구매 빈도수를 시각화합니다.
plt.figure(figsize=(12, 4))
sns.countplot(data=df, x="InvoiceHour")

## 유효한 데이터만 추출
```python

df_valid = df[df["CustomerID"].notnull() & (df["Quantity"] > 0) & (df["UnitPrice"] > 0)]
df_valid = df_valid.drop_duplicates()
df_valid.shape
```

In [None]:
# "CustomerID" 가 있고(notnull) "Quantity", "UnitPrice" 가 0보다 큰 데이터를 가져옵니다.
# 구매하고 취소한 건 중 취소한 건만 제외하고 구매 건은 남깁니다.
# 유효한 데이터를 df_valid 변수에 할당합니다.


In [None]:
# 고객ID가 없는 건도 제거하여 df_valid 변수에 할당합니다.
# 중복 데이터 제거


## 고객

In [None]:
# df_valid(유효고객, 유효주문) 내 고객별( CustomerID ) 구매( InvoiceNo ) 빈도수를 구합니다.
cust_count = df_valid.groupby("CustomerID")["InvoiceNo"].count()
cust_count

In [None]:
# 고객별( CustomerID ) 구매( InvoiceNo ) 빈도수의 기술통계 값을 확인합니다.
cust_count.describe()

In [None]:
# cust_count.to_frame(name="count") 으로 데이터 타입을 Series에서 Dataframe으로 변환합니다.
df_cust_count = cust_count.to_frame(name="count")
df_cust_count

In [None]:
df_cust_count.hist(bins=50)

In [None]:
# df_cust_count 를 violinplot 으로 시각화합니다.
sns.violinplot(data=df_cust_count)

## 월단위 데이터 전처리

In [None]:
# get_month_day1() 함수를 통해 " 연도-월-1 " 형식으로 만듭니다.
# 일자를 " 1 "로 통일화한 이유는 월별 잔존률을 구하기 위해서 입니다.(월 단위)
def get_month_day1(x): 
    return dt.datetime(x.year, x.month, 1)

```python
df_valid["InvoiceDate1"] = df_valid["InvoiceDate"].map(get_month_day1)
```

In [None]:
# map() 함수를 통해 get_month_day1() 함수를 df_valid(유효고객, 유효주문)에 일괄 적용합니다.
# " 연도-월-1 "로 표기가 통일된 InvoiceDate1 이라는 파생변수를 생성합니다.
# df_valid["InvoiceDate1"]

In [None]:
# InvoiceDdf_valid["InvoiceDate1"]을 구합니다.
df_valid.groupby("CustomerID")["InvoiceDate1"].transform("min")

```python
df_valid["InvoiceDateMin"] = df_valid.groupby("CustomerID")["InvoiceDate1"].transform("min")
```

In [None]:
# 최초 구매일( InvoiceDateMin )에 InvoiceDate1의 최솟값을 구하여 할당합니다.
# 일자가 " 1 "로 통일되어 있어 " 최근 구매일 - 최초 구매일 "로 첫 구매 후 몇달 후 구매인지를 알 수 있습니다.
# df_valid["InvoiceDateMin"]

```python
year_diff = df_valid["InvoiceDate1"].dt.year - df_valid["InvoiceDateMin"].dt.year
month_diff = df_valid["InvoiceDate1"].dt.month - df_valid["InvoiceDateMin"].dt.month
```

In [None]:
# 연도별 차이(year_diff)와 월별 차이(month_diff)를 구합니다.
 
# year_diff 
# month_diff

```python
df_valid["CohortIndex"] = year_diff * 12 + month_diff + 1
```

In [None]:
# " 연도차이 * 12개월 + 월차이 + 1 "로 첫 구매 후 몇달 후 구매인지 알 수 있도록 CohortIndex 변수를 생성합니다.
# 2010-12-01부터 2011-12-01의 데이터를 기반으로 진행되어 CohortIndex 변수의 최솟값은 1이며, 최댓값 13입니다.
df_valid["CohortIndex"]

### 코호트 월별 빈도수

In [None]:
# CohortIndex 값으로 월별 잔존 구매에 대한 빈도수를 구합니다.
# 회원가입 후 월별 구매 빈도수를 value_counts 로 구합니다.
df_valid["CohortIndex"].value_counts().sort_index()

In [None]:
# countplot 으로 CohortIndex 의 빈도수를 시각화합니다.
plt.figure(figsize=(12, 4))
sns.countplot(data=df_valid, x="CohortIndex")

## 월별, 주문건, 주문제품 종류 수, 중복을 제외한 고객 수, 총 주문금액

In [None]:
# df_valid(유효고객, 유효주문)에 대해 월별 데이터( InvoiceMonth )를 확인합니다.
# InvoiceNo 의 수
# StockCode, CustomerID 의 유일값의 수
# UnitPrice, Quantity, TotalPrice 의 sum
df_valid.groupby('InvoiceMonth').agg({"InvoiceNo":"_______", 
                                      "StockCode":"_______", 
                                      "CustomerID":"_______",
                                      "UnitPrice":"_______",
                                      "Quantity":"_______",
                                      "TotalPrice":"_______"
                                     }).style.format("{:,}")

## 잔존 빈도 구하기
```python
cohort_count = df_valid.groupby(["InvoiceDateMin", "CohortIndex"])["CustomerID"].nunique().unstack()
cohort_count
```

In [None]:
# InvoiceDateMin , CohortIndex 로 그룹화 하여 CustomerID 의 유일값에 대한 빈도수를 구합니다.
# cohort_count


In [None]:
# cohort_count.index = cohort_count.index.astype(str)

In [None]:
# heatmap을 통해 위에서 구한 잔존수을 시각화 합니다.
plt.figure(figsize=(12, 8))


### 월별 신규 유입 고객 수 
* Acqusition

In [None]:
cohort_count[1]

In [None]:
# Monthly Acqusition 을 구합니다.
cohort_count[1].sort_index(
    ascending=False).plot.barh(figsize=(12, 6), title="Monthly Acqusition")

## 잔존율 구하기
```python

cohort_ratio = cohort_count.div(cohort_count[1], axis=0) * 100
cohort_ratio = cohort_ratio.round(2)
cohort_ratio
```

In [None]:
# NAN == Not a Number 의 약자
np.nan

In [None]:
# 가입한 달을 1로 나누면 잔존률을 구할 수 있습니다.
# div 를 통해 구하며 axis=0 으로 설정하면 첫 달을 기준으로 나머지 달을 나누게 됩니다.
cohort_ratio


In [None]:
# heatmap을 통해 위에서 구한 잔존률을 시각화 합니다.
plt.figure(figsize=(12, 8))
