<img src="https://i.ibb.co/1MPXBQZ/ringodata-banner-v2.jpg" width="200"/>


---
-  강의 및 추가 자료 링크
- 강의 링크: [Python 강의](#)

-  소셜 미디어 및 연락처
  - 저자 SNS: [instagram](https://www.instagram.com/ringo_data/?igsh=MTlrdW4xMzZvNTBtdw%3D%3D), [LinkedIn](https://www.linkedin.com/in/ringokwon/)
  - 이메일: ringo.data1@gmail.com

---

# Conversion Window 정의
- **정의**: 전환 과정 시작 후 구매/전환까지 시간을 측정하는 기간. 사용자 행동과 전환율 분석에 사용됨.
- **예시**:
  - **온라인 쇼핑**: 제품 처음 본 순간부터 구매 완료까지 시간 추적.
  - **앱 사용**: 앱 다운로드 후 첫 사용 또는 특정 기능 사용까지 시간 분석.
  - **서비스 가입**: 서비스 가입 후 실제 사용 시작까지 걸리는 시간 측정.
  - **온라인 광고**: 광고 클릭 후 실제 구매 또는 목표 전환 행동까지 시간 분석.
- **완전성과 적시성**:
  - 완전성 :  '완전성(Completeness)'은 수집된 데이터가 전체적인 사용자 행동을 얼마나 잘 대표하는지.
  - 적시성 : '적시성(Timeliness)'은 분석된 정보가 얼마나 신속하게 사용 가능한지.
  
  - 예시
    - **짧은 Conversion Window**: 빠른 데이터 분석 가능, 전체 행동 패턴 미반영 가능성.
      - 적시성 up, 완전성 down
    - **긴 Conversion Window**: 분석의 적시성 저하 가능성. 길이 설정은 비즈니스 목표와 제품 특성에 따라 달라짐.
      - 적시성 down, 완전성 up



In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [2]:
import pandas as pd
df = pd.read_csv ('/content/drive/MyDrive/강의노트 사본/conversion.csv의 사본' )
df.head()

Unnamed: 0,transaction_id,apply_at,pay_at
0,2560,2023-01-01,2023-01-08
1,2844,2023-01-01,2023-01-06
2,1878,2023-01-01,
3,2374,2023-01-01,2023-01-02
4,3923,2023-01-01,2023-01-08


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2170 entries, 0 to 2169
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   transaction_id  2170 non-null   int64 
 1   apply_at        2170 non-null   object
 2   pay_at          1062 non-null   object
dtypes: int64(1), object(2)
memory usage: 51.0+ KB


In [4]:
df['pay_at'] = pd.to_datetime(df.pay_at)
df['apply_at'] = pd.to_datetime(df.apply_at)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2170 entries, 0 to 2169
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   transaction_id  2170 non-null   int64         
 1   apply_at        2170 non-null   datetime64[ns]
 2   pay_at          1062 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int64(1)
memory usage: 51.0 KB


In [5]:
# apply와 pay 시간 분포
import pandas as pd
import numpy as np
import plotly.express as px
from datetime import datetime, timedelta

In [6]:
df['td'] = (df.pay_at - df.apply_at).dt.total_seconds()/(3600*24) # daily

In [7]:
df.head()

Unnamed: 0,transaction_id,apply_at,pay_at,td
0,2560,2023-01-01,2023-01-08,7.0
1,2844,2023-01-01,2023-01-06,5.0
2,1878,2023-01-01,NaT,
3,2374,2023-01-01,2023-01-02,1.0
4,3923,2023-01-01,2023-01-08,7.0


In [11]:
# 히스토그램
fig = px.histogram(
    df,
    x = 'td'
)
fig.add_vrect(x0 = -0.5, x1 = 10, fillcolor = 'red', opacity = .2)
fig.show()

In [16]:
thread = 10
a = df[~df.pay_at.isna()].shape[0]
b = df[df.td <= 10].shape[0]
ratio = b/a

In [20]:
# 히스토그램
fig = px.histogram(
    df,
    x = 'td'
)
fig.add_vrect(x0 = -0.5, x1 = 10, fillcolor = 'red', opacity = .2)
fig.add_annotation(x = thread, text = f'CW : {thread}일 -> 전환의 {ratio:.2f} & 포함')
fig.show()

In [22]:
thread = 1
a = df[~df.pay_at.isna()].shape[0]
b = df[df.td <= thread].shape[0]
ratio = b/a
# 히스토그램
fig = px.histogram(
    df,
    x = 'td'
)
fig.add_vrect(x0 = -0.5, x1 = thread, fillcolor = 'red', opacity = .2)
fig.add_annotation(x = thread, text = f'CW : {thread}일 -> 전환의 {ratio:.2f} & 포함')
fig.show()

In [24]:
# percentile : 데이터 분포, 특정 비율에 해당하는 값을 나타냄
# 데이터 세트 내에서 이 값보다 낮은 값들의 비율을 의미합니다.
lis = np.array([1,2,3,4,5,6,7,8,9,10])
np.percentile(lis,50)

5.5

In [28]:
thread = 1
a = df[~df.pay_at.isna()].shape[0]
b = df[df.td <= thread].shape[0]
ratio = b/a
# 히스토그램
fig = px.histogram(
    df,
    x = 'td'
)
fig.add_vrect(x0 = -0.5, x1 = thread, fillcolor = 'red', opacity = .2)
fig.add_annotation(x = thread, text = f'CW : {thread}일 -> 전환의 {ratio:.2f} & 포함')
# add perc
lis = df[~df.td.isna()].td
# perc = 50
y1 = 100
for perc in [10,20,30,40,50,60,70,80,90]:
  dates = np.percentile(lis, perc)
  fig.add_vline(x = dates)
  fig.add_annotation(x = dates, y = y1, text = f'percentile:{perc}% -> {dates}일')
  y1 -= 10
fig.show()

# Exercise
- 일시정지 후 스스로 문제를 풀어보고 강의를 수강해 주세요

[문제]
  - conversion.csv 파일에 저장된 데이터를 활용하여, Conversion Window(CW)를 각각 1일과 10일로 설정하고, 이에 따른 데이터 변화를 시각화하세요.
  - 분석시점이 23/01/27일 23:59:59 라고 가정하고 데이터를 아래의 조건으로 필터링 하시오

In [None]:
import pandas as pd
df = pd.read_csv ('/content/drive/MyDrive/강의노트 사본/conversion.csv의 사본' )
df['apply_at'] = pd.to_datetime(df.apply_at)
df['pay_at'] = pd.to_datetime(df.pay_at)
df[df['apply_at'] < '2023-01-28']
df['pay_at'] = pd.to_datetime(np.where ( df.pay_at >= pd.to_datetime('2023-01-28'),None,df.pay_at))

In [30]:
df.head()

Unnamed: 0,transaction_id,apply_at,pay_at
0,2560,2023-01-01,2023-01-08
1,2844,2023-01-01,2023-01-06
2,1878,2023-01-01,NaT
3,2374,2023-01-01,2023-01-02
4,3923,2023-01-01,2023-01-08


In [32]:
df['td'] = (df.pay_at - df.apply_at).dt.total_seconds()/(3600*24) #daily
df.head()

Unnamed: 0,transaction_id,apply_at,pay_at,td
0,2560,2023-01-01,2023-01-08,7.0
1,2844,2023-01-01,2023-01-06,5.0
2,1878,2023-01-01,NaT,
3,2374,2023-01-01,2023-01-02,1.0
4,3923,2023-01-01,2023-01-08,7.0


In [35]:
apply_cnt = df.groupby(by = 'apply_at').size().reset_index()
conv1_cnt = df[df.td <= 1].groupby(by = 'apply_at').size().reset_index()
conv10_cnt = df[df.td <= 10].groupby(by = 'apply_at').size().reset_index()
conv10_cnt

Unnamed: 0,apply_at,0
0,2023-01-01,28
1,2023-01-02,21
2,2023-01-03,17
3,2023-01-04,33
4,2023-01-05,18
5,2023-01-06,30
6,2023-01-07,24
7,2023-01-08,33
8,2023-01-09,25
9,2023-01-10,27


In [36]:
df = pd.merge(apply_cnt, conv1_cnt, how = 'left', left_on = 'apply_at', right_on = 'apply_at').rename(
    columns = {
        '0_x' : 'apply_cnt'
        , '0_y' : 'conv1_cnt'
    }
)
df.head()

Unnamed: 0,apply_at,apply_cnt,conv1_cnt
0,2023-01-01,72,5.0
1,2023-01-02,67,5.0
2,2023-01-03,51,6.0
3,2023-01-04,89,9.0
4,2023-01-05,67,6.0


In [38]:
df = pd.merge(df, conv10_cnt, how = 'left', left_on = 'apply_at', right_on = 'apply_at').rename(
    columns = {
        0: 'conv10_cnt'
    }
)

In [39]:
df['conv10_ratio'] = df.conv10_cnt / df.apply_cnt
df['conv1_ratio'] = df.conv1_cnt / df.apply_cnt
df.head()

Unnamed: 0,apply_at,apply_cnt,conv1_cnt,conv10_cnt,conv10_ratio,conv1_ratio
0,2023-01-01,72,5.0,28.0,0.388889,0.069444
1,2023-01-02,67,5.0,21.0,0.313433,0.074627
2,2023-01-03,51,6.0,17.0,0.333333,0.117647
3,2023-01-04,89,9.0,33.0,0.370787,0.101124
4,2023-01-05,67,6.0,18.0,0.268657,0.089552


In [41]:
fig = px.line(
    df
    , x = 'apply_at'
    , y = ['conv1_ratio', 'conv10_ratio']
)
fig.add_vline(x = '2023-01-27')

# conversion window에 따라 데이터가 신뢰 가능한 구간 표시
fig.add_vrect(x1 = '2023-01-27', x0 = '2023-01-17', fillcolor = 'red', opacity = .2)
fig.add_vrect(x1 = '2023-01-27', x0 = '2023-01-26', fillcolor = 'blue', opacity = .2)
fig.show()

---
-  🔒 저작권 및 사용 조건 (중요)
  - **저작권 보호**: 이 강의 노트는 저작권법에 의해 엄격히 보호됩니다.
  - **무단 사용 금지**: 어떠한 형태로든 상업적 사용이 엄격히 금지됩니다.
  - **개인용도 한정**: 이 자료는 교육 목적으로만 사용이 허가되며, 개인적인 학습 외의 목적으로 사용할 수 없습니다.
  - **위반 시 조치**: 저작권법 위반 시 법적 조치가 취해질 수 있습니다.
---

<img src="https://i.ibb.co/1MPXBQZ/ringodata-banner-v2.jpg" width="200"/>
