In [1]:
import pandas as pd
import numpy as np
from datetime import date, datetime, timedelta
import os
from stat import S_ISREG, ST_CTIME, ST_MODE

import sqlite3

con = sqlite3.connect('/path/****.db')
cursor = con.cursor()

In [2]:
yesterday = (date.today() - timedelta(days=1)).strftime("%Y-%m-%d")
week_start_date = (date.today() - timedelta(days=days_for_week[pd.to_datetime(date.today()).dayofweek])).strftime("%Y-%m-%d")
friday_date = (date.today() + timedelta(days=friday[pd.to_datetime(date.today()).dayofweek])).strftime("%Y-%m-%d")

# data 전처리, 신규 가입 log

In [4]:
#### 신규 가입 유저 log
#### 신규 가입 로그는 유저가 최초 가입할 때 기록 된다.

cursor.execute('SELECT * FROM ****')
columns = [description[0] for description in cursor.description]
df_user = pd.DataFrame(cursor.fetchall(),columns=columns)

In [8]:
df_user['uu**'] = np.where(
    df_user['uu**'].isnull()
    ,df_user['user**']
    ,df_user['uu**']
)

df_user['****_at'] = df_user['****_at']
df_user['****_date'] = pd.to_datetime(df_user['****_at'].astype(str).str[:10])

# data 전처리, 인스톨 log

In [None]:
#### 인스톨 log
#### 유저가 재설치 할 경우 새로 log가 생긴다

cursor.execute('SELECT * FROM ****')
columns = [description[0] for description in cursor.description]
df_install = pd.DataFrame(cursor.fetchall(),columns=columns)

In [9]:
#### date 추가
df_install['****_date'] = pd.to_datetime(df_install['****_at'].astype(str).str[:10])
df_install['****_date'] = pd.to_datetime(df_install['****_at'].astype(str).str[:10])

#### 일별 중복 설치 제거
#### 목적 : 데이터 처리 편의
df_install_drop_daily = df_install.sort_values(['****_ at']).drop_duplicates(['****_id','****_date'])

#### 유저 별 최초 설치 일자 분류 (생애 X, 한정된 데이터 내 최초 설치)
df_first_install = df_install.sort_values(['****_at']).drop_duplicates(['****'])

#### 최초 설치 일자 merge
df_install_drop_merge_first = pd.merge(
    df_install_drop_daily,
    df_first_install[['****','****_date']],
    'left',
    on='****',
    suffixes=('','_first')
)

#### 최초 설치 수 재 설치 경과 일 생성
df_install_drop_merge_first['it-fit'] = (df_install_drop_merge_first['****_date'] - df_install_drop_merge_first['inst**_date_first']).dt.days

#### user_id, install date 내림차순
df_install_drop_merge_first = df_install_drop_merge_first.sort_values(['us**','inst**_date'])

#### it-fit 한칸 내림 (down one space)
df_install_drop_merge_first['it-fit-dos'] = np.append(np.array([0]),df_install_drop_merge_first['it-fit'].values[:-1]).tolist()

In [10]:
#### 근접-직전 install log 일(day)차 연산
## list
it_fit = list(df_install_drop_merge_first['it-fit'].values)
it_fit_dos = list(df_install_drop_merge_first['it-fit-dos'].values)

## 동일 user_id 별 설치일 차이가 90일 이하 일 경우 같은 그룹화
## user_id 가 바뀔경우 차이는 0 또는 음수 -> default
result = []
for x,y in zip(it_fit_dos,it_fit):
    if y-x <=0:
        num = 1
        result.append(num)
    elif y-x <=90:
        result.append(num)
    else:
        num = num +1
        result.append(num)

# data 전처리, 첫 설치와 재설치 구분

In [11]:
## 결과 컬럼 추가
df_install_drop_merge_first['result'] = result

In [12]:
#### user_id 없는 low 제거
#### user_id, result 중복값 제거 -> 근접 설치 그룹 중 설치가 빠른 install log 남김

df_install_drop_merge_first_drop_dup_install_by3 = df_install_drop_merge_first[
    (df_install_drop_merge_first['us**'].notnull())
].drop_duplicates(['us**','result'])


In [13]:
#### 재설치 구분
df_install_drop_merge_first_drop_dup_install_by3['reinstall'] = np.where(
    df_install_drop_merge_first_drop_dup_install_by3['result']==1
    ,'Firstinstall'
    ,'Reinstall'
)

In [15]:
#### 특정 기간의 재설치 로그 분류
df_reinstall = df_install_drop_merge_first_drop_dup_install_by3[
    (df_install_drop_merge_first_drop_dup_install_by3['reinstall']=='Reinstall')
    &(df_install_drop_merge_first_drop_dup_install_by3['crea**_date']>=week_start_date)
    &(df_install_drop_merge_first_drop_dup_install_by3['crea**_date']<=yesterday)
]

In [16]:
df_reinstall.shape

(17198, 11)

In [17]:
#### 재설치 로그에, 첫 가입일 merge

df_reinstall = pd.merge(
    df_reinstall
    ,df_user[[
        'use**'
        ,'uu**'
        ,'sign**'
        ,'is_**stomer'
    ]]
    ,'left'
    ,on='user_id'
    ,suffixes=('','_y')
)

In [18]:
#### 신규 가입 로그와 concat 하기 위한 컬럼 표준화
df_reinstall_old = df_reinstall[[
    'us**'
    ,'uu**'
    ,'dev**_type'
    ,'inst**_at'
    ,'inst**_date'
    ,'crea**_at'
    ,'crea**_date'
    ,'reinstall'
    ,'is_**stomer'
]]

In [19]:
#### 인스톨 로그와 동일 기간 신규 가입 로그 분류
df_user_new = df_user[
    (df_user['crea**_date']>=week_start_date)
    &(df_user['crea**_date']<=yesterday)
].sort_values('crea**_date')[[
    'us**'
    ,'uu**'
    ,'dev**_type'
    ,'cre**_at'
    ,'cre**_date'
    ,'is_**stomer'
]]

# data 전처리, 같은 기간 재설치 로그 + 신규 가입 유저 로그

In [20]:
#### 병합된 데이터에는 재설치 유저와 신규 가입 유저는 중복되지 않음
#### 재설치 조건 정의 : 직전 설치 후 90일이 지나야 인정
#### 병합된 데이터에서 신규 가입 유저는 최근 4주 내 가입한 유저 이기 때문에 중복되지 않음
#### 신규 가입 유저, 분류에 사용된 week_start_date는 최근 4주 전 일자임

#### 병합
df_user_concat = pd.concat([
    df_reinstall_old
    ,df_user_new
])

In [22]:
df_user_concat = df_user_concat[
    (df_user_concat['is_**stomer']==True)
]

In [23]:
df_user_concat['reinstall'] = df_user_concat['reinstall'].fillna('FirstInstall')

In [24]:
df_user_concat.sort_values('cre**_at').shape

(179755, 9)

In [25]:
#### ????
#### 90일 이후 설치해야 재설치를 인정한다면
#### df_user_new는 최근 4주 설치이기 때문에 user_id 중복값 제거를 해도 상관없다?

df_user_concat = df_user_concat.sort_values('cre**_at').drop_duplicates('us**')

In [26]:
df_user_concat['week'] = (((pd.to_datetime(friday_date) - pd.to_datetime(df_user_concat['cre**_date'])).astype(str).str[:-24].astype(int)/7)+0.9999).astype(int)

# 신규 가입 log에는 기록되지 않는, 재설치 유저 약 10%

In [27]:
df_user_concat.pivot_table(
    index='week'
    ,columns='reinstall'
    ,values='us**'
    ,aggfunc='count'
)

reinstall,FirstInstall,Reinstall
week,Unnamed: 1_level_1,Unnamed: 2_level_1
1,49493,4809
2,39735,4119
3,37061,4080
4,36358,4078
