In [15]:
# -*- coding: utf-8 -*- Line 2
#----------------------------------------------------------------------------
# Project     : Price Alarm System Enhancement
# Created By  : Eungi Cho
# Created Date: 26/05/22
# Updated Date: 02/06/22
# version ='1.0'
# ---------------------------------------------------------------------------

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
import csv

warnings.filterwarnings("ignore")
plt.style.use('default')

In [2]:
import pathlib
print(pathlib.Path().absolute())
df_raw = pd.read_csv('/Users/cho-eungi/Practice/CSV/market_entry_price.csv')
print(df_raw.shape)
# print(df_raw.isnull().sum())
df_raw = df_raw.drop_duplicates()
df_raw.head()

/Users/cho-eungi/Practice/Tridge
(10619563, 11)


Unnamed: 0,source_id,country,market_id,product_id,entry_id,currency,final_unit,date,price_min,price_max,price_avg
0,201,South Africa,1487,131,92926374,ZAR,kg,2020-07-20,19.64,21.2,19.956
1,39,India,810,490,41039702,INR,kg,2020-07-06,11.8,12.5,12.2
2,41,India,2188,133,50157058,INR,kg,2020-07-06,50.0,52.7,51.4
3,556,Bangladesh,6581,545,84458922,BDT,kg,2020-07-13,4400.0,4800.0,4600.0
4,150,Turkey,2482,126,58387432,TRY,,2020-07-13,10.0,15.0,11.288


In [3]:
# Create Test df
entry_lst = np.sort(df_raw['entry_id'].unique())
np.random.seed(0)
sample_entry = np.random.choice(entry_lst, 100)
test_df = df_raw.loc[df_raw['entry_id'].isin(sample_entry)].sort_values(
    by = ['source_id', 'market_id', 'entry_id', 'date']).copy()
test_df['date'] = pd.to_datetime(test_df['date'])
test_df

Unnamed: 0,source_id,country,market_id,product_id,entry_id,currency,final_unit,date,price_min,price_max,price_avg
4204542,7,Mexico,708,99,84653177,MXN,kg,2020-01-06,300.0,300.0,300.000000
1181287,7,Mexico,860,121,105035479,MXN,kg,2021-01-04,24.0,25.0,24.500000
5736243,9,China,335,504,40896407,CNY,kg,2020-01-06,2.2,2.6,2.400000
5843874,9,China,335,504,40896407,CNY,kg,2020-01-13,2.2,2.6,2.400000
5955770,9,China,335,504,40896407,CNY,kg,2020-01-20,2.2,2.6,2.400000
...,...,...,...,...,...,...,...,...,...,...,...
1128755,645,South Africa,696,236,89501675,ZAR,kg,2022-02-28,60.0,70.0,64.996667
1004406,645,South Africa,696,236,89501675,ZAR,kg,2022-03-07,20.0,20.0,20.000000
10366697,645,South Africa,1258,128,111824248,ZAR,kg,2021-12-06,53.0,55.0,54.600000
10466055,645,South Africa,1258,128,111824248,ZAR,kg,2021-12-20,5.0,38.0,19.330000


In [4]:
# W-MON date range from 2020 to 2022
# Left Join Test DF and Time DF
empty_df = pd.DataFrame()
for entry in sample_entry:
    entry_start = min(df_raw.loc[df_raw['entry_id'] == entry]['date'])
    date_range = pd.date_range(entry_start, '2022-05-31', freq = 'W-MON')
    time_df = pd.DataFrame({'date': date_range})
    
    time_df['entry_id_'] = entry
    entry_df = test_df.loc[test_df['entry_id'] == entry]
    joined_df = pd.merge(time_df, entry_df, left_on = ['date'], right_on = ['date'], how = 'left')
    empty_df = empty_df.append(joined_df)

df = empty_df.copy()
df = df.sort_values(by = ['entry_id_', 'date'])
df.set_index(np.arange(len(df)), inplace=True)
df

Unnamed: 0,date,entry_id_,source_id,country,market_id,product_id,entry_id,currency,final_unit,price_min,price_max,price_avg
0,2020-01-06,40867745,39.0,India,1484.0,206.0,40867745.0,INR,kg,61.75,61.75,61.750000
1,2020-01-13,40867745,,,,,,,,,,
2,2020-01-20,40867745,,,,,,,,,,
3,2020-01-27,40867745,39.0,India,1484.0,206.0,40867745.0,INR,kg,46.05,51.00,48.500000
4,2020-02-03,40867745,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
8140,2022-05-30,123551904,,,,,,,,,,
8141,2022-05-09,132918138,647.0,South Africa,1365.0,252.0,132918138.0,ZAR,kg,30.00,48.00,39.333333
8142,2022-05-16,132918138,,,,,,,,,,
8143,2022-05-23,132918138,,,,,,,,,,


In [5]:
# Abnormal Price Range Detection
def exceed_3sigma(array):
    threshold_min = np.min(array) - 3 * np.std(array)
    threshold_max = np.min(array) + 3 * np.std(array)
    if threshold_min < 0:
        threshold_min = 0

    check_col = []
    for i in array:
        if i > threshold_max or i < threshold_min:
            check_col.append(1)
        else:
            check_col.append(0)
    return np.asarray(check_col)

# Count the occurances of consecutive null value
def count_consec_nan(array):
    consec_cnt = array.isnull().astype(int).groupby(array.notnull().astype(int).cumsum()).cumsum()
    return np.asarray(consec_cnt)

# -- Alarm -- #
# price change rate
def alarm_1(df):
    df['price_avg_chg'] = np.where(
        (df['price_avg'].notnull()) & (df['price_avg'].shift(1).notnull())
        , df['price_avg'] / df['price_avg'].shift(1)
        , 0)
    df['rank'] = df.groupby('entry_id')['date'].rank("dense", ascending = True)
    df['price_avg_chg_'] = np.where(df['rank'] == 1, np.nan, df['price_avg_chg'])
    df.drop(['price_avg_chg', 'rank'], axis = 1, inplace = True)
    df['alarm1'] = np.where(df['price_avg_chg_'] > 2, 1, 0)

# consecutive null count
def alarm_2(df):
    # 연속적으로 null 이 보고되는 횟수를 담은 column: consec_null
    # consec_null 의 shift(1) column: consec_null_shift
    df['consec_null'] = df.groupby('entry_id_')['price_avg'].transform(count_consec_nan)
    df['consec_null_shift'] = df.groupby('entry_id_')['consec_null'].shift(1)
    
    # Logic 상세 설명 - consec_null 와 consec_null_shift 비교:
    # entry_id의 Price의 첫 보고일 2020.10.05: consec_null == 0, consec_null_shift == NaN, freq == 0
    # 다음 Price 보고일 2020.10.12: consec_null == 0, consec_null_shift == 0, freq == 1
    # 다음 Price 보고일 2020.10.19: consec_null == 0, consec_null_shift == 0, freq == 1
    # 다음 Price 보고일 2020.11.09(3주차에 보고): consec_null == 0, consec_null_shift == 2, freq == 3
    
    # conditions[0]: Price 첫 보고일 // conditions[1]: 다음 Price 보고일
    conditions  = [ (df['consec_null'] == 0) & (df['consec_null_shift'].isnull()), (df['consec_null'] == 0) & (df['consec_null_shift'].notnull()) ]
    choices     = [ 0, df['consec_null_shift'] + 1]
    df["freq"] = np.select(conditions, choices, default=np.nan)
    
    # 해당 entry_id의 Price의 주 보고 기간의 최빈값 계산. 복수 개의 최빈값이 있을 경우, 리스트 형태로 닮김.
    entry_freq = df.groupby('entry_id_')['freq'].agg(pd.Series.mode).to_dict()
    
    # 최빈값 Dict 생성
    threshold_dict = {}
    for entry, freq in entry_freq.items():
        # 최빈값이 단일값만 존재할 경우:
        if isinstance(freq, float):
            # 최빈값이 단일값만 존재하고, freq = 0이라는 것은 단 한 번 Price가 보고된 후, 그 이후로는 보고되지 않고 있다는 뜻.
            if freq == 0:
                timedelt = round((pd.Timestamp(2022, 5, 31) - min(df.loc[df['entry_id'] == entry]['date'])) / np.timedelta64(1, 'M'))
                # 2022/05/31 기준 2개월 이내 추가된 entry일 경우는 threshold를 0으로 설정.
                if timedelt < 2:
                    threshold_dict[entry] = freq
                # 그렇지 않다면, threshold를 8 (4 x 2) 로 설정
                else:
                    threshold_dict[entry] = 4                    
        # 최빈값이 두 개 이상 존재: 매우 불규칙하게 보고되어서 일정한 주기가 없는 경우
        # 이 때 threshold 설정은 0과 1을 제외한 min값
        else:
            # 최빈값이 [0, 1] 일 경우. 즉 최초 한 번과 바로 그 다음 주기에 price가 보고된 후 한 번도 들어오지 않은 경우
            if (np.min(freq) == 0) & (freq[np.where(freq == np.min(freq))[0][0] + 1] == 1) :
                timedelt = round((pd.Timestamp(2022, 5, 31) - min(df.loc[df['entry_id'] == entry]['date'])) / np.timedelta64(1, 'M'))
                # 2022/05/31 기준 2개월 이내 추가된 entry일 경우는 threshold를 0으로 설정.
                if timedelt < 2:
                    threshold_dict[entry] = 0
                # 그렇지 않다면, threshold를 8 (4 x 2) 로 설정
                else:
                    threshold_dict[entry] = 4
            # 최빈값이 [0,1,3,10,...] 등 최초 한 번 보고된 후에도 매우 불규칙적으로 보고되고 있는 entry일 경우
            else:
                try:
                    # 위 예시같은 경우 - threshold = 3 (0의 index + 2) x 2
                    threshold[entry] = freq[np.where(freq == np.min(freq))[0][0] + 2] * 2
                    # [0, 2] 같은 경우 - threshold = 2 (0 index + 1) x 2
                except:
                    threshold[entry] = freq[np.where(freq == np.min(freq))[0][0] + 1] * 2

    with open('threshold.csv', 'w') as f:
        w = csv.Dictwriter(f, threshold_dict.keys())
        w.writeheader()
        w.writerow(threshold_dict)

    for entry, threshold in threshold_dict.items():
        df['alarm2'] = np.where((df['entry_id_'] == entry) & (df['freq'] >= threshold), 1, 0)

# abnormal price
def alarm_3(df):
    group = df.groupby('entry_id')["price_avg"]
    df['alarm3'] = group.transform(exceed_3sigma)

# constant price
def alarm_4(df):
    df['rank_'] = df.groupby(by = 'entry_id')['date'].rank("dense", ascending = True)
    df['price_avg_shift'] = np.where(df['rank_'] == 1, np.nan, df['price_avg'].shift(1))
    df.drop(['rank_'], axis = 1, inplace = True)
    df['consec_count_same'] = (df['price_avg'] == df['price_avg_shift']).groupby(
        (df['price_avg'] != df['price_avg_shift']).cumsum()
    ).cumsum()
    threshold_alarm4 = 10
    df['alarm4'] = np.where(df['consec_count_same'] >= threshold_alarm4, 1, 0)
    
# change in number of entries in source 
def alarm_5(df):
    df_source = df.sort_values(by = ['date', 'source_id', 'entry_id']).copy()
    entry_countBysource = pd.DataFrame(empty_df.groupby(
        by = ['date', 'source_id'])['entry_id'].count()
                                      ).reset_index(level = (0,1))
    entry_countBysource = entry_countBysource.sort_values(by = ['source_id', 'date'])
    entry_countBysource['diff'] = entry_countBysource['entry_id'] - entry_countBysource['entry_id'].shift(1)
    entry_countBysource['Rank'] = entry_countBysource.groupby(by = 'source_id')['date'].rank("dense", ascending = True)
    entry_countBysource['diff_'] = np.where(entry_countBysource['Rank'] == 1, np.nan, entry_countBysource['diff'])
    entry_countBysource.drop(['Rank', 'diff'], axis = 1, inplace = True)

    threshold_alarm5 = 10
    result = entry_countBysource.loc[entry_countBysource['diff_'].abs() > threshold_alarm5]
    result_dict = result.to_dict('records')
    source_list = []
    date_list = []
    for result in result_dict:
        source_list.append(result['source_id'])
        date_list.append(result['date'])

    df['alarm5'] = np.where((df['source_id'].isin(source_list)) & (df['date'].isin(date_list)),
                           1, 0)

In [6]:
alarm_5(df)
alarm_4(df)
alarm_3(df)
alarm_2(df)
alarm_1(df)

In [7]:
print(f'df_raw -> random sampling {len(sample_entry)} entries')
print('total number of rows: ', len(df))
print('total number of entries: ', len(df['entry_id_'].unique())) # Why -2...
print('alarm_5: change in # of entries in each source', len(df[df['alarm5'] == 1]))
print('alarm_4: constant price', len(df[df['alarm4'] == 1]))
print('alarm_3: abnormal price range', len(df[df['alarm3'] == 1]))
print('alarm_2: consecutive null count ', len(df[df['alarm2'] == 1]))
print('alarm_1: price change rate (200%) ', len(df[df['alarm1'] == 1]))

print('''
## Point 1
alarm 5 threshold = 10: source 별로 묶여 있는 entry 개수가 너무 다르기 때문에, threshold를 entry마다 달리 설정할 필요성이 있어 보임. 기준을 별도로 정해야 할 필요성이 있음.
alarm 4 threshold = 10: 이는 기준을 비교적 정성적으로 정해도 될 것으로 판단 됨.
alarm 3 threshold = confidence level (99): 기준을 별도로 정해야 할 필요성이 있음.
alarm 2 threshold = 3: 이는 기준을 비교적 정성적으로 정해도 될 것으로 판단 됨.
alarm 1 threshold = 200%: 이는 기준을 비교적 정성적으로 정해도 될 것으로 판단 됨.

## Point 2
alarm 2와 같은 경우 그 수가 많은 이유는, 이전부터 "어떠한 문제" 가 발생하여 crawl 되고 있지 않았지만
detect되지 않아 방치되고 있던 entry로 보임. 따라서 consecutive null count를 했을 때, 그 수가
현재 임의로 설정한 threshold인 3을 초과하여 alarm detection에 포함된 것으로 보임.
혹은 절대적으로 특정 entry는 price가 보고되는 주기가 길어서일 수도 있음.
''')

df_raw -> random sampling 100 entries
total number of rows:  8145
total number of entries:  100
alarm_5: change in # of entries in each source 0
alarm_4: constant price 70
alarm_3: abnormal price range 245
alarm_2: consecutive null count  1
alarm_1: price change rate (200%)  19

## Point 1
alarm 5 threshold = 10: source 별로 묶여 있는 entry 개수가 너무 다르기 때문에, threshold를 entry마다 달리 설정할 필요성이 있어 보임. 기준을 별도로 정해야 할 필요성이 있음.
alarm 4 threshold = 10: 이는 기준을 비교적 정성적으로 정해도 될 것으로 판단 됨.
alarm 3 threshold = confidence level (99): 기준을 별도로 정해야 할 필요성이 있음.
alarm 2 threshold = 3: 이는 기준을 비교적 정성적으로 정해도 될 것으로 판단 됨.
alarm 1 threshold = 200%: 이는 기준을 비교적 정성적으로 정해도 될 것으로 판단 됨.

## Point 2
alarm 2와 같은 경우 그 수가 많은 이유는, 이전부터 "어떠한 문제" 가 발생하여 crawl 되고 있지 않았지만
detect되지 않아 방치되고 있던 entry로 보임. 따라서 consecutive null count를 했을 때, 그 수가
현재 임의로 설정한 threshold인 3을 초과하여 alarm detection에 포함된 것으로 보임.
혹은 절대적으로 특정 entry는 price가 보고되는 주기가 길어서일 수도 있음.



In [8]:
# alarm 2 같은 경우는 21년 11월부터 안 들어오고 있었기 때문에
# consecutive null count를 하면 이후부터는 계속 1, 2, 3 ... 이 찍혔을 것이다.
# 따라서 주기를 계산하는 정확한 방법은:
# 최초 들어온 날짜부터 time_df를 join한 이후에
# 최근 데이터로 재단하지 않고 (ex. 2022-03-01 ~ latest date)
# df_raw와 time_df와 join 한 직후의 empty_df 를 기준으로
# entry에 consecutive null을 count하고
# mode를 통해 본래 들어와야 하는 frequency를 계산하는 것이다. 
# 그리고 그 frequency * 2 보다 크면 alarm 2 를 띄우는 것.

In [9]:
df.groupby('entry_id_')['freq'].value_counts()

entry_id_  freq
40867745   1.0     6
           2.0     4
           3.0     4
           0.0     1
           6.0     1
                  ..
120505019  1.0     1
121452094  1.0     7
           0.0     1
123551904  0.0     1
132918138  0.0     1
Name: freq, Length: 315, dtype: int64

In [14]:
# mode final
df.groupby('entry_id')['freq'].agg(pd.Series.mode).to_csv('final.csv')
# sample
df.loc[(df['entry_id_'] == 41170044)].to_csv('sample.csv')