In [1]:
# -*- coding: utf-8 -*- Line 2
#----------------------------------------------------------------------------
# Project     : Price Alarm System Enhancement - Alarm2
# Created By  : Eungi Cho
# Created Date: 03/06/22
# Updated Date: 03/06/22
# version ='1.0'
# ---------------------------------------------------------------------------

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
import csv

warnings.filterwarnings("ignore")
plt.style.use('default')

In [2]:
import pathlib
print(pathlib.Path().absolute())
df_raw = pd.read_csv('/Users/cho-eungi/Practice/CSV/market_entry_price.csv')
print(df_raw.shape)
# print(df_raw.isnull().sum())
df_raw = df_raw.drop_duplicates()
df_raw.head()

/Users/cho-eungi/Practice/Tridge
(10619563, 11)


Unnamed: 0,source_id,country,market_id,product_id,entry_id,currency,final_unit,date,price_min,price_max,price_avg
0,201,South Africa,1487,131,92926374,ZAR,kg,2020-07-20,19.64,21.2,19.956
1,39,India,810,490,41039702,INR,kg,2020-07-06,11.8,12.5,12.2
2,41,India,2188,133,50157058,INR,kg,2020-07-06,50.0,52.7,51.4
3,556,Bangladesh,6581,545,84458922,BDT,kg,2020-07-13,4400.0,4800.0,4600.0
4,150,Turkey,2482,126,58387432,TRY,,2020-07-13,10.0,15.0,11.288


In [61]:
# Create Test df
entry_lst = np.sort(df_raw['entry_id'].unique())
np.random.seed(0)
sample_entry = np.random.choice(entry_lst, 1000)
test_df = df_raw.loc[df_raw['entry_id'].isin(sample_entry)].sort_values(
    by = ['source_id', 'market_id', 'entry_id', 'date']).copy()
test_df['date'] = pd.to_datetime(test_df['date'])
test_df

Unnamed: 0,source_id,country,market_id,product_id,entry_id,currency,final_unit,date,price_min,price_max,price_avg
9270545,1,Netherlands,2775,99,41581966,USD,kg,2020-04-20,15.96,15.96,15.960
9045476,1,Netherlands,2775,99,41581966,USD,kg,2020-06-15,8.96,8.96,8.960
9235582,1,Netherlands,2775,99,41581966,USD,kg,2020-07-20,8.16,8.16,8.160
3920876,1,Netherlands,2782,113,41000912,USD,kg,2020-04-27,21.96,21.96,21.960
3821445,1,Netherlands,2782,113,41000912,USD,kg,2020-05-04,18.75,22.22,20.485
...,...,...,...,...,...,...,...,...,...,...,...
8855661,730,Vietnam,8784,15269,119373567,VND,kg,2022-03-28,22000.00,22000.00,22000.000
8855655,730,Vietnam,8784,15269,119373567,VND,kg,2022-04-04,20500.00,20500.00,20500.000
8855647,730,Vietnam,8784,15269,119373567,VND,kg,2022-04-11,20500.00,20500.00,20500.000
8855659,730,Vietnam,8784,15269,119373567,VND,kg,2022-04-18,19750.00,19750.00,19750.000


In [62]:
# W-MON date range from 2020 to 2022
# Left Join Test DF and Time DF
empty_df = pd.DataFrame()
for entry in sample_entry:
    entry_start = min(df_raw.loc[df_raw['entry_id'] == entry]['date'])
    date_range = pd.date_range(entry_start, '2022-05-31', freq = 'W-MON')
    time_df = pd.DataFrame({'date': date_range})
    
    time_df['entry_id_'] = entry
    entry_df = test_df.loc[test_df['entry_id'] == entry]
    joined_df = pd.merge(time_df, entry_df, left_on = ['date'], right_on = ['date'], how = 'left')
    empty_df = empty_df.append(joined_df)

df = empty_df.copy()
df = df.sort_values(by = ['entry_id_', 'date'])
df.set_index(np.arange(len(df)), inplace=True)
len(df.entry_id_.unique())

998

In [63]:
# Count the occurances of consecutive null value
def count_consec_nan(array):
    consec_cnt = array.isnull().astype(int).groupby(array.notnull().astype(int).cumsum()).cumsum()
    return np.asarray(consec_cnt)

one_freq_0_lst1 = []
one_freq_0_lst2 = []
one_freq_not0_lst3 = []
multi_freq_lst1 = []
multi_freq_lst2 = []
multi_freq_lst3 = []
multi_freq_lst4 = []

# consecutive null count
def alarm_2(df):
    # 연속적으로 null 이 보고되는 횟수를 담은 column: consec_null
    # consec_null 의 shift(1) column: consec_null_shift
    df['consec_null'] = df.groupby('entry_id_')['price_avg'].transform(count_consec_nan)
    df['consec_null_shift'] = df.groupby('entry_id_')['consec_null'].shift(1)
    
    # Logic 상세 설명 - consec_null 와 consec_null_shift 비교:
    # entry_id의 Price의 첫 보고일 2020.10.05: consec_null == 0, consec_null_shift == NaN, freq == 0
    # 다음 Price 보고일 2020.10.12: consec_null == 0, consec_null_shift == 0, freq == 1
    # 다음 Price 보고일 2020.10.19: consec_null == 0, consec_null_shift == 0, freq == 1
    # 다음 Price 보고일 2020.11.09(3주차에 보고): consec_null == 0, consec_null_shift == 2, freq == 3
    
    # conditions[0]: Price 첫 보고일 // conditions[1]: 다음 Price 보고일
    # freq 결과값: 첫 보고일 = 0, 다음 보고일 = price 가 보고되지 않고 있던 주기 + 1, 보고 x = price 가 보고되지 않고 있던 주기
    conditions  = [ (df['consec_null'] == 0) & (df['consec_null_shift'].isnull()),
                   (df['consec_null'] == 0) & (df['consec_null_shift'].notnull())]
    choices     = [ 0, df['consec_null_shift'] + 1]
    df["freq"] = np.select(conditions, choices, default=np.nan)
    
    # 해당 entry_id의 Price의 주 보고 기간의 최빈값 계산. 복수 개의 최빈값이 있을 경우, 리스트 형태로 닮김.
    entry_freq = df.groupby('entry_id_')['freq'].agg(pd.Series.mode).to_dict()
    
    # 최빈값 Dict 생성
    threshold_dict = {}
    for entry, freq in entry_freq.items():
        # 최빈값이 단일값만 존재할 경우:
        if isinstance(freq, float):
            # 최빈값이 단일값만 존재하는 경우
            # freq = 0이라는 것은 단 한 번 Price가 보고된 후, 그 이후로는 보고되지 않고 있다는 뜻.
            if freq == 0:
                timedelt = round((pd.Timestamp(2022, 5, 31) - min(df.loc[df['entry_id_'] == entry]['date'])) / np.timedelta64(1, 'M'))
                # 2022/05/31 기준 2개월 이내 추가된 entry일 경우는 threshold를 100으로 설정.
#                 print('freq 최빈값이 단일값이며 0일 경우: entry, freq, timedelt = ', entry, freq, timedelt)
                if timedelt <= 2:
                    one_freq_0_lst1.append(entry)
                    threshold_dict[entry] = 100
                # 그렇지 않다면, threshold를 0 으로 설정 (즉, 이 경우에는 무조건 alarm 2에 포함)
                else:
                    one_freq_0_lst2.append(entry)
                    threshold_dict[entry] = 4
            else:
#                 print('freq 최빈값이 단일값이며 0이 아닐 경우: entry, freq', entry, freq)
                one_freq_not0_lst3.append(entry)
#                 threshold_dict[entry] = 100
                threshold_dict[entry] = freq * 2
        # 최빈값이 두 개 이상 존재: 매우 불규칙하게 보고되어서 일정한 주기가 없는 경우
        # 이 때 threshold 설정은 0과 1을 제외한 min값
        else:
            # 최빈값이 [0, 1] 일 경우. 즉 최초 한 번과 바로 그 다음 주기에 price가 보고된 후 한 번도 들어오지 않은 경우
            if (np.min(freq) == 0) & (freq[np.where(freq == np.min(freq))[0][0] + 1] == 1) & (len(freq) == 2) :
                timedelt = round((pd.Timestamp(2022, 5, 31) - min(df.loc[df['entry_id_'] == entry]['date'])) / np.timedelta64(1, 'M'))
#                 print('freq 최빈값이 [0, 1]일 경우: entry, freq =', entry, freq)
                # 2022/05/31 기준 2개월 이내 추가된 entry일 경우는 threshold를 100으로 설정.
                if timedelt <= 2:
                    multi_freq_lst1.append(entry)
                    threshold_dict[entry] = 100
                # 그렇지 않다면, threshold를 0 으로 설정 (즉, 이 경우에는 무조건 alarm 2에 포함)
                else:
                    multi_freq_lst2.append(entry)
                    threshold_dict[entry] = 0
            # 최빈값이 [0,1,3,10,...] 등 최초 한 번 보고된 후에도 매우 불규칙적으로 보고되고 있는 entry일 경우
            else:
            # 위 예시같은 경우 - threshold = 3 (0의 index + 2) x 2
                value = freq[np.where(freq == np.min(freq))[0][0] + 1]
#                 print('freq 최빈값이 [0, 1] 이외에도 있는 경우: entry, freq, 0 next', entry, freq, value)
                if value == 1:
                    multi_freq_lst3.append(entry)
                    value = freq[np.where(freq == np.min(freq))[0][0] + 2]
#                     print('freq 최빈값이 [0, 1, 3, 10...]일 경우, 0 next', value)
                    threshold_dict[entry] = value * 2
                else:
                    multi_freq_lst4.append(entry)
#                     print('freq 최빈값이 [0, 3, 10...]일 경우, 0 next', value)
                    threshold_dict[entry] = value * 2
    def categorise(row):
        threshold_col = [threshold for entry, threshold in threshold_dict.items() if row['entry_id_'] == entry]
        return np.asarray(threshold_col[0])

    df['threshold_alarm2'] = df.apply(lambda row: categorise(row), axis = 1)
    
    conditions  = [ (df['consec_null'] == 0) & (df['consec_null_shift'].isnull()),
               (df['consec_null'] == 0) & (df['consec_null_shift'].notnull()),
            (df['consec_null'] != 0) & (df['consec_null_shift'].notnull())]
    choices     = [ 0, df['freq'], df['consec_null']]
    
    df["freq_judge"] = np.select(conditions, choices, default=np.nan)
    df['alarm2'] = np.where(df['freq_judge'] >= df['threshold_alarm2'], 1, 0)

In [64]:
alarm_2(df)

In [65]:
print('\n',
    f'frequency mode가 0이지만 entry가 추가된 지 2개월 이하인 경우:              {len(one_freq_0_lst1)}, 비율: {len(one_freq_0_lst1) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 0이고 entry가 추가된 지 2개월 초과인 경우:               {len(one_freq_0_lst2)}, 비율: {len(one_freq_0_lst2) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 0이 아니고 entry가 일정한 주기를 가진 경우:               {len(one_freq_not0_lst3)}, 비율: {len(one_freq_not0_lst3) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 이하인 경우:         {len(multi_freq_lst1)}, 비율: {len(multi_freq_lst1) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 초과인 경우:         {len(multi_freq_lst2)}, 비율: {len(multi_freq_lst2) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 [0, 1]을 포함한 여러 개인 경우:                        {len(multi_freq_lst3)}, 비율: {len(multi_freq_lst3) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 [0]만을 포함한 여러 개인 경우:                          {len(multi_freq_lst4)}, 비율: {len(multi_freq_lst4) * 100 / len(df.entry_id_.unique())}%'
)


 frequency mode가 0이지만 entry가 추가된 지 2개월 이하인 경우:              14, 비율: 1.402805611222445%
 frequency mode가 0이고 entry가 추가된 지 2개월 초과인 경우:               142, 비율: 14.228456913827655%
 frequency mode가 0이 아니고 entry가 일정한 주기를 가진 경우:               703, 비율: 70.44088176352706%
 frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 이하인 경우:         5, 비율: 0.501002004008016%
 frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 초과인 경우:         40, 비율: 4.008016032064128%
 frequency mode가 [0, 1]을 포함한 여러 개인 경우:                        25, 비율: 2.50501002004008%
 frequency mode가 [0]만을 포함한 여러 개인 경우:                          69, 비율: 6.913827655310621%


In [66]:
alarm2_lst = df[df['alarm2'] == 1]['entry_id_'].unique()
print(f'alarm2에 포함되는 entry {len(alarm2_lst)}개. {len(alarm2_lst)*100 / len(df.entry_id_.unique())}%')

alarm2에 포함되는 entry 940개. 94.18837675350701%


In [67]:
# As-is
cases = [one_freq_0_lst1, one_freq_0_lst2,one_freq_not0_lst3,multi_freq_lst1,multi_freq_lst2,multi_freq_lst3, multi_freq_lst4]
error_cnt = []
for case in cases:
    error = len([entry for entry in case if entry in alarm2_lst])
    error_cnt.append(error)

print('\n',
    f'frequency mode가 0이지만 entry가 추가된 지 2개월 이하인 경우:              {error_cnt[0]}, {len(one_freq_0_lst1)}\n',
    f'frequency mode가 0이고 entry가 추가된 지 2개월 초과인 경우:               {error_cnt[1]}, {len(one_freq_0_lst2)}\n',
    f'frequency mode가 0이 아니고 entry가 일정한 주기를 가진 경우:               {error_cnt[2]}, {len(one_freq_not0_lst3)}\n',
    f'frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 이하인 경우:         {error_cnt[3]}, {len(multi_freq_lst1)}\n',
    f'frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 초과인 경우:         {error_cnt[4]}, {len(multi_freq_lst2)}\n',
    f'frequency mode가 [0, 1]을 포함한 여러 개인 경우:                        {error_cnt[5]}, {len(multi_freq_lst3)}\n',
    f'frequency mode가 [0]만을 포함한 여러 개인 경우:                          {error_cnt[6]}, {len(multi_freq_lst4)}'
)


 frequency mode가 0이지만 entry가 추가된 지 2개월 이하인 경우:              0, 14
 frequency mode가 0이고 entry가 추가된 지 2개월 초과인 경우:               142, 142
 frequency mode가 0이 아니고 entry가 일정한 주기를 가진 경우:               692, 703
 frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 이하인 경우:         0, 5
 frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 초과인 경우:         40, 40
 frequency mode가 [0, 1]을 포함한 여러 개인 경우:                        18, 25
 frequency mode가 [0]만을 포함한 여러 개인 경우:                          48, 69


In [68]:
# To-be
one_freq_0_lst1_ = []
one_freq_0_lst2_ = []
one_freq_not0_lst3_ = []
multi_freq_lst1_ = []
multi_freq_lst2_ = []
multi_freq_lst3_ = []
multi_freq_lst4_ = []

def alarm_2_test(df):
    # 연속적으로 null 이 보고되는 횟수를 담은 column: consec_null
    # consec_null 의 shift(1) column: consec_null_shift
    df['consec_null'] = df.groupby('entry_id_')['price_avg'].transform(count_consec_nan)
    df['consec_null_shift'] = df.groupby('entry_id_')['consec_null'].shift(1)
    
    # Logic 상세 설명 - consec_null 와 consec_null_shift 비교:
    # entry_id의 Price의 첫 보고일 2020.10.05: consec_null == 0, consec_null_shift == NaN, freq == 0
    # 다음 Price 보고일 2020.10.12: consec_null == 0, consec_null_shift == 0, freq == 1
    # 다음 Price 보고일 2020.10.19: consec_null == 0, consec_null_shift == 0, freq == 1
    # 다음 Price 보고일 2020.11.09(3주차에 보고): consec_null == 0, consec_null_shift == 2, freq == 3
    
    # conditions[0]: Price 첫 보고일 // conditions[1]: 다음 Price 보고일
    # freq 결과값: 첫 보고일 = 0, 다음 보고일 = price 가 보고되지 않고 있던 주기 + 1, 보고 x = price 가 보고되지 않고 있던 주기
    conditions  = [ (df['consec_null'] == 0) & (df['consec_null_shift'].isnull()),
                   (df['consec_null'] == 0) & (df['consec_null_shift'].notnull())]
    choices     = [ 0, df['consec_null_shift'] + 1]
    df["freq"] = np.select(conditions, choices, default=np.nan)
    
    # 해당 entry_id의 Price의 주 보고 기간의 최빈값 계산. 복수 개의 최빈값이 있을 경우, 리스트 형태로 닮김.
    entry_freq = df.groupby('entry_id_')['freq'].agg(pd.Series.mode).to_dict()
    
    # 최빈값 Dict 생성
    threshold_dict = {}
    for entry, freq in entry_freq.items():
        # 최빈값이 단일값만 존재할 경우:
        if isinstance(freq, float):
            # 최빈값이 단일값만 존재하는 경우
            # freq = 0이라는 것은 단 한 번 Price가 보고된 후, 그 이후로는 보고되지 않고 있다는 뜻.
            if freq == 0:
                timedelt = round((pd.Timestamp(2022, 5, 31) - min(df.loc[df['entry_id_'] == entry]['date'])) / np.timedelta64(1, 'M'))
                # 2022/05/31 기준 2개월 이내 추가된 entry일 경우는 threshold를 100으로 설정.
#                 print('freq 최빈값이 단일값이며 0일 경우: entry, freq, timedelt = ', entry, freq, timedelt)
                if timedelt <= 2:
                    one_freq_0_lst1_.append(entry)
                    threshold_dict[entry] = 100
                # 그렇지 않다면, threshold를 0 으로 설정 (즉, 이 경우에는 무조건 alarm 2에 포함)
                else:
                    one_freq_0_lst2_.append(entry)
                    threshold_dict[entry] = 4
            else:
#                 print('freq 최빈값이 단일값이며 0이 아닐 경우: entry, freq', entry, freq)
                one_freq_not0_lst3_.append(entry)
#                 threshold_dict[entry] = 100
                threshold_dict[entry] = freq * 2
        # 최빈값이 두 개 이상 존재: 매우 불규칙하게 보고되어서 일정한 주기가 없는 경우
        # 이 때 threshold 설정은 0과 1을 제외한 min값
        else:
            # 최빈값이 [0, 1] 일 경우. 즉 최초 한 번과 바로 그 다음 주기에 price가 보고된 후 한 번도 들어오지 않은 경우
            if (np.min(freq) == 0) & (freq[np.where(freq == np.min(freq))[0][0] + 1] == 1) & (len(freq) == 2) :
                timedelt = round((pd.Timestamp(2022, 5, 31) - min(df.loc[df['entry_id_'] == entry]['date'])) / np.timedelta64(1, 'M'))
#                 print('freq 최빈값이 [0, 1]일 경우: entry, freq =', entry, freq)
                # 2022/05/31 기준 2개월 이내 추가된 entry일 경우는 threshold를 100으로 설정.
                if timedelt <= 2:
                    multi_freq_lst1_.append(entry)
                    threshold_dict[entry] = 100
                # 그렇지 않다면, threshold를 0 으로 설정 (즉, 이 경우에는 무조건 alarm 2에 포함)
                else:
                    multi_freq_lst2_.append(entry)
                    threshold_dict[entry] = 0
            # 최빈값이 [0,1,3,10,...] 등 최초 한 번 보고된 후에도 매우 불규칙적으로 보고되고 있는 entry일 경우
            else:
            # 위 예시같은 경우 - threshold = 3 (0의 index + 2) x 2
                value = freq[np.where(freq == np.min(freq))[0][0] + 1]
#                 print('freq 최빈값이 [0, 1] 이외에도 있는 경우: entry, freq, 0 next', entry, freq, value)
                if value == 1:
                    multi_freq_lst3_.append(entry)
                    value = freq[np.where(freq == np.min(freq))[0][0] + 2]
#                     print('freq 최빈값이 [0, 1, 3, 10...]일 경우, 0 next', value)
                    threshold_dict[entry] = value * 2
                else:
                    multi_freq_lst4_.append(entry)
#                     print('freq 최빈값이 [0, 3, 10...]일 경우, 0 next', value)
                    threshold_dict[entry] = value * 2
    def categorise(row):
        threshold_col = [threshold for entry, threshold in threshold_dict.items() if row['entry_id_'] == entry]
        return np.asarray(threshold_col[0])

    df['threshold_alarm2'] = df.apply(lambda row: categorise(row), axis = 1)
    
    conditions  = [ (df['consec_null'] == 0) & (df['consec_null_shift'].isnull()),
               (df['consec_null'] == 0) & (df['consec_null_shift'].notnull()),
            (df['consec_null'] != 0) & (df['consec_null_shift'].notnull())]
    choices     = [ 0, df['freq'], df['consec_null']]
    
    df["freq_judge"] = np.select(conditions, choices, default=np.nan)
    df['alarm2'] = np.where(df['freq_judge'] > df['threshold_alarm2'], 1, 0)

In [69]:
df_test = df.copy()
alarm_2_test(df_test)

In [70]:
print('\n',
    f'frequency mode가 0이지만 entry가 추가된 지 2개월 이하인 경우:              {len(one_freq_0_lst1_)}, 비율: {len(one_freq_0_lst1_) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 0이고 entry가 추가된 지 2개월 초과인 경우:               {len(one_freq_0_lst2_)}, 비율: {len(one_freq_0_lst2_) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 0이 아니고 entry가 일정한 주기를 가진 경우:               {len(one_freq_not0_lst3_)}, 비율: {len(one_freq_not0_lst3_) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 이하인 경우:         {len(multi_freq_lst1_)}, 비율: {len(multi_freq_lst1_) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 초과인 경우:         {len(multi_freq_lst2_)}, 비율: {len(multi_freq_lst2_) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 [0, 1]을 포함한 여러 개인 경우:                        {len(multi_freq_lst3_)}, 비율: {len(multi_freq_lst3_) * 100 / len(df.entry_id_.unique())}%\n',
    f'frequency mode가 [0]만을 포함한 여러 개인 경우:                          {len(multi_freq_lst4_)}, 비율: {len(multi_freq_lst4_) * 100 / len(df.entry_id_.unique())}%'
)


 frequency mode가 0이지만 entry가 추가된 지 2개월 이하인 경우:              14, 비율: 1.402805611222445%
 frequency mode가 0이고 entry가 추가된 지 2개월 초과인 경우:               142, 비율: 14.228456913827655%
 frequency mode가 0이 아니고 entry가 일정한 주기를 가진 경우:               703, 비율: 70.44088176352706%
 frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 이하인 경우:         5, 비율: 0.501002004008016%
 frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 초과인 경우:         40, 비율: 4.008016032064128%
 frequency mode가 [0, 1]을 포함한 여러 개인 경우:                        25, 비율: 2.50501002004008%
 frequency mode가 [0]만을 포함한 여러 개인 경우:                          69, 비율: 6.913827655310621%


In [71]:
alarm2_lst_ = df_test[df_test['alarm2'] == 1]['entry_id_'].unique()
print(f'alarm2에 포함되는 entry {len(alarm2_lst_)}개. {len(alarm2_lst_)*100 / len(df_test.entry_id_.unique())}%')

alarm2에 포함되는 entry 930개. 93.18637274549098%


In [72]:
# As-is
cases = [one_freq_0_lst1_, one_freq_0_lst2_,one_freq_not0_lst3_,multi_freq_lst1_,multi_freq_lst2_,multi_freq_lst3_, multi_freq_lst4_]
error_cnt_ = []
for case in cases:
    error = len([entry for entry in case if entry in alarm2_lst_])
    error_cnt_.append(error)

print('\n',
    f'frequency mode가 0이지만 entry가 추가된 지 2개월 이하인 경우:              {error_cnt_[0]}, {len(one_freq_0_lst1_)}\n',
    f'frequency mode가 0이고 entry가 추가된 지 2개월 초과인 경우:               {error_cnt_[1]}, {len(one_freq_0_lst2_)}\n',
    f'frequency mode가 0이 아니고 entry가 일정한 주기를 가진 경우:               {error_cnt_[2]}, {len(one_freq_not0_lst3_)}\n',
    f'frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 이하인 경우:         {error_cnt_[3]}, {len(multi_freq_lst1_)}\n',
    f'frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 초과인 경우:         {error_cnt_[4]}, {len(multi_freq_lst2_)}\n',
    f'frequency mode가 [0, 1]을 포함한 여러 개인 경우:                        {error_cnt_[5]}, {len(multi_freq_lst3_)}\n',
    f'frequency mode가 [0]만을 포함한 여러 개인 경우:                          {error_cnt_[6]}, {len(multi_freq_lst4_)}'
)


 frequency mode가 0이지만 entry가 추가된 지 2개월 이하인 경우:              0, 14
 frequency mode가 0이고 entry가 추가된 지 2개월 초과인 경우:               142, 142
 frequency mode가 0이 아니고 entry가 일정한 주기를 가진 경우:               684, 703
 frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 이하인 경우:         0, 5
 frequency mode가 [0, 1]이지만 entry가 추가된 지 2개월 초과인 경우:         40, 40
 frequency mode가 [0, 1]을 포함한 여러 개인 경우:                        17, 25
 frequency mode가 [0]만을 포함한 여러 개인 경우:                          47, 69


In [74]:
df_test.loc[(df_test['entry_id_'].isin(alarm2_lst))].to_csv('alarm2_sample_test.csv')