# 선 결론

- 연속적으로 특이한 값을 많이 보이는 유저는 999665 뿐이다.
- 해당 아이디는 일반유저 예측을 어렵게 하는 이상치로 판단해 제거한다.

## 가정

- 해당 프로젝트의 목표는 '일반 유저의 한달 사용 건수 예측'이다.
- 때문에 일반 유저로 보이지 않는 유저를 제거하여 예측의 정확도를 높인다.
- 이때 이상치로 판단하는 조건은 아래와 같다
    - 짧은 시일 내 연속적으로 이용하는 패턴을 보인다.
    - COUNT가 계속해서 높은 수를 보인다. (일반적인 패턴은 1)
    - AD1 값이 계속해서 바뀐다.
    - 5개 이상의 데이터를 가진다.
    


In [1]:
import os 
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'Malgun Gothic'  # (Windows 용) 한글 출력을 위한 글꼴 설정

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor

import warnings
warnings.filterwarnings("ignore")

# 랜덤시드 통일
np.random.seed(42)

In [2]:
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()
    # colab 사용자는 system_name이 'Linux'로 확인

    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        # Linux
        # colab에서는 runtime을 <꼭> 재시작 해야함.
        # 런타임을 재시작 하지 않고 폰트 설치를 하면 기본 설정 폰트가 로드되어 한글이 깨짐.
        !apt-get update -qq
        !apt-get install fonts-nanum -qq  > /dev/null

        import matplotlib.font_manager as fm

        fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
        font = fm.FontProperties(fname=fontpath, size=9)
        fm._rebuild()
        font_family = "NanumBarunGothic"
    return font_family

In [3]:
# 시각화를 위한 폰트설정
# 위에서 만든 함수를 통해 시스템 폰트를 불러와서 font_family 라는 변수에 할당.
a = get_font_family()
# 폰트설정
import matplotlib.pyplot as plt 
plt.rc("font", family = a)
# 마이너스폰트 설정
plt.rc("axes", unicode_minus=False)
# ggplot으로 그래프 스타일 설정 / 개인 자유
plt.style.use("ggplot")

In [4]:
# 데이터 확인
os.listdir('data')

['2020교통량통합.xlsx',
 'holiday.csv',
 'metro.csv',
 '국가공휴일.xlsx',
 '디지털 스킬셋 기술과제.docx',
 '서울시_기상데이터.csv',
 '실전db.csv',
 '실전db_holiday.csv',
 '지하철노선위경도정보3.xlsx']

In [5]:
# 데이터프레임 불러오기
df = pd.read_csv("./data/실전db.csv")

In [9]:
df_outlier = df.query("COUNT > 10")

In [11]:
display(df_outlier)

print("특이값 의심 아이디 개수 :", df_outlier['USER_ID'].nunique())
print("특이값 의심 아이디 목록 : \n", df_outlier['USER_ID'].unique())


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
1527,999665,2018-12-16,CC,104988,A,2020-01-02,11,GN
5034,999665,2018-12-16,CC,109223,A,2020-01-04,28,MP
6919,999665,2018-12-16,CC,104916,A,2020-01-05,14,GN
8390,999665,2018-12-16,CC,109423,A,2020-01-06,11,J
11552,999665,2018-12-16,CC,91992,A,2020-01-08,13,YD
...,...,...,...,...,...,...,...,...
867260,999665,2018-12-16,CC,2428,A,2020-12-27,17,CY
868847,999665,2018-12-16,CC,109267,A,2020-12-28,24,J
871562,999665,2018-12-16,CC,90193,C,2020-12-29,23,GW
874317,999665,2018-12-16,CC,220797,D,2020-12-30,40,GS


특이값 의심 아이디 개수 : 16
특이값 의심 아이디 목록 : 
 [ 999665 1467323  709657 1544719 1407822 1304663  430741 1635143 1514190
 1675755 1675314 1572434 1599008 1613793 1775410 1660735]


In [18]:
for x in sorted(df_outlier['USER_ID'].unique()) :
    outlier_df = df[df['USER_ID']==x]
    
    print("USER_ID",x,"의 데이터 흐름입니다.")
    display(outlier_df.head())
    print()
    print()

USER_ID 430741 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
460594,430741,2016-12-17,BB,219913,A,2020-07-30,11,GN




USER_ID 709657 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
82442,709657,2018-01-26,BB,182296,A,2020-02-16,5,SC
107642,709657,2018-01-26,BB,182296,A,2020-02-29,9,SC
109060,709657,2018-01-26,BB,182296,A,2020-03-01,5,SC
110138,709657,2018-01-26,BB,182296,A,2020-03-02,12,SC
112135,709657,2018-01-26,BB,182296,A,2020-03-03,3,SC




USER_ID 999665 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
372,999665,2018-12-16,CC,82399,A,2020-01-01,6,JRR
1527,999665,2018-12-16,CC,104988,A,2020-01-02,11,GN
3121,999665,2018-12-16,CC,181832,A,2020-01-03,7,SC
5034,999665,2018-12-16,CC,109223,A,2020-01-04,28,MP
6919,999665,2018-12-16,CC,104916,A,2020-01-05,14,GN




USER_ID 1304663 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
441453,1304663,2019-09-07,AA,220966,A,2020-07-23,1,JRR
444575,1304663,2019-09-07,AA,220966,A,2020-07-24,13,JRR
448022,1304663,2019-09-07,AA,220966,A,2020-07-25,10,JRR




USER_ID 1407822 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
340038,1407822,2019-11-27,BB,222256,A,2020-06-15,1,MP
347688,1407822,2019-11-27,BB,222256,A,2020-06-18,1,MP
350431,1407822,2019-11-27,BB,222256,A,2020-06-19,12,MP




USER_ID 1467323 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
18750,1467323,2020-01-11,AA,220836,A,2020-01-11,5,JRR
23725,1467323,2020-01-11,AA,220836,B,2020-01-14,3,JRR
25448,1467323,2020-01-11,AA,220836,B,2020-01-15,5,JRR
27154,1467323,2020-01-11,AA,220836,B,2020-01-16,8,JRR
29330,1467323,2020-01-11,AA,220836,B,2020-01-17,2,JRR




USER_ID 1514190 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
340338,1514190,2020-03-06,AA,220607,A,2020-06-15,2,GN
342840,1514190,2020-03-06,AA,220607,A,2020-06-16,1,GN
345395,1514190,2020-03-06,AA,220607,A,2020-06-17,3,GN
348010,1514190,2020-03-06,AA,220607,A,2020-06-18,5,GN
350814,1514190,2020-03-06,AA,220607,A,2020-06-19,3,GN




USER_ID 1544719 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
208433,1544719,2020-04-17,BB,221045,A,2020-04-18,19,GN




USER_ID 1572434 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
479354,1572434,2020-05-18,AA,1892,B,2020-08-05,1,GN
693952,1572434,2020-05-18,AA,1892,B,2020-10-26,7,GN
696940,1572434,2020-05-18,AA,1892,B,2020-10-27,6,GN
699967,1572434,2020-05-18,AA,1892,B,2020-10-28,7,GN
703093,1572434,2020-05-18,AA,1892,B,2020-10-29,10,GN




USER_ID 1599008 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
734271,1599008,2020-06-17,BB,203847,A,2020-11-08,15,SC




USER_ID 1613793 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
407266,1613793,2020-07-02,AA,222328,A,2020-07-10,2,SB
417754,1613793,2020-07-02,AA,222328,A,2020-07-14,4,SB
501310,1613793,2020-07-02,AA,222328,A,2020-08-13,1,SB
528066,1613793,2020-07-02,AA,222328,A,2020-08-24,1,SB
530800,1613793,2020-07-02,AA,222328,A,2020-08-25,1,SB




USER_ID 1635143 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
476895,1635143,2020-07-24,AA,221045,A,2020-08-04,23,GN




USER_ID 1660735 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
528423,1660735,2020-08-18,BB,220607,A,2020-08-24,1,GN
531184,1660735,2020-08-18,BB,220607,A,2020-08-25,1,GN
533873,1660735,2020-08-18,BB,220607,A,2020-08-26,1,GN
536620,1660735,2020-08-18,BB,220607,A,2020-08-27,2,GN
545374,1660735,2020-08-18,BB,220607,A,2020-08-31,1,GN




USER_ID 1675314 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
618893,1675314,2020-09-01,BB,109670,A,2020-09-28,15,CY
631720,1675314,2020-09-01,BB,1892,A,2020-10-05,5,GN
643512,1675314,2020-09-01,BB,220440,A,2020-10-09,7,MP




USER_ID 1675755 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
604384,1675755,2020-09-02,AA,219913,A,2020-09-23,15,GN
663843,1675755,2020-09-02,AA,223107,D,2020-10-16,1,GS
862914,1675755,2020-09-02,AA,106328,C,2020-12-24,1,J




USER_ID 1775410 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
757192,1775410,2020-11-14,BB,92505,A,2020-11-15,17,J






In [22]:
# 연속적으로 이용
# 데이터가 5개 이상
# AD1이 계속해서 바뀜
# COUMT 값의 평균이 비정상적으로 높아보이는 사람
outlier_user_list = [999665, 1572434, 1572434] # 뒤에 두 개는 애매하지만 넣는다.

for z in outlier_user_list :
    outlier_user_df = df[df['USER_ID']==z]
    
    print("USER_ID",z,"의 데이터 흐름입니다.")
    display(outlier_user_df.head(50))
    print()
    print()

USER_ID 999665 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
372,999665,2018-12-16,CC,82399,A,2020-01-01,6,JRR
1527,999665,2018-12-16,CC,104988,A,2020-01-02,11,GN
3121,999665,2018-12-16,CC,181832,A,2020-01-03,7,SC
5034,999665,2018-12-16,CC,109223,A,2020-01-04,28,MP
6919,999665,2018-12-16,CC,104916,A,2020-01-05,14,GN
8390,999665,2018-12-16,CC,109423,A,2020-01-06,11,J
9928,999665,2018-12-16,CC,106153,A,2020-01-07,9,J
11552,999665,2018-12-16,CC,91992,A,2020-01-08,13,YD
13247,999665,2018-12-16,CC,106153,A,2020-01-09,12,J
15061,999665,2018-12-16,CC,109400,A,2020-01-10,21,J




USER_ID 1514190 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
340338,1514190,2020-03-06,AA,220607,A,2020-06-15,2,GN
342840,1514190,2020-03-06,AA,220607,A,2020-06-16,1,GN
345395,1514190,2020-03-06,AA,220607,A,2020-06-17,3,GN
348010,1514190,2020-03-06,AA,220607,A,2020-06-18,5,GN
350814,1514190,2020-03-06,AA,220607,A,2020-06-19,3,GN
358217,1514190,2020-03-06,AA,220607,A,2020-06-22,3,GN
363590,1514190,2020-03-06,AA,220607,A,2020-06-24,4,GN
376993,1514190,2020-03-06,AA,90448,C,2020-06-29,1,GN
453562,1514190,2020-03-06,AA,220607,A,2020-07-27,4,GN
459341,1514190,2020-03-06,AA,220607,A,2020-07-29,2,GN




USER_ID 1572434 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
479354,1572434,2020-05-18,AA,1892,B,2020-08-05,1,GN
693952,1572434,2020-05-18,AA,1892,B,2020-10-26,7,GN
696940,1572434,2020-05-18,AA,1892,B,2020-10-27,6,GN
699967,1572434,2020-05-18,AA,1892,B,2020-10-28,7,GN
703093,1572434,2020-05-18,AA,1892,B,2020-10-29,10,GN
706457,1572434,2020-05-18,AA,1892,B,2020-10-30,13,GN
709980,1572434,2020-05-18,AA,1892,B,2020-10-31,4,GN




USER_ID 1572434 의 데이터 흐름입니다.


Unnamed: 0,USER_ID,JOIN_DATE,D_TYPE,STORE_ID,GOODS_TYPE,DATE,COUNT,AD1
479354,1572434,2020-05-18,AA,1892,B,2020-08-05,1,GN
693952,1572434,2020-05-18,AA,1892,B,2020-10-26,7,GN
696940,1572434,2020-05-18,AA,1892,B,2020-10-27,6,GN
699967,1572434,2020-05-18,AA,1892,B,2020-10-28,7,GN
703093,1572434,2020-05-18,AA,1892,B,2020-10-29,10,GN
706457,1572434,2020-05-18,AA,1892,B,2020-10-30,13,GN
709980,1572434,2020-05-18,AA,1892,B,2020-10-31,4,GN




