In [2]:
import pandas as pd
import numpy as np
from scipy import stats
    

In [3]:
# 1. 교통 데이터 생성
data = pd.DataFrame({
    'Trip ID': [1, 2, 3, 4, 5, 6],  # 각 트립(여행)의 고유 ID
    'Distance (km)': [5, 20, 50, 200, 15, 30],  # 이동 거리 (km)
    'Duration (hours)': [0.2, 0.5, 1, 3, 0.3, 0.8]  # 이동 시간 (시간 단위)
})

In [4]:
data.head()

Unnamed: 0,Trip ID,Distance (km),Duration (hours)
0,1,5,0.2
1,2,20,0.5
2,3,50,1.0
3,4,200,3.0
4,5,15,0.3


In [5]:
# 2. 평균 속도 계산 (km/h)
# 평균 속도 = 이동 거리(km) / 이동 시간(시간)
data['Speed (km/h)'] = data['Distance (km)'] / data['Duration (hours)']

In [6]:
# 3. IQR 기반 이상치 탐지
# IQR(Interquartile Range)은 사분위수를 이용하여 이상치를 판별하는 방법
Q1 = data['Speed (km/h)'].quantile(0.25)  # 1사분위수 (25%)
Q3 = data['Speed (km/h)'].quantile(0.75) # 3사분위수 (75%)
IQR = Q3 - Q1  # IQR 계산

In [7]:
# 이상치 기준 설정
lower_bound = Q1 - 1.5 * IQR  # 하한값
upper_bound = Q3 + 1.5 * IQR  # 상한값

In [8]:
# IQR 기준 이상치 여부 판별 (이상치면 True, 정상치면 False)
data['IQR Outlier'] = (data['Speed (km/h)'] <= lower_bound) | (data['Speed (km/h)'] >= upper_bound)


In [9]:
data.head()

Unnamed: 0,Trip ID,Distance (km),Duration (hours),Speed (km/h),IQR Outlier
0,1,5,0.2,25.0,False
1,2,20,0.5,40.0,False
2,3,50,1.0,50.0,False
3,4,200,3.0,66.666667,False
4,5,15,0.3,50.0,False


In [10]:
# 4. Z-score 기반 이상치 탐지
# Z-score는 평균과 표준편차를 이용하여 데이터가 정규분포에서 얼마나 벗어났는지 측정
data['Z-score'] = stats.zscore(data['Speed (km/h)'])  # Z-score 계산

# 일반적으로 Z-score가 ±3 이상이면 이상치로 간주
data['Z-score Outlier'] = (abs(data['Z-score']) >= 3)

In [12]:
data.head()

Unnamed: 0,Trip ID,Distance (km),Duration (hours),Speed (km/h),IQR Outlier,Z-score,Z-score Outlier
0,1,5,0.2,25.0,False,-1.53799,False
1,2,20,0.5,40.0,False,-0.376431,False
2,3,50,1.0,50.0,False,0.397941,False
3,4,200,3.0,66.666667,False,1.688563,False
4,5,15,0.3,50.0,False,0.397941,False


In [11]:
# 5. 결과 출력
print("이상치 탐지 결과:")
print(data[['Trip ID', 'Speed (km/h)', 'IQR Outlier', 'Z-score Outlier']])

이상치 탐지 결과:
   Trip ID  Speed (km/h)  IQR Outlier  Z-score Outlier
0        1     25.000000        False            False
1        2     40.000000        False            False
2        3     50.000000        False            False
3        4     66.666667        False            False
4        5     50.000000        False            False
5        6     37.500000        False            False
