In [1]:
import pandas as pd
from pandas import Series, DataFrame

trip_distance = pd.read_csv('../data/taxi-distance.csv', header=None).squeeze()
passenger_count = pd.read_csv('../data/taxi-passenger-count.csv', header=None).squeeze()

df = DataFrame({'trip_distance': trip_distance,
                'passenger_count': passenger_count})

# Beyond 1

If we define outliers to be the lowest 10% and highest 10% of values, then how many are they? Why is (or isn't) this a good measure?

값들의 하위 10%와 상위 10%를 이상치로 정의하면, 그 개수는 얼마인가요? 이것이 좋은 기준인가요, 아니라면 그 이유는 무엇인가요?

In [2]:
df[(df['trip_distance'] < df['trip_distance'].quantile(0.1)) | 
   (df['trip_distance'] > df['trip_distance'].quantile(0.9)) ]
#1984개의 행이 선택됨.

#상위 10%와 하위 10%를 이상치로 간주할 경우엔 직관적이고 이해하기 쉽지만,
#데이터가 이상치가 없음에도 상위 10%, 하위 10%를 이상치로 간주하게 되는 문제가 있다.


Unnamed: 0,trip_distance,passenger_count
1,0.46,1
7,11.90,4
9,0.60,1
10,0.01,3
13,0.50,2
...,...,...
9976,12.60,1
9978,0.38,1
9979,11.30,1
9980,9.13,1


The good news with this measure is that it's easy to understand. The bad news is that if we have many short trips (as we do here), we might end up calling them outliers even though they're very close in value to non-outliers.

이 측정 방법의 장점은 이해하기 쉽다는 점입니다. 단점은(여기처럼) 짧은 여행들이 많은 경우, 실제로는 비이상치와 값이 거의 비슷함에도 불구하고 그것들을 이상치로 분류해버릴 수 있다는 점입니다.

# Beyond 2

How many short, medium, and long trips were there for trips that had only one passenger? Note that data for passenger count and trip length are from the same data set, meaning that the indexes are the same.

If we're only interested in removing the outlier values, then we could use the `scipy.stats.trimboth` function on our series. It takes a second argument, the proportion we want to cut from both the top and bottom.


승객이 한 명인 여행들 중에서 짧은(short), 중간(medium), 긴(long) 여행이 각각 몇 건 있었나요? 승객 수와 여행 길이 데이터는 동일한 데이터 세트에서 나온 것이므로 인덱스가 같다는 점에 유의하세요.

만약 이상치(outlier) 값만 제거하는 데 관심이 있다면, 시리즈에 `scipy.stats.trimboth` 함수를 사용할 수 있습니다. 이 함수는 두 번째 인수로 상단과 하단에서 잘라낼 비율을 받습니다.


In [3]:
from scipy.stats import trimboth
trimboth(df['trip_distance'], 0.1)
#scipy.stats의 trimboth를 import해 사용
#원래는 scipy.stats.trimboth(df['trip_distance'], 0.1)로 사용
#상위 10%, 하위 10%를 제거한 나머지 값들을 반환
#결과는 ndarray로 반환됨.

array([0.63, 0.63, 0.63, ..., 8.2 , 8.2 , 8.2 ])

# Beyond 3

The `scipy.stats.zscore` function rescales and centers (i.e., normalizes) our data set. Our mean is set to 0, values can be above and below that value. Find all of the distances for which the absolute value of the z-score is greater than 3.


`scipy.stats.zscore` 함수는 데이터셋을 재스케일하고 중앙값을 0으로 맞추어 정규화합니다. 평균이 0으로 설정되므로 값들은 그 위나 아래에 위치할 수 있습니다. z-점수의 절대값이 3보다 큰 모든 거리(distance) 값을 찾아보세요.

In [4]:
from scipy.stats import zscore
df['trip_distance'][abs(zscore(df['trip_distance'])) > 3]
#zscore를 이용해 이상치를 탐색
#평균에서 3표준편차 이상 떨어진 값을 이상치로 간주
#결과는 Series로 반환됨.
# trip_distance에서 평균보다 3표준편차 이상 떨어진 값을 이상치로 간주하여 선택

88      23.76
238     18.32
379     16.38
509     16.82
641     19.72
        ...  
9897    16.11
9899    17.48
9906    17.70
9955    15.49
9964    18.55
Name: trip_distance, Length: 306, dtype: float64