# 檢視與處理 Outliers
### 為何會有 outliers, 常見的 outlier 原因
* 未知值，隨意填補 (約定俗成的代入)，如年齡常見 0,999
* 可能的錯誤紀錄/手誤/系統性錯誤，如某本書在某筆訂單的銷售量 = 1000 本

# [作業目標]
- 依照下列提示與引導, 以幾種不同的方式, 檢視可能的離群值

# [作業重點]
- 從原始資料篩選可能的欄位, 看看那些欄位可能有離群值 (In[3], Out[3])
- 繪製目標值累積密度函數(ECDF)的圖形, 和常態分布的累積密度函數對比, 以確認是否有離群值的情形 (In[6], Out[6], In[7], Out[7])

In [1]:
# Import 需要的套件
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

# 設定 data_path
dir_data = './0.data'

In [None]:
f_app = os.path.join(dir_data, 'application_train.csv')
print('Path of read in data: %s' % (f_app))
app_train = pd.read_csv(f_app)
app_train.head()

In [None]:
app_train.info()

## 請參考 HomeCredit_columns_description.csv 的欄位說明，觀察並列出三個你覺得可能有 outlier 的欄位並解釋可能的原因

In [None]:
# 先篩選數值型的欄位
"""
YOUR CODE HERE, fill correct data types (for example str, float, int, ...)
"""
# dtype_select = app_train.select_dtypes(include=["float64","int64"]).apply(pd.Series.nunique, axis = 0)


# # 再把只有 2 值 (通常是 0,1) 的欄位去掉
numeric_columns3 = list(app_train.columns[list(app_train.dtypes.isin([np.dtype('int64'), np.dtype('float64')]))])
print("3 Numbers of remain columns " , len(numeric_columns3))

# # 檢視這些欄位的數值範圍 #如何加入titles, 多個連續畫在同一圖
for col in numeric_columns3:
#     """
#     Your CODE HERE, make the box plot
#     """
    
#     plt.boxplot(app_train[col].values)
    app_train[col].plot.box()
    plt.show()

In [None]:
# 單個測試
# AMT_INCOME_TOTAL
# REGION_POPULATION_RELATIVE
# OBS_60_CNT_SOCIAL_CIRCLE
plt.boxplot(app_train['AMT_INCOME_TOTAL'])

In [None]:
app_train[numeric_columns3].describe()

In [None]:
# numeric_columns3 = list(app_train.columns[list(app_train.dtypes.isin([np.dtype('int64'), np.dtype('float64')]))])

# print("3 Numbers of remain columns " , len(numeric_columns3))

In [None]:
numeric_columns3

In [None]:
# 從上面的圖檢查的結果，至少這三個欄位好像有點可疑

# AMT_INCOME_TOTAL # 最大值離平均與中位數很遠
# REGION_POPULATION_RELATIVE
# OBS_60_CNT_SOCIAL_CIRCLE

### Hints: Emprical Cumulative Density Plot, [ECDF](https://zh.wikipedia.org/wiki/%E7%BB%8F%E9%AA%8C%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0), [ECDF with Python](https://stackoverflow.com/questions/14006520/ecdf-in-python-without-step-function)

In [None]:
import seaborn as sns
import scipy

In [None]:
# 最大值離平均與中位數很遠
print(app_train['AMT_INCOME_TOTAL'].describe())


# 繪製 Empirical Cumulative Density Plot (ECDF)
"""
YOUR CODE HERE
"""
# cdf = app_train.AMT_INCOME_TOTAL.value_counts().sort_index().cumsum()
norm_cdf = np.cumsum (app_train['AMT_INCOME_TOTAL'].value_counts())
# norm_cdf = scipy.stats.norm.cdf(app_train['AMT_INCOME_TOTAL']) # calculate the cdf - also discrete

# plot the cdf
# sns.lineplot(x=app_train['AMT_INCOME_TOTAL'].index, y=norm_cdf)
# plt.show()


plt.plot(list(norm_cdf.index), norm_cdf/norm_cdf.max())
plt.xlabel('Value')
plt.ylabel('ECDF')
plt.xlim([norm_cdf.index.min(), norm_cdf.index.max() * 1.05]) # 限制顯示圖片的範圍
plt.ylim([-0.05,1.05]) # 限制顯示圖片的範圍

plt.show()

# 改變 y 軸的 Scale, 讓我們可以正常檢視 ECDF
plt.plot(np.log(list(cdf.index)), cdf/cdf.max())
plt.xlabel('Value (log-scale)')
plt.ylabel('ECDF')

plt.ylim([-0.05,1.05]) # 限制顯示圖片的範圍

plt.show()

In [None]:
#type(norm_cdf)

In [None]:
#norm_cdf

In [None]:
# 轉換numpy to pd
# pd.DataFrame(data=data[1:,1:],    # values
#               index=data[1:,0],    # 1st column as index
#               columns=data[0,1:])  # 1st row as the column names

In [None]:
cdf = sns.distplot(app_train['AMT_INCOME_TOTAL'],
                  bins=30,
                  kde=False,
                  color='dodgerblue',
                  hist_kws={"linewidth": 10,'alpha':1})
cdf.set(xlabel='Normal', ylabel='Frequency')

## 補充：Normal dist 的 ECDF
![ecdf_normal](https://au.mathworks.com/help/examples/stats/win64/PlotEmpiricalCdfAndCompareWithSamplingDistributionExample_01.png)

In [None]:
# 最大值落在分布之外
print(app_train['REGION_POPULATION_RELATIVE'].describe())

# 繪製 Empirical Cumulative Density Plot (ECDF)
"""
Your Code Here
"""
cdf = np.cumsum(app_train['REGION_POPULATION_RELATIVE'])


plt.plot(list(cdf.index), cdf/cdf.max())
plt.xlabel('Value')
plt.ylabel('ECDF')
plt.ylim([-0.05,1.05]) # 限制顯示圖片的範圍
plt.show()

app_train['REGION_POPULATION_RELATIVE'].hist()
plt.show()

app_train['REGION_POPULATION_RELATIVE'].value_counts()

# 就以這個欄位來說，雖然有資料掉在分布以外，也不算異常，僅代表這間公司在稍微熱鬧的地區有的據點較少，
# 導致 region population relative 在少的部分較為密集，但在大的部分較為疏漏

In [None]:
app_train['OBS_60_CNT_SOCIAL_CIRCLE'].head()

In [None]:
# 最大值落在分布之外
print(app_train['OBS_60_CNT_SOCIAL_CIRCLE'].describe())

# 繪製 Empirical Cumulative Density Plot (ECDF)
"""
Your Code Here
"""
cdf = np.cumsum(app_train['OBS_60_CNT_SOCIAL_CIRCLE'])


plt.plot(list(cdf.index), cdf/cdf.max())
plt.xlabel('Value')
plt.ylabel('ECDF')
plt.xlim([cdf.index.min() * 0.95, cdf.index.max() * 1.05])
plt.ylim([-0.05,1.05]) # 限制顯示圖片的範圍
plt.show()


"""
"""
app_train['OBS_60_CNT_SOCIAL_CIRCLE'].hist()
plt.show()
print(app_train['OBS_60_CNT_SOCIAL_CIRCLE'].value_counts().sort_index(ascending = False))


## 注意：當 histogram 畫出上面這種圖 (只出現一條，但是 x 軸延伸很長導致右邊有一大片空白時，代表右邊有值但是數量稀少。這時可以考慮用 value_counts 去找到這些數值

In [None]:
# 把一些極端值暫時去掉，再繪製一次 Histogram
# 選擇 OBS_60_CNT_SOCIAL_CIRCLE 小於 20 的資料點繪製
"""
Your Code Here
"""

app_train['OBS_60_CNT_SOCIAL_CIRCLE'].hist(range={0,20})
# loc_a = 
# loc_b = 

# app_train.loc[loc_a, loc_b].hist()
# plt.show()

In [None]:
loc_a

In [None]:
app_train['OBS_60_CNT_SOCIAL_CIRCLE'].hist(range={0,20})