## $\Large{Exploratory\; Data\; Analysis\; and\; Tips}$

探索性資料分析(Exploratory Data Anlysis, 簡稱EDA)是機器學習/資料科學專案中非常重要的步驟，它是透過描述性統計以及資料視覺化的方式讓我們快速瞭解資料在各個面向的狀況，以便我們找到關鍵的因素往下進行後續分析。

雖然探索性資料分析非常重要，在一些絢麗的機器學習模型與技巧下卻相形失色，另外探索性資料分析也需要結合分析人員對資料的了解，所以在實務上這個步驟常被忽略或輕視。不過在使用得當的狀況下，在探索性資料分析的階段就可以找到資料中特別的資訊與重要的特徵，甚至能找出商業價值。

<img src='https://drive.google.com/uc?export=view&id=12zibZ4rhDJOSNvQHWeUycluap_xRT3Rq' width=600/>

### 本章節內容大綱
* [統計量的使用提醒](#統計量的使用提醒)
    - [平均數、中位數、眾數的選擇](#平均數、中位數、眾數的選擇)
* [資料視覺化小技巧](#資料視覺化小技巧)
    - [直方圖與箱型圖的選擇](#直方圖與箱型圖的選擇)
    - [圓餅圖的錯誤使用範例](#圓餅圖的錯誤使用範例)
    - [散佈圖的陷阱](#散佈圖的陷阱)


---

In [None]:
# 載入套件
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

<a name="統計量的使用提醒"></a>
## 統計量的使用提醒

<a name="平均數、中位數、眾數的選擇"></a>
- ### 平均數、中位數、眾數的選擇

我們知道平均數、中位數、跟眾數都可以代表一群資料的分布集中狀況，但是這三個數值的選擇上又應該考量甚麼因素呢？

<img src='https://drive.google.com/uc?export=view&id=13h3fvvuzyFb75cSdGDM07rEtpK7CuQZm' width=700/>

- 偏態與集中趨勢指標的關聯

<img src='https://drive.google.com/uc?export=view&id=1h4sGNy1v-TXt-kH7NxIexjMrhpY_Xe43' width=700/>


In [None]:
dat = pd.read_csv('https://raw.githubusercontent.com/ogrisel/parallel_ml_tutorial/master/notebooks/titanic_train.csv')

In [None]:
dat['Fare'].hist()

In [None]:
fare_mean = dat['Fare'].mean()
print(fare_mean)

In [None]:
less_than_mean = np.mean(dat['Fare'] < fare_mean)
print(less_than_mean)

In [None]:
fare_median = dat['Fare'].median()
print(fare_median)

---
<a name="資料視覺化小技巧"></a>
## 資料視覺化小技巧

<a name="直方圖與箱型圖的選擇"></a>
- ### 直方圖與箱型圖的選擇

在連續型變項的分布探索中我們有介紹直方圖與箱型圖兩種統計圖，在選擇上有沒有甚麼特別需要注意的地方呢？

<img src='https://drive.google.com/uc?export=view&id=1IO48TSAkItnFTJnJfFLHqZ0sKcchRYBS'/>

<img src='https://drive.google.com/uc?export=view&id=1XWmctXyoLdmUBOGaLDkDlC2xFzTvJESJ'/>



- 直方圖與箱型圖比較

<img src='https://drive.google.com/uc?export=view&id=1oZXfZosuIPd9RTlzYGQDC9WeqO9QN4ba' width=700/>

---
<a name="圓餅圖的錯誤使用範例"></a>
- ### 圓餅圖的錯誤使用範例

先前有說過圓餅圖有許多的限制，在這邊我們舉一些反面的實際案例讓大家看一下

- #### 多類別的圓餅圖
[Source](https://eagereyes.org/pie-charts)
<img src='https://drive.google.com/uc?export=view&id=1zMjEaQM3E6g5VA0F4j996V4Y7PZsOBAS'/>

- #### 圓餅圖的比較
[Source](https://eagereyes.org/pie-charts)
<img src='https://drive.google.com/uc?export=view&id=1pnIJ_cR3EfFGRRzl0EkRxQAOQpVhaUxS'/>

- #### 3D造成的視覺效果
[Source](https://eagereyes.org/pie-charts)
<img src='https://drive.google.com/uc?export=view&id=1KogB24IQQXjDJmFkm2Jt0JbdALaxBrWE' width = 700/>

---
<a name="散佈圖的陷阱"></a>
- ### 散佈圖的陷阱

在探討兩個數值變項的關聯時，我們很常會直接使用散佈圖來直接觀察，但散佈圖可不可能有時也會誤導我們？

In [None]:
#upload boston_house.csv
!gdown --id 14KQIUlI-uvixIG5OB-Hl8qRRX70Ata2h
dat = pd.read_csv('boston_house.csv')
dat.head()

- #### Pseudo-continuous variable

In [None]:
plt.scatter(dat['CHAS'], dat['NOX'])
plt.xlabel('CHAS')
plt.ylabel('NOX')
plt.show()

In [None]:
# 較好的做法是使用群組的箱型圖做比較
dat.boxplot('NOX', by='CHAS')

- #### Overlapping points

In [None]:
plt.scatter(dat['TAX'], dat['RAD'])
plt.xlabel('TAX')
plt.ylabel('RAD')
plt.show()

In [None]:
plt.hist(dat['TAX'], bins=20)
plt.show()

In [None]:
# 調整透明度參數使資料分布較明顯

plt.scatter(dat['TAX'], dat['RAD'], alpha=0.1)
plt.xlabel('TAX')
plt.ylabel('RAD')
plt.show()

---

- ## 小結

在資料的視覺化上，其實還有很多需要注意的地方，未來大家在進行資料探索時請務必記得多方面交叉比較資訊是否一致。 另外，雖然很多圖形非常的絢麗美觀，但在資訊的呈現上其實基本的統計圖表並不輸給它們，在決定選用何種圖形前可以先思考一下目前想呈現的資訊為何，才能選擇到適合的圖形唷。