# EDA

了解數據，才能對症下藥

## Introduction





我們來看看 IBM 對於 EDA 的介紹（https://www.ibm.com/topics/exploratory-data-analysis）

探索性資料分析（Exploratory Data Analysis, EDA）是資料科學家用來分析和調查資料集，並總結其主要特徵的方法，通常採用資料視覺化的方法。EDA 有助於確定如何最佳地操作資料來源以獲得所需答案，使資料科學家更容易發現模式、發現異常、測試假設或檢查假設。

EDA 主要用於在正式建模或假設檢驗任務之前了解資料，並提供對資料集變數及其關係的更好理解。它還可以幫助確定所考慮的統計技術是否適合於資料分析。EDA 最早由美國數學家 John Tukey 於 1970 年代提出，至今仍然是資料發現過程中廣泛使用的方法。

**為什麼 EDA 在資料科學中很重要？**

EDA 的主要目的是在做出任何假設之前先查看資料。它可以幫助識別明顯的錯誤，更好地理解資料中的模式，檢測異常或異常事件，發現變數之間有趣的關係。資料科學家可以使用 EDA 確保其產生的結果是有效的，並且適用於任何期望的業務結果和目標。EDA 還幫助利益相關者確認他們提出的問題是否正確。EDA 可以幫助回答有關標準差、分類變數和置信區間的問題。一旦 EDA 完成並得出見解，其特徵可以用於更複雜的資料分析或建模，包括機器學習。

**EDA 工具**

EDA 工具可以執行的特定統計功能和技術包括：

- 聚類和降維技術，幫助創建包含多個變數的高維資料的圖形顯示。
- 單變量視覺化和摘要統計。
- 雙變量視覺化和摘要統計，可以評估資料集中每個變數與目標變數之間的關係。
- 多變量視覺化，用於映射和理解資料中不同字段之間的相互作用。
- K-means 聚類是一種無監督學習中的聚類方法，其中資料點根據與每個群組質心的距離分配到 K 個群組中，即聚類數。最接近特定質心的資料點將聚類在同一類別下。K-means 聚類常用於市場細分、模式識別和圖像壓縮。
- 預測模型，例如線性回歸，使用統計資料來預測結果。

**EDA 的主要類型**

1. 單變量非圖形化：這是最簡單的資料分析形式，分析的資料只有一個變數。主要目的是描述資料並發現其中存在的模式。
2. 單變量圖形化：非圖形方法不能提供資料的全貌，因此需要圖形方法。常見的單變量圖形包括：
   - 幹葉圖：顯示所有資料值及其分佈形狀。
   - 直方圖：每個條形代表一定範圍內的頻率（計數）或比例（計數/總計數）。
   - 箱形圖：圖形化地描述最小值、第一四分位數、中位數、第三四分位數和最大值的五數摘要。

3. 多變量非圖形化：多變量資料來自多個變數。多變量非圖形 EDA 技術通常通過交叉列表或統計顯示兩個或多個變數之間的關係。

4. 多變量圖形化：多變量資料使用圖形顯示兩個或多個資料集之間的關係。最常用的圖形是群組條形圖，每個群組代表一個變數的一個層次，每個群組內的條形代表另一個變數的層次。

其他常見的多變量圖形包括：

- 散佈圖：用於在水平和垂直軸上繪製資料點，以顯示一個變數如何受另一變數影響。
- 多變量圖：圖形表示因素與響應之間的關係。
- 運行圖：在時間軸上繪製資料的線圖。
- 氣泡圖：在二維圖中顯示多個圓圈（氣泡）的資料視覺化。
- 熱圖：以顏色表示數據值的圖形表示。

**EDA 工具**

一些最常用的資料科學工具包括：

- Python：一種解釋性、面向對象的程式語言，具有動態語義。其高階內建資料結構、動態類型和動態綁定使其對快速應用開發以及用作腳本或膠水語言以連接現有組件非常有吸引力。Python 和 EDA 可一起使用來識別資料集中的缺失值，這對於機器學習處理缺失值很重要。
- R：一種開源程式語言和免費的統計計算和圖形環境，由 R 基金會支持。R 語言在資料科學中廣泛用於開發統計觀察和資料分析。

## EDA 工作內容

很難過的告訴你，基本上每一步都必須做


### 1. 資料準備
這是 EDA 的基礎步驟，確保資料的質量和完整性。
- **資料清理**：處理缺失值、異常值和重複值。這可以包括刪除缺失值、用均值或中位數填補缺失值，或者使用插補技術。
- **資料格式化**：確保所有變數的資料類型正確（例如，日期類型、數值類型、分類類型等）。
- **資料轉換**：標準化或正規化資料，以便不同特徵具有可比性，或進行對數轉換來處理偏態資料。

### 2. 描述性統計
這一步驟有助於瞭解資料的基本屬性。
- **基本統計量**：計算平均值、中位數、標準差、極值等基本統計量。
- **分佈分析**：檢查變數的分佈情況，使用直方圖、密度圖等來視覺化分佈。
- **集中趨勢與離散趨勢**：通過計算變異數、標準差、四分位距等來評估資料的變異程度。

### 3. 資料視覺化
視覺化有助於直觀地理解資料的結構和關係。
- **單變量視覺化**：使用直方圖、箱形圖、條形圖等來分析單個變數的分佈情況。
- **雙變量視覺化**：使用散佈圖、雙變量箱形圖、條形圖等來分析兩個變數之間的關係。
- **多變量視覺化**：使用成對散佈圖矩陣、熱圖、平行坐標圖等來分析多個變數之間的相互關係。

### 4. 資料關係分析
這一步驟重點在於發現變數之間的關係。
- **相關性分析**：計算相關係數矩陣，使用熱圖視覺化變數之間的相關性。
- **交叉表分析**：對於分類變數，可以使用交叉表來分析變數之間的關係。

### 5. 特徵工程
這是為了提升模型性能，對資料進行的特徵創建和轉換。
- **特徵創建**：根據現有資料創建新的特徵，例如日期分量、交互特徵等。
- **特徵選擇**：使用技術（如遞歸特徵消除、隨機森林重要性等）來選擇對模型最有影響的特徵。

### 6. 假設檢驗
檢驗資料中的假設，以確定資料的統計特性。
- **正態性檢驗**：檢查資料是否符合正態分佈，可以使用 Shapiro-Wilk 檢驗、Kolmogorov-Smirnov 檢驗等。
- **方差齊性檢驗**：檢查不同組之間的變異數是否相等，例如 Levene 檢驗。
- **假設檢定**：如 t 檢驗、卡方檢驗等，用於比較不同樣本或變數之間的差異。

### 7. 模型初步探索
在 EDA 的最後階段，可以初步探索一些簡單的模型。
- **回歸分析**：構建簡單的線性回歸模型來探索變數之間的關係。
- **分類模型**：使用邏輯回歸或決策樹來初步分類資料，理解特徵的重要性和影響。

### 綜合建議
- **系統化進行**：按照上述步驟系統地進行 EDA，確保每個重要環節都不會被忽略。
- **迭代分析**：EDA 是一個迭代過程，不斷反覆進行資料清理、視覺化和分析，直到對資料有充分理解。
- **記錄與報告**：詳細記錄每一步驟的發現和結論，並製作報告與團隊分享。


## 推薦參考範例

1. [資料科學筆記(一)-如何選取特徵和發現特徵之間的相關性?
](https://medium.com/@zhihaoshi1729/%E8%B3%87%E6%96%99%E7%A7%91%E5%AD%B8%E7%AD%86%E8%A8%98-%E4%B8%80-%E5%A6%82%E4%BD%95%E9%81%B8%E5%8F%96%E7%89%B9%E5%BE%B5%E5%92%8C%E7%99%BC%E7%8F%BE%E7%89%B9%E5%BE%B5%E4%B9%8B%E9%96%93%E7%9A%84%E7%9B%B8%E9%97%9C%E6%80%A7-e7fd74053d24)

2. [What is Exploratory Data Analysis?
](https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15)

## 總結

EDA 對於資料科學專案有很大的重要性，這個步驟對於後續的資料處理、資料視覺化、挑選模型、進行商業分析等，都有重要的影響。

對於資料分析師來說，EDA 將會是他們找到商業洞見最重要的環節；對於資料科學家來說，則是會影響他們決定後續資料處理與挑選模型的關鍵；對於資料工程師來說，將會是如何維護數據管道、進行數據處理的重要參考。

就以我個人而言，我會花費將近 60%~70% 以上的時間於 EDA 中與資料處理之間不斷來回，直到我認為對於資料已經足夠了解、將資料處理的足夠乾淨後，才會開始挑選模型並運行。

我舉個例子，今天一份數據集有許多的缺失值，這時候如果你不做 EDA 直接把資料導入模型運行，你大機率會得到一個很糟糕的運行結果。即便你得到很好的結果，你也無法徹底的說明為何資料在如此多缺失值的條件下，模型能夠運行的如此好，一切會顯得不夠根據。

即便你今天注意到缺失值了，但要用平均值補？用0補？還是整欄刪除？這些資料處理的決策都需要你對資料有所了解，例如你透過統計的相關性分析，發現這個欄位與結果高度相關，此時就不應該刪除欄位。或是你認為這個欄位的意義上，用平均值來補是相當合理的，這就需要你透過了解整份數據的其他欄位來了解。

講了很多，我必須說 EDA 與資料處理是我認為資料科學專案花最多時間的部分。

老話一句：Garbage in, Garbage out.