# 統計與機率觀念概述

本章介紹幾個統計學與機率的基本概念，它們對資料科學家而言是非常重要的

- 資料類型以及對應的資料處理方式
- 平均數、中位數、眾數、標準差和變異數等統計觀念
- 機率密度函數和機率質量函數
- 資料分布類型以及對應的統計圖表
- 百分位與動差

---

## 資料類型

本章主要談論三種資料類型：

- 數值型資料(Numerical Data)
- 分類型資料(Categorical Data)
- 定序型資料(Ordinal Data)

### 數值型資料(Numerical Data)

數值型資料是可變、可測量的，例如人的身高、處理時間、股票價格 ... etc<br>
主要有以下二種：

**離散型資料(Discrete Data)**<br>
以整數表示，可以計數量。例如一位顧客整年度的消費次數，不會有買 2.5 次或 4/3 次這種紀錄。<br>
離散型資料必須受到整數限制

**連續型資料(Continuos Data)**<br>
在一定範圍內，其取值有無限多種可能，可以是小數，例如人的身高、降雨量、處理時間 ...etc。


### 分類型資料(Categorical Data)
這種資料不具備數值意義。<br>
一般來說，「類別」不是拿來比較的。<br>
像是性別、是否、商品分類、政黨都是屬於分類資料。<br>
常見的做法是為這些類別指定整數數值，但是數值本身沒有數學計算的意義

例如美國的 50 州都分配一個值當代號，像是德州 3, 加州 4, 但是這裡的 3 跟 4 之間沒有任何真正關聯。<br>
只是用來表達分類的代碼。不具備數學計算意義。


### 定序型資料(Ordinal Data)
有點像數值型和分類型資料的混合，最常見的範例是電影或電子商務的評分<br>
具有數學意義的分類資料，例如評分 1 的電影筆評分 2 的電影差

可以將評分的數量看作是一種離散型數值資料


---


## 平均數(mean)、中位數(median)、眾數(mode)

### 平均數(mean)
也可以當作平均值。計算方式非常簡單 就是 `樣本總額/樣本總數`<br>
假設以下是某社區內的每戶小孩資料:

`0, 2, 3, 2, 1, 0, 0, 2, 0`<br>
社區每戶小孩的平均數為 => `(0+2+3+2+1+0+0+2+0) / 9 = 1.11`

### 中位數(median)
跟平均數不太一樣，計算的方式是：先將數值大小做排序，然後找出位於中間的值。<br>
以上面例子來說，將家戶小孩的資料做排序：

`0, 0, 0, 0, 1, 2, 2, 2, 3`
然後找出中間位置的值 => 也就是 1 為中位數<br>
PS: 如果資料筆數是偶數，那麼中位數會在二個資料點之間。一般情況下可以計算二筆資料的平均數來當中位數

**離群值的影響**
前面的例子中，因為沒有太多離群值，所以中位數跟平均數都很接近<br>
如果有極端的資料出現(例如有戶人家有 100 個小孩)，就會嚴重影響平均數<br>
但它不會對中位數造成太大的影響 

所以只要有人提到平均數，就要思考一下：
- 資料分布長什麼樣子？
- 是否有離群值扭曲平均數？
- 如果上面為『yes』 => 就該找出中位數，比較能反映實際情況

### 眾數(mode)
在實際運用統計學時，眾數並不常出現。眾數就是只資料集中出現次數最高的值

以前面的家戶小孩範例來說:<br>
`0, 2, 3, 2, 1, 0, 0, 2, 0`

每個值出現的次數為：<br>
`0:4次, 1:1次, 2:3次, 3:1次`<br>
=> 得出眾數為 0

眾數只對離散型數值資料有意義，不適用於連續型數值資料

### 在 Python 中計算平均數、中位數和眾數

=> 請參考檔案： `MeanMedianMode.ipynb`

### 程式練習

打開 `MeanMedianExercise.ipynb` 演練一下裡面的問題


---


