# 統計與機率觀念概述

本章介紹幾個統計學與機率的基本概念，它們對資料科學家而言是非常重要的

- 資料類型以及對應的資料處理方式
- 平均數、中位數、眾數、標準差和變異數等統計觀念
- 機率密度函數和機率質量函數
- 資料分布類型以及對應的統計圖表
- 百分位與動差

---

## 資料類型

本章主要談論三種資料類型：

- 數值型資料(Numerical Data)
- 分類型資料(Categorical Data)
- 定序型資料(Ordinal Data)

### 數值型資料(Numerical Data)

數值型資料是可變、可測量的，例如人的身高、處理時間、股票價格 ... etc<br>
主要有以下二種：

**離散型資料(Discrete Data)**<br>
以整數表示，可以計數量。例如一位顧客整年度的消費次數，不會有買 2.5 次或 4/3 次這種紀錄。<br>
離散型資料必須受到整數限制

**連續型資料(Continuos Data)**<br>
在一定範圍內，其取值有無限多種可能，可以是小數，例如人的身高、降雨量、處理時間 ...etc。


### 分類型資料(Categorical Data)
這種資料不具備數值意義。<br>
一般來說，「類別」不是拿來比較的。<br>
像是性別、是否、商品分類、政黨都是屬於分類資料。<br>
常見的做法是為這些類別指定整數數值，但是數值本身沒有數學計算的意義

例如美國的 50 州都分配一個值當代號，像是德州 3, 加州 4, 但是這裡的 3 跟 4 之間沒有任何真正關聯。<br>
只是用來表達分類的代碼。不具備數學計算意義。


### 定序型資料(Ordinal Data)
有點像數值型和分類型資料的混合，最常見的範例是電影或電子商務的評分<br>
具有數學意義的分類資料，例如評分 1 的電影筆評分 2 的電影差

可以將評分的數量看作是一種離散型數值資料


---


## 平均數(mean)、中位數(median)、眾數(mode)

### 平均數(mean)
也可以當作平均值。計算方式非常簡單 就是 `樣本總額/樣本總數`<br>
假設以下是某社區內的每戶小孩資料:

`0, 2, 3, 2, 1, 0, 0, 2, 0`<br>
社區每戶小孩的平均數為 => `(0+2+3+2+1+0+0+2+0) / 9 = 1.11`

### 中位數(median)
跟平均數不太一樣，計算的方式是：先將數值大小做排序，然後找出位於中間的值。<br>
以上面例子來說，將家戶小孩的資料做排序：

`0, 0, 0, 0, 1, 2, 2, 2, 3`
然後找出中間位置的值 => 也就是 1 為中位數<br>
PS: 如果資料筆數是偶數，那麼中位數會在二個資料點之間。一般情況下可以計算二筆資料的平均數來當中位數

**離群值的影響**
前面的例子中，因為沒有太多離群值，所以中位數跟平均數都很接近<br>
如果有極端的資料出現(例如有戶人家有 100 個小孩)，就會嚴重影響平均數<br>
但它不會對中位數造成太大的影響 

所以只要有人提到平均數，就要思考一下：
- 資料分布長什麼樣子？
- 是否有離群值扭曲平均數？
- 如果上面為『yes』 => 就該找出中位數，比較能反映實際情況

### 眾數(mode)
在實際運用統計學時，眾數並不常出現。眾數就是只資料集中出現次數最高的值

以前面的家戶小孩範例來說:<br>
`0, 2, 3, 2, 1, 0, 0, 2, 0`

每個值出現的次數為：<br>
`0:4次, 1:1次, 2:3次, 3:1次`<br>
=> 得出眾數為 0

眾數只對離散型數值資料有意義，不適用於連續型數值資料

### 在 Python 中計算平均數、中位數和眾數

=> 請參考檔案： `MeanMedianMode.ipynb`

### 程式練習

打開 `MeanMedianExercise.ipynb` 演練一下裡面的問題


---

## 標準差(SD, Standard Deviation)和變異數(variance)

標準差和變異數是資料分布的二個基本數量指標。


### 變異數(variance)
變異數表是資料的分散程度。<br>
通常使用 σ² (sigma 平方)來表示，變異數是標準差(σ)的平方<br>
變異數是資料與平均數的差的平方的平均值

使用以下的案例來計算變異數

1. 以每小時排隊人數資料為例，第一～第五小時的資料為 <br>
`1, 4, 5, 4, 8`
2. 計算出平均數<br>
`(1+4+5+4+8)/5 = 4.4`
3. 計算每個資料點和平均數的差，以第一筆 1 為例 => `1 - 4.4 = -3.4`<br>
=> `-3.4, -0.4, 0.6, -0.4, 3.6`
4. 將上一步得出來的值進行平方，原因是： <br>
  * 要確保正數差跟負數差都要納入計算，正負數平方後都會是同等意涵的數值，不會被正負抵消。
  * 加強離群值的權重，誤差的平方會放大離群值的效果
5. 平方後得出來的值會是<br>
=> `11.56, 0.16, 0.36, 0.16, 12.96`<br>
=> 以第二筆為例，原值跟平均數的差為 `-0.4`, 平方後為 `0.16` 代表它在誤差方面更接近平均數
6. 將上述的值再取平均值，即是變異數(variance)<br>
=> `σ² = (11.56+0.16+0.36+0.16+12.96)/5 = 5.04`


### 標準差(SD, Standard Deviation)

一般常用的是標準差，而不是變異數。標準差就是變異數的平方根<br>
=> `σ² = 5.04`
=> `σ = √5.04 = 2.24`

大多經常使用標準差在 dataset 中找出離群值。<br>
如果資料點位於平均數 4.4 的一個標準差範圍內，那麼它就是常態分佈中的一個代表值(Typical Value) <br>

以上面案例為例， `4.4 ± 2.25 => 2 ~ 7`<br>
在原始 dataset `1, 4, 5, 4, 8` 裡，可以藉此找出 1 跟 8 超出了標準差範圍<br>
以數學角度來說，可以視為離群值

可以決定資料點與平均數之間要隔多少標準差(σ)才算是離群值


### 母體變異數(Population Variance)與樣本變異數(Sample Variance)

如果對資料進行了抽樣，也就是說，為了計算方便，從資料中提取了一個子集，那麼計算方法就會有所改變。<br>
這時就不該除以樣本數，而是樣本數-1

舉例來說，以上面的排隊資料為例<br>
母體變異數 => `σ² = (11.56+0.16+0.36+0.16+12.96)/5 = 5.04` <br>
樣本變異數 => `s² = (11.56+0.16+0.36+0.16+12.96)/4 = 6.3` 又可稱為均方(mean square)

母體變異數的正平方根，稱之為母體標準差(σ)<br>
樣本變異數的正平方根，稱之為樣本標準差(s)

至於為什麼要這樣計算，可參考延伸資訊：

ref: [wiki: 樣本變異數](https://zh.wikipedia.org/wiki/%E6%A0%B7%E6%9C%AC%E6%96%B9%E5%B7%AE) <br>
樣本變異數的定義中，分母的值為 n-1 而非 n，一個重要原因即是這樣定義的樣本變異數是母體變異數的不偏估計。這被稱為自由度修正。

ref: [母體變異數v.s.樣本變異數](https://highscope.ch.ntu.edu.tw/wordpress/?p=69367)<br>
均方公式中在分子部分，我們稱之為平方和(sum of squares)，將每一個觀測值與樣本平均數之差予以平方再加總起來；均方在分母部分是 n−1 而不是 n，其原因為如果以 n 取代 n−1 會造成當以樣本變異數來估計母群體變異數時，會發生低估(underestimate)的現象，而這裡的 n−1 在統計學上稱之自由度(degree of freedom)。在數理統計上可以證明以自由度作為除數所計算出來的均方，才是族群的無偏估值，亦即 s2 才是 σ2 的良好估值。

[統計學中算變異量為什麼要除以n-1？什麼是「自由度」？](http://blog.udn.com/nilnimest/92412101)<br>


### 在直方圖上分析標準差和變異數

=> 請參考 `StdDevVariance.ipynb`


---


## 機率密度函數(Probabibility Density Function)和機率質量函數(Probability Mass Function)

### 機率密度函數(Probabibility Density Function)
至今用了好幾次的常態分佈，就是機率密度函數的一個例子

[wiki 上的常態分佈範例圖表](https://zh.wikipedia.org/wiki/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83#/media/File:Standard_deviation_diagram.svg)

一般而言，很容易把這張圖表看作是一個給定值發生的機率。<br>
但以連續型數值資料而言，這種說法有點誤導，因為在一個連續型資料分佈中，資料點的位置有無限種可能的取值。<br>
機率密度函數實際上就是在觀察某個指定範圍內資料點發生的機率

例如在上圖的常態分佈中，平均數(0)和距離平均數一個標準差(1σ)的範圍內，某筆資料有 34.1% 的可能性落在此處。<br>
你可以縮小或放大這個範圍，以找出實際的值，這就是理解機率密度函數的方法<br>
對於一個特定範圍，它給出了資料點落在這個範圍內的機率

在常態分配下的的標準差機率表
| 標準差值 |       範圍內機率 |       範圍外機率 |
|:--------:| ----------------:| ----------------:|
|    1σ    | 68.268 949 2000% | 31.731 050 8000% |
|    2σ    | 95.449 973 6000% |  4.550 026 4000% |
|    3σ    | 99.730 020 4000% |  0.269 979 6000% |
|    4σ    | 99.993 666 0000% |  0.006 334 0000% |
|    5σ    | 99.999 942 6697% |  0.000 057 3303% |
|    6σ    | 99.999 999 8027% |  0.000 000 1973% |

這張圖視覺性的呈現出一個特定的資料點出現的機率。<br>
機率密度函數給出了資料點落在一個給定範圍的機率。<br>
常態分佈只是機率密度函數的一個例子，後面還會介紹更多的機率密度函數


### 機率質量函數(Probability Mass Function)

如果處理的是離散型資料，那麼處理方法會和連續型資料有所不同，<br>
這時要使用機率質量函數(Probability Mass Function)，以下連結為範例圖

[機率質量函數範例圖](http://sciences.usca.edu/biology/zelmer/305/norm/conf/nnorm.gif)

例如，可以繪製一條常態分佈連續型資料的機率密度函數，也就是上圖的曲線。<br>
但如果需要把資料轉換成離散型資料後，就會變成直方圖那樣。<br>
機率質量函數就是離散型資料發生機率的具體呈現。<br>
看上去很像直方圖，實際上真的就是直方圖


> 可以這樣區別：<br>
> 機率密度函數是一條曲線，描述了某個範圍內的連續型資料出現的機率<br>
> 機率質量函數是直方圖，描述某個離散值出現在資料集中的機率


---


## 資料分佈類型

=> 請參考 `Distributions.ipynb`

### 小結

> 記住，機率密度函數使用於處理連續型數據資料 <br>
> 機率質量函數適用於處理離散型數據資料

以上就是常用的機率密度函數與機率質量函數的介紹<br>
總而言之，它們是一種用來表示並測量出給定範圍內的值，在資料集中出現的機率的方式<br>
它們可以給出一些關鍵的資訊，因此理解它們是非常重要的，未來將多次用到這些概念



---


