# [Divide and Conquer, Sorting and Searching, and Randomized Algorithms - Week4](https://www.coursera.org/learn/algorithms-divide-conquer/home/week/4)

## 其他版本
- [以 nbviewer 檢視](https://nbviewer.jupyter.org/github/johnnyasd12/algorithms-stanford/blob/master/Lec%201%20-%20Divide%20and%20Conquer%2C%20Sorting%20and%20Searching%2C%20and%20Randomized%20Algorithms/w4.ipynb)


## VIII. Linear-Time Selection

### [Randomized Selection - Algorithm](https://www.coursera.org/learn/algorithms-divide-conquer/lecture/aqUNa/randomized-selection-algorithm)

#### About Optional Video
- 第一個 optional video 在講怎麼在 deterministic linear time 做到 median selection 這類的事
- 第二個 optional video 在講為何 comparison-based sort 總無法贏過 merge sort

#### The Problem
- input: 給定一個 array $A$，size $n$ 和一個數字 $i$
- output: 求 $i$-th order statistic (即第 $i$ 小的數字)
- 為求簡潔，我們一樣假設 array 的每個數字都不一樣


#### Reduction to Sorting
- **Reduction**
    - 把一個問題轉化成另一個我「已經會解」的問題
    - 我們當然可以先 sort (例如 merge sort) 再直接挑第 $i$ 個，這樣時間複雜度是 $O(n\log n)$
    - 但是這樣就不可能超越 $O(n\log n)$
- 我們想證明 "Selection" 這個問題比 "Sorting" 簡單
- 接下來要對 Quick Sort 做點修改，來達成 Selection 的目的


#### Partitioning Around a Pivot
- 可以回顧 week 3 的內容，回想一下 parition subroutine of quick sort
    - 選定 pivot 然後劃分 array
    - 重新排列 array 使得：
        - 小於 pivot 放它左邊
        - 大於 pivot 放它右邊

#### Quiz: How to Recursively Call Partition to Solve Selection?
Suppose we are looking for the 5th order statistic in an input array of length 10. We partition the array, and the pivot winds up in the third position of the partitioned array. On which side of the pivot do we recurse, and what order statistic should we look for?
- [ ] The 3rd order statistic on the left side of the pivot.
- [x] The 2nd order statistic on the right side of the pivot.
- [ ] The 5th order statistic on the right side of the pivot.
- [ ] "Not enough information to answer question" – we might need to recurse on the left or the right side of the pivot.

#### Randomized Selection
- 根據前面的 quiz 得到的 insight，我們可以寫出這樣的 algorithm
![](https://i.imgur.com/oj7IVEX.png)
- 圖像思考一下就知道怎麼寫囉


#### Properties of RSelect
- Claim: RSelect is correct. 
- Proof: Induction (參考 QuickSort)
- Running Time? depends on quality of (randomly) chosen pivots (類似 QuickSort)

#### Quiz: Worst Case Running Time of RSelect

![](https://i.imgur.com/mAO47ZL.png)

#### Running Time of RSelect?
- Running Time 會根據 chosen pivot (sequence) 而不同 (最糟糕需要 $\theta(n^2)$)
- 最好可以每次都選到 median ($n/2$) 的 pivot，但這是雞生蛋蛋生雞的問題...
    - 這樣就可以有 $T(n)\le T(n/2)+O(n)$
    - 根據 Master Method，$a=1,b=2,d=1$，$a<b^d$，工作量集中在 root，也就是 $T(n)=O(n^d)=O(n)$
- Hope: **random pivot is "pretty good" and "often enough"**
    - (跟 quick sort 很類似：random 某種程度可以取代 median)
    - 下個 video 就要來證明啦

#### Running Time of RSelect
RSelect Theorem: for every input array of length $n$, the **average** running time of RSelect is $O(n)$
- holds for every input (no assumptions on data)
- "average" is random pivot choices made by the **algorithm** (not data).

### [Randomized Selection - Analysis](https://www.coursera.org/learn/algorithms-divide-conquer/lecture/obhKq/randomized-selection-analysis)

#### Tracking Progress via Phases

![](https://i.imgur.com/kc1xQD5.png)
- 跟 quick sort 一樣，workhorse(主力)放在 partition subroutine
- 因此(不把 recursive call 算進去的話) 計算量 $\le cn$
- 我們用當前 array size 來決定我們現在在哪個階段。
    - 如果當前 array size 落在 $(\frac 3 4)^{j+1}\cdot n$ 和 $(\frac 3 4)^j \cdot n$ 之間，我們就視為他在第 $j$ 個階段
    - 例如第 0 階段就是 array size 介於 $\frac 3 4 n$ 到 $n$ 之間
    - 如果挑到好的 pivot 就可以跳出這個階段到下一階段。
- 接下來我們設計 random variable $X_j$ 代表第 $j$ 個階段我們用了多少個 recursive call。
- 利用上面這些，我們可以知道 Randomized Selection 的 running time $\le \sum_\limits{\textrm{all phases }j}X_j\cdot c\cdot (\frac 3 4)^j \cdot n$，於是我們就得到了 **running time 的 upper bound**。
    - 是 upper bound 是因為第 $j$ 階段的 array size $\le (\frac 3 4)^j n$
- 而等式左邊 (running time) 是一個 random variable；右邊也是一個 random variable。而我們在乎的是它的期望值。

#### Proof II: Reduction to Coin Flipping
- 先來算看看 $X_j$ 的 expectation 好了

![](https://i.imgur.com/pWUCfnp.png)
- 只要選出的 pivot 在 25%~75% 之間，就可以保證從第 $j$ 階段跳到第 $j+1$ 階段
    - (因為這樣的話切出來的任何 sub-array 都會小於當前 size 的 3/4倍)
- 而選出這樣的 pivot 的機率有 50%
- **現在 $X_j$ 可以看成是「擲多少次硬幣可以擲出 good pivot?」，我們想計算 $E[X_j]$。**
    - > Q: 總覺得這比喻不太恰當@@，前一次的 pivot 也會決定這次 pivot 可以跳出第 $j$ phase 的機率吧? 感覺就算都在第 $j$ 階段，每次擲硬幣擲到 good pivot 的機率應該不會一樣? **跳出階段 $j$ 需要的次數實際上應該會比「擲硬幣的次數」少?**

#### Proof III: Coin Flipping Analysis

![](https://i.imgur.com/arEnM74.png)
- 其實就是要求 geometric random variable 的 expectation
- 令 random variable $N$ 表示「要擲多少次硬幣才能擲出人頭」
    - 假設擲一次出人頭的機率 $p=1/2$
- 因為這個次數 $N$ 絕對至少需要一次，所以我們可以表示成 $E[N]=1+...$
- 而 $E[N]=1+...$ 第一次擲失敗才會擲第二次第三次嘛，所以「還需要擲更多次硬幣」的機率為 $1-p=1/2$
- 這是一個 memoryless process(失憶性過程?)，也就是說「還需要擲幾次」跟「已經擲了幾次」沒關係，因此「還需要擲的次數」期望值仍然是 $E[N]$
- 所以可以寫成 $E[N]=1+(1-p)E[N]$，移項得 $E[N]=\frac 1 p$
- $p=1/2$，也就是說此時 $E[N]=2$
- 回想 $X_j$ 其實跟這裡的 $N$ 扮演類似角色。


#### Putting It All Together

![](https://i.imgur.com/FyHFC32.png)
- > Q: 第 3 行的「$\le$」似乎就呼應了我在 *Proof II: Reduction to Coin Flipping* 部分提出的問題?
- 第 4 行：$\sum_j (\frac 3 4)^j\le 4$ 可以回想 $\sum_{k=1}^K r^k=\dfrac{1}{1-r^k}<\dfrac 1 {1-r}$。($r<1$)
- 最終得證我們的 upper bound $\le 8cn$，因此 running time $=O(n)$。