# บทที่ 4 การวิเคราะห์ขั้นตอนวิธี
การวิเคราะห์ขั้นตอนวิธีมีความสำคัญ เนื่องจากเมื่อผู้พัฒนาเขียนโปรแกรมเพื่อแก้โจทย์ใดโจทย์หนึ่ง อาจจะมีหลายวิธีในการแก้ปัญหา ซึ่งการจะบอกว่าวิธีไหนดีก็มองได้หลายมุมมอง โดยที่มุมมองหลักคือ ความเร็ว ยิ่งเร็วก็ยิ่งดี และพื้นที่ในหน่วยความจำที่ใช้ ใช้ยิ่งน้อยก็ยิ่งดี ซึ่งมักจะมองสองทั้งสองมุมควบคู่กันไป แต่ในรายวิชานี้จะมุ่งเน้นไปที่ความเร็วเป็นหลัก

## 4.1 จุดประสงค์
* เพื่อเข้าใจหลักการของการวิเคราะห์ขั้นตอนวิธี
* เพื่อให้สามารถเข้าใจการอธิบายความเร็วด้วย $O$ (Big-O)
* เพื่อให้สามารถวัดเวลาการทำงานในภาษาไพทอนได้
* เพื่อเปรียบเทียบการแก้ปัญหาด้วยขั้นตอนวิธีที่ต่างกันได้

## 4.2 การบวกเลขอนุกรม
ปัญหาการบวกเลขอนุกรมเป็นดังนี้ <br>
* กำหนดข้อมูลขาเข้า n คือ int
* คำนวณผลบวกอนุกรม $s(n) = n + (n-1) + (n-2) + ... + 1$

### 4.2.1 แก้ด้วยวงวน
วิธีแก้ปัญหานั้นไม่ซับซ้อน คือสร้างวงวนเพื่อบวกเพิ่มไปเรื่อยๆ ตั้งแต่ n ถึง 1 หรือ 1 ถึง n ก็ได้ผลลัพธ์ที่ไม่ต่างกัน

In [1]:
def serialSum(n) :
    mySum = 0
    for i in range(1,n+1):
        mySum = mySum + i
    return mySum

n = 10
myOutput = serialSum(n)
print(myOutput)

55


การทำงานของรหัสด้านบนนี้คือ 
* เริ่มต้นที่ mySum = 0 แล้ว
* บวก i = 1 เพิ่มไปด้วยวงวนแรก ใส่ค่าเข้าไปใน mySum ต่อด้วย
* บวก i = 2 เพิ่มไปด้วยวงวนที่สอง ใส่ค่าเข้าไปใน mySum ต่อด้วย
<br> ...
* บวก i = n เพิ่มไปด้วยวงวนที่ n ใส่ค่าเข้าไปใน mySum

<br>
<br>

---
**ข้อสังเกต**

ข้อระวังในการใช้ range คือจะไล่ค่าจนกว่าจะไม่ถึง n+1 ซึ่งตัวสุดท้ายคือ n ตรงนี้มักจะเกิดข้อผิดพลาดบ่อยครั้ง

---

ซึ่งเราจะเห็นว่ามีการทำงานทั้งหมด n รอบ พฤติกรรมลักษณะนี้จะเรียกว่ามีความซับซ้อนเป็นแบบเชิงเส้น หรือ $O(n)$

### 4.2.2 แก้ด้วยความสัมพันธ์เวียนเกิด (recursion)
การแก้ด้วยความสัมพันธ์แบบเวียนเกิดหรือฟังก์ชันการเวียนเกิดนั้นจะต้องแปลงปัญหาให้อยู่ในรูปฟังก์ชันเรียกฟังก์ชันตัวเองก่อน และต้องระบุกรณีฐานด้วย คือ
* ความสัมพันธ์แบบเวียนเกิดคือ $s(n) = n + s(n-1)$
* กรณีฐาน คือ $s(1) = 1$

In [2]:
def serialSumRec(n):
    if n == 1 :
        return 1
    else :
        return n + serialSumRec(n-1)
        
n = 10
mySum = serialSumRec(n)
print(mySum)

55


สำหรับการแก้ปัญหาด้วยความสัมพันธ์แบบเวียนเกิดนั้นจะค่อนข้างยากในการวิเคราะห์ ดังนั้นจึงใช้วิธีนับการเรียกฟังก์ชันให้ดูแทน

In [3]:
counter = 0

def serialSumRecCount(n):
    global counter
    counter = counter + 1
    if n == 1 :
        return 1
    else :
        return n + serialSumRecCount(n-1)
        
n = 10
mySum = serialSumRecCount(n)
print(mySum, counter)

55 10


มีการเรียก serialSum ทั้งหมด 10 ครั้งซึ่งเท่ากับ n ดังนั้นจึงสรุปได้ว่าความซับซ้อนเป็น $O(n)$ 

<br>
<br>

---
**ข้อสังเกต**

ณ ตรงนี้มีประเด็นสำหรับภาษาไพทอนอย่างหนึ่งคือ ตัวแปร counter ที่ต้องการใช้เป็นตัวแปรโกลบอล (global variable) คือ ตัวแปรที่จะถูกอ้างอิงถึงได้ตลอดทั้งรหัสเมื่อถูกอ้างอิงในฟังก์ชันจะต้องประกาศ global counter ก่อนเพื่อไม่ให้สับสนว่า counter เป็นตัวแปรโลคอล (local variable) ในฟังก์ชันหรือเป็นตัวแปรโกลบอล

---

### 4.2.3 แก้ด้วยสูตรทางคณิตศาสตร์
สูตรอนุกรมการบวกที่แก้โจทย์นี้คือ
$s(n) = \frac{n \times (n+1)}{2}$

In [4]:
def serialSumClosed(n):
    return n * (n+1) // 2
        
n = 10
mySum = serialSumClosed(n)
print(mySum)

55


หาคำตอบได้ด้วยจำนวนคำสั่งที่เป็นค่าคงที่ ในที่นี้คือ 1 คำสั่ง หรือแทนด้วย $O(1)$ 

### 4.2.4 เปรียบเทียบเวลา
ทำการเปรียบเทียบระหว่างเวลาที่ใช้เมื่อ n = 100,000 ถึง 1,000,0000 ผลของการแก้ด้วยวงวนเป็นดังนี้

In [5]:
import time

for n in range(10000,100001,10000):
    start = time.time()
    mySum = serialSum(n)
    end = time.time()
    output = str("n = %d required %10.8f seconds" % (n , end-start))
    print (output)


n = 10000 required 0.00100017 seconds
n = 20000 required 0.00100493 seconds
n = 30000 required 0.00199890 seconds
n = 40000 required 0.00200129 seconds
n = 50000 required 0.00200176 seconds
n = 60000 required 0.00301838 seconds
n = 70000 required 0.00398588 seconds
n = 80000 required 0.00400233 seconds
n = 90000 required 0.00400257 seconds
n = 100000 required 0.00501561 seconds


ผลของการแก้ด้วยสูตรคณิตศาสตร์ (การแก้ด้วยความสัมพันธ์เวียนเกิดไม่สามารถแสดงได้เนื่องจากปัญหาหน่วยความจำ)

In [6]:
import time

for n in range(10000,100001,10000):
    start = time.time()
    mySum = serialSumClosed(n)
    end = time.time()
    output = str("n = %d required %10.8f seconds" % (n , end-start))
    print (output)

n = 10000 required 0.00000000 seconds
n = 20000 required 0.00000000 seconds
n = 30000 required 0.00000000 seconds
n = 40000 required 0.00000000 seconds
n = 50000 required 0.00000000 seconds
n = 60000 required 0.00000000 seconds
n = 70000 required 0.00000000 seconds
n = 80000 required 0.00000000 seconds
n = 90000 required 0.00000000 seconds
n = 100000 required 0.00000000 seconds


ซึ่งผลที่ได้นั้นเป็นไปตามการวิเคราะห์ขั้นตอนวิธีคือแบบที่ใช้สูตรคำนวณใช้เวลาน้อยมาก ไม่ว่า n จะเป็นเท่าใด ในขณะที่อีกวิธีที่มีการทำงานเป็นเชิงเส้นใช้เวลาเพิ่มขึ้นเรื่อยๆ เมื่อ n เพิ่ม

## 4.3 บิ๊ก-โอ
การวิเคราะห์ขั้นตอนวิธีนั้นถือว่าสำคัญในการออกแบบโครงสร้างข้อมูล เนื่องจากทุกโครงสร้างข้อมูลต้องมีการเก็บและค้นหาข้อมูล ทั้งสองขั้นตอนจำเป็นต้องออกแบบให้เหมาะสมและดีที่สุดเท่าที่จะทำได้ บิ๊ก-โอ (Big-O) หรือ $O$ จึงมีหน้่าที่ในการอธิบายความดีของโครงสร้างข้อมูล ซึ่งบิ๊ก-โอเป็นอันดับหรือเป็นขอบเขตของเวลาที่ใช้ในการคำนวน ไม่ได้บอกเป็นจำนวนคำสั่งหรือเวลาแบบตรงๆ แต่จะบอกถึงในกรณีที่แย่ที่สุด

เพื่อความเข้าใจจะเริ่มวิเคราะห์จากการบวกเลขแบบอนุกรมก่อน

In [7]:
def serialSum(n) :
    mySum = 0
    for i in range(1,n+1):
        mySum = mySum + i
    return mySum

จากฟังก์ชันนี้เรากำหนดให้ $T(n)$ คือจำนวนคำสั่งที่ใช้แก้ปัญหา ดังนั้น $T(n) = 1 + n$ คือจำนวนคำสั่งทั้งหมด แต่อย่างที่ได้อธิบายไว้ข้างต้นว่าบิ๊ก-โอบอกอันดับ ซึ่งอันดับคือการหยิบพจน์ที่มีอัตราการโตมากที่สุดมาเป็นอันดับ เมื่อเทียบ $1$ กับ $n$ แล้วพบว่า $n$ มีอัตราการโตที่มากกว่าดังนั้น $T(n) = 1 + n$ จึงมีอันดับเป็น $n$ และมีบิ๊ก-โอ คือ $O(n)$

นอกจากนี้เมื่อเราเลือกอันดับที่มากที่สุดได้แล้ว ค่าสัมประสิทธิ์ที่คูณอยู่ข้างหน้าที่เป็นค่าคงที่จะถูกตัดออกด้วย เช่น  $T(n) = 5n^2 + 27n + 1005$ มีพจน์ที่อันดับมากที่สุดคือ $5n^2$ แต่ตัดค่าสัมประสิทธิ์คือ $5$ ออก เหลือแค่ $n^2$ ดังนั้นบิ๊ก-โอ คือ $O(n^2)$

เราทราบได้อย่างไรว่าอันดับหรืออัตราการโตของรูปฟังก์ชันแบบไหนโตมากกว่ากัน ให้ดู [ตารางที่ 4-1](#table_01)

<br>
<br>
<br>
<a name="table_01"></a>
<center>ตารางที่ 4-1 ชื่อเรียกฟังก์ชัน</center>

| $f(n)$    	| ชื่อเรียก                      	|
|-----------	|-----------------------------	|
| $1$       	| ค่าคงที่ (constant)            	|
| $log(n)$  	    | ลอการิทึม (logarithmic)       	|
| $n$       	| เชิงเส้น (linear)             	|
| $nlog(n)$  	    | ลอกการิทึมเชิงเส้น (log linear) 	|
| $n^2$     	| สมการกำลังสอง (quadratic)    	|
| $n^3$     	| สมการกำลังสาม (cubic)        	|
| $2^n$     	| เลขชี้กำลัง (exponential)      	|

เรียงตามลำดับของอันดับจากโตน้อยที่สุดไปยังโตมากที่สุด ซึ่งนิสิตต้องเกิดคำถามแน่นอนว่า โต คืออะไร ขอเริ่มจากความเข้าใจแบบง่ายๆ แต่เกือบจะถูกต้องก่อน คือ การแทนค่า $n$ ใน $f(n)$ ด้วยค่า $1, 2, 3, 4, ...$ เพิ่มไปเรื่อยๆ ดัง [ตารางที่ 4-2](#table_02)

<a name="table_02"></a>
<center>ตารางที่ 4-2 การแทนค่าฟังก์ชัน</center>

| $f(n)$    	| การแทนค่า                      	|
|-----------	|-----------------------------	|
| $1$       	| 1, 1, 1, 1, ...            	|
| $log(n)$  	| 0, 0.30, 0.48, 0.60, ...       	|
| $n$       	| 1, 2, 3, 4             	|
| $nlog(n)$  	| 0, 0.60, 1.44, 2.4, ... 	|
| $n^2$     	| 1, 4, 9, 16, ...    	|
| $n^3$     	| 1, 8, 27, 64, ...        	|
| $2^n$     	| 2, 4, 8, 16, ...      	|

จากที่ได้กล่าวไว้ข้างต้นว่าการหาคำตอบของ <b>โต</b> ด้วยการแทนค่านั้นเกือบจะถูกต้อง แต่ในกรณี $n^3$ กับ $2^n$ ไม่เป็นเช่นนั้น ซึ่งเหตุผลก็เพราะว่าเวลาเราดูการโตนั้นจะต้องดูกันไปถึง $n = \infty$ หรือค่าที่มากๆ เช่น $n = 20, 20^3 = 8000, 2^{20} = 1048576$ หรือมองที่อนุพันธ์ซึ่งจะไม่ขอกล่าวถึง นอกจากนี้เรายังสามารถมองการ <b>โต</b> ได้ด้วยการวาดกราฟใน [รูปที่ 4-1](#figure_01) (จาก [interactivepython](http://interactivepython.org/runestone/static/pythonds/AlgorithmAnalysis/BigONotation.html))

<a name="figure_01"></a> 
![alt text](/files/imgs/newplot.png "plot")
<center>รูปที่ 4-1 กราฟอัตราการโตของฟังก์ชัน</center>

## 4.4 ปัญหาอนาแกรม (anagram detection)
เป็นปัญหาการตรวจสอบว่าสายอักขระ 2 ตัวประกอบไปด้วยชุดตัวอักษรเดียวกันหรือไม่ เช่น earth กับ heart ประกอบด้วย e a r t h อย่างละ 1 ตัวเหมือนกันถือว่าเป็นอนาแกรม

### 4.4.1 ตรวจสอบทุกคู่
สมมติว่ามี str 2 ตัวคือ s1 กับ s2 วิธีการคือ หยิบ s1[pos1] โดย pos1 มีค่าตั้งแต่ 0 ถึง len(s1)-1 เปรียบเทียบกับ s2[pos2] โดย pos2 มีค่าตั้งแต่ 0 ถึง len(s2)-1 หากเจอ s1[pos1] ที่ดัชนี pos2 ให้กำหนด s2[pos2] เป็น None เพื่อเป็นการบอกว่า s2[pos2] มีคู่ที่ตรงกันแล้ว แต่หากไม่เจอก็สามารถตอบได้เลยว่าไม่เป็นอนาแกรม

ผู้พัฒนาจะเห็นได้ว่ามีวงวนอยู่ 2 วงวนสำหรับ s1 และ s2 ซึ่งเป็นวงวนแบบซ้อนกันเนื่องจากทุกตัวใน s1 จะต้องถูกวนเชคกับตัวที่เหลือใน s2 ดังรหัส

In [8]:
def anagramSolution1(s1,s2):
    alist = list(s2)

    pos1 = 0
    stillOK = True

    while pos1 < len(s1) and stillOK:
        pos2 = 0
        found = False
        while pos2 < len(alist) and not found:
            if s1[pos1] == alist[pos2]:
                found = True
            else:
                pos2 = pos2 + 1

        if found:
            alist[pos2] = None
        else:
            stillOK = False

        pos1 = pos1 + 1

    return stillOK

print(anagramSolution1('abcd','dcba'))

True


In [9]:
from IPython.display import IFrame
url = "http://pythontutor.com/iframe-embed.html#code=def%20anagramSolution1%28s1,s2%29%3A%0A%20%20%20%20alist%20%3D%20list%28s2%29%0A%0A%20%20%20%20pos1%20%3D%200%0A%20%20%20%20stillOK%20%3D%20True%0A%0A%20%20%20%20while%20pos1%20%3C%20len%28s1%29%20and%20stillOK%3A%0A%20%20%20%20%20%20%20%20pos2%20%3D%200%0A%20%20%20%20%20%20%20%20found%20%3D%20False%0A%20%20%20%20%20%20%20%20while%20pos2%20%3C%20len%28alist%29%20and%20not%20found%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20if%20s1%5Bpos1%5D%20%3D%3D%20alist%5Bpos2%5D%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20found%20%3D%20True%0A%20%20%20%20%20%20%20%20%20%20%20%20else%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20pos2%20%3D%20pos2%20%2B%201%0A%0A%20%20%20%20%20%20%20%20if%20found%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20alist%5Bpos2%5D%20%3D%20None%0A%20%20%20%20%20%20%20%20else%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20stillOK%20%3D%20False%0A%0A%20%20%20%20%20%20%20%20pos1%20%3D%20pos1%20%2B%201%0A%0A%20%20%20%20return%20stillOK%0A%0Aprint%28anagramSolution1%28'abcd','dcba'%29%29&codeDivHeight=400&codeDivWidth=350&cumulative=false&curInstr=0&heapPrimitives=false&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false"
IFrame(url, width=1050, height=512)

เมื่อพิจารณาการวิเคราะห์จะเห็นได้ว่าทุกๆตัวอักษรใน s1 จะต้องนำมาเปรียบเทียบกับทุกๆตัวอักษรใน s2 ต่อให้เป็น None ก็จะแค่ข้ามไปตัวถัดไป ดังนั้นสมมติ s1 มีขนาด $n$ และ s2 มีขนาด $m$ จำนวนการเปรียบเทียบทั้งหมดคือ $nm$ แต่หากขนาดไม่เท่ากันคือ $n \neq m$ จะสามารถตอบได้ทันทีว่าไม่เป็นอนาแกรมในกรณีนี้คือดีที่สุดซึ่งไม่ถือเป็นบิ๊ก-โอ จากที่เคยกล่าวไว้ข้างต้นว่าเราสนใจในกรณีที่แย่ที่สุดเพื่อคำนวณบิ๊ก-โอ ดังนั้นกรณีที่แย่ที่สุดคือ $n = m$ ดังนั้นจำนวนการเปรียบเทียบทั้งหมดคือ $T(n) = n^2$ ก็คือ $O(n^2)$

#### คำถาม
หากเปลี่ยนการกำหนด s2 ที่ตำแหน่ง pos2 เป็น None ให้เป็นการลบออกไปเลยแทน จำนวนการเปรียบเทียบทั้งหมดจะเป็นเท่าไร และบิ๊ก-โอเป็นเท่าไร

In [10]:
# try here

<br>
<br>
### 4.4.2 เรียงลำดับก่อนแล้วจึงเปรียบเทียบ
วิธีนี้ค่อนข้างตรงไปตรงมา คือ เรียงลำดับตัวอักษรใน s1 และ s2 แล้วไล่ดัชนีการเปรียบเทียบตัวอักษรใน s1 และ s2 ที่ถูกเรียงแล้วเป็นคู่ๆ  ยกตัวอย่างเช่น ต้องการตรวจสอบ goodguy กับ doogyug ให้เรียงลำดับตัวอักษรก่อน ซึ่งได้เป็น dggooyu กับ dggooyu แล้วจึงนำผลที่ได้มาเปรียบเทียบเป็นคู่ๆ ตั้งแต่ (d, d), (g, g), ..., (u,u) หากตรงกันหมดแสดงว่าเป็นอนาแกรมแต่หากไม่ตรงกันถือว่าไม่เป็น เช่น hello กับ helly เรียงได้เป็น ehllo กับ ehlly เปรียบเทียบเป็นคู่ๆ แล้วพบว่าคู่สุดท้ายคือ (o,y) ทำให้ไม่เป็นอนาแกรม

การวิเคราะห์ในกรณีนี้จำเป็นต้องใช้ประสบการณ์ แต่ผู้พัฒนาอาจจะทราบแล้วว่าการเรียงลำดับมีหลายวิธี (ซึ่งจะเรียนกันในวิชานี้แต่ไม่ใช่ตอนนี้) วิธีที่ดีที่สุดใช้เวลา $T (n) = nlog(n)$ การเปรียบเทียบเป็นคู่ๆ ใช้ $T(n) = n$ เวลารวมคือ $T(n) = nlog(n) + n$ ซึ่งบิ๊ก-โอจะหยิบพจน์ที่มีอันดับมากที่สุดคือ $nlog(n)$ ดังนั้นวิธีนี้ใช้ $O(nlog(n)$

#### คำถาม
จงเขียนโปรแกรมตรวจสอบอนาแกรมโดยใช้ฟังก์ชัน sort ของภาษาไพทอน

In [11]:
# try here

### 4.4.3 เปรียบเทียบโดยใช้ตารางของตัวอักษร 
หลักการนั้นไม่ซับซ้อน คือ ทำตารางสำหรับตัวอักษร a-z เพื่อเก็บจำนวนแต่ละตัวอักษรที่ปรากฎในแต่ละ str เราจะได้ 2 ตารางสำหรับแต่ละ str แล้วนำตารางนั้นมาเปรียบเทียบกัน เช่น

hello

|a|b|c|d|e|f|g|h|i|j|k|l|m|n|o|p|q|r|s|t|u|v|w|x|y|z|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|0|0|0|0|1|0|0|1|0|0|0|2|0|0|1|0|0|0|0|0|0|0|0|0|0|0|

helly

|a|b|c|d|e|f|g|h|i|j|k|l|m|n|o|p|q|r|s|t|u|v|w|x|y|z|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|0|0|0|0|1|0|0|1|0|0|0|2|0|0|0|0|0|0|0|0|0|0|0|0|1|0|

การวิเคราะห์เริ่มจากการสร้างตารางขนาด 26 จำนวน 2 ตาราง $T(n) = 2 \times 26 = 52$ แต่ละตัวอักษรถูกนับเพื่อเพิ่มค่าในตาราง $T(n) = 2n$ ที่ต้องคูณ 2 เนื่องจากต้องทำทุกตัวอักษรของ str ทั้ง 2 จากนั้นทำการเปรียบเทียบ $T(n) = 26$ เมื่อรวมทุกกระบวนการแล้วได้ $T(n) = 52 + 2n + 26$ หยิบพจน์ที่อันดับมากที่สุดแล้วตัดค่าสัมประสิทธิ์ออกได้เป็น $O(n)$
 
### 4.5 คำถามท้ายบท
1. เหตุใดการหาผลบวกของเลขอนุกรมแบบวงวนจึงเป็น $O(n^2)$
2. จงทำการค้นคว้าวิธีการเรียงลำดับและการวิเคราะห์บิ๊ก-โอของแต่ละวิธี
3. จงเขียนโปรแกรมตรวจสอบอนาแกรมโดยใช้ตารางของตัวอักษร
