# Ý tưởng phương pháp: 

- **Note: Ở đây, ta giới thiệu phương pháp tìm min cho hàm một biến. Tìm max ta thực hiện tương tự.**
- Các điểm min hoặc max là những điểm có đạo hàm bằng 0. Trong nhiều trường hợp, việc giải phương trình đạo hàm bằng 0 là không khả thi do đạo hàm có phương trình phức tạp.
- Vì thế, ý tưởng ở đây là ta sẽ xuất phát từ một điểm gần với nghiệm (đạo hàm) của bài toán, sau đó dùng một phép toán lặp để tiến gần đến điểm cần tìm, tức là khi đạo hàm gần bằng 0. (như vậy, thay vì giải phương trình đạo hàm bằng 0, ta chỉ cần tính giá trị của đạo hàm tại một điểm nào đó khi mà phương trình của đạo hàm đã biết, đơn giản hơn rất nhiều). 
- Ban đầu, chọn một điểm x0 làm điểm xấp xỉ ban đầu. Ta cần tìm một thuật toán đưa x0 về nghiệm x* càng nhanh càng tốt. 
- Qua tìm hiểu, chúng ta cần di chuyển điểm x_i ngược dấu với đạo hàm. Và phải xác định được learning rate cho phù hợp với ngữ cảnh của bài toán đang thực hiện. 

# Ý tưởng thuật toán lặp: 
- Thuật toán sẽ dừng lại khi đó có đạo hàm có độ lớn đủ nhỏ (đạo hàm đủ gần 0).\
=> điều kiện dừng của vòng lặp: df(x_i) < epsilon. 
- Điều kiện kết thúc vòng lặp là giá trị của đạo hàm tại điểm x mới nhất nhỏ hơn một giá trị epsilon cho trước. 
- Tạo một mảng x lưu các giá trị xấp xỉ x_i, tại mỗi vòng lặp lấy giá trị x gần nhất (x[-1]) để tính giá trị x_i tiếp theo. 
- **Câu hỏi: Làm sao để tích hợp cả hai phương pháp vào làm một thuật toán??** (do có 3 trường hợp, và trường hợp bước nhảy quá lớn, các điểm sẽ đu đưa qua lại điểm cực trị địa phương) Có thể đặt một biến sign để chỉ dấu của đạo hàm. 
- 

# Thực hiện thuật toán: 
- INPUT: x0, eta (learning rate), epsilon, số vòng lặp N.  
- OUTPUT: x\*, iter (số vòng lặp), f(x\*), df(x\*) (xem có gần 0 hay không). 


- Bước 1: Khởi tạo mảng x lưu các giá trị xấp xỉ theo từng vòng lặp, ban đầu x = x[x0] (chỉ chứa phần tử x0 ban đầu). 
- Bước 2: for i = 1 to N: 
              x_new = x[-1] - eta x (giá trị đạo hàm của x[-1]) 
              thêm x_new vào mảng x 
              
              if |giá trị đạo hàm của x_new| < epsilon: 
                  trả về giá trị (x_new, i, df(x_new), f(x_new))
                  thoát khỏi vòng lặp 
              

## Thuật toán của anh Tiệp:  
- Anh dùng một vòng lặp for để giới hạn số lần lặp, trong khi vẫn set giá trị của epsilon. (mình thì để số vòng lặp tự do, khi nào thỏa mãn epsilon thì thôi). 
- Ví dụ ở đây là hàm x^2 + 5sin(x).  

# Cài đặt chương trình: 

In [38]:
import numpy as np
from decimal import * 

### Hàm tính giá trị của f(x): 

In [55]:
def f1(x): 
    return x**2 + 5*np.sin(x)

### Hàm tính giá trị của đạo hàm f'(x): 

In [56]:
def df1(x): 
    return 2*x + 5*np.cos(x)

### Hàm thực thi chính (phiên bản giới hạn số vòng lặp) : 

In [59]:
def minGraDes(eta, x0, eps): 
    # lưu giá trị của các x_i vào một mảng. mỗi vòng lặp thực hiện giá trị x_i mới nhất (phần tử x[-1])
    x = [x0]
    
    # ta đặt số vòng lặp tối đa là 100. 
    for iter in range(100): 
        x_new = x[-1] - eta*df1(x[-1])
        x.append(x_new)
        
        # xét điều kiện dừng vòng lặp, giá trị đạo hàm của x_new có đủ gần 0 hay không: 
        if np.abs(df1(x_new)) < eps: 
            break 
    
    return (x, iter)

### Thực hiện chương trình: 

In [60]:
(x1, iter1) = minGraDes(0.1, -5, 1e-10)
(x2, iter2) = minGraDes(0.1, 5, 1e-10)

print("Nghiệm x1 = %.15f, f(x) = %.15f, df(x) = %.15f, thu được sau %d vòng lặp." %(x1[-1], f(x1[-1]), df(x1[-1]), iter1))
print("Nghiệm x2 = %.15f, f(x) = %.15f, df(x) = %.15f, thu được sau %d vòng lặp." %(x2[-1], f(x2[-1]), df(x2[-1]), iter2))

Nghiệm x1 = -1.110510503589805, f(x) = -3.246394272691539, df(x) = -0.000000000056326, thu được sau 26 vòng lặp.
Nghiệm x2 = -1.110510503571682, f(x) = -3.246394272691539, df(x) = 0.000000000061102, thu được sau 44 vòng lặp.


### Vẽ hình động biểu diễn: 

# Thuật toán Gradient Descent tìm giá trị lớn nhất 

- Chỉ cần đổi dấu trừ trong công thức lặp ở trên thành dấu cộng là ok. Còn lại thực hiện tương tự. 

In [61]:
def f(x): 
    return x**2 + 5*np.sin(x)**2 + 3*np.cos(x)

In [62]:
def df(x): 
    return 2*x + 10*np.sin(2*x) - 3*np.sin(x)

In [73]:
def maxGraDes(eta, x0, eps): 
    # lưu giá trị của các x_i vào một mảng. mỗi vòng lặp thực hiện giá trị x_i mới nhất (phần tử x[-1])
    x = [x0]
    
    # ta đặt số vòng lặp tối đa là 100. 
    for iter in range(1, 101): 
        x_new = x[-1] + eta*df(x[-1])
        x.append(x_new)
        
        # xét điều kiện dừng vòng lặp, giá trị đạo hàm của x_new có đủ gần 0 hay không: 
        if np.abs(df(x_new)) < eps: 
            break 
    
    return (x, iter)

- Khoảng phân ly là (0, 2.2)

In [80]:
(x1, iter1) = maxGraDes(0.1, 2.1, 1e-6)
(x2, iter2) = maxGraDes(0.1, 0.2, 1e-6)

print("Nghiệm x1 = %.15f, f(x) = %.15f, df(x) = %.15f, thu được sau %d vòng lặp." %(x1[-1], f(x1[-1]), df(x1[-1]), iter1))
print("Nghiệm x2 = %.15f, f(x) = %.15f, df(x) = %.15f, thu được sau %d vòng lặp." %(x2[-1], f(x2[-1]), df(x2[-1]), iter2))

Nghiệm x1 = 1.578668056635520, f(x) = 7.468268073146977, df(x) = 0.000000965626004, thu được sau 67 vòng lặp.
Nghiệm x2 = 1.578668165935558, f(x) = 7.468268081750482, df(x) = -0.000000998922637, thu được sau 67 vòng lặp.


## Thuật toán max Gradient Descent sử dụng vòng lặp while (không giới hạn số vòng lặp): 

In [78]:
def maxGraDes(eta, x0, eps): 
    # biến đếm số vòng lặp 
    iter = 0 
    # lưu giá trị của các x_i vào một mảng. mỗi vòng lặp thực hiện giá trị x_i mới nhất (phần tử x[-1])
    x = [x0]

    while np.abs(df(x[-1])) >= eps: 
        x_new = x[-1] + eta*df(x[-1])
        x.append(x_new)
        iter += 1 
    
    return (x, iter)

In [1]:
(x1, iter1) = maxGraDes(0.1, 2.1, 1e-6)
(x2, iter2) = maxGraDes(0.1, 0.2, 1e-6)

print("Nghiệm x1 = %.15f, f(x) = %.15f, df(x) = %.15f, thu được sau %d vòng lặp." %(x1[-1], f(x1[-1]), df(x1[-1]), iter1))
print("Nghiệm x2 = %.15f, f(x) = %.15f, df(x) = %.15f, thu được sau %d vòng lặp." %(x2[-1], f(x2[-1]), df(x2[-1]), iter2))

NameError: name 'maxGraDes' is not defined

# Thuyết trình 

- Tìm nhiều điểm cực trị trong một khoảng đóng [a, b]?? Lưu vào một mảng chung các hệ số lặp x_i. 
- Khó khăn là điểm khởi tạo (không phải là khoảng cách), mà là vị trị của điểm dựa vào dáng điệu của đạo hàm. 