# **Hàm và cách sử dụng hàm trong R**

## **Hàm tự định nghĩa**

Trong R, hàm là một tập hợp các câu lệnh được sắp xếp để thực hiện 1 công việc cụ thể. Trong thư viện chuẩn của R đã có sẵn rất nhiều hàm thông dụng trong tính toán xác suất thống kê. Các hàm trong R có cấu trúc như sau:

```r
<function_name> <- function(arg1, arg2 = <default>, ...) {
    <các câu lệnh>
    return(<kết quả>)
}
```

Trong đó:

* `<function_name>`: tên hàm do người dùng đặt.
* `arg1`: tham số **bắt buộc** – khi gọi hàm phải truyền giá trị.
* `arg2`: tham số **tùy chọn** – có giá trị mặc định, nếu không truyền thì dùng giá trị này.
* `<các câu lệnh>`: phần thân hàm để xử lý.
* `return(<kết quả>)`: giá trị trả về (nếu không viết `return`, R mặc định trả về kết quả của dòng cuối cùng).

Để gọi hàm trong R, ta làm như sau:
```
<function_name>(<args>)
```

Nếu cần lưu kết quả của hàm

```
result <- <function_name>(<args>)
```

Trong đó <function_name> là tên của hàm mà ta muốn gọi, sau đó ta truyền các tham số vào phần <args> , theo 3 cách:
* Truyền tham số theo tên: Ta thực hiện như sau:
```
<function_name>(<arg> = <value>, ...)
```
* Truyền tham số theo vị trí: Ta thực hiện như sau:

```
<function_name>(<value1>, <value2>, ...)
```

Sử dụng cả hai cách truyền tham số. Ta hoàn toàn có thể truyền tham số theo cả hai cách trên khi gọi hàm. Ví dụ:
```
<function_name>(<value1>, <argument_n> = <value2>,...)
```


* Ví dụ 1: Hàm tính tổng hai số

In [1]:
tong_hai_so <- function(a, b = 10) {
    kq <- a + b
    return(kq)
}

# Gọi hàm với cả hai tham số
print(tong_hai_so(5, 20))   # Kết quả: 25

# Gọi hàm chỉ với tham số bắt buộc
print(tong_hai_so(5))       # Kết quả: 15 (vì b mặc định = 10)

[1] 25
[1] 15



---

* *Ví dụ 2: Hàm không cần `return()`

In [2]:
binh_phuong <- function(x) {
    x ^ 2
}

binh_phuong(4) # 16

lap_phuong <- function(x) {
    2 ^ 3
    x ^ 3
}

lap_phuong(4) # 64

Trong R, hàm sẽ trả về giá trị của biểu thức cuối cùng trong thân hàm nếu không dùng `return()`.


---

## **Truyền nhiều tham số trong hàm**

Hàm trong R có thể nhận số lượng tham số không xác định thông qua `...`.

Ví dụ:

In [3]:
tong_nhieu_so <- function(...) {
    so <- c(...)
    print(sum(so))
}

tong_nhieu_so(1, 2, 3, 4, 5)   # Kết quả: 15

[1] 15



---

## **Hàm có sẵn trong R**

### Một số hàm toán học
Trong R có một số hàm toán học cơ bản sau:

* **`abs(x)`**: Trả về giá trị tuyệt đối của $x$.
* **`sqrt(x)`**: Trả về căn bậc hai của $x$ (x ≥ 0).
* **`sin(x)`**: Tính giá trị sin của $x$ (theo radian).
* **`cos(x)`**: Tính giá trị cos của $x$ (theo radian).
* **`tan(x)`**: Tính giá trị tan của $x$ (theo radian).
* **`log(x)`**: Logarit tự nhiên (cơ số $e$) của $x$.
* **`log(x, base)`**: Logarit của $x$ theo cơ số chỉ định.
* **`log10(x)`**: Logarit cơ số 10 của $x$.
* **`exp(x)`**: Tính $e^x$.
* **`round(x)`**: Làm tròn số $x$ đến số nguyên gần nhất (có thể kèm số chữ số thập phân).

In [4]:
print(paste("abs(-5) =", abs(-5)))
print(paste("sqrt(4) =", sqrt(4)))
print(paste("exp(1) =", exp(1)))
print(paste("log(exp(1)) =", log(exp(1))))
print(paste("log(4, 2) =", log(4, 2)))
print(paste("log10(100) =", log10(100)))
print(paste("round(5.5) =", round(5.5)))
print(paste("sin(0) =", sin(0)))
print(paste("cos(2*pi) =", cos(2 * pi)))
print(paste("tan(pi/4) =", tan(pi / 4)))

[1] "abs(-5) = 5"
[1] "sqrt(4) = 2"
[1] "exp(1) = 2.71828182845905"
[1] "log(exp(1)) = 1"
[1] "log(4, 2) = 2"
[1] "log10(100) = 2"
[1] "round(5.5) = 6"
[1] "sin(0) = 0"
[1] "cos(2*pi) = 1"
[1] "tan(pi/4) = 1"


### Một số hàm tính toán ma trận

Trong R có một số hàm tính toán ma trận sau

In [5]:
mat_a <- matrix(c(2, 1, 3, 4), nrow=2)
print(mat_a)

     [,1] [,2]
[1,]    2    3
[2,]    1    4


* Nhân ma trận, dùng toán tử `%*%`

In [6]:
print(mat_a %*% mat_a)

     [,1] [,2]
[1,]    7   18
[2,]    6   19


* Chuyển vị ma trận, dùng hàm `t()`

In [7]:
print(t(mat_a))

     [,1] [,2]
[1,]    2    1
[2,]    3    4


* Tính định thức, dùng hàm `det()`

In [8]:
print(det(mat_a))

[1] 5


* Tính ma trận nghịch đảo, dùng hàm `solve()`

In [9]:
print(solve(mat_a))

     [,1] [,2]
[1,]  0.8 -0.6
[2,] -0.2  0.4


* Tính giá trị riêng (eigen values) và vector riêng (eigen vectors)

In [10]:
eig <- eigen(mat_a)
print(eig$values)    # Giá trị riêng

print(eig$vectors)   # Vector riêng (cột tương ứng với giá trị riêng)

[1] 5 1
           [,1]       [,2]
[1,] -0.7071068 -0.9486833
[2,] -0.7071068  0.3162278


## **Một số hàm tính toán thống kê mô tả:**

### Một số khái niệm trong thống kê mô tả

#### **Mean (Trung bình cộng)**

* **Khái niệm**: Giá trị trung tâm, bằng tổng các giá trị chia cho số lượng phần tử.
* **Công thức**:

$$
\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i
$$

Trong đó $x_i$ là giá trị quan sát, $n$ là số quan sát.

---

#### **Median (Trung vị)**

* **Khái niệm**: Giá trị đứng giữa dãy số khi sắp xếp theo thứ tự tăng/giảm.
* Nếu số lượng phần tử $n$ **lẻ** → Median là giá trị ở vị trí $\frac{n+1}{2}$.
* Nếu $n$ **chẵn** → Median là trung bình cộng của hai giá trị ở vị trí $\frac{n}{2}$ và $\frac{n}{2}+1$.

---

#### **Variance (Phương sai, var)**

* **Khái niệm**: Đo mức độ phân tán của dữ liệu quanh trung bình.
* **Công thức mẫu (sample variance)**:

$$
s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2
$$

* **Công thức tổng thể (population variance)**:

$$
\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2
$$

Trong đó:

* $\bar{x}$: trung bình mẫu
* $\mu$: trung bình tổng thể

---

#### **Standard Deviation (Độ lệch chuẩn, sd)**

* **Khái niệm**: Căn bậc hai của phương sai, giúp đo mức độ phân tán bằng cùng đơn vị với dữ liệu gốc.
* **Công thức mẫu**:

$$
s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}
$$

* **Công thức tổng thể**:

$$
\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}
$$

* Trung bình: `mean()`

In [11]:
x <- 1:10
print(x)
print(mean(x))

 [1]  1  2  3  4  5  6  7  8  9 10
[1] 5.5


* Trung vị: `median()`

In [12]:
x <- c(1, 3, 5, 5)
print(x)
print(median(x))

[1] 1 3 5 5


[1] 4


* Phương sai: `var()`

In [13]:
x <- c(1, 3, 5, 5)
print(var(x))

[1] 3.666667


* Độ lệch chuẩn: `sd()`

In [14]:
x <- 1:3
print(sd(x))

[1] 1


* Giá trị lớn nhất, nhỏ nhất: `min(), max()`

In [15]:
x <- 1:9
print(c(min(x), max(x)))

[1] 1 9


## **Một số hàm phân bố cơ bản**
Trong quá trình tính toán thống kê, đôi lúc ta cần mô phỏng một mẫu dữ liệu tuân theo một phân bố cho trước. Trong R có một số hàm giúp chúng ta làm được việc này

* Phân bố chuẩn `rnorm(n, mean, sd)` Sinh các số ngẫu nhiên từ phân phối chuẩn
    * `n`: số mẫu cần sinh
    * `mean` giá trị trung bình $\mu$(mặc định = 0)
    * `sd`: độ lệch chuẩn $\sigma$ (mặc định = 1)

In [16]:
a <- rnorm(n = 10, mean=0.5, sd=0.5)
print(a)
print(class(a))

 [1]  0.6547639 -0.4888644  0.6963304  0.6052632  1.5475329  0.1052367
 [7]  1.0186183 -0.5685210  0.2254665  0.9613130
[1] "numeric"


* Phân bố nhị thức `rbinom(n, size, prob)`: Sinh các số ngẫu nhiên từ phân phối nhị thức.
    * `n`: số mẫu cần sinh
    * `size`: số thử nghiệm trong mỗi biến nhị thức
    * `prob`: xác suất thành công

In [17]:
a <- rbinom(10, size = 20, prob = 0.3)
print(a)
print(class(a))

 [1]  7 10 10  8  5  6  8  5  6  5
[1] "integer"


* Phân bố Poisson `rpois()`: Sinh các số ngẫu nhiên từ phân phối Poisson.
    * `n`: số mẫu cần sinh
    * `lambda`: giá trị trung bình của Poisson

In [18]:
a <- rpois(5, lambda = 3)
print(a)
print(class(a))

[1] 7 3 4 1 0


[1] "integer"


* Phân bố đều `runif()`: Sinh số ngẫu nhiên từ phân phối đều trên đoạn [min, max].
    * `n`: số mẫu cần sinh
    * `min, max`: giới hạn dưới và trên

In [19]:
a <- runif(5, min = 0, max = 10)
print(a)
print(class(a))

[1] 5.0730351 7.9696829 7.7154302 4.5532095 0.8105644


[1] "numeric"


## **Một số hàm tiện ích khác**

Ngoài các hàm tính toán như trên, R còn cung cấp thêm cho chúng ta một số hàm khác như sau:

* Tính tổng và tích các phần tử trong 1 vector: `sum()` và `prod()`


In [20]:
x <- c(2, 3, 1, 5, 4)
print(sum(x))
print(prod(x))

[1] 15
[1] 120


Hàm `sum()` và `prod()` cũng có thể sử dụng với tập hợp các phần tử là các số (Không nhất thiết phải là vector)

In [21]:
print(sum(1, 2, 3, 4))
print(prod(1, 2, 3, 4, 5))

[1] 10
[1] 120


* Tính số phần tử của vector: `length()`

In [22]:
x <- c(2, 3, 1, 5, 4)
print(length(x))

[1] 5


* Sắp xếp các phần tử trong vector: `sort(x, decreasing = FALSE)` Mặc định `decreasing = FALSE` tức là mặc định sẽ là dãy không giảm (Số sau lớn hơn hoặc bằng số trước) thay đổi decreasing = TRUE để thành sắp xếp dãy không tăng (Số sau nhỏ hơn hoặc bằng số trước)

In [23]:
x <- c(4, 1, 5, 7, 2, 3, 6, 9)
print(sort(x, decreasing = FALSE))

[1] 1 2 3 4 5 6 7 9


* Tạo một dãy số liên tiếp: `seq(from, to, by)`: Tạo 1 dãy các số nguyên liên tiếp từ `from` cho tới `to`, mối số cách nhau chính xác bằng `by`

In [24]:
print(seq(1, 5))
print(seq(1, 10, ))

[1] 1 2 3 4 5
 [1]  1  2  3  4  5  6  7  8  9 10


* Tạo một dãy số lặp: `rep()`

In [25]:
rep(1:3, times = 3)
rep(1:3, times = c(1, 2, 3))