# **Data Frame trong R**
Trong R, data frame là cấu trúc dữ liệu dùng để lưu trữ bảng dữ liệu dạng hàng và cột, mỗi cột có thể là một kiểu dữ liệu khác nhau (numeric, character, factor…). Nó tương tự như bảng trong Excel hoặc SQL.

Ví dụ tạo 1 DataFrame

In [1]:
# Tạo data frame từ các vector
id <- c(1, 2, 3)
name <- c("A", "B", "C")
age <- c(25, 30, 22)

df <- data.frame(ID = id, Name = name, Age = age)
print(df)

  ID Name Age
1  1    A  25
2  2    B  30
3  3    C  22


Cú pháp của Dataframe là 
```r
data.frame(...)
```

Chính vì thế nên có thể truyền nhiều tham số với tên khác nhau, không nhất thiết phải đặt giống như trong ví dụ.

---

### Truy cập dữ liệu với DataFrame

Để truy cập dữ liệu trong DataFrame ta thực hiện 1 số cách như sau:
* Sử dụng `$<col>` hoặc `df[ , "<col>"]` để lấy một cột cụ thể (với `<col>` là tên cột đó)

In [2]:
print(df$Name)
print(df[ , "Age"])

[1] "A" "B" "C"
[1] 25 30 22


* Sử dụng `df[<row>, ]` để lấy hàng cụ thể (với `<row>` là hàng tương ứng)

In [3]:
print(df[1, ])

  ID Name Age
1  1    A  25


* Sử dụng kết hợp để lấy giá trị tại 1 ô cụ thể: `df[<row>, "<col>"]` (với `<col>` là tên cột đó và `<row>` là hàng tương ứng)

In [4]:
print(df[1, "Name"])

[1] "A"


* Một vài cách hiển thị khác với 
    * `View(df)` - Lưu ý chữ **V** Là viết hoa: Hiển thị toàn bộ DataFrame trong 1 task mới (Áp dụng cho R Studio)
    * `head(x=df, n=3)`: Lấy ra `n` hàng đầu tiên của DataFrame `x`
    * `tail(x=df, n=2)`: Lấy ra `n` hàng cuối cùng của DataFrame `x`

In [5]:
View(df)
head(df, 3)
tail(df, 2)

ID,Name,Age
<dbl>,<chr>,<dbl>
1,A,25
2,B,30
3,C,22


Unnamed: 0_level_0,ID,Name,Age
Unnamed: 0_level_1,<dbl>,<chr>,<dbl>
1,1,A,25
2,2,B,30
3,3,C,22


Unnamed: 0_level_0,ID,Name,Age
Unnamed: 0_level_1,<dbl>,<chr>,<dbl>
2,2,B,30
3,3,C,22


* Thêm cột `df$<col> <- <vector` Trong đó:
    * `<col>` là tên cột mới
    * `<vector>` là giá trị của các cột mới. Lưu ý số lượng phần tử phải bằng với số hàng

In [6]:
df$Salary <- c(5000, 6000, 4500)
print(df)

  ID Name Age Salary
1  1    A  25   5000
2  2    B  30   6000
3  3    C  22   4500


* Xóa cột `df$<col> <- NULL` Trong đó:
    * `<col>` là tên cột muốn xóa

In [7]:
df$Age <- NULL
print(df)

  ID Name Salary
1  1    A   5000
2  2    B   6000
3  3    C   4500


* Thêm một hàng
```r
rbind <- data.frame(...)
df <- rbind(df, new_row)
```
Trong đó:
* ... là các giá trị tương ứng với từng cột của hàng mới. Lưu ý cần nhập đầy đủ các giá trị và cần nhập như khi tạo 1 DataFrame mới
* df là DataFrame gốc mà bạn muốn thêm hàng mới

In [8]:
new_row <- data.frame(ID=4, Name="C", Salary=10)
df <- rbind(df, new_row)
print(df)

  ID Name Salary
1  1    A   5000
2  2    B   6000
3  3    C   4500
4  4    C     10


# **Nhập xuất dữ liệu**

Trong R có rất nhiều hàm giúp chúng ta đọc dữ liệu từ file hoặc packages. Dưới đây là một số hàm phổ biến
* Nhập trực tiếp dùng hàm `c()` hoặc `rep()`
* Đọc file .csv bằng hàm `read.csv()`
* Đọc file .xlsx bằng hàm `read_excel()` trong gói lệnh `readxl`
* Đọc dữ liệu từ packages bằng hàm `data()`

Để cài đặt gói lệnh ta sử dụng cú pháp: 
```r
install.packages("<package_name>")
```
Lưu ý `<package_names>` được đặt trong dấu **""**

Sau đó ta nạp package trước khi sử dụng
```r
library(readxl)
```

Ví dụ: 

In [9]:
install.packages("readxl")
library(readxl)

Installing package into 'C:/Users/Hoang Tu/AppData/Local/R/win-library/4.5'
(as 'lib' is unspecified)



package 'readxl' successfully unpacked and MD5 sums checked


"cannot remove prior installation of package 'readxl'"
"problem copying C:\Users\Hoang Tu\AppData\Local\R\win-library\4.5\00LOCK\readxl\libs\x64\readxl.dll to C:\Users\Hoang Tu\AppData\Local\R\win-library\4.5\readxl\libs\x64\readxl.dll: Permission denied"
"restored 'readxl'"



The downloaded binary packages are in
	C:\Users\Hoang Tu\AppData\Local\Temp\Rtmp2PbGpL\downloaded_packages


* Nhập dữ liệu trực tiếp

In [10]:
age <- c(50, 62, 60, 40, 48, 47, 57, 70, 48)
insulin <- c(16.5, 10.8, 32.3, 19.3, 14.2, 11.3, 15.5, 15.8, 16.2)
data <- data.frame(age,insulin)
print(data)

  age insulin
1  50    16.5
2  62    10.8
3  60    32.3
4  40    19.3
5  48    14.2
6  47    11.3
7  57    15.5
8  70    15.8
9  48    16.2


Lưu ý: Bạn cần set thư mục hiện tại dể làm việc với `setwd`
```r
setwd("Path/to/your/folder")
```
Ví dụ

In [11]:
setwd("C:\\HoangTu\\Programing\\University\\NMPTDL")

* Đọc dữ liệu từ file “.csv”
```r
read.csv("Path/to/your/csv/file", header = TRUE)
```

In [12]:
data <- read.csv("Data/Product.csv", header = TRUE,encoding ="utf8")
head(data)

Unnamed: 0_level_0,OrderDate,Region,City,Category,Product,Quantity,UnitPrice,TotalPrice
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<int>,<dbl>,<dbl>
1,1/1/2020,East,Boston,Bars,Carrot,33,1.77,58.41
2,4/1/2020,East,Boston,Crackers,Whole Wheat,87,3.49,303.63
3,7/1/2020,West,Los Angeles,Cookies,Chocolate Chip,58,1.87,108.46
4,10/1/2020,East,New York,Cookies,Chocolate Chip,82,1.87,153.34
5,13/1/2020,East,Boston,Cookies,Arrowroot,38,2.18,82.84
6,16/1/2020,East,Boston,Bars,Carrot,54,1.77,95.58


* Đọc dữ liệu từ file ".xlsx" (File excel)
```r
library(readxl)
data = read_excel("Path\\to\\your\\xlsx\\file")
```

In [13]:
library(readxl)
data = read_excel("Data/WHO1.xlsx")
head(data, 5)

Country,Region (Khuvuc),Population (Danso),Under15,Over60,FertilityRate (Tylesinhsan),LifeExpectancy (Tuoitho),ChildMortality (Tiletuvongotreem),LiteracyRate (Tylebietdocviet),GNI (Thunhapquocdan)
<chr>,<chr>,<dbl>,<chr>,<chr>,<chr>,<dbl>,<chr>,<chr>,<dbl>
Afghanistan,Eastern Mediterranean,29825,47.42,3.82,45752.0,60,98.5,,1140.0
Albania,Europe,3162,21.33,14.93,1.75,74,45854.0,,8820.0
Algeria,Africa,38482,27.42,7.17,2.83,73,20.0,,8310.0
Andorra,Europe,78,45703.0,22.86,,82,45691.0,,
Angola,Africa,20821,47.58,3.84,45663.0,51,163.5,70.1,5230.0


* Đọc dữ liệu từ packages
```r
library(<package>)
data(<Data>)
dim(<Data>)
```

Trong đó:
* `library(<package>)`: load gói chứa dữ liệu hoặc hàm cần dùng.
* `data(<Data>)`: tải dataset `<Data>` từ gói đã load vào bộ nhớ R.
* `dim(<Data>)`: hiển thị **kích thước** của dataset, gồm số **hàng** và số **cột**. - Tùy chọn nếu như muốn xem kích thước, có thể bỏ qua.


In [14]:
library(MASS)
data(Boston)
dim(Boston)
head(Boston)

Unnamed: 0_level_0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,0.00632,18,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
2,0.02731,0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
3,0.02729,0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
4,0.03237,0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
5,0.06905,0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2
6,0.02985,0,2.18,0,0.458,6.43,58.7,6.0622,3,222,18.7,394.12,5.21,28.7


Ngoài ra, R có rất nhiều hàm giúp chúng ta xuất data frame ra các định dạng tệp khác nhau:
* Ghi ra file .csv dùng hàm `write.csv()`
```r
write.csv(data, "Path/to/save/file.csv")
```

In [15]:
data <- mtcars
write.csv(data, "Data/mtcars.csv")

* Ghi ra file .xlsx dùng hàm `write_xlsx()` trong gói writexl
```r
library(writexl)
data <- mtcars
write_xlsx(data, "Path/to/save/file.xlsx")
```

Lưu ý: Cần cài đặt gói "writexl" trước khi sử dụng

In [16]:
install.packages("writexl")
library(writexl)
data <- mtcars
write_xlsx(data, "Data/mtcars.xlsx")

Installing package into 'C:/Users/Hoang Tu/AppData/Local/R/win-library/4.5'
(as 'lib' is unspecified)



package 'writexl' successfully unpacked and MD5 sums checked


"cannot remove prior installation of package 'writexl'"
"problem copying C:\Users\Hoang Tu\AppData\Local\R\win-library\4.5\00LOCK\writexl\libs\x64\writexl.dll to C:\Users\Hoang Tu\AppData\Local\R\win-library\4.5\writexl\libs\x64\writexl.dll: Permission denied"
"restored 'writexl'"



The downloaded binary packages are in
	C:\Users\Hoang Tu\AppData\Local\Temp\Rtmp2PbGpL\downloaded_packages


# **Xử lý dữ liệu**

## **Load bộ dữ liệu**

Trong suốt phần này ta sẽ sử dụng dữ liệu *"`df=`[`mtcars`](../Data/mtcars.csv)"* được lấy từ tạp chí **_Motor Trend US_** năm 1974. Trong data set này, biến "**_am_**" là kiểu hộp số được mã hóa với 2 giá trị `0` (số tự động), `1` (số điều khiển bằng tay). Chúng ta sẽ mã hóa lại biến số **_am_** thành dạng factor với tên lần lượt là "**_automatic_**" và "**_manual_**" và gán cho một biến số mới có tên là **_trans_**. Đây là một dataset có sẵn trong R nên ta có thể sử dụng trực tiếp bằng cách gọi đến biến `mtcars` hoặc thông qua file tại thư mục Data [matcars](../Data/mtcars.csv)

In [17]:
df <- mtcars
df$trans <- factor(df$am, levels = c(0, 1), labels = c("Automatic", "Manual"))
print(df$trans)

 [1] Manual    Manual    Manual    Automatic Automatic Automatic Automatic
 [8] Automatic Automatic Automatic Automatic Automatic Automatic Automatic
[15] Automatic Automatic Automatic Manual    Manual    Manual    Automatic
[22] Automatic Automatic Automatic Automatic Manual    Manual    Manual   
[29] Manual    Manual    Manual    Manual   
Levels: Automatic Manual


Giả sử chúng ta muốn rời rạc hóa dữ liệu công suất của 32 dòng ô tô thành 3 nhóm: `cao (H)`, `trung bình (M)`, `thấp (L)` và gán các giá trị này vào một biến số mới có tên "power". Sử dụng hàm `cut()`:
Trong R, đoạn lệnh:

In [18]:
df$power <- cut(df$hp, breaks=c(-Inf, 96.5, 180, Inf), labels=c("L", "M", "H"))
print(df$power)

 [1] M M L M M M H L L M M M M M H H H L L L M M M H M L L M H M H M
Levels: L M H


Trong đó:
* `df`: Data frame đang làm việc.
* `df$hp`: Cột **hp** trong data frame `df` (giả sử là horsepower).
* `cut(df$hp, ...)`: Hàm **cut** chia dữ liệu số liên tục thành các khoảng (bins).
* `breaks=c(-Inf, 96.5, 180, Inf)`: Các điểm chia khoảng.

  * `-Inf` → âm vô cùng (mọi giá trị nhỏ hơn 96.5).
  * `96.5` → điểm cắt thứ nhất.
  * `180` → điểm cắt thứ hai.
  * `Inf` → dương vô cùng (mọi giá trị lớn hơn 180).
* `labels=c("L","M","H")`: Gán nhãn cho từng khoảng.

  * `L`: nếu `hp` $\leq$ 96.5
  * `M`: nếu 96.5 $<$ `hp` $\leq$ 180
  * `H`: nếu `hp` $>$ 180
* `df$power`: Cột mới được thêm vào `df`, chứa phân loại công suất ("L", "M", "H").

## **Chuyển đổi giữa các loại vector**

Trong quá trình xử lý dữ liệu, ta thường gặp 3 loại vector: vector số, factor, vector chữ. Để chuyển đổi giữa 3 loại Để ta sử dụng các hàm sau:

* `as.factor()`: Để chuyển thành factor
* `as.character()`: Để chuyển thành vector chữ.
* `as.numeric()`: Để chuyển thành vector số.

Cú pháp chung

```r
<dataframe>$<new_var> <- as.<function>(<dataframe>$<var>)
```

Trong đó:

* `<dataframe>`: Bảng dữ liệu.
* `<var>`: Biến gốc (có thể là số hoặc chuỗi).
* `<new_var>`: Biến mới sau khi được chuyển thành factor. Nếu chỉ ép kiểu thì `<new_var>` có thể trực tiếp thành `<var>`
* `<function>`: Hàm sử dụng để biến đổi
* `as.<function>(<var>)`: Biến đổi biến `<var>`.

In [19]:
x <- c("A", "B", "A", "C")
y <- as.factor(x)
print(x)
print(y)

[1] "A" "B" "A" "C"
[1] A B A C
Levels: A B C


In [20]:
x <- c(1, 2, 3, 4, 5)
y <- as.character(x)
print(x)
print(y)

[1] 1 2 3 4 5
[1] "1" "2" "3" "4" "5"


In [21]:
x <- c("1", "2", "3", "4", "5")
y <- as.numeric(x)
print(x)
print(y)

[1] "1" "2" "3" "4" "5"
[1] 1 2 3 4 5


# **Thao tác với dữ liệu**

## **Lọc dữ liệu**

Trong quá trình xử lý dữ liệu, đôi khi ta cần lọc data frame dựa trên các điều kiện nhất định để từ đó thực hiện các tính toán cần thiết Để lọc dữ liệu trong R, ta sử dụng dấu ngoặc vuông tương tự như khi truy vấn với `Matrix`. điểm khác biệt ở chỗ, `DataFrame` là tổng hợp và kết hợp giữa `List` và `Matrix` nên có thể sử dụng cách truy vấn của cả 2 mà không gặp vấn đề gì:

In [22]:
df <- mtcars
head(df, 5)

Unnamed: 0_level_0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,0,0,3,2


In [23]:
data1 <- df[3, ]
View(data1)

Unnamed: 0_level_0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1


In [24]:
data2 <- df[, 3]
print(data2)

 [1] 160.0 160.0 108.0 258.0 360.0 225.0 360.0 146.7 140.8 167.6 167.6 275.8
[13] 275.8 275.8 472.0 460.0 440.0  78.7  75.7  71.1 120.1 318.0 304.0 350.0
[25] 400.0  79.0 120.3  95.1 351.0 145.0 301.0 121.0


In [25]:
data3 <- df$disp
print(data3)

 [1] 160.0 160.0 108.0 258.0 360.0 225.0 360.0 146.7 140.8 167.6 167.6 275.8
[13] 275.8 275.8 472.0 460.0 440.0  78.7  75.7  71.1 120.1 318.0 304.0 350.0
[25] 400.0  79.0 120.3  95.1 351.0 145.0 301.0 121.0


In [26]:
data4 <- df[c(1, 2, 3), c(4, 5, 6)]
View(data4)

Unnamed: 0_level_0,hp,drat,wt
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
Mazda RX4,110,3.9,2.62
Mazda RX4 Wag,110,3.9,2.875
Datsun 710,93,3.85,2.32


In [27]:
manual <- df[df$am == 1, ]
print(manual)

                mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4      21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710     22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Ford Pantera L 15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino   19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora  15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E     21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2


In [28]:
manual2 <- df[df$am == 1 & df$wt > 2, ]
print(manual2)

                mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4      21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710     22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Ford Pantera L 15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino   19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora  15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E     21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2


## **Ghép dữ liệu**

Trong R, đôi khi ta có hai bảng dữ liệu khác nhau nhưng lại có một phần thông tin liên quan đến nhau. Ví dụ:

* Một bảng lưu danh sách sinh viên cùng với **mã số sinh viên** và **tên**.
* Một bảng khác lưu thông tin về **mã số sinh viên** và **điểm số**.

Nếu chỉ nhìn từng bảng riêng lẻ thì thông tin chưa đầy đủ. Ta muốn có một bảng chung vừa có **tên sinh viên**, vừa có **điểm số**.

Khi đó, hàm `merge()` trong R giúp chúng ta **ghép hai bảng** lại dựa trên cột chung (ở ví dụ trên là **mã số sinh viên**). Sau khi ghép, ta sẽ có một bảng lớn hơn, đầy đủ thông tin hơn để dễ dàng phân tích hoặc sử dụng tiếp.

Nói đơn giản: **Bạn có hai bảng có một cột chung. Khi ghép, những dòng có cùng giá trị ở cột đó sẽ được nối thông tin lại với nhau.**

Cú pháp

```r
merge(bảng1, bảng2, by.x = "row11", by.y = "row21")
```

**Giải thích:**

Bạn có hai bảng dữ liệu:

* Bảng 1 có một cột tên **row11**.
* Bảng 2 có một cột tên **row21**.

Trong hai cột này có những giá trị giống nhau, ví dụ cùng chứa `"a"`, `"b"`, `"c"`.

Khi ghép bằng công thức trên, việc xảy ra là:

* Tìm những giá trị **trùng nhau** giữa **row11** (bảng 1) và **row21** (bảng 2).
* Với mỗi giá trị trùng, gộp toàn bộ thông tin ở hai bảng thành **một dòng mới** trong bảng kết quả.

---

**Ví dụ:**

* Trong bảng 1: `"a"` đi kèm `"d"`.
* Trong bảng 2: `"a"` đi kèm `"Hello"`.

Ghép lại thành:
`("a", "d", "Hello")`.

Tương tự cho `"b"` và `"c"`.

In [29]:
df1 <- data.frame(row11 = c("a", "b", "c"), row12 = c("d", "e", "f"))
df2 <- data.frame(row21 = c("a", "b", "c"), row22 = c("Hello", "Grizmo", "HTT"))

df <- merge(df1, df2, by.x = "row11", by.y = "row21")
print(df)

  row11 row12  row22
1     a     d  Hello
2     b     e Grizmo
3     c     f    HTT


# **Xử lý dữ liệu bị thiếu**

## **Xóa bỏ dữ liệu bị thiếu**
Để xóa bỏ các hàng dữ liệu bị thiếu, chúng ta sử dụng hàm `na.omit(data)`

Trong đó: `data` là biến chứa Dataframe chứa các dữ liệu bị thiếu

In [30]:
data <- read.csv("Data/melb_data.csv")
print(dim(data))

data2 <- na.omit(data)
print(dim(data2))

[1] 13580    21
[1] 6830   21


## **Thay thế dữ liệu định lượng bị thiếu**

Để thống kê số lượng ô bị thiếu dữ liệu ở từng cột, chúng ta sử dụng hàm `is.na()` và hàm `colSums()`.

**1. `is.na(df)`**

* Hàm `is.na()` kiểm tra từng ô trong bảng dữ liệu.
* Nếu ô bị thiếu (`NA`) → trả về `TRUE`.
* Nếu ô có dữ liệu → trả về `FALSE`.

Ví dụ:

In [31]:
df <- data.frame(
  Name = c("A", "B", NA, "D"),
  Score = c(10, NA, 8, NA)
)

print(is.na(df)) # Kết quả sẽ là một bảng logic (TRUE/FALSE):

      Name Score
[1,] FALSE FALSE
[2,] FALSE  TRUE
[3,]  TRUE FALSE
[4,] FALSE  TRUE


**2. `colSums()`**

* Hàm `colSums()` dùng để tính tổng giá trị theo từng cột trong bảng.
* Thường áp dụng với dữ liệu số.

Ví dụ:


In [32]:
print(m <- matrix(c(1, 0, 1, 0, 1, 1), nrow = 3))
print(m)

     [,1] [,2]
[1,]    1    0
[2,]    0    1
[3,]    1    1
     [,1] [,2]
[1,]    1    0
[2,]    0    1
[3,]    1    1


Nếu ta dùng:

In [33]:
res <- colSums(m)
print(res)

[1] 2 2


→ Mỗi cột cộng tất cả giá trị trong cột đó lại.

**3. Kết hợp `colSums(is.na(df))`**

* `is.na(df)` tạo bảng `TRUE/FALSE`.
* Trong R: `TRUE = 1`, `FALSE = 0`.
* `colSums()` cộng số `1` trong mỗi cột → ra số lượng ô bị thiếu dữ liệu.

Ví dụ:

In [34]:
data <- read.csv("Data/melb_data.csv")
print(dim(data))
print(colSums(is.na(data)))

[1] 13580    21
       Suburb       Address         Rooms          Type         Price 
            0             0             0             0             0 
       Method       SellerG          Date      Distance      Postcode 
            0             0             0             0             0 
     Bedroom2      Bathroom           Car      Landsize  BuildingArea 
            0             0            62             0          6450 
    YearBuilt   CouncilArea     Lattitude    Longtitude    Regionname 
         5375             0             0             0             0 
Propertycount 
            0 


## **Thay thế dữ liệu định lượng bị thiếu**

Để thay thế dữ liệu định lượng bị thiếu bằng các giá trị khác (ví dụ: giá trị trung bình), ta sử dụng các hàm của R để làm việc này.

## **Thay thế dữ liệu định lượng bị thiếu**

```r
<data>$<col>[is.na(<data>$<col>)] <- mean(<data>$<col>, na.rm = TRUE)
```

Trong đó:

* `<data>`: bảng dữ liệu.
* `<col>`: tên cột cần xử lý.
* `is.na(data$<col>)`: xác định vị trí các ô bị thiếu (NA) trong cột.
* `na.rm = TRUE`: bỏ qua NA trong bảng dữ liệu.
* `<-`: gán giá trị trung bình vào các ô bị thiếu.


Lưu ý, ta có thể thay thế giá trị khác nhau: Như tạo với dữ liệu là phân bố chuẩn, ngẫu nhiên hoặc đơn giản hơn là thay thế với một giá trị số chung cho toàn thể:
```r
data$<col>[is.na(data$<col>)] <- <giá trị_số>
```

In [35]:
data <- read.csv("Data/melb_data.csv")
print(dim(data))
print(colSums(is.na(data)))

print(data[is.na(data$BuildingArea), ]$BuildingArea <-
        mean(data$BuildingArea, na.rm = TRUE))

print(colSums(is.na(data)))

[1] 13580    21
       Suburb       Address         Rooms          Type         Price 
            0             0             0             0             0 
       Method       SellerG          Date      Distance      Postcode 
            0             0             0             0             0 
     Bedroom2      Bathroom           Car      Landsize  BuildingArea 
            0             0            62             0          6450 
    YearBuilt   CouncilArea     Lattitude    Longtitude    Regionname 
         5375             0             0             0             0 
Propertycount 
            0 
[1] 151.9676
       Suburb       Address         Rooms          Type         Price 
            0             0             0             0             0 
       Method       SellerG          Date      Distance      Postcode 
            0             0             0             0             0 
     Bedroom2      Bathroom           Car      Landsize  BuildingArea 
            0     

In [36]:
data <- read.csv("Data/melb_data.csv")
print(dim(data))
print(colSums(is.na(data)))

print(data[is.na(data$YearBuilt), ]$YearBuilt <- 2000)

print(colSums(is.na(data)))

[1] 13580    21
       Suburb       Address         Rooms          Type         Price 
            0             0             0             0             0 
       Method       SellerG          Date      Distance      Postcode 
            0             0             0             0             0 
     Bedroom2      Bathroom           Car      Landsize  BuildingArea 
            0             0            62             0          6450 
    YearBuilt   CouncilArea     Lattitude    Longtitude    Regionname 
         5375             0             0             0             0 
Propertycount 
            0 
[1] 2000
       Suburb       Address         Rooms          Type         Price 
            0             0             0             0             0 
       Method       SellerG          Date      Distance      Postcode 
            0             0             0             0             0 
     Bedroom2      Bathroom           Car      Landsize  BuildingArea 
            0         

# **Họ hàm `apply`**

Trong R, ngoài việc sử dung vòng for để thực hiện thao tác lặp, ta còn có thể sử dụng các hàm `apply()`, `lapply()` , `sapply()` Ưu điểm lớn nhất của các hàm này so với sử dụng vòng lặp `for` là giúp code trở nên ngắn gọn hơn.

## **Hàm `apply()`**

Hàm apply() có cấu trúc như sau:
```r
apply(X, MARGIN, FUN)
```

Trong đó:
* `X` là một vector hoặc matrix
* `MARGIN`: Nếu `MARGIN = 1` thì hàm sẽ áp dụng với từng hàng, `MARGIN = 2` thì sẽ áp dụng hàm với từng cột.
* `FUN`: tên của hàm mà ta muốn áp dụng, có thể tự định nghĩa.

In [37]:
sample_matrix <- matrix(1:10, nrow = 3, ncol = 10)
print(sample_matrix)
print("sum across rows:")
print(apply(sample_matrix, 1, sum))

     [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    4    7   10    3    6    9    2    5     8
[2,]    2    5    8    1    4    7   10    3    6     9
[3,]    3    6    9    2    5    8    1    4    7    10
[1] "sum across rows:"
[1] 55 55 55


## **Hàm `lapply()`**

```r
lapply(X, FUN)
```

Với các tham số tương tự như hàm `apply()`

Lưu ý rằng hàm `lapply()` luôn trả về kết quả là 1 `list`.

In [38]:
names <- c("priyank", "abhiraj", "pawananjani", "sudhanshu", "devraj")
# apply lapply() function
print("data after lapply():")
print(lapply(names, toupper))

[1] "data after lapply():"
[[1]]
[1] "PRIYANK"

[[2]]
[1] "ABHIRAJ"

[[3]]
[1] "PAWANANJANI"

[[4]]
[1] "SUDHANSHU"

[[5]]
[1] "DEVRAJ"



> Hàm `toupper(text)` có tác dụng là biến tất cả các ký tự chữ thành in hoa.

## **Hàm `sapply()`**
Hàm `sapply()` có cấu trúc như sau:
```r
sapply(X, FUN)
```

Với các tham số tương tự như hàm `lapply()`. Điểm khác biệt của hàm trên so với hàm `lapply()` là hàm trả về `vector` hoặc `matrix`.

In [39]:
x <- c(1, 2, 3, 4, 5, 6)
y <- c(3, 2, 4, 2, 34, 5)
sample_data <- data.frame(x, y)

print(sample_data)
print("data after sapply():")
print(sapply(sample_data, max))
print(sapply(sample_data, function(data) { return(max(data) - 2 * min(data))}))

  x  y
1 1  3
2 2  2
3 3  4
4 4  2
5 5 34
6 6  5
[1] "data after sapply():"
 x  y 
 6 34 
 x  y 
 4 30 
