# **Data Frame trong R**
Trong R, data frame là cấu trúc dữ liệu dùng để lưu trữ bảng dữ liệu dạng hàng và cột, mỗi cột có thể là một kiểu dữ liệu khác nhau (numeric, character, factor…). Nó tương tự như bảng trong Excel hoặc SQL.

Ví dụ tạo 1 DataFrame

In [1]:
# Tạo data frame từ các vector
id <- c(1, 2, 3)
name <- c("A", "B", "C")
age <- c(25, 30, 22)

df <- data.frame(ID = id, Name = name, Age = age)
print(df)

  ID Name Age
1  1    A  25
2  2    B  30
3  3    C  22


Cú pháp của Dataframe là 
```r
data.frame(...)
```

Chính vì thế nên có thể truyền nhiều tham số với tên khác nhau, không nhất thiết phải đặt giống như trong ví dụ.

---

### Truy cập dữ liệu với DataFrame

Để truy cập dữ liệu trong DataFrame ta thực hiện 1 số cách như sau:
* Sử dụng `$<col>` hoặc `df[ , "<col>"]` để lấy một cột cụ thể (với `<col>` là tên cột đó)

In [2]:
print(df$Name)
print(df[ , "Age"])

[1] "A" "B" "C"
[1] 25 30 22


* Sử dụng `df[<row>, ]` để lấy hàng cụ thể (với `<row>` là hàng tương ứng)

In [3]:
print(df[1, ])

  ID Name Age
1  1    A  25


* Sử dụng kết hợp để lấy giá trị tại 1 ô cụ thể: `df[<row>, "<col>"]` (với `<col>` là tên cột đó và `<row>` là hàng tương ứng)

In [4]:
print(df[1, "Name"])

[1] "A"


* Một vài cách hiển thị khác với 
    * `View(df)` - Lưu ý chữ **V** Là viết hoa: Hiển thị toàn bộ DataFrame trong 1 task mới (Áp dụng cho R Studio)
    * `head(x=df, n=3)`: Lấy ra `n` hàng đầu tiên của DataFrame `x`
    * `tail(x=df, n=2)`: Lấy ra `n` hàng cuối cùng của DataFrame `x`

In [5]:
View(df)
head(df, 3)
tail(df, 2)

ID,Name,Age
<dbl>,<chr>,<dbl>
1,A,25
2,B,30
3,C,22


Unnamed: 0_level_0,ID,Name,Age
Unnamed: 0_level_1,<dbl>,<chr>,<dbl>
1,1,A,25
2,2,B,30
3,3,C,22


Unnamed: 0_level_0,ID,Name,Age
Unnamed: 0_level_1,<dbl>,<chr>,<dbl>
2,2,B,30
3,3,C,22


* Thêm cột `df$<col> <- <vector` Trong đó:
    * `<col>` là tên cột mới
    * `<vector>` là giá trị của các cột mới. Lưu ý số lượng phần tử phải bằng với số hàng

In [6]:
df$Salary <- c(5000, 6000, 4500)
print(df)

  ID Name Age Salary
1  1    A  25   5000
2  2    B  30   6000
3  3    C  22   4500


* Xóa cột `df$<col> <- NULL` Trong đó:
    * `<col>` là tên cột muốn xóa

In [7]:
df$Age <- NULL
print(df)

  ID Name Salary
1  1    A   5000
2  2    B   6000
3  3    C   4500


* Thêm một hàng
```r
rbind <- data.frame(...)
df <- rbind(df, new_row)
```
Trong đó:
* ... là các giá trị tương ứng với từng cột của hàng mới. Lưu ý cần nhập đầy đủ các giá trị và cần nhập như khi tạo 1 DataFrame mới
* df là DataFrame gốc mà bạn muốn thêm hàng mới

In [8]:
new_row <- data.frame(ID=4, Name="C", Salary=10)
df <- rbind(df, new_row)
print(df)

  ID Name Salary
1  1    A   5000
2  2    B   6000
3  3    C   4500
4  4    C     10


# **Nhập xuất dữ liệu**

Trong R có rất nhiều hàm giúp chúng ta đọc dữ liệu từ file hoặc packages. Dưới đây là một số hàm phổ biến
* Nhập trực tiếp dùng hàm `c()` hoặc `rep()`
* Đọc file .csv bằng hàm `read.csv()`
* Đọc file .xlsx bằng hàm `read_excel()` trong gói lệnh `readxl`
* Đọc dữ liệu từ packages bằng hàm `data()`

Để cài đặt gói lệnh ta sử dụng cú pháp: 
```r
install.packages("<package_name>")
```
Lưu ý `<package_names>` được đặt trong dấu **""**

Sau đó ta nạp package trước khi sử dụng
```r
library(readxl)
```

Ví dụ: 

In [9]:
install.packages("readxl")
library(readxl)

Installing package into 'C:/Users/Hoang Tu/AppData/Local/R/win-library/4.5'
(as 'lib' is unspecified)



package 'readxl' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\Hoang Tu\AppData\Local\Temp\RtmpWGnCmE\downloaded_packages


* Nhập dữ liệu trực tiếp

In [10]:
age <- c(50, 62, 60, 40, 48, 47, 57, 70, 48)
insulin <- c(16.5, 10.8, 32.3, 19.3, 14.2, 11.3, 15.5, 15.8, 16.2)
data <- data.frame(age,insulin)
print(data)

  age insulin
1  50    16.5
2  62    10.8
3  60    32.3
4  40    19.3
5  48    14.2
6  47    11.3
7  57    15.5
8  70    15.8
9  48    16.2


Lưu ý: Bạn cần set thư mục hiện tại dể làm việc với `setwd`
```r
setwd("Path/to/your/folder")
```
Ví dụ

In [11]:
setwd("C:\\HoangTu\\Programing\\University\\NMPTDL")

* Đọc dữ liệu từ file “.csv”
```r
read.csv("Path/to/your/csv/file", header = TRUE)
```

In [12]:
data <- read.csv("Data/Product.csv", header = TRUE,encoding ="utf8")
head(data)

Unnamed: 0_level_0,OrderDate,Region,City,Category,Product,Quantity,UnitPrice,TotalPrice
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<int>,<dbl>,<dbl>
1,1/1/2020,East,Boston,Bars,Carrot,33,1.77,58.41
2,4/1/2020,East,Boston,Crackers,Whole Wheat,87,3.49,303.63
3,7/1/2020,West,Los Angeles,Cookies,Chocolate Chip,58,1.87,108.46
4,10/1/2020,East,New York,Cookies,Chocolate Chip,82,1.87,153.34
5,13/1/2020,East,Boston,Cookies,Arrowroot,38,2.18,82.84
6,16/1/2020,East,Boston,Bars,Carrot,54,1.77,95.58


* Đọc dữ liệu từ file ".xlsx" (File excel)
```r
library(readxl)
data = read_excel("Path\\to\\your\\xlsx\\file")
```

In [13]:
library(readxl)
data = read_excel("Data/WHO1.xlsx")
head(data, 5)

Country,Region (Khuvuc),Population (Danso),Under15,Over60,FertilityRate (Tylesinhsan),LifeExpectancy (Tuoitho),ChildMortality (Tiletuvongotreem),LiteracyRate (Tylebietdocviet),GNI (Thunhapquocdan)
<chr>,<chr>,<dbl>,<chr>,<chr>,<chr>,<dbl>,<chr>,<chr>,<dbl>
Afghanistan,Eastern Mediterranean,29825,47.42,3.82,45752.0,60,98.5,,1140.0
Albania,Europe,3162,21.33,14.93,1.75,74,45854.0,,8820.0
Algeria,Africa,38482,27.42,7.17,2.83,73,20.0,,8310.0
Andorra,Europe,78,45703.0,22.86,,82,45691.0,,
Angola,Africa,20821,47.58,3.84,45663.0,51,163.5,70.1,5230.0


* Đọc dữ liệu từ packages
```r
library(<package>)
data(<Data>)
dim(<Data>)
```

Trong đó:
* `library(<package>)`: load gói chứa dữ liệu hoặc hàm cần dùng.
* `data(<Data>)`: tải dataset `<Data>` từ gói đã load vào bộ nhớ R.
* `dim(<Data>)`: hiển thị **kích thước** của dataset, gồm số **hàng** và số **cột**. - Tùy chọn nếu như muốn xem kích thước, có thể bỏ qua.


In [14]:
library(MASS)
data(Boston)
dim(Boston)
head(Boston)

Unnamed: 0_level_0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,0.00632,18,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
2,0.02731,0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
3,0.02729,0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
4,0.03237,0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
5,0.06905,0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2
6,0.02985,0,2.18,0,0.458,6.43,58.7,6.0622,3,222,18.7,394.12,5.21,28.7


Ngoài ra, R có rất nhiều hàm giúp chúng ta xuất data frame ra các định dạng tệp khác nhau:
* Ghi ra file .csv dùng hàm `write.csv()`
```r
write.csv(data, "Path/to/save/file.csv")
```

In [15]:
data <- mtcars
write.csv(data, "Data/mtcars.csv")

* Ghi ra file .xlsx dùng hàm `write_xlsx()` trong gói writexl
```r
library(writexl)
data <- mtcars
write_xlsx(data, "Path/to/save/file.xlsx")
```

Lưu ý: Cần cài đặt gói "writexl" trước khi sử dụng

In [16]:
install.packages("writexl")
library(writexl)
data <- mtcars
write_xlsx(data, "Data/mtcars.xlsx")

Installing package into 'C:/Users/Hoang Tu/AppData/Local/R/win-library/4.5'
(as 'lib' is unspecified)



package 'writexl' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\Hoang Tu\AppData\Local\Temp\RtmpWGnCmE\downloaded_packages
