R 語言基礎資料結構 2

以下教材部分出自 Wush Wu 所編寫之 R 語言翻轉教室

R 語言中，所有的資料都是以向量形式儲存

也就是說 R 語言的資料沒有單一的資料型態，只有長度為 1 的向量


In [1]:
# factor : string 既編碼 (類似Index?) , 用數字形式去表達
# ---

# class 函式與 mode 函式都可以用來了解某個資料向量的類別
# class 函式透露的是使用者自訂的類別
# 而 mode 函式，則透露了向量底層是以什麼方式儲存的
class("FCU")
mode("FCU")

In [2]:
class(1L)
mode(1L)

In [5]:
g <- lm(dist ~ speed, cars) 

class(g)
mode(g)

In [6]:
# 參閱 mode 的 help
# 請回答 R 內建的資料，其底層有幾種儲存型式？

list 是所謂「R 物件的向量」

這裡要特別強調「向量」的概念，因為list是有順序性的。

In [None]:
# 我們可以用 list() 函式來建立自訂的 list
my.list = list(iris = iris, cars = cars, n = 2)

# 然後以 str 函式來觀察其結構
str(my.list)

In [None]:
# 在建立的過程中，因為 iris 在前面，所以是向量中的第一個元素(element)
# 而 cars 跟在 iris 後面，所以是第二個 element。
# 我們可以利用兩個中括號 [[]] 來取出 R 物件向量中各 element 的內容，如
my.list[[3]]

In [None]:
# my.list[[3]] 的類別為何？
# my.list[2] 的類別又為何？
# 為什麼會有差異？

In [None]:
# 請嘗試以下列指令再建立一個 list
my.list2 <- <- list(iris, cars, 2)

# 請以 str 指令比較 my.list 與 my.list2 有什麼不同？

list的元素除了用位置做選取之外 (如：my.list[[3]])

也可以用名字做選取，在我們建立 my.list 時，其指令為 my.list <- list(iris = iris, cars = cars, n = 2)

這代表第一個元素的名字是 "iris"，第二個是"cars"，第三個是"n"

而和我們使用x[[3]]的方式類似，我們也可以使用 my.list[["n"]] 來選擇第三個，也就是名字是"n"的元素

而從 str 函式的暗示中，我們知道在 my.list 的第三個元素被標示為 $n

所以我們也可以利用 my.list$n 來取出名字是 "n" 的元素

In [15]:
g <- lm(dist ~ speed, cars)

# 請以 str 指令觀察 g 的結構，有什麼發現呢？
str(g)

# g 是一個線性模型，假如想要取出該模型的係數，應該要如何做？

List of 12
 $ coefficients : Named num [1:2] -17.58 3.93
  ..- attr(*, "names")= chr [1:2] "(Intercept)" "speed"
 $ residuals    : Named num [1:50] 3.85 11.85 -5.95 12.05 2.12 ...
  ..- attr(*, "names")= chr [1:50] "1" "2" "3" "4" ...
 $ effects      : Named num [1:50] -303.914 145.552 -8.115 9.885 0.194 ...
  ..- attr(*, "names")= chr [1:50] "(Intercept)" "speed" "" "" ...
 $ rank         : int 2
 $ fitted.values: Named num [1:50] -1.85 -1.85 9.95 9.95 13.88 ...
  ..- attr(*, "names")= chr [1:50] "1" "2" "3" "4" ...
 $ assign       : int [1:2] 0 1
 $ qr           :List of 5
  ..$ qr   : num [1:50, 1:2] -7.071 0.141 0.141 0.141 0.141 ...
  .. ..- attr(*, "dimnames")=List of 2
  .. .. ..$ : chr [1:50] "1" "2" "3" "4" ...
  .. .. ..$ : chr [1:2] "(Intercept)" "speed"
  .. ..- attr(*, "assign")= int [1:2] 0 1
  ..$ qraux: num [1:2] 1.14 1.27
  ..$ pivot: int [1:2] 1 2
  ..$ tol  : num 1e-07
  ..$ rank : int 2
  ..- attr(*, "class")= chr "qr"
 $ df.residual  : int 48
 $ xlevels      : Name

R 語言中，除了類別以外，長度也是 R 物件的重要屬性

In [None]:
# 執行下列指令後，可得 x 是一個長度為 5 的 numeric 向量
x <- 1:5

In [17]:
x <- 1:5

# length() 函式除了用來取得 R 物件的長度以外
# 也可以被用來指定 R 物件的長度，如
length(x) <- 10

# 請再觀察 x 的模樣
x

In [19]:
# 請指定 x 的第七個元素為 7，觀察 x 的變化

x[7] = 7
x

In [20]:
# 請指定 x 的第 13 個元素為 13，觀察 x 的變化

# length(x) <- 13

x[13] = 13
x

In [23]:
# 請嘗試將 x 中不是 NA 的元素，複製到另一個向量 x2 中

x2 = x[!is.na(x)]
x2

# They arent the same anymore :0
x[6]
x2[6]

向量是一維的元素組合

二維的元素組合就是矩陣 (matrix)

而更高維度的元素組合也就是現在很流行的所謂張量 (tensor)，而在 R 中則被稱為是 array

In [43]:
# 我們可以利用matrix這個函數來建立一個矩陣
# 舉例來說，matrix(1:18, 6, 3) 就可以建立一個 6 乘 3 的矩陣。 請同學試試看，並把這個矩陣寫入變數 m 。

m <- matrix(1:18, 6, 3)
m

# Also try this
# m <- matrix(1:18, 6, 3, byrow=TRUE)
# m

# dim(m)

0,1,2
1,7,13
2,8,14
3,9,15
4,10,16
5,11,17
6,12,18


In [34]:
# 利用 attributes(m) 看看 matrix 物件的屬性有什麼？
# 利用 class 與 mode 指令觀察 matrix 的類別與儲存型態，有什麼發現？

attributes(matrix)

class(matrix)
mode(matrix)

NULL

In [38]:
# 重要的屬性，R 都會提供內建函數來方便存取。dim() 就是可以存取矩陣維度的函數
# 請同學試試看：dim(m)

dim(m)

In [44]:
# 根據先前操弄向量長度的經驗可知，矩陣的維度應該也是可以操弄的
# 請嘗試下列指令 dim(m) <- c(3, 6)，再觀察 m 的樣貌
m <- matrix(1:18, 6, 3)
m

# Same
dim(m) <- c(3, 6)
# attr(m, "dim") <- c(3, 6)

m

0,1,2
1,7,13
2,8,14
3,9,15
4,10,16
5,11,17
6,12,18


0,1,2,3,4,5
1,4,7,10,13,16
2,5,8,11,14,17
3,6,9,12,15,18


In [45]:
# 除了 dim() 以外，還可以利用 nrow() 以及 ncol() 來取得矩陣的行數與列數
# 請參照兩者的 help 並且嘗試之

# Only for getting attribute(s)
# Cannot assign
nrow(m)
ncol(m)


In [49]:
# 除了二維矩陣 (matrix) 之外，R 與也還有更高維度的陣列 (張量)
# 我們可以直接更改 m 的維度到更高維。請同學試試看：dim(m) <- c(3, 3, 2)

dim(m) <- c(3, 3, 2)
m

# - R Studio -

# > m <- matrix(1:18, 6, 3)
# > dim(m) <- c(3, 3, 2)
# > m
# , , 1
# 
# [,1] [,2] [,3]
# [1,]    1    4    7
# [2,]    2    5    8
# [3,]    3    6    9
# 
# , , 2
# 
# [,1] [,2] [,3]
# [1,]   10   13   16
# [2,]   11   14   17
# [3,]   12   15   18
# 
# > 

ERROR: Error in parse(text = x, srcfile = src): <text>:7:7: unexpected string constant
25: > 
26: "
          ^


In [50]:
# 我們也可以用 array() 函式直接產生高維陣列 (張量)，如
array(1:18, dim = c(3,3,2))

# > t = array(1:18, dim = c(3,3,2))
# > t
# , , 1
# 
# [,1] [,2] [,3]
# [1,]    1    4    7
# [2,]    2    5    8
# [3,]    3    6    9
# 
# , , 2
# 
# [,1] [,2] [,3]
# [1,]   10   13   16
# [2,]   11   14   17
# [3,]   12   15   18

In [None]:
# 不過 jupyter notebook 並未實作張量的顯示，需要使用 R 或 RStudio 才能看到差別

In [51]:
# 在R 中，矩陣的資料順序是：c(m[1,1], m[2,1], m[3,1], ...)
# 也就是說，如果我們下指令：matrix(1:18, 3, 6)， 則 m[1,1]會是 1, m[2,1]會是2, m[3,1]是3, m[1,2]是4, 以此類推。
m <- matrix(1:18, 3 , 6)
m
m[1,1]
m[2,1]
m[3,1]
m[1,2]

0,1,2,3,4,5
1,4,7,10,13,16
2,5,8,11,14,17
3,6,9,12,15,18


In [55]:
# 但是我們也可以嘗試不同的建立方式，如：
m2 <- matrix(1:18, 3 , 6, byrow = T)

# 請重複前一個 cell 的觀察步驟，觀察 m2 與 m 有什麼不同



# From previous cell
m <- matrix(1:18, 3 , 6)


cat("m")
m

cat("m2")
m2

m

0,1,2,3,4,5
1,4,7,10,13,16
2,5,8,11,14,17
3,6,9,12,15,18


m2

0,1,2,3,4,5
1,2,3,4,5,6
7,8,9,10,11,12
13,14,15,16,17,18


In [61]:
# 在矩陣的存取介面中 m[i, j] 代表要取出矩陣 m 第 i 列 第 j 欄(行) 的元素
# 如若 i 或 j 並未指定數值，則將取出整列 (欄、行) 的元素，如
m[1,]
m[,2]
m[,]

# 請觀察上述輸出的 class，有什麼不同？

class(m)     # matrix
class(m[1,]) # integer
class(m[,2]) # integer
class(m[,])  # matrix

0,1,2,3,4,5
1,4,7,10,13,16
2,5,8,11,14,17
3,6,9,12,15,18


In [None]:
# R 語言預設會根據輸出的維度來調整輸出資料的型態
# 但是在資料整理時，如此作法有時候會帶來一些困擾
# 實務上可以增加一個 drop 參數，來避免這樣的問題，如
m[1,,drop = FALSE]

# 試觀察上述資料的類別，有什麼變化？

接著，我們要介紹一個在R 中很有名的物件。這個物件的設計，完全滿足了近代對結構化資料分析的需求。

包含 Apache Spark、Python 的 pandas 套件都有受到這個設計的影響

這個物件就是R 的data.frame。

vector/matrix/tensor 源於線性代數的數值計算，有同質性的限制，也就是其中所有的元素都必須是同樣的型態

這在資料分析上並不實際，因為一般分析的資料，通常並不會全部都是相同的資料型態

在結構化的資料中，通常資料是以表格的形式，而各欄位會有自己的型態，例如是：數值型態、類別型態等等。

R 的data.frame就是要表現出二維表格特性的物件

首先，data.frame是一種list。因為表格的各欄是型態不一的向量，所以我們需要用list來裝不同型態的向量。

第二，因為表格的資料是結構化的，所以data.frame存放的值會有格式上的限制

具體來說，data.frame的各個元素必須是以下幾種類型之一：

數值(numeric)、字串(character)、布林(logical)、類別(factor)、數值矩陣(numeric matrix)、 list或data.frame。

最重要的是，因為data.frame代表的是二維表格，所以每一個值的長度須一致

(若為矩陣或data.frame，則是列 (row) 的數量需一致)，此特性可以在整理資料時提供很大的幫助。

In [64]:
# 在R 之中，可以使用 data.frame() 函式來建立一個data.frame
# 如 data.frame(class = "Data Mining", id = 1:10, homeworks = matrix(floor(rnorm(20, 75, 10)), nrow=10, ncol=2)) 
# 並且將此 data.frame 存到變數 df
df <- data.frame(
    class = "Data Mining",
    id = 1:10,
    homeworks = matrix(
        floor(rnorm(20, 75, 10)),
        nrow=10,
        ncol=2
    )
) 
df

class,id,homeworks.1,homeworks.2
Data Mining,1,88,69
Data Mining,2,60,75
Data Mining,3,82,73
Data Mining,4,70,67
Data Mining,5,80,72
Data Mining,6,71,96
Data Mining,7,69,63
Data Mining,8,65,86
Data Mining,9,54,62
Data Mining,10,89,63


In [None]:
# 請以 str() 觀察 df，有什麼發現？

In [76]:
# data.frame 同時兼容 list 與 matrix 的存取機制
# 根據上述的說法以及觀察的結論，假如我想要取出 df 的第 1 欄 (行) 有哪些寫法？

# ^ Get "Data Mining"
# df[,1]
# df[, "class"]
# df[[1]]
# df[["class"]]
df$class

# 又假如我想要取得第一列第二欄的資料又有什麼寫法？
df[1,2] # First id (1)
df[1, "id"]
df[[2]][1]
df[["id"]][1]
df$id[1]


# 此外，假如我想要取得 scores.1 及格的學生的 id 又應該如何做？

In [77]:
# colnames() 函式可以取得 data.frame 的欄位名稱
colnames(df)

# 但同時，names() 似乎也有相同的作用，這是為什麼呢？
names(df)


# colnames() can be used for getting & setting
# colnames(df) <- c(.......)

In [81]:
# 向量用colnames()係冇用

a <- 1:5
names(a) <- c("a", "b", "c", "d", "e")

a
names(a)
colnames(a)

NULL

In [88]:
# *新增一個欄位*

# 由於 data.frame 具有 list 的特性，所以假如要新增一個欄位也是十分容易的，如
df$report = floor(rnorm(10, 60, 10))
df

# 假如輸入的資料數量與 data.frame 的 dimension 不合會怎樣呢？
df$report2 = floor(rnorm(2, 60, 10))
df$report3 = floor(rnorm(2, 60, 10))
df

# The dimension has to be the same
# Since its treated like matrix

class,id,homeworks.1,homeworks.2,report,report3
Data Mining,1,88,69,68,67
Data Mining,2,60,75,62,58
Data Mining,3,82,73,64,67
Data Mining,4,70,67,56,58
Data Mining,5,80,72,43,67
Data Mining,6,71,96,52,58
Data Mining,7,69,63,76,67
Data Mining,8,65,86,64,58
Data Mining,9,54,62,65,67
Data Mining,10,89,63,72,58


class,id,homeworks.1,homeworks.2,report,report3,report2
Data Mining,1,88,69,68,36,51
Data Mining,2,60,75,62,49,54
Data Mining,3,82,73,64,36,51
Data Mining,4,70,67,56,49,54
Data Mining,5,80,72,43,36,51
Data Mining,6,71,96,52,49,54
Data Mining,7,69,63,76,36,51
Data Mining,8,65,86,64,49,54
Data Mining,9,54,62,65,36,51
Data Mining,10,89,63,72,49,54


練習一: 以 iris 資料表練習 data.frame 的存取

In [124]:
# 請練習以 data.frame 的存取方式 回答下列問題

# iris

# iris 資料表共有幾筆資料？
length(iris[,5])
# nrow(iris)

# iris 資料表中個樣本記載了幾種不同的屬性？
length(iris[1,])

# iris 資料表中，有幾筆樣本其品種為 setosa
length(iris[,5][iris[,5] == "setosa"])
# sum(iris$Species == "setosa")

# 分別計算各品種之其花瓣與花萼長度的平均數值，你發現了什麼？

# 花瓣 Petal
# 花萼 Sepal


mean(iris[,1][iris[,5] == "setosa"]) # Sepal.Length
mean(iris[,3][iris[,5] == "setosa"]) # Petal.Length

mean(iris[,1][iris[,5] == "versicolor"]) # Sepal.Length
mean(iris[,3][iris[,5] == "versicolor"]) # Petal.Length

mean(iris[,1][iris[,5] == "virginica"]) # Sepal.Length
mean(iris[,3][iris[,5] == "virginica"]) # Petal.Length

# Another way
# with(iris, mean(Petal.Length[Species == "setosa"]))


# 各品種中，花萼長度超過 5 cm 的樣本各有幾株？
sum(iris$Sepal.Length[iris$Species == "setosa"] > 5)
sum(iris$Sepal.Length[iris$Species == "versicolor"] > 5)
sum(iris$Sepal.Length[iris$Species == "virginica"] > 5)

# versicolor 品種的樣本中，其花萼長度大於 virginica 品種之平均花萼長度 的樣本有幾株？
# 在 iris 資料表中新增一個欄位記載各樣本花瓣與花萼的總長
# iris 資料表中，花辦與花萼之總長最長的一株樣本，是什麼品種的？
# 資料集中，各品種花瓣與花萼之長度總和的平均各為多少？

In [115]:
iris

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa


介紹過了 R 的幾種基本資料型態

我們將以 matrix 與 data.frame 為基礎

帶入部分在 R 中進行線性代數計算以及統計建模的概念

但在此之前，我們先介紹在 R 之中進行矩陣運算的方法

In [8]:
# 在R 中兩個矩陣要作矩陣乘法，就是使用 %*% 這個運算符號
# 請各位試試看 matrix(1:6, 2, 3) %*% matrix(3:8, 3, 2) 會得到什麼
a = matrix(1:6, 2, 3)
b = matrix(3:8, 3, 2)

cat("a")
a

cat("b")
b

cat("result")
a %*% b

a

0,1,2
1,3,5
2,4,6


b

0,1
3,6
4,7
5,8


result

0,1
40,67
52,88


In [14]:
# 當兩個向量使用 %*% 做運算，會得到他們的內積
# 請各位試試看 1:3 %*% 1:3 會得到什麼

1:3 %*% 1:3
cat("-----")

t1 = 1:3
t2 = 1:3

t1
class(t1)

t2
class(t2)

# ---

result = t1 %*% t2
result
class(result)

# ---

r2 = c(1, 2, 3) %*% c(1, 2, 3)
r2
class(r2)

0
14


-----

0
14


0
14


In [29]:
# 當矩陣乘向量的時候，單一向量會被視為行向量
# 最後會得到矩陣每個列和單一向量的內積，形成一個新的行向量
# 請各位嘗試 matrix(1:9,3,3) %*% 1:3

# ?????? 5 get
# Calculation, see: https://i.imgur.com/9n50o2w.png

m = matrix(1:9,3,3)
m

m %*% 1:3

# 1    1 2 3
# 2 -> 1 2 3
# 3    1 2 3

0,1,2
1,4,7
2,5,8
3,6,9


0
30
36
42


In [35]:
# 矩陣乘法需要滿足維度相對應的限制 如
# matrix(1:9, 3, 3) 與 matrix(1:15, 5, 3) 由於維度不對應，是無法相乘的
# 這時候我們需要利用 t() 轉置後者，使得維度相對應
# 請參閱 t() 的 help，完成上述矩陣的乘法

# ERROR
# matrix(1:9, 3, 3) %*% matrix(1:15, 5, 3)

# nrow <- this has to be the same?
a = matrix(1:9, 3, 3)
b = matrix(1:15, 5, 3)

a
b

cat("result")
a %*% t(b)

cat("t(b)")
t(b)

# help(matrix)

0,1,2
1,4,7
2,5,8
3,6,9


0,1,2
1,6,11
2,7,12
3,8,13
4,9,14
5,10,15


result

0,1,2,3,4
102,114,126,138,150
120,135,150,165,180
138,156,174,192,210


t(b)

0,1,2,3,4
1,2,3,4,5
6,7,8,9,10
11,12,13,14,15


In [36]:
# 我們可以用diag()快速建構對角化的矩陣
# 舉例來說：diag(1, 3)會建立出3 乘3 的單位矩陣。請試試看。

diag(1, 3)

0,1,2
1,0,0
0,1,0
0,0,1


In [39]:
# 如果已知A %*% x = b，給定A 和b ，我們就可以用solve 解出 x 。 
# 舉例來說，若 A 是 matrix(1:4, 2, 2) 而 b 是c(3, 8)，solve(A, b) 即可以給出x。 
A <- matrix(1:4, 2, 2)
b <- c(3,8)

# A * x = b
# ^ solve() is for finding matrix (x)

# 所以請同學直接解出 x 將其存到 變數 x 之中，並且實際驗算

x = solve(A, b)
x

In [41]:
# 如果直接使用solve(A)，則 R 會算出A 的反矩陣
# 矩陣反矩陣相承會變成單位矩陣，請各位同學嘗試之

A
solve(A) # Inverse matrix

0,1
1,3
2,4


0,1
-2,1.5
1,-0.5


In [48]:
# 使用eigen(A)則可以解出 A 的特徵值(eigenvalues)和特徵向量(eigenvectors)
# 請各位先以 str() 觀察 eigen(A) 的結構
A
eigen(A)
cat("---\n")
str(eigen(A))

# 然後嘗試 (A %*% eigen(A)$vectors / eigen(A)$vectors)[1,] 是否與其 eigenvalues 相同呢？

0,1
1,3
2,4


eigen() decomposition
$values
[1]  5.3722813 -0.3722813

$vectors
           [,1]       [,2]
[1,] -0.5657675 -0.9093767
[2,] -0.8245648  0.4159736


---
List of 2
 $ values : num [1:2] 5.372 -0.372
 $ vectors: num [1:2, 1:2] -0.566 -0.825 -0.909 0.416
 - attr(*, "class")= chr "eigen"


練習二：手刻以最小方差法進行線性回歸

In [49]:
#' 給定一個矩陣X，
X <- cbind(x1 = 1, x2 = 1:10, x3 = sin(1:10))
#' 以及一個長度為3 的向量 beta。
beta <- c(0.5, -1, 4.3)

#' 我們稱`X[,1] 為x1, X[,2] 為x2, X[,3] 為 x3
#' 向量y 的值是 x1 * beta[1] + x2 * beta[2] + x3 * beta[3]，
#' 請用矩陣乘法`%*%`算出向量y。
#'     dim(y) 應該是 c(10, 1)

x1 = X[,1]
x2 = X[,2]
x3 = X[,3]

# y <- NULL # 請將 NULL 替換成你的程式碼，算出正確的答案
y <- x1 * beta[1] + x2 * beta[2] + x3 * beta[3]
y

#' epsilon 是一個隨機產生的雜訊向量，
epsilon <- c(-1.24462014500259, 0.146172987456978, 1.56426869006839, -0.856920339050681,
    -1.15277300953772, 0.717919832604741, -0.270623615316431, -1.66281578024014,
    -1.15557078461633, -0.730253254897595)

#' 我們讓y 參雜了雜訊。
y <- y + epsilon

y

In [74]:
#' 給定一個矩陣X，
X <- cbind(x1 = 1, x2 = 1:10, x3 = sin(1:10))

#' 以及一個長度為3 的向量 beta。
beta <- c(0.5, -1, 4.3)

#' 我們稱`X[,1] 為x1, X[,2] 為x2, X[,3] 為 x3
#' 向量y 的值是 x1 * beta[1] + x2 * beta[2] + x3 * beta[3]，
#' 請用矩陣乘法`%*%`算出向量y。
#'     dim(y) 應該是 c(10, 1)

x1 = X[,1]
x2 = X[,2]
x3 = X[,3]

# y <- NULL # 請將 NULL 替換成你的程式碼，算出正確的答案
y <- x1 * beta[1] + x2 * beta[2] + x3 * beta[3]

#' epsilon 是一個隨機產生的雜訊向量，
epsilon <- c(-1.24462014500259, 0.146172987456978, 1.56426869006839, -0.856920339050681,
    -1.15277300953772, 0.717919832604741, -0.270623615316431, -1.66281578024014,
    -1.15557078461633, -0.730253254897595)

#' 我們讓y 參雜了雜訊。
y <- y + epsilon
y

# --------------------------------------------------------------------------------------------------------

#' 假設我們只知道X和y ，而看不到epsilon和beta。根據X 和y ，要如何找出beta?
#' 這是一個標準的迴歸分析問題:
#' 在握有X 和Y 等資料之後，尋找資料之間的線性關係（即beta）。
#' 例如，我們先前曾經尋找過車速與煞車滑行距離之間的關係。
#'
#' 請參考<https://en.wikipedia.org/wiki/Ordinary_least_squares#Estimation>裡的公式：
#' $(X^T X)^{-1} X^T y$（方程式的圖片版： <http://i.imgur.com/Aykv7W3.png>），利用這章學到的矩陣乘法，與線性代數函式，算出beta的估計值。
#'
#' 你可以寫很多行的程式碼，但是請把結果存到beta.hat這個變數之中
#' ps. class(beta.hat) 應該要是 matrix
#'     dim(beta.hat) 應該是 c(3, 1)
#'     rownames(beta.hat) 應該是 c("x1", "x2", "x3")

# beta.hat <- NULL # 請將NULL替換成你的程式碼
beta.hat <- solve(t(X) %*% X) %*% t(X) %*% y

class(beta.hat) # 應該要是 matrix
dim(beta.hat) # 應該是 c(3, 1)
rownames(beta.hat) # 應該是 c("x1", "x2", "x3")

# --------------------------------------------------------------------------------------------------------

#' 請各位比較 beta.hat 和  beta 的數值
cat("beta")
beta

cat("bata.hat")
beta.hat

# --------------------------------------------------------------------------------------------------------

#' 接下來我們引入 CO2 資料表的資料，來實踐上述的方法
#' 首先利用 model.matrix() 函式 來建立資料矩陣如下：

X <- model.matrix(~ Type + Treatment + conc, CO2)

#' 如此就建立了一個基於 Type、Treatment 和 conc 的矩陣

#' 我們以 uptake 的值放入 y 之中，作為迴歸的目標
y <- CO2$uptake

#' 同樣請各位利用 <https://en.wikipedia.org/wiki/Ordinary_least_squares#Estimation> 的公式
#' 利用迴歸的演算法，
#' 找出 beta.hat，也就是 X 與 y 之間的線性迴歸係數，描述 X 與 y 的關係
#' 理論上讓 X %*% beta.hat 的結果 (存成 y.hat) 會很靠近 y
#' ps. class(beta.hat) 應該為matrix
#'     dim(beta.hat) 應該為 c(4, 1)
#'     rownames(beta.hat) 應該為 c("(Intercept)","TypeMississippi","Treatmentchilled","conc")

# beta.hat <- NULL
beta.hat <- solve(t(X) %*% X) %*% t(X) %*% y
y.hat <- X %*% beta.hat

class(beta.hat)
dim(beta.hat)
rownames(beta.hat)



#' 這邊我們可以計算X %*% beta.hat 和 y 的correlation（提示：用函數`cor`）
my.corr <- cor(X %*% beta.hat, y)

#' my.corr 的平方，就是迴歸分析時常提到的：R-squared。
#' 很多分析師會用這個數據來判斷這個模型好不好。
#' 在R 裡面跑迴歸分析，可以簡單用`lm`這個函數來進行線性迴歸：
g <- lm(uptake ~ Type + Treatment + conc, CO2)

#' g 這個物件就會包含我們剛剛算過得答案
# g

#' g$coef就會是beta.hat
# g$coefficients

#' g$fitted.value就會是X %*% beta.hat
# g$fitted.value

#' summary(g)則會顯示各個參數的t 檢定，以及整個模型的R-squared
g.s <- summary(g)

#' mode(g.s)顯示它是一個list。
cat("-----\n")
mode(g.s)
g.s

#' 請取出上述線性迴歸的 R-squared 數值，並且與 my.corr 的平方做比較

# 請以 cars 資料表為例，再做一次練習


beta

bata.hat

0,1
x1,0.6597662
x2,-1.1094563
x3,4.1421324


-----



Call:
lm(formula = uptake ~ Type + Treatment + conc, data = CO2)

Residuals:
    Min      1Q  Median      3Q     Max 
-17.344  -2.826   1.070   4.137  11.267 

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)       29.259814   1.538928  19.013  < 2e-16 ***
TypeMississippi  -12.659524   1.351439  -9.367 1.67e-14 ***
Treatmentchilled  -6.859524   1.351439  -5.076 2.46e-06 ***
conc               0.017731   0.002297   7.719 2.87e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.193 on 80 degrees of freedom
Multiple R-squared:  0.6839,	Adjusted R-squared:  0.6721 
F-statistic:  57.7 on 3 and 80 DF,  p-value: < 2.2e-16
