In [21]:
library(pipeR)

# Foundations
## Data structures

* 要素の型が同じ
  * 1次元: Atomic vector
  * 2次元: Matrix
  * n次元: Array

* 要素の型は同じでなくてよい
  * 1次元: List
  * 2次元: Data frame

0次元のものやスカラーはなく，要素1のベクトル

クイズ

* vectorの3つの性質:
* atomic vectorの広く用いられる4つの型，あまり用いられない2つの型
* attributesとは
* listとatomic vectorの違い; matrixとdata frameとの違い
* matrixのlistは可能か; matrixがcolumnのdata frameは可能か


## Vector
* vector: atomic vector と list
* properties: `typeof()`, `length()`. `attributes()`
* チェックには `is.atomic()` か `is.list()` を使う．`is.vector()` は使わない

### Atomic vector
* logical, integer, double (numeric), character
* complex, raw

In [5]:
(dbl_var <- c(1, 2.5, 4.5))

In [6]:
(int_var <- c(1L, 6L, 10L))

In [7]:
(log_var <- c(TRUE, FALSE, T, F))

In [8]:
(chr_var <- c("these are", "some strings"))

* Atomic vector はネストできない

In [10]:
(c(1, c(2, c(3, 4))))
(c(1,2,3,4))

#### Types and tests

In [11]:
int_var <- c(1L, 6L, 10L)
typeof(int_var)

In [12]:
is.integer(int_var)

In [13]:
is.atomic(int_var)

In [14]:
dbl_var <- c(1, 2.5, 4.5)
typeof(dbl_var)

In [15]:
is.double(dbl_var)

In [16]:
is.atomic(dbl_var)

In [17]:
is.numeric(int_var)
is.numeric(dbl_var)

#### Coercion

atomic vector は単一の型しか持てないので，違うものを組み合わせようとすると型変換される

In [22]:
str(c("a", 1))

 chr [1:2] "a" "1"


True は 1，False は 0

In [18]:
x <- c(F, F, T)
as.numeric(x)

In [20]:
sum(x)

In [21]:
mean(x)

### Lists

* listは違う型を持てる

In [23]:
x <- list(1:3, "a", c(T, F, T), c(2.3, 5.9))
str(x)

List of 4
 $ : int [1:3] 1 2 3
 $ : chr "a"
 $ : logi [1:3] TRUE FALSE TRUE
 $ : num [1:2] 2.3 5.9


* list は __recursive__ vector とも呼ばれる

In [24]:
x <- list(list(list(list)))
str(x)

List of 1
 $ :List of 1
  ..$ :List of 1
  .. ..$ :function (...)  


In [25]:
is.recursive(x)

* `c()` でlistを連結できる．
* atomic vector と list を `c()` でつなぐとlist になる

In [26]:
x <- list(list(1,2), c(3,4))
y <- c(list(1,2), c(3,4))
str(x)

List of 2
 $ :List of 2
  ..$ : num 1
  ..$ : num 2
 $ : num [1:2] 3 4


In [27]:
str(y)

List of 4
 $ : num 1
 $ : num 2
 $ : num 3
 $ : num 4


* list の `typeof()` => list
* `is.list()` で検査，`as.list()` で変換
* list から atomic vector は `unlist()`
* data frame は list，線形モデルの結果なども list

In [28]:
is.list(mtcars)

In [29]:
mod <- lm(mpg ~ wt, data = mtcars)
is.list(mod)

### Excercises

* Q1
    * logical, integer, double (numeric), character, complex, raw

* Q2: `is.vector()`, `is.numeric()` と `is.list()` , `is.character()` の違い

* Q3

In [51]:
c(1, FALSE)
c("a", 1)
c(list(1, "a"))
c(TRUE, 1L)

* Q4

In [43]:
str(unlist(list(1, 2, c(3, 4))))

 num [1:4] 1 2 3 4


In [42]:
str(as.vector(list(1, 2, c(3, 4))))

List of 3
 $ : num 1
 $ : num 2
 $ : num [1:2] 3 4


* Q5

In [30]:
1 == "1"

In [31]:
-1 < FALSE

In [37]:
"one" < 2

* Q6

In [49]:
(x <- c(FALSE, NA_character_))
typeof(x)

In [50]:
(x <- c(FALSE, NA))
typeof(x)

In [45]:
is.logical(NA)

## Attributes

* `attr()`: 要素指定
* `attributes()`: 一気に

In [60]:
y <- 1:10
attr(y, "my_attribute") <- "This is a vector"
attr(y, "my_attribute")
str(attributes(y))

List of 1
 $ my_attribute: chr "This is a vector"


* `structure()` は attributes を付加したものを返す

In [59]:
structure(1:10, my_attribute= "This is a vector") %>>% print()

 [1]  1  2  3  4  5  6  7  8  9 10
attr(,"my_attribute")
[1] "This is a vector"


* attributes は要素を変更すると失われる
* 以下の3つは失われない（`attr()`ではアクセスできない）
    * Names : `names()`
    * Dimentions: `dim()`
    * Class: `class()`

In [61]:
attributes(y[1])

NULL

In [62]:
attributes(sum(y))

NULL

In [63]:
attributes(y)

### Names

* names はユニークである必要はないが，subsetting するときにはユニークである方が良い

In [1]:
x <- c(a = 1, b = 2, c = 3)
x

In [2]:
x <- 1:3
names(x) <- c("a", "b", "c")
x

In [3]:
x <- setNames(1:3, c("a", "b", "c"))
x

* names を持たないものが合ってもよい．その場合は，空文字列が入る
* names をすべて持たない場合，NULLが返る

In [4]:
y <- c(a = 1,2,3)
names(y)

In [5]:
z <- c(1,2,3)
names(z)

NULL

### Factors

* factor はあらかじめ設定された値のみをもつvector
* factor は 2つのattributes を持つ
    * `class()`: factor
    * `level()`: factor の持つことのできる値
* factor はcharacter のように見えるが，integer である

In [7]:
x <- factor(c("a", "b", "b", "a"))
print(x)

[1] a b b a
Levels: a b


In [8]:
class(x)

In [9]:
levels(x)

* あらかじめ設定された値以外を入れることはできない（NAが入る）

In [10]:
x[2] <- "c"

In `[<-.factor`(`*tmp*`, 2, value = "c"): invalid factor level, NA generated

In [11]:
print(x)

[1] a    <NA> b    a   
Levels: a b


* factor は結合できない

In [12]:
c(factor("a"), factor("b"))

* factor と charactor vector の比較

In [13]:
sex_char <- c("m", "m", "m")
sex_factor <- factor(sex_char, levels = c("m", "f"))
table(sex_char)

sex_char
m 
3 

In [14]:
table(sex_factor)

sex_factor
m f 
3 0 

* ファイルからdata.frame に読み込んだ場合，integer のカラムがfactorになっている場合がある．
* これは，character が混じっている場合におこる
    * 欠損値が "-"や"." で表現されていたりする場合
* これを直すには，まずcharactor に変換してからinteger などに直す
* これを防ぐには，例えば，`na.strings`を適切に設定する
* または，`stringsAsFactors = FALSE`を設定する 

In [16]:
z <- read.csv(text = "value\n12\n1\n.\n9")
z

Unnamed: 0,value
1,12
2,1
3,.
4,9


In [17]:
typeof(z$value)

* これを直接doubleにすると，levelになる

In [18]:
as.double(z$value)

In [19]:
class(z$value)

In [23]:
levels(z$value)

In [24]:
as.double(as.character(z$value))

In eval(expr, envir, enclos): NAs introduced by coercion

In [26]:
z <- read.csv(text = "value\n12\n1\n.\n9", na.strings = ".")
z

Unnamed: 0,value
1,12.0
2,1.0
3,
4,9.0


In [27]:
typeof(z$value)

In [28]:
class(z$value)

In [29]:
z$value

### Excercises
Q1. 

In [34]:
structure(1:5, comment = "my attribute") %>>% print()

[1] 1 2 3 4 5


In [33]:
structure(1:5, comment = "my attribute") %>>% comment()

In [32]:
help(comment)

0,1
comment {base},R Documentation

0,1
x,any R object
value,"a character vector, or NULL."


Q2

In [37]:
f1 <- factor(letters)
print(f1)

 [1] a b c d e f g h i j k l m n o p q r s t u v w x y z
Levels: a b c d e f g h i j k l m n o p q r s t u v w x y z


In [38]:
levels(f1) <- rev(levels(f1))
print(f1)

 [1] z y x w v u t s r q p o n m l k j i h g f e d c b a
Levels: z y x w v u t s r q p o n m l k j i h g f e d c b a


Q3

In [39]:
f2 <- rev(factor(letters))
print(f2)

 [1] z y x w v u t s r q p o n m l k j i h g f e d c b a
Levels: a b c d e f g h i j k l m n o p q r s t u v w x y z


In [40]:
f3 <- factor(letters, levels = rev(letters))
print(f3)

 [1] a b c d e f g h i j k l m n o p q r s t u v w x y z
Levels: z y x w v u t s r q p o n m l k j i h g f e d c b a


## Matrices and arrays

In [1]:
1