# R basic 1-2

- author: "Kwon DoHyung"
- toc: true 
- comments: true
- categories: [CSE, R]
- image: images/2020-11-06-r-1/Untitled5.png
- permalink: /r-basic-1-2/

# 자료형

## 기본 자료형

R의 자료형은 크게 세 가지로 구분 가능하다; 숫자(Numeric), 문자(Character), 논리형(Logical). Numeric 자료형에는 정수와 실수가 모두 포함되며, Character 자료형을 쓸 땐 큰 따옴표나 작은 따옴표를 반드시 표기해야 한다. 논리형은 `TRUE` 또는 `T`, `FALSE` 또는 `F`로만 표기할 수 있다.

```r
# R에서 주석은 #으로 표기
1
100
1000
"abc"
'abc'
abc -> 정의되지 않은 변수일 경우엔 오류 발생
TRUE
FALSE
T
F

1, 100, 1000 -> 오류. 동일한 타입의 자료형은 한 줄에 하나씩만 가능
```

## 그 외 자료형

- Vector, Matrix, Data Frame, List, Factor

# 자료형: 벡터(vector)

vector 자료형을 생성하는 방법:  `c()`함수 이용. c: combine의 약어

vector의 생성은 `()`, 호출은 `[]`

## vector 생성

```r
c(1, 2, 3)
```
1 2 3

```r
c("one", "two", "three")
```
"one"   "two"   "three"

```r
c(TRUE, FALSE, TRUE)
```
TRUE FALSE  TRUE


## vector를 변수에 저장

```r
var1 <- c(1, 2, 3) 
var2 <- c("one", "two", "three")
var3 <- c(TRUE, FALSE, TRUE)
```

```r
var1
```
1 2 3

```r
var2
```
"one"   "two"   "three"

```r
var3
```
TRUE FALSE  TRUE


## 여러 자료형이 섞이면 무조건 character로 인식한다.
```r
c(1, "one", TRUE)
```
"1"    "one"  "TRUE"


## 벡터 간 연결

```r
x <- c(1,2,3)
x
```
1 2 3

```r
y <- c(4,5,6,7)
y
```
4 5 6 7

```r
z <- c(x, y)
z
1 2 3 4 5 6 7
```

## 벡터 값 호출

`[]`을 사용한다. 벡터의 요소는 `**1**`부터 시작함. **`0`**번 인덱스는 자료형을 나타낸다.

```r
var <- c("a", "b", "c")
var[0] 
```
character(0)

```r
var[1]
```
"a"

```r
var[2]
```
"b"

```r
var[3]
```
"c"


### 조건부 값 호출

```r
var <- 1:10
var
```
 1  2  3  4  5  6  7  8  9 10

```r
var > 5
```
FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE TRUE

```r
var[var > 5]
```
6  7  8  9 10

```r
var[var<3|var>7]
```
1  2  8  9 10

```r
var[var>3&var<7]
```
4 5 6


`>` 연산자 자체는 Logical 자료형의 형태로 결과를 출력한다. `[]`와 함께 `>` 연산자를 함께 사용하면, 값 자체에 대한 조건에 맞는 결과를 출력한다.

## 인덱싱 연산

파이썬과는 다르게 인덱싱 연산에서 차이가 있다. 파이썬은 from(included), to(excluded)인 반면, R은 from과 to 모두 included다. 또한 `-`기호에도 차이가 있는데, 파이썬에서는 뒤에서부터 호출하게 하는 연산자라면, R에서는 제외시키는 연산자다. 

```r
var <- c("a", "b", "c")
var[1:2]
```
"a" "b"

```r
var[1:3]
```
"a" "b" "c"

```r
var[c(1,3)]
```
"a" "c"

```r
var[-1]
```
"b" "c"

```r
var[-c(1,3)]
```
"b"


## 벡터 연산

숫자형 벡터끼리는 벡터 내 각 요소 별로 연산이 가능하다.

### 벡터 내 연산

```r
var <- c(1, 3, 5, 7, 9)
var
```
1 3 5 7 9

```r
var + 2
```
3  5  7  9 11

```r
var - 2
```
-1  1  3  5  7

```r
var * 2
```
2  6 10 14 18

```r
var / 2
```
0.5 1.5 2.5 3.5 4.5

```r
(var + 2)*4
```
12 20 28 36 44


### 벡터 간 연산

```r
x <- c(1, 3, 5)
y <- c(2, 4, 6)
x
```
1 3 5

```r
y
```
2 4 6

```r
x+y
```
3  7 11

```r
x-y
```
-1 -1 -1

```r
x*y
```
2 12 30

```r
x/y
```
0.5000000 0.7500000 0.8333333


벡터의 길이가 다를 경우 연산은 불가능하다.

```r
x <- c(1, 3, 5)
y <- c(2, 4, 6, 8, 10)

x+y
3  7 11  9 13
경고메시지(들): 
In x + y : 두 객체의 길이가 서로 배수관계에 있지 않습니다
```

# 자료형: 행렬(matrix)

행렬은 동일한 자료형의 집합이며, 2차원의 데이터 구조를 말한다.

![](../images/2020-11-06-r-1/Untitled35.png)

## 행렬 생성

### matrix()로 행렬 생성

```r
matrix(1:9, nrow=3, ncol=3)
# 행과 열의 개수를 지정해주어야 한다.
```

![](../images/2020-11-06-r-1/Untitled36.png)

열부터 값이 채워지는 것을 확인할 수 있다. 즉, `byrow` 파라미터의 default값은 `FALSE`다. 따라서 이를 `TRUE`로 설정하면 행부터 값이 채워지는 것을 확인할 수 있다.

![](../images/2020-11-06-r-1/Untitled37.png)

### 벡터로 행렬 생성: cbind(), rbind()

cbind는 column bind의 약자이며, rbind는 row bind의 약자이다.

```r
x <- c(1,2,3)
y <- c(4,5,6)
z <- c(7,8,9)
```

```r
mat1 <- cbind(x,y,z)
mat1
```

![](../images/2020-11-06-r-1/Untitled38.png)

```r
mat2 <- rbind(x,y,z)
mat2
```

![](../images/2020-11-06-r-1/Untitled39.png)

```r
cbind(mat1, c(10, 11, 12))
```

![](../images/2020-11-06-r-1/Untitled40.png)

```r
rbind(mat2, c(10, 11, 12))
```

![](../images/2020-11-06-r-1/Untitled41.png)

```r
rbind(mat1, mat2)
```

![](../images/2020-11-06-r-1/Untitled42.png)

## 행렬의 column과 row의 이름 확인 및 변경

### column의 이름과 row의 이름 확인

column은 보통 R에는 '변수'로 보는 경향이 있다.

```r
colnames(mat1)
rownames(mat1)
```

### column의 이름과 row의 이름 변경

```r
colnames(mat1)<-c("col1", "col2", "col3")
rownames(mat1) <- c("row1", "row2", "row3")
mat1
colnames(mat1)
rownames(mat1)
```

![](../images/2020-11-06-r-1/Untitled43.png)

![](../images/2020-11-06-r-1/Untitled44.png)

## 행렬에서 값의 추출

벡터에서와 마찬가지로 `[]`를 사용하되, `,`를 사용하여 행과 열을 구분한다. 

```r
mat1

mat1[1,3]
mat1[2,2]
mat1[1,]
mat1[,2]
```

![](../images/2020-11-06-r-1/Untitled45.png)

행렬값 호출은 인덱스 또는 행이나 열의 이름을 직접 기술하여 호출 가능하다.

```r
mat1[1,3]
mat1["row1", "col3"]
```

![](../images/2020-11-06-r-1/Untitled46.png)

```r
mat1["row3",c("col1","col3")]
```

![](../images/2020-11-06-r-1/Untitled47.png)

## 행렬 연산

### 행렬 내 연산

```r
mat1
mat1+2
mat1-2
mat1*2
mat1/2
```

![](../images/2020-11-06-r-1/Untitled48.png)

### 행렬끼리 연산

```r
mat2 <- cbind(c(10,3,9), c(3,4,1), c(2,5,7))
mat2
mat1

mat1 + mat2
mat1 - mat2
mat1 / mat2
mat1 * mat2
```

![](../images/2020-11-06-r-1/Untitled49.png)

### cbind(), rbind()

```r
vec1 = c(1:5)
vec2 = c(6:10)
vec3 = c(11:15)

vec1
vec2
vec3

mat1 = cbind(vec1, vec2, vec3)
mat1
dim(mat1)
class(mat1)

mat2 = rbind(vec1, vec2, vec3)
mat2
```

![](../images/2020-11-06-r-1/Untitled50.png)

### rownames(), colnames()

```r
rownames(mat1) = c("A", "B", "C", "D", "E")
colnames(mat1) = c("col01", "col02", "col03")
mat1

colnames(mat2) = c("A", "B", "C", "D", "E")
mat2
```

![](../images/2020-11-06-r-1/Untitled51.png)

### matrix에서 colnames와 rownames 지정하기

```r
x = matrix(1:25, nrow=5, ncol=5)
x

colnames(x)=rep(paste("sample", 1:5, sep="_"))
rownames(x)=rep(paste("gene", 1:5, sep="_"))
x

x[,4] # 4열만 출력
x[2,] # 2행만 출력
x[2:3, 1:4]
```

# 자료형: 데이터프레임(DataFrame)

외관상으로는 행렬과 유사하다. 다만, 서로 다른 자료형 벡터로 구성할 수 있다는 점이 차이점이다.

## 데이터프레임의 생성

### data.frame() 함수 이용

먼저, 서로 다른 자료형의 벡터들을 만든다. 

```r
vec1 <- c(1,4,7)
vec2 <- c("one","four","seven")
vec3 <- c(TRUE,TRUE,FALSE)
```

이 벡터들을 `data.frame()` 함수를 이용하여 데이터프레임 자료형으로 만들 수 있다.

```r
df <- data.frame(vec1, vec2, vec3) # 벡터들을 파라미터로 넘기면 끝이다.
```

결과물을 보면, 마치 `cbind()` 한 것과 같이 나온다.

```r
df
```

![](../images/2020-11-06-r-1/Untitled52.png)

## 문제

다음의 데이터프레임 'df'로부터 컬럼 col1, col2, col3의 값이 3개의 컬럼에서 모두 5 이상인 행을 추출하시오.

![](../images/2020-11-06-r-1/Untitled53.png)

```r
name = c("A", "B", "C", "D")
col1 = c(10, 1, 10, 5)
col2 = c(1, 5, 9, 9)
col3 = c(2, 8, 1, 8)

df = data.frame(name, col1, col2, col3)
df

rowname = c("row1", "row2", "row3", "row4")
rownames(df) = rowname
df

df[col1>=5 & col2>=5 & col3>=5,]
```

## 데이터프레임에서 값 추출 및 column, row이름 조회/변경

행렬과 동일하다.

### 열(column) 추출

```r
vec1 <- c(1,4,7)
vec2 <- c("one","four","seven")
vec3 <- c(TRUE,TRUE,FALSE)

df <- data.frame(vec1, vec2, vec3)

df[,1]
df[,2]
df[,"vec3"]
```

![](../images/2020-11-06-r-1/Untitled54.png)

**특정 column에 대한 값 추출**

```r
df
df(달러표시)vec2
df(달러표시)vec2[2:3]
```

![](../images/2020-11-06-r-1/Untitled5.png)


# 데이터프레임 및 데이터 객체 탐색 실습

## 데이터프레임의 생성

### 50개의 발현량에 대한 2차원 데이터 생성

유전자 데이터를 임의로 생성

```r
gene=paste0("gene", 1:50)
gene
```

`paste0()` 함수는 문자열과 문자열을 공백없이 연결시키는 함수다. 예를 들어, "gene"과 "1"을 붙여 gene1이 되는 방식이다. `paste()` 함수도 있다.

![](../images/2020-11-06-r-1/Untitled56.png)

### 5개 샘플 이름 벡터 생성

```r
sample=paste0("sample", 1:5)
sample
```

![](../images/2020-11-06-r-1/Untitled57.png)

### 250개 정규분포 난수로 행렬을 생성한다. 열은 유전자 수, 행은 샘플의 수 이다.

```r
expression = matrix(rnorm(250), nrow = 50, ncol=5)
expression
```

![](../images/2020-11-06-r-1/Untitled58.png)

### 열 이름을 sample 벡터로 지정한다.

```r
colnames(expression) = sample
```

### 행 이름을 gene 벡터로 지정한다.

```r
rownames(expression) = gene
```

### 결과물을 출력해본다.

```r
expression
```

![](../images/2020-11-06-r-1/Untitled59.png)

### 벡터와 행렬을 붙여 데이터프레임으로 생성한다.

```r
exam.df = data.frame(gene, expression)
exam.df
```

![](../images/2020-11-06-r-1/Untitled60.png)

## 데이터 객체 탐색

### `dim()`, `ndim()`, `nrow()`, `ncol()`, `length()`: 데이터프레임의 차원 및 구조 파악하기

```r
dim(exam.df)
```

[1] 50 6

`dim()` 함수의 결과는 `str()` 함수로 파악이 전부 가능한 정보다. 여기서 str은 string이 아니라 structure다.

데이터 객체의 차원만 알고 싶거나 아니면 데이터 객체의 차원을 벡터로 해서 indexing해서 쓸 일이 있을 때 이 함수를 사용한다. 

```r
ndim(exam.df)
```

[1] 50 6

```r
nrow(exam.df)
```

[1] 50

```r
ncol(exam.df)
```

[1] 5

```r
length(exam.df)
```

[1] 6

`length()` 함수는 column의 개수(변수의 개수)를 출력한다. 해당 column의 obs(observataion)의 개수를 보고자 할 땐 다음과 같이 `(달러표시)`를 쓴다. 벡터 자료형에서도 length를 이용하여 그 길이를 파악했었다.

```r
length(exam.df(달러표시)gene)
```

[1] 50

### head()와 tail()

`head()`함수 (또는 `tail()` 함수)는 1차원 또는 2차원의 행렬 또는 데이터프레임의 첫 6줄 (또는 끝 6줄;디폴트값)을 출력하는 함수다. 관측치가 수백만, 수천만 건인 경우는 상위 혹은 하위 몇 개만 미리보기를 할 수 있게 해준다.

```r
head(exam.df)
```

![](../images/2020-11-06-r-1/Untitled61.png)

```r
exam.df[1:6,] # 동일한 코드
```

출력하기를 원하는 행의 개수를 파라미터로 지정할 수 있다.

```r
head(exam.df, n = 10)
```

![](../images/2020-11-06-r-1/Untitled62.png)

```r
tail(exam.df, n = 10)
```

![](../images/2020-11-06-r-1/Untitled63.png)

### 행렬 또는 데이터프레임의 구조 파악하기

R 데이터 객체를 신규로 생성했거나, 외부에서 불러왔거나, 아니면 R 패키지에 내장되어 있는 데이터 셋을 활용한다고 했을 때 데이터 객체의 현황, 특성에 대해서 파악하는 것이 필요하다.

`str(객체)` : 데이터 구조, 변수 개수, 변수 명, 관찰치 개수, 관찰치의 미리보기 등

```r
str(exam.df)
```

![](../images/2020-11-06-r-1/Untitled64.png)

### class(obj) : 데이터 객체 구성요소의 속성 확인

```r
class(exam.df)
```

[1] "data.frame"

### sapply(obj, func): object에 function을 적용

```r
sapply(exam.df, class)
```

![](../images/2020-11-06-r-1/Untitled65.png)

### names(): 데이터 객체 구성요소 이름

데이터 객체의 변수명을 알고 싶고, indexing해서 사용하고 싶으면 `names()` 함수를 사용한다.

```r
names(exam.df)
```

[1] "gene" "sample1" "sample2" "sample3" "sample4" "sample5"

### summary(), stat.desc(), describe(): 연속형 변수의 요약 통계

`**summary()**`

base package의 `summary()` 함수는 중심화 경향과 퍼짐정도에 대해서 quick 하게 볼 수 있는 통계량들을 제공한다.

```r
summary(exam.df)
```

![](../images/2020-11-06-r-1/Untitled66.png)

 `stat.desc()` 함수나 `describe()` 함수는 별도의 패키지를 설치해야 쓸 수 있다. 

`**stat.desc()**`

패키지 설치는 다음과 같이 진행한다.

```r
install.packages("pastecs")
```

설치한 패키지를 불러오는 방법은 다음과 같다.

```r
library(pastecs)
```

```r
stat.desc(exam.df)
```

![](../images/2020-11-06-r-1/Untitled67.png)

`stat.desc()` 함수의 옵션 별로 제공하는 통계량은 아래와 같다.

- `basic = TRUE` : 관측치 개수, null 개수, NA 개수, 최소값, 최대값, 범위, 합
- `desc = TRUE` : 중앙값, 평균, 분산, 표준편차, 변이계수
- `norm = TRUE` : 왜도, 첨도, 정규성 검정통계량, 정규성 검정 P-value
- `p = 0.90` : 신뢰계수 90% (유의수준 10%) 값 => 90% 신뢰구간은 평균 ± CI.mean.0.9 값

`stat.desc()` 함수에서 IQR, quantile은 제공되지 않는다.

`**describe()**`

`describe()` 함수에 대해서도 다음과 같이 작업할 수 있다.

```r
install.packages("psych")
library(psych)
describe(exam.df)
```

![](../images/2020-11-06-r-1/Untitled68.png)

`describe()` 함수는 `summary()` 보다는 많고 `stat.desc()` 보다는 적은 기술통계량(관측값 개수(n), 평균(mean), 표준편차(sd), 중앙값(median), 절삭평균(10% 절삭평균), 중위값절대편차(from 중위값) (MAD, median absolute deviation), 최소값(min), 최대값(max), 범위(range), 왜도(skew), 첨도(kurtosis), 표준오차(SE, standard error))을 보여준다. 

- **중위값 절대 편차 (MAD, median absolute deviation)** = median(|X - median(X)|) * 1.4826
1.4826은 scaling factor (또는 normalizing constant) 이며, 정규적인 자료에서 scaling factor를 곱해주면 표준편차와 비슷해진다.

### tapply(var, factor, summary), aggregate(), summaryBy(), describe.by(): 연속형 변수의 그룹별 요약 통계

**`tapply(variable, factor, summary)`**

연속형 데이터셋을 이용하여 통계를 내기 위하여 MASS 패키지를 설치하고 Cars93 데이터셋을 불러온다.

```r
install.packages("MASS")
library(MASS)
str(Cars93)
with(Cars93, tapply(Price, Type, summary))
```

![](../images/2020-11-06-r-1/Untitled69.png)

`tapply()` 함수를 사용하면, 특정 variable을 요인(factor)별로 `summary()` 함수를 적용한 통계적으로 파악할 수 있다. 위의 예는 Cars93 데이터셋에 대한 Type별 Price에 대한 summary 요약 통계다.

## rowSums(matrix 자료형), colSums(matrix 자료형)

숫자형 자료형으로 이루어진 자료에 대해서만 가능한 연산이다.

```r
expression
class(expression)
rowSums(expression)
colSums(expression)
```

![](../images/2020-11-06-r/Untitled70.png)

그 외의 자료형에 대해 해당 함수를 적용하면 에러가 뜬다. 만약 다음과 같이 gene column에 문자열이 들어가 있다고 해보자.

```r
exam.df
```

![](../images/2020-11-06-r-1-1/Untitled71.png)

그럼 다음과 같은 에러를 마주한다.

![](../images/2020-11-06-r-1/Untitled72.png)

이 때, gene column을 제거하면 숫자로만 이루어진 데이터이므로, 이를 제거해보자.

```r
rowSums(exam.df[,-1]) # 첫 번째 열을 제거(-)하겠다.
rowMeans(exam.df[,-1])
```

![](../images/2020-11-06-r/Untitled73.png)

![](../images/2020-11-06-r-1-1/Untitled74.png)

## rowMeans(matrix 자료형), colMeans(matrix 자료형)

```r
rowMeans(expression)
colMeans(expression)
```

![](../images/2020-11-06-r-1/Untitled75.png)

`rowMeans()`를 통해 얻은 결과물 중 0보다 큰 값을 갖는 행을 찾으려면, 크기 연산자를 사용한다.

```r
rowMeans(expression) > 0
```

![](../images/2020-11-06-r-1/Untitled76.png)

위 조건에 맞는 행만 추출하여 새로운 변수에 저장하기 위해 다음가 같이 한다.

```r
exam.df2 = exam.df[rowMeans(expression) > 0 , ]
exam.df2
```

`,`를 기준으로 왼쪽은 행, 오른쪽은 열이므로 열은 제외시키려는 조건이 없음을 의미한다.

![](../images/2020-11-06-r-1/Untitled77.png)

`nrow()`를 통해 총 몇 개의 행이 이에 해당하는지 살필 수 있다.

```r
nrow(exam.df2)
```

26

이들 중 어떤 gene이 그러한지 살펴보기 위해 다음과 같이 `(달러표시)`와 column이름을 이용하여 알아낼 수 있다.

```r
gene2 = exam.df2(달러표시)gene
```

![](../images/2020-11-06-r-1/Untitled78.png)

## subset(data.frame, conditions)

`subset()` 함수를 이용해도 원하는 조건의 행을 추출할 수 있다. `subset()` 함수의 첫번째 파라미터로는 데이터프레임이 온다. 행렬 자료형은 올 수 없다. 두번째 파라미터로는 한 개 이상의 조건이 온다. 조건으로 명시할 column의 이름은 `(달러표시)`를 이용하여 기술해도 되고 그냥 column의 이름만 기술해도 된다.

실습에서 하려는 것은 다음의 데이터에서 0보다 큰 값을 추출하는 것이다.

```r
exam.df(달러표시)sample1
```

![](../images/2020-11-06-r-1/Untitled79.png)

`subset()` 함수를 사용하여 조건에 맞는 행을 추출할 수 있다.

```r
filtered.exam.df <- subset(exam.df, exam.df(달러표시)sample1>0)
filtered.exam.df
filtered.exam.df <- subset(exam.df, sample1>0)
filtered.exam.df
```

![](../images/2020-11-06-r-1/Untitled80.png)

![](../images/2020-11-06-r-1/Untitled81.png)

여러 조건을 줄 수도 있다.

![](../images/2020-11-06-r-1/Untitled82.png)

조건에 의해 뽑힌 행에 해당하는 유전자가 어떤 것인지 알아보기 위해 다음의 코드를 실행한다.

```r
filtered.exam.df(달러표시)gene
```

![](../images/2020-11-06-r-1/Untitled83.png)

```r
names = rep(c(paste("C", 1:5, sep=""), paste("R", 1:5, sep="")))
names

value = seq(5, 50, by=5)
value

batch = rep(paste("batch", 1:10, sep=""))
batch

df = data.frame(names, value, batch)
dim(df)
df
```

![](../images/2020-11-06-r-1/Untitled84.png)

# 자료형: 리스트(list)

서로 다른 길이의 벡터 또는 서로 다른 데이터 구조들을 모아놓은 집합이다. 행렬은 같은 데이터 타입만 허용했었으나, 리스트는 데이터프레임과 동일하게 여러 자료형을 허용한다. R 자료형 중에서 가장 유연한 자료형이라고 할 수 있다. 

리스트 자료형을 만들 땐 함수 `list()`를 이용한다. 

```r
# 서로 다른 타입의 자료형의 벡터들을 만든다.
a<-c(1,2,3)
b<-c("a","b","c","d","e")
c<-c(TRUE,FALSE)

# list() 함수를 이용하여 각 벡터를 리스트화하여 변수에 저장한다. 
# 만들 때 벡터가 담고 있는 데이터에 대한 정보를 직접 기술해 줄 수도 있다.
list1 <- list(a, b, c)
list1
list2 <- list(id=a, name=b, positive=c)
list2

# 리스트에서 값의 추출은 다음과 같이 한다. 
# 호출 시, 인덱스 번호로 호출할 수도 있고, 리스트를 만들 때 기술했던 정보를 이용해 호출할 수도 있다.
list2[[1]]
list2[[3]]
list2[["name"]]
list2(달러표시)name

class(list1[1])
class(list2[1])
```

![](../images/2020-11-06-r-1/Untitled85.png)

인덱싱 연산도 가능하다.

```r
list1[c(1,3)] # 리스트의 첫 번째와 세 번째를 출력한다.
```

![](../images/2020-11-06-r-1/Untitled86.png)

[[1]]과 [[2]] 에 속지 말 것. 리스트의 번호가 아니다. 

```r
x = seq(5)
y = c("one", "two")
z = matrix(1:10, nrow=2, ncol=5)

list.all = list(x, y, z)
list.all

list.all[[1]]
list.all[[1]][1]

list.all[[2]]
list.all[[3]][[1,3]]

names(list.all) = c("A", "B", "C") 
# 리스트는 굉장히 유연하고 다양한 타입의 데이터를 닮을 수 있기 때문에 이렇게 이름을 지정해주는 게 좋다.
list.all(달러표시)A
```

![](../images/2020-11-06-r-1/Untitled87.png)

# 자료형: 팩터(Factor)

팩터는 벡터와 유사하다. 다만 level 값을 가지며, 범주형 데이터에 주로 사용된다.

- 범주형 데이터: Male/Female, up/down/left/right, A/B/C/D

level 값에 벗어나는 데이터가 입력되면 NA 값으로 처리된다.

값의 추출은 벡터와 동일하게 `[]`를 쓴다.

먼저, 벡터를 만들어 보자.

```r
tool <- c("C", "Python", "Java")
tool
```

![](../images/2020-11-06-r-1/Untitled88.png)

이 벡터를 팩터로 변환하기 위해서는 `factor()` 함수를 이용한다.

```r
factor_var <- factor(tool)
factor_var
class(factor_var)
```

![](../images/2020-11-06-r-1/Untitled89.png)

level의 순서를 직접 다음과 같이 직접 지정해 줄 수 있다.

```r
factor_var <- factor(tool, level=("R", "Python", "JAVA"))
factor_var
```

![](../images/2020-11-06-r-1/Untitled90.png)

자료형을 순서대로 숫자로 변환하고 싶다면, `as.numeric()` 함수를 사용한다.

```r
tool <- as.numeric(factor_var)
tool
```



# help 페이지

```r
?as.numeric b
```

![](../images/2020-11-06-r-1/Untitled91.png)



- value: 함수의 반환값에 대한 설명
- example: 사용 예제