# R-2

- author: "Kwon DoHyung"
- toc: true 
- comments: true
- categories: [CSE, R]
- image: images/2020-11-06-r-2/Untitled148.png
- permalink: /r-basic-2/

# 함수

함수는 어떤 값을 넣었을 때, 지정된 프로세스에 따라 인풋을 처리한 결과를 내는 것을 말한다. 주로 반복적인 처리가 필요할 경우 함수로 만들어 사용하게 된다. R에는 내장 함수 외에 사용자 정의 함수도 가능하다.

![](../images/2020-11-06-r-2/Untitled92.png)


```r
f_01 = function(x) {
  return(x)
}

f_01(1)
```

[1] 1

```r
f_02 = function(x) {
  output = x+50
  return(output)
}

f_02(20)
```

[1] 70

```r
x = matrix(1:25, nrow=5, ncol=5)
colnames(x) = rep(paste("sample", 1:5, sep=""))
rownames(x) = rep(paste("gene", 1:5, sep=""))

x

x[,2]
stat_f(x[,2])

x[4,]
stat_f(x[4,])
```

![](../images/2020-11-06-r-2/Untitled93.png)



```r
res = apply(x, 2, stat_f) # 2: 열 
res
```

![](../images/2020-11-06-r-2/Untitled94.png)


# 반복문

```
for(var in seq) {
	expression
}
```

```r
for(i in 1:5) {
  print(rep(i,i))
}
```

![](../images/2020-11-06-r-2/Untitled95.png)



```r
for(year in 2015:2020) {
  print(paste("The year is", year))
}
```

![](../images/2020-11-06-r-2/Untitled96.png)


```r
x = c(1:10)
for(i in x){
  y = 2*i+3
  print(y)
}
```
![](../images/2020-11-06-r-2/Untitled97.png)


```r
for(i in 2:5){
  for(j in 1:5){
    cat(i, "*", j, "=", i*j, "\n")
  }
}
```

![](../images/2020-11-06-r-2/Untitled98.png)



## 반복문 예제 코드

```r
for(time in 1:6){
  for(minute in seq(10, 25, length.out=10)){
    cat("It is", time, "hour", minute, "minute", "\n")
  }
}
```

# 조건문

```r
x = 4
if(x>0) print(sqrt(x)) #2

x = -0.2
if(x<0) print(1+x) else print(x) # 0.8

x = 0.5
if(x<0) print(1+x) else print(x) # 0.5
ifelse(x<0, 1+x, x)
```
![](../images/2020-11-06-r-2/Untitled99.png)


```r
gender = c(rep("male", 30), rep("female", 20))
gender
ifelse(gender=="male", 0, 1)
```

![](../images/2020-11-06-r-2/Untitled100.png)



# File Read & Write

데이터 분석 작업을 수행할 땐 외부에서 데이터를 불러와 작업하는 경우가 많다. 주로 csv파일이나 xlsx파일을 불러오게 된다.

## File Read

파일을 읽을 때 주로 사용할 함수는 `read.delim()`, `read.table`, `read.csv()`이다. 이들 함수들은 기본적으로 세 개의 파라미터를 갖는다. 첫 번째 파라미터인 `file`은 파일 경로다. 두 번째 파라미터인 `header`는 첫 번째 행을 헤더로 처리할 것인지를 결정하는 파라미터이며, 마지막으로 `sep`파라미터는 구분자에 대한 정보를 주는 것으로서 "\t"는 tab을, " "은 공백을 의미한다.

### 실습 코드 1

```r
# read.delim(), read.table()
ex_tab=read.delim(file = "extdata/example_tab.txt", header = T, sep = "\t")
head(ex_tab)

ex_tab2=read.table(file = "extdata/example_tab.txt", header = T, sep = "\t")
head(ex_tab2)

head(read.delim(file = "extdata/example_tab.txt"))

# read.csv()
ex_csv=read.csv(file = "extdata/example.csv", header = T)
head(ex_csv)
```

![](../images/2020-11-06-r-2/Untitled101.png)



### 실습 코드 2

엑셀 파일에 해당하는 파일을 읽는 함수는 `read.xlsx()`다. 해당 파일을 읽을 땐, 파일 내에 여러 개의 시트가 있을 수 있으므로, 시트의 번호를 기입해주어야 한다는 점에 주의한다.

```r
# read.xlsx()
read.xlsx()

library(xlsx)
ex_xlsx=read.xlsx(file = "extdata/example.xlsx", sheetIndex = 1)
```

![](../images/2020-11-06-r-2/Untitled102.png)


## File Write

파일을 쓸 때 주로 사용하는 함수는 `write.table()`, `write.csv()`이다. 파라미터는 6개이며, 파일로 저장할 변수의 이름, 확장자를 포함한 파일의 경로와 이름을 지정하는 `file`, 문자열에 쌍따옴표를 포함할지 여부를 논리값으로 지정하는 `quote`, 구분자("\t", " ")를 지정하는 `seq`, 행 이름을 파일에 기록할지를 논리값으로 지정하는 `row.names`, 열 이름을 파일에 기록할지를 논리값으로 지정하는 `col.names`가 있다.

### 실습 코드 1

```r
# write.table()
head(ex_csv)
class(ex_csv)

write.table(x = ex_csv, file = "output/ex.txt")
write.table(x = ex_csv, file = "output/ex.txt", sep = "\t", quote = F)
write.table(x = ex_csv, file = "output/ex.txt", sep = "\t", quote = F, row.names = F)

# write.csv()
write.csv(x = ex_csv, file = "output/ex.csv", quote = F, row.names = F)
```
![](../images/2020-11-06-r-2/Untitled103.png)


output 폴더에 파일이 생성된 것을 확인할 수 있다.

![](../images/2020-11-06-r-2/Untitled104.png)



### 실습 코드 2

엑셀 파일에 해당하는 파일을 쓰는 함수는 `write.xlsx()`다.

```r
# write.xlsx()
write.xlsx(x = ex_csv, file = "output/ex.xlsx", row.names = F)

ex_tab2=read.table(file = "extdata/example_tab.txt", header = T, sep = "\t", skip = 10)
head(ex_tab2)
```

![](../images/2020-11-06-r-2/Untitled105.png)



마찬가지로 xlsx 파일이 output 폴더에 생성되었다.

![](../images/2020-11-06-r-2/Untitled106.png)



## R data 저장 및 불러오기

.rda 또는 .RData 확장자를 가진 파일이 R data이며, 해당 확장자를 가진 파일은 R에서만 열 수 있게 되어있다. R data의 장점은 텍스트 파일에 비해 로딩시간이 짧고 이차원 데이터 뿐만 아니라 모든 변수에 대한 저장과 불러오기가 가능하다는 점이다. 주요 함수로는 `save()`, `load()`가 있다.

### 실습 코드

```r
# save()
save(ex_csv, file = "data/ex.rda")

# load(), data()
load(file = "data/ex.rda")
```
![](../images/2020-11-06-r-2/Untitled107.png)


data 폴더에 .rda 확장자를 가진 R data가 생성된 것을 확인할 수 있다.
![](../images/2020-11-06-r-2/Untitled108.png)


만약 프로젝트 내에 data 폴더가 있다면 `data()` 함수를 통해 손쉽게 파일을 불러올 수 있다. 이는 R이 data 폴더를 자동으로 인식하기 때문에 가능하다.

### 실습 코드

```r
data(ex)
```

# R plotting(시각화)

## R basic graphics

R basic graphics는 R에서 기본적으로 제공되는 그래픽 패키지이다. 아래 그림과 같은 종류의 그래프들을 그릴 수 있다.
![](../images/2020-11-06-r-2/Untitled109.png)


### scatter plot

scatter plot은 두 변수에 대한 상관관계를 나타낼 때 주로 사용된다. 그래프를 그릴 때 사용되는 함수는 `plot()`이며, 상관관계를 나타낼 때 사용되는 함수는 `cor()`다.

**실습코드**

```r
# scatter plot : plot()
plot(x=2, y=1)
plot(c(2,5), c(1,10))

# iris
head(iris)

plot(x = iris(달러표시)Sepal.Length, y = iris(달러표시)Sepal.Width)
plot(x = iris(달러표시)Petal.Length, y = iris(달러표시)Petal.Width)

cor(x = iris(달러표시)Sepal.Length, y = iris(달러표시)Sepal.Width)
cor(x = iris(달러표시)Petal.Length, y = iris(달러표시)Petal.Width)
```
![](../images/2020-11-06-r-2/Untitled110.png)

![](../images/2020-11-06-r-2/Untitled111.png)

![](../images/2020-11-06-r-2/Untitled112.png)

![](../images/2020-11-06-r-2/Untitled113.png)

![](../images/2020-11-06-r-2/Untitled114.png)


## line plot

line plot은 scatter plot의 각 점을 선으로 이어서 표현한 그래프라고 할 수 있다. 주로 시계열 데이터에서 시간의 흐름에 따른 변화를 시각적으로 표현해줄 때 사용한다. `plot()` 함수에 `type` 인자를 주어 표현 가능하다.

#### 실습 코드 1

```r
# line plot: plot( type = 'l')
plot(c(2,5), c(1,10), type='l')
plot(c(2,5), c(1,10), type='o')

head(pressure)
plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure)
plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, type='l')
plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, type='o')
```

![](../images/2020-11-06-r-2/Untitled115.png)

![](../images/2020-11-06-r-2/Untitled116.png)

![](../images/2020-11-06-r-2/Untitled117.png)

![](../images/2020-11-06-r-2/Untitled118.png)

![](../images/2020-11-06-r-2/Untitled119.png)

![](../images/2020-11-06-r-2/Untitled120.png)

![](../images/2020-11-06-r-2/Untitled121.png)

산점도 포인트의 크기를 조절하고자 할 땐, `cex` 파라미터를 이용하며, 색을 바꾸고 싶을 땐 `col` 파라미터를 이용한다.

#### 실습 코드 2

```r
plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=2)

plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1)

plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=0.5)

plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='red')
```

![](../images/2020-11-06-r-2/Untitled122.png)

![](../images/2020-11-06-r-2/Untitled123.png)

![](../images/2020-11-06-r-2/Untitled124.png)

![](../images/2020-11-06-r-2/Untitled125.png)

## histogram

histogram은 연속적인 숫자형 데이터를 이용해 도수 분포를 표현하는 그래프이다. 내가 가진 데이터의 전체적인 분포나 경향을 확인하고자 할 때 사용한다. `hist()` 함수를 사용한다.

#### 실습 코드

```r
# Histogram: hist()
hist(iris(달러표시)Sepal.Length)
hist(iris(달러표시)Sepal.Width)

hist(iris(달러표시)Sepal.Length, breaks=20)

x <- matrix(rnorm(1000), nrow=100)
class(x)

hist(x)
```

![](../images/2020-11-06-r-2/Untitled126.png)

![](../images/2020-11-06-r-2/Untitled127.png)

![](../images/2020-11-06-r-2/Untitled128.png)

![](../images/2020-11-06-r-2/Untitled129.png)

![](../images/2020-11-06-r-2/Untitled130.png)

## box plot

box plot은 주로 금융 데이터와 같은 시계열 데이터에서 주로 사용되는데, 연속형 자료에 대한 min, max, Q1, Q2, Q3의 다섯 가지 정보에 대한 요약된 정보를 상자와 선, 점으로 표현하는 그래프이다. 

![](../images/2020-11-06-r-2/Untitled131.png)

박스의 크기는 Q1, Q3값에 따라 결정되며, 가운데의 굵은 선은 median으로서 Q2값에 해당한다. 상자의 위 아래로 min, max에서 +-1.5IQR 처리된 값이 표현되며, 데이터의 이상치값은 별도로 점으로 찍힌다.

R에서 box plot을 그릴 수 있는 자료형은 숫자형 벡터, 행렬, 데이터프레임이 해당한다. 사용하는 함수는 `boxplot()`이다.

#### 실습 코드 1

```r
# Boxplot
boxplot(iris(달러표시)Sepal.Length)

boxplot(iris(달러표시)Sepal.Length, iris(달러표시)Sepal.Width, iris(달러표시)Petal.Length, iris(달러표시)Petal.Width)

boxplot(iris[,1:4])
```

![](../images/2020-11-06-r-2/Untitled132.png)

![](../images/2020-11-06-r-2/Untitled133.png)

![](../images/2020-11-06-r-2/Untitled134.png)

![](../images/2020-11-06-r-2/Untitled135.png)

#### 실습 코드 2

범주별로 box plot을 표현할 수도 있다. `boxplot()` 함수에 `~` 표시를 이용해 사용 가능하다.

```r
# Boxplot: ~ Formula
table(iris(달러표시)Species)

boxplot(iris(달러표시)Petal.Length~iris(달러표시)Species)

boxplot(Petal.Length~Species, data=iris)
```

![](../images/2020-11-06-r-2/Untitled136.png)

![](../images/2020-11-06-r-2/Untitled137.png)

![](../images/2020-11-06-r-2/Untitled138.png)

## bar plot

bar plot은 범주형 데이터에 사용하며, 카테고리별로 빈도수나 백분율을 기둥의 높이로 표현하는 그래프다. `barplot()` 함수를 사용한다.

#### 실습 코드 1

```r
# Barplot
head(BOD)
?BOD

barplot(BOD(달러표시)demand)
barplot(BOD(달러표시)demand, names.arg = BOD(달러표시)Time)

# 
head(mtcars)
dim(mtcars)

cyl_freq=table(mtcars(달러표시)cyl)
barplot(cyl_freq)

cyl_gear_freq=table(mtcars(달러표시)cyl, mtcars(달러표시)gear)

barplot(cyl_gear_freq)
barplot(cyl_gear_freq, beside = T)
```

![](../images/2020-11-06-r-2/Untitled139.png)

![](../images/2020-11-06-r-2/Untitled140.png)

![](../images/2020-11-06-r-2/Untitled141.png)

![](../images/2020-11-06-r-2/Untitled142.png)

![](../images/2020-11-06-r-2/Untitled143.png)

![](../images/2020-11-06-r-2/Untitled144.png)

위 그래프 만으로는 x축과 y축에 대한 정보를 알 수 없다. 각 축에 대한 라벨링 작업을 수행할 수 있다. 또한 추가적으로 x축, y축의 범위를 나타낼 수 있다.

#### 실습 코드 2

```r
# graphic parameter
barplot(cyl_gear_freq, beside = T, xlab = "Gears", ylab = "Cylinder")

barplot(cyl_gear_freq, beside = T, xlab = "Gears", ylab = "Cylinder", ylim = c(0, 20))
```

![](../images/2020-11-06-r-2/Untitled145.png)

![](../images/2020-11-06-r-2/Untitled146.png)

![](../images/2020-11-06-r-2/Untitled148.png)

그래프에 대한 더 다양한 작업이 가능한데, x축의 값에 대한 각도를 바꾸는 `las` 파라미터를 사용한다.

#### 실습 코드 3

```r
barplot(cyl_gear_freq, beside = T, xlab = "Gears", ylab = "Cylinder", ylim = c(0, 20), las=2)
```

![](../images/2020-11-06-r-2/Untitled149.png)

패널의 배열 및 여백을 조절할 수 있는 par() 함수가 있다. 여러 파라미터가 있으므로 다양한 옵션을 줄 수 있다. 이 노트에서는 mfrow 파라미터를 통해 그래프의 구획을 나눠주겠다. 

#### 실습 코드 4

```r
par(mfrow=c(2,2))

plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='red')

plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='blue')

plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='green')

plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='pink')
```

![](../images/2020-11-06-r-2/Untitled150.png)

par() 함수를 한 번 사용하게 되면, 다음 그래프에도 영향을 주게 되므로 이를 초기화하는 작업이 필요하다. 이 땐, `graphics.off()` 함수 또는 `dev.off()` 함수를 사용한다.

#### 실습 코드 5

```r
graphics.off()
dev.off()
```

`par()` 함수의 옵션 중 여백(마진)을 조절할 수 있는 `mar` 파라미터가 있다. 

#### 실습 코드 6

```r
par(mar=c(0,0,0,0))
plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='pink')

par(mar=c(5,0,0,0))
plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='pink')

par(mar=c(5,5,0,0))
plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='pink')

par(mar=c(5,5,5,0))
plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='pink')

par(mar=c(5,5,5,5))
plot(x = pressure(달러표시)temperature, y = pressure(달러표시)pressure, cex=1, col='pink')
```

![](../images/2020-11-06-r-2/Untitled151.png)

![](../images/2020-11-06-r-2/Untitled152.png)

![](../images/2020-11-06-r-2/Untitled153.png)

![](../images/2020-11-06-r-2/Untitled154.png)

![](../images/2020-11-06-r-2/Untitled155.png)

## 색 지정

R에서는 657개의 색을 지정해서 사용할 수 있다. 

```r
colors()
```

![](../images/2020-11-06-r-2/Untitled156.png)

### color set

그래프에 컬러 셋을 자동으로 설정하게 할 수 있다. 사용 가능한 컬러셋은 다음과 같이 알아낼 수 있다.

```r
library("RColorBrewer")
display.brewer.all()
```

![](../images/2020-11-06-r-2/Untitled157.png)

실제 그래프에 컬러셋을 적용한 코드는 다음과 같다.

```r
display.brewer.pal(n = 8, name= "RdBu")
brewer.pal(n = 8, name="RdBu") # color code값 추출
barplot(c(2,5,7), col=brewer.pal(n=3, name="RdBu")) # 그래프에 color 적용
```

![](../images/2020-11-06-r-2/Untitled158.png)

![](../images/2020-11-06-r-2/Untitled159.png)

![](../images/2020-11-06-r-2/Untitled160.png)

## ggplot

### ggplot으로 그림 그리기

ggplot을 사용하여 그래프를 그리기 위해서는 `ggplot()` 함수와 함께 `+`를 이용하여 그래프 형태와 테마, 색깔, 그룹 지정 등에 해당하는 옵션들을 추가하면 된다. 단, 기본 입력 데이터가 데이터프레임이어야 한다. `ggplot()` 함수의 파라미터는 다음과 같다.

```r
ggplot(data=data.frame, aes(x=x축 데이터 컬럼의 이름), y=y축 데이터 컬럼의 이름)) + geom_xx() + ...
```

축의 이름은 실제 축의 이름을 입력해야 한다.

`ggplot()` 함수만으로는 plotting이 되지 않으며, `+`를 이용해 어떤 그래프를 그릴지에 대한 추가적인 정보를 입력해야 한다. 입력할 수 있는 정보는 다음과 같다.

- `geom_point()`
- `geom_line()`
- `geom_boxplot()`
- `geon_bar()`

**실습 코드**

```r
library(ggplot2)

# geom_point
ggplot(data = iris, aes(x = Petal.Length, y = Petal.Width)) + geom_point(size=3, color='red')

# geom_line
ggplot(data = pressure, aes(x = temperature, y= pressure)) + geom_line() + geom_point()

# geom_boxplot()
ggplot(data = iris, aes(x=Species, y=Petal.Length, fill=Species))+geom_boxplot()

# geom_bar()
ggplot(data = mtcars, aes(x=factor(cyl))) + geom_bar() # factor: 범주형 데이터
```

![](../images/2020-11-06-r-2/Untitled161.png)

![](../images/2020-11-06-r-2/Untitled162.png)

![](../images/2020-11-06-r-2/Untitled163.png)

![](../images/2020-11-06-r-2/Untitled164.png)

### 직접 만든 데이터를 데이터프레임화 하여 그래프 그리기

#### 실습 코드

```r
df=data.frame(table(mtcars(달러표시)cyl))
df

ggplot(data = df, aes(x = Var1, y=Freq)) + geom_bar(stat = 'identity')

ggplot(data = df, aes(x = Var1, y=Freq)) + geom_bar(stat = 'identity', fill='blue', width=0.5) + ylab("Frequency") + xlab("Cylinders")
```

![](../images/2020-11-06-r-2/Untitled165.png)

![](../images/2020-11-06-r-2/Untitled166.png)

```r
gg <- ggplot(data=iris, aes(x = Petal.Length, y = Petal.Width))+geom_point(aes(color=Species, shape=Species), size=3)

gg

gg + theme_bw()
gg + theme_classic()
gg + theme_dark()

gg + theme(text = element_text(size = 15, face = 'bold'))
gg + theme(axis.title.x = element_text(size = 15, face = 'bold'))
gg + theme(axis.text.x = element_text(size = 15, face = 'bold'))
gg + theme(legend.position = 'top')
```

![](../images/2020-11-06-r-2/Untitled167.png)

![](../images/2020-11-06-r-2/Untitled168.png)

![](../images/2020-11-06-r-2/Untitled169.png)

![](../images/2020-11-06-r-2/Untitled170.png)

![](../images/2020-11-06-r-2/Untitled171.png)

![](../images/2020-11-06-r-2/Untitled172.png)

## 문제

R 기본내장 데이터인 iris 데이터를 이용해 다음의 boxplot을 그리시오.

![](../images/2020-11-06-r-2/Untitled173.png)

```r
boxplot(Sepal.Length~Species, data=iris, xlab="Species", ylab="Sepal Length")
boxplot(iris(달러표시)Sepal.Length~iris(달러표시)Species, xlab="Species", ylab="Sepal Length")
```

# Reference

- K-genome
- [https://rfriend.tistory.com/20](https://rfriend.tistory.com/20)
- [https://rfriend.tistory.com/124](https://rfriend.tistory.com/124)
- [https://rfriend.tistory.com/125](https://rfriend.tistory.com/125?category=605867)
- [https://jjoyling.tistory.com/31](https://jjoyling.tistory.com/31)