# <font color = 'color'>[R텍마02] 2부1장_텍스트분석을 위한 데이터순환 관련함수</font>

### 데이터 순환사용(recycling); 벡터연산(vector broadcasting)
* 데이터셋에 들어 있는 요소항목별로 필요한 함수를 일괄적용하는 방법

* base 패키지의 apply() 계열 함수
<br>- apply(), lappy(), sapply(), tapply()<pre></pre>

* purrr 패키지의 map() 계열 함수
<br>- map(), map_dbl(), map_int(), map_df(), map_chr(), map_lgl(), map_if()  

# <font color = 'blue'>apply() 함수(p.36)</font>
* 가로/세로 구조를 가진 행렬이나 데이터프레임 형식을 가진 데이터셋에 대해 
<br>가로방향(행/레코드/관찰치 단위)으로, 또는 세로방향(열/변수컬럼/필드 단위)으로 필요한 함수를 일괄 적용해줌

### 간단 행렬데이터에 대한 가로&세로 방향 연산

In [1]:
# 간단 데이터 생성
m <- matrix(1:9, nrow = 3)

m
print(m)

0,1,2
1,4,7
2,5,8
3,6,9


     [,1] [,2] [,3]
[1,]    1    4    7
[2,]    2    5    8
[3,]    3    6    9


In [None]:
숫자가 nrow X nrow 갯수에 비해 부족하면 결측지 NA로 채워야해

#### 행렬전용 함수를 이용한 가로 & 세로 방향 연산

In [2]:
# rowSums() 함수이용 행렬데이터에 대한 가로방향 연산

rowSums(m) 
print(rowSums(m))
# - 행렬데이터 m객체에 대해 가로방향으로 각 행(row)별로 합(sum)을 구함

class(rowSums(m))
# - rowSums() 함수의 연산결과는 실수(numeric) 숫자임

[1] 12 15 18


In [3]:
# colSums() 함수이용 행렬데이터에 대한 세로방향 연산
colSums(m)
print(colSums(m))
# - 행렬데이터 m객체에 대해 세로방향으로 각 열(col)별로 합(sum)을 구함

class(colSums(m))
# - colSums() 함수의 연산결과는 실수(numeric) 숫자임

[1]  6 15 24


#### apply() 함수를 이용한 가로 & 세로 방향 연산
* rowSums()와 colSums() vs. apply() 
<br>- rowSums는 가로방향으로, colSums()는 세로방향으로 총합만 구할수 있음
<br>- apply()는 가로/세로방향으로 다양한 함수를 사용할 수 있음

In [4]:
# apply() 함수를 이용한 가로 & 세로 방향 연산

apply(m, 1, sum) 
print(apply(m, 1, sum))
# - m객체에 들어 있는 데이터에 대해서 가로방향(인수 1)으로 
#   sum()함수를 한줄 한줄 적용한 결과

class(apply(m, 1, sum) )
# - apply() 함수의 연산결과는 정수(integer) 숫자임

[1] 12 15 18


In [5]:
# apply() 함수를 이용한 가로 & 세로 방향 연산

apply(m, 2, sum)
print(apply(m, 2, sum))
# - m객체에 들어 있는 데이터에 대해서 세로방향(인수 2)으로 
#   sum()함수를 한칸 한칸 적용한 결과

class(apply(m, 2, sum) )
# - apply() 함수의 연산결과는 정수(integer) 숫자임

[1]  6 15 24


#### 객체간 형식&내용 동일성 검토

In [6]:
# 가로방향 연산결과에 대한 동일성 검토
identical(rowSums(m), apply(m, 1, sum))

str(rowSums(m)) # 데이터유형은 숫자, 객체형식은 실수벡터(num)임
str(apply(m, 1, sum)) # 데이터유형은 숫자, 객체형식이 정수(int)임

# - rowSums()와 apply() 산출결과의 형식은 달라도 숫자내용은 동일하며
#   실수, 정수간 서로 형식 변환이 가능하므로 문제없음

 num [1:3] 12 15 18
 int [1:3] 12 15 18


In [7]:
# 실수(numeric)숫자와 정수(integer)숫자간 자유로운 객체형식 변환

# 파이프연산자 패키지로딩
# install.packages('magrittr')
library(magrittr)

rowSums(m) %>% as.integer %>% str 
# - 실수벡터(num)를 정수벡터(int)로 변환

apply(m, 1, sum) %>% as.numeric %>% str 
# - 정수벡터(int)를 실수벡터(num)로 변환

 int [1:3] 12 15 18
 num [1:3] 12 15 18


#### 데이터에 NA가 있는 경우의 연산

In [8]:
# 특정 요소의 값을 NA로 설정
m[2, 1] <- NA

m
print(m)

0,1,2
1.0,4,7
,5,8
3.0,6,9


     [,1] [,2] [,3]
[1,]    1    4    7
[2,]   NA    5    8
[3,]    3    6    9


In [9]:
# 행(가로)방향 연산

rowSums(m) # 사칙연산에서 NA가 있으면 결과도 NA로 나옴
rowSums(m, na.rm = TRUE) # NA를 제외한 실제 데이터만 갖고 사칙연산수행

In [10]:
# 열(세로)방향 연산결과

apply(m, 2, sum) # 사칙연산에서 NA가 있으면 결과도 NA로 나옴
apply(m, 2, sum, na.rm = TRUE)  # NA를 제외한 실제 데이터만 갖고 사칙연산수행

### 데이터프레임 데이터셋을 이용한 가로&세로방향 연산

In [11]:
# 데이터셋 생성
student <- c("John Davis","Angela Williams","Bullwinkle Moose",
             "David Jones","Janice Markhammer", "Cheryl Cushing",
             "Reuven Ytzrhak", "Greg Knox","Joel England","Mary Rayburn")
math <- c(72, 86, 59, 51, 71, 73, 59, 89, 82, 75)
science <- c(95, 99, 80, 82, 75, 85, 80, 95, 89, 86)
english <- c(80, 70, 60, 50, 70, 90, 50, 100, 90, 60)

#### 데이터프레임 객체로 가공

In [12]:
# data.frame 객체형태로 가공
roster_df <- data.frame(student, 
                        math, 
                        science, 
                        english, 
                        stringsAsFactors = FALSE)

roster_df

student,math,science,english
John Davis,72,95,80
Angela Williams,86,99,70
Bullwinkle Moose,59,80,60
David Jones,51,82,50
Janice Markhammer,71,75,70
Cheryl Cushing,73,85,90
Reuven Ytzrhak,59,80,50
Greg Knox,89,95,100
Joel England,82,89,90
Mary Rayburn,75,86,60


In [13]:
# 데이터프레임 객체 구조확인
str(roster_df)

'data.frame':	10 obs. of  4 variables:
 $ student: chr  "John Davis" "Angela Williams" "Bullwinkle Moose" "David Jones" ...
 $ math   : num  72 86 59 51 71 73 59 89 82 75
 $ science: num  95 99 80 82 75 85 80 95 89 86
 $ english: num  80 70 60 50 70 90 50 100 90 60


#### 티블 객체로 가공

In [14]:
# tibble 객체형태로 가공
# install.packages("tibble)
library(tibble)

roster_tb <- tibble(student, math, science, english)
roster_tb

student,math,science,english
John Davis,72,95,80
Angela Williams,86,99,70
Bullwinkle Moose,59,80,60
David Jones,51,82,50
Janice Markhammer,71,75,70
Cheryl Cushing,73,85,90
Reuven Ytzrhak,59,80,50
Greg Knox,89,95,100
Joel England,82,89,90
Mary Rayburn,75,86,60


In [15]:
# 티블 객체 구조확인
str(roster_tb)

Classes 'tbl_df', 'tbl' and 'data.frame':	10 obs. of  4 variables:
 $ student: chr  "John Davis" "Angela Williams" "Bullwinkle Moose" "David Jones" ...
 $ math   : num  72 86 59 51 71 73 59 89 82 75
 $ science: num  95 99 80 82 75 85 80 95 89 86
 $ english: num  80 70 60 50 70 90 50 100 90 60


In [16]:
# 또는 data.frame객체를 tibble 객체로 변환
roster <- tibble::as_tibble(roster_df)
roster

student,math,science,english
John Davis,72,95,80
Angela Williams,86,99,70
Bullwinkle Moose,59,80,60
David Jones,51,82,50
Janice Markhammer,71,75,70
Cheryl Cushing,73,85,90
Reuven Ytzrhak,59,80,50
Greg Knox,89,95,100
Joel England,82,89,90
Mary Rayburn,75,86,60


In [17]:
# 티블 객체 구조확인
str(roster)

Classes 'tbl_df', 'tbl' and 'data.frame':	10 obs. of  4 variables:
 $ student: chr  "John Davis" "Angela Williams" "Bullwinkle Moose" "David Jones" ...
 $ math   : num  72 86 59 51 71 73 59 89 82 75
 $ science: num  95 99 80 82 75 85 80 95 89 86
 $ english: num  80 70 60 50 70 90 50 100 90 60


In [18]:
# 점수 변수만 인덱싱
roster[2:4]

math,science,english
72,95,80
86,99,70
59,80,60
51,82,50
71,75,70
73,85,90
59,80,50
89,95,100
82,89,90
75,86,60


#### 가로방향 연산

In [19]:
# 가로방향 연산
# - 각 학생별 과목점수에 대한 연산

rowSums(roster[2:4])

apply(roster[2:4], 1, length)
apply(roster[2:4], 1, sum)
apply(roster[2:4], 1, max)
apply(roster[2:4], 1, min)
apply(roster[2:4], 1, median)
apply(roster[2:4], 1, mean) %>% round(1)
apply(roster[2:4], 1, sd) %>% round(1)

In [20]:
# 가로방향으로 기술통계함수 summary() 적용
apply(roster[2:4], 1, summary)

0,1,2,3,4,5,6,7,8,9,10
Min.,72.0,70.0,59.0,50.0,70.0,73.0,50.0,89.0,82.0,60.0
1st Qu.,76.0,78.0,59.5,50.5,70.5,79.0,54.5,92.0,85.5,67.5
Median,80.0,86.0,60.0,51.0,71.0,85.0,59.0,95.0,89.0,75.0
Mean,82.33333,85.0,66.33333,61.0,72.0,82.66667,63.0,94.66667,87.0,73.66667
3rd Qu.,87.5,92.5,70.0,66.5,73.0,87.5,69.5,97.5,89.5,80.5
Max.,95.0,99.0,80.0,82.0,75.0,90.0,80.0,100.0,90.0,86.0


In [21]:
roster$avg <- apply(roster[2:4], 1, mean) %>% round(1)
roster$std <- apply(roster[2:4], 1, sd) %>% round(1)
roster

student,math,science,english,avg,std
John Davis,72,95,80,82.3,11.7
Angela Williams,86,99,70,85.0,14.5
Bullwinkle Moose,59,80,60,66.3,11.8
David Jones,51,82,50,61.0,18.2
Janice Markhammer,71,75,70,72.0,2.6
Cheryl Cushing,73,85,90,82.7,8.7
Reuven Ytzrhak,59,80,50,63.0,15.4
Greg Knox,89,95,100,94.7,5.5
Joel England,82,89,90,87.0,4.4
Mary Rayburn,75,86,60,73.7,13.1


In [22]:
# 특정변수컬럼을 기준으로 정렬하기
# install.packages('dplyr')
library(dplyr)
library(magrittr)

arrange(roster, desc(avg), desc(std))
cat('\n')
roster %>% arrange(desc(avg), desc(std))


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union



student,math,science,english,avg,std
Greg Knox,89,95,100,94.7,5.5
Joel England,82,89,90,87.0,4.4
Angela Williams,86,99,70,85.0,14.5
Cheryl Cushing,73,85,90,82.7,8.7
John Davis,72,95,80,82.3,11.7
Mary Rayburn,75,86,60,73.7,13.1
Janice Markhammer,71,75,70,72.0,2.6
Bullwinkle Moose,59,80,60,66.3,11.8
Reuven Ytzrhak,59,80,50,63.0,15.4
David Jones,51,82,50,61.0,18.2





student,math,science,english,avg,std
Greg Knox,89,95,100,94.7,5.5
Joel England,82,89,90,87.0,4.4
Angela Williams,86,99,70,85.0,14.5
Cheryl Cushing,73,85,90,82.7,8.7
John Davis,72,95,80,82.3,11.7
Mary Rayburn,75,86,60,73.7,13.1
Janice Markhammer,71,75,70,72.0,2.6
Bullwinkle Moose,59,80,60,66.3,11.8
Reuven Ytzrhak,59,80,50,63.0,15.4
David Jones,51,82,50,61.0,18.2


#### 세로방향 연산

In [23]:
# 세로방향 연산
# - 각 과목별 학생점수에 대한 연산

colSums(roster[2:4])

apply(roster[2:4], 2, length)
apply(roster[2:4], 2, sum)
apply(roster[2:4], 2, max)
apply(roster[2:4], 2, min)
apply(roster[2:4], 2, median)
apply(roster[2:4], 2, mean) %>% round(1)
apply(roster[2:4], 2, sd) %>% round(1)

In [24]:
# 세로방향으로 기술통계함수 summary() 적용
apply(roster[2:4], 2, summary)

Unnamed: 0,math,science,english
Min.,51.0,75.0,50.0
1st Qu.,62.0,80.5,60.0
Median,72.5,85.5,70.0
Mean,71.7,86.6,72.0
3rd Qu.,80.25,93.5,87.5
Max.,89.0,99.0,100.0


# <font color = 'blue'>다양한 데이터순환 함수(p.36)</font>
* 특정 데이터셋에 들어 있는 각 요소항목별로 
<br>필요한 함수를 일괄 적용해서 리스트객체로 만들어줌

### 간단 리스트 객체 생성

In [25]:
# 간단 리스트 형식 데이터 생성
ex <- list(A = matrix(1:12, 3, byrow = FALSE), B = 1:5, 
           C = matrix(1:4, 2), D = rep(c(2, 4), 3))

print(ex)
# - 전형적인 리스트 형식객체임

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



### 데이터순환 적용결과를 리스트객체로 리턴

#### 각 요소항목별 합(sum) 구하기

In [26]:
# base::lapply() 함수사용 데이터순환
print(lapply(ex, sum))
# - 각 리스트항목에 접근해 sum함수를 적용한 결과를 리스트형식으로 만들어줌

class(lapply(ex, sum))
# - lapply() 함수적용 결과는 숫자형 리스트객체임

# 리스트객체 구조를 해제하여, 벡터객체로 변환
print(unlist(lapply(ex, sum)))
class(unlist(lapply(ex, sum)))

$A
[1] 78

$B
[1] 15

$C
[1] 10

$D
[1] 18



 A  B  C  D 
78 15 10 18 


In [27]:
# purr::map() 함수사용 데이터순환
# install.packages('purrr')
library(purrr)
print(map(ex, sum))

class(map(ex, sum))
# - map() 함수적용 결과는 숫자형 리스트객체임

# 리스트객체 구조를 해제하여, 벡터객체로 변환
print(unlist(map(ex, sum)))
class(unlist(map(ex, sum)))


Attaching package: 'purrr'

The following object is masked from 'package:magrittr':

    set_names



$A
[1] 78

$B
[1] 15

$C
[1] 10

$D
[1] 18



 A  B  C  D 
78 15 10 18 


In [28]:
# 두 방식간 동일성 체크

identical(lapply(ex, sum), map(ex, sum))

identical(unlist(lapply(ex, sum)), unlist(map(ex, sum)))

#### 각 요소항목별 길이(length) 구하기

In [29]:
# ex 리스트객체 내용 재확인
print(ex)

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



In [30]:
# base패키지 lapply() 함수사용
print(lapply(ex, length))
# - 각 리스트항목에 접근해 sum함수를 적용한 결과를 리스트형식으로 만들어줌

print(unlist(lapply(ex, length)))
# - unlist()함수를 이용해 리스트객체를 벡터객체로 변환

$A
[1] 12

$B
[1] 5

$C
[1] 4

$D
[1] 6

 A  B  C  D 
12  5  4  6 


In [31]:
# 데이터 순환사용 purr패키지 사용
# install.packages('purrr')
library(purrr)

print(map(ex, length))

print(unlist(map(ex, length)))
# - unlist()함수를 이용해 리스트객체를 벡터객체로 변환

$A
[1] 12

$B
[1] 5

$C
[1] 4

$D
[1] 6

 A  B  C  D 
12  5  4  6 


In [32]:
# 두 방식간 동일성 체크

identical(lapply(ex, length), map(ex, length))

identical(unlist(lapply(ex, length)), unlist(map(ex, length)))

### 데이터순환 적용결과를 벡터객체로 리턴

#### 각 요소항목별 합(sum) 구하기

In [33]:
# ex 리스트객체 내용 재확인
print(ex)

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



In [34]:
# base패키f지 lapply() 함수사용
print(sapply(ex, sum))
# - 각 리스트항목에 접근해 sum함수를 적용한 결과를 리스트형식으로 만들어줌
# - sum() 함수의 연산결과는 실수임

class(sapply(ex, sum))
# - sum() 함수는 실수형(numeric) 수치로 합을 구해주며, 
#   sapply()를 통해 실수형(numeric) 벡터객체로 리턴됨

 A  B  C  D 
78 15 10 18 


In [35]:
# 데이터 순환사용 purr패키지 사용
# install.packages('purrr')
library(purrr)

print(map_dbl(ex, sum))
# - map_dbl() 함수의 데이터순환 연산결과는 실수임


class(map_dbl(ex, sum))
# - sum() 함수는 실수형(numeric) 수치로 합을 구해주며, 
#   map_dlb()을 통해 실수형(numeric) 벡터객체로 리턴됨

 A  B  C  D 
78 15 10 18 


In [36]:
# 두 방식간 동일성 체크

identical(sapply(ex, sum), map_dbl(ex, sum))

#### 각 요소항목별 길이(length) 구하기

In [37]:
# ex 리스트객체 내용 재확인
print(ex)

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



In [38]:
# base패키지 lapply() 함수사용
print(sapply(ex, length))
# - 각 리스트항목에 접근해 length함수를 적용한 결과를 리스트형식으로 만들어줌
# - length() 함수의 결과는 정수임

class(sapply(ex, length))
# - length() 함수는 정수형(integer) 수치로 요소갯수를 구해주며, 
#   sapply()를 통해 정수형(numeric) 벡터객체로 리턴됨

 A  B  C  D 
12  5  4  6 


In [39]:
# 데이터 순환사용 purr패키지 사용
# install.packages('purrr')
library(purrr)

print(map_int(ex, length))
# - map_int() 함수의 데이터순환 연산결과는 정수임

class(map_int(ex, length))
# - length() 함수는 정수형(integer) 수치로 요소갯수를 구해주며, 
#   map_int()를 통해 정수형(numeric) 벡터객체로 리턴됨

 A  B  C  D 
12  5  4  6 


In [40]:
# 두 방식간 동일성 체크

identical(sapply(ex, length), map_int(ex, length))

### 데이터순환 적용결과를 다양한 객체형식으로 리턴

#### 데이터순환 적용결과를 데이터프레임 객체형식으로 리턴받음

In [41]:
# ex 리스트객체 내용 재확인
print(ex)

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



In [42]:
# purrr::map_df() 함수사용

map_df(ex, sum)
# - 리스트객체인 ex의 각 리스트항목에 접근해 sum함수를 적용(mapping)해서
#   그 결과를 데이터프레임 형식으로 만들어 줌

class(map_df(ex, sum))
# - purrr 패키지로 연산한 결과는 최신 자료저장객체 형식인 
#  티블(tibble) 구조와 데이터프레임(data.frame) 구조를 같이 가지고 있음

A,B,C,D
78,15,10,18


#### 데이터순환 적용결과를 문자열 객체형식으로 리턴받음

In [43]:
# ex 리스트객체 내용 재확인
print(ex)

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



In [44]:
# purrr::map_chr() 함수사용

map_chr(ex, sum)
# - ex리스트 객체의 각 리스트항목에 sum을 적용한 결과, 
#   실수형 합이 계산되는데 이를 강제로 문자벡터형식으로 변환해 출력해 줌

class(map_chr(ex, sum))

#### 데이터순환 적용결과를 논리형 객체형식으로 리턴받음

In [45]:
# ex 리스트객체 내용 재확인
print(ex)

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



In [46]:
# purrr::map_lgl() 함수사용

map_lgl(ex, is.matrix)
# - ex리스트 객체의 각 리스트항목에 is.matrix() 함수를 적용한 결과, 
#   각 리스트항목이 행렬객체인지를 파악해 
#   논리벡터 형식으로 반환해줌

class(map_lgl(ex, is.matrix))

In [47]:
# purrr::map_lgl() 함수사용

map_lgl(ex, is.numeric)
# - ex리스트 객체의 각 리스트항목에 numeric() 함수를 적용한 결과, 
#   각 리스트항목에 속한 요소들이 실수숫자인지를 파악해 
#   논리벡터 형식으로 반환해줌

class(map_lgl(ex, is.numeric))

#### 데이터순환 적용시 if조건에 부합하는 요소에만 적용하도록 함

In [48]:
# ex 리스트객체 내용 재확인
print(ex)

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



In [49]:
# purrr::map_if() 함수사용

print(map_if(ex, is.vector, summary)) 

# - ex리스트 객체의 각 리스트항목에 is.vector() 함수를 적용한 결과, 
#   각 리스트항목 중에서 벡터형식에만 summary() 함수를 적용해
#   그대로 리스트 형식으로 반환해줌

# - 4개 리스트항목요소 중에서 $B와 $D 항목이 벡터형식이라
#   summary()함수가 적용됨

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      1       2       3       3       4       5 

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      2       2       3       3       4       4 



In [50]:
# purrr::map_if() 함수사용

# 데이터순환시 사용자정의함수를 이용해도 됨
map_if(ex, is.matrix, function(x) {x * 3}) 
# - 익명/무명 함수방식

cat('\n')

map_if(ex, is.matrix, ~ .x * 3) 
# - 관계식(formula) 설정방식

# - ex리스트 객체의 각 리스트항목에 is.matrix() 함수를 적용한 결과, 
#   각 리스트항목 중에서 행렬(매트릭스)형식에만 곱하기 3을 하고
#   그대로 리스트 형식으로 반환해줌

# - 4개 리스트항목요소 중에서 $A와 $C 항목이 행렬형식이라
#   summary()함수가 적용됨

0,1,2,3
3,12,21,30
6,15,24,33
9,18,27,36

0,1
3,9
6,12





0,1,2,3
3,12,21,30
6,15,24,33
9,18,27,36

0,1
3,9
6,12


# <font color = 'blue'>결측치(NA)가 포함된 객체에 대한 데이터순환 함수 적용(p.37)</font>
* 데이터순환 함수를 적용할 객체내용 중에서 NA가 포함되어 있는 경우 연산결과도 NA로 나오므로,
<br>NA에 대한 고려를 통해 적절한 연산이 되도록 해야함

### 행렬객체에 대한 인덱싱

In [51]:
# ex 리스트객체 내용 재확인
print(ex)

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



In [52]:
## ex리스트객체에 A라는 행렬 리스트항목에 접근하기

print(ex$A)
cat('\n')
# - ex객체의 리스트요소항목 이름 중 $A라는 방식으로 인덱싱

print(ex[["A"]])
cat('\n')
# - ex객체의 리스트요소항목 이름 중 [[A]]라는 방식으로 인덱싱

print(ex[[1]])
# - ex객체의 리스트요소항목 인덱스 중 [[1]]이라는 방식으로 인덱싱

     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12


In [53]:
print(ex$A[2, ])
cat('\n')
# - ex객체의 리스트요소항목 이름 중 $A 요소에 대해 
#   2행에 있는 세부요소를 인덱싱

print(ex[["A"]][2, ])
cat('\n')
# - ex객체의 리스트요소항목 이름 중 [[A]] 요소에 대해 
#   2행에 있는 세부요소를 인덱싱

print(ex[[1]][2, ])
# - ex객체의 리스트요소항목 인덱스 중 [[1]]이라는 요소에 대해 
#   2행에 있는 세부요소를 인덱싱 

[1]  2  5  8 11

[1]  2  5  8 11

[1]  2  5  8 11


In [54]:
ex$A[ , 3]
cat('\n')
# - ex객체의 리스트요소항목 이름 중 $A 요소에 대해 
#   3열에 있는 세부요소를 인덱싱

ex[["A"]][ , 3]
cat('\n')
# - ex객체의 리스트요소항목 이름 중 [[A]] 요소에 대해 
#   3열에 있는 세부요소를 인덱싱

ex[[1]][ , 3]
# - ex객체의 리스트요소항목 인덱스 중 [[1]]이라는 요소에 대해 
#   3열에 있는 세부요소를 인덱싱 







In [55]:
ex$A[2, 3]
cat('\n')
# - ex객체의 리스트요소항목 이름 중 $A 요소에 대해 
#   2행, 3열에 있는 세부요소를 인덱싱

ex[["A"]][2, 3]
cat('\n')
# - ex객체의 리스트요소항목 이름 중 [[A]] 요소에 대해 
#   2행, 3열에 있는 세부요소를 인덱싱

ex[[1]][2, 3]
# - ex객체의 리스트요소항목 인덱스 중 [[1]]이라는 요소에 대해 
#   2행, 3열에 있는 세부요소를 인덱싱 







### 리스트객체 특정요소를 NA값으로 변환

In [56]:
# ex 리스트객체 내용 재확인
print(ex)

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1] 2 4 2 4 2 4



#### 특정 리스트항목 요소에 대한 결측치 값 반영

In [57]:
# ex리스트객체에서 A라는 리스트항목 중 2행, 3열에 있는 요소에 NA를 입력 

ex$A[2, 3] <- NA
ex[["A"]][2, 3] <- NA
ex[[1]][2, 3] <- NA

In [58]:
# ex리스트객체에서 A라는 리스트항목을 출력해 NA입력부분 반영여부 확인

print(ex$A)
cat('\n')

print(ex[["A"]])
cat('\n')

print(ex[[1]])

     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5   NA   11
[3,]    3    6    9   12

     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5   NA   11
[3,]    3    6    9   12

     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5   NA   11
[3,]    3    6    9   12


#### 특정 리스트항목 요소에 대한 결측치 값 반영

In [59]:
ex$D[5] <- NA
ex[["D"]][5] <- NA
ex[[4]][5] <- NA
# - 리스트객체ex에서 D라는 리스트항목의 5번째 요소값에 대해서 
#   NA처리 후 반영여부를 확인

In [60]:
# ex리스트객체에서 D라는 리스트항목을 출력해 NA입력부분 반영여부 확인

print(ex$D)
cat('\n')

print(ex[["D"]])
cat('\n')

print(ex[[4]])

[1]  2  4  2  4 NA  4

[1]  2  4  2  4 NA  4

[1]  2  4  2  4 NA  4


In [61]:
print(ex)
# - 전체적인 NA반영 현황 재확인

$A
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5   NA   11
[3,]    3    6    9   12

$B
[1] 1 2 3 4 5

$C
     [,1] [,2]
[1,]    1    3
[2,]    2    4

$D
[1]  2  4  2  4 NA  4



### NA값이 포함된 리스트객체에 데이터순환을 적용해 리스트객체로 리턴

In [62]:
# 리스트객체에 NA값이 포함되어 있는데, 그대로 데이터순환 함수를 적용하는 경우

print(lapply(ex, sum))
print(map(ex, sum))
# - 각 리스트항목에 접근해 sum함수를 적용한 결과를 리스트형식으로 만들어줌
# - 리스트항목 B, C를 활용해서 정상적으로 합계 출력됨
# - NA요소를 가지고 있는 A와 D 리스트 항목에 대한 합계계산 결과는 NA로 출력됨

print(unlist(lapply(ex, sum)))
print(unlist(map(ex, sum)))
# - unlist()함수를 이용해 리스트객체를 벡터객체로 만듬

$A
[1] NA

$B
[1] 15

$C
[1] 10

$D
[1] NA

$A
[1] NA

$B
[1] 15

$C
[1] 10

$D
[1] NA

 A  B  C  D 
NA 15 10 NA 
 A  B  C  D 
NA 15 10 NA 


In [63]:
# 리스트객체에 NA값이 포함되어 있는데, 적절한 고려를 통해 데이터순환 함수를 적용하는 경우

lapply(ex, sum, na.rm = TRUE)
map(ex, sum, na.rm = TRUE)

# - ex리스트객체의 각 리스트항목에 접근해 sum() 적용시 NA요소가 있을 경우
#   이를 제외하고 sum() 함수를 적용하도록 na.rm = TRUE 옵션을 사용함

print(unlist(lapply(ex, sum, na.rm = TRUE)))
print(unlist(map(ex, sum, na.rm = TRUE)))
# - unlist()함수를 이용해 리스트객체를 벡터객체로 만듬

 A  B  C  D 
70 15 10 16 
 A  B  C  D 
70 15 10 16 


In [64]:
lapply(ex, function(x) {sum(x, na.rm = TRUE)})
map(ex, function(x) {sum(x, na.rm = TRUE)})
# - 익명/무명함수(the anonymous functions)라고 부르는 형식을 이용해 
#   sum() 함수 적용시 na.rm = TRUE 옵션을 반영해 NA요소에 대해 제외시킴

### NA값이 포함된 리스트객체에 데이터순환을 적용해 벡터객체로 리턴

In [65]:
# 리스트객체에 NA값이 포함되어 있는데, 그대로 데이터순환 함수를 적용하는 경우

print(sapply(ex, sum))
print(map_dbl(ex, sum))
# - 각 리스트항목에 접근해 sum함수를 적용한 결과를 벡터형식으로 만들어줌
# - 리스트항목 B, C를 활용해서 정상적으로 합계 출력됨
# - NA요소를 가지고 있는 A와 D 리스트 항목에 대한 합계계산 결과는 NA로 출력됨

 A  B  C  D 
NA 15 10 NA 
 A  B  C  D 
NA 15 10 NA 


In [66]:
# 리스트객체에 NA값이 포함되어 있는데, 적절한 고려를 통해 데이터순환 함수를 적용하는 경우

print(sapply(ex, sum, na.rm = TRUE))
print(map_dbl(ex, sum, na.rm = TRUE))

# - ex리스트객체의 각 리스트항목에 접근해 sum() 적용시 NA요소가 있을 경우
#   이를 제외하고 sum() 함수를 적용하도록 na.rm = TRUE 옵션을 사용함

 A  B  C  D 
70 15 10 16 
 A  B  C  D 
70 15 10 16 


In [67]:
print(sapply(ex, function(x) {sum(x, na.rm = TRUE)}))
print(map_dbl(ex, function(x) {sum(x, na.rm = TRUE)}))
# - 익명/무명함수(the anonymous functions)라고 부르는 형식을 이용해 
#   sum() 함수 적용시 na.rm = TRUE 옵션을 반영해 NA요소에 대해 제외시킴

 A  B  C  D 
70 15 10 16 
 A  B  C  D 
70 15 10 16 


# <font color = 'blue'>tapply() 함수를 이용한 데이터순환(p.38)</font>
* tapply(집계대상변수, 집계기준변수, 집계처리함수) 형식처럼 사용함
* 데이터프레임 형식의 데이터셋에서 집계대상 변수를 집계기준 변수를 이용해 집계처리함수로 요약집계(aggregation)해줌

### 데이터프레임 객체에 tapply() 함수 적용

In [68]:
# 예제 데이터셋 준비
word <- c('the', 'is', 'a', 'the')
docA <- c(3, 4, 2, 4)
docB <- rep(1, 4)

df <- data.frame(word, docA, docB)
df

# - word변수에 포함된 단어들이 docA와 docB변수에 
#   얼마나 들어 있는지를 나타내주는 데이터셋임

word,docA,docB
the,3,1
is,4,1
a,2,1
the,4,1


In [69]:
# tapply()함수를 이용한 데이터순환방식의 요약집계

print(tapply(df$docA, df$word, length))
cat('\n')
# - 집계기준변수 word로 집계대상변수 docA에 대해 집계처리함수 length를 적용해 요약집계함
 
print(tapply(df$docA, df$word, sum))
# - 집계기준변수 word로 집계대상변수 docA에 대해 집계처리함수 sum을 적용해 요약집계함

  a  is the 
  1   1   2 

  a  is the 
  2   4   7 


In [70]:
# tapply()함수를 이용한 데이터순환방식의 요약집계

print(tapply(df$docB, df$word, length))
cat('\n')
# - 집계기준변수 word로 집계대상변수 docB에 대해 집계처리함수 length를 적용해 요약집계함

print(tapply(df$docB, df$word, sum))
# - 집계기준변수 word로 집계대상변수 docB에 대해 집계처리함수 sum을 적용해 요약집계함

  a  is the 
  1   1   2 

  a  is the 
  1   1   2 


### 문자열 객체에 들어 있는 단어빈도수 계산

In [71]:
sent1 <- 'earth to earth'
sent2 <- 'ashes to ashes'
sent3 <- 'dust to dust'

In [72]:
sent <- c(sent1, sent2, sent3)
print(sent)

[1] "earth to earth" "ashes to ashes" "dust to dust"  


In [73]:
sent_sep <- strsplit(sent, split = ' ')
print(sent_sep)

[[1]]
[1] "earth" "to"    "earth"

[[2]]
[1] "ashes" "to"    "ashes"

[[3]]
[1] "dust" "to"   "dust"



In [74]:
sent_un <- unlist(sent_sep)
sent_un

In [75]:
table(sent_un)

sent_un
ashes  dust earth    to 
    2     2     2     3 

# End of Source