# tidytext package basics

* tidyverse univers in R
* what is tidy data?
* key verses for data analysis
* pipe operator
* tidytext package key features - tokenize, stopwords, sentiments and others
* some examples in tidytext package


## class prerequisite

* R의 기본적인 문법 중에서 dplyr, tidyverse, ggplot2 그리고 pipe operator를 알고 있다는 전제로 진행합니다.
* 여기에서는 이와 같은 사항을 간단히 정리해보려고 합니다.
* 이미 알고 계신 분도 있겠지만, 사실 tidyverse를 잘 알고 계시다면 tidytext는 비교적 쉽게 접근할 수 있는 주제입니다.
* 이론적인 내용은 웹상에 자료가 많으므로 실습을 통해서 내용을 파악해보려고 합니다. 


## library load
* 먼저 실습을 위해 필요한 패키지들을 load하겠습니다.
* 패키지를 loadg 하기 위해서는 먼저 이 패키지들이 R에 설치되어 있어야 합니다.
* 패키지를 설치하는 명령어는 아래와 같습니다. 
> install.pakcages("패키지이름")

In [2]:
library(tidyverse)
library(dplyr)
library(ggplot2)

## data load & explore
* ggplot2 패키지에는 "diamonds"라는 이름의 데이터가 포함되어 있습니다. 
* 이 데이터로 간단한 tidyverse 를 살펴보려고 합니다.

In [3]:
# diamonds

### head
* 상위 n개 데이터만 살펴볼 수 있습니다.

In [18]:
head(diamonds, 5)

carat,cut,color,clarity,depth,table,price,x,y,z
0.23,Ideal,E,SI2,61.5,55,326,3.95,3.98,2.43
0.21,Premium,E,SI1,59.8,61,326,3.89,3.84,2.31
0.23,Good,E,VS1,56.9,65,327,4.05,4.07,2.31
0.29,Premium,I,VS2,62.4,58,334,4.2,4.23,2.63
0.31,Good,J,SI2,63.3,58,335,4.34,4.35,2.75


### tail
* 맨 마지막 n개 데이터만 살펴볼 수 있습니다. 

In [19]:
tail(diamonds,3)

carat,cut,color,clarity,depth,table,price,x,y,z
0.7,Very Good,D,SI1,62.8,60,2757,5.66,5.68,3.56
0.86,Premium,H,SI2,61.0,58,2757,6.15,6.12,3.74
0.75,Ideal,D,SI2,62.2,55,2757,5.83,5.87,3.64


### str
* 데이터의 구조(Structure)를 알 수 있습니다. 

In [20]:
str(diamonds)

Classes ‘tbl_df’, ‘tbl’ and 'data.frame':	53940 obs. of  10 variables:
 $ carat  : num  0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
 $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
 $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
 $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
 $ depth  : num  61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
 $ table  : num  55 61 65 58 58 57 57 55 61 61 ...
 $ price  : int  326 326 327 334 335 336 336 337 337 338 ...
 $ x      : num  3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
 $ y      : num  3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
 $ z      : num  2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...


### unique
* 특정 컬럼의 고유한 값들을 확인할 수 있습니다. 

In [25]:
unique(diamonds$clarity)

### n_distinct()
* 특정 컬럼의 고유값 갯수를 확인할 수 있습니다. 

In [26]:
n_distinct(diamonds$clarity)

## 5 key tidy verse
1. filter()
2. arrange()
3. select()
4. mutate()
5. summarise() with group_by()

### filter()
* 조건에 따라 **<span style = "color:yellow">행</span>**을 필터하는 것입니다.

In [21]:
head(diamonds,3)

carat,cut,color,clarity,depth,table,price,x,y,z
0.23,Ideal,E,SI2,61.5,55,326,3.95,3.98,2.43
0.21,Premium,E,SI1,59.8,61,326,3.89,3.84,2.31
0.23,Good,E,VS1,56.9,65,327,4.05,4.07,2.31


* 복합 조건도 사용할 수 있습니다. 

In [34]:
# filter(diamonds, clarity=="SI2")
filter(diamonds, carat >= 0.3 & price >= 18800)

carat,cut,color,clarity,depth,table,price,x,y,z
2.0,Very Good,H,SI1,62.8,57,18803,7.95,8.0,5.01
2.07,Ideal,G,SI2,62.5,55,18804,8.2,8.13,5.11
1.51,Ideal,G,IF,61.7,55,18806,7.37,7.41,4.56
2.0,Very Good,G,SI1,63.5,56,18818,7.9,7.97,5.04
2.29,Premium,I,VS2,60.8,60,18823,8.5,8.47,5.16


* 조건에 의해 필터된 데이터의 갯수를 알고 싶다면?

In [40]:

df <- filter(diamonds, carat >= 0.3 & price >= 18000)

n_distinct(df)


### arrange()
* 특정 컬럼을 기준으로 정렬할 수 있습니다. 

In [47]:
# arrange(diamonds, price) # 오름차순이 기본

# arrange(diamonds, desc(clarity)) # 내림차순으로 정렬할 때

df <- arrange(diamonds, desc(clarity), desc(price)) # 복합적인 조건으로 정렬할 수도 있습니다.

head(df, 10)


carat,cut,color,clarity,depth,table,price,x,y,z
1.51,Ideal,G,IF,61.7,55,18806,7.37,7.41,4.56
1.28,Ideal,E,IF,60.7,57,18700,7.09,6.99,4.27
2.29,Premium,J,IF,61.4,60,18594,8.49,8.45,5.2
1.5,Very Good,F,IF,63.2,58,18552,7.2,7.32,4.59
1.04,Very Good,D,IF,61.3,56,18542,6.53,6.55,4.01
1.33,Ideal,F,IF,60.2,57,18435,7.12,7.17,4.3
2.29,Premium,J,IF,61.4,60,18426,8.45,8.49,5.2
1.07,Premium,D,IF,60.9,58,18279,6.67,6.57,4.03
1.09,Very Good,D,IF,61.7,58,18231,6.55,6.65,4.07
1.07,Very Good,D,IF,60.9,58,18114,6.57,6.67,4.03


### select()
* 열을 선택하는 것입니다. 일부 열만 선택하여 새로운 DataFrame을 만들게 됩니다.

In [51]:
df <- select(diamonds, cut, color, price)

head(df, 10)

cut,color,price
Ideal,E,326
Premium,E,326
Good,E,327
Premium,I,334
Good,J,335
Very Good,J,336
Very Good,I,336
Very Good,H,337
Fair,E,337
Very Good,H,338


* 선택하면서 이름을 변경할 수 있습니다. 

In [53]:
df <- select(diamonds, c = cut, l = color, p = price)

head(df, 5)

c,l,p
Ideal,E,326
Premium,E,326
Good,E,327
Premium,I,334
Good,J,335


### mutate()
* 열을 새로 만들 수 있습니다.
* 기존 열들의 계산식을 사용할 수 있습니다.
* 새로 만들어진 열의 이름을 또 사용할 수 있습니다. 

In [56]:
df <- mutate(diamonds, x_and_y = x+y)

head(df, 5)

carat,cut,color,clarity,depth,table,price,x,y,z,x_and_y
0.23,Ideal,E,SI2,61.5,55,326,3.95,3.98,2.43,7.93
0.21,Premium,E,SI1,59.8,61,326,3.89,3.84,2.31,7.73
0.23,Good,E,VS1,56.9,65,327,4.05,4.07,2.31,8.12
0.29,Premium,I,VS2,62.4,58,334,4.2,4.23,2.63,8.43
0.31,Good,J,SI2,63.3,58,335,4.34,4.35,2.75,8.69


* 열 이름 재사용

In [58]:
df <- mutate(diamonds, x_and_y = x+y, q = x_and_y/price)
head(df, 5)

carat,cut,color,clarity,depth,table,price,x,y,z,x_and_y,q
0.23,Ideal,E,SI2,61.5,55,326,3.95,3.98,2.43,7.93,0.02432515
0.21,Premium,E,SI1,59.8,61,326,3.89,3.84,2.31,7.73,0.02371166
0.23,Good,E,VS1,56.9,65,327,4.05,4.07,2.31,8.12,0.0248318
0.29,Premium,I,VS2,62.4,58,334,4.2,4.23,2.63,8.43,0.02523952
0.31,Good,J,SI2,63.3,58,335,4.34,4.35,2.75,8.69,0.0259403


### summarise() and group_by()
* 엑셀의 피봇 기능과 유사합니다.
* summarise()는 계산 함수를 사용해서 값을 산출합니다.
* 여기에 group_by() 함수를 사용하면 특정 그룹별로 값을 산출할 수 있습니다. 

In [63]:
summarise(diamonds, SUM = sum(price))

# 여러 계산 값을 한꺼번에 구할 수 있습니다. 
summarise(diamonds, SUM = sum(price), AVG = mean(price))

SUM
212135217


SUM,AVG
212135217,3932.8


* group_by()는 summarise()의 계산 대상 그룹을 정의하는 함수입니다.

In [66]:
diamonds_group = group_by(diamonds, color)

summarise(diamonds_group, SUM = sum(price))

# 여러 계산 값을 한꺼번에 구할 수 있습니다. 
summarise(diamonds_group, SUM = sum(price), AVG = mean(price))

color,SUM
D,21476439
E,30142944
F,35542866
G,45158240
H,37257301
I,27608146
J,14949281


color,SUM,AVG
D,21476439,3169.954
E,30142944,3076.752
F,35542866,3724.886
G,45158240,3999.136
H,37257301,4486.669
I,27608146,5091.875
J,14949281,5323.818


## pipe operator : %>%
* 위에서 실습하는 동안 알 수 있듯이, tidy verse를 사용하는 동안 중간에 만들어지는 데이터를 변수로 저장해야 합니다.
* 저장된 변수를 다른 tidy verse에서 input data frame으로 사용하여 결과를 산출합니다.
* 이와 같은 반복된 과정에서 발생하는 문제는 다음과 같은 것이 있습니다.
    * 중간에 계속 변수를 저장해야 하기 때문에 자원 낭비가 있고, 분석 과정에서 실수가 발생할 수 있다.
    * 양파껍질 같이 함수가 nested 구조가 되어 직관적인 분석을 하기가 어렵다.


### without pipe operator
* 예를 들어, 아래와 같은 순서로 분석을 해보자.
    1. select()를 이용해서 특정 컬럼을 선택하여 새로운 data frame을 생성함
    2. filter()를 이용해서 특정 행을 선택하여 새로운 data frame을 생성함
    3. group_by()를 이용해서 결과 산출을 위한 그룹을 정의하여 새로운 data frame을 생성함
    4. summarise()를 이용해서 결과 산출 함수를 생성한 그룹별로 구하여 테이블을 생성함
    5. arrange()를 이용하여 산출된 결과를 정렬함.

In [83]:
#1
d_selected <- select(diamonds, color, clarity, depth, price)
head(d_selected,3)

color,clarity,depth,price
E,SI2,61.5,326
E,SI1,59.8,326
E,VS1,56.9,327


In [87]:
#2
d_selected_filtered <- filter(d_selected, price >= 1000 & depth >= 70)
head(d_selected_filtered,3)
str(d_selected_filtered)

color,clarity,depth,price
H,VS2,71.6,3593
I,SI2,70.1,4328
I,I1,71.3,4368


Classes ‘tbl_df’, ‘tbl’ and 'data.frame':	22 obs. of  4 variables:
 $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 5 6 6 1 5 7 4 5 5 3 ...
 $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 4 2 1 3 5 1 1 1 1 2 ...
 $ depth  : num  71.6 70.1 71.3 70.6 71.8 70 70.2 70.1 70.5 70.2 ...
 $ price  : int  3593 4328 4368 4398 4455 5083 6315 6564 6860 15351 ...


In [86]:
#3
d_selected_filtered_group <- group_by(d_selected_filtered, color)
head(d_selected_filtered_group,3)
str(d_selected_filtered_group)

color,clarity,depth,price
H,VS2,71.6,3593
I,SI2,70.1,4328
I,I1,71.3,4368


Classes ‘grouped_df’, ‘tbl_df’, ‘tbl’ and 'data.frame':	22 obs. of  4 variables:
 $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 5 6 6 1 5 7 4 5 5 3 ...
 $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 4 2 1 3 5 1 1 1 1 2 ...
 $ depth  : num  71.6 70.1 71.3 70.6 71.8 70 70.2 70.1 70.5 70.2 ...
 $ price  : int  3593 4328 4368 4398 4455 5083 6315 6564 6860 15351 ...
 - attr(*, "groups")=Classes ‘tbl_df’, ‘tbl’ and 'data.frame':	7 obs. of  2 variables:
  ..$ color: Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 1 2 3 4 5 6 7
  ..$ .rows:List of 7
  .. ..$ : int  4 15
  .. ..$ : int  13 17 20 21
  .. ..$ : int 10
  .. ..$ : int  7 11 18 19 22
  .. ..$ : int  1 5 8 9 14
  .. ..$ : int  2 3 12
  .. ..$ : int  6 16
  ..- attr(*, ".drop")= logi TRUE


In [90]:
#4
d_selected_filtered_group_summarise <- summarise(d_selected_filtered_group, SUM=sum(price), AVG=mean(price))
head(d_selected_filtered_group_summarise,10)

color,SUM,AVG
D,6094,3047.0
E,8248,2062.0
F,15351,15351.0
G,32344,6468.8
H,22746,4549.2
I,9745,3248.333
J,6872,3436.0


In [91]:
#5
arrange(d_selected_filtered_group_summarise, desc(AVG))

color,SUM,AVG
F,15351,15351.0
G,32344,6468.8
H,22746,4549.2
J,6872,3436.0
I,9745,3248.333
D,6094,3047.0
E,8248,2062.0


### nested function
* 분석이 이루어진 반대의 순서로 생각하여 코딩을 하면 중간 변수 생성을 하지 않을 수 있음

In [92]:
#5
arrange(d_selected_filtered_group_summarise, desc(AVG))

color,SUM,AVG
F,15351,15351.0
G,32344,6468.8
H,22746,4549.2
J,6872,3436.0
I,9745,3248.333
D,6094,3047.0
E,8248,2062.0


In [94]:
#5 and #4
# 4 d_selected_filtered_group_summarise <- summarise(d_selected_filtered_group, SUM=sum(price), AVG=mean(price))
arrange(summarise(d_selected_filtered_group, SUM=sum(price), AVG=mean(price)), desc(AVG))

color,SUM,AVG
F,15351,15351.0
G,32344,6468.8
H,22746,4549.2
J,6872,3436.0
I,9745,3248.333
D,6094,3047.0
E,8248,2062.0


In [95]:
#5 #4 #3 
#4 d_selected_filtered_group_summarise <- summarise(d_selected_filtered_group, SUM=sum(price), AVG=mean(price))
#3 d_selected_filtered_group <- group_by(d_selected_filtered, color)
arrange(summarise(group_by(d_selected_filtered, color), SUM=sum(price), AVG=mean(price)), desc(AVG))


color,SUM,AVG
F,15351,15351.0
G,32344,6468.8
H,22746,4549.2
J,6872,3436.0
I,9745,3248.333
D,6094,3047.0
E,8248,2062.0


In [96]:
#5 #4 #3 #2
#4 d_selected_filtered_group_summarise <- summarise(d_selected_filtered_group, SUM=sum(price), AVG=mean(price))
#3 d_selected_filtered_group <- group_by(d_selected_filtered, color)
#2 d_selected_filtered <- filter(d_selected, price >= 1000 & depth >= 70)
arrange(summarise(group_by(filter(d_selected, price >= 1000 & depth >= 70), color), SUM=sum(price), AVG=mean(price)), desc(AVG))


color,SUM,AVG
F,15351,15351.0
G,32344,6468.8
H,22746,4549.2
J,6872,3436.0
I,9745,3248.333
D,6094,3047.0
E,8248,2062.0


In [97]:
#5 #4 #3 #2 #1 
#4 d_selected_filtered_group_summarise <- summarise(d_selected_filtered_group, SUM=sum(price), AVG=mean(price))
#3 d_selected_filtered_group <- group_by(d_selected_filtered, color)
#2 d_selected_filtered <- filter(d_selected, price >= 1000 & depth >= 70)
#1 d_selected <- select(diamonds, color, clarity, depth, price)
arrange(summarise(group_by(filter(select(diamonds, color, clarity, depth, price), price >= 1000 & depth >= 70), color), SUM=sum(price), AVG=mean(price)), desc(AVG))


color,SUM,AVG
F,15351,15351.0
G,32344,6468.8
H,22746,4549.2
J,6872,3436.0
I,9745,3248.333
D,6094,3047.0
E,8248,2062.0


* 이제 이렇게 변수를 사용하지 않고 만들어진 함수의 nested 구조를 정돈해보겠습니다. 

In [99]:
#5 #4 #3 #2 #1 
#4 d_selected_filtered_group_summarise <- summarise(d_selected_filtered_group, SUM=sum(price), AVG=mean(price))
#3 d_selected_filtered_group <- group_by(d_selected_filtered, color)
#2 d_selected_filtered <- filter(d_selected, price >= 1000 & depth >= 70)
#1 d_selected <- select(diamonds, color, clarity, depth, price)

arrange(
    summarise(
        group_by(
            filter(
                select(
                    diamonds, color, clarity, depth, price
                ), price >= 1000 & depth >= 70
            ), color
        ), SUM=sum(price), AVG=mean(price)
    ), desc(AVG)
)



color,SUM,AVG
F,15351,15351.0
G,32344,6468.8
H,22746,4549.2
J,6872,3436.0
I,9745,3248.333
D,6094,3047.0
E,8248,2062.0


* 중간 변수를 사용하지 않고 nested 함수 구조를 사용하려면 이렇게 복잡하게 생각해야 합니다.
* 즉, 가장 나중에 적용할 arrange 함수부터 고민을 해야 합니다.
* 중요한 것은, 분석자의 생각은 nested 함수의 안쪽에서부터 시작된다는 것입니다. 즉,
    1. select()로 분석하려는 컬럼을 선정하고
    2. filter()로 조건을 주어서 필요한 데이터만 골라내고
    3. group_by()로 그룹을 정의하고
    4. summarise()로 정의한 그룹에 대해서 값을 산출하고
    5. arrange()로 산출 결과를 정렬합니다.
* pipe operator를 바로 이와 같은 이슈를 처리하는 연산자입니다. 

### with pipe operator

In [101]:
diamonds  %>% 
select(color, clarity, depth, price)  %>% 
filter(price >= 1000 & depth >= 70)  %>% 
group_by(color)  %>% 
summarise(SUM=sum(price), AVG=mean(price))  %>% 
arrange(desc(AVG))

color,SUM,AVG
F,15351,15351.0
G,32344,6468.8
H,22746,4549.2
J,6872,3436.0
I,9745,3248.333
D,6094,3047.0
E,8248,2062.0


In [103]:
# select(diamonds,clarity, depth, price) 

# 위 아래가 동일합니다.

# diamonds  %>% select(clarity, depth,price)

### tidyverse and tibble
* tidyvers는 공통적으로 input과 ouput 의 type이 동일하게 모두 tibble 입니다.
* input, output이 같기 때문에 위와 같은 chaining operator를 사용할 수 있습니다.

## tidytext package

### library load

In [35]:
library(tidytext)

### data generation

In [45]:
text <- c("Row, row, row your boat", 
          "Gently down the stream",
          "Merrily merrily, merrily, merrily",
          "Life is but a dream")

In [46]:
typeof(text)

In [47]:
text

In [48]:
text[2]

### convert to data frame (tibble)

In [49]:
text_df <- data.frame(line = 1:4, text = text)

In [50]:
str(text_df)

'data.frame':	4 obs. of  2 variables:
 $ line: int  1 2 3 4
 $ text: Factor w/ 4 levels "Gently down the stream",..: 4 1 3 2


In [51]:
text_df <- tibble(line = 1:4, text = text)

In [52]:
str(text_df)

Classes ‘tbl_df’, ‘tbl’ and 'data.frame':	4 obs. of  2 variables:
 $ line: int  1 2 3 4
 $ text: chr  "Row, row, row your boat" "Gently down the stream" "Merrily merrily, merrily, merrily" "Life is but a dream"


### apply tidyverses

In [53]:
text_df  %>% filter(line == 3)
text_df  %>% select(text)

line,text
3,"Merrily merrily, merrily, merrily"


text
"Row, row, row your boat"
Gently down the stream
"Merrily merrily, merrily, merrily"
Life is but a dream


### unnest_tokens

* tibble의 하나의 cell에 담겨 있는 text 데이터를 분해하는 함수입니다.
* token은 분석의 단위를 나타냅니다.
* sentence, word 등이 될 수 있습니다. 한글의 경우, 형태소 단위도 될 수 있습니다. 
* 하나의 cell에 있는 데이터를 분해해서 행으로 나눠줍니다. 

In [54]:
text_df

line,text
1,"Row, row, row your boat"
2,Gently down the stream
3,"Merrily merrily, merrily, merrily"
4,Life is but a dream


In [55]:
unnest_tokens(text_df, input=text, output = word, token = 'words')

line,word
1,row
1,row
1,row
1,your
1,boat
2,gently
2,down
2,the
2,stream
3,merrily


* 이제 이것을 앞에서 살펴본 pipe operator를 이용해 봅니다.

In [56]:
text_df  %>% 
unnest_tokens(input = text, output = word, token = 'words')  %>% 
head(5)

line,word
1,row
1,row
1,row
1,your
1,boat


## join

* 서로 다른 테이블(data frame)에 있는 데이터를 서로 연계할 때 join을 사용할 수 있습니다. 
* stop words를 배제하거나, sentiment를 연결할 때 join을 사용하면 편리합니다. 

In [57]:
text_df

line,text
1,"Row, row, row your boat"
2,Gently down the stream
3,"Merrily merrily, merrily, merrily"
4,Life is but a dream


### stop_words list

* 필요없는 단어는 분석에서 제외하고자 합니다.
* 이를 위해 stop words 곧, 불용어 리스트를 만들어 보겠습니다. 

In [58]:
stop_words = c("your", "the", "is", "but", "a")

* 이 불용어 리스트를 tibble type으로 만들겠습니다. 

In [59]:
tbl_df(stop_words) -> stop_words

* 컬럼의 이름을 변경하고 각 행에 index를 부여해보겠습니다.

In [60]:
stop_words  %>% rename(word = value) -> stop_words

In [61]:
stop_words  %>%  mutate(id = row_number())  %>% select(id, word) -> stop_words

In [62]:
stop_words 

id,word
1,your
2,the
3,is
4,but
5,a


### stop_words exclude using join function

* 이제 unnest_token으로 만들어진 단어 목록에서 stop_words에 있는 단어를 제외하겠습니다.
* 이를 위해 anti_join을 사용하려고 합니다.

In [63]:
tbl_df(text_df)

line,text
1,"Row, row, row your boat"
2,Gently down the stream
3,"Merrily merrily, merrily, merrily"
4,Life is but a dream


In [65]:
text_df  %>% unnest_tokens(input= text, output = word, token = 'words') -> text_df_token

In [66]:
text_df_token
stop_words

line,word
1,row
1,row
1,row
1,your
1,boat
2,gently
2,down
2,the
2,stream
3,merrily


id,word
1,your
2,the
3,is
4,but
5,a


* join의 종류
    * http://www2.stat.duke.edu/~cr173/Sta323_Sp18/slides/Lec15_sql.html#1

* text_df_token에서 stop_words에 있는 단어를 제외하고자 합니다. 

In [70]:
text_df_token  %>% anti_join(stop_words, by='word')

line,word
1,row
1,row
1,row
1,boat
2,gently
2,down
2,stream
3,merrily
3,merrily
3,merrily


* 반대로 text_df_token 에 포함되어 있는 불용어만 골라낸다면 어떻게 할 수 있을까요? 

In [71]:
text_df_token  %>% inner_join(stop_words, by='word')

line,word,id
1,your,1
2,the,2
4,is,3
4,but,4
4,a,5
