# Basic of Text Mining with R

In [1]:
# install.packages(c('rvest', 'httr', 'stringr', 'readxl', 'dplyr', 'tm', 'qgraph', 'KoNLP'), repos='http://cran.nexr.com')

### Internet 
 - Client -> http -> Server (Request)
 - Server -> http -> Client (Response)

### Get & Post 
 - 200 OK -> 서버가 내가 원하는 코드를 주는 것이다. 
 - 그외의 것은 서버가 고장났거나, 내가 이상하게 보냈거나.

### 크롤링을 하는 이유
 - 다양한데이터가 인터넷에 존재한다. 쉽고 빠르게 정보를 획득 할 수 있다. 
 - 내용을 분석하기 위해서 크롤링한다. 내가 필요한 부분만 빼낸다. 

In [2]:
# <p>안녕하세요\</p> P태그로 감싸져있다. 
#  - Element 라고도 하고 Node라고도한다. (엄격하게는 다르다.)
# <h3 class='title'> 텍스트에 감정읽기 </h3>  // class 는 여러개를 가질 수 있다. 
# <h3 id='title'> 텍스트에 감정읽기 </h3>    // id는 하나밖에 없다. 페이지하나에.

In [3]:
library(httr) # http 통신.
#url = 'http://movie.daum.net/moviedetail/moviedetailNetizenPoint.do?movieId=73750&t__nil_NetizenPoint=tabName'

: package 'httr' was built under R version 3.3.2

In [4]:
url = "http://movie.daum.net/moviedb/grade?movieId=54081&type=netizen&page=5"
r <- GET(url)

In [5]:
r

Response [http://movie.daum.net/moviedb/grade?movieId=54081&type=netizen&page=5]
  Date: 2017-02-11 09:12
  Status: 200
  Content-Type: text/html;charset=UTF-8
  Size: 88.1 kB










...

In [6]:
library(rvest)
library(dplyr)

: package 'rvest' was built under R version 3.3.2Loading required package: xml2
: package 'dplyr' was built under R version 3.3.2
Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union



In [7]:
h = read_html(r) # Read HTML or XML.
comment_area = html_nodes(h, '.list_review') # list_review안에 다 있다.    // .은 class

In [8]:
comments = html_nodes(comment_area, '.desc_review') # 그 안에서 desc_review안에 코멘트가 존재한다. id는 #
comments = repair_encoding(html_text(comments)) # html_text 노드사이에있는 텍스트를 가지고 온다. 
comments

Best guess: UTF-8 (100% confident)


### 여러페이지 크롤링하기. 

In [9]:

base_url <-  "http://movie.daum.net/moviedb/grade?movieId=54081&type=netizen&page="

all.reviews <- c()

for(page in 1:10000){
  url = paste0(base_url,page)
  r = GET(url)
  h = read_html(r)
  comment_area = html_nodes(h, '.list_review')
  comments = html_nodes(comment_area, '.desc_review')
  reviews = html_text(comments)
  
  if(length(reviews) == 0){ break }
  all.reviews = c(all.reviews, reviews)
}

### Save and Read data

In [10]:
all.reviews[1:5]

In [11]:
write.csv(all.reviews,"reviews.csv")

In [12]:
tmp <- read.csv("reviews.csv", stringsAsFactors = F)

In [13]:
head(tmp)

Unnamed: 0,X,x
1,1,DC의 저스티스 리그보다 낫지만 다크 나이트 시리즈를 넘을 수 없다.
2,2,
3,3,
4,4,
5,5,
6,6,


### 키워드 추출(KoNLP, Stringr)
 - 아직 문제 전체를 이해하는 부분은 없다. 해당 단어만 뽑아서 분석하는 것이 최대한인데. 의외로 많은 부분을 해석할 수 있다. 
 - 전반적으로 하고 싶은 얘기를 알고싶기때문에 단어로도 할 수 있다. 

In [14]:
library(KoNLP) # java로 만들어진 형태소 분석기를 사용한다. 한나눔이라는 형태소 분석기다. 
library(stringr)

: package 'KoNLP' was built under R version 3.3.2Checking user defined dictionary!

: package 'stringr' was built under R version 3.3.2

In [15]:
extractNoun('이 영화 정말 재미있다')

### 형태소 분석
 - 이(관형사) 영화(명사) 정말(부사) 재미있(형용사)다(어미)  
  - 관형사, 어미는 보통 버린다. / 명,형,동사 정도만 분석을 하는데 사용한다.

In [16]:
pos <- paste(SimplePos09('이 영화 정말 재미있다'))
pos

### str_match 찾기

In [17]:
str_match(pos,"N")

0
""
N
""
N
""


In [18]:
str_match(pos,'[가-힣]+') #[가-힣]한글만 찾아라. 가~힣 // + 1글자 이상 다 찾아라. 

0
이
영화
정말
재미있
다


In [19]:
str_match(pos,'[가-힣]+/N') #한글로가다가 N으로 끝나는.

0
""
영화/N
""
재미있/N
""


In [20]:
str_match(pos,'([가-힣]+)/N') 
#한글로가다가 N으로 끝나는 것중에 한글로 된부분을 2번째 필드로 추가

0,1
,
영화/N,영화
,
재미있/N,재미있
,


In [21]:
str_match(pos,'([가-힣]+)/[NP]') 
#한글로가다가 N/P으로 끝나는 것중에 한글로 된부분을 2번째 필드로 추가

0,1
,
영화/N,영화
,
재미있/N,재미있
,


In [22]:
extracted <- str_match(pos,'([가-힣]+)/[NP]') 
extracted <- extracted[,2]
extracted[!is.na(extracted)]

# 한국어 Term Document Matrix 만들기

### Corpus (말뭉치)
 - 기존의 데이터를 합쳐놓은 것
 - 텍스트 분석의 첫번째 단계.
 - 언어학 연구학자들이 말뭉치를 많이 만든다.
 - 사전도 말뭉치를 기반으로 한다. 말뭉치만 가지고는 분석을 할 수 없다.
 - 통계적으로 사용하기 위해선 Term Document Matrix 로 만들어야 한다.


### TM : 어떠한 단어가 나타나는지 표로 만들어주는 것
 - TM 을 바탕으로 한다.
 
### Tips 
 - https://brunch.co.kr/@mapthecity/9
 - 이상한 단어는 제거하도록하고 내가 원하는 단어는 사전에 입력.

In [23]:
library(tm)

: package 'tm' was built under R version 3.3.2Loading required package: NLP
: package 'NLP' was built under R version 3.3.2
Attaching package: 'NLP'

The following object is masked from 'package:httr':

    content



In [24]:
texts <- c('hello world','hello text')
texts

In [25]:
Corpus(VectorSource(texts))

<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 2

In [26]:
cps <- Corpus(VectorSource(texts))
TermDocumentMatrix(cps)

<<TermDocumentMatrix (terms: 3, documents: 2)>>
Non-/sparse entries: 4/2
Sparsity           : 33%
Maximal term length: 5
Weighting          : term frequency (tf)

In [27]:
tdm <- TermDocumentMatrix(cps)
as.matrix(tdm)

Unnamed: 0,1,2
hello,1,1
text,0,1
world,1,0


### 한국어는 처리를 좀더 해줘야한다. 
 - KoNLP + TM을 잘 해야한다.

In [28]:
texts <- c('오늘은 영화를','영화에는 팝콘')
cps <- Corpus(VectorSource(texts))
tdm <- TermDocumentMatrix(cps)
as.matrix(tdm)
# 우리가 원하는 것은 영화 / 오늘 / 팝콘 이렇게 나오기를 원했는데 안된다.
# KoNLP 처리가 다르게 된 것으로 판단. 

Unnamed: 0,1,2
영화를,1,0
영화에는,0,1
오늘은,1,0


### 명사만 꺼내는 함수가 있다. extractNoun()

In [29]:
extractNoun('오늘은 영화를')

In [74]:
ko.words <- function(doc){
  d <- as.character(doc) # doc 를 Character 로 변환 시켜줘야된다. 
  extractNoun(d)
}

In [31]:
options(mc.cores=1) 
# 한나눔 형태소 분석기 Java, TM Packages는 병렬처리를 이용. 두개가 같이 돌면 충돌.

In [32]:
tdm <- TermDocumentMatrix(cps, control=list(tokenize=ko.words)) 
# list로 만들어서 한번에 넘겨주는데 토큰 만드는 것을 ko.words 로
as.matrix(tdm) 
# 결과가 이상하다. 영어의 경우 1자 놈들을 없앤다. 
# 1,2글자 는 없앤다. 왜냐 없기 때문에 한글은 대부분이 1~2글자

1,2


In [33]:
tdm <- TermDocumentMatrix(cps, control=list(tokenize=ko.words, wordLengths=c(1,Inf)))  # 단어길이 제약 풀기.
as.matrix(tdm)  # 팝콘을 추가해야될듯하다.

Unnamed: 0,1,2
를,1,0
영화,1,1
오늘,1,0
콘,0,1
팝,0,1


### 앞의 내용과 위의 내용 합쳐서 실행

In [34]:
options(mc.cores=1)

In [39]:
all.reviews <- read.csv("reviews.csv",stringsAsFactors=F)$x

In [41]:
review.corpus <- Corpus(VectorSource(all.reviews))
tdm <- TermDocumentMatrix(review.corpus, control = list(tokenize=ko.words,wordLengths=c(1,5)))
tdm.matrix <- as.matrix(tdm)
dim(tdm.matrix)

In [43]:
row.names(tdm.matrix)[1:10]

### 숫자 지우기
 - removeNumbers=T

In [44]:
tdm <- TermDocumentMatrix(review.corpus, control = list(tokenize=ko.words,wordLengths=c(1,5), removeNumbers=T)) 
tdm.matrix <- as.matrix(tdm)

In [45]:
dim(tdm.matrix)

In [48]:
rownames(tdm.matrix)[10:20]

### 크롤링 데이터 명/형용사 가지고 오기. 

In [49]:
ko.words2 <- function(doc){
  d <- as.character(doc)
  pos <- paste(SimplePos09(d))
  extracted <- str_match(pos, '([가-힣]+)/[NP]')
  keyword <- extracted[,2]
  return(keyword[!is.na(keyword)])
}

In [50]:
options(mc.cores=1)
tdm <- TermDocumentMatrix(review.corpus, control = list(tokenize=ko.words2,wordLengths=c(1,5), removeNumbers=T)) 
tdm.matrix <- as.matrix(tdm)
dim(tdm.matrix)

In [51]:
rownames(tdm.matrix)[1:20]

# StopWords 제거하기.
 - 단어를 분석에서 제외하는 방법. 

In [54]:
library(tm)

In [53]:
doc <- c('This is a banana.', 'That is an apple.')

In [55]:
corpus <- Corpus(VectorSource(doc))

In [56]:
TermDocumentMatrix(corpus)

<<TermDocumentMatrix (terms: 4, documents: 2)>>
Non-/sparse entries: 4/4
Sparsity           : 50%
Maximal term length: 7
Weighting          : term frequency (tf)

In [57]:
tdm <- TermDocumentMatrix(corpus) # that, this가 대명사.
as.matrix(tdm)

Unnamed: 0,1,2
apple.,0,1
banana.,1,0
that,0,1
this,1,0


In [58]:
tdm <- TermDocumentMatrix(corpus, control = list(removePunctuation = T)) # Punctuation (.과 같은 특수문자 제거.)
as.matrix(tdm)

Unnamed: 0,1,2
apple,0,1
banana,1,0
that,0,1
this,1,0


In [59]:
tdm <- TermDocumentMatrix(corpus, control = list(removePunctuation = T, wordLengths = c(1,Inf)))  # a, an , is, that, this 제거를 하고싶다.
as.matrix(tdm)

Unnamed: 0,1,2
a,1,0
an,0,1
apple,0,1
banana,1,0
is,1,1
that,0,1
this,1,0


 - Stopwords를 사용하면 다 없어진다.

In [60]:
tdm <- TermDocumentMatrix(corpus, control = list(removePunctuation = T, wordLengths = c(1,Inf), stopwords = T)) # 영어를 기준으로 제거
as.matrix(tdm)

Unnamed: 0,1,2
apple,0,1
banana,1,0


In [61]:
stopwords() # 영어

In [62]:
stopwords('ge') # 독일어

In [63]:
stopwords('fr') # 프랑스어

- 한국어는 없다.... 직접만들어야 한다. 

In [64]:
tdm <- TermDocumentMatrix(corpus, control = list(removePunctuation = T, wordLengths = c(1,Inf), stopwords = stopwords('ge')))
# 독일어로 없앤다. 
as.matrix(tdm)

Unnamed: 0,1,2
a,1,0
apple,0,1
banana,1,0
is,1,1
that,0,1
this,1,0


In [65]:
tdm <- TermDocumentMatrix(corpus, control = list(removePunctuation = T, wordLengths = c(1,Inf), stopwords = c('a','an','is'))) 
as.matrix(tdm)

Unnamed: 0,1,2
apple,0,1
banana,1,0
that,0,1
this,1,0


 - stopwords 목록에 제거할 단어를 작성하여 넣어주면 된다. csv파일로 작성하여 불러오면 된다. 

# 14. Co-occurrence Matrix 만들기 
 - 두 단어가 얼마나 함께 나타나는지 

In [66]:
texts

In [67]:
options(mc.cores=1)

In [71]:
cps <- Corpus(VectorSource(texts))

In [75]:
tdm <- TermDocumentMatrix(cps, control = list(tokenize=ko.words,wordLengths=c(1,Inf)))

In [77]:
tdm.matrix <- as.matrix(tdm)

In [78]:
tdm.matrix  %*% t(tdm.matrix ) # Co-occurrence Matrix 만들기. 

Unnamed: 0,를,영화,오늘,콘,팝
를,1,1,1,0,0
영화,1,2,1,1,1
오늘,1,1,1,0,0
콘,0,1,0,1,1
팝,0,1,0,1,1


 - %*% : 행렬의 곱. 
 - T : Transpose 

### 크롤링 데이터로 해보기 

In [79]:
all.views <- read.csv('reviews.csv', stringsAsFactors=F)$x

In [80]:
review.corpus <- Corpus(VectorSource(all.views))

 - weighting=weightBin  단어들이 있나 없나만 보면된다. 여러번 나왔다는거는 의미가 없다. (Co-occurence Matrix에서는)

In [103]:
tdm <- TermDocumentMatrix(review.corpus, 
                          control = list(tokenize=ko.words,wordLengths=c(2,5),
                                         removeNumbers=T, 
                                         weighting=weightBin,
                                         removePunctuation=T))

In [104]:
tdm.matrix <- as.matrix(tdm)

In [105]:
dim(tdm.matrix)

### 다빈도 단어 추출.

In [106]:
word.count <- rowSums(tdm.matrix)
word.order <- order(word.count,decreasing = T)

In [107]:
word.order[1:20]

In [108]:
rownames(tdm.matrix)[word.order[1:20]]

In [109]:
freq.words <- tdm.matrix[word.order[1:20],]

In [110]:
dim(freq.words)

In [111]:
cooccur <- freq.words %*% t(freq.words)

In [112]:
cooccur

Unnamed: 0,영화,지루,액션,최고,재미,스토리,진짜,기대,유치,헐크,아이언맨,영웅들,생각,영웅,완전,캐릭터,내용,중간,시간,초반
영화,450,53,52,41,44,42,25,28,41,29,33,36,43,36,15,32,24,18,29,24
지루,53,175,27,11,21,13,13,12,13,11,8,15,8,9,11,8,10,27,15,36
액션,52,27,144,21,20,18,6,9,10,13,7,10,10,13,9,7,10,14,9,13
최고,41,11,21,138,4,6,10,6,5,9,7,3,8,7,8,10,8,4,3,5
재미,44,21,20,4,118,7,10,11,12,5,5,7,10,3,9,5,7,6,6,10
스토리,42,13,18,6,7,109,5,8,15,9,7,9,11,13,5,12,6,9,7,4
진짜,25,13,6,10,10,5,101,9,13,2,7,2,6,5,7,7,4,3,5,4
기대,28,12,9,6,11,8,9,100,8,6,8,5,15,4,6,2,7,5,5,9
유치,41,13,10,5,12,15,13,8,100,5,9,3,10,8,3,5,10,2,5,3
헐크,29,11,13,9,5,9,2,6,5,99,20,7,3,7,6,3,2,2,2,7


In [96]:
library(qgraph)

: package 'qgraph' was built under R version 3.3.2

 - 대각선의 위치에 있는 숫자들이 나온 값이다. diag()가 가운데 값만 보낸다. 

In [None]:
qgraph(cooccur,
       labels=rownames(cooccur), # 가로세로 모두 단어다 그래서 colnames로 해도상관없다. 단어가 안짤리고 잘나온다. 
       diag=F, # 자기자신을 나타내는 대각선 부분을 없앤다. 
       layout='spring', # Node의 위치를 바꿀수있다. 
       edge.color='blue',
       vsize=log(diag(cooccur)*3)) # edge : 선, V : 노드 

<img src="Aven.PNG">