In [None]:
# httr 패키지 : HTTP요청 및 응답에 사용
# GET,POST,user_agent,add_headers,set_cookies 등등
library(httr)

# httr 요청
res<-GET(url='url',
        query=list(directoryNo='0',
                  currentPage='1',
                  groupId='0'))

# 상태코드 
print(x=res)
status_code(x=res)         # type과 encdoing은 optional
content(x=res, as='text', type='text/html', encoding='EUC-KR')

In [None]:
# rvest 패키지 : 웹 페이지로부터 데이터 수집할 때 사용
# read_html, html_node(s), html_attr(s), html_name, html_text, html_table

library(rvest)

html<-read_html(x=res, encoding='UTF-8')
item<-html_nodes(x=html, css='css_selector')
                    #trim=TRUE 하면 문자열 양 옆 공백 없애줌
text<-html_text(x=item, trim=FALSE)
# 테이블안의 데이터를 데이터프레임 형태로 수지하고자할 때 사용
# Window경우 인코딩때문에 에러발생-> 로케일변경으로 해결
tbl<-html_table(x=item, fill=FALSE)

# pipe operator 사용 ( dplyr 패캐지)
text<-res %>%
read_html(encoding='UTF-8') %>%
html_nodes(css='css_selector') %>%
html_text(trim=FALSE)

# Example : 네이버 실시간 검색어 추출
library(httr)
library(dplyr)

res<-GET(url='url')
status_code(res)
                                            # 계층구조로 출력하기 위해
content(x=res, as='text', encoding='UTF-8') %>% cat()
library(rvest)
html<-read_html(x=res)
span<-html_nodes(x=html, css='css_selector')
searchWords<-html_text(x=span)

## pipe operator 사용
searchWords<- res %>%
read_html() %>%
html_nodes(css='css_selector') %>%
html_text()

In [None]:
# 인코딩관련 함수들

localeToCharset() # 인코딩 방식 확인
Encoding(x='string') # string의 인코딩방식을 확인
Encoding(x='string')<-'CP949' # string의 인코딩방식을 CP949로 설정
icnov(x='string', from='UTF-8', to='EUC-KR') #문자열 인코딩방식 변경
guess_encoding(file='파일명')#컴퓨터에 저장된 파일 또는 URL 인코딩방식 확인
 => guess_encoding(file='https://www.naver.com')

# 로케일관련 함수들
Sys.getlocale() #현재 설정된 로케일 확인
Sys.getlocale(category='LC_ALL', locale='korean')
                # LC_ALL로 그냥 설정하는게 편함 

In [None]:
# 한국 전화번호부 웹 페이지 추출
# POST방식 이용
# 퍼센트 인코딩 이용
url_encode(url='string') # 컴퓨터가 알아들을 수 있는 언어로 변경
url_decode(url='string') # 사람이 알아들을 수 있는 언어로 변경

upjong<-'일식'
cityn<-'서울'
gun<-'중구'
# 인코딩함수 없이 코드 작성 경우
res<-POST(url='url',
         body=list(searchWord=upjong %>%
                  url_encode() %>%
                  I(),
                  city=cityn %>%
                  url_encdoe() %>%
                  I(),
                  gu=gun %>%
                  url_encode() %>%
                  I()),
          encode='form')
    #보기 좋게 출력하기
res %>% as.character() %>% cat()




# 인코딩함수 생성해서 코드 작성 경우
pcntEncoding<-function(x){
    library(urltools)
    if (localeToCharset() == 'UTF-8'){
        string<-string %>% iconv(from='UTF-8', to='EUC-KR')
    }
    else if (localeToCharset() %in% c('CP949','EUC-KR')){
        string<-string
    }
}

res<-POST(url='url',
         body=list(searchWord=upjong %>% pcntEncoding(),
                  city=cityn %>% pcntEncoding(),
                  gu=gun %>% pcntEncoding()),
         encode = 'form')

# 업체명 추출
store<-res %>%
read_html() %>%
html_nodes(css='div.tit_kist a.l_tit') %>%
html_text()

In [None]:
# 로그인 쿠키 활용법
# 1.우선 POST방식으로 로그인하고
res<-POST(url='로그인url',
         body=list('로그인id_parameter'='로그인id',
                  '로그인 pw_parameter'='로그인 pw'))
# 2.쿠키를 얻는 방법
cookies(x=res)
# 3. unlist()로 반환
myCookies<-cookies(x=res) %>% unlist()
# 4.쿠키를 이용해 HTTP 요청
res<-GET(url='url',
        set_cookies(cookies=myCookies))

# 5. 잡플래닛 예시 쿠키활용법
library(httr)
library(urltools)
library(rvest)
library(dplyr)

res<-POST(url='잡플래닛url',
         body=list('user[emali]'='본인'))
    # 쿠키설정
myCookies<-set_cookies(.cookies=unlist(x=cookies(x=res)))

    # 쿠키로 로그인 상태 유지
res<-GET(url='url',
        config=list(cookies=myCookies))
print(x=res)

    # 기업리뷰 수 추출
reviewCnt<-res %>%
read_html() %>%
html_nodes(css='css_selector') %>%
html_text() %>%
as.numeric()

print(x= reviewCnt)

In [None]:
# Javascript => AJAX라이브러리 사용 => 주로 JSON형태로 출력
# Network 탭의 XHR 탭 이용
# referer 추가해줘야함!
ref='referer_url'
res<-GET(url='url',
        query=list(directorySeq='0',
                  pageNo='1').
        add_headers(referer=ref))

print(res) # JSON형태로 반환
# json형태 데이터에서 불필요한 문자 )]}', 없애주기
library(jsonlite) or library(rjson)
json<-res %>%
as.character() %>%
str_remove(pattern="\\)\\]\\}\\',") %>%
fromJSON()

# 이중삼중리스트로 존재
# 밑에 처럼 반복문을 통해서 출력
for(i in 1:10){
    id<-json$result$postList[[i]]$blogId
    nickname<-json$result$postList[[i]]$nickname
    title<-json$result$postList[[i]]$title
    
    id_lst<-append(id_lst, id)
    name_lst<-append(name_lst, nickname)
    tit_lst<-append(tit_lst, title)
}
df<-cbind(id_lst, name_lst,tit_lst)




# Javasript이용한 네이버 블로그 키워드 출력 예시
ref='referer_url'
URL='크롤링할 url'

res<-GET(url=URL,
        query=list(countPerPage='7',
                  currentPage='1',
                  keyword=searchWord %>% pcntEncoding()),
        add_headers(referer=ref))
library(jsonlite)
res %>% as.character() %>% fromJSON()

json<-res %>%
as.character() %>%
str_remove(pattern="\\)\\]\\}\\',") %>%
fromJSON()

# JSON객체 구조확인
str(object=json)

blogData<-json$result$searchList
# 태그 제거하는 함수 만들어서 적용하기
txt_extr<-function(x){x %>% read_html() %>% html_text}
txt<-sapply(blogData$title, txt_extr)

# 태그 제거한 블로그 제목을 새로운 칼럼으로 추가
blogData$title_ext<-txt

In [None]:
# user_agen 확인후 할당해주기
# http에 요청성공후 res할당 받았다고 가정
# useragent 뭘로 설정되어있는지 확인
print(res$request$options$useragent) #기본 useragent나 사용자가설정한값 복사
ua<-'user_agent 문자열'
res<-GET(url='URL',
        query=list(query strings),
        user_agent(agent=ua))

# referer, user_agent 모두 추가해서 http 요청
res<-GET(url='URL',
        query=list(countPerPage='7',
                  currentPage='1',
                  keyword=searchWord %>% pcntEncoding()),
         add_headers(referer=ref), user_agent(agent=ua))


---

In [1]:
# 코스피200 주식 재귀적크롤링 예시
library(httr)
library(rvest)
library(dplyr)
res<-GET(url='https://finance.naver.com/sise/entryJongmok.nhn')
res


Loading required package: xml2


Attaching package: 'dplyr'


The following objects are masked from 'package:stats':

    filter, lag


The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union




Response [https://finance.naver.com/sise/entryJongmok.nhn]
  Date: 2020-05-10 02:53
  Status: 200
  Content-Type: text/html;charset=EUC-KR
  Size: 9.37 kB






<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">
...

In [9]:
# 종목별 링크페이지 출력
temp2<-res %>%
read_html() %>%
html_nodes(css='td.ctg a') %>%
html_attr('href')

temp2

In [7]:
# stringr패키지
library(stringr)

In [10]:
# 완전한 링크만들기
temp2<-paste0('https://finance.naver.com',temp2)
temp2<-str_replace(temp2, 'main','sise_day')
temp2

In [11]:
# 종목별 시세 예시페이지 
URL='https://finance.naver.com/item/sise_day.nhn?code=005930'

res<-GET(url=URL)
test<-res %>%
read_html() %>%
html_nodes(css='table.type2') %>%
html_table()

날짜,종가,전일비,시가,고가,저가,거래량
<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
,,,,,,
2020.05.08,48800.0,0.0,49100.0,49350.0,48800.0,15127626.0
2020.05.07,48800.0,400.0,49200.0,49300.0,48700.0,13884411.0
2020.05.06,49200.0,700.0,49000.0,49200.0,48500.0,18070225.0
2020.05.04,48500.0,1500.0,48900.0,49100.0,48500.0,26083749.0
2020.04.29,50000.0,100.0,49900.0,50500.0,49600.0,15604533.0
,,,,,,
,,,,,,
,,,,,,
2020.04.28,50100.0,250.0,49850.0,50100.0,49300.0,16095399.0


In [12]:
# 예시 페이지 10page까지 가져오기
rslt<-list()
for (i in 1:10){
    res<-GET(url='https://finance.naver.com/item/sise_day.nhn?code=005930&',
            query=list(page=i))
    #Sys.setlocale(category='LC_ALL', locale='C')
    test<-res %>%
    read_html() %>%
    html_nodes(css='table.type2') %>%
    html_table()
    rslt<-append(rslt, test)
}
# 리스트 키별로 작업을 할 때는 do.call(rbind, 리스트)
do.call(rbind, rslt)

날짜,종가,전일비,시가,고가,저가,거래량
<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
,,,,,,
2020.05.08,48800,0,49100,49350,48800,15127626
2020.05.07,48800,400,49200,49300,48700,13884411
2020.05.06,49200,700,49000,49200,48500,18070225
2020.05.04,48500,1500,48900,49100,48500,26083749
2020.04.29,50000,100,49900,50500,49600,15604533
,,,,,,
,,,,,,
,,,,,,
2020.04.28,50100,250,49850,50100,49300,16095399


In [14]:
# 코스피 200 종목들 링크 추출해서 벡터로 담기
stock<-c()
for (i in 1:20){
            #빈 벡터
    stock<-c(stock,
            read_html(paste0('https://finance.naver.com/sise/entryJongmok.nhn?&page=',i)) %>%
            html_nodes(css='td.ctg a') %>%
            html_attr('href'))
}
# 추출한 링크앞에 나머지 url붙여주기
stock<-paste0('https://finance.naver.com', stock)
stock<-str_replace(stock, 'main', 'sise_day')
stock # 200개 종목 링크

In [18]:
# 종목별로 링크 타고들어가서 10page 일별시세를 모두 데이터프레임으로 만들기

# 모든 데이터 다음 빈 데이터프레임
stock_total<-data.frame()
# 종목별 링크 반복문
for (url in stock){
    Sys.sleep(sample(1,1000,1))
    #종목별로 시세 저장
    stock_sise<-data.frame()
    # 종목별의 일별 시세 table 저장할 list만들기
    rslt<-list()
    # 종목별로 일별 시세 10page까지 가져오는 반복문
    for (i in 1:10){
        test<-read_html(paste0(url,'&page=',i)) %>%
                       html_nodes(css='table.type2') %>%
                       html_table()
        # 빈 리스트에다가 10page까지 table append하기
        rslt<-append(rslt,test)
    }
    # 일별시세 10page table들 담은 리스트 stock_sise(df)에다가 rbind하기
    stock_sise<-do.call(rbind,rslt)
    # stock_sise(df)에 종목이름(코드) 나타내는 칼럼 추가
    stock_sise$name<-str_sub(url,nchar(url)-5, nchar(url))
    # 모든 데이터담을 stock_total에다가 stock_sise(df) rbind하기
    stock_total<-rbind(stock_total, stock_sise)
}
print(stock_total)

            날짜      종가  전일비      시가      고가      저가     거래량
1                                                                          
2     2020.05.08    48,800       0    49,100    49,350    48,800 15,127,626
3     2020.05.07    48,800     400    49,200    49,300    48,700 13,884,411
4     2020.05.06    49,200     700    49,000    49,200    48,500 18,070,225
5     2020.05.04    48,500   1,500    48,900    49,100    48,500 26,083,749
6     2020.04.29    50,000     100    49,900    50,500    49,600 15,604,533
7                                                                          
8                                                                          
9                                                                          
10    2020.04.28    50,100     250    49,850    50,100    49,300 16,095,399
11    2020.04.27    49,850     500    49,350    50,000    49,100 14,049,471
12    2020.04.24    49,350     500    49,650    49,750    49,000 15,618,347
13    2020.04.23    49,850  

In [19]:
stock_total<-stock_total[stock_total$날짜 != "",]
head(stock_total, n=20)

Unnamed: 0_level_0,날짜,종가,전일비,시가,고가,저가,거래량,name
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
2,2020.05.08,48800,0,49100,49350,48800,15127626,5930
3,2020.05.07,48800,400,49200,49300,48700,13884411,5930
4,2020.05.06,49200,700,49000,49200,48500,18070225,5930
5,2020.05.04,48500,1500,48900,49100,48500,26083749,5930
6,2020.04.29,50000,100,49900,50500,49600,15604533,5930
10,2020.04.28,50100,250,49850,50100,49300,16095399,5930
11,2020.04.27,49850,500,49350,50000,49100,14049471,5930
12,2020.04.24,49350,500,49650,49750,49000,15618347,5930
13,2020.04.23,49850,0,50200,50300,49500,18754442,5930
14,2020.04.22,49850,600,48700,50000,48350,18613864,5930


In [20]:
table(stock_total$name)


000070 000080 000100 000120 000150 000210 000240 000270 000640 000660 000670 
   100    100    100    100    100    100    100    100    100    100    100 
000720 000810 000880 000990 001040 001060 001120 001230 001430 001450 001520 
   100    100    100    100    100    100    100    100    100    100    100 
001680 001740 001800 002240 002270 002350 002380 002790 002960 003000 003240 
   100    100    100    100    100    100    100    100    100    100    100 
003410 003490 003520 003550 003620 003850 003920 004000 004020 004170 004370 
   100    100    100    100    100    100    100    100    100    100    100 
004490 004800 004990 005180 005250 005300 005380 005440 005490 005610 005830 
   100    100    100    100    100    100    100    100    100    100    100 
005850 005930 005940 006120 006260 006280 006360 006390 006400 006650 006800 
   100    100    100    100    100    100    100    100    100    100    100 
006840 007070 007310 007570 008060 008560 008770 008930 009150 

In [21]:
sapply(stock_total, class)

In [22]:
# 가격정보 numeric으로 바꾸는 함수
numeric_fn<-function(x){
    x<-as.numeric(gsub(',','',x))
}

In [23]:
final<-cbind(stock_total[1],
             # 가격칼럼(2~7) 종류 numeric으로 바꿔주는 함수적용하고 df화
            as.data.frame(lapply(stock_total[2:7],numeric_fn)),
             # 마지막 name칼럼 추가
            stock_total[length(stock_total)])

head(final)

Unnamed: 0_level_0,날짜,종가,전일비,시가,고가,저가,거래량,name
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
2,2020.05.08,48800,0,49100,49350,48800,15127626,5930
3,2020.05.07,48800,400,49200,49300,48700,13884411,5930
4,2020.05.06,49200,700,49000,49200,48500,18070225,5930
5,2020.05.04,48500,1500,48900,49100,48500,26083749,5930
6,2020.04.29,50000,100,49900,50500,49600,15604533,5930
10,2020.04.28,50100,250,49850,50100,49300,16095399,5930


In [24]:
sapply(final, class)

In [26]:
# 날짜변수 'Date' 타입으로 바꾸기
library(lubridate)
final$날짜<-as.Date(final$날짜, format='%Y.%m.%d')
# 주식name과 날짜별로 정렬
final<-final %>% arrange(name, 날짜)
final2<-final %>% group_by(name) %>%
# name별로 group_by해서 가격정보변수명들간의 차이 구하기
# diff : 뒤의 값 - 앞의 값
do(as.data.frame(sapply(.[2:7],diff))) %>%
rbind

final2

name,종가,전일비,시가,고가,저가,거래량
<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
000070,900,700,1400,1400,200,2280
000070,500,-400,900,900,1300,13325
000070,-800,300,-700,400,-1100,6921
000070,-400,-400,-200,-900,300,-7220
000070,400,0,500,-400,0,-10960
000070,200,-200,-900,-200,300,-4485
000070,-300,100,400,-100,-300,6911
000070,-600,300,-100,-100,-300,-2123
000070,600,0,0,-600,300,-697
000070,1000,400,-700,2600,-100,13497


In [29]:
# 코드 조합 만들기 => stock벡터의 url 변수명 이용
stock_code<-str_sub(stock, nchar(stock)-5, nchar(stock))
stock_comb<-combn(stock_code,2)
stock_comb<-t(stock_comb)
stock_comb

0,1
005930,000660
005930,207940
005930,035420
005930,068270
005930,051910
005930,051900
005930,005380
005930,028260
005930,006400
005930,035720


In [30]:
# 조합별로 correlation 산출

# 조합별로 correlation 저장할 벡터 생성
stock_c<-c()

for (i in 1:nrow(stock_comb)){
    # 조합df에서 주식name에 맞는 가격을 final2 df의 '종가'차이값 가져오기
    a<-final2[final2$name==stock_comb[i,1], '종가']
    b<-final2[final2$name==stock_comb[i,2], '종가']
    stock_c<-c(stock_c, cor(a,b))
}
stock_c

In [31]:
# 주식 조합과 상관성 기반으로 edge list 생성

# 주식조합을 df화시킴
result<-as.data.frame(stock_comb)
# 주식조합을 주식간 상관성에다가 cbind시킴
result<-cbind(result, stock_c)
result

V1,V2,stock_c
<fct>,<fct>,<dbl>
005930,000660,0.8812346
005930,207940,0.4801825
005930,035420,0.6224243
005930,068270,0.3275872
005930,051910,0.6443404
005930,051900,0.5330289
005930,005380,0.6381295
005930,028260,0.7432836
005930,006400,0.6879233
005930,035720,0.6466663


In [35]:
length(stock_c)
length(stock_comb)*0.5

In [37]:
# 칼럼명 설정
colnames(result)<-c('Source','Target','Weight')
head(result, n=5)
summary(result$Weight)

Unnamed: 0_level_0,Source,Target,Weight
Unnamed: 0_level_1,<fct>,<fct>,<dbl>
1,5930,660,0.8812346
2,5930,207940,0.4801825
3,5930,35420,0.6224243
4,5930,68270,0.3275872
5,5930,51910,0.6443404


   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
-0.2233  0.3880  0.5005  0.4838  0.5949  0.9258 

In [None]:
# 셀레니엄
library(Rselenium) # 웹 드라이버 연동 패키지(webdriver라는 api제공)
library(wdman) # 웹 드라이버 관리 패키지(드라이버 이용해 웹 브라우저 제어)

remote<-rsDriver(browser=c('chrome'), chromever='크롬버전정보',
                port=1234L)
            #여러번 실행시키면 포트를 사용중이라 안됨. 이 때 포트번호설정
            # 1234L 중 L은 정수로 변환해줌

# 페이지로 이동
remDr<-remote[['client']]
remDr$navigate('이동하고싶은url')

# 로그인 버튼 위치 지정
login<-remDr$findElement(using='css',
                        value='css_selector입력')
# 로그인 버튼 클릭
login$clickElement

# id, pw 입력창 지정후 사용자의 id,pw 입력
id<-remDr$findElement(using='css', value='css_selector')
id$sendKetsToElement(sendKeys=list('본인id'))

# 입력한 id,pw도 로그인 버튼 클릭
login<-remote$findElement(using='css', value='css_selector')
login$clickElement()

#로그인 상태로 열리는 url로 이동
remDr$navigate(url='특정url')
# 페이지 내용물 가져오기
remDr$getPageSource()
# 리스트키의 내용물 가져오기 (첫번째 키)
res<-remote$getPageSource() %>% `[[`(1)

# 카페글 링크 가져오기
url<-res %>%
read_html() %>%
html_nodes(css='css_selector') %>%
html_attr('href')

# '#'으로 시작하는 이상한 값 지우기
url[url != '#']


# 특정 페이지의 컨텐츠 추출
remDr$navigate(url[1])
res<-remDr$getPageSource() %>% `[[`(1)

body<-res %>%
read_html() %>%
html_node(css='css_selector') %>%
html_text(trim=TRUE)