# 웹 크롤링

In [None]:
# 내부 데이터 (이미 사내에서 접속 가능한 정제 후 활용 가능 데이터)만으로
# 분석하는 것이 한계가 있기 때문에 외부 데이터를 수집한다.

## BeautifulSoup 활용 HTML 추출

In [None]:
# Mission
# sparkkorea.com/퀴즈 사이트에 접속 후 퀴즈 내용을 스크랩

In [None]:
# HTML DOM tree에 대한 이해
# F12 > Sources > index
# 태그 안에다가 정보를 저장
# head : 페이지 제목, 메타정보 등록
# body : 실제 본문 내용, <div>라는 단락이 있고 이 단락 안에는 각각의 퀴즈 정보에 대한 링크 정보가 있다.
# 따라서 body 정보를 활용하면 우리가 필요한 정보를 잘 스크랩할 수 있다. 
# request로 태그값을 가져와서, beautifulSoup 활용하여 예쁘게 정제할 수 있다. 

In [1]:
# 라이브러리 선언
import requests
import bs4
import pandas as pd

In [2]:
#웹페이지 html 소스코드 가져오기
# request를 찍어봤을 때 200이 찍히면 정상신호
requests.get("https://sparkkorea.com/퀴즈/")

<Response [200]>

In [3]:
# 추후엔 아래와 같이 로직을 구성하는 것이 안전
# if resp.status_code == 200 :

In [4]:
resp=requests.get("https://sparkkorea.com/퀴즈/") # 정상신호
resp.encoding='utf-8' # 한글이 있는 웹페이지
html = resp.text # 해당 웹페이지에서 소스코드를 무작위로 가져올 것

In [5]:
# 가져온 html 코드를 bs4를 활용해서 html.parser로
# 태그 단위로 정제한 정보를 예쁘게 떠오겠다
bs = bs4.BeautifulSoup(html, 'html.parser')
bs

<!DOCTYPE html>

<html lang="ko-KR">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="http://gmpg.org/xfn/11" rel="profile"/>
<link href="https://sparkkorea.com/xmlrpc.php" rel="pingback"/>
<title>퀴즈 – 스파크 코리아</title>
<meta content="max-image-preview:large" name="robots">
<meta content="QRZVgHsoL23RuwmgmXNuXfO-mUaxCkdvhP2rRvLT270" name="google-site-verification">
<!-- Async WordPress.com Remote Login -->
<script id="wpcom_remote_login_js">
var wpcom_remote_login_extra_auth = '';
function wpcom_remote_login_remove_dom_node_id( element_id ) {
	var dom_node = document.getElementById( element_id );
	if ( dom_node ) { dom_node.parentNode.removeChild( dom_node ); }
}
function wpcom_remote_login_remove_dom_node_classes( class_name ) {
	var dom_nodes = document.querySelectorAll( '.' + class_name );
	for ( var i = 0; i < dom_nodes.length; i++ ) {
		dom_nodes[ i ].parentNode.removeChild( dom_nodes[ i ] );
	}
}
function wpcom_remote_

## 태그정보 수집하기

In [None]:
# 원하는 웹페이지 소스를 수집한 후
# 필요한 태그 정보 내 소스만 수집

### (1) 태그명으로 소스 수집하기

In [None]:
# "https://sparkkorea.com/퀴즈/"에서 가져오고 싶은 정보는
# a 태그 안에 있기 때문에 a 태그만을 추출 

In [6]:
# bs.find(name = "태그명") : 태그 찾기(맨 앞 한개)

# 코드 내 a 태그 1개만 탐색
bs = bs4.BeautifulSoup(html,"html.parser")
aTag = bs.find(name = "a")
print(aTag)

<a class="skip-link screen-reader-text" href="#content">컨텐츠로 건너뛰기</a>


In [7]:
print( type(aTag) )

<class 'bs4.element.Tag'>


In [8]:
# bs.findAll(name = "태그명") : 태그 찾기(전체)

# 코드 내 a 태그 탐색, 상단 2개만
aTags = bs.findAll(name = "a", limit = 2)
print(aTags)

[<a class="skip-link screen-reader-text" href="#content">컨텐츠로 건너뛰기</a>, <a href="https://sparkkorea.com/" rel="home">
					스파크 코리아				</a>]


In [9]:
print( type(aTags) )

<class 'bs4.element.ResultSet'>


In [10]:
# list 형태로 접근할 수 있다
aTags[0]

<a class="skip-link screen-reader-text" href="#content">컨텐츠로 건너뛰기</a>

In [11]:
len(aTags)

2

### (2) 태그 속성정보로 소스 수집하기

In [None]:
# html에는 단락을 표시하는 div라는 태그가 존재한다. 

In [12]:
# ID 속성으로 태그 탐색
spQuizTag = bs.find(name = "div",
        attrs = {"id":"id_spark_quiz"} ) 
spQuizTag

<div class="class_spark_quiz" id="id_spark_quiz">
<h1>Spark 퀴즈 </h1>
<a href="https://forms.gle/Fw49w9GhWQChDcZm7"> 6/13 Spark 심화과정 </a>
<p></p>
<a href="https://forms.gle/G4TcXm3fKuHLHA6D6"> 6/13 Spark 기본과정 </a>
<p></p>
<a href="https://forms.gle/M8gr1kC2ubA3UDVp8"> 6/18 Spark [MAP_FILTER] </a>
<p></p>
<a href="https://forms.gle/h8w5mZ4MNaPLCPbi6"> 6/18 Spark GroupBy 심화 </a>
<p></p>
<a href="https://forms.gle/q5yL6QHfueDLM5w27"> 6/25 Spark RDD 실전 분석 </a>
<p></p>
<a href="https://forms.gle/Gxb4y6LfVYiaLu4M7"> 6/27 Spark RDD 실전 분석2 </a>
<p></p>
</div>

### (3) 태그 내 부분태그 소스 수집하기

In [13]:
# html 부분구조 가져오기 (find)
spQuizTagLink = spQuizTag.find(name = "a")
spQuizTagLink

<a href="https://forms.gle/Fw49w9GhWQChDcZm7"> 6/13 Spark 심화과정 </a>

In [14]:
# html 부분구조 가져오기 (findAll)
spQuizTagLinks = spQuizTag.findAll(name = "a")
spQuizTagLinks

[<a href="https://forms.gle/Fw49w9GhWQChDcZm7"> 6/13 Spark 심화과정 </a>,
 <a href="https://forms.gle/G4TcXm3fKuHLHA6D6"> 6/13 Spark 기본과정 </a>,
 <a href="https://forms.gle/M8gr1kC2ubA3UDVp8"> 6/18 Spark [MAP_FILTER] </a>,
 <a href="https://forms.gle/h8w5mZ4MNaPLCPbi6"> 6/18 Spark GroupBy 심화 </a>,
 <a href="https://forms.gle/q5yL6QHfueDLM5w27"> 6/25 Spark RDD 실전 분석 </a>,
 <a href="https://forms.gle/Gxb4y6LfVYiaLu4M7"> 6/27 Spark RDD 실전 분석2 </a>]

### (4) 태그 내 속성정보 수집하기 (find)

In [15]:
# 링크 속성정보 가져오기
# spQuizTagLink의 href 속성을 가져오기
spQuizTagLink.attrs['href']

'https://forms.gle/Fw49w9GhWQChDcZm7'

In [16]:
linkAttrs = spQuizTagLink.attrs['href']
linkText = spQuizTagLink.text
linkTag = spQuizTagLink.name
print(linkAttrs, linkText, linkTag)

https://forms.gle/Fw49w9GhWQChDcZm7  6/13 Spark 심화과정  a


### (4-1) 태그 내 속성정보 수집하기 (findAll)

#### 먼저 findAll 디버깅

In [17]:
# html 부분구조 가져오기
spQuizTagLinks = spQuizTag.findAll(name = "a") 
spQuizTagLinks

[<a href="https://forms.gle/Fw49w9GhWQChDcZm7"> 6/13 Spark 심화과정 </a>,
 <a href="https://forms.gle/G4TcXm3fKuHLHA6D6"> 6/13 Spark 기본과정 </a>,
 <a href="https://forms.gle/M8gr1kC2ubA3UDVp8"> 6/18 Spark [MAP_FILTER] </a>,
 <a href="https://forms.gle/h8w5mZ4MNaPLCPbi6"> 6/18 Spark GroupBy 심화 </a>,
 <a href="https://forms.gle/q5yL6QHfueDLM5w27"> 6/25 Spark RDD 실전 분석 </a>,
 <a href="https://forms.gle/Gxb4y6LfVYiaLu4M7"> 6/27 Spark RDD 실전 분석2 </a>]

In [18]:
titleList = [] 
linkList = []

In [19]:
# 첫 번째 a 태그 정보 수집
titleList.append ( spQuizTagLinks[0].text ) 
linkList.append ( spQuizTagLinks[0].attrs["href"] )
print(titleList)
print(linkList)

[' 6/13 Spark 심화과정 ']
['https://forms.gle/Fw49w9GhWQChDcZm7']


In [20]:
# 두 번째 a 태그 정보 수집
titleList.append ( spQuizTagLinks[1].text )
linkList.append ( spQuizTagLinks[1].attrs["href"] )
print(titleList)
print(linkList)

[' 6/13 Spark 심화과정 ', ' 6/13 Spark 기본과정 ']
['https://forms.gle/Fw49w9GhWQChDcZm7', 'https://forms.gle/G4TcXm3fKuHLHA6D6']


In [21]:
titleList = [] 
titleList.append ( spQuizTagLinks[0].text )
titleList.append ( spQuizTagLinks[1].text )
titleList.append ( spQuizTagLinks[2].text )
titleList.append ( spQuizTagLinks[3].text )
titleList.append ( spQuizTagLinks[4].text )
titleList.append ( spQuizTagLinks[5].text )
titleList

[' 6/13 Spark 심화과정 ',
 ' 6/13 Spark 기본과정 ',
 ' 6/18 Spark [MAP_FILTER] ',
 ' 6/18 Spark GroupBy 심화 ',
 ' 6/25 Spark RDD 실전 분석 ',
 ' 6/27 Spark RDD 실전 분석2 ']

In [22]:
linkList = []
linkList.append ( spQuizTagLinks[0].attrs["href"] )
linkList.append ( spQuizTagLinks[1].attrs["href"] )
linkList.append ( spQuizTagLinks[2].attrs["href"] )
linkList.append ( spQuizTagLinks[3].attrs["href"] )
linkList.append ( spQuizTagLinks[4].attrs["href"] )
linkList.append ( spQuizTagLinks[5].attrs["href"] )
linkList

['https://forms.gle/Fw49w9GhWQChDcZm7',
 'https://forms.gle/G4TcXm3fKuHLHA6D6',
 'https://forms.gle/M8gr1kC2ubA3UDVp8',
 'https://forms.gle/h8w5mZ4MNaPLCPbi6',
 'https://forms.gle/q5yL6QHfueDLM5w27',
 'https://forms.gle/Gxb4y6LfVYiaLu4M7']

In [23]:
# 마지막 퀴즈 a 태그 까지 반복:  
len(spQuizTagLinks)

6

#### findAll + for문 활용하여 수집

In [24]:
# html 부분구조 가져오기
spQuizTagLinks = spQuizTag.findAll(name = "a") 
spQuizTagLinks

[<a href="https://forms.gle/Fw49w9GhWQChDcZm7"> 6/13 Spark 심화과정 </a>,
 <a href="https://forms.gle/G4TcXm3fKuHLHA6D6"> 6/13 Spark 기본과정 </a>,
 <a href="https://forms.gle/M8gr1kC2ubA3UDVp8"> 6/18 Spark [MAP_FILTER] </a>,
 <a href="https://forms.gle/h8w5mZ4MNaPLCPbi6"> 6/18 Spark GroupBy 심화 </a>,
 <a href="https://forms.gle/q5yL6QHfueDLM5w27"> 6/25 Spark RDD 실전 분석 </a>,
 <a href="https://forms.gle/Gxb4y6LfVYiaLu4M7"> 6/27 Spark RDD 실전 분석2 </a>]

In [25]:
titleList = [] 
linkList = []
# 첫 번째 a 태그 정보 수집
for i in range(0, len(spQuizTagLinks)):
    titleList.append ( spQuizTagLinks[i].text ) 
    linkList.append ( spQuizTagLinks[i].attrs["href"] )

In [26]:
titleList

[' 6/13 Spark 심화과정 ',
 ' 6/13 Spark 기본과정 ',
 ' 6/18 Spark [MAP_FILTER] ',
 ' 6/18 Spark GroupBy 심화 ',
 ' 6/25 Spark RDD 실전 분석 ',
 ' 6/27 Spark RDD 실전 분석2 ']

In [27]:
linkList

['https://forms.gle/Fw49w9GhWQChDcZm7',
 'https://forms.gle/G4TcXm3fKuHLHA6D6',
 'https://forms.gle/M8gr1kC2ubA3UDVp8',
 'https://forms.gle/h8w5mZ4MNaPLCPbi6',
 'https://forms.gle/q5yL6QHfueDLM5w27',
 'https://forms.gle/Gxb4y6LfVYiaLu4M7']

# 참조. List 활용 데이터프레임 만들기

In [28]:
import pandas as pd

testList = [ ["링크1_링크","링크1_타이틀"], 
             ["링크2_링크","링크2_타이틀"]  ]

pd.DataFrame(testList, columns = ["링크","타이틀"])

Unnamed: 0,링크,타이틀
0,링크1_링크,링크1_타이틀
1,링크2_링크,링크2_타이틀


In [29]:
import pandas as pd

linkColumn = ["링크1_링크", "링크2_링크"]
titleColumn = ["링크1_타이틀", "링크2_타이틀"]
pd.DataFrame({"링크":linkColumn,"제목":titleColumn})
pd.DataFrame(zip(linkColumn,titleColumn), 
             columns = ["링크","제목"])

Unnamed: 0,링크,제목
0,링크1_링크,링크1_타이틀
1,링크2_링크,링크2_타이틀


## 활용 예시

### 디버깅

In [30]:
columnList = []

In [31]:
print(spQuizTagLinks[0].text)
print(spQuizTagLinks[0].attrs["href"])

 6/13 Spark 심화과정 
https://forms.gle/Fw49w9GhWQChDcZm7


In [32]:
# 빈 리스트에 0번째 값들을 담아주면,
columnList.append ( spQuizTagLinks[0].text ) 
columnList.append ( spQuizTagLinks[0].attrs["href"] )

In [33]:
# 리스트 안에 두 가지 정보가 한 번에 담긴다
columnList

[' 6/13 Spark 심화과정 ', 'https://forms.gle/Fw49w9GhWQChDcZm7']

In [34]:
rowList = []

In [35]:
# rowList에 columnList에 담아주기
rowList.append(columnList)
rowList

[[' 6/13 Spark 심화과정 ', 'https://forms.gle/Fw49w9GhWQChDcZm7']]

In [36]:
# 한 행이 다 담긴 것을 확인할 수 있다.
pd.DataFrame(rowList)

Unnamed: 0,0,1
0,6/13 Spark 심화과정,https://forms.gle/Fw49w9GhWQChDcZm7


### (방법1) for문 활용하여 수집 후 데이터프레임 생성

In [37]:
columnList = []
rowList = []

In [38]:
for i in range(0, len(spQuizTagLinks)):
    # 각 행의 컬럼 정보를 columnList에 저장함
    columnList.append ( spQuizTagLinks[i].text ) 
    columnList.append ( spQuizTagLinks[i].attrs["href"] )
    # 각 행의 모든 정보를 rowList에 저장함
    rowList.append(columnList)
    # rowList에 다음 행 값을 담기 위한 columnList 초기화
    columnList = []

In [39]:
rowList

[[' 6/13 Spark 심화과정 ', 'https://forms.gle/Fw49w9GhWQChDcZm7'],
 [' 6/13 Spark 기본과정 ', 'https://forms.gle/G4TcXm3fKuHLHA6D6'],
 [' 6/18 Spark [MAP_FILTER] ', 'https://forms.gle/M8gr1kC2ubA3UDVp8'],
 [' 6/18 Spark GroupBy 심화 ', 'https://forms.gle/h8w5mZ4MNaPLCPbi6'],
 [' 6/25 Spark RDD 실전 분석 ', 'https://forms.gle/q5yL6QHfueDLM5w27'],
 [' 6/27 Spark RDD 실전 분석2 ', 'https://forms.gle/Gxb4y6LfVYiaLu4M7']]

In [40]:
pd.DataFrame(rowList)

Unnamed: 0,0,1
0,6/13 Spark 심화과정,https://forms.gle/Fw49w9GhWQChDcZm7
1,6/13 Spark 기본과정,https://forms.gle/G4TcXm3fKuHLHA6D6
2,6/18 Spark [MAP_FILTER],https://forms.gle/M8gr1kC2ubA3UDVp8
3,6/18 Spark GroupBy 심화,https://forms.gle/h8w5mZ4MNaPLCPbi6
4,6/25 Spark RDD 실전 분석,https://forms.gle/q5yL6QHfueDLM5w27
5,6/27 Spark RDD 실전 분석2,https://forms.gle/Gxb4y6LfVYiaLu4M7


In [41]:
pd.DataFrame(rowList, columns = ["링크", "타이틀"])

Unnamed: 0,링크,타이틀
0,6/13 Spark 심화과정,https://forms.gle/Fw49w9GhWQChDcZm7
1,6/13 Spark 기본과정,https://forms.gle/G4TcXm3fKuHLHA6D6
2,6/18 Spark [MAP_FILTER],https://forms.gle/M8gr1kC2ubA3UDVp8
3,6/18 Spark GroupBy 심화,https://forms.gle/h8w5mZ4MNaPLCPbi6
4,6/25 Spark RDD 실전 분석,https://forms.gle/q5yL6QHfueDLM5w27
5,6/27 Spark RDD 실전 분석2,https://forms.gle/Gxb4y6LfVYiaLu4M7


### (방법2) for문 활용하여 수집 후 데이터프레임 생성

In [42]:
spQuizTag = bs.find(name = "div",
        attrs = {"id":"id_spark_quiz"} ) 

# html 부분구조 가져오기
spQuizTagLinks = spQuizTag.findAll(name = "a")

rowList = []

titleList=[]
linkList=[]

for i in range(0, len(spQuizTagLinks)):
    titleList.append(spQuizTagLinks[i].text)
    linkList.append(spQuizTagLinks[i].attrs["href"])

answer = pd.DataFrame(zip( titleList, linkList), 
                      columns = ["spark퀴즈 타이틀","spark퀴즈 링크"])
answer = pd.DataFrame( { "spark퀴즈 타이틀": titleList,
                         "spark퀴즈 링크" : linkList })
answer

Unnamed: 0,spark퀴즈 타이틀,spark퀴즈 링크
0,6/13 Spark 심화과정,https://forms.gle/Fw49w9GhWQChDcZm7
1,6/13 Spark 기본과정,https://forms.gle/G4TcXm3fKuHLHA6D6
2,6/18 Spark [MAP_FILTER],https://forms.gle/M8gr1kC2ubA3UDVp8
3,6/18 Spark GroupBy 심화,https://forms.gle/h8w5mZ4MNaPLCPbi6
4,6/25 Spark RDD 실전 분석,https://forms.gle/q5yL6QHfueDLM5w27
5,6/27 Spark RDD 실전 분석2,https://forms.gle/Gxb4y6LfVYiaLu4M7
