In [None]:
# BeautifulSoup와 requests로 웹 파싱해보기 – 파이썬 실습

# 먼저 크롤링(Crawling), 파싱(Parsing), 스크래핑(Scraping)에 대한 정의를 알아보겠습니다.

# 크롤링은 웹 인덱싱을 위해 WWW를 체계적으로 탐색해나가는 것을 의미합니다. 크롤러가 하는 행위(WWW를 탐색해나가는 행위 등)를 바로 ‘크롤링’ 이라고 합니다.

# 웹 파싱은 웹 상의 자연어, 컴퓨터 언어 등의 일련의 문자열들을 분석하는 프로세스입니다

# 웹 스크래핑은 다양한 웹사이트로부터 데이터를 추출하는 기술을 의미합니다.

In [None]:
!pip install BeautifulSoup4
# 웹 페이지의 정보를 쉽게 스크랩할 수 있도록 기능을 제공하는 라이브러리입니다.
!pip install requests
# HTTP 요청을 보낼 수 있도록 기능을 제공하는 라이브러리 입니다.


In [None]:
# 파싱을 위한한 코드
# parser.py


import requests
from bs4 import BeautifulSoup as bs

#line 1 ~ 2: 필요한 라이브러리(requests, beautifulsoup)를 import 합니다

page = requests.get("https://library.gabia.com/")

# line 4: requests 를 이용하여 ‘https://library.gabia.com’ 주소로 get 요청을 보내고 응답을 받습니다. 상태 코드와 HTML 내용을 응답받을 수 있습니다.

soup = bs(page.text, "html.parser")

#line 5: 응답받은 HTML 내용을 BeautifulSoup 클래스의 객체 형태로 생성/반환합니다. 
#BeautifulSoup 객체를 통해 HTML 코드를 파싱하기 위한 여러 가지 기능을 사용할 수 있습니다. 
#(response.text는 응답 받은 내용(HTML)을 Unicode 형태로 반환합니다.)


elements = soup.select('div.esg-entry-content a > span')

#line 7: BeautifulSoup 가 제공하는 기능 중 CSS 셀렉터를 이용하여 원하는 정보를 찾을 수 있는 기능입니다. 
#(div.esg-entry-content a > span 은 esg-entry-content 클래스로 설정된 div 태그들의 하위에 존재하는 a 태그, 그 하위에 존재하는 span 태그를 의미합니다.)
# 이 셀렉터를 이용하면 가비아 라이브러리 홈페이지에 존재하는 포스터들의 제목을 추출할 수 있습니다.

for index, element in enumerate(elements, 1):
		print("{} 번째 게시글의 제목: {}".format(index, element.text))



In [8]:
#위의 작업 버전.2

elements = soup.select('div.esg-entry-content a.eg-grant-element-0')

#line 7: esg-entry-content 클래스로 설정된 div 태그들의 하위에 존재하는 태그 중, eg-grant-element-0 클래스를 갖는 a 태그만을 추출합니다.

for index, element in enumerate(elements, 1):
		print("{} 번째 게시글: {}, {}".format(index, element.text, element.attrs['href']))
  
# line 10: link.text 추출한 a 태그 안에 존재하는 text 내용을 추출합니다. 
# link.attrs['href'] a 태그의 href 속성의 값을 추출합니다.


  
