# 크롤링(crawling)
크롤링이란 단어는 웹 크롤러(crawler)라는 단어에서 시작한 말이다.
크롤러란 조직적, 자동화된 방법으로 월드와이드 웹을 탐색하는 컴퓨터 프로그램이다.(출처: 위키백과)
크롤링은 크롤러가 하는 작업을 부르는 말로, 여러 인터넷 사이트의 페이지(문서, html 등)를 수집해서 분류하는 것이다.
대체로 찾아낸 데이터를 저장한 후 쉽게 찾을 수 있게 인덱싱한다.
# 파싱(parsing)
파싱이란 어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공하는 것이다.
위 문장만 보면 굉장히 간단해 보이지만 컴퓨터 과학적 정의를 보면 파싱이란 일련의 문자열을 의미있는 토큰(token)으로 분해하고 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말한다.(출처: 위키백과)
인터프리터나 컴파일러의 구성 요소 가운데 하나로, 입력 토큰에 내제된 자료 구조를 빌드하고 문법을 검사하는 역할을 한다.
# 스크래핑(scraping)
스크래핑이란 HTTP를 통해 웹 사이트의 내용을 긁어다 원하는 형태로 가공하는 것이다.
쉽게 말해 웹 사이트의 데이터를 수집하는 모든 작업을 뜻한다.
크롤링도 일종의 스크래핑 기술이라고 할 수 있다.

In [1]:
import numpy as np
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

- 1~2 페이지의 책한권한권의 링크를 리스트에 담았습니다.

In [3]:
test_url = [] # url 링크들이 들어갈 변수의 이름입니다.
for idx in range(1,5): # 1페이지부터 4페이지까지 크롤링하기 위한 범위 입니다.
    main_html = requests.get("https://www.culture.go.kr/knowledge/bookList.do?cPage={}&jobGroupId=GRP28&jobId=JOB1212".format(idx)).text
    main_soup = BeautifulSoup(main_html, "html.parser")
    book_list = main_soup.find_all("dt")[2:] # book_list에는 사이트주소와 불필요한 부분이 같이 존재합니다.
    for book_url in book_list: # ("a")["href"]가 저희가 필요한 링크의 부분입니다.
      url = book_url.find("a")["href"]
      test_url.append(url)

In [4]:
test_url # 1~4페이지까지에 책링크들이 담겨있습니다.

['http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1532',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1537',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1536',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1530',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1535',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1534',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1533',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1531',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1523',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1522',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1529',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1528',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1521',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1525',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1526',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1522',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1513',
 'http://www.nl.go.kr/nl/saseo/view.jsp?recomNo=1519',
 'http://w

- test_url을 따온것 처럼 이제 url을 순차적으로 방문하여 제목과 추천글 부분을 가져옵니다.
- 아래 코드는 url을 따오는 것부터 제목과 추천글을 따오는 것까지의 내용입니다.

In [5]:
dic = {"title":[], "content":[]}

for idx in range(1,4):
    main_html = requests.get("https://www.culture.go.kr/knowledge/bookList.do?cPage={}&jobGroupId=GRP28&jobId=JOB1212".format(idx)).text
    main_soup = BeautifulSoup(main_html, "html.parser")
    book_list = main_soup.find_all("dt")[2:]
    
    for book_tag in book_list:
        sub_url = book_tag.find("a")["href"]
        sub_html = requests.get(sub_url).text
        sub_soup = BeautifulSoup(sub_html, "html.parser")
        
        title = sub_soup.find("span", {"class": "bookList_info"})
        title = title.find("strong").text
        dic["title"].append(title)
        
        content = sub_soup.find("p", {"class":"cont"}).text
        content = re.sub("[\r\t\n]","",content).strip()
        dic["content"].append(content)

In [7]:
pd.DataFrame(dic)

Unnamed: 0,title,content
0,인플레이션,공저자의 한 명인 하노 벡은 독일 최고 언론인상을 두 번이나 받았던 경제기자 출신의...
1,기억은 역사를 어떻게 재현하는가,역사는 역사를 저술하는 개인의 기억을 바탕으로 하기 때문에 역사는 가능한 한 다양한...
2,똑똑함의 숭배 : 엘리트주의는 어떻게 사회를 실패로 이끄는가,"저자 크리스토퍼 헤이즈는 미국의 정치평론가로, 누구에게나 성공할 수 있는 기회가 주..."
3,서른의 반격,"‘88 년생 김지혜 ’ 라는 개인의 일상을 통해 , 부당한 권위를 이용해..."
4,스피치 세계사,말의 힘은 강력하다. 고대 그리스부터 이미 사람들은 자신의 뜻을 관철시키고 대중을 ...
5,우연의 설계,"‘우연’이란 일정한 법칙으로 설명하기 어려운 일들, 불규칙하고 무작위적인, 의도하지..."
6,모든 것의 기원,"하루하루 바쁘게 일상을 살아가지만, 누구나 한번쯤은 나와 나를 둘러싼 세상, 그리고..."
7,구스타프 소나타,제 2 차 세계대전 종전 직후 스위스의 한 작은 마을을 배경으로 구스타프의 소년...
8,생각한다면 과학자처럼,과학자들의 사고체계는 과학이라는 학문의 테두리 밖에서 살아가는 대다수의 ‘비과학자들...
9,나한테 왜 그래요?,세상을 살아가다보면 종종 이렇게 묻고 싶을 때가 있다 . “ 정말 나한테 왜 그...
