## 웹 크롤링 라이브러리 사용하기

### 페이지의 URL 정보 추출하기

requests.get() 함수로 URL의 HTML 문서를 가져온 뒤, 이를 BeautifulSoup() 클래스의 soup 객체로 변환

find(), find_all() 함수를 사용 - 특정 HTML 태그 or 특정 HTML 클래스를 가진 데이터를 가지고 오기

HTML 구조에 기반하여 table -> tbody -> tr -> td -> a 태그 순의 HTML 계층 구조를 좁혀나가는 과정

목표 태그에 도달했을 때, get(href) 함수로 태그의 속성 정보 추출 / get() 함수 = 해당 태그가 가지고 있는 특정한 속성 추출

In [1]:
import requests
from bs4 import BeautifulSoup
import re

In [2]:
# 크롤링할 사이트 주소 정의
source_url = "https://namu.wiki/RecentChanges"

In [3]:
# 사이트의 html 구조에 기반하여 크롤링 수행
req = requests.get(source_url)
html = req.content
soup = BeautifulSoup(html, 'lxml')
contents_table = soup.find(name="table")
table_body = contents_table.find(name="tbody")
table_rows = table_body.find_all(name="tr")

In [4]:
# a태그의 href 속성을 리스트로 추출하여, 크롤링 할 페이지 리스트 생성
page_url_base = "https://namu.wiki"
page_urls = []
for index in range(0, len(table_rows)):
    first_td = table_rows[index].find_all('td')[0]
    td_url = first_td.find_all('a')
    if len(td_url) > 0:
        page_url = page_url_base + td_url[0].get('href')
        page_urls.append(page_url)

In [5]:
# 중복 url 제거
page_urls = list(set(page_urls))
for page in page_urls[:5]:
    print(page)

https://namu.wiki/w/%EC%9A%B0%EC%A3%BC%ED%95%98%EB%A7%88
https://namu.wiki/w/%EC%A1%B0%EC%BB%A4(%EA%B4%B4%EB%8F%84%20%EC%A1%B0%EC%BB%A4)
https://namu.wiki/w/%EB%82%B4%EB%A5%99%EC%A7%80%EC%97%AD
https://namu.wiki/w/%EC%9B%94%EB%93%9C%20%EC%98%A4%EB%B8%8C%20%ED%83%B1%ED%81%AC/%EB%A7%B5
https://namu.wiki/w/%EC%A0%95%EB%8F%99%EC%9B%90/%EC%95%84%EB%82%B4%EC%9D%98%20%EB%A7%9B


## 텍스트 정보 수집하기

### URL 페이지 정보를 기반으로 크롤링하기

최근 변경된 문서 중 한 페이지의 텍스트 정보 크롤링

get() 함수 -> text() 함수 사용 / 태그의 텍스트 정보만을 추출

In [6]:
# 최근 변경된 문서 하나 크롤링
req = requests.get(page_urls[0])
html = req.content
soup = BeautifulSoup(html, 'lxml')
title = soup.find(name = "h1", attrs={"class":"title"})
category = soup.find(name = "div", attrs={"class":"wiki-category"})
content_clearfix = soup.find(name = "div", attrs={"class":"wiki-content clearfix"})

print(title.text)
print(category.text)
print(content_clearfix.text)

AttributeError: 'NoneType' object has no attribute 'text'

In [7]:
req = requests.get(page_urls[0])
html = req.content
soup = BeautifulSoup(html, 'lxml')
contents_table = soup.find(name="article")
title = contents_table.find_all('h1')[0]
category = contents_table.find_all('ul')[0]
content_paragraphs = contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})
content_corpus_list = []

for paragraphs in content_paragraphs:
    content_corpus_list.append(paragraphs.text)
content_corpus = "".join(content_corpus_list)

print(title.text)
print("\n")
print(category.text)
print("\n")
print(content_corpus)

우주하마 


유튜버/ㅇ트위치 스트리머/ㅇ나무위키 인터넷 방송인 프로젝트


이 문서는이 문단은 토론을 통해 6.4문단에 우주하마 어몽어스에 대한 비판을 자유롭게 서술하기(으)로 합의되었습니다. 합의된 부분을 토론 없이 수정할 시 제재될 수 있습니다. 아래 토론들로 합의된 편집방침이 적용됩니다. 합의된 부분을 토론 없이 수정할 시 제재될 수 있습니다. [ 내용 펼치기 · 접기 ]토론 - 6.4문단에 우주하마 어몽어스에 대한 비판을 자유롭게 서술하기토론 - 4.4문단에 6.4문단을 언급하고 링크로 연결하기토론 - 합의사항3토론 - 합의사항4토론 - 합의사항5토론 - 합의사항6토론 - 합의사항7토론 - 합의사항8토론 - 합의사항9토론 - 합의사항10토론 - 합의사항11토론 - 합의사항12토론 - 합의사항13토론 - 합의사항14토론 - 합의사항15토론 - 합의사항16토론 - 합의사항17토론 - 합의사항18토론 - 합의사항19토론 - 합의사항20토론 - 합의사항21토론 - 합의사항22토론 - 합의사항23토론 - 합의사항24토론 - 합의사항25토론 - 합의사항26토론 - 합의사항27토론 - 합의사항28토론 - 합의사항29토론 - 합의사항30토론 - 합의사항31토론 - 합의사항32토론 - 합의사항33토론 - 합의사항34토론 - 합의사항35토론 - 합의사항36토론 - 합의사항37토론 - 합의사항38토론 - 합의사항39토론 - 합의사항40토론 - 합의사항41토론 - 합의사항42토론 - 합의사항43토론 - 합의사항44토론 - 합의사항45토론 - 합의사항46토론 - 합의사항47토론 - 합의사항48토론 - 합의사항49토론 - 합의사항50토론 - 6.4문단에 우주하마 어몽어스에 대한 비판을 자유롭게 서술하기토론 - 4.4문단에 6.4문단을 언급하고 링크로 연결하기토론 - 합의사항3토론 - 합의사항4토론 - 합의사항5토론 - 합의사항6토론 - 합의사항7토론 - 합의사항8토론 - 합의사항9토론 - 합의사항10토론 - 합의사항11토론 - 합의사항12토론 - 합의사항13토론 - 합의사항1