## 1. 웹 크롤링에 필요한 라이브러리

[Windows 운영체제 기준]

1. https://chromedriver.chromium.org/downloads 링크에서 현재 컴퓨터에 설치된 크롬 브라우저의 버전과 동일한 버전의 드라이버를 다운로드하기 위한 페이지로 이동한다. 이 책 에서는 91.0.4472.101 버전의 예시로 진행된다. 
2. https://chromedriver.storage.googleapis.com/index.html?path=91.0.4472.101/ 와 같은 형식의 페이지에 접속하여, chromedriver_win32.zip 파일을 다운로드하고 압축 해제한다. 
3. 현재 실행중인 노트북과 같은 경로로 chromedriver.exe 파일을 이동(혹은 복사)한다.

[MacOS 운영체제 기준]

1. 터미널 앱에서 homebrew를 이용하여 아래의 명령어로 chromedriver를 설치한다. (brew 설치 방법은 https://brew.sh/index_ko 참고)
> brew install chromedriver

2. 개발자 확인 오류가 뜬다면, 아래와 같이 명령어를 실행하여 폴더의 버전을 확인하고, 폴더 내로 이동한다. 그리고 xattr 명령어를 실행한다. 
> cd /usr/local/Caskroom/chromedriver/ 
> ls 
> cd 91.0.4472.19 
> xattr -d com.apple.quarantine chromedriver

### 1) requests 라이브러리

In [1]:
import requests

# 크롤링할 주소 정의
source_url = "https://naver.com"

# 주소에 get 요청을 보내 응답 가져오기
req = requests.get(source_url)

# 가져온 응답에서 html 구조의 데이터 추출
html = req.content
print(html)

----
### 2) BeautifulSoup 라이브러리

In [2]:
from bs4 import BeautifulSoup

# 크롤링할 주소 정의
source_url = "https://naver.com"

# 주소에 get 요청을 보내 응답 가져오기
req = requests.get(source_url)

# 가져온 응답에서 html 구조의 데이터 추출
html = req.content

# BeautifulSoup 라이브러리로 html 구조의 데이터를 파이썬 객체로 구조화
soup = BeautifulSoup(html, 'lxml')

# div라는 태그, title_view 클래스를 가지고 있는 데이터를 추출
contents_table = soup.find(name="div", attrs={"class":"tile_view"})

# 위에서 추출한 데이터에서 img 태그를 모두 추출
img_list = contents_table.find_all(name='img')

In [3]:
for img in img_list:
    print(img.get('src'))

https://s.pstatic.net/static/newsstand/up/2020/0610/nsd151458769.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/044.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/014.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/020.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/330.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/047.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/031.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/011.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/308.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/015.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/052.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/056.png
https://s.pstatic.net/static/newsstand/up/2020/0903/nsd185255316.png
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/376.png
https://s.pstatic.net/static/newsstand/2020/lo

----
### 3) Selenium 라이브러리

In [8]:
import requests
from bs4 import BeautifulSoup

# 크롤링할 주소 정의
source_url = "https://namu.wiki/RecentChanges"

# 주소에 get 요청을 보내 응답 가져오기
req = requests.get(source_url)

# 가져온 응답에서 html 구조의 데이터 추출
html = req.content

# BeautifulSoup 라이브러리로 html 구조의 데이터를 파이썬 객체로 구조화
soup=BeautifulSoup(req, "html.parser")

# table라는 태그를 가지고 있는 데이터를 추출
contents_table = soup.find(name="table")

# 위에서 추출한 데이터에서 tbody 태그를 추출
table_body = contents_table.find(name="tbody")

# 위에서 추출한 데이터에서 tr 태그를 모두 추출
table_rows = table_body.find_all(name="tr")

TypeError: object of type 'Response' has no len()

In [9]:
import requests
from bs4 import BeautifulSoup

# 크롤링할 주소 정의
source_url = "https://namu.wiki/RecentChanges"

# 주소에 get 요청을 보내 응답 가져오기
req = requests.get(source_url)

# 가져온 응답에서 html 구조의 데이터 추출
html = req.content
print(html)



In [18]:
from selenium import webdriver
from bs4 import BeautifulSoup
import re

# brew 로 설치된 chromedriver의 path (Mac)
path = "/usr/local/bin/chromedriver"

# 윈도우용 크롬 웹드라이버 실행 경로 (Windows)
excutable_path = "chromedriver.exe"

# 크롤링할 페이지 주소
source_url = "https://namu.wiki/RecentChanges"

# 크롬 드라이버를 사용 (맥은 첫 줄, 윈도우는 두번째 줄 실행)
driver = webdriver.Chrome(path)
# driver = webdriver.Chrome(executable_path=excutable_path)

# 드라이버가 브라우징 할 페이지 소스를 입력
driver.get(source_url)
req = driver.page_source

# 사이트의 html 구조에 기반하여 데이터를 파싱
soup=BeautifulSoup(req, "html.parser")
contents_table = soup.find(name="table")
table_body = contents_table.find(name="tbody")
table_rows = table_body.find_all(name="tr")

# a태그의 href 속성을 리스트로 추출하여, 크롤링 할 페이지 리스트를 생성
page_url_base = "https://namu.wiki"
page_urls = []
for index in range(0, len(table_rows)):
    first_td = table_rows[index].find_all("td")[0]
    td_url = first_td.find_all("a")
    if len(td_url) > 0:
        page_url = page_url_base + td_url[0].get("href")
        if "png" not in page_url:
            page_urls.append(page_url)

# 중복 url을 제거
page_urls = list(set(page_urls))
for page in page_urls[:10]:
    print(page)
    
# 크롤링에 사용한 브라우저를 종료
driver.close()

https://namu.wiki/w/%ED%82%B9%20%EC%BD%94%ED%8A%B8%EB%8B%88
https://namu.wiki/w/%EC%A1%B0%EB%A7%A4%EB%A0%A5
https://namu.wiki/w/%ED%8C%8C%EC%9D%BC:full_trap_errand.jpg
https://namu.wiki/w/%EC%97%AC
https://namu.wiki/w/%E3%85%8E%EB%A7%90%EC%9D%8C%20%EC%B2%B4%EC%96%B8
https://namu.wiki/w/DJ%20Wegun
https://namu.wiki/w/%EC%88%98%EC%9B%90%20KT%20%EC%86%8C%EB%8B%89%EB%B6%90%20%EC%95%84%EB%A0%88%EB%82%98
https://namu.wiki/w/%ED%94%8C%EB%A1%9C%EC%96%B4%20%EB%A7%88%EC%8A%A4%ED%84%B0
https://namu.wiki/w/%EC%86%90%EB%82%98%EC%9D%80
https://namu.wiki/w/%EB%B0%A5%EC%83%81%20%EB%92%A4%EC%A7%91%EA%B8%B0


In [19]:
# 하나의 최근 변경된 문서를 크롤링한다.

# 크롬 드라이버를 사용 (맥은 첫 줄, 윈도우는 두번째 줄 실행)
driver = webdriver.Chrome(path)
# driver = webdriver.Chrome(executable_path=excutable_path)

# 드라이버가 브라우징 할 페이지 소스를 입력
driver.get(page_urls[0])

# 드라이버에게 페이지 소스에서 정보를 가져도록 명령
req = driver.page_source

# BeautifulSoup 라이브러리로 가져온 정보를 파싱
soup=BeautifulSoup(req, "html.parser")

# article이라는 태그를 가지고 있는 데이터를 추출
contents_table = soup.find(name="article")

# 위에서 추출한 데이터에서 hi 태그를 모두 추출
title = contents_table.find_all("h1")[0]

# 위에서 추출한 데이터에서 ul 태그를 모두 추출
category = contents_table.find_all("ul")[0]

# 위에서 추출한 데이터에서 div 태그이면서 wiki-paragraph 클래스를 가진 데이터를 모두 추출
content_paragraphs = contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})
content_corpus_list = []

for paragraphs in content_paragraphs:
    content_corpus_list.append(paragraphs.text)
content_corpus = "".join(content_corpus_list)

print(title.text)
print("\n")
print(category.text)
print("\n")
print(content_corpus)

# 크롤링에 사용한 브라우저를 종료
driver.close()

ㅎ말음 체언 


한국어


한국민족문화대백과사전: ㅎ말음 체언1. 소개2. 역사3. ㅎ말음 체언/ㅎ종성 체언4. 출현 양상과 표기4.1. 15세기 공시태4.2. 통시적 관점5. 흔적6. 비교: ㅎ말음 용언7. 단어 목록7.1. ㄱ7.2. ㄴ7.3. ㄷ7.4. ㅁ7.5. ㅂ7.5.1. ㅂ계 합용병서7.6. ㅅ7.6.1. ㅅ계 합용병서7.7. ㅇ7.8. ㅈ7.9. ㅊ7.10. ㅋ7.11. ㅌ7.12. ㅍ7.13. ㅎ7.14. 수사7.15. 한자음8. 관련 문서중세 한국어에서 말음(末音)으로 /ㅎ/을 가지고 있는 것처럼 나타나는 체언. 'ㅎ 곡용어'라고도 한다.중세 한국어에서 ㅎ말음 체언은 약 80개가량이 발견된다고 한다.온라인 가나다주의할 것으로 현대 이전까지의 8종성 표기로 인하여 후행 음절에 ㅎ이 드러나는 것은 ㅎ말음 체언으로 보지 않는다. 예를 들어 '바깥'은 과거에 '밧갓헤셔'와 같이 ㅅ종성으로 적고 뒤에 ㅎ을 적었으나, 오늘날에는 ㅌ말음을 형태소 표기로서 적는 것을 인정하여 ㅅ(ㄷ)과 ㅎ으로 나눠적지 않으므로 이는 ㅎ말음 체언에 들어가지 않는다. 역사적으로는 ㄱ말음이 약화되어 ㅎ으로 되었다고 본다. 이를 잘 알 수 있는 것이 'ᅀᅭᇂ~ᅀᅭㅎ→요'로, 유래가 된 한자 '褥'의 경우 한자음으로는 '욕'으로 ㄱ말음이 남아 있는 반면 고유어화된 '요'는 ㄱ이 약화되어 ㅎ말음을 거쳐 '요'가 되었다. /ㄱ/과 /ㅎ/의 이러한 이동은 다른 언어에서도 자주 나타나는데 '카자크'가 '카자흐'가 된다거나, 크로아티아의 현지 발음이 '흐르바츠카'인 등의 사례가 있다. 러시아어에서는 어두의 [h]을 [k]로 발음하기도 한다. 근대기로 넘어오면서 ㅎ말음 체언은 모두 사라졌다.'ㅎ종성(받침) 체언'이라고도 한다. 그러나 '종성'의 정의를 '한글 표기상으로 중성 아래에 적는 말음'이라는 식으로 표기를 지칭하는 용어로 본다면 'ㅎ종성 체언'이라는 말은 (자주 쓰이기는 해도) 어폐가 있다. ㅎ말음 체언 가운데 표기상으로 ㅎ을 종성으로 표기한 사례는 나타나지 않기 때문이다.[1] 모