## <웹 크롤링 - 나무위키 사이트 분석 및 시각화>
---
### <Step1. 크롤링> : 크롤링으로 웹 데이터 가져오기
> **[웹 크롤링 라이브러리 사용하기]**
> - 파이썬에서는 BeautifulSoup과 requests라는 라이브러리로 웹 크롤러를 만들 수 있음
> - requests는 특정 URL로부터 HTML 문서를 가져오는 작업을 수행
> - 나무위키와 같은 페이지는 HTML 문서가 JavaScript로 동적 로딩되는 경우가 있음
> - requests 대신 셀레니움(selenium) 라이브러리를 이용해 크롬 브라우저로 동적 웹 크롤링 수행
> - selenium은 웹 브라우저를 자동으로 구동해주는 라이브러리
> - selenium을 사용하기 위해 크롬 드라이버를 이용해 크롬 브라우저 자동으로 구동 => 크롬 브라이버 필요

### [BeautifulSoup 과 selenium을 이용한 웹 크롤링]
> - anadonda prompt 혹은 Terminal에서 아래와 같은 패키지들을 설치
> - (env_name) pip install selenium
> - (env_name) pip install beautifulsoup4

### [크롬 브라우저 업데이트 및 크롬 드라이버 설치]
> - 크롬 브라우저 설정에서 최신 버전으로 업데이트
> - 크롬 드라이버 사이트에서 브라우저 버전에 맞는 드라이버 다운로드
> - https://chromedriver.chromium.org/downloads
> - chromedriver.exe 파일을 노트북 파일 경로에 이동

In [1]:
#!pip install selenium beautifulsoup4

In [2]:
from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

import re # 정규식 표현을 위한 모듈

import warnings # 실행 상 문제없는 문제 무시
warnings.filterwarnings("ignore")

In [3]:
# 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
executable_path = "chromedriver.exe"
driver = webdriver.Chrome(executable_path=executable_path)

# 사이트의 html 구조에 기반하여 크롤링을 수행
source_url = "https://namu.wiki/RecentChanges" # 크롤링할 사이트 주소를 정의
driver.get(source_url)  # 크롬 드라이버를 통해 URL의 HTML 문서 가져옴

import time
time.sleep(10)

req = driver.page_source
soup = BeautifulSoup(req, "html.parser") # BeautifulSoup의 soup 객체로 변환

table_rows = soup.select("table tbody tr")

In [4]:
table_rows

[<tr class="_2zNzOCnf" data-v-0b0db97d=""><td data-v-0b0db97d=""><a data-v-0b0db97d="" href="/w/%ED%8C%8C%EC%9D%BC:%EC%8A%A4%ED%8F%AC%EC%B8%A0%EC%B9%B4%ED%8F%B0%EC%8B%B8%EC%9D%B4%EC%96%B8(1).jpg">파일:스포츠카폰싸이언(1).jpg</a> <a data-v-0b0db97d="" href="/history/%ED%8C%8C%EC%9D%BC:%EC%8A%A4%ED%8F%AC%EC%B8%A0%EC%B9%B4%ED%8F%B0%EC%8B%B8%EC%9D%B4%EC%96%B8(1).jpg">[역사]</a> <!-- --> <a data-v-0b0db97d="" href="/discuss/%ED%8C%8C%EC%9D%BC:%EC%8A%A4%ED%8F%AC%EC%B8%A0%EC%B9%B4%ED%8F%B0%EC%8B%B8%EC%9D%B4%EC%96%B8(1).jpg">[토론]</a> <span data-v-0b0db97d="">(<span class="eAZN44S5" data-v-0b0db97d="" data-v-6cbb5b59="">+908</span>)</span></td> <td data-v-0b0db97d=""><div class="v-popover" data-v-0b0db97d="" data-v-37c86259=""><div aria-describedby="popover_3oz7omooxt" class="trigger" style="display: inline-block;"><a data-v-37c86259="">49.167.81.7</a> </div> </div> <!-- --></td> <td data-v-0b0db97d=""><time data-v-0b0db97d="" datetime="2022-07-11T00:30:20.000Z">2022-07-11 09:30:20</time></td></tr>,
 <tr d

### [페이지 링크 주소 리스트 가져오기]
---

In [5]:
page_url_base="https://namu.wiki" # 베이스 URL 정의
page_urls = [] # href 속성값을 담기 위한 빈 리스트 생성

for index in range(0, len(table_rows)) :
    first_td = table_rows[index].find_all("td")[0]
    td_url = first_td.find_all("a")
    
    if len(td_url) > 0 :
        page_url = page_url_base + td_url[0].attrs["href"]
        if "png" not in page_url :
            page_urls.append(page_url)
print(page_urls)

['https://namu.wiki/w/%ED%8C%8C%EC%9D%BC:%EC%8A%A4%ED%8F%AC%EC%B8%A0%EC%B9%B4%ED%8F%B0%EC%8B%B8%EC%9D%B4%EC%96%B8(1).jpg', 'https://namu.wiki/w/%EC%9D%B4%EC%B2%9C%EC%9D%BC%EB%A5%98', 'https://namu.wiki/w/%EA%B0%95%ED%9D%AC(%EB%B0%B0%EC%9A%B0)', 'https://namu.wiki/w/%EC%BD%94%EB%84%88%20%EA%B0%A4%EB%9F%AC%EA%B1%B0', 'https://namu.wiki/w/Team%20GP/%EC%B9%B4%ED%8A%B8%EB%9D%BC%EC%9D%B4%EB%8D%94', 'https://namu.wiki/w/Tommyboy', 'https://namu.wiki/w/%EC%A0%84%ED%88%AC%EC%8B%9D%EB%9F%89/%ED%95%9C%EA%B5%AD%EA%B5%B0', 'https://namu.wiki/w/%EC%9D%B4%EC%B2%9C%EC%9D%BC%EB%A5%98', 'https://namu.wiki/w/%EC%B5%9C%EB%AF%BC%ED%98%B8', 'https://namu.wiki/w/%EC%9C%84%EA%B8%B0%ED%83%88%EC%B6%9C%20%EB%84%98%EB%B2%84%EC%9B%90(%EB%A7%8C%ED%99%94)/%EB%93%B1%EC%9E%A5%EC%9D%B8%EB%AC%BC', 'https://namu.wiki/w/%EC%97%AC%EA%B3%A0%EC%B6%94%EB%A6%AC%EB%B0%982', 'https://namu.wiki/w/%EB%AA%AC%EC%8A%A4%ED%84%B0(%EB%A7%8C%ED%99%94)/%EC%95%A0%EB%8B%88%EB%A9%94%EC%9D%B4%EC%85%98', 'https://namu.wiki/w/%EC%95%84%EC%A0%80

In [6]:
page_urls[0]

'https://namu.wiki/w/%ED%8C%8C%EC%9D%BC:%EC%8A%A4%ED%8F%AC%EC%B8%A0%EC%B9%B4%ED%8F%B0%EC%8B%B8%EC%9D%B4%EC%96%B8(1).jpg'

### [각 링크 페이지 내 텍스트 구조를 확인하여 제목, 카테고리, 내용 출력]
---

In [7]:
# 크롬 드라이버를 통해 page_urls[0]번째 사이트의 HTML 문서를 가져옴
driver.get(page_urls[0]) # page_urls[0]의 정보를 가져옴
req = driver.page_source # 페이지 소스를 req에 저장
soup = BeautifulSoup(req, 'html.parser') # html.parser로 파싱

# 타이틀(h1) 추출
title = soup.select_one("h1")

# 카테고리 추출
category = soup.select_one("div._8DgSHiLA~ul") # div의 _8DgSHiLA 클래스부터(~) ul

# 내용 추출
content_paragraphs = soup.select_one("div.HMXdAcwv") # div의 HMXdAcwv 클래스

In [13]:
print(title.text)
print(category.text)
print()
print(content_paragraphs.text)

파일:스포츠카폰싸이언(1).jpg 
파일/휴대 전화

이 파일은 나무위키에서 제한된 한도 안에서 쓰입니다.본 이미지는 퍼블릭 도메인 혹은 자유이용 저작물이 아닌, 독점적 저작권이 존재하는 이미지입니다. 나무위키는 본 이미지를 제한된 한도 안에서 이용합니다.※ 다음과 같은 사항을 참조하시기 바랍니다.권리자는 해당 이미지가 나무위키에 게시되어 권리자의 정당한 권리를 침해한다고 여겨진다면 문의 게시판에 문의해 주세요.해당 이미지를 업로드한 사용자는 자신의 행위에 대한 법적 책임이 부과될 수 있음을 숙지해 주세요.
