Copyright (c) 2019 [윤기태]

https://github.com/yoonkt200/python-data-analysis

[MIT License](https://github.com/yoonkt200/python-data-analysis/blob/master/LICENSE.txt)

# (가제) 파이썬 데이터 분석

-----

# 웹 페이지 크롤링

### 1. 대상 페이지의 구조 살펴보기

- Internet Explorer, Chrome 등의 웹 브라우저로 크롤링의 대상이 될 페이지 구조 살펴보기
    - 웹 브라우저의 개발자 도구 실행 (Chrome 기준 설명)
        - `Chrome 맞춤설정 및 제어 탭 - 도구 더보기 - 개발자 도구` 클릭
        - 혹은 `Command + Alt + I (Mac), Ctrl + Shift + I (윈도우)`

![앱 생성 페이지](img/crawl_1.png)

-----

### 2. 페이지들의 URL 정보 추출

- 개발자 도구를 통해, 텍스트 데이터를 가져올 페이지들의 URL 리스트 추출
    - HTML 구조에서 링크 정보 (**a 태그**) 추출
        - 개발자도구 좌측 상단의 `마우스 모양` 버튼 클릭
        - HTML 구조를 보고싶은 영역으로 마우스 커서 이동

![앱 생성 페이지](img/crawl_2.png)

-----

- 아래 코드 실행을 위해, anaconda prompt 혹은 Terminal에서 아래와 같은 패키지들을 설치해 줍니다.
    - (env_name) `pip install selenium beautifulsoup4`
- 혹은 아래의 코드로 라이브러리를 설치합니다.

In [1]:
!pip install selenium beautifulsoup4

Collecting selenium
  Downloading https://files.pythonhosted.org/packages/80/d6/4294f0b4bce4de0abf13e17190289f9d0613b0a44e5dd6a7f5ca98459853/selenium-3.141.0-py2.py3-none-any.whl (904kB)
Installing collected packages: selenium
Successfully installed selenium-3.141.0


-----

In [3]:
from selenium import webdriver
from bs4 import BeautifulSoup
import re

# brew 로 설치된 chromedriver의 path (Mac)
path = "/usr/local/bin/chromedriver"

# 윈도우용 크롬 웹드라이버 실행 경로 (Windows)
excutable_path = "chromedriver.exe"

# 크롤링할 사이트 주소를 정의합니다.
source_url = "https://namu.wiki/RecentChanges"

# 크롬 드라이버를 사용합니다 (맥은 첫 줄, 윈도우는 두번째 줄 실행)
# driver = webdriver.Chrome(path)
driver = webdriver.Chrome(executable_path=excutable_path)

# 드라이버가 브라우징 할 페이지 소스를 입력합니다
driver.get(source_url)
req = driver.page_source

# 사이트의 html 구조에 기반하여 데이터를 파싱합니다.
soup=BeautifulSoup(req, "html.parser")
contents_table = soup.find(name="table")
table_body = contents_table.find(name="tbody")
table_rows = table_body.find_all(name="tr")

# a태그의 href 속성을 리스트로 추출하여, 크롤링 할 페이지 리스트를 생성합니다.
page_url_base = "https://namu.wiki"
page_urls = []
for index in range(0, len(table_rows)):
    first_td = table_rows[index].find_all("td")[0]
    td_url = first_td.find_all("a")
    if len(td_url) > 0:
        page_url = page_url_base + td_url[0].get("href")
        if "png" not in page_url:
            page_urls.append(page_url)

# 중복 url을 제거합니다.
page_urls = list(set(page_urls))
for page in page_urls[:3]:
    print(page)
    
# 크롤링에 사용한 브라우저를 종료합니다.
driver.close()

https://namu.wiki/w/%EC%95%8C%EB%A0%89%EC%8A%A4(%EC%98%81%EC%9B%90%ED%9A%8C%EA%B7%80:%20%EB%B8%94%EB%9E%99%EC%84%9C%EB%B0%94%EC%9D%B4%EB%B2%8C)
https://namu.wiki/w/%EC%98%88%EB%A6%AC%EC%BD%94%EC%9D%98%20%EC%A0%84%ED%88%AC
https://namu.wiki/w/%EA%B9%80%ED%95%B4%EA%B3%A0%EB%93%B1%ED%95%99%EA%B5%90%20%EC%95%BC%EA%B5%AC%EB%B6%80
https://namu.wiki/w/%EA%B5%B0%ED%8F%AC%20%EB%B2%84%EC%8A%A4%2031
https://namu.wiki/w/TeamLiquid%20StarLeague%207


- 위의 코드를 통해 https://namu.wiki/RecentChanges 페이지의 최근 변경 문서 링크들을 추출.

-----

### 3. 각종 텍스트 정보 추출

- 동일한 방법으로, 개발자 도구를 이용하여 최근 변경된 나무위키 페이지의 텍스트 정보 추출
    - `문서 제목`
    - `문서 카테고리`
    - `문서 내용`

![앱 생성 페이지](img/crawl_3.png)

![앱 생성 페이지](img/crawl_4.png)

![앱 생성 페이지](img/crawl_5.png)

- `2. 페이지들의 URL 정보 추출` 에서 추출했던 URL 페이지 정보를 기반으로 크롤링 실행.

In [4]:
# 하나의 최근 변경된 문서를 크롤링합니다.

# 크롬 드라이버를 사용합니다 (맥은 첫 줄, 윈도우는 두번째 줄 실행)
# driver = webdriver.Chrome(path)
driver = webdriver.Chrome(executable_path=excutable_path)

# 드라이버가 브라우징 할 페이지 소스를 입력합니다
driver.get(page_urls[0])
req = driver.page_source
soup=BeautifulSoup(req, "html.parser")
contents_table = soup.find(name="article")
title = contents_table.find_all("h1")[0]
category = contents_table.find_all("ul")[0]
content_paragraphs = contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})
content_corpus_list = []

for paragraphs in content_paragraphs:
    content_corpus_list.append(paragraphs.text)
content_corpus = "".join(content_corpus_list)

print(title.text)
print("\n")
print(category.text)
print("\n")
print(content_corpus)

# 크롤링에 사용한 브라우저를 종료합니다.
driver.close()

알렉스(영원회귀: 블랙서바이벌) 


영원회귀: 블랙서바이벌/실험체


   은(는) 여기로 연결됩니다. 블랙서바이벌의 캐릭터 알렉스에 대한 내용은 알렉스(블랙서바이벌) 문서를의 번 문단을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 참고하십시오.영원회귀: 블랙서바이벌의 캐릭터 목록 【 펼치기 • 접기 】재키아야현우매그너스피오라나딘자히르하트아이솔리 다이린유키혜진쇼우시셀라키아라아드리아나쇼이치실비아엠마레녹스로지루크캐시아델라버니스바바라알렉스수아레온일레븐리오 14M-RFT13 알렉스Alex  ''임무인가요?''  이름알렉스 파지노프[1]Alex Pajitnov 사용 무기 권총, 양손검, 암기, 톤파  나이 31세 국적 러시아 직업번역가[2] 키 / 몸무게178cm / 70kg 성별남성 캐릭터 가격  8020 A코인 / 1075 NP 캐릭터 성우 정주원[3] 하야시 카즈요시[4]  ?  영원회귀: 블랙서바이벌의 27번째 캐릭터 바바라←알렉스→  수아1. 개요2. 배경 스토리3. 능력치4. 스킬4.1. 패시브 - 잠입4.2. 원거리 Q - 코일 건4.3. 원거리 W - 타켓 마커 4.4. 원거리 E - 펄스 스팅 4.5. 근접 Q - 기습4.6. 근접 W - 플라즈마 마인4.7. 근접 E - 교란4.8. R - 정밀 폭격 4.9. D - 무기 스킬5. 캐릭