Copyright (c) 2019 [윤기태]

https://github.com/yoonkt200/python-data-analysis

[MIT License](https://github.com/yoonkt200/python-data-analysis/blob/master/LICENSE.txt)

# (가제) 파이썬 데이터 분석

-----

# 웹 페이지 크롤링

### 1. 대상 페이지의 구조 살펴보기

- Internet Explorer, Chrome 등의 웹 브라우저로 크롤링의 대상이 될 페이지 구조 살펴보기
    - 웹 브라우저의 개발자 도구 실행 (Chrome 기준 설명)
        - `Chrome 맞춤설정 및 제어 탭 - 도구 더보기 - 개발자 도구` 클릭
        - 혹은 `Command + Alt + I (Mac), Ctrl + Shift + I (윈도우)`

![앱 생성 페이지](img/crawl_1.png)

-----

### 2. 페이지들의 URL 정보 추출

- 개발자 도구를 통해, 텍스트 데이터를 가져올 페이지들의 URL 리스트 추출
    - HTML 구조에서 링크 정보 (**a 태그**) 추출
        - 개발자도구 좌측 상단의 `마우스 모양` 버튼 클릭
        - HTML 구조를 보고싶은 영역으로 마우스 커서 이동

![앱 생성 페이지](img/crawl_2.png)

-----

- 아래 코드 실행을 위해, anaconda prompt 혹은 Terminal에서 아래와 같은 패키지들을 설치해 줍니다.
    - (env_name) `pip install requests beautifulsoup4 lxml`
- 혹은 아래의 코드로 라이브러리를 설치합니다.

In [1]:
!pip install requests beautifulsoup4 lxml

Collecting requests
  Downloading https://files.pythonhosted.org/packages/51/bd/23c926cd341ea6b7dd0b2a00aba99ae0f828be89d72b2190f27c11d4b7fb/requests-2.22.0-py2.py3-none-any.whl (57kB)
Collecting beautifulsoup4
  Downloading https://files.pythonhosted.org/packages/1d/5d/3260694a59df0ec52f8b4883f5d23b130bc237602a1411fa670eae12351e/beautifulsoup4-4.7.1-py3-none-any.whl (94kB)
Collecting chardet<3.1.0,>=3.0.2 (from requests)
  Downloading https://files.pythonhosted.org/packages/bc/a9/01ffebfb562e4274b6487b4bb1ddec7ca55ec7510b22e4c51f14098443b8/chardet-3.0.4-py2.py3-none-any.whl (133kB)
Collecting urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 (from requests)
  Downloading https://files.pythonhosted.org/packages/e6/60/247f23a7121ae632d62811ba7f273d0e58972d75e58a94d329d51550a47d/urllib3-1.25.3-py2.py3-none-any.whl (150kB)
Collecting idna<2.9,>=2.5 (from requests)
  Downloading https://files.pythonhosted.org/packages/14/2c/cd551d81dbe15200be1cf41cd03869a46fe7226e7450af7a6545bfc474c9/idna-2.8-py2.py

-----

In [6]:
import requests
from bs4 import BeautifulSoup
import re

# 크롤링할 사이트 주소를 정의합니다.
source_url = "https://namu.wiki/RecentChanges"

# 사이트의 html 구조에 기반하여 크롤링을 수행합니다.
req = requests.get(source_url)
html = req.content
soup = BeautifulSoup(html, 'lxml')
contents_table = soup.find(name="table")
table_body = contents_table.find(name="tbody")
table_rows = table_body.find_all(name="tr")

# a태그의 href 속성을 리스트로 추출하여, 크롤링 할 페이지 리스트를 생성합니다.
page_url_base = "https://namu.wiki"
page_urls = []
for index in range(0, len(table_rows)):
    first_td = table_rows[index].find_all('td')[0]
    td_url = first_td.find_all('a')
    if len(td_url) > 0:
        page_url = page_url_base + td_url[0].get('href')
        if 'png' not in page_url:
            page_urls.append(page_url)

# 중복 url을 제거합니다.
page_urls = list(set(page_urls))
for page in page_urls[:5]:
    print(page)

https://namu.wiki/w/%EC%97%AC%EC%A7%84(%EC%9D%B4%EB%8B%AC%EC%9D%98%20%EC%86%8C%EB%85%80)
https://namu.wiki/w/%EB%8F%99%ED%88%AC%EB%A5%B4%ED%82%A4%EC%8A%A4%ED%83%84%20%EC%A0%9C1%EA%B3%B5%ED%99%94%EA%B5%AD
https://namu.wiki/w/%EB%B8%8C%EB%B2%A0(%EC%9C%A0%ED%8A%9C%EB%B2%84)/%EB%85%BC%EB%9E%80%20%EB%B0%8F%20%EC%82%AC%EA%B1%B4%EC%82%AC%EA%B3%A0/2020%EB%85%84
https://namu.wiki/w/%E3%82%A2%E3%82%B5%E3%82%AC%E3%82%AA
https://namu.wiki/w/%EB%A0%88%EB%B0%94


- 위의 코드를 통해 https://namu.wiki/RecentChanges 페이지의 최근 변경 문서 링크들을 추출.

-----

### 3. 각종 텍스트 정보 추출

- 동일한 방법으로, 개발자 도구를 이용하여 최근 변경된 나무위키 페이지의 텍스트 정보 추출
    - `문서 제목`
    - `문서 카테고리`
    - `문서 내용`

![앱 생성 페이지](img/crawl_3.png)

![앱 생성 페이지](img/crawl_4.png)

![앱 생성 페이지](img/crawl_5.png)

- `2. 페이지들의 URL 정보 추출` 에서 추출했던 URL 페이지 정보를 기반으로 크롤링 실행.

In [27]:
# 하나의 최근 변경된 문서를 크롤링합니다.
req = requests.get(page_urls[0])
html = req.content
soup = BeautifulSoup(html, 'lxml')
contents_table = soup.find(name="article")
title = contents_table.find_all('h1')[0]
category = contents_table.find_all('ul')[0]
content_paragraphs = contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})
content_corpus_list = []

for paragraphs in content_paragraphs:
    content_corpus_list.append(paragraphs.text)
content_corpus = "".join(content_corpus_list)

print(title.text)
print("\n")
print(category.text)
print("\n")
print(content_corpus)

여진(이달의 소녀) 


이달의 소녀2002년 출생2017년 데뷔도봉구 출신 인물아이돌 막내대한민국의 개신교 신자


희진현진하슬여진비비김립진솔최리이브츄고원올리비아 혜 유닛1/3멤버 희진현진하슬비비음반  Love&Live미니 1집 17.03.13 Love&Evil미니 1집 리패키지 17.04.27 ODD EYE CIRCLE멤버 김립진솔최리음반  Mix&Match미니 1집 17.09.21 Max&Match미니 1집 리패키지 17.10.31 yyxy멤버 이브츄고원올리비아 혜음반 ]] beauty&thebeat미니 1집 18.05.30  [음반] [ +  + ]미니 1집 18.08.20 [ X X ]미니 1집 리패키지 19.02.19 [ # ]미니 2집 20.02.05 [프로젝트 음반]프로젝트 싱글 HeeJin싱글 1집 16.10.05 HyunJin싱글 2집 16.11.17 HaSeul싱글 3집 16.12.15 YeoJin싱글 4집 17.01.16 ViVi싱글 5집 17.04.17 Kim Lip싱글 6집 17.05.23 JinSoul싱글 7집 17.06.26 Choerry싱글 8집 17.07.28 Yves싱글 9집 17.11.28 Chuu싱글 10집 17.12.28 Go Won싱글 11집 18.01.30 Olivia Hye싱글 12집 18.03.30스페셜 싱글 The Carol 2.0(ViVi, 최리, 이브)스페셜 싱글 17.12.13 [공연] 이달의 소녀 X 심화학습반영상회 18.02.03 CINEMA THEORY : Up & Line영상회 18.03.17 PREMIER GREETING : Line & Up팬미팅 18.06.02~03 CINEMA THEORY : Up & Line in BUSAN영상회 18.07.07  LOONAbirth데뷔 콘서트 18.08.19 LOONA STUDIO보라콘 18.11.23~25 LOONAVERSE콘서트 19.02.16~17 PREMIER GREETING : Meet & Up팬미팅 19.12.14  [관련 문서]활동 공연  음반 