Copyright (c) 2019 [윤기태]

https://github.com/yoonkt200/python-data-analysis

[MIT License](https://github.com/yoonkt200/python-data-analysis/blob/master/LICENSE.txt)

# (가제) 파이썬 데이터 분석

-----

# 웹 페이지 크롤링

### 1. 대상 페이지의 구조 살펴보기

- Internet Explorer, Chrome 등의 웹 브라우저로 크롤링의 대상이 될 페이지 구조 살펴보기
    - 웹 브라우저의 개발자 도구 실행 (Chrome 기준 설명)
        - `Chrome 맞춤설정 및 제어 탭 - 도구 더보기 - 개발자 도구` 클릭
        - 혹은 `Command + Alt + I (Mac), Ctrl + Shift + I (윈도우)`

![앱 생성 페이지](img/crawl_1.png)

-----

### 2. 페이지들의 URL 정보 추출

- 개발자 도구를 통해, 텍스트 데이터를 가져올 페이지들의 URL 리스트 추출
    - HTML 구조에서 링크 정보 (**a 태그**) 추출
        - 개발자도구 좌측 상단의 `마우스 모양` 버튼 클릭
        - HTML 구조를 보고싶은 영역으로 마우스 커서 이동

![앱 생성 페이지](img/crawl_2.png)

-----

- 아래 코드 실행을 위해, anaconda prompt 혹은 Terminal에서 아래와 같은 패키지들을 설치해 줍니다.
    - (env_name) `pip install selenium beautifulsoup4`
- 혹은 아래의 코드로 라이브러리를 설치합니다.

In [1]:
!pip install selenium beautifulsoup4



-----

In [1]:
from selenium import webdriver
from bs4 import BeautifulSoup
import re

# brew 로 설치된 chromedriver의 path (Mac)
path = '/usr/local/bin/chromedriver'

# 크롤링할 사이트 주소를 정의합니다.
source_url = "https://namu.wiki/RecentChanges"

# 크롬 드라이버를 사용합니다
driver = webdriver.Chrome(path)

# 드라이버가 브라우징 할 페이지 소스를 입력합니다
driver.get('https://namu.wiki/RecentChanges')
req = driver.page_source

# 사이트의 html 구조에 기반하여 데이터를 파싱합니다.
soup=BeautifulSoup(req, 'html.parser')
contents_table = soup.find(name="table")
table_body = contents_table.find(name="tbody")
table_rows = table_body.find_all(name="tr")

# a태그의 href 속성을 리스트로 추출하여, 크롤링 할 페이지 리스트를 생성합니다.
page_url_base = "https://namu.wiki"
page_urls = []
for index in range(0, len(table_rows)):
    first_td = table_rows[index].find_all('td')[0]
    td_url = first_td.find_all('a')
    if len(td_url) > 0:
        page_url = page_url_base + td_url[0].get('href')
        if 'png' not in page_url:
            page_urls.append(page_url)

# 중복 url을 제거합니다.
page_urls = list(set(page_urls))
for page in page_urls[:5]:
    print(page)
    
# 크롤링에 사용한 브라우저를 종료합니다.
driver.close()

https://namu.wiki/w/Legacy(%EC%95%A8%EB%B2%94)
https://namu.wiki/w/%EA%B9%80%EC%9B%85%EB%B9%88
https://namu.wiki/w/%EC%98%AC%EB%9E%AD%ED%94%BC%ED%81%AC%20%EB%93%9C%20%EB%A7%88%EB%A5%B4%EC%84%B8%EC%9C%A0
https://namu.wiki/w/%EB%AF%B8%EC%95%BC%EC%9E%90%ED%82%A4%20%ED%95%98%EC%95%BC%EC%98%A4
https://namu.wiki/w/%EC%95%BC%EC%83%9D%EB%A7%88(%EB%85%B8%EB%9E%98)


- 위의 코드를 통해 https://namu.wiki/RecentChanges 페이지의 최근 변경 문서 링크들을 추출.

-----

### 3. 각종 텍스트 정보 추출

- 동일한 방법으로, 개발자 도구를 이용하여 최근 변경된 나무위키 페이지의 텍스트 정보 추출
    - `문서 제목`
    - `문서 카테고리`
    - `문서 내용`

![앱 생성 페이지](img/crawl_3.png)

![앱 생성 페이지](img/crawl_4.png)

![앱 생성 페이지](img/crawl_5.png)

- `2. 페이지들의 URL 정보 추출` 에서 추출했던 URL 페이지 정보를 기반으로 크롤링 실행.

In [3]:
# 하나의 최근 변경된 문서를 크롤링합니다.

# 크롬 드라이버를 사용합니다
driver = webdriver.Chrome(path)

# 드라이버가 브라우징 할 페이지 소스를 입력합니다
driver.get(page_urls[0])
req = driver.page_source
soup=BeautifulSoup(req, 'html.parser')
contents_table = soup.find(name="article")
title = contents_table.find_all('h1')[0]
category = contents_table.find_all('ul')[0]
content_paragraphs = contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})
content_corpus_list = []

for paragraphs in content_paragraphs:
    content_corpus_list.append(paragraphs.text)
content_corpus = "".join(content_corpus_list)

print(title.text)
print("\n")
print(category.text)
print("\n")
print(content_corpus)

# 크롤링에 사용한 브라우저를 종료합니다.
driver.close()

Legacy(앨범) 


2020년 음반힙합 음반컴필레이션 앨범


Legacy레거시제목Legacy아티스트하이라이트 레코즈발매2020년 8월 16일장르힙합전체 길이51분 15초수록곡 수14타이틀Kid Rock프로듀서Big Banana, jerd, JINBO the SuperFreak,Paloalto, Stally, UGP Welcome Ian, Yosi, YunB레이블Hi-Lite Records유통(주)인터파크1. 개요2. 트랙리스트3. 참여 멤버4. 뮤직비디오5. 평가6. 기타7. 둘러보기2020년 8월 16일에 발매된, HI-LIFE의 뒤를 잇는 하이라이트 레코즈의 두번째 컴필레이션 앨범.트랙리스트트랙제목프로듀서1Simple ThingsPaloalto, jerd, Huckleberry P & Owell MoodUGP2Trynna BeSoovi, Swervy, Paloalto & Owell Mood3u dunnoSway D, Paloalto, Huckleberry P, jerd & JowonuUGPPaloalto4YEZZIRPaloalto, Huckleberry P, Reddy & G2JINBOthe SuperFreak5Bad Bad Badjerd, Huckleberry P & ReddyjerdPaloalto6Ooh La LaPaloalto, Swervy, Huckleberry P & Sway DBig Banana7OrganizationSway D, Swervy, Owell Mood & YunBYunB8D.R.E.A.M.Soovi, YunB & SwervyYosi9Ain't Got TimeSoovi, Owell Mood & ReddyBig BananaUGP10Cool Kids, Part 3Evo, Paloalto & Huckleberry Pjerd11송석현 vs. 송석현 (Sway D vs. Sway D)Paloalto & Sway DWelcome Ian12U DUNNOReddy, Soovi, Paloalto, Owell Mood & SwervyUGPPalo