## [ 웹크롤링 _ 나무위키 사이트 분석 및 시각화 ]

### <Step1. 크롤링> : 크롤링으로 웹 데이터 가져오기

[웹크롤링 라이브러리 사용하기]
- 파이썬에서는 BeautifulSoup과 requests라는 라이브러리로 웹 크롤러를 만들 수 있음
- requests는 특정 URL로부터 HTML 문서를 가져오는 작업을 수행
- 나무위키와 같은 페이지는 HTML 문서가 Javascript로 동적 로딩되는 경우가 있음
- requests 대신 셀레니움(selenium) 라이브러리를 이용해 크롬 브라우저로 동적 웹크롤링 수행
- selenium은 웹 브라우저를 자동으로 구동해주는 라이브러리
- selenium을 사용하기 위해 크롬 드라이버를 이용해 크롬 브라우저 자동으로 구동=> 크롬드라이버 필요

### [BeautifulSoup과 selenium을 이용한 웹 크롤링]
- anaconda prompt 혹은 Terminal에서 아래와 같은 패키지들을 설치
- (env_name) pip install selenium
- (env_name) pip install beautifulsoup4

### [크롬 브라우저 업데이트 및 크롬 드라이버 설치]
- 크롬 브라우저 설정에서 최신 버전으로 업데이트
- 크롬 드라이버 사이트에서 브라우저 버전에 맞는 드라이버 다운로드
  - https://chromedriver.chromium.org/downloads
- chromedriver.exe 파일을 노트북 파일 경로에 이동

In [1]:
# -*- coding: utf-8 -*-

%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")

### [ BeautifulSoup의 select() VS find_all() ]
- HTML의 특정 요소 선택
- select, select_one 의 경우 CSS 선택자를 이용하는 것처럼 사용 가능
- select의 경우 후손이나 자손 요소를 CSS 처럼 선택 가능
- 예) soup.select("dl > dt > a") 
- find_all, find 의 경우 하나의 태그(name="table")나 하나의 클래스(class="tables")를 선택
- find의 경우 후손이나 자손 요소를 직접 선택할 수 없어 한번 더 변수에 담든지 루프 문을 이용해야 함
- 예) find_all(class="ah_roll"), find(name="table")

In [2]:
from selenium import webdriver
from bs4 import BeautifulSoup
import re # 정규식 표현을 위한 모듈

# 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
excutable_path = "chromedriver.exe"
driver = webdriver.Chrome(executable_path=excutable_path)

# 사이트의 html 구조에 기반하여 크롤링을 수행
source_url = "https://namu.wiki/RecentChanges" # 크롤링할 사이트 주소를 정의
driver.get(source_url)  # 크롬 드라이버를 통해 URL의 HTML 문서 가져옴

import time
time.sleep(10)

req = driver.page_source
soup = BeautifulSoup(req, "html.parser") # BeautifulSoup의 soup 객체로 변환

table_rows = soup.select("table tbody tr")

In [3]:
req 

'<html><head><link href="/skins/senkawa/6.0ec579cd0a387a25b691.css" rel="stylesheet"><link href="/skins/senkawa/3.674762a86506f6736eaa.css" rel="stylesheet"><script async="" src="/cdn-cgi/bm/cv/669835187/api.js"></script><style type="text/css">.resize-observer[data-v-b329ee4c]{position:absolute;top:0;left:0;z-index:-1;width:100%;height:100%;border:none;background-color:transparent;pointer-events:none;display:block;overflow:hidden;opacity:0}.resize-observer[data-v-b329ee4c] object{display:block;position:absolute;top:0;left:0;height:100%;width:100%;overflow:hidden;pointer-events:none;z-index:-1}</style><link rel="stylesheet" type="text/css" href="/skins/senkawa/10.5c04303735c3a9491b9d.css"><script charset="utf-8" src="/skins/senkawa/10.5c04303735c3a9491b9d.js"></script><title>최근 변경내역 - 나무위키</title><link data-n-head="1" rel="canonical" href="https://namu.wiki/RecentChanges"><link data-n-head="1" rel="search" type="application/opensearchdescription+xml" title="나무위키" href="/opensearch.xml">

In [4]:
soup

<html><head><link href="/skins/senkawa/6.0ec579cd0a387a25b691.css" rel="stylesheet"/><link href="/skins/senkawa/3.674762a86506f6736eaa.css" rel="stylesheet"/><script async="" src="/cdn-cgi/bm/cv/669835187/api.js"></script><style type="text/css">.resize-observer[data-v-b329ee4c]{position:absolute;top:0;left:0;z-index:-1;width:100%;height:100%;border:none;background-color:transparent;pointer-events:none;display:block;overflow:hidden;opacity:0}.resize-observer[data-v-b329ee4c] object{display:block;position:absolute;top:0;left:0;height:100%;width:100%;overflow:hidden;pointer-events:none;z-index:-1}</style><link href="/skins/senkawa/10.5c04303735c3a9491b9d.css" rel="stylesheet" type="text/css"/><script charset="utf-8" src="/skins/senkawa/10.5c04303735c3a9491b9d.js"></script><title>최근 변경내역 - 나무위키</title><link data-n-head="1" href="https://namu.wiki/RecentChanges" rel="canonical"/><link data-n-head="1" href="/opensearch.xml" rel="search" title="나무위키" type="application/opensearchdescription+xm

In [5]:
table_rows

[<tr class="" data-v-089a8ed2=""><td data-v-089a8ed2=""><a data-v-089a8ed2="" href="/w/%EC%B5%9C%EA%B8%B8%EA%B0%88">최길갈</a> <a data-v-089a8ed2="" href="/history/%EC%B5%9C%EA%B8%B8%EA%B0%88">[역사]</a> <a data-v-089a8ed2="" href="/diff/%EC%B5%9C%EA%B8%B8%EA%B0%88?rev=806&amp;oldrev=805">[비교]</a> <a data-v-089a8ed2="" href="/discuss/%EC%B5%9C%EA%B8%B8%EA%B0%88">[토론]</a> <span data-v-089a8ed2="">(<span class="M3MI0ecF" data-v-089a8ed2="" data-v-6cbb5b59="">-682</span>)</span></td> <td data-v-089a8ed2=""><div class="v-popover" data-v-089a8ed2="" data-v-83dd8298=""><div aria-describedby="popover_r8prgpo6vm" class="trigger" style="display: inline-block;"><a data-v-83dd8298="">49.143.100.84</a> </div> </div> <!-- --></td> <td data-v-089a8ed2=""><time data-v-089a8ed2="" datetime="2022-01-20T00:35:46.000Z">2022-01-20 09:35:46</time></td></tr>,
 <tr class="" data-v-089a8ed2=""><td data-v-089a8ed2=""><a data-v-089a8ed2="" href="/w/%EC%9C%84%EB%8B%9D%20%ED%8F%AC%EC%8A%A4%ED%8A%B8/%EA%B2%BD%EC%A3%BC%

In [6]:
len(table_rows)

110

### [페이지 링크주소 리스트 가져오기]

In [11]:
page_url_base = "https://namu.wiki" # 베이스 URL 정의
page_urls = [] # href 속성값을 담기 위한 빈 리스트 생성 

for index in range(0, len(table_rows)):
    first_td = table_rows[index].find_all("td")[0]
    td_url = first_td.find_all("a")
    if len(td_url) > 0:
        # 특정 속성 선택시 attrs["속성명"] 또는 get("속성명") 사용
        # page_url = page_url_base + td_url[0].get("href")
        # attrs는 딕셔너리 형태로 속성명과 속성값을 불러옴
        # attrs["href"]는 attrs 결과 중 key가 href인 것의 값만 불러옴
        page_url = page_url_base + td_url[0].attrs["href"] 
        if "png" not in page_url:
            page_urls.append(page_url)
            print(page_urls)

['https://namu.wiki/w/%EB%8B%9B%EC%BD%94%20%EC%8B%9C%EB%9D%BC%EB%84%A4%EC%95%BC%EB%A7%88%20%EB%A1%9C%ED%94%84%EC%9B%A8%EC%9D%B4']
['https://namu.wiki/w/%EB%8B%9B%EC%BD%94%20%EC%8B%9C%EB%9D%BC%EB%84%A4%EC%95%BC%EB%A7%88%20%EB%A1%9C%ED%94%84%EC%9B%A8%EC%9D%B4', 'https://namu.wiki/w/%EA%B9%80%EB%AF%BC%EC%86%94']
['https://namu.wiki/w/%EB%8B%9B%EC%BD%94%20%EC%8B%9C%EB%9D%BC%EB%84%A4%EC%95%BC%EB%A7%88%20%EB%A1%9C%ED%94%84%EC%9B%A8%EC%9D%B4', 'https://namu.wiki/w/%EA%B9%80%EB%AF%BC%EC%86%94', 'https://namu.wiki/w/%EC%9C%A0%EC%9D%B8%EC%88%98(%EB%B0%B0%EC%9A%B0)']
['https://namu.wiki/w/%EB%8B%9B%EC%BD%94%20%EC%8B%9C%EB%9D%BC%EB%84%A4%EC%95%BC%EB%A7%88%20%EB%A1%9C%ED%94%84%EC%9B%A8%EC%9D%B4', 'https://namu.wiki/w/%EA%B9%80%EB%AF%BC%EC%86%94', 'https://namu.wiki/w/%EC%9C%A0%EC%9D%B8%EC%88%98(%EB%B0%B0%EC%9A%B0)', 'https://namu.wiki/w/%EC%A7%80%EA%B8%88%20%EC%9A%B0%EB%A6%AC%20%ED%95%99%EA%B5%90%EB%8A%94(%EB%93%9C%EB%9D%BC%EB%A7%88)/%EB%93%B1%EC%9E%A5%EC%9D%B8%EB%AC%BC']
['https://namu.wiki/w/%EB%

In [12]:
td_url[0].attrs

{'data-v-349171da': '',
 'href': '/w/%EB%8C%80%EB%A5%9C%EA%B3%A0%EB%93%B1%ED%95%99%EA%B5%90/%EC%B6%9C%EC%8B%A0%20%EC%9D%B8%EB%AC%BC'}

In [13]:
page_urls

['https://namu.wiki/w/%EB%8B%9B%EC%BD%94%20%EC%8B%9C%EB%9D%BC%EB%84%A4%EC%95%BC%EB%A7%88%20%EB%A1%9C%ED%94%84%EC%9B%A8%EC%9D%B4',
 'https://namu.wiki/w/%EA%B9%80%EB%AF%BC%EC%86%94',
 'https://namu.wiki/w/%EC%9C%A0%EC%9D%B8%EC%88%98(%EB%B0%B0%EC%9A%B0)',
 'https://namu.wiki/w/%EC%A7%80%EA%B8%88%20%EC%9A%B0%EB%A6%AC%20%ED%95%99%EA%B5%90%EB%8A%94(%EB%93%9C%EB%9D%BC%EB%A7%88)/%EB%93%B1%EC%9E%A5%EC%9D%B8%EB%AC%BC',
 'https://namu.wiki/w/%EB%94%94%EC%8A%A4%ED%8A%B8%EB%9F%AD%EC%85%98%20in%20%EA%B0%80%EA%B3%A0%EC%8B%9C%EB%A7%88%202019',
 'https://namu.wiki/w/%EB%A7%9D%EB%82%98%EB%8B%88%EB%AC%BC',
 'https://namu.wiki/w/%EC%95%85%EB%8B%B9%20%EC%9D%BC%EB%8B%B9',
 'https://namu.wiki/w/%ED%98%B8%EB%8F%84%EC%82%B0%20%EB%A1%9C%ED%94%84%EC%9B%A8%EC%9D%B4',
 'https://namu.wiki/w/%EB%82%B4%20%EC%97%AC%EC%B9%9C%EC%9D%80%20XXX%EB%A5%BC%20%EB%84%88%EB%AC%B4%20%EA%B8%B0%EB%8C%80%ED%95%B4%EC%84%9C%20%ED%83%88%EC%9D%B4%EB%8B%A4',
 'https://namu.wiki/w/%EC%A7%80%EA%B8%88%20%EC%9A%B0%EB%A6%AC%20%ED%95%99%EA%B5%

### [각 링크 페이지내 텍스트 구조를 확인하여 제목, 카테고리, 내용 출력]

In [14]:
# 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
excutable_path = "chromedriver.exe"
driver = webdriver.Chrome(executable_path=excutable_path)
# 크롬 드라이버를 통해 page_urls[0]번째 사이트의 HTML 문서 가져옴
driver.get(page_urls[0])  # page_urls[0] 의 정보를 가져옴
req = driver.page_source # 페이지 소스를 req에 저장
soup = BeautifulSoup(req, 'html.parser') # html.parser로 파싱
contents_table = soup.find(name="article") #  불러온 소스에서 태그명이 article인 요소 하나만 추출

### 타이틀 추출
title = contents_table.find_all('h1')[0] # 태그명이 h1인 모든 태그 추출, article h1

### 카테고리 추출
category = contents_table.find_all('ul')[0]

### 내용 추출
#contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})  
#div  태그 중  class 속성값이  wiki-paragraph인 요소를 추출
content_paragraphs = contents_table.select("div.wiki-paragraph")  

#  내용으로 추출한 리스트를 하나의 문자열로 전처리
content_corpus_list = [] # 내용 중 텍스트만 담을 빈 리스트 생성
# content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
for paragraphs in content_paragraphs: # content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
    content_corpus_list.append(paragraphs.text)  # 가져온 결과 태그 중 텍스트만 추출하여 content_corpus_list에 추가
content_corpus =" ".join(content_corpus_list) #"텍스트".join(리스트명) => 리스트의 요소를 "텍스트"로 구분하여 하나의 문자열로 만듦

print(title.text) # 제목 출력
print("\n")
print(category.text) # 카테고리 출력
print("\n")
print(content_corpus) # 내용 출력

# 크롤링에 사용한 브라우저를 종료합니다.
driver.close()

닛코 시라네야마 로프웨이 


일본의 케이블카1998년 개업한 철도 노선


간토의 대중교통  [ 펼치기 · 접기 ]JR 동일본수도권 대도시근교구간 / 도호쿠·조에츠·호쿠리쿠 신칸센JR 도카이도카이도 신칸센대형 사철도부 철도세이부 철도케이세이 전철케이오 전철도큐 전철케이큐 전철도쿄메트로오다큐 전철사가미 철도준대형 사철신케이세이 전철㋙중소 사철사이타마 고속철도③수도권 신도시 철도③토요 고속철도③도쿄 임해고속철도③요코하마 고속철도③모오카 철도③야간 철도③와타라세 계곡철도③카시마 임해철도③히타치나카 해안철도③이스미 철도③에노시마 전철㋙시바야마 철도③호쿠소 철도③㋙칸토 철도㋙코미나토 철도㋙조모 전기철도㋙하코네 등산철도㋙나리타 공항 고속철도③㊂㋙류테츠조신 전철쵸시 전기철도치치부 철도이즈하코네 철도㋙모노레일·신교통타마 도시 모노레일③㋖치바 도시 모노레일③㋖요코하마 시사이드라인③㋖사이타마 신도시 교통③유리카모메우츠노미야 라이트레일㊟③㋖쇼난 모노레일도쿄 모노레일㋙마이하마 리조트라인㋙야마만(유카리가오카선)아스카야마공원 모노레일강삭철도·케이블카츠쿠바 관광철도㋙타카오 등산전철㋙미타케 등산철도㋙오야마 케이블카노코기리야마 로프웨이㋙하코네 로프웨이㋙하코네 코마가타케 로프웨이키누가와온천 로프웨이아케치다이라 로프웨이㋙나스 로프웨이이카호 로프웨이닛코 시라네야마 로프웨이타니가와다케 로프웨이㋙하루나산 로프웨이호도산 로프웨이요미우리랜드 스카이셔틀버스·BRT요코하마 교통개발이바라키 교통가나가와 중앙 교통카시테츠 버스도큐 버스오다큐 버스오다큐 시티 버스케이세이 버스도큐 트란세케이오 버스케이큐 버스타치카와 버스니시토쿄 버스치바 교통도쿄공항교통도쿄 BRT국제흥업에노덴 버스닛토 교통칸에츠 교통국제 중앙 교통쿠주쿠리 철도신케이세이 버스간토 자동차헤이와 교통치바 중앙버스치바 내륙버스치바 시내버스니시자키 관광공영 교통도영 교통 (도쿄도 교통국)도에이 지하철, 도영 버스, 도쿄 사쿠라 트램㋖, 닛포리·토네리 라이너㋖, 우에노 동물원 모노레일요코하마시 교통국요코하마 시영 지하철, 요코하마 시영 버스공항도쿄(하네다

### [각각 링크 페이지를 크롤링하여 제목, 카테고리, 내용 출력]

In [22]:
# 크롤링한 데이터를 데이터 프레임으로 만들기 위해 준비
columns = ["title", "category", "content_text"]
df = pd.DataFrame(columns=columns)

#for page_url in page_urls:
for i in range(5):
    # 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
    excutable_path = "chromedriver.exe"
    driver = webdriver.Chrome(executable_path=excutable_path)
    # 크롬 드라이버를 통해 page_urls[0]번째 사이트의 HTML 문서 가져옴
    #driver.get(page_url)  # page_urls[i],  page_url의 정보를 가져옴
    driver.get(page_urls[i])  # page_urls[i],  page_url의 정보를 가져옴
    req = driver.page_source # 페이지 소스를 req에 저장
    soup = BeautifulSoup(req, 'html.parser') # html.parser로 파싱
    contents_table = soup.find(name="article") #  불러온 소스에서 태그명이 article인 요소 하나만 추출

    ### 타이틀 추출
    title = contents_table.find_all('h1')[0] # 태그명이 h1인 모든 태그 추출, article h1
    if title is not None:
        row_title = title.text.replace("\n", " ")
    else:
        row_title = ""
        
    ### 카테고리 추출
    # 카테고리 정보가 없는 경우를 확인합니다.
    if len(contents_table.find_all("ul")) > 0: # article ul 로 검색한 결과 여러 ul 결과가 나올 경우
        category = contents_table.find_all("ul")[0] # 제일 첫번째 article ul 을 category로 설정
    else:
        category = None
        
    if category is not None:
        row_category = category.text.replace("\n", " ")
    else:
        row_category = ""

    ### 내용 추출
    #contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})  
    #div  태그 중  class 속성값이  wiki-paragraph인 요소를 추출
    content_paragraphs = contents_table.select("div.wiki-paragraph")  
    #  내용으로 추출한 리스트를 하나의 문자열로 전처리
    content_corpus_list = [] # 내용 중 텍스트만 담을 빈 리스트 생성
    
    # content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
    if content_paragraphs is not None:
        for paragraphs in content_paragraphs:
            if paragraphs is not None:
                content_corpus_list.append(paragraphs.text.replace("\n", " "))
            else:
                content_corpus_list.append("")
    else:
        content_corpus_list.append("")

    # 모든 정보를 하나의 데이터 프레임에 저장하기 위해서 시리즈 생성
    # 각 페이지의 정보를 추출하여 제목, 카테고리, 내용 순으로 행을 생성
    row = [row_title, row_category, "".join(content_corpus_list)]
    # 시리즈로 만듦
    series = pd.Series(row, index=df.columns)
    # 데이터 프레임에 시리즈를 추가, 한 페이지 당 하나의 행 추가
    df = df.append(series, ignore_index=True)
    
    # 크롤링에 사용한 브라우저를 종료합니다.
    driver.close()

In [23]:
# 데이터 프레임을 출력합니다.
df

Unnamed: 0,title,category,content_text
0,닛코 시라네야마 로프웨이,일본의 케이블카1998년 개업한 철도 노선,간토의 대중교통 [ 펼치기 · 접기 ]JR 동일본수도권 대도시근교구간 / 도호쿠·조...
1,김민솔,2008년 출생강동구 출신 인물방과후 설렘/참가자,"하위 문서: 김민솔/방과후 설렘, , , , , , 참가자 [펼치기 · 접기]..."
2,유인수(배우),한국 남배우1998년 출생2017년 데뷔영등포고등학교 출신서울종합예술실용학교 출신운...,[ 펼치기 · 접기 ]Artist이요원고원희정시아민도희윤경호서지훈권혁백수장오희준박...
3,지금 우리 학교는(드라마)/등장인물,지금 우리 학교는(드라마)한국 드라마/등장인물,상위 문서: 지금 우리 학교는(드라마)이 문서에 스포일러가 포함되어 있습니다....
4,디스트럭션 in 가고시마 2019,신일본 프로레슬링,디스트럭션 in 가고시마NJPW Destruction in Kagoshima개최신일...
