## [ 웹크롤링 _ 나무위키 사이트 분석 및 시각화 ]

### <Step1. 크롤링> : 크롤링으로 웹 데이터 가져오기

[웹크롤링 라이브러리 사용하기]
- 파이썬에서는 BeautifulSoup과 requests라는 라이브러리로 웹 크롤러를 만들 수 있음
- requests는 특정 URL로부터 HTML 문서를 가져오는 작업을 수행
- 나무위키와 같은 페이지는 HTML 문서가 Javascript로 동적 로딩되는 경우가 있음
- requests 대신 셀레니움(selenium) 라이브러리를 이용해 크롬 브라우저로 동적 웹크롤링 수행
- selenium은 웹 브라우저를 자동으로 구동해주는 라이브러리
- selenium을 사용하기 위해 크롬 드라이버를 이용해 크롬 브라우저 자동으로 구동=> 크롬드라이버 필요

### [BeautifulSoup과 selenium을 이용한 웹 크롤링]
- anaconda prompt 혹은 Terminal에서 아래와 같은 패키지들을 설치
- (env_name) pip install selenium
- (env_name) pip install beautifulsoup4

### [크롬 브라우저 업데이트 및 크롬 드라이버 설치]
- 크롬 브라우저 설정에서 최신 버전으로 업데이트
- 크롬 드라이버 사이트에서 브라우저 버전에 맞는 드라이버 다운로드
  - https://chromedriver.chromium.org/downloads
- chromedriver.exe 파일을 노트북 파일 경로에 이동

In [1]:
# -*- coding: utf-8 -*-

%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")

### [ BeautifulSoup의 select() VS find_all() ]
- HTML의 특정 요소 선택
- select, select_one 의 경우 CSS 선택자를 이용하는 것처럼 사용 가능
- select의 경우 후손이나 자손 요소를 CSS 처럼 선택 가능
- 예) soup.select("dl > dt > a") 
- find_all, find 의 경우 하나의 태그(name="table")나 하나의 클래스(class="tables")를 선택
- find의 경우 후손이나 자손 요소를 직접 선택할 수 없어 한번 더 변수에 담든지 루프 문을 이용해야 함
- 예) find_all(class="ah_roll"), find(name="table")

In [2]:
from selenium import webdriver
from bs4 import BeautifulSoup
import re # 정규식 표현을 위한 모듈


# 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
excutable_path = "chromedriver.exe"
driver = webdriver.Chrome(executable_path=excutable_path)

# 사이트의 html 구조에 기반하여 크롤링을 수행
source_url = "https://namu.wiki/RecentChanges" # 크롤링할 사이트 주소를 정의
driver.get(source_url)  # 크롬 드라이버를 통해 URL의 HTML 문서 가져옴

# 영진씨 방법
# from selenium.webdriver.common.by import By
# from selenium.webdriver.support.ui import WebDriverWait
# from selenium.webdriver.support import expected_conditions as EC
# element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "app")))

# 명진씨 방법
import time
time.sleep(10)

req = driver.page_source
soup = BeautifulSoup(req, "html.parser") # BeautifulSoup의 soup 객체로 변환

#contents_table = soup.find(name="table")  
#table_body = contents_table.find(name="tbody")
#table_rows = table_body.find_all(name="tr")
table_rows = soup.select("table tbody tr")

In [3]:
req 

'<html><head><link href="/skins/senkawa/6.0ec579cd0a387a25b691.css" rel="stylesheet"><link href="/skins/senkawa/3.c2f4326b616fb16062e8.css" rel="stylesheet"><script async="" src="/cdn-cgi/bm/cv/669835187/api.js"></script><style type="text/css">.resize-observer[data-v-b329ee4c]{position:absolute;top:0;left:0;z-index:-1;width:100%;height:100%;border:none;background-color:transparent;pointer-events:none;display:block;overflow:hidden;opacity:0}.resize-observer[data-v-b329ee4c] object{display:block;position:absolute;top:0;left:0;height:100%;width:100%;overflow:hidden;pointer-events:none;z-index:-1}</style><link rel="stylesheet" type="text/css" href="/skins/senkawa/10.4d02833f9fb9e7f9340e.css"><script charset="utf-8" src="/skins/senkawa/10.4d02833f9fb9e7f9340e.js"></script><title>최근 변경내역 - 나무위키</title><link data-n-head="1" rel="canonical" href="https://namu.wiki/RecentChanges"><link data-n-head="1" rel="search" type="application/opensearchdescription+xml" title="나무위키" href="/opensearch.xml">

In [4]:
soup

<html><head><link href="/skins/senkawa/6.0ec579cd0a387a25b691.css" rel="stylesheet"/><link href="/skins/senkawa/3.c2f4326b616fb16062e8.css" rel="stylesheet"/><script async="" src="/cdn-cgi/bm/cv/669835187/api.js"></script><style type="text/css">.resize-observer[data-v-b329ee4c]{position:absolute;top:0;left:0;z-index:-1;width:100%;height:100%;border:none;background-color:transparent;pointer-events:none;display:block;overflow:hidden;opacity:0}.resize-observer[data-v-b329ee4c] object{display:block;position:absolute;top:0;left:0;height:100%;width:100%;overflow:hidden;pointer-events:none;z-index:-1}</style><link href="/skins/senkawa/10.4d02833f9fb9e7f9340e.css" rel="stylesheet" type="text/css"/><script charset="utf-8" src="/skins/senkawa/10.4d02833f9fb9e7f9340e.js"></script><title>최근 변경내역 - 나무위키</title><link data-n-head="1" href="https://namu.wiki/RecentChanges" rel="canonical"/><link data-n-head="1" href="/opensearch.xml" rel="search" title="나무위키" type="application/opensearchdescription+xm

In [5]:
# contents_table

In [6]:
# table_body

In [7]:
table_rows

[<tr class="+6vHc02J" data-v-349171da=""><td data-v-349171da=""><a data-v-349171da="" href="/w/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C">요조라 멜</a> <a data-v-349171da="" href="/history/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C">[역사]</a> <a data-v-349171da="" href="/diff/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C?rev=28&amp;oldrev=27">[비교]</a> <a data-v-349171da="" href="/discuss/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C">[토론]</a> <span data-v-349171da="">(<span class="" data-v-349171da="" data-v-6cbb5b59="">0</span>)</span></td> <td data-v-349171da=""><div class="v-popover" data-v-349171da="" data-v-9a113440=""><div aria-describedby="popover_1vqvngoaf3" class="trigger" style="display: inline-block;"><a class="IM9WYpTN" data-v-9a113440="">Xaviere</a> </div> </div> <!-- --></td> <td data-v-349171da=""><time data-v-349171da="" datetime="2022-01-18T05:48:43.000Z">2022-01-18 14:48:43</time></td></tr>,
 <tr data-v-349171da=""><td colspan="3" data-v-349171da="" style="padding-left: 1.5rem;"><span data

In [8]:
len(table_rows)

109

### [페이지 링크주소 리스트 가져오기]

In [9]:
page_url_base = "https://namu.wiki" # 베이스 URL 정의
page_urls = [] # href 속성값을 담기 위한 빈 리스트 생성 

for index in range(0, len(table_rows)):
    first_td = table_rows[index].find_all("td")[0]
    td_url = first_td.find_all("a")
    if len(td_url) > 0:
        # 특정 속성 선택시 attrs["속성명"] 또는 get("속성명") 사용
        # page_url = page_url_base + td_url[0].get("href")
        # attrs는 딕셔너리 형태로 속성명과 속성값을 불러옴
        # attrs["href"]는 attrs 결과 중 key가 href인 것의 값만 불러옴
        page_url = page_url_base + td_url[0].attrs["href"] 
        if "png" not in page_url:
            page_urls.append(page_url)
            print(page_urls)

['https://namu.wiki/w/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C']
['https://namu.wiki/w/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C', 'https://namu.wiki/w/%EC%A7%80%EB%B0%A9%EC%9E%90%EC%B9%98%EB%B2%95']
['https://namu.wiki/w/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C', 'https://namu.wiki/w/%EC%A7%80%EB%B0%A9%EC%9E%90%EC%B9%98%EB%B2%95', 'https://namu.wiki/w/%EA%B7%B8%20%EB%B9%84%EC%8A%A4%ED%81%AC%20%EB%8F%8C%EC%9D%80%20%EC%82%AC%EB%9E%91%EC%9D%84%20%ED%95%9C%EB%8B%A4/%EB%93%B1%EC%9E%A5%EC%9D%B8%EB%AC%BC']
['https://namu.wiki/w/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C', 'https://namu.wiki/w/%EC%A7%80%EB%B0%A9%EC%9E%90%EC%B9%98%EB%B2%95', 'https://namu.wiki/w/%EA%B7%B8%20%EB%B9%84%EC%8A%A4%ED%81%AC%20%EB%8F%8C%EC%9D%80%20%EC%82%AC%EB%9E%91%EC%9D%84%20%ED%95%9C%EB%8B%A4/%EB%93%B1%EC%9E%A5%EC%9D%B8%EB%AC%BC', 'https://namu.wiki/w/%EC%98%A4%ED%83%80%EC%BF%A0/%EB%AC%B8%EC%A0%9C%EC%A0%90']
['https://namu.wiki/w/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C', 'https://namu.wiki/w/%EC%A7%80%EB%B0%A9%EC%9E%90%E

In [10]:
td_url[0].attrs

{'data-v-349171da': '',
 'href': '/w/%ED%94%BC%EC%97%90%EB%A5%B4%EC%97%90%EB%A9%94%EB%A6%AD%20%EC%98%A4%EB%B0%94%EB%A9%94%EC%96%91'}

In [11]:
page_urls

['https://namu.wiki/w/%EC%9A%94%EC%A1%B0%EB%9D%BC%20%EB%A9%9C',
 'https://namu.wiki/w/%EC%A7%80%EB%B0%A9%EC%9E%90%EC%B9%98%EB%B2%95',
 'https://namu.wiki/w/%EA%B7%B8%20%EB%B9%84%EC%8A%A4%ED%81%AC%20%EB%8F%8C%EC%9D%80%20%EC%82%AC%EB%9E%91%EC%9D%84%20%ED%95%9C%EB%8B%A4/%EB%93%B1%EC%9E%A5%EC%9D%B8%EB%AC%BC',
 'https://namu.wiki/w/%EC%98%A4%ED%83%80%EC%BF%A0/%EB%AC%B8%EC%A0%9C%EC%A0%90',
 'https://namu.wiki/w/%EA%B0%95%EC%8A%B5%EC%95%88%EB%93%9C%EB%A1%9C%EC%9D%B4%EB%93%9C%20%EC%97%91%EC%8A%A4%ED%85%94%20%EB%A0%88%EC%9D%B4%EB%8D%94',
 'https://namu.wiki/w/%EB%B0%98%EB%AF%B8',
 'https://namu.wiki/w/%EC%82%AC%EC%9D%B4%EB%B9%84%20%EC%A2%85%EA%B5%90/%EB%B6%84%EB%A5%98',
 'https://namu.wiki/w/%EC%A7%80%EC%97%B0(1993)',
 'https://namu.wiki/w/%EB%91%90%EC%82%B0%20%EB%B2%A0%EC%96%B4%EC%8A%A4/2022%EB%85%84/%EC%8A%A4%ED%86%A0%EB%B8%8C%EB%A6%AC%EA%B7%B8',
 'https://namu.wiki/w/%EC%9B%94%EB%93%9C%20%EC%98%A4%EB%B8%8C%20%ED%83%B1%ED%81%AC%20%EB%B8%94%EB%A6%AC%EC%B8%A0/%EC%97%85%EB%8D%B0%EC%9D%B4%ED%8A%B

### [각 링크 페이지내 텍스트 구조를 확인하여 제목, 카테고리, 내용 출력]

In [12]:
# 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
excutable_path = "chromedriver.exe"
driver = webdriver.Chrome(executable_path=excutable_path)
# 크롬 드라이버를 통해 page_urls[0]번째 사이트의 HTML 문서 가져옴
driver.get(page_urls[0])  # page_urls[0] 의 정보를 가져옴
req = driver.page_source # 페이지 소스를 req에 저장
soup = BeautifulSoup(req, 'html.parser') # html.parser로 파싱
contents_table = soup.find(name="article") #  불러온 소스에서 태그명이 article인 요소 하나만 추출

### 타이틀 추출
title = contents_table.find_all('h1')[0] # 태그명이 h1인 모든 태그 추출, article h1

### 카테고리 추출
category = contents_table.find_all('ul')[0]

### 내용 추출
#contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})  
#div  태그 중  class 속성값이  wiki-paragraph인 요소를 추출
content_paragraphs = contents_table.select("div.wiki-paragraph")  

#  내용으로 추출한 리스트를 하나의 문자열로 전처리
content_corpus_list = [] # 내용 중 텍스트만 담을 빈 리스트 생성
# content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
for paragraphs in content_paragraphs: # content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
    content_corpus_list.append(paragraphs.text)  # 가져온 결과 태그 중 텍스트만 추출하여 content_corpus_list에 추가
content_corpus =" ".join(content_corpus_list) #"텍스트".join(리스트명) => 리스트의 요소를 "텍스트"로 구분하여 하나의 문자열로 만듦

print(title.text) # 제목 출력
print("\n")
print(category.text) # 카테고리 출력
print("\n")
print(content_corpus) # 내용 출력

# 크롤링에 사용한 브라우저를 종료합니다.
driver.close()

요조라 멜 


버츄얼 유튜버일본의 여성 유튜버hololive/소속 크리에이터2018년 데뷔


+ 소속 멤버  [ hololive JP 멤버 펼치기 · 접기 ]0기생토키노 소라로보코 씨사쿠라 미코호시마치 스이세이AZKi1기생요조라 멜아키 로젠탈아카이 하아토시라카미 후부키나츠이로 마츠리2기생미나토 아쿠아무라사키 시온나키리 아야메유즈키 초코오오조라 스바루hololive GAMERS시라카미 후부키오오카미 미오네코마타 오카유이누가미 코로네3기생 - Hololive Fantasy우사다 페코라우루하 루시아시라누이 후레아시로가네 노엘호쇼 마린4기생 - holoForce아마네 카나타키류 코코츠노마키 와타메토코야미 토와히메모리 루나5기생 - holoFive유키하나 라미모모스즈 네네시시로 보탄마노 알로에오마루 폴카6기생 - 비밀결사 holoX라플라스 다크니스타카네 루이하쿠이 코요리사카마타 클로에카자마 이로하 0기생      토키노 소라 로보코 씨 사쿠라 미코 호시마치 스이세이 AZKi  1기생      요조라 멜 아키 로젠탈 아카이 하아토 시라카미 후부키 나츠이로 마츠리  2기생      미나토 아쿠아 무라사키 시온 나키리 아야메 유즈키 초코 오오조라 스바루  hololive GAMERS      시라카미 후부키 오오카미 미오 네코마타 오카유 이누가미 코로네   3기생 - Hololive Fantasy      우사다 페코라 우루하 루시아 시라누이 후레아 시로가네 노엘 호쇼 마린  4기생 - holoForce      아마네 카나타 키류 코코 츠노마키 와타메 토코야미 토와 히메모리 루나  5기생 - holoFive      유키하나 라미 모모스즈 네네 시시로 보탄 마노 알로에 오마루 폴카  6기생 - 비밀결사 holoX      라플라스 다크니스 타카네 루이 하쿠이 코요리 사카마타 클로에 카자마 이로하   [ hololive ID 멤버 펼치기 · 접기 ]1기생아윤다 리스무나 호시노바아이라니이오피프틴2기생쿠레이지 올리아냐 멜핏사파볼리아 레이네 1기생      아윤다 리스 무나 

### [각각 링크 페이지를 크롤링하여 제목, 카테고리, 내용 출력]

In [13]:
# 크롤링한 데이터를 데이터 프레임으로 만들기 위해 준비
columns = ["title", "category", "content_text"]
df = pd.DataFrame(columns=columns)

#for page_url in page_urls:
for i in range(10):
    # 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
    excutable_path = "chromedriver.exe"
    driver = webdriver.Chrome(executable_path=excutable_path)
    # 크롬 드라이버를 통해 page_urls[0]번째 사이트의 HTML 문서 가져옴
    #driver.get(page_url)  # page_urls[i],  page_url의 정보를 가져옴
    driver.get(page_urls[i])  # page_urls[i],  page_url의 정보를 가져옴
    req = driver.page_source # 페이지 소스를 req에 저장
    soup = BeautifulSoup(req, 'html.parser') # html.parser로 파싱
    contents_table = soup.find(name="article") #  불러온 소스에서 태그명이 article인 요소 하나만 추출

    ### 타이틀 추출
    title = contents_table.find_all('h1')[0] # 태그명이 h1인 모든 태그 추출, article h1
    if title is not None:
        row_title = title.text.replace("\n", " ")
    else:
        row_title = ""
        
    ### 카테고리 추출
    # 카테고리 정보가 없는 경우를 확인합니다.
    if len(contents_table.find_all("ul")) > 0: # article ul 로 검색한 결과 여러 ul 결과가 나올 경우
        category = contents_table.find_all("ul")[0] # 제일 첫번째 article ul 을 category로 설정
    else:
        category = None
        
    if category is not None:
        row_category = category.text.replace("\n", " ")
    else:
        row_category = ""

    ### 내용 추출
    #contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})  
    #div  태그 중  class 속성값이  wiki-paragraph인 요소를 추출
    content_paragraphs = contents_table.select("div.wiki-paragraph")  
    #  내용으로 추출한 리스트를 하나의 문자열로 전처리
    content_corpus_list = [] # 내용 중 텍스트만 담을 빈 리스트 생성
    
    # content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
    if content_paragraphs is not None:
        for paragraphs in content_paragraphs:
            if paragraphs is not None:
                content_corpus_list.append(paragraphs.text.replace("\n", " "))
            else:
                content_corpus_list.append("")
    else:
        content_corpus_list.append("")

    # 모든 정보를 하나의 데이터 프레임에 저장하기 위해서 시리즈 생성
    # 각 페이지의 정보를 추출하여 제목, 카테고리, 내용 순으로 행을 생성
    row = [row_title, row_category, "".join(content_corpus_list)]
    # 시리즈로 만듦
    series = pd.Series(row, index=df.columns)
    # 데이터 프레임에 시리즈를 추가, 한 페이지 당 하나의 행 추가
    df = df.append(series, ignore_index=True)
    
    # 크롤링에 사용한 브라우저를 종료합니다.
    driver.close()

In [15]:
# 데이터 프레임을 출력합니다.
df


Unnamed: 0,title,category,content_text
0,요조라 멜,버츄얼 유튜버일본의 여성 유튜버hololive/소속 크리에이터2018년 데뷔,+ 소속 멤버 [ hololive JP 멤버 펼치기 · 접기 ]0기생토키노 소라로보...
1,지방자치법,지방자치법,대한민국 공법 公法대한민국 공법 公法 [ 펼치기 · 접기 ]헌법憲法조문전문 · 총...
2,그 비스크 돌은 사랑을 한다/등장인물,그 비스크 돌은 사랑을 한다일본 만화/등장인물,등장인물 ◍ 발매 현황 ◍ 애니메이션이 문서에 스포일러가 포함되어 있습니다.이 문서...
3,오타쿠/문제점,오타쿠비판,이 문서는이 문단은 토론을 통해 직접적인 연관성이 없거나 업계인 및 전문가의 의견이...
4,강습안드로이드 엑스텔 레이더,울트라 시리즈/등장 괴수 & 우주인,울트라맨 코스모스/괴수 & 우주인 일람1. 개요2. 작중 행적3. 기타신장 : 2m...
5,반미,대미관계배외주의반제국주의,은(는) 여기로 연결됩니다. 베트남식 바게트빵 샌드위치 Banh mi에 대한 ...
6,사이비 종교/분류,사이비 종교,로그인 후 편집 가능한 문서입니다. 상위 문서: 사이비 종교이 문서는이 문...
7,지연(1993),지연(1993),은(는) 여기로 연결됩니다. 동음이의어에 대한 내용은 지연 문서를의 번 문단을...
8,두산 베어스/2022년/스토브리그,두산 베어스/2022년,상위 문서: 두산 베어스/2022년두산 베어스2022 시즌 시즌별 경기두산 베...
9,월드 오브 탱크 블리츠/업데이트,월드 오브 탱크 블리츠,상위 문서: 월드 오브 탱크 블리츠1. 1.X 버전1.1. 1.0 업데이트1....
