## [웹크롤링 _ 나무위키 사이트 분석 및 시각화]
### <Step1. 크롤링> : 크롤링으로 웹 데이터 가져오기

[웹크롤링 라이브러리 사용하기]
- 파이썬에서는 BeautifulSoup와 requests 라는 라이브러리로 웹 크롤러를 만들 수 있음
- requests는 특정 url로부터 html 문서를 가져오는 작업을 수행
- 나무위키와 같은 페이지는 html 문서가 javascript로 동적 로딩되는 경우가 있음
- requests 대신 셀레니움(selenium) 라이브러리를 이용해 크롬 브라우저로 동적 웹크롤링 수행
- selenium은 웹 브라우저를 자동으로 구동해주는 라이브러리
- selenium을 사용하기 위해 크롬 드라이버를 이용해 크롬 브라우저 자동으로 구동 => 크롬드라이버 필요

### [BeautifulSoup와 selenium을 이용한 웹 크롤링]
- anaconda prompt 혹은 terminal 에서 아래와 같은 패키지들을 설치
- pip install selenium
- pip install beautifulsoup4

### [크롬 브라우저 업데이트 및 크롬 드라이버 설치]
- 크롬 브라우저 설정해서 최신 버전으로 업데이트
- 크롬 드라이버 사이트에서 브라우저 버전에 맞는 드라이버 다운로드
    - https://chromedriver.chromium.org/downloads
- chromedriver.exe 파일을 노트북 파일 경로에 이동 



In [1]:
!pip install selenium



In [2]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

### BeautifulSoup의 select() VS find_all()
- html 의 특정 요소 선택
- select, select_one 의 경우 css 선택자를 이용하는 것처럼 사용 가능
- select의 경우 후손이나 자손 요소를 css처럼 선택 가능
- 예) soup.select("dl>dt>a")
- find_all, find의 경우 하나의 태그(name="table")나 하나의 클래스(class="tables")를 선택
- find 의 경우 후손이나 자손 요소를 직접 선택할 수 없어 한 번 더 변수에 담든지 루프 문을 이용해야 함
- 예) find_all(class = "ah_roll"), find(name="table")

In [3]:
from selenium import webdriver
from bs4 import BeautifulSoup
import re #정규식 표현을 위한 모듈 

In [4]:
#윈도우용 크롬 웹드라이버 실행 경로 (windows)지정
excutable_path = "chromedriver.exe"
driver = webdriver.Chrome(executable_path = excutable_path)



#사이트의 html 구조에 기반하여 크롤링을 수행
source_url = "https://namu.wiki/RecentChanges" #크롤링할 사이트 주소를 정의
driver.get(source_url) #크롬 드라이버를 통해 url의 html 문서 가져옴


#영진씨방법
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
element = WebDriverWait(driver,10).until(EC.presence_of_element_located((By.CLASS_NAME, "app")))

# #명진씨방법
# import time
# time.sleep(10)


req = driver.page_source #전체페이지 
print(req)

<html><head><link href="/skins/senkawa/6.0ec579cd0a387a25b691.css" rel="stylesheet"><link href="/skins/senkawa/3.c2f4326b616fb16062e8.css" rel="stylesheet"><script async="" src="/cdn-cgi/bm/cv/669835187/api.js"></script><style type="text/css">.resize-observer[data-v-b329ee4c]{position:absolute;top:0;left:0;z-index:-1;width:100%;height:100%;border:none;background-color:transparent;pointer-events:none;display:block;overflow:hidden;opacity:0}.resize-observer[data-v-b329ee4c] object{display:block;position:absolute;top:0;left:0;height:100%;width:100%;overflow:hidden;pointer-events:none;z-index:-1}</style><link rel="stylesheet" type="text/css" href="/skins/senkawa/10.4d02833f9fb9e7f9340e.css"><script charset="utf-8" src="/skins/senkawa/10.4d02833f9fb9e7f9340e.js"></script><title>최근 변경내역 - 나무위키</title><link data-n-head="1" rel="canonical" href="https://namu.wiki/RecentChanges"><link data-n-head="1" rel="search" type="application/opensearchdescription+xml" title="나무위키" href="/opensearch.xml"><

In [5]:
soup = BeautifulSoup(req, "html.parser") #BeautifulSoup 의 soup로 가공 
soup

<html><head><link href="/skins/senkawa/6.0ec579cd0a387a25b691.css" rel="stylesheet"/><link href="/skins/senkawa/3.c2f4326b616fb16062e8.css" rel="stylesheet"/><script async="" src="/cdn-cgi/bm/cv/669835187/api.js"></script><style type="text/css">.resize-observer[data-v-b329ee4c]{position:absolute;top:0;left:0;z-index:-1;width:100%;height:100%;border:none;background-color:transparent;pointer-events:none;display:block;overflow:hidden;opacity:0}.resize-observer[data-v-b329ee4c] object{display:block;position:absolute;top:0;left:0;height:100%;width:100%;overflow:hidden;pointer-events:none;z-index:-1}</style><link href="/skins/senkawa/10.4d02833f9fb9e7f9340e.css" rel="stylesheet" type="text/css"/><script charset="utf-8" src="/skins/senkawa/10.4d02833f9fb9e7f9340e.js"></script><title>최근 변경내역 - 나무위키</title><link data-n-head="1" href="https://namu.wiki/RecentChanges" rel="canonical"/><link data-n-head="1" href="/opensearch.xml" rel="search" title="나무위키" type="application/opensearchdescription+xm

In [6]:
contents_table = soup.find(name="table") #find 함수를 이용해 태그명이 table인 것을 찾기
table_body = contents_table.find(name= "tbody") #table 안 tbody 태그인 것 찾기
table_rows = table_body.find_all(name="tr") #table tbody 안 tr태그인 것 찾기 => [ ]의 요소로 담김 
#table_body
table_rows[0]


<tr class="" data-v-349171da=""><td data-v-349171da=""><a data-v-349171da="" href="/w/%EA%B0%A4%EB%9F%AD%EC%8B%9C%20%EB%A3%A8%EB%82%98">갤럭시 루나</a> <a data-v-349171da="" href="/history/%EA%B0%A4%EB%9F%AD%EC%8B%9C%20%EB%A3%A8%EB%82%98">[역사]</a> <a data-v-349171da="" href="/diff/%EA%B0%A4%EB%9F%AD%EC%8B%9C%20%EB%A3%A8%EB%82%98?rev=35&amp;oldrev=34">[비교]</a> <a data-v-349171da="" href="/discuss/%EA%B0%A4%EB%9F%AD%EC%8B%9C%20%EB%A3%A8%EB%82%98">[토론]</a> <span data-v-349171da="">(<span class="vbOs+hWB" data-v-349171da="" data-v-6cbb5b59="">+79</span>)</span></td> <td data-v-349171da=""><div class="v-popover" data-v-349171da="" data-v-9a113440=""><div aria-describedby="popover_b1f39wt1z8" class="trigger" style="display: inline-block;"><a data-v-9a113440="">14.39.153.25</a> </div> </div> <!-- --></td> <td data-v-349171da=""><time data-v-349171da="" datetime="2022-01-18T06:05:09.000Z">2022-01-18 15:05:09</time></td></tr>

In [7]:
len(table_rows)

118

### [페이지 링크주소 리스트 가져오기]

In [8]:
#특성 속성 값을 추출
page_url_base = "https://namu.wiki" #베이스 url 정의
page_urls = [] # href 속성값을 담기 위한 빈 리스트  

for i in range(0, len(table_rows)): #table_rows의 길이만큼 반복
    first_td = table_rows[i].find_all('td')[0] #td가 3개 있는데 0번째에 원하는 href 가 있음 
    td_url = first_td.find_all('a')
    if len(td_url) > 0:
        #page_url = page_url_base + td_url[0].get('href') #나무위키주소+get() 태그가 가지고 있는 속성 추출 
        page_url = page_url_base + td_url[0].attrs["href"] #attrs[]는 딕셔너리 형태로 속성명과 속성값을 불러옴 
        if "png" not in page_url:
            page_urls.append(page_url)
          
        
page_urls = list(set(page_urls)) #중복 url 제거
for page in page_urls[:3]:
    print(page)

https://namu.wiki/w/%EC%97%90%EB%84%88%EB%93%9C
https://namu.wiki/w/%EA%B9%80%EA%B1%B4%ED%9D%AC%20%EC%9D%B8%ED%84%B0%EB%B7%B0%20%EB%85%B9%EC%B7%A8%EB%A1%9D%20%EB%85%BC%EB%9E%80
https://namu.wiki/w/Grand%20Theft%20Auto%20Online/%ED%95%B5/%EC%8B%A4%ED%83%9C


### [각 링크 페이지내 텍스트 구조를 확인하여 제목, 카테고리, 내용 출력]

In [9]:
page_urls

['https://namu.wiki/w/%EC%97%90%EB%84%88%EB%93%9C',
 'https://namu.wiki/w/%EA%B9%80%EA%B1%B4%ED%9D%AC%20%EC%9D%B8%ED%84%B0%EB%B7%B0%20%EB%85%B9%EC%B7%A8%EB%A1%9D%20%EB%85%BC%EB%9E%80',
 'https://namu.wiki/w/Grand%20Theft%20Auto%20Online/%ED%95%B5/%EC%8B%A4%ED%83%9C',
 'https://namu.wiki/w/%EA%B0%80%EB%A9%B4%EB%9D%BC%EC%9D%B4%EB%8D%94%20%ED%82%A4%EB%B0%94',
 'https://namu.wiki/w/%EC%B5%9C%EC%84%B1%EC%9B%90(%ED%94%84%EB%A1%9C%EA%B2%8C%EC%9D%B4%EB%A8%B8)',
 'https://namu.wiki/w/%EC%9C%A4%EC%83%81%ED%98%B8(%ED%94%84%EB%A1%9C%EA%B2%8C%EC%9D%B4%EB%A8%B8)',
 'https://namu.wiki/w/Kamex(%EC%9C%A0%ED%8A%9C%EB%B2%84)',
 'https://namu.wiki/w/%EC%A0%95%EC%8B%9C%EC%B1%84',
 'https://namu.wiki/w/%EA%B9%80%EB%B6%80%EC%9E%A5(%EC%9B%B9%ED%88%B0)',
 'https://namu.wiki/w/%EB%B0%95%EC%9D%B8%ED%98%81',
 'https://namu.wiki/w/%EA%B0%A4%EB%9F%AD%EC%8B%9C%20%EB%A3%A8%EB%82%98',
 'https://namu.wiki/w/%EC%9D%B8%EC%B2%9C%EB%AA%85%EC%84%A0%EC%B4%88%EB%93%B1%ED%95%99%EA%B5%90',
 'https://namu.wiki/w/%EC%95%A4%ED%8B%

### [각 링크 페이지내 텍스트 구조를 확인하여 제목, 카테고리, 내용 출력]

In [10]:
# 윈도우용 크롬 웹드라이버 실행경로(windows) 지정
excutable_path = "chromedriver.exe"
driver = webdriver.Chrome(executable_path = excutable_path)
#크롬 드라이버를 통해 page_urls[0]번째 사이트의 html 문서 가져옴 
driver.get(page_urls[0]) #page_urls[0]번쨰의 정보를 가져옴
req=driver.page_source #페이지 소스를 req에 저장 
soup = BeautifulSoup(req,'html.parser') #html.parser로 파싱
contents_table=soup.find(name="article") #article 태그 하나만 불러오기 

#타이틀 추출
title = contents_table.find_all('h1')[0]

#카테고리 추출
category = contents_table.find_all('ul')[0]
#contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"}) # div 태그 중 class 속성값이 wiki-paragraph
#div 태그 중 클래스이름이 wiki-paragraph인 요소 모두 추출
content_paragraphs = contents_table.select("div.wiki-paragraph") 


#내용으로 추출한 리스트를 하나의 문자열로 전처리
content_corpus_list = [] # 내용 중 텍스트만 담을 빈 리스트 생성 
for paragraphs in content_paragraphs: # content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
    content_corpus_list.append(paragraphs.text) #가져온 결과 태그 중 텍스트만 추출하여 content_corpus_list에 추가
content_corpus=" ".join(content_corpus_list) # "텍스트".join(리스트명)=> 리스트의 요소를 "텍스트"로 구분하여 하나의 문자열로 만듦

print(title.text) #제목출력 
print("\n")
print(category.text) #카테고리 출력
print("\n")
print(content_corpus) #내용출력

#크롤링에 사용한 브라우저를 종료합니다
driver.close()
    

에너드 


Five Nights at Freddy's 시리즈애니매트로닉스게임 캐릭터


이 문서에 스포일러가 포함되어 있습니다.이 문서가 설명하는 작품이나 인물 등에 대한 줄거리, 결말, 반전 요소 등을 직·간접적으로 포함하고 있습니다. 이 문서에 스포일러가 포함되어 있습니다.이 문서가 설명하는 작품이나 인물 등에 대한 줄거리, 결말, 반전 요소 등을 직·간접적으로 포함하고 있습니다.  Five Nights at Freddy's 시리즈의 애니매트로닉스    [ 펼치기 · 접기 ] 클릭팀시리즈  Five Nights at Freddy's  (프레디, 보니, 치카, 폭시)  Five Nights at Freddy's 2  (퍼펫)  Five Nights at Freddy's 3  (스프링트랩)  Five Nights at Freddy's 4  Five Nights at Freddy's: Sister Location  (서커스 베이비, 에너드)  Freddy Fazbear's Pizzeria Simulator  Ultimate Custom Night  공동제작시리즈  Five Nights at Freddy's: Help Wanted  Five Nights at Freddy's AR: Special Delivery  Five Nights at Freddy's: Security Breach  (글램록 프레디) 스핀오프  FNaF World  Freddy in Space 2  미분류  환각(골든 프레디)  소설판(단편 시리즈) ※ 기울임체는 출시 예정 작품입니다.  클릭팀시리즈   Five Nights at Freddy's  (프레디, 보니, 치카, 폭시)   Five Nights at Freddy's 2  (퍼펫)   Five Nights at Freddy's 3  (스프링트랩)   Five Nights at Freddy's 4   Five Nights at Freddy's: Sister Location  (서커스 베이비, 에너드)   Freddy Fazbear's 

### [각 링크 페이지 크롤링하여 제목, 카테고리, 내용 출력]

In [11]:
# 크롤링한 데이터를 데이터 프레임으로 만들기 위해 준비
columns = ["title", "category", "content_text"]
df = pd.DataFrame(columns=columns)

#for page_url in page_urls:
for i in range(10):
    # 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
    excutable_path = "chromedriver.exe"
    driver = webdriver.Chrome(executable_path=excutable_path)
    # 크롬 드라이버를 통해 page_urls[0]번째 사이트의 HTML 문서 가져옴
    #driver.get(page_url)  # page_urls[i],  page_url의 정보를 가져옴
    driver.get(page_urls[i])  # page_urls[i],  page_url의 정보를 가져옴
    req = driver.page_source # 페이지 소스를 req에 저장
    soup = BeautifulSoup(req, 'html.parser') # html.parser로 파싱
    contents_table = soup.find(name="article") #  불러온 소스에서 태그명이 article인 요소 하나만 추출

    ### 타이틀 추출
    title = contents_table.find_all('h1')[0] # 태그명이 h1인 모든 태그 추출, article h1
    if title is not None: #타이틀에 아무내용도 없으면 
        row_title = title.text.replace("\n", " ") #빈 칸으로 교체 
    else:
        row_title = ""
        
    ### 카테고리 추출
    # 카테고리 정보가 없는 경우를 확인합니다.
    if len(contents_table.find_all("ul")) > 0: # article ul 로 검색한 결과 여러 ul 결과가 나올 경우
        category = contents_table.find_all("ul")[0] # 제일 첫번째 article ul 을 category로 설정
    else:
        category = None
        
    if category is not None: #카테고리가 비어 있으면
        row_category = category.text.replace("\n", " ") #빈 칸으로 교체
    else:
        row_category = ""

    ### 내용 추출
    #contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})  
    #div  태그 중  class 속성값이  wiki-paragraph인 요소를 추출
    content_paragraphs = contents_table.select("div.wiki-paragraph")  
    #  내용으로 추출한 리스트를 하나의 문자열로 전처리
    content_corpus_list = [] # 내용 중 텍스트만 담을 빈 리스트 생성
    
    # content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
    if content_paragraphs is not None:
        for paragraphs in content_paragraphs:
            if paragraphs is not None:
                content_corpus_list.append(paragraphs.text.replace("\n", " "))
            else:
                content_corpus_list.append("")
    else:
        content_corpus_list.append("")

    # 모든 정보를 하나의 데이터 프레임에 저장하기 위해서 시리즈 생성
    # 각 페이지의 정보를 추출하여 제목, 카테고리, 내용 순으로 행을 생성
    row = [row_title, row_category, "".join(content_corpus_list)]
    # 시리즈로 만듦
    series = pd.Series(row, index=df.columns)
    # 데이터 프레임에 시리즈를 추가, 한 페이지 당 하나의 행 추가
    df = df.append(series, ignore_index=True)
    
    # 크롤링에 사용한 브라우저를 종료합니다.
    driver.close()

In [13]:
df

Unnamed: 0,title,category,content_text
0,에너드,Five Nights at Freddy's 시리즈애니매트로닉스게임 캐릭터,이 문서에 스포일러가 포함되어 있습니다.이 문서가 설명하는 작품이나 인물 등에 대한...
1,김건희 인터뷰 녹취록 논란,2022년/사건사고김건희대한민국의 인물별 논란대한민국의 정치 사건사고탐사기획 스트레...,"로그인 후 편집 가능한 문서입니다. 관련 문서: 김건희/논란, , , , ..."
2,Grand Theft Auto Online/핵/실태,Grand Theft Auto Online,상위 문서: Grand Theft Auto Online/핵이 문서는이 문단은 ...
3,가면라이더 키바,가면라이더 키바다중 합의/32,은(는) 여기로 연결됩니다. 본작의 주인공 가면라이더에 대한 내용은 가면라이더...
4,최성원(프로게이머),프로게이머/리그 오브 레전드1997년 출생Fredit BRION/현역Griffin/...,가입 후 15일이 지나야 편집 가능한 문서입니다.Fredit BRION2022...
5,윤상호(프로게이머),1997년 출생프로게이머/리그 오브 레전드농심 레드포스/이적 및 은퇴,캐치은(는) 여기로 연결됩니다. 민주노동당 마스코트에 대한 내용은 캐치(민주노...
6,Kamex(유튜버),미국 작곡가,Kamex플랫폼 현황구독자: 22.3만 명[A]조회수: 약 1054.62만 회[A]...
7,정시채,1936년 출생공무원 출신 정치인진도군 출신 인물전남대학교 출신박정희 정부/인사전두...,[ 펼치기 · 접기 ]농림부장관 (1948~1973)제1공화국초대조봉암2대이종현3...
8,김부장(웹툰),웹툰/목록2021년 웹툰박태준 만화회사박태준 유니버스/작품,네이버 웹툰의 연재작월화수목금토일박태준 유니버스(등장인물 및 단체 / 설정 / 연...
9,박인혁,"1995년 출생대한민국의 축구선수서울특별시 출신 인물TSG 1899 호펜하임/은퇴,...",전남 드래곤즈 2022 시즌 스쿼드 [ 펼치기 · 접기 ]5 고태원 · 7 임찬울 ...


In [14]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp39-cp39-win_amd64.whl (362 kB)
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [15]:
import konlpy

In [16]:
!pip install pytagcloud pygame simplejson

Collecting pytagcloud
  Downloading pytagcloud-0.3.5.tar.gz (754 kB)
Collecting pygame
  Downloading pygame-2.1.2-cp39-cp39-win_amd64.whl (8.4 MB)
Collecting simplejson
  Downloading simplejson-3.17.6-cp39-cp39-win_amd64.whl (75 kB)
Building wheels for collected packages: pytagcloud
  Building wheel for pytagcloud (setup.py): started
  Building wheel for pytagcloud (setup.py): finished with status 'done'
  Created wheel for pytagcloud: filename=pytagcloud-0.3.5-py3-none-any.whl size=759870 sha256=3e43775fdc3892c69833be9609dee171825f0ec3fedd80359ff02eb3edd76e3f
  Stored in directory: c:\users\yj\appdata\local\pip\cache\wheels\74\9f\93\6322d7ac8b7c348b7d625f95919691d20cd46d2989dc61b165
Successfully built pytagcloud
Installing collected packages: simplejson, pytagcloud, pygame
Successfully installed pygame-2.1.2 pytagcloud-0.3.5 simplejson-3.17.6


In [17]:
import pytagcloud 

pygame 2.1.2 (SDL 2.0.18, Python 3.9.7)
Hello from the pygame community. https://www.pygame.org/contribute.html
