In [2]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차 검증
# 지표를 하나만 설정할 경우
from sklearn.model_selection import cross_val_score
# 지표를 하나 이상 설정할 경우
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 모델의 최적의 하이퍼파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import VotingClassifier

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.ensemble import VotingRegressor

# 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 군집화
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift
from sklearn.cluster import estimate_bandwidth

# 시간 측정을 위한 시간 모듈
import datetime

# 주식정보
from pandas_datareader import data

# 데이터 수집
import requests
from bs4 import BeautifulSoup
import re
import time
import os

# 출력 결과 청소하는 함수
from IPython.display import clear_output

### 최근 변경 내역 페이지 정보 수집하기

In [3]:
# 요청할 페이지 주소
sit = "https://namu.wiki/RecentChanges"

In [10]:
response = requests.get(sit)
html_str = response.text
html_str

'<!doctype html>\n<html data-n-head-ssr><head ><title>최근 변경내역 - 나무위키</title><meta data-n-head="ssr" charset="utf-8"><meta data-n-head="ssr" name="viewport" content="user-scalable=no, initial-scale=1.0, maximum-scale=5.0, minimum-scale=1.0, width=device-width"><meta data-n-head="ssr" http-equv="x-ua-compatible" content="ie=edge"><meta data-n-head="ssr" name="generator" content="the seed"><meta data-n-head="ssr" name="mobile-web-app-capable" content="yes"><meta data-n-head="ssr" name="application-name" content="나무위키"><meta data-n-head="ssr" name="msapplication-tooltip" content="나무위키"><meta data-n-head="ssr" name="msapplication-starturl" content="/w/%EB%82%98%EB%AC%B4%EC%9C%84%ED%82%A4:%EB%8C%80%EB%AC%B8"><meta data-n-head="ssr" name="theme-color" content="#008275"><meta data-n-head="ssr" name="googlebot" content="noarchive"><link data-n-head="ssr" rel="canonical" href="https://namu.wiki/RecentChanges"><link data-n-head="ssr" rel="search" type="application/opensearchdescription+xml" title

In [5]:
soup = BeautifulSoup(html_str, "html.parser")

In [5]:
def not_lacie(href):
    return href and not re.compile("data-v-36de48c1").search(href)

soup.find_all(href=not_lacie)



[<link data-n-head="ssr" href="https://namu.wiki/RecentChanges" rel="canonical"/>,
 <link data-n-head="ssr" href="/opensearch.xml" rel="search" title="나무위키" type="application/opensearchdescription+xml"/>,
 <link data-n-head="ssr" href="/favicon.svg" rel="icon" sizes="any" type="image/svg+xml"/>,
 <link data-n-head="ssr" href="/favicon-32.png" rel="icon" sizes="32x32" type="image/png"/>,
 <link data-n-head="ssr" href="/favicon-192.png" rel="icon" sizes="192x192" type="image/png"/>,
 <link data-n-head="ssr" href="/img/apple_icon.png" rel="apple-touch-icon"/>,
 <link as="script" href="/skins/senkawa/manifest.bca1d869be62e7cfb353.js" rel="preload"/>,
 <link as="style" href="/skins/senkawa/3.3ad66c430c0fce0d0c11.css" rel="preload"/>,
 <link as="script" href="/skins/senkawa/vendor.3ad66c430c0fce0d0c11.js" rel="preload"/>,
 <link as="style" href="/skins/senkawa/1.434163223e24273fcbef.css" rel="preload"/>,
 <link as="script" href="/skins/senkawa/main.434163223e24273fcbef.js" rel="preload"/>,
 

In [6]:
def has_class_but_no_id(tag):
    return tag.has_attr("href") and not tag.has_attr("link")
soup.find_all(has_class_but_no_id)

[<link data-n-head="ssr" href="https://namu.wiki/RecentChanges" rel="canonical"/>,
 <link data-n-head="ssr" href="/opensearch.xml" rel="search" title="나무위키" type="application/opensearchdescription+xml"/>,
 <link data-n-head="ssr" href="/favicon.svg" rel="icon" sizes="any" type="image/svg+xml"/>,
 <link data-n-head="ssr" href="/favicon-32.png" rel="icon" sizes="32x32" type="image/png"/>,
 <link data-n-head="ssr" href="/favicon-192.png" rel="icon" sizes="192x192" type="image/png"/>,
 <link data-n-head="ssr" href="/img/apple_icon.png" rel="apple-touch-icon"/>,
 <link as="script" href="/skins/senkawa/manifest.bca1d869be62e7cfb353.js" rel="preload"/>,
 <link as="style" href="/skins/senkawa/3.3ad66c430c0fce0d0c11.css" rel="preload"/>,
 <link as="script" href="/skins/senkawa/vendor.3ad66c430c0fce0d0c11.js" rel="preload"/>,
 <link as="style" href="/skins/senkawa/1.434163223e24273fcbef.css" rel="preload"/>,
 <link as="script" href="/skins/senkawa/main.434163223e24273fcbef.js" rel="preload"/>,
 

-------

In [6]:
# 요청할 페이지 주소
site = "https://namu.wiki/RecentChanges"

In [7]:
# 요청한다.
res = requests.get(site)
# html 데이터를 추출한다.
html = res.text
# bs4 객체를 생성한다.
soup = BeautifulSoup(html, "lxml")
soup

<!DOCTYPE html>
<html data-n-head-ssr=""><head><title>최근 변경내역 - 나무위키</title><meta charset="utf-8" data-n-head="ssr"/><meta content="user-scalable=no, initial-scale=1.0, maximum-scale=5.0, minimum-scale=1.0, width=device-width" data-n-head="ssr" name="viewport"/><meta content="ie=edge" data-n-head="ssr" http-equv="x-ua-compatible"/><meta content="the seed" data-n-head="ssr" name="generator"/><meta content="yes" data-n-head="ssr" name="mobile-web-app-capable"/><meta content="나무위키" data-n-head="ssr" name="application-name"/><meta content="나무위키" data-n-head="ssr" name="msapplication-tooltip"/><meta content="/w/%EB%82%98%EB%AC%B4%EC%9C%84%ED%82%A4:%EB%8C%80%EB%AC%B8" data-n-head="ssr" name="msapplication-starturl"/><meta content="#008275" data-n-head="ssr" name="theme-color"/><meta content="noarchive" data-n-head="ssr" name="googlebot"/><link data-n-head="ssr" href="https://namu.wiki/RecentChanges" rel="canonical"/><link data-n-head="ssr" href="/opensearch.xml" rel="search" title="나무위키" typ

- html소스랑 개발자모드에서 보는 코드랑 다르다. 
- htnml은 서버로부터 받은 응답 결과
- 그 소스를 분석해서 실행하면 개발자모드에서 보는 코드를 만든다. 즉 화면을 실제로 구성하는 코드
- html에서 원하는 데이터를 구하려면 BS4를 사용하고, 
- 만약 html에 없으면 개발자모드를 이용해서 찾으면 된다. 개발자모드는 무적권 있다. Celenium사용하면 된다.
- bs4 - xml, html 양식의 데이터를 분석할수있는 툴
- celenium - 느리다. (심하면 10배이상 차이가 날 수 있다.)

#### postman들어가서 html 한줄짜리를 가독성 있게 볼 수 있다.
크롬 확장자

In [9]:
# 데이터를 수집한다.
table_tag = soup.select_one("#app > div > div:nth-child(2) > article > div > table")
# selector는 선택자 여러개
# selector를 잘 알고 싶으면 w3schools  - CSS Selectors 참조
# app > div > div:nth-child(2) > article > div > table > tbody
# 위 부분과 일치하는 부분 모두 삭제
# tbody
tbody_tag = table_tag.select_one("tbody")

# 그 다음 tr 태그는 nth_child 부분이 있다.
#tr:nth-child(1)
#nth_child는 같은 계층에 똑같은게 여러개 있으면 그것들을 구분하기 위한 인덱스를 설정하는 부분이다.
# 이런 경우에는 nth_child를 제거하면 모두 가져올 수 있다.
tr_tag = tbody_tag.select("tr")
tr_tag

[<tr data-v-36de48c1=""><td data-v-36de48c1=""><a data-v-36de48c1="" href="/w/%ED%8C%8C%EC%9D%BC:%EC%B0%BD3-%EB%9D%BC%EC%89%AC.png">파일:창3-라쉬.png</a> <a data-v-36de48c1="" href="/history/%ED%8C%8C%EC%9D%BC:%EC%B0%BD3-%EB%9D%BC%EC%89%AC.png">[역사]</a> <a data-v-36de48c1="" href="/diff/%ED%8C%8C%EC%9D%BC:%EC%B0%BD3-%EB%9D%BC%EC%89%AC.png?rev=2&amp;oldrev=1">[비교]</a> <a data-v-36de48c1="" href="/discuss/%ED%8C%8C%EC%9D%BC:%EC%B0%BD3-%EB%9D%BC%EC%89%AC.png">[토론]</a> <span data-v-36de48c1="">(<span class="m" data-v-36de48c1="" data-v-3ee54395="">-656</span>)</span></td> <td data-v-36de48c1=""><div class="v-popover" data-v-36de48c1="" data-v-38195e46=""><div aria-describedby="popover_hfhx2b24ki" class="trigger" style="display:inline-block;"><a class="u" data-v-38195e46="">guylian</a> </div> <div aria-hidden="true" class="tooltip popover vue-popover-theme" id="popover_hfhx2b24ki" style="visibility:hidden;display:none;" tabindex="0"><div class="wrapper"><div class="tooltip-inner popover-inner" s

In [10]:
# 링크 주소들을 담을 리스트
link_list = []

# 위에서 수집한 tr 태그의 수 만큼 반복한다.
for tr in tr_tag:
    # td 태그들을 추출한다.
#     td_list = tr.select("td")
#     td_tag = td_list[0]
    # 태그들 중에서 제일 처음 것을 가지고 오고자할때는 select_one 사용 
    td_tag = tr.select_one("td")
    
    

    # td 태그 안에 있는 a 태그를 가져온다.
    #app > div > div:nth-child(2) > article > div > table > tbody > tr:nth-child(1) > td:nth-child(1) > a:nth-child(1)
    # a:nth-child(1)
    a_tag = td_tag.select_one("a")
    
    # a_tag가 없는 경우가 있을수도 있기 때문에
    if a_tag != None:
        # a 태그 내의 주소를 가져온다.
        href = a_tag.get("href")
#         print(href)
        # 수집된 주소를 담는다.
        link_list.append(href)
        
link_list

['/w/%ED%8C%8C%EC%9D%BC:%EC%B0%BD3-%EB%9D%BC%EC%89%AC.png',
 '/w/%EC%8B%A0%EC%A7%80%EC%9A%B0',
 '/w/%EC%9E%84%ED%94%BC%EC%97%AD',
 '/w/RMB-93(%EC%86%8C%EB%85%80%EC%A0%84%EC%84%A0)',
 '/w/%ED%8C%8C%EC%9D%BC:attachment/g3_al_asha.jpg',
 '/w/%EC%9D%B8%ED%8D%BC%EB%85%B8',
 '/w/%EB%8B%88%EC%BD%94%EB%8B%88%EC%BD%94%20%EC%9A%94%EC%A0%95%EC%A1%B1',
 '/w/%EA%B0%80%EC%98%A4%EC%8A%9D%20%EC%B2%A9%EC%9A%B4%20%EC%88%9C%ED%99%98%EC%84%A0',
 '/w/%ED%8C%8C%EC%9D%BC:attachment/g3_osman.jpg',
 '/w/%EC%9E%84%ED%94%BC%EC%97%AD',
 '/w/%EC%95%84%EA%B8%B0%EA%B3%B5%EB%A3%A1%20%EB%91%98%EB%A6%AC/%EA%B8%B0%ED%83%80%20%EB%93%B1%EC%9E%A5%EC%9D%B8%EB%AC%BC',
 '/w/%ED%8C%8C%EC%9D%BC:%EC%9A%B8%EC%A7%84%EA%B5%B0%20CI.svg',
 '/w/%EC%96%B4%EB%AA%BD%EC%96%B4%EC%8A%A4%20VR%20%EC%A2%80%EB%B9%84/%EC%8B%9C%EC%A6%8C%202',
 '/w/%E3%81%84%E3%81%AE%E3%81%A1%E3%81%AE%E9%A3%9F%E3%81%B9%E6%96%B9',
 '/w/%EB%8B%88%EC%BD%94%EB%8B%88%EC%BD%94%20%EB%8F%99%ED%99%94',
 '/w/%ED%8C%8C%EC%9D%BC:attachment/g3_al_ispahini.jpg',
 '/w/%EC%8B%A0%

In [11]:
# 전에 생성된 파일을 제거한다.
if os.path.isfile("data/wiki_log.txt") :
    os.remove("data/wiki_log.txt")
if os.path.isfile("data/wiki_data.csv") : 
    os.remove("data/wiki_data.csv")

# 처음 저장여부를 확인하기 위한 변수
isSaved = False


# 수집된 주소의 수만큼 반복한다.
# 일부만 돌려보기
# for sub_url in link_list[:3]:
# 전체 돌리기
for sub_url in link_list:
    # 딜레이
    # 서버 부담 최소화
    time.sleep(1)
    
    
    # 출력창을 지우고 다른 걸 출력,
    clear_output(wait=True)
    
    # 요청할 주소
    site2= f"https://namu.wiki{sub_url}"
    print(f"수집중 : {site2}")
    
    # 요청한다.
    res2 = requests.get(site2)
    soup2 = BeautifulSoup(res2.text, 'lxml')
    
    #app > div > div:nth-child(2) > article > h1 > a
    # 나무위키 항목 페이지의 제목 태그
    # 글 제목
    title_tag = soup2.select_one("#app > div > div:nth-child(2) > article > h1 > a")
    title = title_tag.text
    
    # 글 내용
    #app > div > div:nth-child(2) > article > div:nth-child(5)
#     content_tag = soup2.select_one("#app > div > div:nth-child(2) > article > div:nth-child(5)")
#     content_tag = soup2.select_one("#app > div > div:nth-child(2) > article > div:nth-child(5) > div:nth-child(2) > div > div > div.wiki-paragraph")
    
    # 제거하고자 하는 문자열을 제거한다.
#     content_tag = content_tag.replace('[1]',"" )
    
    content_tag = soup2.select("div.wiki-paragraph")
    
    # 글 내용 태그들의 글을 추출해 하나의 문자열로 합쳐준다.
    content_text = ''
    for content_tag2 in content_tag :
        content_text = content_text + content_tag2.text
        
    # 제거하고 싶은 것이 있다면 제거해준다.
    remove_text = [ " [1] ", "[2]", "[3]"]
    for r1 in remove_text :
        content_text = content_text.replace(r1, '')
    
    
    # 데이터프레임 생성
    data_dict = {
        "title" :[title],
        "content" : [content_text]
        
    }
    
    df1 = pd.DataFrame(data_dict)
#     display(df1)
    #요청한 주소를 저장한다.
    with open("data/wiki_log.txt", "a", encoding="utf-8-sig") as fp:
        fp.write(sub_url + "\n")  # a모드이기 때문에 다시 실행시 전에 했던거에 계속 추가가 된다.
    
    if isSaved == False : 
        # 처음 저장
        df1.to_csv("data/wiki_data.csv", encoding="utf-8-sig", index=False)
        isSaved = True
    else : 
        df1.to_csv("data/wiki_data.csv", encoding="utf-8-sig", index=False, header=False, mode="a")
    
clear_output(wait=True)
print("수집 완료")

수집 완료


In [12]:
df100 = pd.read_csv("data/wiki_data.csv")
df100

Unnamed: 0,title,content
0,파일:창3-라쉬.png,이 파일은 나무위키에서 제한된 한도 안에서 쓰입니다.본 이미지는 퍼블릭 도메인 혹은...
1,신지우,신지우SHIN JI WOO미스터리 유튜버국적 대한민국출생1986년 5월 27일 (3...
2,임피역,이곳은 폐쇄된 교통 시설입니다.이 문서에서 서술하는 교통 시설은 폐쇄되어 더 이상 ...
3,RMB-93(소녀전선),가입 후 15일이 지나야 편집 가능한 문서입니다.RMB-93기본기본중상MOD3...
4,파일:attachment/g3_al_asha.jpg,
...,...,...
94,"알고있지만,",금토 드라마 [ 펼치기 · 접기 ]2021~2025(2021)(2021)토요 드라마...
95,망포역,로그인 후 편집 가능한 문서입니다.網浦驛 / Mangpo Station 망포역...
96,파일:창3-일사담.png,이 파일은 나무위키에서 제한된 한도 안에서 쓰입니다.본 이미지는 퍼블릭 도메인 혹은...
97,퍼니싱 그레이 레이븐/구조체,"상위 문서: 퍼니싱 그레이 레이븐스마트폰, PC에 대응하는 레이아웃 적용[1]..."


In [13]:
df100.isna().sum()

title      0
content    7
dtype: int64

- 1. 데이터 수집하는 웹사이트의 주소 저장하기
- 2. 바로바로 데이터프레임에 저장하기. 수집하고 바로 저장