In [1]:
# 기본
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게...
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
# plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 시간 관리를 위한 라이브러리
import datetime

# 데이터 수집
from pandas_datareader import data
import requests
from bs4 import BeautifulSoup
import re
import time
import os
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select

# 화면 청소
from IPython.display import clear_output

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차검증
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 하이퍼 파라미터 튜닝
from sklearn.model_selection import GridSearchCV

# 분류 알고리즘
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
# from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import VotingClassifier

# 회귀 알고리즘
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
# from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.ensemble import VotingRegressor

# 분류용 평가 함수
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용 평가 함수
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 차원 축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 군집
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift

### 최근 변경 내역 페이지 정보 수집하기

In [2]:
# # 옵션 생성
# options = webdriver.ChromeOptions()
# # 창 숨기는 옵션 추가
# options.add_argument("headless")

# 웹 드라이버 실행
driver = webdriver.Chrome('./chromedriver')

In [3]:
# 요청한다.
driver.get('https://namu.wiki/RecentChanges')

In [4]:
# 데이터를 담을 딕셔너리
data_dict = {
    'title' : [],
    'link' : []
}

# 전체를 가져온다.
time.sleep(1) # 딜레이 준다.
tbody = driver.find_element_by_css_selector('#GnNwmY86h > div > table > tbody')

# tr 태그들을 가져온다.
tr_list = tbody.find_elements_by_css_selector('tr')

# tr 태그의 수 만큼 반복한다.
for tr_tag in tr_list :
    # a 태그가 없는 경우가 있기 때문에 예외 처리를 해준다.
    try: 
        # td 태그를 가져온다.
        td_tag = tr_tag.find_element_by_css_selector('td:nth-child(1)')
        # print(td_tag)

        # a 태그를 가져온다.
        a_tag = td_tag.find_element_by_css_selector('a:nth-child(1)')
        # print(a_tag)
        
        # 문자열을 가져온다.
        title = a_tag.text
        # print(title)
        link = a_tag.get_attribute('href')
        # print(link)
        
        # 담는다.
        data_dict['title'].append(title)
        data_dict['link'].append(link)
    except:
        pass

In [5]:
# 저장을 위해 데이터 프레임을 생성한다.
df1 = pd.DataFrame(data_dict)
df1

Unnamed: 0,title,link
0,까오니,https://namu.wiki/w/%EA%B9%8C%EC%98%A4%EB%8B%88
1,유영(피겨 스케이팅),https://namu.wiki/w/%EC%9C%A0%EC%98%81(%ED%94%...
2,재찬(DONGKIZ),https://namu.wiki/w/%EC%9E%AC%EC%B0%AC(DONGKIZ)
3,원신/무기/한손검,https://namu.wiki/w/%EC%9B%90%EC%8B%A0/%EB%AC%...
4,더 시드/스테이지 공략,https://namu.wiki/w/%EB%8D%94%20%EC%8B%9C%EB%9...
...,...,...
92,경찰차 V1,https://namu.wiki/w/%EA%B2%BD%EC%B0%B0%EC%B0%A...
93,파일:몽회납란귀비.jpg,https://namu.wiki/w/%ED%8C%8C%EC%9D%BC:%EB%AA%...
94,남포항(포항),https://namu.wiki/w/%EB%82%A8%ED%8F%AC%ED%95%A...
95,Inkscape,https://namu.wiki/w/Inkscape


In [6]:
# 저장한다.
fileName = 'data/namu_wiki_link.csv'

# 파일이 존재하면 삭제한다.
if os.path.exists(fileName) == True :
    os.remove(fileName)
    
# 파일이 없다면 : 첫 번째 저장
if os.path.exists(fileName) == False :
    df1.to_csv(fileName, encoding='utf-8-sig', index=False)
# 파일이 있다면..
else :
    df1.to_csv(fileName, encoding='utf-8-sig', index=False, mode='a', header=None)