In [14]:
import os
from selenium import webdriver
import time
import pandas as pd
import numpy as np
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import Select
from selenium.webdriver.common.keys import Keys
import networkx as nx
from concurrent.futures import ThreadPoolExecutor
from math import ceil
from functools import wraps

 네이버에서 서적을 검색하고 해당 서적 설명 페이지에서 서평 내용 크롤링 하기

In [15]:
# 재시도 데코레이션 함수
def retry(max_retries=3, delay_in_seconds=2):
    def decorator(func):
        @wraps(func)
        def wrapper(*args, **kwargs):
            retries = 0
            while retries < max_retries:
                try:
                    return func(*args, **kwargs)
                except Exception as e:
                    retries += 1
                    if retries < max_retries:
                        time.sleep(delay_in_seconds)
                    else:
                        raise e
        return wrapper
    return decorator

In [16]:
# 교보 문고 홈페이지에서 특정 도서에 대해 검색하기
@retry(max_retries=3, delay_in_seconds=2)
def search_book(driver,name):
# url안에서 자체로 도서를 인기순으로 정렬     
    base_url = 'https://search.kyobobook.co.kr/search?keyword={}&gbCode=TOT&target=total'
    driver.get(base_url.format(name))
    wait = WebDriverWait(driver, 10)
# 검색했을 때 책이 나오는 경우 3가지(두 개 이상 - 한 개 - 0 개)    
    try :
        book_link = wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="shopData_list"]/ul/li[1]/div[1]/div[2]/div[2]/div[1]/div/a')))
        book_link.click()
    except:
        book_link = wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="shopData_list"]/ul/li/div[1]/div[2]/div[2]/div[1]/div/a')))
        book_link.click()
        
    

In [17]:
@retry(max_retries=3, delay_in_seconds=2)
def collect_review(driver, name) :
    wait = WebDriverWait(driver, 10)
    comment = ''
    review_tag = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'div.intro_bottom  div.info_text')))

    if len(review_tag) == 1 :
        comment = review_tag[0].text
    elif len(review_tag) >= 2 :
        for review in review_tag:
            comment += review.text
    else:
        comment = None
    return comment

In [18]:
# 그룹 이름 따로 관리
df = pd.read_excel('list_of_books_by_groups.xlsx')
group_name_list = df.columns.tolist()
df.shape

(200, 90)

In [19]:
# text_ranking.ipynb 파일의 함수를 이용하기 위해 파일 로드
%run text_ranking2.ipynb

403
['스', '사피', '인간', '인류', '출', '간', '책', '저자', '서문', '더', '특별', '이제', '할', '이해', '한다', '인공', '지능', '시대', '세상', '동료', '나아갈', '마음', '전하', '통찰', '명실', '역사', '인문', '가로지르는', '미래', '작', '호소', '풍부한', '없었다', '호모', '읽고', '있어', '시장', '제작', '추천', '지식', '리', '사랑', '통해', '수', '글', '종횡무진', '주년', '이후', '강조', '상부']


In [20]:
# text_ranking.ipynb 파일에서 필요한 파일을 정의
f=open('stopwords.txt','r',encoding='utf-8')
stop_words = f.read().splitlines()

In [21]:
# 검색의 정확도를 높이기 위해 제목을 가공하는 코드
def truncate_after_delimiters(text, delimiters):
# 소괄호 안에 있는 문자열 제거
    while "(" in text and ")" in text:
        start = text.find("(")
        end = text.find(")")
        text = text[:start] + text[end+1:]
# 특정 구분자 이후 문자열 제거
    for delimiter in delimiters:
        if delimiter in text:
            text = text.split(delimiter)[0] 
            break
    return text

In [22]:
# 데이터 프레임에서 그룹별로 선택 후 그룹 안에서 각각의 책 추출
# 추출한 책의 서평 크롤링 후, 텍스트 랭크(or LDA) 적용 
# 책마다 추출 된 키워드들을 하나의 셀에 저장 하나의 컬럼은 하나의 그룹
def crawl_and_extract_keywords_for_threads(index_range):
    driver = webdriver.Chrome()
    driver.implicitly_wait(10)
    
    thread_results ={}
    
    error_list_search_book = []  
    error_list_collect_review = []
    
    delimiters = [':','=','/','-']
    
    for i in index_range:
        column = df.iloc[:,i]
        group_name = group_name_list[i]
        keywords_list = []
        
        for n in range(30):
            r_name = column.iloc[n+1]
            name = truncate_after_delimiters(r_name,delimiters)
            try:
                search_book(driver,name)
                time.sleep(1)
# 책이 없는 경우 다음 반복으로 넘어가야 하므로 search_book 함수 밖에서 실행            
            except Exception as e:
                print(f"Error in search_book for the book: {i} - {name}")
                error_list_search_book.append(name)
                keywords_list.append(np.nan)
                continue
            try:
                comment = collect_review(driver,name)
# 출판사 서평이 없거나, 서평을 긁는데 문제가 생긴 경우
            except Exception as e:
                print(f"Error in collection_review for the book: {i} - {name}")
                print(e)
                error_list_collect_review.append(name)
                keywords_list.append(np.nan)
                continue
# text_ranking 실행
            graph = nx.Graph()
            words = preprocess_text(comment, stop_words)
            tfidf_scores = compute_tfidf_scores_v2(comment, stop_words, preprocess_text)
            word_graph_with_tfidf(words, tfidf_scores, graph)
            keywords = text_ranking(graph)
            keywords_list.append(keywords[0:30])
            print(str(i)+"-"+str(n+1)+'완료')
                
        thread_results[group_name] = keywords_list
        time.sleep(2)
    return (thread_results, error_list_search_book, error_list_collect_review)

In [23]:
def parallel_crawling_and_extraction_with_threaded_drivers():
    
    num_threads = 9
    tasks_per_thread = ceil(90 / num_threads)
    index_ranges = [range(i, i + tasks_per_thread) for i in range(0, 90, tasks_per_thread)]
    with ThreadPoolExecutor(max_workers=num_threads) as executor:
        results = list(executor.map(crawl_and_extract_keywords_for_threads, index_ranges))
   
    merged_results = {}
    merged_error_list_search = []
    merged_error_list_collect = []
    
    for result in results:
        merged_results.update(result[0])
        merged_error_list_search.extend(result[1])
        merged_error_list_collect.extend(result[2])

    return merged_results, merged_error_list_search, merged_error_list_collect 

In [None]:
result, error_search, error_collect = parallel_crawling_and_extraction_with_threaded_drivers()

30-1완료
80-1완료
0-1완료
70-1완료
10-1완료
50-1완료
20-1완료
80-2완료
30-2완료
70-2완료
10-2완료
20-2완료
50-2완료
0-2완료
30-3완료
80-3완료
Error in search_book for the book: 40 - 지적 대화를 위한 넓고 얕은 지식 0 
10-3완료
0-3완료
50-3완료
Error in search_book for the book: 60 - 지적 대화를 위한 넓고 얕은 지식 0 
20-3완료
30-4완료
80-4완료
10-4완료
50-4완료
20-4완료
40-2완료
0-4완료
80-5완료
20-5완료
30-5완료
10-5완료
50-5완료
70-3완료
70-4완료
50-6완료
20-6완료
80-6완료
30-6완료
10-6완료
40-3완료
70-5완료
50-7완료
20-7완료
0-5완료
10-7완료
40-4완료
30-7완료
80-7완료
Error in search_book for the book: 60 - 지적 대화를 위한 넓고 얕은 지식 1 - 현실 편 
20-8완료
50-8완료
70-6완료
0-6완료
40-5완료
80-8완료
30-8완료
10-8완료
20-9완료
50-9완료
70-7완료
0-7완료
60-3완료
10-9완료
50-10완료
40-6완료
70-8완료
0-8완료
20-10완료
80-9완료
60-4완료
10-10완료
0-9완료
40-7완료
80-10완료
20-11완료
60-5완료
70-9완료
10-11완료
0-10완료
20-12완료
80-11완료
60-6완료
40-8완료
0-11완료
10-12완료
60-7완료
20-13완료
80-12완료
40-9완료
0-12완료
10-13완료
60-8완료
20-14완료
40-10완료
80-13완료
Error in search_book for the book: 50 - 지적 대화를 위한 넓고 얕은 지식 0 
0-13완료
80-14완료
20-15완료
10-14완료
40-11완료
50-12완료
Error in search_book for the book:

In [None]:
df2 = pd.DataFrame(result)
df2.to_excel("keywords_by_book_of_group.xlsx", index=False)

In [None]:
result

In [None]:
new_dict = {'error_search' : error_search, 'error_collect' : error_collect}
df3 = pd.DataFrame(new_dict)
df3.to_excel('error_list.xlsx', index = False)

In [None]:
len(error_search)

In [None]:
error_search

In [None]:
len(error_collect)

In [None]:
error_collect