In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [1]:
import pandas as pd
import numpy as np
import requests
import json
import matplotlib.pyplot as plt
import seaborn as sns
import re
from bs4 import BeautifulSoup
import time
import random
import os

In [None]:
url = "/content/drive/MyDrive/aiffel_final_project/data_renew/aiffel_book.json"

with open(url,"r",encoding="utf-8") as f:
    data = json.load(f)

In [None]:
data = pd.DataFrame(data)

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 21 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ISBN         50000 non-null  object 
 1   ITEM_ID      50000 non-null  int64  
 2   BID          42652 non-null  float64
 3   GOODS_NO     7348 non-null   float64
 4   분류           46967 non-null  object 
 5   제목           49996 non-null  object 
 6   부제           33406 non-null  object 
 7   원제           4506 non-null   object 
 8   저자           50000 non-null  object 
 9   발행자          50000 non-null  object 
 10  발행일          50000 non-null  object 
 11  페이지          50000 non-null  int64  
 12  가격           50000 non-null  int64  
 13  표지           50000 non-null  object 
 14  간략소개         48590 non-null  object 
 15  책소개          47002 non-null  object 
 16  저자소개         37934 non-null  object 
 17  목차           45459 non-null  object 
 18  출판사리뷰        29156 non-null  object 
 19  INSE

In [None]:
# 책 소개 없는 애들만
x = data.loc[data['책소개'].isna(), ['ISBN']]

In [None]:
x.reset_index(drop=True,inplace=True)

In [None]:
x['ISBN'] = x['ISBN'].astype('int64')
# 혹시 몰라서 int로. 32bit되려나

In [None]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2998 entries, 0 to 2997
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   ISBN    2998 non-null   int64
dtypes: int64(1)
memory usage: 23.6 KB


In [None]:
def get_product_url_from_isbn(isbn):
    isbn_str = str(isbn)
    # ISBN을 URL의 keyword에 대입
    search_url = f"https://search.kyobobook.co.kr/search?keyword={isbn_str}&gbCode=TOT&target=total"
    response = requests.get(search_url)
    if response.status_code != 200:
        print(f"ISBN {isbn_str}: 상태 코드 {response.status_code}") # 에러날 시 에러코드 확인
        return None

    soup = BeautifulSoup(response.text, 'html.parser')

    # auto_overflow_wrap prod_name_group calss는 검색하는 ISBN이 없을 시 생성되지 않음 - 조건문으로 활용하여 None 반환
    container = soup.find("div", class_="auto_overflow_wrap prod_name_group")
    if container is None:
        print(f"ISBN {isbn_str}: 검색 결과 없음")
        return None

    # 생성된 페이지의 목표 태그(<a>---<href>)에서 URL만 추출 - 없으면 None 반환
    a_tag = container.find("a", href=True)
    if a_tag:
        product_url = a_tag.get('href')
        print(f"ISBN {isbn_str}: URL -> {product_url}")
        return product_url
    else:
        print(f"ISBN {isbn_str}: URL을 찾을 수 없음")
        return None

In [None]:
x['url'] = x['ISBN'].apply(get_product_url_from_isbn)

ISBN 9788962515510: 상품 URL -> https://product.kyobobook.co.kr/detail/S000000969234
ISBN 9791186492369: 검색 결과 없음 (auto_overflow_wrap prod_name_group class 없음)
ISBN 9788928518357: 상품 URL -> https://product.kyobobook.co.kr/detail/S000201463394
ISBN 9791162431382: 상품 URL -> https://product.kyobobook.co.kr/detail/S000001812721
ISBN 9788915001275: 상품 URL -> https://product.kyobobook.co.kr/detail/S000202706008
ISBN 9788962397215: 상품 URL -> https://product.kyobobook.co.kr/detail/S000000966896
ISBN 9791137225138: 상품 URL -> https://product.kyobobook.co.kr/detail/S000060614084
ISBN 9788952785688: 상품 URL -> https://product.kyobobook.co.kr/detail/S000000734814
ISBN 9791137210981: 상품 URL -> https://product.kyobobook.co.kr/detail/S000060611981
ISBN 9791190145657: 상품 URL -> https://product.kyobobook.co.kr/detail/S000001936018
ISBN 9791127296377: 상품 URL -> https://product.kyobobook.co.kr/detail/S000060610785
ISBN 9791160455908: 검색 결과 없음 (auto_overflow_wrap prod_name_group class 없음)
ISBN 9791137267169: 

In [None]:
file_path = "/content/drive/MyDrive/aiffel_final_project/data_renew/x_url.csv"

pd.DataFrame(x).to_csv(file_path, index=False)

In [None]:
x['url'].isna().sum()

499

### 이미 존재하는 책 소개 row

In [None]:
description = pd.read_csv("/content/drive/MyDrive/aiffel_final_project/data_renew/book_description_from_naver.csv")
x = pd.read_csv("/content/drive/MyDrive/aiffel_final_project/data_renew/x_url.csv")

In [None]:
description

Unnamed: 0,ISBN,책소개
0,9791162431382,"임영석 시집 『나, 이제부터 삐딱하게 살기로 했다』는 크게 5부로 나누어져 있으며 ..."
1,9788962397215,▶ 이 책은 세법이론을 다룬 이론서입니다. 세법이론의 기초적이고 전반적인 내용을 학...
2,9788952785688,"엄마, 마녀가 나를 잡아먹으려고 해요! \n\n'네버랜드 마음이 자라는 성장 그림책..."
3,9791190145657,▶ 한국회화에 관한 내용을 담은 전문서적입니다.
4,9788982231032,"『무도와 무사도 인문학』은 〈일본 무도의 철학적 고찰〉, 〈무사의 마음, 일본의 국..."
...,...,...
868,9791168942882,말랑말랑 기분 좋은 치유계 EVERYDAY!\n\n가지런한 바가지 앞머리가 매력 포...
869,9791136412331,청라 퓨전 판타지 장편소설 『망작의 삼공자로 사는 법』 제3권. 북방의 군주라 불리...
870,9788942592791,▶ 이 책은 환경위해관리를 위한 노출평가를 다룬 이론서입니다. 환경위해관리를 위한 ...
871,9791137237254,태극권은 중국뿐만 아니라 전 세계적으로 많은 수련인구를 가지고 있다.\n\n수련생들...


In [None]:
description.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 873 entries, 0 to 872
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ISBN    873 non-null    int64 
 1   책소개     873 non-null    object
dtypes: int64(1), object(1)
memory usage: 13.8+ KB


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 21 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ISBN         50000 non-null  int64  
 1   ITEM_ID      50000 non-null  int64  
 2   BID          42652 non-null  float64
 3   GOODS_NO     7348 non-null   float64
 4   분류           46967 non-null  object 
 5   제목           49996 non-null  object 
 6   부제           33406 non-null  object 
 7   원제           4506 non-null   object 
 8   저자           50000 non-null  object 
 9   발행자          50000 non-null  object 
 10  발행일          50000 non-null  object 
 11  페이지          50000 non-null  int64  
 12  가격           50000 non-null  int64  
 13  표지           50000 non-null  object 
 14  간략소개         48590 non-null  object 
 15  책소개          47002 non-null  object 
 16  저자소개         37934 non-null  object 
 17  목차           45459 non-null  object 
 18  출판사리뷰        29156 non-null  object 
 19  INSE

In [None]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2998 entries, 0 to 2997
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ISBN    2998 non-null   int64 
 1   url     2499 non-null   object
 2   책소개     873 non-null    object
 3   출판사리뷰   352 non-null    object
 4   분류      2895 non-null   object
 5   목차      1714 non-null   object
dtypes: int64(1), object(5)
memory usage: 140.7+ KB


In [None]:
!pip install selenium
!apt-get update
!apt-get install -y chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

Collecting selenium
  Downloading selenium-4.29.0-py3-none-any.whl.metadata (7.1 kB)
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.29.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Downloading selenium-4.29.0-py3-none-any.whl (9.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.5/9.5 MB[0m [31m36.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading trio-0.29.0-py3-none-any.whl (492 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m492.9/492.9 kB[0m [31m26.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading trio_websocket-0.12.2-py3-none-any.whl (21 kB)
Downloading outcome-1.3.0.post0-py2.py3-

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time
import random

#### 분류

In [None]:
# Selenium 설정 (Colab 환경 등)
chrome_options = Options()
chrome_options.add_argument("--headless")           # 헤드리스 모드
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--disable-gpu")

driver = webdriver.Chrome(options=chrome_options)

def extract_category(url):
    """
    주어진 URL에 대해 랜덤 딜레이 후 Selenium으로 상세페이지에 접속하고,
    BeautifulSoup을 사용해 카테고리 정보를 추출하여
    ">국내도서>시/에세이>한국시>현대시" 형태의 문자열을 반환합니다.
    """
    # 랜덤 딜레이 (3 ~ 7초)
    delay = random.uniform(3, 7)
    time.sleep(delay)

    driver.get(url)
    # 페이지 완전 로드를 위한 대기 (필요 시 조정)
    time.sleep(6)

    html = driver.page_source
    soup = BeautifulSoup(html, "html.parser")

    ul = soup.select_one('#scrollSpyProdInfo > div:nth-of-type(4) > div:nth-of-type(1) > ul')
    if ul:
        links = ul.select("a.intro_category_link")
        categories = [link.get_text(strip=True) for link in links]
        return ">" + ">".join(categories)
    else:
        return None

In [None]:
# x['url']가 존재하고 x['분류']가 null인 행들만 선택
mask = x['url'].notnull() & x['분류'].isnull()
target_indices = x[mask].index.tolist()

print(f"전체 처리 대상 개수: {len(target_indices)}")

# 한 번에 3개씩 배치 처리 혹시 모를 트래픽
batch_size = 3
total = len(target_indices)

for i in range(0, total, batch_size):
    batch_indices = target_indices[i:i+batch_size]
    print(f"배치 {i//batch_size+1} 처리 중 (총 {len(batch_indices)}개)...")
    for idx in batch_indices:
        url = x.loc[idx, 'url']
        category_info = extract_category(url)
        x.loc[idx, '분류'] = category_info
        print(f"인덱스 {idx} | URL: {url} -> 분류: {category_info}")
    print(f"배치 {i//batch_size+1} 처리 완료, 다음 배치 전 7초 대기...")
    time.sleep(7)

driver.quit()

전체 처리 대상 개수: 88
배치 1 처리 중 (총 3개)...
인덱스 16 | URL: https://product.kyobobook.co.kr/detail/S000061695386 -> 분류: >국내도서>취업/수험서>전문직자격증>행정사
인덱스 31 | URL: https://product.kyobobook.co.kr/detail/S000000902976 -> 분류: >국내도서>정치/사회>법학>소송/판례>민사소송(법)>국내도서>정치/사회>대학교재>법학>국내도서>대학교재>정치/사회/법>법학
인덱스 75 | URL: https://product.kyobobook.co.kr/detail/S000000902909 -> 분류: >국내도서>과학>교양과학>교양생물>생물이야기
배치 1 처리 완료, 다음 배치 전 7초 대기...
배치 2 처리 중 (총 3개)...
인덱스 131 | URL: https://product.kyobobook.co.kr/detail/S000061425529 -> 분류: >국내도서>취업/수험서>전문직자격증>변리사
인덱스 141 | URL: https://product.kyobobook.co.kr/detail/S000001764248 -> 분류: >국내도서>기술/공학>의학>보건학>보건의료법규>국내도서>기술/공학>대학교재>의학>국내도서>대학교재>기술공학>의학
인덱스 147 | URL: https://product.kyobobook.co.kr/detail/S000061694344 -> 분류: >국내도서>정치/사회>법학>상법>특허/상표/지식재산/저작권
배치 2 처리 완료, 다음 배치 전 7초 대기...
배치 3 처리 중 (총 3개)...
인덱스 151 | URL: https://product.kyobobook.co.kr/detail/S000201274208 -> 분류: >국내도서>경제/경영>세무/회계>양도/소득/재산세>국내도서>경제/경영>대학교재>국내도서>대학교재>경제/경영
인덱스 154 | URL: https://ebook-product.kyobobook

In [None]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2998 entries, 0 to 2997
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ISBN    2998 non-null   int64 
 1   url     2499 non-null   object
 2   책소개     873 non-null    object
 3   출판사리뷰   352 non-null    object
 4   분류      2973 non-null   object
 5   목차      1714 non-null   object
dtypes: int64(1), object(5)
memory usage: 140.7+ KB


#### 책소개

In [None]:
file_path = "/content/drive/MyDrive/aiffel_final_project/data_renew/x_url.csv"

pd.DataFrame(x).to_csv(file_path, index=False)

In [None]:
import time
import random
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

# Selenium 설정 (Chrome headless 모드)
chrome_options = Options()
chrome_options.add_argument("--headless")           # 헤드리스 모드
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--disable-gpu")
driver = webdriver.Chrome(options=chrome_options)

def extract_book_intro(url):
    """
    주어진 URL에 대해 랜덤 딜레이 후 Selenium으로 상세페이지에 접속하고,
    XPath 영역
       //*[@id="scrollSpyProdInfo"]/div[4]/div[2]
    와
       //*[@id="scrollSpyProdInfo"]/div[5]/div[2]
    내에서 클래스가 "info_text fw_bold" 또는 "info_text"인 모든 div 요소(또는 해당 요소 내의 텍스트 노드)를
    순차적으로 이어붙여 하나의 문자열로 반환합니다.

    만약 두 영역 모두에서 해당 클래스 요소가 전혀 없다면, None을 반환합니다.
    """
    # 랜덤 딜레이 (2 ~ 3초)
    time.sleep(random.uniform(1, 2))

    driver.get(url)
    # 페이지가 완전히 로드될 때까지 대기 (필요 시 조정)
    time.sleep(1)

    html = driver.page_source
    soup = BeautifulSoup(html, "html.parser")

    # 두 영역 컨테이너 선택
    containers = []
    container4 = soup.select_one('#scrollSpyProdInfo > div:nth-of-type(4) > div:nth-of-type(2)')
    container5 = soup.select_one('#scrollSpyProdInfo > div:nth-of-type(5) > div:nth-of-type(2)')
    if container4:
        containers.append(container4)
    if container5:
        containers.append(container5)

    # 두 영역에서 "info_text" 관련 요소(예: "info_text fw_bold" 또는 "info_text")의 텍스트 노드 추출
    texts = []
    for cont in containers:
        divs = cont.find_all("div", class_=lambda c: c and "info_text" in c)
        if divs:
            for div in divs:
                texts.extend(list(div.stripped_strings))

    if texts:
        return " ".join(texts)
    else:
        return None

In [None]:
# 재실행 시작 인덱스 지정 (예: 10부터 처리)
start_index = 217

# x DataFrame에 대해 x['url']가 존재하고 x['책소개']가 null인 행들 중에서 인덱스가 start_index 이상인 경우 선택
mask = x['url'].notnull() & x['책소개'].isnull() & (x.index >= start_index)
target_indices = x[mask].index.tolist()

print(f"전체 처리 대상 개수 (인덱스 {start_index}부터): {len(target_indices)}")

# 한 번에 5개씩 배치 처리 (트래픽 부담 완화)
batch_size = 10
total = len(target_indices)

for i in range(0, total, batch_size):
    batch_indices = target_indices[i:i+batch_size]
    print(f"배치 {i//batch_size+1} 처리 중 (총 {len(batch_indices)}개)...")
    for idx in batch_indices:
        url = x.loc[idx, 'url']
        intro_text = extract_book_intro(url)
        x.loc[idx, '책소개'] = intro_text
        print(f"인덱스 {idx} | URL: {url} -> 책소개: {intro_text}")
    print(f"배치 {i//batch_size+1} 처리 완료, 다음 배치 전 7초 대기...")
    time.sleep(1)

driver.quit()

전체 처리 대상 개수 (인덱스 217부터): 1535
배치 1 처리 중 (총 10개)...
인덱스 217 | URL: https://product.kyobobook.co.kr/detail/S000200551569 -> 책소개: 2020년 초부터 전 세계적으로 확산된 코로나는 우리나라 정치, 경제, 사회, 문화 등 모든 분야에 영향을 미쳤다. 거리두기 영향과 대인접촉 기피현상으로 재택근무가 늘어나고, 각종 모임과 행사 및 회식이 줄어드는 등 큰 사회적 변화를 겪었다. 코로나 영향으로 부동산 시장도 큰 영향을 받았다.
인덱스 219 | URL: https://product.kyobobook.co.kr/detail/S000201408366 -> 책소개: None
인덱스 220 | URL: https://product.kyobobook.co.kr/detail/S000201054243 -> 책소개: 이 책은 사회복지학을 다룬 이론서이다. 알면서도 몰랐던 장애의 기초적이고 전반적인 내용을 학습할 수 있도록 구성하였다.
인덱스 228 | URL: https://product.kyobobook.co.kr/detail/S000200152387 -> 책소개: None
인덱스 229 | URL: https://product.kyobobook.co.kr/detail/S000200367257 -> 책소개: 독자대상 : 경찰공무원 시험 준비생 구성 : 이론
인덱스 230 | URL: https://product.kyobobook.co.kr/detail/S000061695353 -> 책소개: 이 책은 소박한 민속과 민가의 향기 3를 다룬 한옥건축서적이다. 소박한 민속과 민가의 향기 3에 관한 기초적이고 전반적인 내용들이 수록되어 있다.
인덱스 236 | URL: https://product.kyobobook.co.kr/detail/S000001984653 -> 책소개: 『어도비 포토샵CC』는 〈포토샵 튜닝〉, 〈환경설정〉, 〈스크레치 디스크〉, 〈사진 촬영 기법과 포토샵〉, 〈이미지 해

In [None]:
naru = pd.read_csv("/content/drive/MyDrive/aiffel_final_project/data_renew/aiffel_book_250306.csv")

In [None]:
x = pd.read_csv("/content/drive/MyDrive/aiffel_final_project/data_renew/x_url.csv")

In [None]:
naru.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ISBN         50000 non-null  int64  
 1   ITEM_ID      50000 non-null  int64  
 2   BID          42652 non-null  float64
 3   GOODS_NO     7348 non-null   float64
 4   분류           49206 non-null  object 
 5   제목           50000 non-null  object 
 6   부제           33406 non-null  object 
 7   원제           4506 non-null   object 
 8   저자           50000 non-null  object 
 9   발행자          50000 non-null  object 
 10  발행일          50000 non-null  object 
 11  페이지          50000 non-null  int64  
 12  가격           50000 non-null  int64  
 13  표지           50000 non-null  object 
 14  간략소개         48590 non-null  object 
 15  책소개          47891 non-null  object 
 16  저자소개         37934 non-null  object 
 17  목차           45459 non-null  object 
 18  출판사리뷰        29156 non-null  object 
 19  INSE

In [None]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2998 entries, 0 to 2997
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ISBN    2998 non-null   int64 
 1   url     2499 non-null   object
 2   책소개     2240 non-null   object
 3   출판사리뷰   352 non-null    object
 4   분류      2973 non-null   object
 5   목차      1714 non-null   object
dtypes: int64(1), object(5)
memory usage: 140.7+ KB


### 병합

In [None]:
# '책소개' 컬럼이 존재하는지 확인
if '책소개' in naru.columns and '책소개' in x.columns:
    # ISBN을 기준으로 x를 딕셔너리로 변환 (빠른 조회를 위해)
    isbn_to_intro = x.set_index('ISBN')['책소개'].dropna().to_dict()

    # '책소개'가 None (또는 NaN)인 경우 x의 '책소개' 값으로 채우기
    naru['책소개'] = naru.apply(lambda row: isbn_to_intro.get(row['ISBN'], row['책소개']) if pd.isna(row['책소개']) else row['책소개'], axis=1)
else:
    print("'책소개' 컬럼이 존재하지 않습니다.")

In [None]:
naru.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ISBN         50000 non-null  int64  
 1   ITEM_ID      50000 non-null  int64  
 2   BID          42652 non-null  float64
 3   GOODS_NO     7348 non-null   float64
 4   분류           49206 non-null  object 
 5   제목           50000 non-null  object 
 6   부제           33406 non-null  object 
 7   원제           4506 non-null   object 
 8   저자           50000 non-null  object 
 9   발행자          50000 non-null  object 
 10  발행일          50000 non-null  object 
 11  페이지          50000 non-null  int64  
 12  가격           50000 non-null  int64  
 13  표지           50000 non-null  object 
 14  간략소개         48590 non-null  object 
 15  책소개          49255 non-null  object 
 16  저자소개         37934 non-null  object 
 17  목차           45459 non-null  object 
 18  출판사리뷰        29156 non-null  object 
 19  INSE

In [None]:
naru['책소개'] = naru.apply(lambda x: x['간략소개'] if pd.isna(x['책소개']) and pd.notna(x['간략소개']) else x['책소개'], axis=1)

In [None]:
naru.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ISBN         50000 non-null  int64  
 1   ITEM_ID      50000 non-null  int64  
 2   BID          42652 non-null  float64
 3   GOODS_NO     7348 non-null   float64
 4   분류           49206 non-null  object 
 5   제목           50000 non-null  object 
 6   부제           33406 non-null  object 
 7   원제           4506 non-null   object 
 8   저자           50000 non-null  object 
 9   발행자          50000 non-null  object 
 10  발행일          50000 non-null  object 
 11  페이지          50000 non-null  int64  
 12  가격           50000 non-null  int64  
 13  표지           50000 non-null  object 
 14  간략소개         48590 non-null  object 
 15  책소개          49616 non-null  object 
 16  저자소개         37934 non-null  object 
 17  목차           45459 non-null  object 
 18  출판사리뷰        29156 non-null  object 
 19  INSE

In [None]:
# '분류' 컬럼이 존재하는지 확인
if '분류' in naru.columns and '분류' in x.columns:
    # ISBN을 기준으로 x를 딕셔너리로 변환 (빠른 조회를 위해)
    isbn_to_intro = x.set_index('ISBN')['분류'].dropna().to_dict()

    # '분류'가 None (또는 NaN)인 경우 x의 '분류' 값으로 채우기
    naru['분류'] = naru.apply(lambda row: isbn_to_intro.get(row['ISBN'], row['분류']) if pd.isna(row['분류']) else row['분류'], axis=1)
else:
    print("'분류' 컬럼이 존재하지 않습니다.")

In [None]:
naru.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ISBN         50000 non-null  int64  
 1   ITEM_ID      50000 non-null  int64  
 2   BID          42652 non-null  float64
 3   GOODS_NO     7348 non-null   float64
 4   분류           49243 non-null  object 
 5   제목           50000 non-null  object 
 6   부제           33406 non-null  object 
 7   원제           4506 non-null   object 
 8   저자           50000 non-null  object 
 9   발행자          50000 non-null  object 
 10  발행일          50000 non-null  object 
 11  페이지          50000 non-null  int64  
 12  가격           50000 non-null  int64  
 13  표지           50000 non-null  object 
 14  간략소개         48590 non-null  object 
 15  책소개          49255 non-null  object 
 16  저자소개         37934 non-null  object 
 17  목차           45459 non-null  object 
 18  출판사리뷰        29156 non-null  object 
 19  INSE

In [None]:
file_path = "/content/drive/MyDrive/aiffel_final_project/data_renew/x_url.csv"
pd.DataFrame(x).to_csv(file_path, index=False)

In [None]:
# original
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2998 entries, 0 to 2997
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ISBN    2998 non-null   int64 
 1   url     2499 non-null   object
 2   책소개     873 non-null    object
 3   출판사리뷰   352 non-null    object
 4   분류      2895 non-null   object
 5   목차      1714 non-null   object
dtypes: int64(1), object(5)
memory usage: 140.7+ KB


In [None]:
naru.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ISBN         50000 non-null  int64  
 1   ITEM_ID      50000 non-null  int64  
 2   BID          42652 non-null  float64
 3   GOODS_NO     7348 non-null   float64
 4   분류           49206 non-null  object 
 5   제목           50000 non-null  object 
 6   부제           33406 non-null  object 
 7   원제           4506 non-null   object 
 8   저자           50000 non-null  object 
 9   발행자          50000 non-null  object 
 10  발행일          50000 non-null  object 
 11  페이지          50000 non-null  int64  
 12  가격           50000 non-null  int64  
 13  표지           50000 non-null  object 
 14  간략소개         48590 non-null  object 
 15  책소개          49616 non-null  object 
 16  저자소개         37934 non-null  object 
 17  목차           45459 non-null  object 
 18  출판사리뷰        29156 non-null  object 
 19  INSE

In [None]:
# 최종 데이터 저장
naru.to_csv("/content/drive/MyDrive/aiffel_final_project/data_renew/aiffel_book_250306_update(filled).csv", index=False)

* //*[@id="scrollSpyProdInfo"]/div[4]/div[3]/div/text()[1]
    * 해당 주소로 758개 다시 받아오기
* 출판사리뷰(서평) + 추천사
    * 존재하는 것만 빨리빨리 보고 넘어가게 코드 짜기
* 목차

In [None]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2998 entries, 0 to 2997
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ISBN    2998 non-null   int64 
 1   url     2499 non-null   object
 2   책소개     2240 non-null   object
 3   출판사리뷰   352 non-null    object
 4   분류      2973 non-null   object
 5   목차      1714 non-null   object
dtypes: int64(1), object(5)
memory usage: 140.7+ KB


In [None]:
import time
import random
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

# Selenium 설정 (Chrome headless 모드)
chrome_options = Options()
chrome_options.add_argument("--headless")           # 헤드리스 모드
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--disable-gpu")
driver = webdriver.Chrome(options=chrome_options)

def extract_book_intro(url):
    """
    주어진 URL에 대해 랜덤 딜레이 후 Selenium으로 상세페이지에 접속하고,
    XPath 영역
       //*[@id="scrollSpyProdInfo"]/div[4]/div[2]
    와
       //*[@id="scrollSpyProdInfo"]/div[5]/div[2]
    내에서 클래스가 "info_text fw_bold" 또는 "info_text"인 모든 div 요소(또는 해당 요소 내의 텍스트 노드)를
    순차적으로 이어붙여 하나의 문자열로 반환합니다.

    만약 두 영역 모두에서 해당 클래스 요소가 전혀 없다면, None을 반환합니다.
    """
    # 랜덤 딜레이 (2 ~ 3초)
    time.sleep(random.uniform(1, 2))

    driver.get(url)
    # 페이지가 완전히 로드될 때까지 대기 (필요 시 조정)
    time.sleep(1)

    html = driver.page_source
    soup = BeautifulSoup(html, "html.parser")

    # 두 영역 컨테이너 선택
    containers = []
    container4 = soup.select_one('#scrollSpyProdInfo > div:nth-of-type(4) > div:nth-of-type(2)')
    container5 = soup.select_one('#scrollSpyProdInfo > div:nth-of-type(5) > div:nth-of-type(2)')
    if container4:
        containers.append(container4)
    if container5:
        containers.append(container5)

    # 두 영역에서 "info_text" 관련 요소(예: "info_text fw_bold" 또는 "info_text")의 텍스트 노드 추출
    texts = []
    for cont in containers:
        divs = cont.find_all("div", class_=lambda c: c and "info_text" in c)
        if divs:
            for div in divs:
                texts.extend(list(div.stripped_strings))

    if texts:
        return " ".join(texts)
    else:
        return None

In [None]:
import time
import random
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

# Selenium 설정 (Chrome headless 모드)
chrome_options = Options()
chrome_options.add_argument("--headless")           # 헤드리스 모드
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--disable-gpu")
driver = webdriver.Chrome(options=chrome_options)

def extract_book_intro(url):
    """
    주어진 URL에 대해 랜덤 딜레이 후 Selenium으로 상세페이지에 접속하고,
    XPath 영역:
       //*[@id="scrollSpyProdInfo"]/div[4]/div[2]
    와
       //*[@id="scrollSpyProdInfo"]/div[5]/div[2]
    내에서 클래스가 "info_text fw_bold" 또는 "info_text"인 모든 div 요소(또는 해당 요소 내의 텍스트 노드)를
    순차적으로 이어붙여 하나의 문자열로 반환합니다.

    추가로, XPath 영역:
       //*[@id="scrollSpyProdInfo"]/div[4]/div[3]/div/text()
    혹은
       //*[@id="scrollSpyProdInfo"]/div[4]/div[3]/div/text()[1]
    에 해당하는 숫자 또는 텍스트 노드도 함께 추출하여 결과에 포함시킵니다.

    만약 모든 영역에서 해당 텍스트가 전혀 없다면, None을 반환합니다.
    """
    # 랜덤 딜레이 (1 ~ 2초)
    time.sleep(random.uniform(1, 2))

    driver.get(url)
    # 페이지가 완전히 로드될 때까지 대기 (필요 시 조정)
    time.sleep(1)

    html = driver.page_source
    soup = BeautifulSoup(html, "html.parser")

    # 기존 컨테이너 2개 선택
    containers = []
    container4 = soup.select_one('#scrollSpyProdInfo > div:nth-of-type(4) > div:nth-of-type(2)')
    container5 = soup.select_one('#scrollSpyProdInfo > div:nth-of-type(5) > div:nth-of-type(2)')
    if container4:
        containers.append(container4)
    if container5:
        containers.append(container5)

    # 추가 컨테이너: div[4]/div[3]
    container_extra = soup.select_one('#scrollSpyProdInfo > div:nth-of-type(4) > div:nth-of-type(3)')
    if container_extra:
        containers.append(container_extra)

    # 각 컨테이너 내에서 "info_text" 관련 요소(예: "info_text fw_bold" 또는 "info_text") 및
    # 추가 컨테이너의 경우, 모든 텍스트 노드를 추출
    texts = []
    for cont in containers:
        # 만약 컨테이너에 'info_text' 클래스가 포함된 div가 있다면
        divs = cont.find_all("div", class_=lambda c: c and "info_text" in c)
        if divs:
            for div in divs:
                texts.extend(list(div.stripped_strings))
        else:
            # 'info_text' 클래스가 없으면, 컨테이너 내의 모든 텍스트 노드를 추출
            texts.extend(list(cont.stripped_strings))

    if texts:
        return " ".join(texts)
    else:
        return None

In [None]:
# 재실행 시작 인덱스 지정 (예: 10부터 처리)
start_index = 1

# x DataFrame에 대해 x['url']가 존재하고 x['책소개']가 null인 행들 중에서 인덱스가 start_index 이상인 경우 선택
mask = x['url'].notnull() & x['책소개'].isnull() & (x.index >= start_index)
target_indices = x[mask].index.tolist()

print(f"전체 처리 대상 개수 (인덱스 {start_index}부터): {len(target_indices)}")

# 한 번에 5개씩 배치 처리 (트래픽 부담 완화)
batch_size = 10
total = len(target_indices)

for i in range(0, total, batch_size):
    batch_indices = target_indices[i:i+batch_size]
    print(f"배치 {i//batch_size+1} 처리 중 (총 {len(batch_indices)}개)...")
    for idx in batch_indices:
        url = x.loc[idx, 'url']
        intro_text = extract_book_intro(url)
        x.loc[idx, '책소개'] = intro_text
        print(f"인덱스 {idx} | URL: {url} -> 책소개: {intro_text}")
    print(f"배치 {i//batch_size+1} 처리 완료, 다음 배치 전 7초 대기...")
    time.sleep(1)

driver.quit()

전체 처리 대상 개수 (인덱스 1부터): 301
배치 1 처리 중 (총 10개)...
인덱스 6 | URL: https://product.kyobobook.co.kr/detail/S000060614084 -> 책소개: 찜하기 장바구니 저자(글) 최정아 어릴 적부터 용돈으로 동네서점에서 시리즈를 사모으던 떡잎부터 책수집러. 그림책 애호가 / 수집가 10년차 초등학교 교사 월간지 <좋은교사> '내 마음 속 그림책 산책' 기고 <기독교사대회> 선택강의 강사 <좋은교사> 자율연수 강사 <기윤실 수련회> 선택강의 강사 교원학습공동체 연수 강사 zzong323@naver.com 펼치기
인덱스 8 | URL: https://product.kyobobook.co.kr/detail/S000060611981 -> 책소개: 찜하기 장바구니 저자(글) 키키
인덱스 10 | URL: https://product.kyobobook.co.kr/detail/S000060610785 -> 책소개: 찜하기 장바구니 저자(글) 강현영 그녀는 일산에 거주중이며 이 책은 그녀의 1.5번째 책이다. 펼치기
인덱스 12 | URL: https://product.kyobobook.co.kr/detail/S000060620237 -> 책소개: 찜하기 장바구니 저자(글) 2021 공도초 5학년 2반 친구들
인덱스 13 | URL: https://product.kyobobook.co.kr/detail/S000003945769 -> 책소개: 펼치기 원서번역서 원
인덱스 18 | URL: https://product.kyobobook.co.kr/detail/S000061442350 -> 책소개: 찜하기 장바구니 저자(글) 구한솔 "구한솔" 1996년 출생. 서울 서초구 사람. 2017년 명지대학교 영화뮤지컬학부에 입학했으나 수 년 간 휴학했다. 2017년 「경상북도 영상콘텐츠 시나리오 공모전」에 시나리오 <동쪽 끝 변호사 선생>이 우수상에 당선되어 작품 활동을 시작했다. 펼치기
인덱스 29 | URL: http

In [None]:
x = pd.read_csv("/content/drive/MyDrive/aiffel_final_project/data_renew/x_url.csv")

In [None]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2998 entries, 0 to 2997
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ISBN    2998 non-null   int64 
 1   url     2499 non-null   object
 2   책소개     2240 non-null   object
 3   출판사리뷰   352 non-null    object
 4   분류      2973 non-null   object
 5   목차      1714 non-null   object
dtypes: int64(1), object(5)
memory usage: 140.7+ KB


In [None]:
# x.iloc[827] = "<잃은 사람들의 만찬> 작가 강태근 장편소설. 한국 사회의 구조적 아픔, 그 슬픈 자화상을 구체적 이야기로 직시하고 이를 넘어설 방략을 모색하는 작품이다."

# 인덱스 43 | URL: https://product.kyobobook.co.kr/detail/S000061695042
# 인덱스 73 | URL: https://product.kyobobook.co.kr/detail/S000200419232
# 인덱스 82 | URL: https://product.kyobobook.co.kr/detail/S000200497027
# 인덱스 100 | URL: https://product.kyobobook.co.kr/detail/S000201040684
# 인덱스 107 | URL: https://product.kyobobook.co.kr/detail/S000200417698
# 인덱스 110 | URL: https://product.kyobobook.co.kr/detail/S000061777727
# 인덱스 126 | URL: https://product.kyobobook.co.kr/detail/S000200354622
# 인덱스 219 | URL: https://product.kyobobook.co.kr/detail/S000201408366
# 인덱스 228 | URL: https://product.kyobobook.co.kr/detail/S000200152387
# 인덱스 247 | URL: https://product.kyobobook.co.kr/detail/S000200616446
# 인덱스 266 | URL: https://product.kyobobook.co.kr/detail/S000200322124
# 인덱스 280 | URL: https://product.kyobobook.co.kr/detail/S000200490503
# 인덱스 287 | URL: https://product.kyobobook.co.kr/detail/S000200312124
# 인덱스 302 | URL: https://product.kyobobook.co.kr/detail/S000201884950
# 인덱스 311 | URL: https://product.kyobobook.co.kr/detail/S000061897658
# 인덱스 314 | URL: https://product.kyobobook.co.kr/detail/S000200369661
# 인덱스 316 | URL: https://product.kyobobook.co.kr/detail/S000200403146
# 인덱스 346 | URL: https://product.kyobobook.co.kr/detail/S000200410168
# 인덱스 350 | URL: https://product.kyobobook.co.kr/detail/S000200490340
# 인덱스 356 | URL: https://product.kyobobook.co.kr/detail/S000200365320
# 인덱스 387 | URL: https://product.kyobobook.co.kr/detail/S000003945888
# 인덱스 388 | URL: https://product.kyobobook.co.kr/detail/S000201649879
# 인덱스 418 | URL: https://product.kyobobook.co.kr/detail/S000200490271
# 인덱스 438 | URL: https://product.kyobobook.co.kr/detail/S000202610250
# 인덱스 439 | URL: https://product.kyobobook.co.kr/detail/S000200419226
# 인덱스 450 | URL: https://product.kyobobook.co.kr/detail/S000200242343
# 인덱스 464 | URL: https://product.kyobobook.co.kr/detail/S000201373944
# 인덱스 469 | URL: https://product.kyobobook.co.kr/detail/S000200069946
# 인덱스 473 | URL: https://product.kyobobook.co.kr/detail/S000200473472
# 인덱스 478 | URL: https://product.kyobobook.co.kr/detail/S000200477584
# 인덱스 484 | URL: https://product.kyobobook.co.kr/detail/S000200344912
# 인덱스 485 | URL: https://product.kyobobook.co.kr/detail/S000000524541
# 인덱스 492 | URL: https://product.kyobobook.co.kr/detail/S000202623779
# 인덱스 497 | URL: https://product.kyobobook.co.kr/detail/S000061696181
# 인덱스 514 | URL: https://product.kyobobook.co.kr/detail/S000200365334
# 인덱스 518 | URL: https://product.kyobobook.co.kr/detail/S000001656557
# 인덱스 526 | URL: https://product.kyobobook.co.kr/detail/S000202406307
# 인덱스 527 | URL: https://product.kyobobook.co.kr/detail/S000061695195
# 인덱스 560 | URL: https://product.kyobobook.co.kr/detail/S000200419224
# 인덱스 561 | URL: https://product.kyobobook.co.kr/detail/S000200396524
# 인덱스 627 | URL: https://product.kyobobook.co.kr/detail/S000061757407
# 인덱스 648 | URL: https://product.kyobobook.co.kr/detail/S000200384808
# 인덱스 653 | URL: https://product.kyobobook.co.kr/detail/S000061863291
# 인덱스 655 | URL: https://product.kyobobook.co.kr/detail/S000202031540
# 인덱스 696 | URL: https://product.kyobobook.co.kr/detail/S000200417729
# 인덱스 699 | URL: https://product.kyobobook.co.kr/detail/S000200747399
# 인덱스 721 | URL: https://product.kyobobook.co.kr/detail/S000200396790
# 인덱스 775 | URL: https://product.kyobobook.co.kr/detail/S000215561399
# 인덱스 805 | URL: https://product.kyobobook.co.kr/detail/S000201400228
# 인덱스 827 | URL: https://product.kyobobook.co.kr/detail/S000001769612 엄마없는작가새끼
# 인덱스 861 | URL: https://product.kyobobook.co.kr/detail/S000200144282
# 인덱스 874 | URL: https://product.kyobobook.co.kr/detail/S000213447330
# 인덱스 907 | URL: https://product.kyobobook.co.kr/detail/S000200152041
# 인덱스 909 | URL: https://product.kyobobook.co.kr/detail/S000200314837
# 인덱스 943 | URL: https://product.kyobobook.co.kr/detail/S000200490279
# 인덱스 960 | URL: https://ebook-product.kyobobook.co.kr/dig/epd/ebook/E000005154406 - 작품소개에
# 인덱스 1056 | URL: https://product.kyobobook.co.kr/detail/S000200493185
# 인덱스 1076 | URL: https://product.kyobobook.co.kr/detail/S000200305083
# 인덱스 1102 | URL: https://product.kyobobook.co.kr/detail/S000202257455
# 인덱스 1159 | URL: https://product.kyobobook.co.kr/detail/S000200738608
# 인덱스 1166 | URL: https://product.kyobobook.co.kr/detail/S000200404955
# 인덱스 1200 | URL: https://product.kyobobook.co.kr/detail/S000061757137
# 인덱스 1207 | URL: https://product.kyobobook.co.kr/detail/S000061583989
# 인덱스 1210 | URL: https://product.kyobobook.co.kr/detail/S000201978234
# 인덱스 1255 | URL: https://product.kyobobook.co.kr/detail/S000001732406
# 인덱스 1259 | URL: https://product.kyobobook.co.kr/detail/S000200348080
# 인덱스 1298 | URL: https://product.kyobobook.co.kr/detail/S000200493187
# 인덱스 1305 | URL: https://product.kyobobook.co.kr/detail/S000200417749
# 인덱스 1406 | URL: https://product.kyobobook.co.kr/detail/S000062210884
# 인덱스 1472 | URL: https://product.kyobobook.co.kr/detail/S000200484689
# 인덱스 1475 | URL: https://product.kyobobook.co.kr/detail/S000201264808
# 인덱스 1485 | URL: https://product.kyobobook.co.kr/detail/S000201978049
# 인덱스 1571 | URL: https://product.kyobobook.co.kr/detail/S000200497024
# 인덱스 1618 | URL: https://product.kyobobook.co.kr/detail/S000202042951
# 인덱스 1630 | URL: https://product.kyobobook.co.kr/detail/S000061350222 김봉씨발럼
# 인덱스 1645 | URL: https://product.kyobobook.co.kr/detail/S000201556848
# 인덱스 1654 | URL: https://product.kyobobook.co.kr/detail/S000200771744
# 인덱스 1658 | URL: https://product.kyobobook.co.kr/detail/S000202752849 그냥 한글자
# 인덱스 1667 | URL: https://product.kyobobook.co.kr/detail/S000200403142
# 인덱스 1682 | URL: https://product.kyobobook.co.kr/detail/S000201595240
# 인덱스 1688 | URL: https://product.kyobobook.co.kr/detail/S000200493184
# 인덱스 1726 | URL: https://product.kyobobook.co.kr/detail/S000200608232
# 인덱스 1747 | URL: https://product.kyobobook.co.kr/detail/S000200363807
# 인덱스 1755 | URL: https://product.kyobobook.co.kr/detail/S000200320650
# 인덱스 1774 | URL: https://product.kyobobook.co.kr/detail/S000200363902
# 인덱스 1780 | URL: https://product.kyobobook.co.kr/detail/S000201884961
# 인덱스 1784 | URL: https://product.kyobobook.co.kr/detail/S000200747394
# 인덱스 1813 | URL: https://product.kyobobook.co.kr/detail/S000200227305
# 인덱스 1817 | URL: https://product.kyobobook.co.kr/detail/S000201393305
# 인덱스 1822 | URL: https://product.kyobobook.co.kr/detail/S000200367281
# 인덱스 1840 | URL: https://product.kyobobook.co.kr/detail/S000200355678
# 인덱스 1855 | URL: https://product.kyobobook.co.kr/detail/S000200367277
# 인덱스 1868 | URL: https://product.kyobobook.co.kr/detail/S000200419223
# 인덱스 1879 | URL: https://product.kyobobook.co.kr/detail/S000201416586
# 인덱스 1894 | URL: https://product.kyobobook.co.kr/detail/S000061694903
# 인덱스 1912 | URL: https://product.kyobobook.co.kr/detail/S000200396523
# 인덱스 2011 | URL: https://product.kyobobook.co.kr/detail/S000201301615
# 인덱스 2022 | URL: https://product.kyobobook.co.kr/detail/S000200410147
# 인덱스 2023 | URL: https://product.kyobobook.co.kr/detail/S000200608188
# 인덱스 2040 | URL: https://product.kyobobook.co.kr/detail/S000061350257
# 인덱스 2090 | URL: https://product.kyobobook.co.kr/detail/S000200355677
# 인덱스 2104 | URL: https://product.kyobobook.co.kr/detail/S000201301783
# 인덱스 2119 | URL: https://product.kyobobook.co.kr/detail/S000201549826
# 인덱스 2130 | URL: https://product.kyobobook.co.kr/detail/S000200488989
# 인덱스 2144 | URL: https://product.kyobobook.co.kr/detail/S000200419225
# 인덱스 2146 | URL: https://product.kyobobook.co.kr/detail/S000200367282
# 인덱스 2149 | URL: https://product.kyobobook.co.kr/detail/S000200419222
# 인덱스 2214 | URL: https://product.kyobobook.co.kr/detail/S000061757921
# 인덱스 2220 | URL: https://product.kyobobook.co.kr/detail/S000001942428 한글자
# 인덱스 2234 | URL: https://product.kyobobook.co.kr/detail/S000201345317 한글자
# 인덱스 2271 | URL: https://product.kyobobook.co.kr/detail/S000200918275
# 인덱스 2273 | URL: https://product.kyobobook.co.kr/detail/S000200460931 한글자
# 인덱스 2326 | URL: https://product.kyobobook.co.kr/detail/S000200419229
# 인덱스 2351 | URL: https://product.kyobobook.co.kr/detail/S000202036275
# 인덱스 2383 | URL: https://product.kyobobook.co.kr/detail/S000200411419
# 인덱스 2392 | URL: https://product.kyobobook.co.kr/detail/S000201453614
# 인덱스 2435 | URL: https://product.kyobobook.co.kr/detail/S000200490501
# 인덱스 2458 | URL: https://product.kyobobook.co.kr/detail/S000201583352 한글자자
# 인덱스 2471 | URL: https://product.kyobobook.co.kr/detail/S000200616426
# 인덱스 2513 | URL: https://product.kyobobook.co.kr/detail/S000001647721 -불량 글로벌 기업과 악덕 국가들이 판을 치는 21세기. 그 판을 뒤엎고자 그가 돌아왔다─! 인피니티 인더스트리의 창업자 백미르! 그가 주도하는 새로운 신기술들로 무장한 새로운 시대! 이제 그 시대의 중심은... 바로 우리들이다!
# 인덱스 2515 | URL: https://product.kyobobook.co.kr/detail/S000200396518
# 인덱스 2534 | URL: https://product.kyobobook.co.kr/detail/S000200496807
# 인덱스 2596 | URL: https://product.kyobobook.co.kr/detail/S000200419237
# 인덱스 2619 | URL: https://product.kyobobook.co.kr/detail/S000200355671
# 인덱스 2622 | URL: https://product.kyobobook.co.kr/detail/S000201416597
# 인덱스 2630 | URL: https://product.kyobobook.co.kr/detail/S000061532216
# 인덱스 2640 | URL: https://product.kyobobook.co.kr/detail/S000200497029 아가페
# 인덱스 2650 | URL: https://product.kyobobook.co.kr/detail/S000201495859
# 인덱스 2681 | URL: https://product.kyobobook.co.kr/detail/S000061350259
# 인덱스 2729 | URL: https://product.kyobobook.co.kr/detail/S000200363776
# 인덱스 2730 | URL: https://product.kyobobook.co.kr/detail/S000200608235
# 인덱스 2740 | URL: https://product.kyobobook.co.kr/detail/S000200411396
# 인덱스 2744 | URL: https://product.kyobobook.co.kr/detail/S000061696001
# 인덱스 2759 | URL: https://product.kyobobook.co.kr/detail/S000202342917
# 인덱스 2764 | URL: https://product.kyobobook.co.kr/detail/S000200355673
# 인덱스 2805 | URL: https://product.kyobobook.co.kr/detail/S000200059070 한글자
# 인덱스 2806 | URL: https://product.kyobobook.co.kr/detail/S000200384858
# 인덱스 2807 | URL: https://product.kyobobook.co.kr/detail/S000201301786
# 인덱스 2812 | URL: https://product.kyobobook.co.kr/detail/S000202688421
# 인덱스 2833 | URL: https://product.kyobobook.co.kr/detail/S000200488952
# 인덱스 2840 | URL: https://product.kyobobook.co.kr/detail/S000201416603
# 인덱스 2873 | URL: https://product.kyobobook.co.kr/detail/S000200179060
# 인덱스 2878 | URL: https://product.kyobobook.co.kr/detail/S000200381921
# 인덱스 2889 | URL: https://product.kyobobook.co.kr/detail/S000200367280
# 인덱스 2895 | URL: https://product.kyobobook.co.kr/detail/S000200115820 한글자
# 인덱스 2933 | URL: https://product.kyobobook.co.kr/detail/S000200616440
# 인덱스 2956 | URL: https://product.kyobobook.co.kr/detail/S000200488979
# 인덱스 2960 | URL: https://product.kyobobook.co.kr/detail/S000201309320 한글자
# 인덱스 2975 | URL: https://product.kyobobook.co.kr/detail/S000202150498
# 인덱스 2988 | URL: https://product.kyobobook.co.kr/detail/S000200031397

### 출판사 서평 - url

In [6]:
data = pd.read_csv("/content/drive/MyDrive/aiffel_final_project/data_renew/aiffel_book_250306_update(filled).csv")

In [None]:
# 출판사리뷰 없는 애들만
x = data.loc[data['출판사리뷰'].isna(), ['ISBN']]

In [None]:
def get_product_url_from_isbn(isbn):
    isbn_str = str(isbn)
    # ISBN을 URL의 keyword에 대입
    search_url = f"https://search.kyobobook.co.kr/search?keyword={isbn_str}&gbCode=TOT&target=total"
    response = requests.get(search_url)
    if response.status_code != 200:
        print(f"ISBN {isbn_str}: 상태 코드 {response.status_code}") # 에러날 시 에러코드 확인
        return None

    soup = BeautifulSoup(response.text, 'html.parser')

    # auto_overflow_wrap prod_name_group calss는 검색하는 ISBN이 없을 시 생성되지 않음 - 조건문으로 활용하여 None 반환
    container = soup.find("div", class_="auto_overflow_wrap prod_name_group")
    if container is None:
        print(f"ISBN {isbn_str}: 검색 결과 없음")
        return None

    # 생성된 페이지의 목표 태그(<a>---<href>)에서 URL만 추출 - 없으면 None 반환
    a_tag = container.find("a", href=True)
    if a_tag:
        product_url = a_tag.get('href')
        print(f"ISBN {isbn_str}: URL -> {product_url}")
        return product_url
    else:
        print(f"ISBN {isbn_str}: URL을 찾을 수 없음")
        return None

In [None]:
# 저장 파일 경로 설정
save_dir = "/content/drive/MyDrive/aiffel_final_project/data_renew"
save_file = os.path.join(save_dir, "x_review.csv")

# 이미 저장된 결과가 있는지 확인 (끊긴 부분부터 재시작)
if os.path.exists(save_file):
    df_saved = pd.read_csv(save_file)
    processed_isbns = set(df_saved["ISBN"].astype(str))
    print(f"저장된 결과가 있습니다. 처리된 ISBN 수: {len(processed_isbns)}")
else:
    df_saved = pd.DataFrame(columns=["ISBN", "product_url"])
    processed_isbns = set()

# 이미 처리된 결과를 포함하여 결과 DataFrame 초기화
results = df_saved.copy()
batch_count = 0  # 이번 실행에서 새로 처리한 건수

# 전체 x DataFrame의 ISBN에 대해 반복 (이미 처리된 것은 건너뜀)
for idx, row in x.iterrows():
    isbn = row["ISBN"]
    if str(isbn) in processed_isbns:
        continue

    url = get_product_url_from_isbn(isbn)
    # 새로운 행 DataFrame 생성 후 결과와 합치기
    new_row = pd.DataFrame([{"ISBN": isbn, "product_url": url}])
    results = pd.concat([results, new_row], ignore_index=True)
    processed_isbns.add(str(isbn))
    batch_count += 1

    # 300건마다 저장
    if batch_count % 300 == 0:
        results.to_csv(save_file, index=False)
        print(f"새로 처리한 {batch_count}건 저장 완료. (전체 저장된 건수: {len(results)})")
        time.sleep(1)  # 저장 후 잠시 대기

# 최종 저장
results.to_csv(save_file, index=False)
print("모든 ISBN 처리 완료 및 최종 저장됨.")

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
ISBN 9791159629655: URL -> https://product.kyobobook.co.kr/detail/S000001782446
ISBN 9791163899525: URL -> https://product.kyobobook.co.kr/detail/S000001823740
ISBN 9788967641757: URL -> https://product.kyobobook.co.kr/detail/S000001048840
ISBN 9791155775844: URL -> https://product.kyobobook.co.kr/detail/S000001728969
ISBN 9791164410507: URL -> https://product.kyobobook.co.kr/detail/S000001828758
ISBN 9791159422232: URL -> https://product.kyobobook.co.kr/detail/S000001778123
ISBN 9791136264121: URL -> https://product.kyobobook.co.kr/detail/S000001712203
ISBN 9788989625315: URL -> https://product.kyobobook.co.kr/detail/S000001428808
ISBN 9791164451968: URL -> https://product.kyobobook.co.kr/detail/S000001829837
ISBN 9791138012072: URL -> https://product.kyobobook.co.kr/detail/S000001716127
ISBN 9791136234704: URL -> https://product.kyobobook.co.kr/detail/S000001711212
ISBN 9791168488670: URL -> https://product.kyobobook.co.kr/detail/S000

### 출판사리뷰 - text

In [7]:
data.columns

Index(['ISBN', 'ITEM_ID', 'BID', 'GOODS_NO', '분류', '제목', '부제', '원제', '저자',
       '발행자', '발행일', '페이지', '가격', '표지', '간략소개', '책소개', '저자소개', '목차', '출판사리뷰',
       'INSERT_DATE', 'UPDATE_DATE', 'len_cat'],
      dtype='object')

In [20]:
# pd.set_option('display.max_rows', None)  # 모든 행 출력
# pd.set_option('display.max_columns', None)  # 모든 열 출력
pd.set_option('display.max_colwidth', None)  # 컬럼 내용 길이 제한 해제
pd.set_option('display.expand_frame_repr', False)  # 줄 바꿈 없이 한 줄로 출력

In [21]:
data.loc[(data['출판사리뷰'].isna() == False),['출판사리뷰']]

Unnamed: 0,출판사리뷰
0,"평범했지만 내가 주인공이었던 영화 같은 시간들\n어느 날 문득 곁으로 다가온 인생의 명장면들을 기록하다\n\n“저요, 사는 게 뭔지 진짜 궁금해졌어요. 그 안에 영화도 있어요.” \n영화 [찬실이는 복도 많지]에는 이런 대사가 나온다. 영화에 젊은 날을 다 바쳤으나, 결국 영화 때문에 모든 것을 잃고, 그럼에도 또다시 영화에서 삶의 의미를 찾은 찬실이. 어떤 일에 열정과 진심을 다했던 일, 사람, 꿈과의 관계에서 행복을 얻고, 때로는 실망하지만 또다시 관계를 맺어나가는 과정들은 참 평범하지만, 영화 같다. 우리의 인생처럼.\n\n영화는 아주 가까이에 있다. 타인의 이야기라고 생각하며 무심하게 재생한 영화의 주인공은 인종도 성별도 사는 곳도 다르지만, 때때로 우리의 이야기가 된다. 영화는 평범한 사람들의 살아가는 이야기를 담아내고, 우리는 영화를 통해 삶을 되돌아보기 때문이다. 영화를 사랑하는 사람들이 자신의 인생 영화로 꼽는 영화들은 대체로 소박하다. [리틀 포레스트], [패터슨], [벌새], [소공녀] 등 잔잔한 흐름 안에 가슴을 쿵 하고 울리는 장면들이 있다. 일러스트레이터 무궁화 작가는 『인생에서 정지 버튼 누르고 싶었던 순간들』을 쓰고 그리며 영화 속에서 자신을 되돌아보게 된 순간들, 독자들도 스스로 성장할 수 있는 이야기들을 담았다. \n\n돌이켜볼 수 있다는 추억이 있다는 건 행복한 일이야\n나를 가장 나답게 만들어주었던 마이 페이보릿 시퀀스!\n\n“난 내가 싫어질 때 그 마음을 들여다 봐. \n아 지금 내가 나를 사랑할 수 없구나.”_ 영화 [벌새] 중\n\n본래 영화에 관심이 없었던 무궁화 작가가 영화를 그리기 시작한 것은 영화가 내 이야기로 느껴지기 시작한 순간부터였다. 남들 다 하는 취업 준비는 안 하고 자신이 좋아하는 족구에 열정을 쏟는 [족구왕]의 만섭이를 보면서 작가 또한 취업 준비 대신에 그림에 열중할 수 있는 용기를 얻었다. [걸어도 걸어도]의 료타를 보면서 엄마의 부탁을 미루고 있는 자신을 반성했고, [우리들]의 지아와 선을 보면서 대학 시절 절친했던 친구와 멀어진 관계를 이해하고 과거의 자신과 화해하게 되었다. 작가에게 영화는 고민을 털어놓는 상담소였고, 관계를 돌아보는 거울이었으며, 자신이 진정으로 무엇을 좋아하는지 말할 수 있는 기회이기도 했다. 영화는 그렇게 작가가 현재를 되돌아보고, 스스로의 삶을 영화의 한 장면처럼 만들어나가는 힘을 준 것이다. \n\n이 책에는 총 26편의 영화 명장면을 담은 일러스트와 에세이가 담겨 있다. 친구들과 자연에서 얻은 재료로 요리한 맛있는 음식을 먹으면서 도시에서 지친 마음을 달래는 [리틀 포레스트]의 혜원, 지루하게 반복되는 하루 속에서 일상의 사소한 변화들을 담아내며 시를 써내려가는 [패터슨]의 패터슨, 그리고 타인과는 다른 선택을 하고 방황을 하면서도 자신의 가치관을 지키기 위해서 고군분투하는 [소공녀]의 미소까지. 많은 사람이 인생 영화로 꼽는 영화들의 명장면을 통해 우리의 사소한 일상을 특별하게 그려낸 이야기들을 담았다. 작가가 담아낸 그림과 글, 영화 속 명대사들을 읽다 보면 나만의 시퀀스를 발견하고 행복한 순간을 다시금 떠올리는 계기가 될 것이다."
2,"책을 읽고 글을 쓰며 성장을 꿈꾸는 사람들의 진솔한 자기고백\n\n지금 이 순간을 살아가는 사람이라면 누구든 다음과 같은 고민을 갖고 있을 것이다.\n\n“오늘도…내일도…똑같은 제자리걸음의 삶을 살고 있는 것은 아닐까?”\n“나는 정말로 내가 원하는 나의 모습으로 살아가고 있을까?”\n“한 치 앞도 파악하기 어려운 불확실성 속에서 내 미래는 어떻게 전개될까?”\n\n특히 세상이 말하는 ‘어른’이 된 지 얼마 되지도 않은 것 같은데 취업하고, 결혼하고, 자녀를 낳아 양육하며 숨 가쁘게 일상을 살아 나가야 하는 사람들. 나를 돌아볼 여유도 없이 가정을 위해 모든 것을 희생하며 하루하루를 지내는 이 땅의 30대 후반~40대의 어머니, 아버지들이라면 누구나 이러한 고민을 해본 적이 있을 것이다.\n\n이 책 『책에 나를 바치다』는 책과 사람을 통해 그렇게 꼭꼭 숨겨 놓은 고민을 풀어 놓고, 공감 받고 공감해 주며, 사색과 긍정으로 순화하여 지속적인 성장을 꿈꾸는 사람들의 진솔한 자기고백이자 성장의 일기다.\n\n이 책에 참여한 ‘책·바·침’은 2018년 학부모들의 작은 책 읽기 프로젝트에서 시작하여 지금까지 평택 지역을 중심으로 활발한 활동을 전개 중인 독서모임이다. 책·바·침의 이름으로 참여한 아홉 명의 작가들은 나이도, 성별도, 현재의 위치도 각기 다르지만 쳇바퀴 돌 듯 같은 곳을 반복하는 일상에서 벗어나 성장하고 싶어 하고, 동시에 자신과 가족, 우리 사회에게 더 나은 미래를 위한 청사진을 독서를 통해 찾아 나가고 있는 사람들이다. \n책을 함께 읽고, 고민을 서로 듣고 눈물을 흘려주고, 언제나 긍정적인 대화로 서로를 충전하며 독서, 필사, 토론, 미라클모닝 훈련, 긍정훈련 등의 자기계발 기법을 통해 서로 간에 선한 영향력을 전파하는 것이 책·바·침 멤버들의 성장 모습이기도 하다.\n\n9명의 저자들이 39개의 이야기를 통해 들려주는 고민과 성장의 이야기는 어쩌면 작고 평범한 우리 모두의 이야기일지도 모른다. 하지만 오로지 앞만 보고 달려왔던 자신을 되돌아보고, 평행선을 달리듯 서로 이해할 수 없다고 생각해 왔던 남편, 아내, 자식과의 관계의 해법을 모색하고, 생활고와 격무 속에서도 자기 자신만을 위한 작은 노력을 시도하는 모습들. 이러한 모습들은 극한 경쟁 속에서 지쳐가는 현대 사회의 많은 이들에게 ‘나도 책을 통해서 변할 수 있다!’는 작지만 큰 희망을 선사해 줄 것이다.\n\n나의 변화는 책 덕분이었다(오현옥)\n넘어지면 누군가의 손을 잡아야만 일어날 수 있다고 의지했던 과거의 모습은 사라졌다. 다른 사람의 말에 휘둘리지 않고 진정한 나의 모습으로 살아가는 엄마이자 꿈 작가로서의 제2의 인생을 꿈꾼다.\n\n이제는, 나답게 살자(여동호)\n나는 나일뿐, 그 누구도 될 수 없다. 흉내만 내면 내 안의 조각품은 모조품이 될 뿐이다. 흉내만 내는 글을 쓰다, 이젠 손때 묻은 나의 글을 쓰려고 한다. 내 방식대로.\n\n독서가 필요해(김혜중)\n50대에 들어서며 나의 소망을 ‘성장’이라고 정했다. 성공을 바라보기엔 숨이 가쁘다는 느낌도 커서였겠지만, 이미 지나간 인생에서 이루어 놓은 게 없었기 때문이다. 자가발전 할 수 있는 게 무엇일까 하고 고민하던 종착점에서 찾은 결론이 책이었고 독서 모임이었다. 독서는 어떤 모습으로 나를 이끌고 성장시킬지 따라가 보련다.\n\n나약한 나도 무엇이든 도전할 수 있다(우기숙)\n난 항상 혼자이고 할 수 없는 게 많은 사람이라고 생각했다. 독서모임을 하면서 많은 책을 접하고 내가 할 수 있는 일, 내 주위 사람들을 둘러보게 된다. 나같이 어려움을 겪는 분들을 보면 조금이나마 도움(정보)을 주려고 노력을 한다.\n\n지금 행복하자(이어은)\n마흔에 책이라곤 안 읽던 내가 독서 모임을 시작했고 독서 모임을 하다 보니 좋아하는 것을 하면서 살고 싶어졌다. 행복하고 즐겁게 살고 싶어 ‘어은쓰 TV’란 이름으로 유튜브까지 시작하게 됐다. \n난 요즘 신세계에 빠져 있다.\n\n서툴러도 괜찮아(이유정)\n30살이 넘으면 단단하고 지혜로운 여자가 되어 있을 줄 알았다. 하지만 34살의 난 여전히 삶 속에서 쉽게 좌절하고 흔들린다. 뒤늦게 독서를 통해 서툴러도 조금씩 성장하고 있는 자신을 발견한다. 오늘도 어제보다 성장할 나에게 응원과 격려를 보낸다. \n\n독서로 제2의 인생을 살다(김진수)\n32살 때부터 독서를 하고, 36살 때부터 글을 쓰고, 37살 때부터 책을 썼다. 이제 독서 나이 10살, 글쓰기 나이 6살, 책 쓰기 나이 5살이 되어 보니 삶이란 것이 어떤 것인지 조금은 알게 되었다. 책에 나를 바쳐본 사람은 안다. 책이 나에게 주는 놀라운 힘을 말이다. \n\n사람은 무엇으로 변하는가?(임은희)\n별 의미도 없이 반복되는 따분한 나날에, 독서는 차츰 나의 삶을 즐기는 법을 가르쳐 주었다. 나 자신의 삶을 소중히 여길 줄 아는, 이미 전과는 다른 사람이 되어 있는 나!\n\nDream teller(정해광)\n현재 취미로 통기타를 치는 40대 직장인이다. 대학 1학년 때 취미로 통기타 동아리에 들어갔던 인연이 아직 이어지고 있다. 독서와 글쓰기도 이제 시작이다. 시작은 했으니 반은 한 셈이다. 통기타 치며 노래하는 독서&글 쓰는 사람이 되고 싶다.\n\n[출간후기]\n\n독서를 통해 성장하고자 하는 모든 분들의 앞길에 힘찬 행복에너지가 깃들기를 소망합니다!\n\n권선복 | 도서출판 행복에너지 대표이사\n\n세계적으로 선진국의 반열에 오른 대한민국은 그 어느 때보다 물질적으로 풍족할 뿐 아니라 많은 분야에서 앞서 가는 모습을 보여 주고 있습니다. 하지만 그와 동시에 눈코 뜰 새 없이 빠르게 흘러가는 사회 속에서 어떻게든 살아남기 위해 버둥대는 사람들은 지치고 소진되어 자기 자신을 돌아볼 여유조차 갖기 어려운 상황입니다. \n\n『책에 나를 바치다』는 독서 소모임 ‘책에 나를 바치다’(책·바·침)을 통해서 일상에 매몰되어 하루하루 그저 바쁘게만 살아 왔던 삶을 변화시키고 진정한 나를 되찾아 내면의 성장을 꿈꾸는 9명의 소중한 경험을 들려주고 있는 책입니다. \n9명의 저자들은 각각 다른 환경에서 다른 경험을 하며 다른 삶을 살아 온 사람들입니다. 하지만 “같은 책을 읽었다는 것은 사람들 사이를 이어 주는 끈이다.”는 미국의 시인 에머슨의 유명한 말처럼 같은 책을 읽고 이야기를 나누는 것은 자기 내면의 모든 것을 오롯이 풀어내어 타인과 소통할 수 있는 기회를 제공하고 반복되는 일상 속에 매몰된 ‘진짜 나’를 대면할 수 있도록 도와줍니다. 경청과 역지사지의 방법을 가르쳐 주고, 내면의 성장을 통해 새로운 삶을 꿈꿀 수 있도록 해줍니다.\n\n‘책에 나를 바치다’, 약칭 ‘책·바·침’은 2018년에 학부모들의 ‘100일 동안 33권의 책 읽기 프로젝트’로 첫걸음을 뗀 독서 모임입니다. “항상 목표를 가지고 열심히 노력하면 인생은 바뀐다.”라는 모토 아래 책을 읽고, 필사하고, 토론하고, 미라클 모닝과 긍정훈련 기법을 통해 내면의 잠재능력을 깨우고 서로에게 선한 영향력을 전파하기 위해 노력합니다.\n\n반복되는 일상, 가족에게 헌신하지만 동시에 ‘나’를 잃어가는 느낌, 내면의 부정적 감정을 제어하기 어렵다는 고민, 모든 일에 대한 의욕 상실과 번아웃…. 어쩌면 많은 이들이 공유하고 있을 어려움을 희망으로 바꾸어 나가는 책·바·침의 발걸음처럼 독서를 통해 성장하고자 하는 모든 분들의 앞길에 힘찬 행복에너지가 함께하시기를 소망합니다."
6,"‘모두를 위한 공정’이란 존재하는가?\n서로 다른 우리가 부당함과 마주하는 법\n〈90년생이 온다〉 저자 임홍택이 새 책 〈그건 부당합니다〉로 돌아왔다. 여전히 미스터리한 존재 취급당하는 요즘 세대를 보며 저자는 단순히 나이 차가 아닌, ‘공정과 부당함’이라는 좀 더 근본적인 영역으로 논쟁터를 옮겼다. 90년생을 넘어 새롭게 성인으로 편입된 00년생도 바라보았다. 지난 몇 년간 이들은 빠르게 사회 중심부로 퍼져나가며 목소리에 물리적 힘을 싣기 시작했다. 연이은 대형 선거들은 그들의 영향력을 더욱 키웠다.\n그런데 그들의 커진 목소리를 단순히 ‘관성에서 벗어나려는 청년 특유의 저항의지’ 정도로 해석해도 되는 걸까? ‘90~00년대 태어나 고된 사교육+공교육을 버텨내고, 80% 이상의 비율로 대학에 진학해 학위를 따고, 고된 취준생활을 거쳐 어렵게 사회에 진출하더니 이제는 고인물 기성세대를 곤란케 하는 청년들’ 정도로 단순 분류해도 되는 걸까? 그들이 각기 다른 모습으로 사회에 나와 ‘어 이거 좀 이상하다?’ 갸웃거리게 만든 한 가지 키워드. 바로 ‘부당함’이다. 생각 이상으로 불공정하게 돌아가고 있는 세상. 공정하다고 생각되는 것들이 오히려 불공정하다 치부되고, 참을 수 없을 정도로 부당한 어떤 사안에 대해 기성세대는 ‘현실적으로’ 그 정도면 괜찮다며 넘어가기도 한다. 도대체 뭐가 문제인 걸까? 내가 잘못된 건가, 네가 잘못된 건가?\n저자는 책을 통해 그간 우리가 찝찝해하면서도 그러려니 지나쳐왔던 수많은 반칙들을 되짚어보고, 특정 세대가 아닌 우리 사회 전체의 부당함에 대해서 꼬집는다. 들여다볼수록 그 많은 문제들의 원인이 ‘세대 차이’가 아닌 ‘원칙 차이’였음을 알게 된다.\n반칙하지 말자는 말이 그렇게나 이상한가요?\n나는 스포츠 경기에 적용되는 기본적 수준의 ‘공정’을 우리 사회에 접목시키려 노력해야 한다고 생각한다. 여기서 중요한 점 두 가지를 뽑자면, 첫 번째로 ‘반칙 없는 경쟁 과정’을 만들고, 두 번째로는 ‘계속 변화해나가야’ 한다는 것이다. 왜 애초에 공정이 우리 사회의 화두가 되었는지 생각해보자. 그것은 바로 필드에서 뛰는 당사자들이 ‘반칙 행위’를 신고했기 때문이다. 혹은 문제를 일으킨 특정 행위가 지금의 시대에 비추어 옳은지 혹은 옳지 않은지 제대로 규정되어 있지 않았기 때문이다.\n올림픽 경기에 뛰는 선수들은 출발선에 서서 ‘이 경기가 진짜로 공정하게 진행될까?’와 같은 고민을 하지 않는다. 그들은 단지 정해진 룰을 숙지하고 게임에 참여해 자신의 목표를 향해 내달릴 뿐이다. (중략) 하나의 언어로 공정을 정의하긴 어렵지만, 세상을 조금 더 공정하게 만드는 일은 충분히 가능하다. 그를 위해 가장 먼저 필요한 것은 나와 의견이 다른 상대방을 무조건 배척하지 않고 인정해야 하는 부분은 인정하는 것이다.\n- 맺음말 중에서"
9,"김종관 시인의 시 전체를 분별해 보면 몇 가지 특성을 눈치챌 수 있다. 평이한 진술을 통한 쉽게 읽혀지는 시, 자연을 관조하며 얻어진 어휘의 선택, 전원적이고 우주적인 상상력, 끊임없는 삶의 성찰 등 다양한 대상에 대한 관조와 비유가 독자들의 시선을 잡아끈다. 하지만 시인의 시에서 가장 지배적인 표현 방법은 자연과 조응하는 화자의 내면세계와의 교감이라 하겠다. 「봄의 전원」이라는 시의 발상은 곧 시인의 반짝이는 상상력과 내통한다. 겨우내 움츠렸던 식물들이 봄이 되면 파릇파릇 새순을 피우는 모습을 보며 시인은 능청스럽게도 ‘전원’이란 매개체를 동원해 “삽시간에 점화된 들판/초록의 피가 들끓”는다고 인식한다. 시인이 눈에 비치는 봄은 생성의 기운을 토해내는 ‘밝음’의 시작이다. 김종관 시인의 내면의 소리는 「퇴고」를 통해 낱낱이 고백된다. 「퇴고」는 글을 쓰는 사람이면 누구나 겪어야 할 자신과의 갈등을 주제로 다룬 작품이다. 시적 대상을 ‘호랑이’로 표현 하고 있는 그의 상상력에 독자들은 박수를 보내고 싶을 터다. 호랑이란 동물은 육식 동물 가운데 가장 용감하고 사나운 동물 아니던가. 시인 자신이 혈전을 펼쳐야 할 만큼 상대는 강인하다는 은유적 표현이 새삼 신선하다. 사납고 용맹한 호랑이가 시라 할 때, 시인이 넘어야 할 고비는 너무 많다. 특히 시적 표현이 눈에 띄는 이미지는 ‘예민한 호랑이’와 ‘지루한 호랑이’이다. 시인의 호기심은 발톱이 날카로운 호랑이를 사실상 겁내 하지 않는 재치를 보여준다. 혼자 즐기며 호랑이와 대적하는 여유를 부린다. 호랑이의 급소를 펜으로 찔러 놓고 “상처를 입은 것/호랑이일까 나일까” 하며 해학적 넋두리를 쏟아 놓기도 한다. “불을 켜서 생각을 읽어 보”는 그는 진정한 시인으로의 발돋움에 한 치 오차가 없다. 그러기에 그의 시가 네모 혹은 세모꼴로 찌그러져 있어도 앞으로 나갈 길은 밝기만 하다.\n_이명진(문학평론가)"
11,"▶〈2021 전국 주차장 주소록 CD〉란?\n전국 주차장 주소록을 총 13,191건을 수록했습니다. \n※엑셀 파일로 사용자가 편리하게 수정·편집·출력할 수 있습니다\n\n〈〈참고사항〉〉\n\n· 일부는 지번주소로 수록되어 있습니다.\n\n· 일부 조사되지 않은 항목은 빈칸으로 되어 있습니다.\n\n· 자료 조사에 최선을 다했으나, 자료 수집의 한계로 그 정확도가 제한될 수 있습니다.\n\n〈책임의 한계와 법적고지〉\n· 본 제품의 저작권 및 판권은 주식회사 한국콘텐츠미디어에 있으며 저작권법 및 소프트웨어법에 의해 보호받는 라이센스 저작물이므로 무단 복제 및 무단 전재를 금합니다.\n\n· 본 제품의 자료수집 한계로 인해 그 정확도가 일부 제한됨을 알려드립니다.\n\n· 본 제품을 활용하여 영리성 광고 정보전송을 하는 경우 정보이용촉진 및 정보보호등에 관한 법률 제 50조에 따른 준수사항을 반드시 지켜야 하며 이를 어길 경우 관련법에 따라 처벌받을 수 있습니다.\n\n· 본 제품 사용에 따른 결과 및 판단은 민형사를 포함한 일체가 전적으로 사용자(사)에게 책임이 있습니다.\n\n· 본 제품은 전자출판물로서 해당법령 및 실천요강을 준수합니다."
...,...
49992,"이 책은 지스트 대학생들의 갈라파고스 제도 탐사 노트를 보완하고 재구성한 작은 결과물로 생생한 탐사 활동을 통해 공부하며 생각하고 느낀 점들을 담고 있습니다. 이 책이 과학사에서 중요한 갈라파고스 제도나 현대 과학 및 생명과학의 초석인 진화생물학에 대해 알고 싶어 하는 학생들, 특히 지스트에 와서 공부하고 싶어 하는 예비 과학도들의 갈증을 조금이나마 풀어줄 수 있기를 기대합니다."
49993,"· 갑자기 캄캄해졌어요.\n“아무것도 안 보여요. 아이는 어둠 속에 혼자 있어요.”\n아이는 벽에 바짝 붙어 웅크리고 앉았어요. 그리고 기다렸죠.\n갑자기 엘리베이터가 뚝 떨어질까 봐 두려워요.\n금방 괜찮아질 거라고 자신을 타이릅니다.\n그러나 엘리베이터는 꼼짝하지 않고, 두려움은 온몸으로 퍼지기 시작합니다.\n엘리베이터를 두드리고 고함치지만 아무 소용이 없어요.\n· 엄마가 생각났어요\n아이는 자기를 기다리고 있을 엄마가 생각났어요.\n엄마는 엘리베이터를 혼자 타면 안 된다고 말했어요.\n그런데 아이는 서둘러야 했어요. 놀다가 시간이 늦어졌거든요.\n“엄마가 걱정하면 안 되잖아요”\n아이는 어둠 속에서 손을 더듬어 층 번호가 적힌 단추를 모두 눌렀어요.\n하지만 맨 아래 비상 단추는 누르지 않았어요.\n“엄마만 그 단추를 누를 수 있어요. 아이들은 누르면 안 된댔어요.”\n· 커다란 구덩이에 빠진 것 같아요\n“달려! 마음속에서 어떤 목소리가 소리쳤어요. 하지만 달릴 수 없어요.”\n엘리베이터 공간은 점점 비좁아집니다. 움직일 수 없고 숨을 쉴 수도 없습니다.\n“영원히 못 나가면 어쩌죠?”\n아이의 두려움은 점점 커집니다.\n배가 아프고 피부도 따끔거려요.\n아이는 손으로 벽을 두드리며 울부짖습니다.\n“아이는 금지된 단추를 찾고 있어요. 아이들은 누르면 안 되는 그 단추.”\n그러나 그 단추를 누를 수 없어요.\n갑자기 엘리베이터가 폭발하면 어쩌죠?\n아이가 알 수 없는 어떤 일이 벌어질까 봐 단추를 누를 수 없어요.\n· 누군가 아이의 손을 잡았어요\n“아빠.”\n두려운 순간이 오면 아이들은 자신의 행동을 탓하거나 자신의 탓이라고 자신을 벌주려 하기도 합니다. 책은 두려움을 이겨내는 것은 행복한 기억, 그리고 용기라고 이야기합니다.\n아이는 두려움이 최고의 상태가 된 순간, 지금은 곁에 없지만, 사랑하는 아빠를 떠올립니다. 아빠와 행복했던 기억을 떠올리고 아빠와 나누었던 이야기를 생각해 냅니다.\n두려움의 공간은 이내 아빠와 함께 던 숲속으로 변합니다. 행복했던 기억의 공간을 걸으며, 길을 찾습니다. 곧 두려운 시간이 끝나고 새로운 시간이 아이를 맞이하리란 걸 압니다."
49994,"간찰 속 다양한 생활 모습\n그림값을 요구하고, 슬픔을 달래주고...\n추사 김정희로부터 ‘압록강 동쪽에서 최고의 솜씨’로 인정받은 소치 허련은 호남 문인화의 비조이며, 헌종의 부름을 받아 궁궐에서 그림을 그려 올려 극찬을 받은 인물이다. 그런 그가 해남 향리에게 속마음을 적나라하게 내비친 편지를 보냈다.\n“… 폐일언하고 객지에서 수족을 마음대로 하는 일이 과연 어렵습니다. 그에 구애받지 말고 10량을 주시면 어떻겠습니까? 저는 이 돈이 없으면 보존하기가 어렵지만, 당신은 이 돈이 없어도 축이 나지 않을 것 같으니 이름에 맞게 의리를 생각해주시면 어떻겠습니까?…” -99쪽.\n조선 후기의 대표적 화가 소치 허련은 김정희, 권돈인, 흥선대원군, 민영익 등 명류들과 폭넓게 교유 관계를 가지며 당대에 이미 명성이 자자했다. 그림 솜씨는 두말할 나위도 없을 정도다.\n하지만 해남의 한 향리가 그에게 그림을 부탁하고 그림값을 제대로 치르지 않았던 모양이다. 그림값을 제대로 쳐달라는 소치 허련의 요구는 굉장히 노골적이다. 그가 살았던 시대는 그림 그리는 일만으로는 생활을 영위해 나가기가 어려웠다.\n『이재난고』의 저자 이재 황윤석과 송상은은 열세 살 차이지만 한 스승 아래서 과거 공부를 함께하고, 서로 학문을 강론하는 벗이었다. 돌림병과 굶주림으로 인해 친구 송상은이 세상을 떠났지만 돌림병이 가라앉지 않아 황윤석은 조문을 가지 못하고 그 아들들에게 위로의 편지를 보냈다. 위장 또는 조장이라고도 하는 이 조문 편지에는 벗과의 교유 관계가 그려지고 있다. 죽은 사람을 애도하는 글은 깊은 감동과 슬픔을 자아낸다.\n이 외에도 여러 간찰이 소개되고 있는데, 동생이 형에게 보내는 편지에서(신현의 편지), 아비가 아들에게 보낸 편지에서(연암 박지원의 간찰과 소치 허련의 간찰), 스승이 제자에게 보낸 편지(노사 기정진의 간찰) 등에서 조선시대 다양한 생활 모습을 살펴볼 수 있다.\n집안의 최고 경사, 과거 합격\n재산을 물려받기도 했지만, 빚도 져야 했던...\n두 건의 대비되는 고문서가 눈길을 끈다. 둘 다 온 집안의 경사인 과거 급제와 관련 있는 문서다. 소과를 거쳐 대과에 급제하는 일은 양반이라면 누구나 꿈꾸는 바람이지만, 결코 쉽지 않은 일이다. 평생 과장(科場)에만 출입할 뿐 합격의 영예를 누리지 못한 양반도 많다. 기껏해야 소과에 합격하여 생원이나 진사가 되는 것이 고작이고, 대과에 합격하여 관리로 임용되는 것은 그야말로 하늘의 별따기다. 그러니 대과에 합격하면 본인은 물론이고 가문과 문중의 크나큰 영광이고 경사였다. ‘삼일유가’라 하여 사흘간 스승과 선배들을 찾아다니며 인사를 하고 거리에서 풍악을 울렸으며, ‘도문연’이라 하여 친지들과 지역 유명 인사들을 초청하여 잔치를 베풀었다.\n이 도문연을 벌이기 위해 전라도 보성 양반 임장원은 문중에서 논을 빌려 팔아 빚을 지고 그 빚을 갚겠다는 ‘과채 수기(科債手記)’를 썼고, 영광 양반 신응망은 이 도문연에서 어머니로부터 과거 합격을 축하받으며 재산을 상속해준다는 별급문기를 받았다.\n양반에게 과거 합격의 의미가 얼마나 큰지, 또 빚을 지고서라도 잔치를 크게 벌여야 했던 현실, 집안과 가문을 빛낸 과거 합격자에게 미리 재산을 떼주는 모습까지 고문서가 알려주는 정보는 생생하다.\n영조의 어필 정치, 정조의 비답 정치\n고문서 속에 나타난 영·정조의 정치\n영·정조 시대는 이야깃거리가 무궁무진하다. 이 책에서 주목하는 것은 영조가 세손 및 여러 신하들과 함께 운자에 맞춰 시를 짓고 화답하여 만든 『어제갱진첩』, 그리고 정조가 홍문교 교리 이동직의 상소에 대해 친필로 비답한 문서이다.\n1770년 영조는 『중용』 읽기를 마친 세손과 16명의 신하들과 함께 갱재(?載), 즉 시를 이어 지으며 화답하는 자리를 가졌다. 영조가 먼저 ‘중(中)’ 자 운으로 “孫仝講一堂中(할아비와 손자가 한곳에서 공부를 하네)”라고 하니, 세손이 “聖誨欣承一部中(성스러운 가르침이 기꺼이 한 부의 중용에 있네)”라고 화답하였다. 이어 채제공 등 여러 신하들도 갱재하였다. 자리가 파한 뒤 영조는 함께 시를 지은 신하들에게 글씨첩을 만들어 나눠 주었다. 어필을 받은 신하들이 얼마나 감격했을지 짐작된다. 『어제갱진첩』에 보이는 영조의 글씨는 노쇠하고 병약한 말년의 글씨인데, 부드럽지만 강인한 느낌을 준다.\n영조는 기회만 되면 신하들에게 어필 시를 비롯하여 갱재시를 첩으로 만들어 하사하였다. 행사 자리의 시종신들에게 어필을 하사함으로써 그것을 받은 신하들의 충성심을 끌어낸 셈이다. 저자는 이를 가리켜 ‘어필 정치’라 하였다.\n호학 군주로 알려진 정조는 신하들이 올리는 상소나 차자에 일일이 꼼꼼하게 비답을 내렸다. 홍문관 교리 이동직의 상소에 대해 직접 쓴 비답은 폭 37cm, 길이 240cm, 1,100여 자에 이르는 장문이다. 하루에도 수십 건씩 상소나 차자가 올라오는데, 그중에서 정치적 함의가 짙은 것은 직접 답변을 썼다. 정조는 이동직이 문체를 빌미로 정치적 반대 세력을 제거하려 한다 생각했고, 이를 엄히 꾸짖는 비답을 내렸다. 『정조실록』과 『홍재전서』에서는 빠지고 친필 비답에만 있는 정조의 비판은 아주 맹렬하다.\n정조는 비답뿐만 아니라 신하들에게 편지를 많이 쓴 것으로도 유명하다. 벽파의 영수 심환지에게 4년간 350여 통의 밀찰을 보냈으니 1년에 거의 100통 가까이 편지를 쓰고, 그 밖에 남인의 영수 채제공에게도 비밀 편지를 보냈다. 저자는 정조의 이러한 정치를 ‘비답 정치’라 하고, 그의 갑작스런 죽음에 ‘과로’도 큰 영향을 미쳤을 것이라 본다.\n【편집자 노트】\n그림 또는 공예품 전시회를 관람하거나 박물관엘 다녀오면 너무 많이 본 탓에 간혹 무엇을 보았는지 헷갈릴 때가 있다. 이 책의 저자도 학생 시절 사찰 답사를 다닐 때 너무 많은 사찰을 둘러봐서 어느 절이 어느 절인지 구별이 안 될 정도였다는 말을 했다(136쪽). 누군가 내게 이런 말을 한 적이 있다. 모든 것을 마음속에 다 담아내지 못한다면 마음을 끌어당기는 서너 점만 떠올려보라고...\n이 책에 소개되는 간찰과 고문서는 하나같이 귀하고 음미해볼 만한 자료들이다. 거기에 담긴 이야기도 흥미롭고, 역사를 공부하는 재미가 느껴진다. 하나도 허투루 넘길 수 없다. 그럼에도 불구하고 세 가지만 꼽으라면 다음을 말하겠다.\n1. 연암 박지원의 간찰(1장 「기운생동, 연암의 글씨」 34~43쪽)\n2. 소치 허련의 간찰(2장 「소치의 그림값」 98~107쪽)\n3. 초의 선사가 그린 〈다산초당도〉(3장 「연담 선사를 그리며」 180쪽)\n연암 박지원이 아들에게 보낸 간찰은 저자가 그의 글씨를 ‘기운생동’이라 표현했듯이 그 진본을 보는 즐거움이 있고, 집안을 챙기는 아버지의 살뜰한 마음을 느낄 수 있어 좋다. 또, 그의 문도인 박제가를 ‘망상무도’하다며 신랄하게 비난하면서도, 전혀 거리끼지 않고 그들에게 자신의 편지를 내보이라는 말까지 한다. 솔직하다. 문도에 대한 신뢰가 아니면 할 수 없는 말이다.\n소치 허련은 그림으로 워낙 유명한 인물이다. 산수화의 대가이지만 화업만으로는 먹고살기 힘들었던 상황이 간찰에 고스란히 나타나 있다. 해남 향리에게 그림값을 노골적으로 요구하고, 사흘 뒤 그 그림값을 받은 뒤에는 돈과 함께 받은 술을 ‘신선의 물’이라 비유하는 답장까지 써서 보낸다. 당시 전업 화가의 곤궁한 처지를 짐작할 수 있는 간찰이다. 그림 뒤에 숨겨진 또 다른 생활 모습이다.\n전남 강진에 있는 다산초당은 다산 정약용이 유배 시절 머물렀던 곳으로, 현재 사적으로 지정되어 관리되는 유적이다. 이름은 짚으로 엮은 초가집, 곧 초당인데 현재 모습은 기와집이다. 그래서 이상했다. 초의 선사가 다산 정약용에게 그려준 〈다산초당도〉는 확실히 초가집으로 표현되어 있다(180쪽). 옆에는 네모난 연못도 그대로 묘사되어 있다. 허름한 이 집에서 실학을 집대성하고 강진만의 바다를 바라보았을 대학자를 상상해본다.\n이 책을 읽는 독자는 무엇이 가장 마음에 와닿을까?"
49996,"공간제약?예산부족, 독리버의 고민을 해결하는 내 집 꾸미기\n누구나 예쁜 집에서 살고 싶어 한다. 나아가 예쁘면서도 크기에 맞춰 최적의 공간으로 꾸미고 싶어 한다. 특히 대부분이 작은 공간에서 사는 1인 가구 독리버는 공간이 좁은 만큼 그런 열망이 더욱 크다. 열망 이전에 좁은 공간인 만큼 불편함을 느끼지 않으려면 잘 꾸미는 일이 필요하기도 하다.\n하지만 예쁜 집에서 살고 싶은 욕구가 커도 실제 집을 예쁘게 꾸미기는 쉽지 않다. 대부분 독리버가 집 꾸미기를 어디서부터 어떻게 해야 할지 모르기 때문이다. 설령 꾸미기에 도전했더라도 어설펐다가는 결과는 딴판일 수도 있다. 더구나 1인 가구는 의욕만 앞설 뿐 적은 예산, 공간의 제약이라는 현실의 벽이 가로막고 있다.\n이런 1인 가구 독리버들의 고민을 해결하기 위해 이 책이 나왔다. 거의 최초이다시피 ‘온라인 공간 컨설팅’이란 서비스를 해온 저자는 수많은 독리버들의 이런 고민을 접했고, 컨설팅을 통해 문제를 말끔히 해소해 주었다. 저자는 그러면서 혼자서 집을 꾸미도록 도와주는 책의 필요성을 절감했고, 독리버들에게 도움이 되고자 1인 가구 주거 형태에 집중하여 이 책을 펴냈다.\n하고 싶은 일이 되는 집 꾸미기로 나만의 편안한 집을\n집을 꾸미는 일만큼은 ‘해야 하는 일’이 아닌 ‘하고 싶은 일’이 되었으면 좋겠다는 저자는 자신의 공간과 스스로에 관심과 애정을 가진다면 단순히 SNS에서 보이던 예쁜 집이 아닌 나를 품어주는 편안한 집을 완성할 수 있다고 말한다. 그러면서 독리버들의 집 꾸미기에 필요한 꿀팁만을 담은 이 책이 예쁘고 편안한 나만의 보금자리를 만드는 데 도움이 되기를 바란다고 밝힌다."


In [22]:
pd.reset_option('all')

  pd.reset_option('all')
  pd.reset_option('all')


In [2]:
x = pd.read_csv("/content/drive/MyDrive/aiffel_final_project/data_renew/x_review.csv")

In [3]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20844 entries, 0 to 20843
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ISBN         20844 non-null  int64 
 1   product_url  18937 non-null  object
dtypes: int64(1), object(1)
memory usage: 325.8+ KB


In [5]:
x['product_url'].iloc[:5]

Unnamed: 0,product_url
0,https://product.kyobobook.co.kr/detail/S000001...
1,https://product.kyobobook.co.kr/detail/S000061...
2,https://product.kyobobook.co.kr/detail/S000001...
3,https://product.kyobobook.co.kr/detail/S000001...
4,


In [2]:
!pip install selenium
!apt-get update
!apt-get install -y chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

Collecting selenium
  Downloading selenium-4.29.0-py3-none-any.whl.metadata (7.1 kB)
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.29.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Downloading selenium-4.29.0-py3-none-any.whl (9.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.5/9.5 MB[0m [31m53.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading trio-0.29.0-py3-none-any.whl (492 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m492.9/492.9 kB[0m [31m29.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading trio_websocket-0.12.2-py3-none-any.whl (21 kB)
Downloading outcome-1.3.0.post0-py2.py3-

In [17]:
import os
import time
import random
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

# CSV 저장 경로 설정
save_path = "/content/drive/MyDrive/aiffel_final_project/data_renew/x_publish_review.csv"

# CSV 파일이 존재하면 불러오기, 없으면 기존 데이터셋을 사용(예: original_data.csv로부터)
if os.path.exists(save_path):
    x = pd.read_csv(save_path)
    print(f"CSV 파일 로드됨: {save_path}")
else:
    # 여기에 원본 데이터를 불러오는 코드를 작성합니다.
    # 예: x = pd.read_csv("/content/drive/MyDrive/aiffel_final_project/data/original_data.csv")
    raise FileNotFoundError(f"CSV 파일이 {save_path}에 존재하지 않습니다. 원본 데이터를 먼저 불러오세요.")

# Selenium 설정 (Chrome headless 모드)
chrome_options = Options()
chrome_options.add_argument("--headless")           # 헤드리스 모드
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--disable-gpu")
driver = webdriver.Chrome(options=chrome_options)

def extract_book_details(url):
    """
    주어진 URL에 접속 후, '추천사'와 '출판사리뷰' 데이터를 추출하여 반환합니다.

    추천사:
      - 'product_detail_area book_recommend' 클래스가 존재하면,
        <ul class="recommend_list"> 내부의 각 <li class="recommend_item">에서
        추천 매체명과 추천 텍스트를 "매체명 : 추천 텍스트" 형식으로 추출 후 줄바꿈(\n)으로 연결.
      - 없으면 None 반환.

    출판사리뷰:
      - 'product_detail_area book_publish_review' 클래스가 존재하면,
        내부의 <p class="info_text">의 텍스트를 추출.
      - 없으면 None 반환.
    """
    # 랜덤 딜레이 (1 ~ 2초)
    time.sleep(random.uniform(1, 2))

    driver.get(url)
    time.sleep(1)  # 페이지 로드 대기
    html = driver.page_source
    soup = BeautifulSoup(html, "html.parser")

    # 추천사 추출
    recommend_text = None
    recommend_section = soup.find("div", class_="product_detail_area book_recommend")
    if recommend_section:
        ul = recommend_section.find("ul", class_="recommend_list")
        if ul:
            rec_items = ul.find_all("li", class_="recommend_item")
            rec_list = []
            for item in rec_items:
                source_tag = item.find("a", class_="title_heading fc_spot type_link")
                source = source_tag.get_text(strip=True) if source_tag else ""
                info_tag = item.find("p", class_="info_text")
                info = info_tag.get_text(strip=True) if info_tag else ""
                if source or info:
                    rec_list.append(f"{source} : {info}")
            if rec_list:
                recommend_text = "\n".join(rec_list)

    # 출판사리뷰 추출
    publish_review_text = None
    publish_section = soup.find("div", class_="product_detail_area book_publish_review")
    if publish_section:
        p_tag = publish_section.find("p", class_="info_text")
        if p_tag:
            publish_review_text = p_tag.get_text(separator="\n", strip=True)

    return recommend_text, publish_review_text

CSV 파일 로드됨: /content/drive/MyDrive/aiffel_final_project/data_renew/x_publish_review.csv


In [None]:
# 시작 인덱스 지정 (원하는 경우 조정)
start_index = 4326

# '추천사'와 '출판사리뷰' 컬럼이 없으면 추가
if '추천사' not in x.columns:
    x['추천사'] = None
if '출판사리뷰' not in x.columns:
    x['출판사리뷰'] = None

# product_url이 존재하고, 아직 '추천사'와 '출판사리뷰'가 채워지지 않은 행 선택 (start_index 이상)
mask = x['product_url'].notnull() & x['추천사'].isnull() & x['출판사리뷰'].isnull() & (x.index >= start_index)
target_indices = x[mask].index.tolist()

print(f"전체 처리 대상 개수 (인덱스 {start_index}부터): {len(target_indices)}")

batch_size = 10
total = len(target_indices)
processed_count = 0

for i in range(0, total, batch_size):
    batch_indices = target_indices[i:i+batch_size]
    print(f"배치 {i//batch_size+1} 처리 중 (총 {len(batch_indices)}개)...")
    for idx in batch_indices:
        url = x.loc[idx, 'product_url']
        rec_text, pub_review = extract_book_details(url)
        x.loc[idx, '추천사'] = rec_text
        x.loc[idx, '출판사리뷰'] = pub_review
        processed_count += 1
        print(f"인덱스 {idx} | URL: {url} -> 추천사: {rec_text}, 출판사리뷰: {pub_review}")

        # 300번 처리마다 CSV 파일 저장
        if processed_count % 300 == 0:
            x.to_csv(save_path, index=False)
            print(f"Processed {processed_count} rows. CSV 저장됨: {save_path}")

    print(f"배치 {i//batch_size+1} 처리 완료, 다음 배치 전 1초 대기...")
    time.sleep(1)

# 최종 저장
x.to_csv(save_path, index=False)
print(f"모든 데이터 처리 완료. CSV 저장됨: {save_path}")

driver.quit()

전체 처리 대상 개수 (인덱스 4326부터): 15018
배치 1 처리 중 (총 10개)...
인덱스 4326 | URL: https://product.kyobobook.co.kr/detail/S000200313130 -> 추천사: None, 출판사리뷰: None
인덱스 4327 | URL: https://product.kyobobook.co.kr/detail/S000001039439 -> 추천사: None, 출판사리뷰: None
인덱스 4328 | URL: https://product.kyobobook.co.kr/detail/S000201279358 -> 추천사: 유선식
                                ((전)인천광역시강화교육지원청 교육장) : “글이나 그림으로 자신을 표현할 수 있다는 것은 커다란 능력이다. 여기 『강화 아이들이 만든 두근두근 강화 이야기』 그림책이 있다. 이 책에는 강화 합일초등학교 학생들이 가진 배움의 힘과 미래를 주도적으로 만들어 나갈 수 있는 역량이 담겨 있다.”
조선미
                                (인천광역시교육청 세계시민교육과 장학관) : “이토록 멋진 우리 마을! 한 사람 한 사람의 자기 주체성을 형성하는 일, 자신을 만들어가는 일 혹은 살아가는 힘을 키우는 일은 자신과 가까운 사람과 함께, 자신과 가까운 곳에서 더 효과적으로 이루어질 수 있다. 내 주변의 가까운 이웃과 내가 살고 있는 지역은 배움의 도반이 된다. 학생들에게 마을은 배움의 공간이다. 마을을 발견하고 새롭게 만들어가는 일이 이 그림책에서 펼쳐지고 있다.”
한상준
                                (사우디아라비아 젯다한국국제학교장) : “‘눈길 함부로 걷지 마라, 오늘 걸어간 발자국이 뒷사람의 여정이 될지니.’ 마을 교육운동의 성지 ‘강화’에서 선도적으로 마을 교육활동을 실천해 온 합일초 선생님들과 마을 공동체의 주인공으로 우뚝 선 합일초 어린이들이 만든 『강화 아이들이 만든 두근두근 강화

In [24]:
import time
import random
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

# Selenium 설정 (Chrome headless 모드)
chrome_options = Options()
chrome_options.add_argument("--headless")           # 헤드리스 모드
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--disable-gpu")
driver = webdriver.Chrome(options=chrome_options)

def extract_book_details(url):
    """
    주어진 URL에 접속 후, '추천사'와 '출판사리뷰' 데이터를 추출하여 반환합니다.

    추천사:
      - 'product_detail_area book_recommend' 클래스가 존재하면,
        <ul class="recommend_list"> 내부의 각 <li class="recommend_item">에서
        추천 매체명과 추천 텍스트를 "매체명 : 추천 텍스트" 형식으로 추출 후 줄바꿈(\n)으로 연결.
      - 없으면 None 반환.

    출판사리뷰:
      - 'product_detail_area book_publish_review' 클래스가 존재하면,
        내부의 <p class="info_text">의 텍스트를 추출.
      - 없으면 None 반환.
    """
    # 랜덤 딜레이 (1 ~ 2초)
    time.sleep(random.uniform(1, 2))

    driver.get(url)
    time.sleep(1)  # 페이지 로드 대기
    html = driver.page_source
    soup = BeautifulSoup(html, "html.parser")

    # 추천사 추출
    recommend_text = None
    recommend_section = soup.find("div", class_="product_detail_area book_recommend")
    if recommend_section:
        ul = recommend_section.find("ul", class_="recommend_list")
        if ul:
            rec_items = ul.find_all("li", class_="recommend_item")
            rec_list = []
            for item in rec_items:
                source_tag = item.find("a", class_="title_heading fc_spot type_link")
                source = source_tag.get_text(strip=True) if source_tag else ""
                info_tag = item.find("p", class_="info_text")
                info = info_tag.get_text(strip=True) if info_tag else ""
                if source or info:
                    rec_list.append(f"{source} : {info}")
            if rec_list:
                recommend_text = "\n".join(rec_list)

    # 출판사리뷰 추출
    publish_review_text = None
    publish_section = soup.find("div", class_="product_detail_area book_publish_review")
    if publish_section:
        p_tag = publish_section.find("p", class_="info_text")
        if p_tag:
            publish_review_text = p_tag.get_text(separator="\n", strip=True)

    return recommend_text, publish_review_text

In [None]:
# 시작 인덱스 지정 (예: 0부터)
start_index = 0

# x DataFrame에 '추천사'와 '출판사리뷰' 컬럼 추가 (없으면)
if '추천사' not in x.columns:
    x['추천사'] = None
if '출판사리뷰' not in x.columns:
    x['출판사리뷰'] = None

# product_url이 존재하고, 아직 '추천사'와 '출판사리뷰'가 채워지지 않은 행 선택 (start_index 이상)
mask = x['product_url'].notnull() & x['추천사'].isnull() & x['출판사리뷰'].isnull() & (x.index >= start_index)
target_indices = x[mask].index.tolist()

print(f"전체 처리 대상 개수 (인덱스 {start_index}부터): {len(target_indices)}")

batch_size = 10
total = len(target_indices)
processed_count = 0

for i in range(0, total, batch_size):
    batch_indices = target_indices[i:i+batch_size]
    print(f"배치 {i//batch_size+1} 처리 중 (총 {len(batch_indices)}개)...")
    for idx in batch_indices:
        url = x.loc[idx, 'product_url']
        rec_text, pub_review = extract_book_details(url)
        x.loc[idx, '추천사'] = rec_text
        x.loc[idx, '출판사리뷰'] = pub_review
        processed_count += 1
        print(f"인덱스 {idx} | URL: {url} -> 추천사: {rec_text}, 출판사리뷰: {pub_review}")

        # 300번 처리마다 CSV 파일 저장
        if processed_count % 300 == 0:
            save_path = "/content/drive/MyDrive/aiffel_final_project/data_renew/x_publish_review.csv"
            x.to_csv(save_path, index=False)
            print(f"Processed {processed_count} rows. CSV 저장됨: {save_path}")

    print(f"배치 {i//batch_size+1} 처리 완료, 다음 배치 전 1초 대기...")
    time.sleep(1)

driver.quit()

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
배치 101 처리 완료, 다음 배치 전 1초 대기...
배치 102 처리 중 (총 10개)...
인덱스 1110 | URL: https://product.kyobobook.co.kr/detail/S000001827700 -> 추천사: None, 출판사리뷰: None
인덱스 1111 | URL: https://product.kyobobook.co.kr/detail/S000001835113 -> 추천사: None, 출판사리뷰: None
인덱스 1112 | URL: https://product.kyobobook.co.kr/detail/S000001039390 -> 추천사: None, 출판사리뷰: None
인덱스 1113 | URL: https://product.kyobobook.co.kr/detail/S000001173064 -> 추천사: None, 출판사리뷰: None
인덱스 1114 | URL: https://product.kyobobook.co.kr/detail/S000001949908 -> 추천사: None, 출판사리뷰: None
인덱스 1115 | URL: https://product.kyobobook.co.kr/detail/S000061695315 -> 추천사: None, 출판사리뷰: None
인덱스 1116 | URL: https://product.kyobobook.co.kr/detail/S000200087257 -> 추천사: None, 출판사리뷰: None
인덱스 1117 | URL: https://product.kyobobook.co.kr/detail/S000200485279 -> 추천사: None, 출판사리뷰: None
인덱스 1118 | URL: https://product.kyobobook.co.kr/detail/S000000903003 -> 추천사: None, 출판사리뷰: None
인덱스 1119 | URL: https://product.kyobobook