# 베스트셀러 및 비베스트셀러 데이터 정제

## 절차
1. 베스트셀러 통합 및 정제
2. 베스트셀러/비베스트셀러 분리 및 샘플링

## 1. 베스트셀러 통합 및 정제
- 불필요 컬럼 삭제
- 플랫폼별 베스트셀러 횟수 생성
- total_best = 0 인 도서 확인

In [1]:
import pandas as pd

df = pd.read_csv('서울도서관_15차정제.csv')

  df = pd.read_csv('서울도서관_15차정제.csv')


In [2]:
df.drop(['STRUCT_YN', 'CLASS_NO_NORMALIZED'], axis=1, inplace=True)

In [3]:
df['total_best'] = df['kyobo_best'] + df['aladin_best'] + df['yes24_best'] + df['yp_best']

In [None]:
df[df['total_best'] == 0]

In [8]:
df.to_csv('서울도서관_16차정제.csv', index=False)

## 2. 베스트셀러 / 비베스트셀러 분리 및 샘플링
- 베스트셀러: best_count > 0
- 비베스트셀러: best_count == 0
- 베스트셀러의 CLASS_NO 분포 확인 후 동일한 비율로 비베스트셀러 랜덤 추출

In [1]:
import pandas as pd

df = pd.read_csv('서울도서관_17차정제.csv')

  df = pd.read_csv('서울도서관_17차정제.csv')


In [4]:
df.drop(['STRUCT_YN', 'CLASS_NO_NORMALIZED'], axis=1, inplace=True)

In [None]:
# 1. 베스트셀러만 필터링
bestsellers = df[df['best_count'] > 0]

# 2. 비베스트셀러만 필터링
non_bestsellers = df[df['best_count'] == 0]

# 3. 베스트셀러의 CLASS_NO 분포
bestseller_counts = bestsellers['CLASS_NO'].value_counts()

# 4. 비베스트셀러에서 같은 CLASS_NO 비율로 랜덤 추출
sampled_non_bestsellers = pd.DataFrame()
for class_no, count in bestseller_counts.items():
    class_group = non_bestsellers[non_bestsellers['CLASS_NO'] == class_no]
    sampled = class_group.sample(n=min(count, len(class_group)), random_state=42)
    sampled_non_bestsellers = pd.concat([sampled_non_bestsellers, sampled])

sampled_non_bestsellers.reset_index(drop=True, inplace=True)
sampled_non_bestsellers.head()

In [9]:
sampled_non_bestsellers.to_csv('비베스트셀러_랜덤.csv', index=False)

In [12]:
bestsellers.to_csv('베스트셀러_통합.csv', index=False)

In [10]:
df.to_csv('서울도서관_18차정제.csv', index=False)

# 베스트셀러 및 비베스트셀러 키워드 수집
- 정보나루 api 사용

## 1. 베스트셀러 키워드 수집
- 베스트셀러_통합.csv → ISBN 목록 생성
- ISBN별 최대 20개 키워드 요청 후 수집

In [40]:
data = asd.json()
data

{'response': {'request': {'additionalYN': 'N'},
  'resultNum': 50,
  'items': [{'item': {'word': '건강', 'weight': '44'}},
   {'item': {'word': '사람', 'weight': '27'}},
   {'item': {'word': '인생', 'weight': '25'}},
   {'item': {'word': '성격', 'weight': '13'}},
   {'item': {'word': '지침', 'weight': '11'}},
   {'item': {'word': '이혼', 'weight': '10'}},
   {'item': {'word': '연구', 'weight': '10'}},
   {'item': {'word': '수명', 'weight': '9'}},
   {'item': {'word': '이유', 'weight': '9'}},
   {'item': {'word': '터먼', 'weight': '9'}},
   {'item': {'word': '결혼', 'weight': '7'}},
   {'item': {'word': '행복', 'weight': '7'}},
   {'item': {'word': '프로젝트', 'weight': '7'}},
   {'item': {'word': '죽음', 'weight': '7'}},
   {'item': {'word': '추적', 'weight': '6'}},
   {'item': {'word': '스트레스', 'weight': '6'}},
   {'item': {'word': '의미', 'weight': '6'}},
   {'item': {'word': '성공', 'weight': '5'}},
   {'item': {'word': '대학', 'weight': '5'}},
   {'item': {'word': '통념', 'weight': '5'}},
   {'item': {'word': '박사', 'weigh

In [49]:
words = [item['item']['word'] for item in data['response']['items'][:20]]

print(words)

['건강', '사람', '인생', '성격', '지침', '이혼', '연구', '수명', '이유', '터먼', '결혼', '행복', '프로젝트', '죽음', '추적', '스트레스', '의미', '성공', '대학', '통념']


In [None]:
import pandas as pd
import requests
import time  # API 과부하 방지용
from tqdm import tqdm  # 진행률 보기 (optional)

# CSV 파일 불러오기
df = pd.read_csv('베스트셀러_통합.csv')

# 중복과 결측치 제거한 ISBN 리스트
isbn_list = df['ISBN']

# 결과 저장할 리스트
rows = []

# tqdm은 루프 진행 상황을 보여줘서 편해 (없어도 동작은 문제없음)
for isbn in tqdm(isbn_list, desc="키워드 수집 중"):
    url = f'http://data4library.kr/api/keywordList?authKey=cdb76eca0501d04b153ec0411bb0c7b8b257977c77b8750a13e60dfa828c1836&isbn13={isbn}&additionalYN=N&format=json'
    
    try:
        response = requests.get(url, timeout=5)
        data = response.json()
        
        if 'response' in data and 'items' in data['response']:
            items = data['response']['items'][:20]
            keywords = [item['item']['word'] for item in items]
            
            for word in keywords:
                rows.append({'ISBN': isbn, '키워드': word})
        else:
            # 키워드 없을 때 빈 행 하나 추가하거나 생략 가능
            continue
            
        time.sleep(0.2)  # API 과부하 방지 (200ms)

    except Exception as e:
        print(f"{isbn} 처리 중 오류 발생: {e}")
        continue

# 결과를 데이터프레임으로 변환
result_df = pd.DataFrame(rows)

# 미리보기
print(result_df.head())

# 저장
result_df.to_csv('isbn별_키워드_목록_부분저장.csv', index=False)

키워드 수집 중: 100%|██████████| 9804/9804 [55:22<00:00,  2.95it/s]  

Empty DataFrame
Columns: []
Index: []





In [None]:
import pandas as pd
import requests
import time
from tqdm import tqdm

# 1. 원본 ISBN 목록 불러오기
df = pd.read_csv('베스트셀러_통합.csv')

# ISBN 컬럼 정리 (하이픈 제거하고 문자열로 변환)
df['ISBN'] = df['ISBN'].astype(str).str.replace('-', '')
isbn_list = df['ISBN'].dropna().unique()
isbn_list = [isbn for isbn in isbn_list if len(isbn) == 13]  # 13자리 ISBN만 사용

# 2. 이미 처리한 ISBN 불러오기 (부분 저장된 파일 기준)
try:
    prev_df = pd.read_csv('isbn별_키워드_목록_부분저장.csv')
    processed_isbns = set(prev_df['ISBN'].astype(str))
    print(f"이미 처리된 ISBN 개수: {len(processed_isbns)}")
except FileNotFoundError:
    prev_df = pd.DataFrame(columns=['ISBN', '키워드'])
    processed_isbns = set()
    print("기존 파일 없음. 처음부터 시작합니다.")

# 3. 아직 처리하지 않은 ISBN 필터링
isbn_to_process = [isbn for isbn in isbn_list if isbn not in processed_isbns]
print(f"남은 ISBN 개수: {len(isbn_to_process)}")

# 4. API 요청 및 키워드 수집
rows = []

for isbn in tqdm(isbn_to_process[:500], desc="키워드 수집 중 (최대 500건)"):
    url = f'http://data4library.kr/api/keywordList?authKey=여기에_너의_API_키를_입력하세요&isbn13={isbn}&additionalYN=N&format=json'
    
    try:
        response = requests.get(url, timeout=5)
        data = response.json()

        if 'response' in data and 'items' in data['response']:
            items = data['response']['items'][:20]
            keywords = [item['item']['word'] for item in items]

            if keywords:
                for word in keywords:
                    rows.append({'ISBN': isbn, '키워드': word})
            else:
                rows.append({'ISBN': isbn, '키워드': ''})  # 키워드 없음

        else:
            rows.append({'ISBN': isbn, '키워드': ''})  # 응답에 items 없음

        time.sleep(0.2)

    except Exception as e:
        print(f"{isbn} 처리 중 오류 발생: {e}")
        rows.append({'ISBN': isbn, '키워드': ''})  # 오류 발생 시 공백 추가

# 5. 새로 수집한 데이터프레임 만들기
new_df = pd.DataFrame(rows)

# 6. 이전 데이터와 합쳐서 저장
total_df = pd.concat([prev_df, new_df], ignore_index=True)
total_df.to_csv('isbn별_키워드_목록_부분저장.csv', index=False)
print("파일 저장 완료: isbn별_키워드_목록_부분저장.csv")

### API 호출제한으로 정보나루에서 키워드 크롤링

In [2]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
import time
from bs4 import BeautifulSoup
import pandas as pd

df = pd.read_csv('베스트셀러_통합.csv')

In [None]:
options = webdriver.ChromeOptions() # 크롬 브라우저 셋팅 값

##
'''크롬 브라우저 동작방식 설정'''
# options.add_argument('--headless') # 활성화 시 크롬창 안 보임
options.add_argument('--start-maximized') # 브라우저 크기 최대
options.add_experimental_option('detach', True) # 프로그램 종료 시 창 유지
options.add_argument("--disable-blink-features=AutomationControlled") # 탐지 우회
# options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36")
##

driver = webdriver.Chrome(options=options)
url = 'https://www.data4library.kr/bookV?seq=2373369'
driver.get(url)

row = []
for j in df['ISBN'] : 
    driver.find_element(By.XPATH, value='//*[@id="headerSrchText"]').send_keys(j)
    time.sleep(1)
    driver.find_element(By.XPATH, value='//*[@id="headerSrchText"]').send_keys(Keys.ENTER)
    time.sleep(1)
    driver.find_element(By.XPATH, value='//*[@id="sb-site"]/section/div[2]/div/div/div[3]/div[2]/table/tbody/tr/td[2]/a').click()
    time.sleep(1)

    for _ in range(3):
        driver.find_element(By.TAG_NAME, value="body").send_keys(Keys.PAGE_DOWN)
        time.sleep(1)

    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    word = soup.find('div', 'data_graph_box mgb_30')
    if word.find_all('text') == None :
        row.append({'ISBN' : j, 'keyword' : ''})
    else : 
        word_dict = word.find_all('text')
        for i in range(0,len(word_dict)) :
            word_dict1 = word_dict[i].text
            row.append({'ISBN' : j, 'keyword' : word_dict1})

    for _ in range(4):
        driver.find_element(By.TAG_NAME, value="body").send_keys(Keys.PAGE_UP)
        time.sleep(1)

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import time
import pandas as pd

# ChromeOptions 설정
options = webdriver.ChromeOptions()
# options.add_argument('--headless')  # 크롬창 숨기기 (필요시 주석 해제)
options.add_argument('--start-maximized')  # 크롬창 최대화
options.add_experimental_option('detach', True)  # 코드 종료 후 창 유지
options.add_argument("--disable-blink-features=AutomationControlled")  # 탐지 우회

# 드라이버 실행
driver = webdriver.Chrome(options=options)

# URL 접속 (초기 페이지)
url = 'https://www.data4library.kr/bookV?seq=2373369'
driver.get(url)

row = []

for j in df['ISBN']:
    try:
        # 검색창에 ISBN 입력 후 엔터
        search_box = driver.find_element(By.XPATH, '//*[@id="headerSrchText"]')
        search_box.clear()
        search_box.send_keys(j)
        time.sleep(1)
        search_box.send_keys(Keys.ENTER)
        time.sleep(1)

        # 첫 번째 검색결과 클릭
        driver.find_element(By.XPATH, '//*[@id="sb-site"]/section/div[2]/div/div/div[3]/div[2]/table/tbody/tr/td[2]/a').click()
        time.sleep(1)

        # 페이지 아래로 스크롤
        for _ in range(3):
            driver.find_element(By.TAG_NAME, "body").send_keys(Keys.PAGE_DOWN)
            time.sleep(1)

        # 페이지 소스 파싱
        html = driver.page_source
        soup = BeautifulSoup(html, 'html.parser')
        word = soup.find('div', 'data_graph_box mgb_30')

        if word is None:
            row.append({'ISBN': j, 'keyword': ''})
        else:
            word_dict = word.find_all('text')
            if not word_dict:
                row.append({'ISBN': j, 'keyword': ''})
            else:
                for i in range(len(word_dict)):
                    word_text = word_dict[i].text.strip()
                    row.append({'ISBN': j, 'keyword': word_text})

        # 페이지 위로 스크롤
        for _ in range(4):
            driver.find_element(By.TAG_NAME, "body").send_keys(Keys.PAGE_UP)
            time.sleep(1)

    except Exception as e:
        print(f"에러 발생 (ISBN: {j}) - {e}")
        row.append({'ISBN': j, 'keyword': 'ERROR'})

# 결과를 DataFrame으로 변환 및 저장
result_df = pd.DataFrame(row)
result_df

In [19]:
result_df.to_csv('베스트셀러_키워드.csv', index=False)

## 2. 비베스트셀러 키워드 수집
- 비베스트셀러_랜덤.csv → ISBN 목록
- API 응답 없거나 제한된 경우 공백 처리

In [21]:
df = pd.read_csv('비베스트셀러_랜덤.csv')

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import time
import pandas as pd

# ChromeOptions 설정
options = webdriver.ChromeOptions()
# options.add_argument('--headless')  # 크롬창 숨기기 (필요시 주석 해제)
options.add_argument('--start-maximized')  # 크롬창 최대화
options.add_experimental_option('detach', True)  # 코드 종료 후 창 유지
options.add_argument("--disable-blink-features=AutomationControlled")  # 탐지 우회

# 드라이버 실행
driver = webdriver.Chrome(options=options)

driver.get('https://www.data4library.kr/bookV?seq=2373369')
row = []

for j in df['ISBN']:
    try:
        # 검색창에 ISBN 입력 후 엔터
        search_box = driver.find_element(By.XPATH, '//*[@id="headerSrchText"]')
        search_box.clear()
        search_box.send_keys(j)
        time.sleep(1)
        search_box.send_keys(Keys.ENTER)
        time.sleep(2)

        # 검색 결과 유무 확인
        try:
            search_result = driver.find_element(By.XPATH, '//*[@id="sb-site"]/section/div[2]/div/div/div[3]/div[2]/table/tbody/tr/td[2]/a')
        except:
            print(f"검색 결과 없음 (ISBN: {j})")
            row.append({'ISBN': j, 'keyword': 'NO_RESULT'})
            continue  # 다음 ISBN으로 넘어감

        # 결과 클릭
        search_result.click()
        time.sleep(1)

        # 페이지 파싱
        html = driver.page_source
        soup = BeautifulSoup(html, 'html.parser')
        word = soup.find('div', 'data_graph_box mgb_30')

        if word is None:
            row.append({'ISBN': j, 'keyword': ''})
        else:
            word_dict = word.find_all('text')
            if not word_dict:
                row.append({'ISBN': j, 'keyword': ''})
            else:
                for i in range(len(word_dict)):
                    word_text = word_dict[i].text.strip()
                    row.append({'ISBN': j, 'keyword': word_text})

    except Exception as e:
        print(f"에러 발생 (ISBN: {j}) - {e}")
        row.append({'ISBN': j, 'keyword': 'ERROR'})

# 결과 저장
result_df = pd.DataFrame(row)
result_df

In [30]:
result_df.to_csv('비베스트셀러_키워드.csv', index=False)

## 3. Gemini API 활용
- API Key 여러 개 준비 → 호출 제한 발생 시 자동 전환
- 베스트셀러/비베스트셀러 각각 결측치, 오류값 보완

In [17]:
import pandas as pd

df = pd.read_csv('베스트셀러_키워드.csv')

In [22]:
df = pd.DataFrame(columns=['ISBN', 'keyword'])
df.to_csv('result_final_best.csv', index=False)

In [None]:
# 베스트셀러

import pandas as pd
import time
import os
import google.generativeai as genai

# [1] API 키 목록
API_KEYS = [
    "AIzaSyCpHU-9rn167qcxpjNA8NhI5wTkHma04ic",
    "AIzaSyBcHB5SD3c5RyjVFKuuT0_Erwv6mCM3kjw",
    "AIzaSyB03zq8mm1KFOG46lbif0xEWGr81Ta0RDw",
    "AIzaSyDIS5FvvjR3E87SYW2KQJeNBAoNL9Eunuc"
    "AIzaSyBbQYNEln-puz-zKOZGqYXm-kyjNFdtW1Y"
]

# [2] Gemini 초기화
def init_gemini(api_key):
    genai.configure(api_key=api_key)
    return genai.GenerativeModel('gemini-1.5-flash')

# [3] Gemini 응답
def chat_with_gemini(model, prompt):
    response = model.generate_content(prompt)
    return response.text.strip()

# [4] 기존 결과 불러오기
result_file = 'result_final_best.csv'
if os.path.exists(result_file):
    previous_df = pd.read_csv(result_file)
    processed_isbns = set(previous_df['ISBN'].astype(str))
    row = previous_df.to_dict(orient='records')
    print(f"📂 이전 결과 {len(processed_isbns)}건 불러옴.")
else:
    processed_isbns = set()
    row = []

# [5] 원본 데이터
df = pd.read_csv('베스트셀러_키워드.csv')
df['ISBN'] = df['ISBN'].astype(str)

# [6] API 키 사용 설정
key_index = 0
model = init_gemini(API_KEYS[key_index])

# [7] 반복 처리
for i in df[df['keyword'].isna()]['ISBN']:
    if i in processed_isbns:
        continue  # 이미 처리한 ISBN은 건너뜀

    prompt = f'''ISBN : {i}
- I will provide the ISBN of a book. Search for the book and extract **up to 10 keywords in Korean** that reflect the book's **core themes, key messages, unique insights, and specific ideas**.  
- Avoid generic categories like “self-help,” “motivation,” or “essay.” Instead, focus on **the author’s unique arguments, conceptual frameworks, concrete examples, or original phrases**.  
- Each keyword should be a **short phrase (1 to 3 words)** in Korean.  
- **Do NOT mention the book title, author name, or ISBN.**  
- **Do NOT include any additional explanation or commentary.** Just list the keywords clearly.
'''

    try:
        reply = chat_with_gemini(model, prompt)
        row.append({'ISBN': i, 'keyword': reply})
        processed_isbns.add(i)
        print(f"✅ 처리 완료: {i}")
        time.sleep(5)

    except Exception as e:
        error_msg = str(e)
        print(f"❌ 오류 발생 (ISBN: {i}): {error_msg}")

        # 429 + quota 초과 시 다음 API 키로 전환
        if "429" in error_msg and "quota" in error_msg:
            key_index += 1
            if key_index < len(API_KEYS):
                print("🔁 다음 API 키로 전환...")
                model = init_gemini(API_KEYS[key_index])
                time.sleep(3)
                continue
            else:
                print("❌ 모든 API 키가 소진됨. 저장 후 종료합니다.")
                break
        else:
            row.append({'ISBN': i, 'keyword': f"Error: {error_msg}"})
            processed_isbns.add(i)
            time.sleep(10)

    # [8] 중간 저장
    if len(row) % 5 == 0:
        checkpoint_df = pd.DataFrame(row)
        checkpoint_df.to_csv(result_file, index=False)
        print("💾 중간 저장 완료")

# [9] 최종 저장
final_df = pd.DataFrame(row)
final_df.to_csv(result_file, index=False)
print("🎉 최종 저장 완료")

In [29]:
df = pd.DataFrame(columns=['ISBN', 'keyword'])
df.to_csv('result_final_nonbest.csv', index=False)

In [None]:
# 비베스트셀러

import pandas as pd
import time
import os
import google.generativeai as genai

# [1] API 키 목록
API_KEYS = [
    "AIzaSyCpHU-9rn167qcxpjNA8NhI5wTkHma04ic",
    "AIzaSyBcHB5SD3c5RyjVFKuuT0_Erwv6mCM3kjw",
    "AIzaSyB03zq8mm1KFOG46lbif0xEWGr81Ta0RDw",
    "AIzaSyDIS5FvvjR3E87SYW2KQJeNBAoNL9Eunuc"
]

# [2] Gemini 초기화
def init_gemini(api_key):
    genai.configure(api_key=api_key)
    return genai.GenerativeModel('gemini-1.5-flash')

# [3] Gemini 응답
def chat_with_gemini(model, prompt):
    response = model.generate_content(prompt)
    return response.text.strip()

# [4] 기존 결과 불러오기
result_file = 'result_final_nonbest.csv'
if os.path.exists(result_file):
    previous_df = pd.read_csv(result_file)
    processed_isbns = set(previous_df['ISBN'].astype(str))
    row = previous_df.to_dict(orient='records')
    print(f"📂 이전 결과 {len(processed_isbns)}건 불러옴.")
else:
    processed_isbns = set()
    row = []

# [5] 원본 데이터
df = pd.read_csv('비베스트셀러_키워드.csv')
df['ISBN'] = df['ISBN'].astype(str)

# [6] API 키 사용 설정
key_index = 0
model = init_gemini(API_KEYS[key_index])

# [7] 반복 처리
for i in df[df['keyword'].isna() | df['keyword'].str.contains('NO',na=False)]['ISBN']:
    if i in processed_isbns:
        continue  # 이미 처리한 ISBN은 건너뜀

    prompt = f'''ISBN : {i}
- I will provide the ISBN of a book. Search for the book and extract **up to 10 keywords in Korean** that reflect the book's **core themes, key messages, unique insights, and specific ideas**.  
- Avoid generic categories like “self-help,” “motivation,” or “essay.” Instead, focus on **the author’s unique arguments, conceptual frameworks, concrete examples, or original phrases**.  
- Each keyword should be a **short phrase (1 to 3 words)** in Korean.  
- **Do NOT mention the book title, author name, or ISBN.**  
- **Do NOT include any additional explanation or commentary.** Just list the keywords clearly.
'''

    try:
        reply = chat_with_gemini(model, prompt)
        row.append({'ISBN': i, 'keyword': reply})
        processed_isbns.add(i)
        print(f"✅ 처리 완료: {i}")
        time.sleep(5)

    except Exception as e:
        error_msg = str(e)
        print(f"❌ 오류 발생 (ISBN: {i}): {error_msg}")

        # 429 + quota 초과 시 다음 API 키로 전환
        if "429" in error_msg and "quota" in error_msg:
            key_index += 1
            if key_index < len(API_KEYS):
                print("🔁 다음 API 키로 전환...")
                model = init_gemini(API_KEYS[key_index])
                time.sleep(3)
                continue
            else:
                print("❌ 모든 API 키가 소진됨. 저장 후 종료합니다.")
                break
        else:
            row.append({'ISBN': i, 'keyword': f"Error: {error_msg}"})
            processed_isbns.add(i)
            time.sleep(10)

    # [8] 중간 저장
    if len(row) % 5 == 0:
        checkpoint_df = pd.DataFrame(row)
        checkpoint_df.to_csv(result_file, index=False)
        print("💾 중간 저장 완료")

# [9] 최종 저장
final_df = pd.DataFrame(row)
final_df.to_csv(result_file, index=False)
print("🎉 최종 저장 완료")

  from .autonotebook import tqdm as notebook_tqdm


📂 이전 결과 6873건 불러옴.
✅ 처리 완료: 9788971083574
✅ 처리 완료: 9788959133901
💾 중간 저장 완료
✅ 처리 완료: 9791160734041
✅ 처리 완료: 9786210307207
✅ 처리 완료: 9781911630579
✅ 처리 완료: 9788957333563
✅ 처리 완료: 9788996338161
💾 중간 저장 완료
✅ 처리 완료: 9789798773013
✅ 처리 완료: 9786020638560
✅ 처리 완료: 9791130427133
✅ 처리 완료: 9791191910025
✅ 처리 완료: 9789793972572
💾 중간 저장 완료
✅ 처리 완료: 9788930041300
✅ 처리 완료: 9788930041270
✅ 처리 완료: 9788987845104
✅ 처리 완료: 9791189280840
✅ 처리 완료: 9781788493291
💾 중간 저장 완료
✅ 처리 완료: 9788959523276
✅ 처리 완료: 9788985903486
✅ 처리 완료: 9788992259682
✅ 처리 완료: 9788987272542
✅ 처리 완료: 9791197284748
💾 중간 저장 완료
✅ 처리 완료: 9788960460409
✅ 처리 완료: 9788957468593
✅ 처리 완료: 9788974564315
✅ 처리 완료: 9791164710713
✅ 처리 완료: 9791168560093
💾 중간 저장 완료
✅ 처리 완료: 9788927500681
✅ 처리 완료: 9791191515206
✅ 처리 완료: 9788930104784
✅ 처리 완료: 9791185716688
✅ 처리 완료: 9788986821642
💾 중간 저장 완료
✅ 처리 완료: 9788991341258
✅ 처리 완료: 9786110200431
✅ 처리 완료: 9788957462621
✅ 처리 완료: 9791156109457
✅ 처리 완료: 9788957464373
💾 중간 저장 완료
✅ 처리 완료: 9788974792961
✅ 처리 완료: 9788987258

In [3]:
import pandas as pd
df = pd.read_csv('result_final_nonbest.csv')
df

Unnamed: 0,ISBN,keyword
0,9788997700721,심리적 안전감\n자기 돌봄\n감정 조절\n내면의 목소리\n관계 회복\n트라우마 극복...
1,9788973142644,심리적 안정\n자존감 회복\n감정 조절\n스트레스 극복\n마음 챙김\n긍정적 사고\...
2,9788988695913,심리적 안정\n자기 성찰\n감정 조절\n마음 챙김\n관계 개선\n내면의 목소리\n행...
3,9788930010917,마음 챙김 실천\n감정 조절 전략\n스트레스 관리법\n자기 계발 습관\n긍정적 사고...
4,9791186688502,심리적 안정\n자기 성찰\n마음 챙김\n감정 조절\n스트레스 관리\n내면의 목소리\...
...,...,...
7401,9788960541894,심리적 안전감\n자기 성찰\n관계 회복\n소통 기술\n감정 조절\n공감 능력\n내면...
7402,9780060765958,마음 챙김 실천\n감정 조절 전략\n스트레스 관리법\n자기 연민 키우기\n내면의 목...
7403,9788928517909,마음 챙김 습관\n감정 조절법\n나만의 시간\n자기 계발\n스트레스 관리\n행복 찾...
7404,9791155440483,마음 챙김 연습\n감정 조절 전략\n스트레스 관리법\n자기 공감 훈련\n내면의 목소...


In [4]:
df[df['keyword'].str.contains('마음')]

Unnamed: 0,ISBN,keyword
0,9788997700721,심리적 안전감\n자기 돌봄\n감정 조절\n내면의 목소리\n관계 회복\n트라우마 극복...
1,9788973142644,심리적 안정\n자존감 회복\n감정 조절\n스트레스 극복\n마음 챙김\n긍정적 사고\...
2,9788988695913,심리적 안정\n자기 성찰\n감정 조절\n마음 챙김\n관계 개선\n내면의 목소리\n행...
3,9788930010917,마음 챙김 실천\n감정 조절 전략\n스트레스 관리법\n자기 계발 습관\n긍정적 사고...
4,9791186688502,심리적 안정\n자기 성찰\n마음 챙김\n감정 조절\n스트레스 관리\n내면의 목소리\...
...,...,...
7401,9788960541894,심리적 안전감\n자기 성찰\n관계 회복\n소통 기술\n감정 조절\n공감 능력\n내면...
7402,9780060765958,마음 챙김 실천\n감정 조절 전략\n스트레스 관리법\n자기 연민 키우기\n내면의 목...
7403,9788928517909,마음 챙김 습관\n감정 조절법\n나만의 시간\n자기 계발\n스트레스 관리\n행복 찾...
7404,9791155440483,마음 챙김 연습\n감정 조절 전략\n스트레스 관리법\n자기 공감 훈련\n내면의 목소...


## 4. 키워드 정제

In [23]:
import pandas as pd
import re

df = pd.read_csv('result_final_nonbest.csv')

# 새 DataFrame을 저장할 리스트
expanded_rows = []

# 각 행을 순회
for index, row in df.iterrows():
    isbn = row['ISBN']
    keyword_text = str(row['keyword'])  # 혹시 NaN이나 숫자일 수 있으므로 str 처리

    # \n 또는 , 기준으로 모두 나누기 (정규표현식 사용)
    keywords = re.split(r'[\n,]', keyword_text)

    # 공백 제거하고 유효한 키워드만 추가
    for kw in keywords:
        kw = kw.strip()
        if kw:
            expanded_rows.append({'ISBN': isbn, 'keyword': kw})

# 확장된 데이터를 새로운 DataFrame으로 생성
expanded_df = pd.DataFrame(expanded_rows)
expanded_df

Unnamed: 0,ISBN,keyword
0,9788997700721,심리적 안전감
1,9788997700721,자기 돌봄
2,9788997700721,감정 조절
3,9788997700721,내면의 목소리
4,9788997700721,관계 회복
...,...,...
73349,9780231702744,삶의 목적
73350,9780231702744,자아 성찰
73351,9780231702744,인생의 여정
73352,9780231702744,행복의 조건


## 5. 키워드 누락값 채우기
- 수집된 키워드를 \n, ,, 공백 2칸 이상 기준으로 분리
- 원본 데이터에 ISBN-키워드 행 단위로 확장
- 누락/비정상 값(NO_RESULT, ERROR, 기호만 존재, 괄호 불일치 등) 제거
- 길이 2 이하 또는 18자 이상 키워드 제거

In [24]:
expanded_df.to_csv('비베스트셀러_키워드_누락값.csv', index=False)

In [25]:
df = pd.read_csv('비베스트셀러_키워드_누락값.csv')
df

Unnamed: 0,ISBN,keyword
0,9788997700721,심리적 안전감
1,9788997700721,자기 돌봄
2,9788997700721,감정 조절
3,9788997700721,내면의 목소리
4,9788997700721,관계 회복
...,...,...
73349,9780231702744,삶의 목적
73350,9780231702744,자아 성찰
73351,9780231702744,인생의 여정
73352,9780231702744,행복의 조건


In [30]:
df[df['keyword'].str.len() > 10]

Unnamed: 0,ISBN,keyword
1740,9791185111100,마음 챙김 실천 행복 감정 조절 스트레스 관리 자기 계발 관계 개선 내...
2101,9788965292814,마음 챙김 실천 나만의 시간 감정 조절 스트레스 관리 자기 계발 행복 ...
2452,9791198259349,마음 챙김 실천 감정 조절
2453,9791198259349,자기 계발 스트레스 관리
2454,9791198259349,내면의 목소리 행복 추구
...,...,...
71068,9791169831796,마음 챙김 실천 감정 조절
71069,9791169831796,스트레스 관리 자기 계발
71070,9791169831796,긍정 심리 행복 추구
71071,9791169831796,내면의 목소리 관계 회복


In [None]:
# 키워드가 제대로 안 쪼개진 것들 발견해서 다시 쪼개기
df = pd.read_csv('result_final_nonbest.csv')
expanded_rows = []

for index, row in df.iterrows():
    isbn = row['ISBN']
    keyword_text = str(row['keyword'])

    # 1. 먼저 \n과 , 기준으로 1차 분리
    parts = re.split(r'[\n,]', keyword_text)

    for part in parts:
        # 2. 각 파트를 공백 2칸 이상 기준으로 재분리
        subparts = re.split(r'\s{2,}', part.strip())

        for keyword in subparts:
            keyword = keyword.strip()
            if keyword:
                expanded_rows.append({'ISBN': isbn, 'keyword': keyword})

# 결과를 데이터프레임으로 변환
expanded_df = pd.DataFrame(expanded_rows)
expanded_df

Unnamed: 0,ISBN,keyword
0,9788997700721,심리적 안전감
1,9788997700721,자기 돌봄
2,9788997700721,감정 조절
3,9788997700721,내면의 목소리
4,9788997700721,관계 회복
...,...,...
74457,9780231702744,삶의 목적
74458,9780231702744,자아 성찰
74459,9780231702744,인생의 여정
74460,9780231702744,행복의 조건


In [35]:
expanded_df.to_csv('비베스트셀러_키워드_누락값_최종.csv',index=False)

In [37]:
df = pd.read_csv('비베스트셀러_키워드.csv')
df

Unnamed: 0,ISBN,keyword
0,9788997700721,
1,9788973142644,
2,9788988695913,
3,9788930010917,
4,9788936474614,손님
...,...,...
163181,9788960541894,
163182,9780060765958,NO_RESULT
163183,9788928517909,
163184,9791155440483,


In [39]:
df['keyword'].isna().sum()

np.int64(6326)

In [None]:
df1 = pd.read_csv('비베스트셀러_키워드_누락값_최종.csv')
df1

In [45]:
combined_df = pd.concat([df, df1], ignore_index=True)
combined_df

Unnamed: 0,ISBN,keyword
0,9788997700721,
1,9788973142644,
2,9788988695913,
3,9788930010917,
4,9788936474614,손님
...,...,...
237643,9780231702744,삶의 목적
237644,9780231702744,자아 성찰
237645,9780231702744,인생의 여정
237646,9780231702744,행복의 조건


In [52]:
combined_df.dropna(inplace=True)

In [55]:
combined_df[combined_df['keyword'].str.contains('NO')]

Unnamed: 0,ISBN,keyword
131,9788965771913,NO_RESULT
767,9791193262306,NO_RESULT
914,9791185245508,NO_RESULT
1133,9791130648897,NO_RESULT
1137,9791198747181,NO_RESULT
...,...,...
163012,9781250109842,NO_RESULT
163170,9791166260209,NO_RESULT
163176,9785883370785,NO_RESULT
163182,9780060765958,NO_RESULT


In [54]:
combined_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 231322 entries, 4 to 237647
Data columns (total 2 columns):
 #   Column   Non-Null Count   Dtype 
---  ------   --------------   ----- 
 0   ISBN     231322 non-null  int64 
 1   keyword  231322 non-null  object
dtypes: int64(1), object(1)
memory usage: 5.3+ MB


In [56]:
combined_df = combined_df[combined_df['keyword'] != 'NO_RESULT']

In [57]:
combined_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 230248 entries, 4 to 237647
Data columns (total 2 columns):
 #   Column   Non-Null Count   Dtype 
---  ------   --------------   ----- 
 0   ISBN     230248 non-null  int64 
 1   keyword  230248 non-null  object
dtypes: int64(1), object(1)
memory usage: 5.3+ MB


In [59]:
combined_df.to_csv('비베스트셀러_키워드1차.csv', index=False)

In [60]:
df = pd.read_csv('비베스트셀러_키워드1차.csv')
df

Unnamed: 0,ISBN,keyword
0,9788936474614,손님
1,9788936474614,오래된 정원
2,9788936474614,심청 연꽃의 길
3,9788936474614,무기의 그늘
4,9788936474614,객지
...,...,...
230243,9780231702744,삶의 목적
230244,9780231702744,자아 성찰
230245,9780231702744,인생의 여정
230246,9780231702744,행복의 조건


In [79]:
df[df['keyword'].str.contains('\(')]

Unnamed: 0,ISBN,keyword


In [70]:
# keyword 컬럼에서 괄호 및 괄호 안 텍스트 제거 + 앞뒤 공백 제거
def remove_parentheses(text):
    if pd.isna(text):
        return text
    return re.sub(r'\s*\(.*?\)\s*', '', text).strip()

# 적용
df['keyword'] = df['keyword'].apply(remove_parentheses)

In [None]:
def clean_keyword(text):
    if pd.isna(text):
        return text
    # 괄호 포함 텍스트 제거 (예: '행복의 조건 (행복 조건)' → '행복의 조건')
    text = re.sub(r'\s*\(.*?\)\s*', '', text)
    # 닫는 괄호 ')' 만 있을 경우 제거
    text = text.replace(')', '')
    # 공백 정리
    return text.strip()

# 적용
df['keyword'] = df['keyword'].apply(clean_keyword)

In [None]:
import pandas as pd
import re

def clean_keyword(text):
    if pd.isna(text):
        return text
    # 괄호 이후 텍스트 제거 (닫히지 않은 괄호도 포함)
    text = re.split(r'\s*\(.*', text)[0]
    return text.strip()

# 적용
df['keyword'] = df['keyword'].apply(clean_keyword)

In [85]:
df[df['keyword'].str.len() > 17]

Unnamed: 0,ISBN,keyword


In [84]:
df = df[df['keyword'].str.len() < 18]

In [88]:
df['keyword'].value_counts()

keyword
내면의 목소리     4809
긍정적 사고      3967
감정 조절       3931
행복 추구       3807
심리적 안정      3690
            ... 
자기 관리 기술       1
몰입과 집중         1
고요한 깨달음        1
소비 변화          1
지구 건강          1
Name: count, Length: 42844, dtype: int64

In [90]:
df[df['keyword'].str.contains('\}')]

Unnamed: 0,ISBN,keyword
163366,9791158544607,}
163375,9788949912295,}
163384,9788956408392,}
163393,9791156343585,}
163402,9788936512804,}
...,...,...
164608,9791164129553,}
164617,9788967442446,}
164626,9788997766710,}
164635,9791167915085,}


In [None]:
import pandas as pd
import re

# 조건 1: 길이 2 이하
cond_short = df['keyword'].str.len() <= 2

# 조건 2: 기호만 있는 값
cond_symbols = df['keyword'].str.fullmatch(r'\W+')

# 조건 3: 괄호가 하나만 있는 경우 (짝이 안 맞는 경우)
cond_unmatched_parentheses = df['keyword'].apply(lambda x: isinstance(x, str) and (
    (x.count('(') != x.count(')')) or (x.count('[') != x.count(']'))))

# 조건 4: 결측치
cond_null = df['keyword'].isnull()

# 위 조건들을 OR 연산으로 결합
invalid_rows = cond_short | cond_symbols | cond_unmatched_parentheses | cond_null

# 이상치 제거
cleaned_df = df[~invalid_rows].reset_index(drop=True)

print(f"삭제된 이상치 행 수: {invalid_rows.sum()}개")

삭제된 이상치 행 수: 97353개


In [94]:
cleaned_df.to_csv('비베스트셀러_키워드2차.csv', index=False)

In [95]:
df = pd.read_csv('베스트셀러_키워드.csv')
df1 = pd.read_csv('베스트셀러_키워드_누락값.csv')

combined_df = pd.concat([df, df1], ignore_index=True)
combined_df

Unnamed: 0,ISBN,keyword
0,9788932022888,사회
1,9788932022888,한병철
2,9788932022888,독일
3,9788932022888,피로사회
4,9788932022888,성과사회
...,...,...
570546,9791192742281,현재 순간
570547,9791192742281,심리적 안정
570548,9791192742281,관계 개선
570549,9791192742281,행복 추구


In [96]:
combined_df.dropna(inplace=True)
combined_df = combined_df[combined_df['keyword'] != 'NO_RESULT']

In [98]:
import pandas as pd
import re

# 조건 1: 길이 2 이하
cond_short = combined_df['keyword'].str.len() <= 2

# 조건 2: 기호만 있는 값
cond_symbols = combined_df['keyword'].str.fullmatch(r'\W+')

# 조건 3: 괄호가 하나만 있는 경우 (짝이 안 맞는 경우)
cond_unmatched_parentheses = combined_df['keyword'].apply(lambda x: isinstance(x, str) and (
    (x.count('(') != x.count(')')) or (x.count('[') != x.count(']'))))

# 조건 4: 결측치
cond_null = combined_df['keyword'].isnull()

# 위 조건들을 OR 연산으로 결합
invalid_rows = cond_short | cond_symbols | cond_unmatched_parentheses | cond_null

# 이상치 제거
cleaned_df = combined_df[~invalid_rows].reset_index(drop=True)

print(f"삭제된 이상치 행 수: {invalid_rows.sum()}개")

삭제된 이상치 행 수: 344087개


In [100]:
combined_df['keyword'].value_counts()

keyword
사람          4201
세계          2602
시작          2393
사랑          2183
자신          2168
            ... 
자기 돌봄 실천       1
기든스            1
자기 계발 여정       1
지속가능한 삶        1
미래 사회          1
Name: count, Length: 93209, dtype: int64

In [101]:
combined_df.to_csv('베스트셀러_키워드_최종.csv', index=False)

## 6. 베스트셀러 e북 여부 크롤링

In [103]:
df = pd.read_csv('베스트셀러_통합1차.csv')
df_book = df.copy()

In [None]:
df_book['E_BOOK'] = 'N'
df_book.drop(['ONLNYN'], axis=1, inplace=True)
df_book

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import time
import pandas as pd

# ChromeOptions 설정
options = webdriver.ChromeOptions()
# options.add_argument('--headless')  # 크롬창 숨기기 (필요시 주석 해제)
options.add_argument('--start-maximized')  # 크롬창 최대화
options.add_experimental_option('detach', True)  # 코드 종료 후 창 유지
options.add_argument("--disable-blink-features=AutomationControlled")  # 탐지 우회

# 드라이버 실행
driver = webdriver.Chrome(options=options)
driver.get('https://search.kyobobook.co.kr/search?keyword=9788932022888&gbCode=TOT&target=total')

for j in df_book['ISBN']:
    try:
        search_box = driver.find_element(By.XPATH, '//*[@id="searchKeyword"]')
        search_box.clear()
        search_box.send_keys(j)
        time.sleep(1)
        search_box.send_keys(Keys.ENTER)
        time.sleep(1)

        html = driver.page_source
        soup = BeautifulSoup(html, 'html.parser')

        eb = soup.find('div', class_='prod_btn_wrap')
        if eb:  # eb가 존재할 때만 실행
            for i in eb.find_all('span', class_='text'):
                if i.text.strip() == 'eBook':
                    df_book.loc[df_book['ISBN'] == j, 'E_BOOK'] = 'Y'
                    break  # 한 번 찾았으면 더 이상 찾을 필요 없음
        else:
            print(f"ISBN {j}: 'prod_btn_wrap' 요소를 찾을 수 없습니다.")
    except Exception as e:
        print(f"ISBN {j} 처리 중 오류 발생: {e}")


ISBN 9788972754824: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791198547101: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9788993242706: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9788984053021: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791160321227: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791157523399: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9788956056531: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791158360214: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9788991622869: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9788901251226: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791185564074: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791197305429: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791156330103: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9788994120966: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791188248674: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9788993900750: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791158360375: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9788962622096: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9788983718686: 'prod_btn_wrap' 요소를 찾을 수 없습니다.
ISBN 9791158360801: 'prod_btn_w

# 비베스트셀러 키워드 정규화
- ()가 있음, 128개, 이외에도 (나 )만 있는 것들도 있음 -> 삭제 완
- 이상한 영어로 쓰여 있는 것들 밑 각종 오류들이 데이터 있는 경우 -> 삭제
- 결측치 삭제
- 길이가 2 이하거나 18이상인 경우 삭ㅈ
- 기호만 있는 경우 삭제

# 베스트셀러 키워드 정규화
- 똑같이 진행함

# e북 여부 크롤링