<a href="https://colab.research.google.com/github/myhousemouse/scraping_study/blob/main/indibook_scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 인디펍 > 책 제목

In [7]:
import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
all_book_titles = [] # 모든 페이지의 책 제목을 저장할 리스트

for page_num in range(10, 15): # 10페이지부터 14페이지까지 반복
    url = f'https://indiepub.kr/product/list.html?cate_no=24&page={page_num}'
    print(f"스크래핑 중: {url}") # 현재 스크래핑 중인 페이지 출력

    try:
        data = requests.get(url, headers=headers)
        data.raise_for_status() # HTTP 오류 발생 시 예외 발생

        soup = BeautifulSoup(data.text, 'html.parser')

        # 책 제목을 포함하는 두 번째 span 태그를 직접 선택하는 셀렉터
        book_title_selector = 'div.name > a > span:nth-of-type(2)'

        title_elements = soup.select(book_title_selector)

        for title_element in title_elements:
            title = title_element.get_text(strip=True)
            all_book_titles.append(title)

    except requests.exceptions.RequestException as e:
        print(f"요청 오류 발생: {e} (URL: {url})")
        continue # 오류 발생 시 다음 페이지로 건너뛰기

# 추출된 모든 책 제목 출력
print("\n--- 추출된 모든 책 제목 ---")
for title in all_book_titles:
    print(title)

print(f"\n총 {len(all_book_titles)}개의 책 제목을 추출했습니다.")

스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=10
스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=11
스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=12
스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=13
스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=14

--- 추출된 모든 책 제목 ---
이러나저러나 불편한 거야 불편한 건
불안과 밤 산책
속속들이 독립출판 알고 보니 의존 출판
A ROOM OF FACE TO FACE
Savemyself09!
(은/는/이/가) 당신을 사랑한다
반짝이는 나의 계절
기숙사에 재고만이 쌓였습니다
아름다운 이 세상은 우리를 시인으로 만들었지
오늘의문예비평 136호
MTB로 백두대간과 9정맥
일상의 재발견
잘 될 거야 같은 소리 하네
나는 괴물입니다
작은방 한켠 나의 트레킹 가방
CONCEPTZINE vol.124
부라보 마이 라이프
아날로그
마음챙김 플라워 힐링북
울지마
Small Brand, High value
일시 정지 후 재생
엉망진창인채로 40대, 오히려 좋아
외계행성 다방유랑기
즉흥 연주를 위한 실전 코드 사전
기타 연습 가이드북
조각난 기억, 사랑으로 남다
사탄탱고: 벨라 타르에 들어가기 앞서
Two Of A Kind
퇴사 후, 치앙마이
기억나무
새벽 죽음 연습
뇌경색 환자의 좌충우돌 1인 출판사 창업기
로컬 매거진 인천 스펙타클(spectacle) : 05 술술 읽히는 인천의 술
넘어졌던 자리에서 다시 걸을 수 있다면 정말 괜찮습니다
로자 룩셈부르크
여름으로 지어진 곳
닻
알을 두고 온 새의 마음
살아있는 보물지도의 비밀
들켜도 망하지 않았으면 좋겠다
긍정샐러드
파란인
파도에 지워진 어부의 시
달팽

# 인디펍 > 책 > 상세 페이지

In [8]:
import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
detail_page_urls = [] # 상세 페이지 URL을 저장할 리스트

# 목록 페이지 URL (일단 첫 페이지부터 시작) 추후 모든 페이지로 변경
# list_page_url = 'https://indiepub.kr/product/list.html?cate_no=24&page=10' # 기존 코드 주석 처리

for page_num in range(10, 15): # 10페이지부터 14페이지까지 반복
    list_page_url = f'https://indiepub.kr/product/list.html?cate_no=24&page={page_num}'
    print(f"목록 페이지 스크래핑 중: {list_page_url}")

    try:
        data = requests.get(list_page_url, headers=headers)
        data.raise_for_status() # HTTP 오류 발생 시 예외 발생

        soup = BeautifulSoup(data.text, 'html.parser')
        product_link_selector = 'div.prdImg > a' # 상품 이미지 링크를 포함하는 a 태그

        link_elements = soup.select(product_link_selector)

        for link_element in link_elements:
            # href 속성에서 상세 페이지 URL 추출
            detail_url = link_element.get('href')
            if detail_url:
                # 상대 경로인 경우 절대 경로로 변환
                if detail_url.startswith('/'):
                    detail_url = f'https://indiepub.kr{detail_url}'
                detail_page_urls.append(detail_url)

    except requests.exceptions.RequestException as e:
        print(f"요청 오류 발생: {e} (URL: {list_page_url})")
        continue # 오류 발생 시 다음 페이지로 건너뛰기


# 추출된 상세 페이지 URL 출력
print("\n--- 추출된 상세 페이지 URL ---")
# 추출된 URL이 많을 수 있으므로 처음 20개만 출력하거나 길이를 출력
if len(detail_page_urls) > 20:
    for url in detail_page_urls[:20]:
        print(url)
    print("...") # 생략 기호
else:
    for url in detail_page_urls:
        print(url)


print(f"\n총 {len(detail_page_urls)}개의 상세 페이지 URL을 추출했습니다.")

목록 페이지 스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=10
목록 페이지 스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=11
목록 페이지 스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=12
목록 페이지 스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=13
목록 페이지 스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=14

--- 추출된 상세 페이지 URL ---
https://indiepub.kr/product/이러나저러나-불편한-거야-불편한-건/8363/category/24/display/1/
https://indiepub.kr/product/불안과-밤-산책/8360/category/24/display/1/
https://indiepub.kr/product/속속들이-독립출판-알고-보니-의존-출판/8357/category/24/display/1/
https://indiepub.kr/product/a-room-of-face-to-face/8356/category/24/display/1/
https://indiepub.kr/product/savemyself09/8353/category/24/display/1/
https://indiepub.kr/product/은는이가-당신을-사랑한다/8350/category/24/display/1/
https://indiepub.kr/product/반짝이는-나의-계절/8347/category/24/display/1/
https://indiepub.kr/product/기숙사에-재고만이-쌓였습니다/8344/category/24/display/1/
https://indiepub.kr/product/아름다운-이-세상은-우

# 인디펍 > 상세 페이지 > 책 제목 & 책 한줄소개 & 요약글 스크래핑

In [9]:
import requests
from bs4 import BeautifulSoup

# 셀 89ddbf1f에서 추출한 상세 페이지 URL 목록을 사용합니다.
# detail_page_urls 변수에 상세 페이지 URL들이 저장되어 있어야 함.
# 모든 책의 상세 정보를 저장할 리스트
all_book_details = []

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}

# 추출된 상세 페이지 URL 목록을 순회합니다.
for detail_url in detail_page_urls:
    print(f"상세 페이지 스크래핑 중: {detail_url}")

    try:
        data = requests.get(detail_url, headers=headers)
        data.raise_for_status() # HTTP 오류 발생 시 예외 발생

        soup = BeautifulSoup(data.text, 'html.parser')

        # 사용자가 제공한 CSS 셀렉터를 사용하여 정보 추출
        # 책 제목 셀렉터
        title_selector = '#contents > div > div.xans-element-.xans-product.xans-product-detail.timesale-active > div.detailArea > div.infoArea > div.headingArea > h1'
        # 책 한 줄 소개글 셀렉터
        summary_desc_selector = '#contents > div > div.xans-element-.xans-product.xans-product-detail.timesale-active > div.detailArea > div.infoArea > div.headingArea > div.summary_desc_css'
        # 책 요약글 셀렉터
        summary_selector = '#prdDetail > div.cont > div:nth-child(5) > p'

        # 각 정보 추출 시 None이 반환될 수 있으므로 확인 필요
        book_title_element = soup.select_one(title_selector)
        book_summary_desc_element = soup.select_one(summary_desc_selector)
        book_summary_element = soup.select_one(summary_selector)

        book_title = book_title_element.get_text(strip=True) if book_title_element else "N/A"
        book_summary_desc = book_summary_desc_element.get_text(strip=True) if book_summary_desc_element else "N/A"
        book_summary = book_summary_element.get_text(strip=True) if book_summary_element else "N/A"

        # 추출한 정보를 딕셔너리로 저장
        book_details = {
            "URL": detail_url,
            "제목": book_title,
            "한 줄 소개": book_summary_desc,
            "요약글": book_summary
        }
        all_book_details.append(book_details)

    except requests.exceptions.RequestException as e:
        print(f"요청 오류 발생: {e} (URL: {detail_url})")
        continue # 오류 발생 시 다음 URL로 건너뛰기
    except Exception as e:
        print(f"스크래핑 중 알 수 없는 오류 발생: {e} (URL: {detail_url})")
        continue # 다른 오류 발생 시 다음 URL로 건너뛰기


# 추출된 모든 상세 정보 출력
print("\n--- 추출된 모든 책 상세 정보 ---")
for book in all_book_details:
    print(f"URL: {book['URL']}")
    print(f"제목: {book['제목']}")
    print(f"한 줄 소개: {book['한 줄 소개']}")
    print(f"요약글: {book['요약글']}")
    print("-" * 20) # 구분선 출력

print(f"\n총 {len(all_book_details)}개의 책 상세 정보를 추출했습니다.")

상세 페이지 스크래핑 중: https://indiepub.kr/product/이러나저러나-불편한-거야-불편한-건/8363/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/불안과-밤-산책/8360/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/속속들이-독립출판-알고-보니-의존-출판/8357/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/a-room-of-face-to-face/8356/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/savemyself09/8353/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/은는이가-당신을-사랑한다/8350/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/반짝이는-나의-계절/8347/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/기숙사에-재고만이-쌓였습니다/8344/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/아름다운-이-세상은-우리를-시인으로-만들었지/8342/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/오늘의문예비평-136호/8340/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/mtb로-백두대간과-9정맥/8338/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/pro

## 키워드 추출 방법 선택

### Subtask:
출력 텍스트를 검토한 후, 텍스트를 결합할지 분리할지 계획합니다.

텍스트에서 핵심 키워드를 추출하는 방법을 선택합니다. (예: 빈도 분석, TF-IDF, 자연어 처리 라이브러리 사용 등)


In [None]:
# 텍스트 데이터 특성 고려:
# - 한글 텍스트
# - '제목', '한 줄 소개', '요약글'이 합쳐져 있어, 짧은 핵심 문구부터 비교적 긴 설명까지 다양함.
# - 책의 주제를 나타내는 명사나 명사구가 핵심 키워드가 될 가능성이 높음.

# 키워드 추출 방법 선택:
# 한국어 텍스트 분석에는 형태소 분석이 필수적입니다.
# 'konlpy' 라이브러리의 'Okt'(Open Korean Text) 형태소 분석기를 사용하여 텍스트를 명사 단위로 분해하고,
# 이 명사들 중에서 빈도가 높은 단어들을 추출하는 방식을 사용합니다.
# 추가적으로, TF-IDF (Term Frequency-Inverse Document Frequency) 기법을 활용하여
# 문서 집합 내에서 특정 문서에만 자주 나타나는 중요한 단어를 식별하는 것도 고려할 수 있습니다.
# 그러나 여기서는 각 책별 핵심 키워드를 파악하는 것이 주 목적이므로,
# 1차적으로 형태소 분석 후 명사 빈도 분석을 사용하는 것이 직관적이고 효과적일 것으로 판단됩니다.
# 특히 '제목'과 '한 줄 소개' 같은 짧은 텍스트에서도 의미 있는 명사를 놓치지 않고 추출할 수 있습니다.

# 선택한 방법 설명 및 이유:
# - 방법: konlpy 라이브러리의 Okt 형태소 분석기를 사용하여 각 책의 결합된 텍스트에서 명사를 추출하고, 추출된 명사들의 빈도를 계산하여 상위 N개의 단어를 키워드로 선정합니다. 불용어 제거 과정을 추가하여 분석의 정확도를 높일 수 있습니다.
# - 이유: 한국어는 띄어쓰기만으로는 단어를 구분하기 어렵기 때문에 형태소 분석이 필수적입니다. Okt는 비교적 사용하기 쉽고 성능이 준수하여 한국어 텍스트 분석에 널리 사용됩니다. 명사는 텍스트에서 핵심적인 의미를 담고 있는 경우가 많으므로, 명사 빈도 분석은 텍스트의 주요 주제를 파악하는 효과적인 방법입니다. TF-IDF는 문서 간 중요도를 비교하는 데 유용하지만, 단일 문서(각 책)의 핵심 내용을 파악하는 데는 단순 빈도 분석이 더 직접적일 수 있습니다.

## 키워드 추출 실행

### Subtask:
선택한 방법(konlpy Okt를 이용한 명사 추출 및 빈도 분석)을 사용하여 각 책 정보에서 키워드를 추출합니다.

다음 단계에서는 선택한 방법(konlpy Okt를 이용한 명사 추출 및 빈도 분석)을 사용하여

'all_book_details' 리스트의 각 책에 대해 키워드를 추출하는 코드를 작성합니다.

불용어 리스트를 정의하고 적용



In [10]:
!pip install konlpy



## 책의 주제를 파악하기 위해서 책 제목 + 한줄 소개 + 요약글을 합쳐 빈도분석 TF-IDF 방식을 사용함

In [11]:
from konlpy.tag import Okt
from collections import Counter

# 1. `konlpy` 라이브러리에서 `Okt` 형태소 분석기를 임포트합니다. (already imported above)
okt = Okt()

# 2. 불용어 리스트를 정의합니다.
# 일반적인 한국어 불용어 및 책 내용과 관련된 일반적인 단어 추가
stopwords = set([
    '은', '는', '이', '가', '을', '를', '과', '와', '하다', '이다', '있다', '없다',
    '에서', '으로', '에게', '에게서', '한테', '한테서', '이다', '아니다', '되다', '하다',
    '같다', '같습니다', '같아요', '같습니다', '같은', '같은데', '같은데요',
    '되다', '됩니다', '되었어요', '되었습니다', '되는데', '되는데요',
    '있다', '있습니다', '있어요', '있는데', '있는데요',
    '없다', '없습니다', '없어요', '없는데', '없는데요',
    '책', '이야기', '내용', '부분', '수', '것', '곳', '때', '점', '분', '말', '글', '저자', '독자',
    '사람', '우리', '모든', '다양한', '많은', '어떤', '이런', '그렇다', '그리고', '하지만', '그래서',
    '통해', '대해', '따라', '위해', '대한', '처럼', '만큼', '같이','이자',
    '이번', '지난', '다음', '각자', '서로', '함께', '다시', '정말', '가장', '더욱', '조금', '아마',
    '~다', '~하다', '~이다', '~되다', '~습니다', '~어요', '~는데', '~데요',
    '페이지', '작가', '작품', '출판', '출간', '소설', '시집', '에세이', '그림책', '독립출판',
    '이번호', '매거진', 'vol', 'no'
])


# 3. 각 책의 정보를 담고 있는 `all_book_details` 리스트를 반복합니다.
for book in all_book_details:
    # 4. 각 책에 대해 '제목', '한 줄 소개', '요약글' 필드의 텍스트를 하나의 문자열로 결합합니다.
    # 필드가 없을 경우를 대비해 .get() 사용
    combined_text = book.get('제목', '') + ' ' + book.get('한 줄 소개', '') + ' ' + book.get('요약글', '')

    # 9. 키워드 추출 과정에서 발생할 수 있는 예외(예: 텍스트가 비어있는 경우)를 처리합니다.
    if not combined_text.strip():
        book['키워드'] = [] # 텍스트가 비어있으면 키워드 리스트를 비워둡니다.
        print(f"경고: {book.get('URL', '알 수 없는 URL')} 의 텍스트가 비어있어 키워드를 추출할 수 없습니다.")
        continue

    try:
        # 5. 결합된 텍스트에 대해 `Okt` 형태소 분석기를 사용하여 명사를 추출합니다.
        nouns = okt.nouns(combined_text)

        # 6. 추출된 명사 리스트에서 정의된 불용어를 제거합니다.
        filtered_nouns = [noun for noun in nouns if noun not in stopwords and len(noun) > 1] # 한 글자 명사 제외

        # 7. 불용어가 제거된 명사들에 대해 빈도를 계산합니다.
        noun_counts = Counter(filtered_nouns)

        # 8. 계산된 빈도를 바탕으로 각 책별 상위 N개 (예: 10개)의 명사를 해당 책의 키워드로 저장합니다.
        # 상위 10개 키워드 추출
        top_keywords = [keyword for keyword, count in noun_counts.most_common(10)]

        # 이 키워드를 `all_book_details` 리스트의 해당 책 정보 딕셔너리에 새로운 키('키워드')로 추가합니다.
        book['키워드'] = top_keywords

    except Exception as e:
        # 형태소 분석 중 발생할 수 있는 다른 예외 처리
        book['키워드'] = []
        print(f"오류 발생: {book.get('URL', '알 수 없는 URL')} 에서 키워드 추출 중 오류 발생 - {e}")


# 결과 확인 (처음 몇 개의 책에 대해 추출된 키워드 출력)
print("\n--- 추출된 키워드 확인 (처음 5개 책) ---")
for i, book in enumerate(all_book_details[:5]):
    print(f"Book {i+1}: {book.get('제목', 'N/A')}")
    print(f"  키워드: {book.get('키워드', '키워드 추출 실패')}")
    print("-" * 20)



--- 추출된 키워드 확인 (처음 5개 책) ---
Book 1: 이러나저러나 불편한 거야 불편한 건
  키워드: ['감정', '가지', '이름', '마주', '그대로', '자주', '기록', '불안', '후회', '무기']
--------------------
Book 2: 불안과 밤 산책
  키워드: ['불안', '산책', '기록', '당신', '하루', '마음', '내기', '아침', '문득', '우울']
--------------------
Book 3: 속속들이 독립출판 알고 보니 의존 출판
  키워드: ['독립', '설명', '의존', '초보자', '혼자', '과정', '구체', '예시', '기분', '마음']
--------------------
Book 4: A ROOM OF FACE TO FACE
  키워드: ['작업', '사진', '다른', '여러', '기획', '메이크업', '보정', '모델', '작업실', '공간']
--------------------
Book 5: Savemyself09!
  키워드: ['일기장', '동안', '굳이', '보아', '마음', '전달', '직접', '본문', '구성', '하루']
--------------------


## 추출된 키워드 정리 및 표시

### Subtask:
추출된 키워드를 정리하고, 각 책별 키워드 또는 전체 키워드 목록을 보기 좋게 표시합니다.


In [12]:
# 각 책별로 추출된 키워드를 책 제목과 함께 보기 좋게 출력합니다.
print("--- 각 책별 추출 키워드 ---")
for book in all_book_details:
    title = book.get('제목', '제목 없음')
    keywords = book.get('키워드', [])
    print(f"제목: {title}")
    if keywords:
        print(f"  키워드: {', '.join(keywords)}")
    else:
        print("  키워드: 추출된 키워드 없음")
    print("-" * 20)


--- 각 책별 추출 키워드 ---
제목: 이러나저러나 불편한 거야 불편한 건
  키워드: 감정, 가지, 이름, 마주, 그대로, 자주, 기록, 불안, 후회, 무기
--------------------
제목: 불안과 밤 산책
  키워드: 불안, 산책, 기록, 당신, 하루, 마음, 내기, 아침, 문득, 우울
--------------------
제목: 속속들이 독립출판 알고 보니 의존 출판
  키워드: 독립, 설명, 의존, 초보자, 혼자, 과정, 구체, 예시, 기분, 마음
--------------------
제목: A ROOM OF FACE TO FACE
  키워드: 작업, 사진, 다른, 여러, 기획, 메이크업, 보정, 모델, 작업실, 공간
--------------------
제목: Savemyself09!
  키워드: 일기장, 동안, 굳이, 보아, 마음, 전달, 직접, 본문, 구성, 하루
--------------------
제목: (은/는/이/가) 당신을 사랑한다
  키워드: 사랑, 당신, 순간, 목격, 마주, 이름, 괄호, 쫗는, 종착, 바로
--------------------
제목: 반짝이는 나의 계절
  키워드: 계절, 그늘, 볕뉘, 그녀, 사랑, 이별, 자리, 위로, 브런치, 시작
--------------------
제목: 기숙사에 재고만이 쌓였습니다
  키워드: 재고, 기숙사, 시간, 기록, 처음, 농담, 설명, 문장, 러시아, 도전
--------------------
제목: 아름다운 이 세상은 우리를 시인으로 만들었지
  키워드: 사랑, 세상, 시인, 위로, 공감
--------------------
제목: 오늘의문예비평 136호
  키워드: 비평, 문예비평, 문화, 오늘, 부산, 창간, 전국, 유일, 문지, 동안
--------------------
제목: MTB로 백두대간과 9정맥
  키워드: 기록, 정신, 한계, 고통, 여정, 덕분, 평소, 탄생, 체력, 극복
--------------------
제목: 일상의 재발견
  키워드: 일상