<a href="https://colab.research.google.com/github/myhousemouse/scraping_study/blob/main/indibook_scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 인디펍 > 책 제목

In [1]:
import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
all_book_titles = [] # 모든 페이지의 책 제목을 저장할 리스트

for page_num in range(1, 4): # 1페이지부터 3페이지까지 반복
    url = f'https://indiepub.kr/product/list.html?cate_no=24&page={page_num}'
    print(f"스크래핑 중: {url}") # 현재 스크래핑 중인 페이지 출력

    try:
        data = requests.get(url, headers=headers)
        data.raise_for_status() # HTTP 오류 발생 시 예외 발생

        soup = BeautifulSoup(data.text, 'html.parser')

        # 책 제목을 포함하는 두 번째 span 태그를 직접 선택하는 셀렉터
        book_title_selector = 'div.name > a > span:nth-of-type(2)'

        title_elements = soup.select(book_title_selector)

        for title_element in title_elements:
            title = title_element.get_text(strip=True)
            all_book_titles.append(title)

    except requests.exceptions.RequestException as e:
        print(f"요청 오류 발생: {e} (URL: {url})")
        continue # 오류 발생 시 다음 페이지로 건너뛰기

# 추출된 모든 책 제목 출력
print("\n--- 추출된 모든 책 제목 ---")
for title in all_book_titles:
    print(title)

print(f"\n총 {len(all_book_titles)}개의 책 제목을 추출했습니다.")

스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=1
스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=2
스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=3

--- 추출된 모든 책 제목 ---
이렇게 일하는 게 맞나요?
그리고 우리는 좀 더 행복해졌다
인생낚시 낚시인생
중소기업 생존기
일본 간다면, 이 정도 역사는 알고 가야지
아트 호러
마음의 정원
사과씨 나눠 먹기
도도로기 어디론가 가는 중
nu thanks magazine - no.2
나를 읽는 시간
마법사 개구리 팝푸
les Parisiens.
AI 시대, 결국 사람
평행우주 고양이
서점을 그리다
영원
아침의 토스트 (리커버/개정판)
숨길리 생추어리
매달 아이를 그립니다
라떼는 용식이
겨울과 겨울 사이
CONCEPTZINE vol.128
가방 하나, 유럽
그대는 없는데 그대가 있습니다
수박은 먹어보고 가지
장녀해방일지 Vol.2 - We Need to Talk About Father
목 늘어난 티셔츠가 지저분해 보이지 않는 이유
너의 초록불이 돼 줄게
차브 라차브 차브 라차브 카브 라카브 카브 라카브 제에르 샴 제에르 샴
별무리의 이야기
9가지의 성격, 9가지의 와인
초역 100인의 조언 필사책
초역 100인의 조언
절망의 페르소나
잘 그리지 않아도 괜찮아
바닷가 마을 요가 선생님이 되었습니다
책방으로 가다
까칠하고 예민한 사춘기를 위한 감정을 돌보는 방법
우리는 여전히
영원과 영원사이 아스크림 2개
나를 돌보는 3분 바나나 책
그때 그 노래가 들렸다
멕시코 푸라면
디어블랭크
나를 키운 사람에게
방귀맨
맥크럴민트
너의 예민함을 아껴둬
초록 아래
오늘도 묘하게
행복해지는 30일 드로잉 미션
나 사용법(문고판)
무관심 (월간옥키54)
Listener Vol.2
바람부는 날 나무 아래에 서면
내가 만난 아이들
내 생각은 말이

# 인디펍 > 책 > 상세 페이지

In [2]:
import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
detail_page_urls = [] # 상세 페이지 URL을 저장할 리스트

# 목록 페이지 URL (일단 첫 페이지부터 시작) 추후 모든 페이지로 변경
list_page_url = 'https://indiepub.kr/product/list.html?cate_no=24&page=1'
print(f"목록 페이지 스크래핑 중: {list_page_url}")

try:
    data = requests.get(list_page_url, headers=headers)
    data.raise_for_status() # HTTP 오류 발생 시 예외 발생

    soup = BeautifulSoup(data.text, 'html.parser')
    product_link_selector = 'div.prdImg > a' # 상품 이미지 링크를 포함하는 a 태그

    link_elements = soup.select(product_link_selector)

    for link_element in link_elements:
        # href 속성에서 상세 페이지 URL 추출
        detail_url = link_element.get('href')
        if detail_url:
            # 상대 경로인 경우 절대 경로로 변환
            if detail_url.startswith('/'):
                detail_url = f'https://indiepub.kr{detail_url}'
            detail_page_urls.append(detail_url)

except requests.exceptions.RequestException as e:
    print(f"요청 오류 발생: {e} (URL: {list_page_url})")


# 추출된 상세 페이지 URL 출력
print("\n--- 추출된 상세 페이지 URL ---")
for url in detail_page_urls:
    print(url)

print(f"\n총 {len(detail_page_urls)}개의 상세 페이지 URL을 추출했습니다.")

목록 페이지 스크래핑 중: https://indiepub.kr/product/list.html?cate_no=24&page=1

--- 추출된 상세 페이지 URL ---
https://indiepub.kr/product/이렇게-일하는-게-맞나요/8884/category/24/display/1/
https://indiepub.kr/product/그리고-우리는-좀-더-행복해졌다/8883/category/24/display/1/
https://indiepub.kr/product/인생낚시-낚시인생/8880/category/24/display/1/
https://indiepub.kr/product/중소기업-생존기/8879/category/24/display/1/
https://indiepub.kr/product/일본-간다면-이-정도-역사는-알고-가야지/8876/category/24/display/1/
https://indiepub.kr/product/아트-호러/8873/category/24/display/1/
https://indiepub.kr/product/마음의-정원/8868/category/24/display/1/
https://indiepub.kr/product/사과씨-나눠-먹기/8863/category/24/display/1/
https://indiepub.kr/product/도도로기-어디론가-가는-중/8860/category/24/display/1/
https://indiepub.kr/product/nu-thanks-magazine-no2/8857/category/24/display/1/
https://indiepub.kr/product/나를-읽는-시간/8851/category/24/display/1/
https://indiepub.kr/product/마법사-개구리-팝푸/8844/category/24/display/1/
https://indiepub.kr/product/les-parisiens/8841/category/24/display/1/
https://

# 인디펍 > 상세 페이지 > 책 제목 & 책 한줄소개 & 요약글 스크래핑

In [3]:
import requests
from bs4 import BeautifulSoup

# 셀 89ddbf1f에서 추출한 상세 페이지 URL 목록을 사용합니다.
# detail_page_urls 변수에 상세 페이지 URL들이 저장되어 있어야 함.
# 모든 책의 상세 정보를 저장할 리스트
all_book_details = []

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}

# 추출된 상세 페이지 URL 목록을 순회합니다.
for detail_url in detail_page_urls:
    print(f"상세 페이지 스크래핑 중: {detail_url}")

    try:
        data = requests.get(detail_url, headers=headers)
        data.raise_for_status() # HTTP 오류 발생 시 예외 발생

        soup = BeautifulSoup(data.text, 'html.parser')

        # 사용자가 제공한 CSS 셀렉터를 사용하여 정보 추출
        # 책 제목 셀렉터
        title_selector = '#contents > div > div.xans-element-.xans-product.xans-product-detail.timesale-active > div.detailArea > div.infoArea > div.headingArea > h1'
        # 책 한 줄 소개글 셀렉터
        summary_desc_selector = '#contents > div > div.xans-element-.xans-product.xans-product-detail.timesale-active > div.detailArea > div.infoArea > div.headingArea > div.summary_desc_css'
        # 책 요약글 셀렉터
        summary_selector = '#prdDetail > div.cont > div:nth-child(5) > p'

        # 각 정보 추출 시 None이 반환될 수 있으므로 확인 필요
        book_title_element = soup.select_one(title_selector)
        book_summary_desc_element = soup.select_one(summary_desc_selector)
        book_summary_element = soup.select_one(summary_selector)

        book_title = book_title_element.get_text(strip=True) if book_title_element else "N/A"
        book_summary_desc = book_summary_desc_element.get_text(strip=True) if book_summary_desc_element else "N/A"
        book_summary = book_summary_element.get_text(strip=True) if book_summary_element else "N/A"

        # 추출한 정보를 딕셔너리로 저장
        book_details = {
            "URL": detail_url,
            "제목": book_title,
            "한 줄 소개": book_summary_desc,
            "요약글": book_summary
        }
        all_book_details.append(book_details)

    except requests.exceptions.RequestException as e:
        print(f"요청 오류 발생: {e} (URL: {detail_url})")
        continue # 오류 발생 시 다음 URL로 건너뛰기
    except Exception as e:
        print(f"스크래핑 중 알 수 없는 오류 발생: {e} (URL: {detail_url})")
        continue # 다른 오류 발생 시 다음 URL로 건너뛰기


# 추출된 모든 상세 정보 출력
print("\n--- 추출된 모든 책 상세 정보 ---")
for book in all_book_details:
    print(f"URL: {book['URL']}")
    print(f"제목: {book['제목']}")
    print(f"한 줄 소개: {book['한 줄 소개']}")
    print(f"요약글: {book['요약글']}")
    print("-" * 20) # 구분선 출력

print(f"\n총 {len(all_book_details)}개의 책 상세 정보를 추출했습니다.")

상세 페이지 스크래핑 중: https://indiepub.kr/product/이렇게-일하는-게-맞나요/8884/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/그리고-우리는-좀-더-행복해졌다/8883/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/인생낚시-낚시인생/8880/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/중소기업-생존기/8879/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/일본-간다면-이-정도-역사는-알고-가야지/8876/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/아트-호러/8873/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/마음의-정원/8868/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/사과씨-나눠-먹기/8863/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/도도로기-어디론가-가는-중/8860/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/nu-thanks-magazine-no2/8857/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/나를-읽는-시간/8851/category/24/display/1/
상세 페이지 스크래핑 중: https://indiepub.kr/product/마법사-개구리-팝푸/8844/category/24/disp

## 키워드 추출 방법 선택

### Subtask:
출력 텍스트를 검토한 후, 텍스트를 결합할지 분리할지 계획합니다.

텍스트에서 핵심 키워드를 추출하는 방법을 선택합니다. (예: 빈도 분석, TF-IDF, 자연어 처리 라이브러리 사용 등)


In [None]:
# 텍스트 데이터 특성 고려:
# - 한글 텍스트
# - '제목', '한 줄 소개', '요약글'이 합쳐져 있어, 짧은 핵심 문구부터 비교적 긴 설명까지 다양함.
# - 책의 주제를 나타내는 명사나 명사구가 핵심 키워드가 될 가능성이 높음.

# 키워드 추출 방법 선택:
# 한국어 텍스트 분석에는 형태소 분석이 필수적입니다.
# 'konlpy' 라이브러리의 'Okt'(Open Korean Text) 형태소 분석기를 사용하여 텍스트를 명사 단위로 분해하고,
# 이 명사들 중에서 빈도가 높은 단어들을 추출하는 방식을 사용합니다.
# 추가적으로, TF-IDF (Term Frequency-Inverse Document Frequency) 기법을 활용하여
# 문서 집합 내에서 특정 문서에만 자주 나타나는 중요한 단어를 식별하는 것도 고려할 수 있습니다.
# 그러나 여기서는 각 책별 핵심 키워드를 파악하는 것이 주 목적이므로,
# 1차적으로 형태소 분석 후 명사 빈도 분석을 사용하는 것이 직관적이고 효과적일 것으로 판단됩니다.
# 특히 '제목'과 '한 줄 소개' 같은 짧은 텍스트에서도 의미 있는 명사를 놓치지 않고 추출할 수 있습니다.

# 선택한 방법 설명 및 이유:
# - 방법: konlpy 라이브러리의 Okt 형태소 분석기를 사용하여 각 책의 결합된 텍스트에서 명사를 추출하고, 추출된 명사들의 빈도를 계산하여 상위 N개의 단어를 키워드로 선정합니다. 불용어 제거 과정을 추가하여 분석의 정확도를 높일 수 있습니다.
# - 이유: 한국어는 띄어쓰기만으로는 단어를 구분하기 어렵기 때문에 형태소 분석이 필수적입니다. Okt는 비교적 사용하기 쉽고 성능이 준수하여 한국어 텍스트 분석에 널리 사용됩니다. 명사는 텍스트에서 핵심적인 의미를 담고 있는 경우가 많으므로, 명사 빈도 분석은 텍스트의 주요 주제를 파악하는 효과적인 방법입니다. TF-IDF는 문서 간 중요도를 비교하는 데 유용하지만, 단일 문서(각 책)의 핵심 내용을 파악하는 데는 단순 빈도 분석이 더 직접적일 수 있습니다.

## 키워드 추출 실행

### Subtask:
선택한 방법(konlpy Okt를 이용한 명사 추출 및 빈도 분석)을 사용하여 각 책 정보에서 키워드를 추출합니다.

다음 단계에서는 선택한 방법(konlpy Okt를 이용한 명사 추출 및 빈도 분석)을 사용하여

'all_book_details' 리스트의 각 책에 대해 키워드를 추출하는 코드를 작성합니다.

불용어 리스트를 정의하고 적용



In [5]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (5.0 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m96.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (495 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m495.9/495.9 kB[0m [31m37.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.6.0 konlpy-0.6.0


## 책의 주제를 파악하기 위해서 책 제목 + 한줄 소개 + 요약글을 합쳐 빈도분석 TF-IDF 방식을 사용함

In [6]:
from konlpy.tag import Okt
from collections import Counter

# 1. `konlpy` 라이브러리에서 `Okt` 형태소 분석기를 임포트합니다. (already imported above)
okt = Okt()

# 2. 불용어 리스트를 정의합니다.
# 일반적인 한국어 불용어 및 책 내용과 관련된 일반적인 단어 추가
stopwords = set([
    '은', '는', '이', '가', '을', '를', '과', '와', '하다', '이다', '있다', '없다',
    '에서', '으로', '에게', '에게서', '한테', '한테서', '이다', '아니다', '되다', '하다',
    '같다', '같습니다', '같아요', '같습니다', '같은', '같은데', '같은데요',
    '되다', '됩니다', '되었어요', '되었습니다', '되는데', '되는데요',
    '있다', '있습니다', '있어요', '있는데', '있는데요',
    '없다', '없습니다', '없어요', '없는데', '없는데요',
    '책', '이야기', '내용', '부분', '수', '것', '곳', '때', '점', '분', '말', '글', '저자', '독자',
    '사람', '우리', '모든', '다양한', '많은', '어떤', '이런', '그렇다', '그리고', '하지만', '그래서',
    '통해', '대해', '따라', '위해', '대한', '처럼', '만큼', '같이','이자',
    '이번', '지난', '다음', '각자', '서로', '함께', '다시', '정말', '가장', '더욱', '조금', '아마',
    '~다', '~하다', '~이다', '~되다', '~습니다', '~어요', '~는데', '~데요',
    '페이지', '작가', '작품', '출판', '출간', '소설', '시집', '에세이', '그림책', '독립출판',
    '이번호', '매거진', 'vol', 'no'
])


# 3. 각 책의 정보를 담고 있는 `all_book_details` 리스트를 반복합니다.
for book in all_book_details:
    # 4. 각 책에 대해 '제목', '한 줄 소개', '요약글' 필드의 텍스트를 하나의 문자열로 결합합니다.
    # 필드가 없을 경우를 대비해 .get() 사용
    combined_text = book.get('제목', '') + ' ' + book.get('한 줄 소개', '') + ' ' + book.get('요약글', '')

    # 9. 키워드 추출 과정에서 발생할 수 있는 예외(예: 텍스트가 비어있는 경우)를 처리합니다.
    if not combined_text.strip():
        book['키워드'] = [] # 텍스트가 비어있으면 키워드 리스트를 비워둡니다.
        print(f"경고: {book.get('URL', '알 수 없는 URL')} 의 텍스트가 비어있어 키워드를 추출할 수 없습니다.")
        continue

    try:
        # 5. 결합된 텍스트에 대해 `Okt` 형태소 분석기를 사용하여 명사를 추출합니다.
        nouns = okt.nouns(combined_text)

        # 6. 추출된 명사 리스트에서 정의된 불용어를 제거합니다.
        filtered_nouns = [noun for noun in nouns if noun not in stopwords and len(noun) > 1] # 한 글자 명사 제외

        # 7. 불용어가 제거된 명사들에 대해 빈도를 계산합니다.
        noun_counts = Counter(filtered_nouns)

        # 8. 계산된 빈도를 바탕으로 각 책별 상위 N개 (예: 10개)의 명사를 해당 책의 키워드로 저장합니다.
        # 상위 10개 키워드 추출
        top_keywords = [keyword for keyword, count in noun_counts.most_common(10)]

        # 이 키워드를 `all_book_details` 리스트의 해당 책 정보 딕셔너리에 새로운 키('키워드')로 추가합니다.
        book['키워드'] = top_keywords

    except Exception as e:
        # 형태소 분석 중 발생할 수 있는 다른 예외 처리
        book['키워드'] = []
        print(f"오류 발생: {book.get('URL', '알 수 없는 URL')} 에서 키워드 추출 중 오류 발생 - {e}")


# 결과 확인 (처음 몇 개의 책에 대해 추출된 키워드 출력)
print("\n--- 추출된 키워드 확인 (처음 5개 책) ---")
for i, book in enumerate(all_book_details[:5]):
    print(f"Book {i+1}: {book.get('제목', 'N/A')}")
    print(f"  키워드: {book.get('키워드', '키워드 추출 실패')}")
    print("-" * 20)



--- 추출된 키워드 확인 (처음 5개 책) ---
Book 1: 이렇게 일하는 게 맞나요?
  키워드: ['당신', '사회', '질문', '전공', '스타트업', '낯선', '세계', '마케터', '성장', '기록']
--------------------
Book 2: 그리고 우리는 좀 더 행복해졌다
  키워드: ['여성', '일상', '시골', '출산', '연대', '시작', '고백', '육아', '웃음', '모두']
--------------------
Book 3: 인생낚시 낚시인생
  키워드: ['낚시', '인생', '바다', '취미', '세상', '보신', '대화', '훌룡', '친구', '동반']
--------------------
Book 4: 중소기업 생존기
  키워드: ['중소기업', '기업', '자금', '시골', '투자', '지원', '사업', '직원', '생존', '매출']
--------------------
Book 5: 일본 간다면, 이 정도 역사는 알고 가야지
  키워드: ['일본', '역사', '여행', '여행객', '라멘', '여행자', '한국인', '방법', '먼저', '편견']
--------------------


## 추출된 키워드 정리 및 표시

### Subtask:
추출된 키워드를 정리하고, 각 책별 키워드 또는 전체 키워드 목록을 보기 좋게 표시합니다.


In [None]:
# 각 책별로 추출된 키워드를 책 제목과 함께 보기 좋게 출력합니다.
print("--- 각 책별 추출 키워드 ---")
for book in all_book_details:
    title = book.get('제목', '제목 없음')
    keywords = book.get('키워드', [])
    print(f"제목: {title}")
    if keywords:
        print(f"  키워드: {', '.join(keywords)}")
    else:
        print("  키워드: 추출된 키워드 없음")
    print("-" * 20)


--- 각 책별 추출 키워드 ---
제목: 그리고 우리는 좀 더 행복해졌다
  키워드: 여성, 일상, 시골, 출산, 연대, 시작, 고백, 육아, 웃음, 모두
--------------------
제목: 인생낚시 낚시인생
  키워드: 낚시, 인생, 바다, 취미, 세상, 보신, 대화, 훌룡, 친구, 이자
--------------------
제목: 중소기업 생존기
  키워드: 중소기업, 기업, 자금, 시골, 투자, 지원, 사업, 직원, 생존, 매출
--------------------
제목: 일본 간다면, 이 정도 역사는 알고 가야지
  키워드: 일본, 역사, 여행, 여행객, 라멘, 여행자, 한국인, 방법, 먼저, 편견
--------------------
제목: 아트 호러
  키워드: 영화, 호러, 감독, 아리, 애스터, 장르, 로버트, 에거스, 아트, 이자
--------------------
제목: 마음의 정원
  키워드: 정원, 마음, 마주, 이의, 재주, 안식처, 누구, 가슴
--------------------
제목: 사과씨 나눠 먹기
  키워드: 사과, 수확, 현실, 먹기, 반드시, 씨앗, 건배, 피어, 순간, 시인
--------------------
제목: 도도로기 어디론가 가는 중
  키워드: 도도, 로기, 어디, 생일, 아이, 여행, 도시, 위로, 순간, 혼자
--------------------
제목: nu thanks magazine - no.2
  키워드: 다른, 명의, 인터뷰, 연작, 누땡스, 취향, 공간, 공유, 중점, 구성
--------------------
제목: 나를 읽는 시간
  키워드: 누군가, 사랑, 시간, 아주, 개인, 보통, 깨달, 갈수록, 다른, 여유도
--------------------
제목: 마법사 개구리 팝푸
  키워드: 행복, 마법사, 개구리, 레시피, 모험, 물약, 재료, 순간, 과연, 완성
--------------------
제목: les Parisiens.
  키워드: 사진, 모습, 시간, 도시, 생각