# BeautifulSoup 사용법

```
uv add beautifulsoup4
```

* [참고자료, TCP School](https://tcpschool.com/html/html_intro_elementStructure)

# 1. 미니 실습

In [2]:
html = """
<html>
  <body>
    <div id="main" class="content">
      <h1>첫 번째 헤더</h1>
      <h1 class="header">두 번째 헤더</h1>
      <p class="description">설명입니다.</p>
      <a href="https://example1.com" class="link">링크 1</a>
      <a href="https://example2.com" class="link">링크 2</a>
      <a href="https://example3.com" class="external">링크 3</a>
    </div>
    <div id="main2" class="content">
      <div class="items">
        <div>
            <img class="thumbnail" src="/data/picture1.png" />
            <div class="title">타이틀1</div>
            <div class="description">설명1</div>
        </div>
        <div>
            <img class="thumbnail" src="/data/picture2.png" />
            <div class="title">타이틀2</div>
            <div class="description">설명2</div>
        </div>
        <div>
            <img class="thumbnail" src="/data/picture3.png" />
            <div class="title test">타이틀3</div>
            <div class="description">설명3</div>
        </div>
      </div>
    </div>
  </body>
</html>
"""

## 1) HTML 파싱 준비

In [3]:
# HTML 파싱할 준비
from bs4 import BeautifulSoup
# 줄바꿈(\n) : ENTER
soup = BeautifulSoup(html, 'html.parser')

## 2) 파싱

### `soup.find("태그명", class_, id)`

In [4]:
# 미션1: 맨 처음 나오는 class가 title인 div를 추출해주세요
# 예상 답안: <div class="title">타이틀1</div>
soup.find("div", class_="title")

<div class="title">타이틀1</div>

In [None]:
# 미션2: 맨 처음 나오는 img를 추출해주세요
# 예상 답안: <img class="thumbnail" src="/data/picture1.png" />
soup.find("img")

<img class="thumbnail" src="/data/picture1.png"/>

### `soup.find_all("태그명", class_, id)`

In [None]:
# 미션3: class가 title인 div를 모두 추출해주세요
# 예상 답안
## <div class="title">타이틀1</div>
## <div class="title">타이틀2</div>
## <div class="title">타이틀3</div>
soup.find_all("div", class_="title")

[<div class="title">타이틀1</div>,
 <div class="title">타이틀2</div>,
 <div class="title test">타이틀3</div>]

In [None]:
# 미션4: class가 items인 div 안의 div들을 모두 추출해주세요
## 1. class가 items인 div를 가져온다.
items = soup.find("div", class_="items")
div_list = items.find_all("div")
for div in div_list:
    print(div)
    print("---")

<div>
<img class="thumbnail" src="/data/picture1.png"/>
<div class="title">타이틀1</div>
<div class="description">설명1</div>
</div>
---
<div class="title">타이틀1</div>
---
<div class="description">설명1</div>
---
<div>
<img class="thumbnail" src="/data/picture2.png"/>
<div class="title">타이틀2</div>
<div class="description">설명2</div>
</div>
---
<div class="title">타이틀2</div>
---
<div class="description">설명2</div>
---
<div>
<img class="thumbnail" src="/data/picture3.png"/>
<div class="title test">타이틀3</div>
<div class="description">설명3</div>
</div>
---
<div class="title test">타이틀3</div>
---
<div class="description">설명3</div>
---


### 속성 찾기

In [8]:
# 미션4: img 태그에서 src를 추출해주세요
print(soup.find("img").attrs)
print(soup.find("img").attrs["src"])
print(soup.find("img").get("src"))
print(soup.find("img")["src"])

{'class': ['thumbnail'], 'src': '/data/picture1.png'}
/data/picture1.png
/data/picture1.png
/data/picture1.png


In [9]:
# 미션5: a 태그에서 href를 출력해주세요
## 목표: 맨 처음 나오는 a 태그를 추출 <a href="https://example1.com" class="link">링크 1</a>
print(soup.find("a").attrs)
print(soup.find("a").attrs["href"])
print(soup.find("a").get("href"))
print(soup.find("a")["href"])

{'href': 'https://example1.com', 'class': ['link']}
https://example1.com
https://example1.com
https://example1.com


### `soup.select_one("경로")`

In [48]:
print(html)


<html>
  <body>
    <div id="main" class="content">
      <h1>첫 번째 헤더</h1>
      <h1 class="header">두 번째 헤더</h1>
      <p class="description">설명입니다.</p>
      <a href="https://example1.com" class="link">링크 1</a>
      <a href="https://example2.com" class="link">링크 2</a>
      <a href="https://example3.com" class="external">링크 3</a>
    </div>
    <div id="main2" class="content">
      <div class="items">
        <div>
            <img class="thumbnail" src="/data/picture1.png" />
            <div class="title">타이틀1</div>
            <div class="description">설명1</div>
        </div>
        <div>
            <img class="thumbnail" src="/data/picture2.png" />
            <div class="title">타이틀2</div>
            <div class="description">설명2</div>
        </div>
        <div>
            <img class="thumbnail" src="/data/picture3.png" />
            <div class="title test">타이틀3</div>
            <div class="description">설명3</div>
        </div>
      </div>
    </div>
  </body>
</html>



In [11]:
# 위의 html에서 맨 처음으로 나오는 div 다음 a인 것을 추출해주세요
soup.select_one("div > a")

<a class="link" href="https://example1.com">링크 1</a>

### `soup.select("경로")`

In [12]:
# 위의 html에서 div 다음 a인 것을 모두 추출해주세요
soup.select("div > a")

[<a class="link" href="https://example1.com">링크 1</a>,
 <a class="link" href="https://example2.com">링크 2</a>,
 <a class="external" href="https://example3.com">링크 3</a>]

In [13]:
# 미션6: class가 items인 div 안의 div들을 모두 추출해주세요
soup.select("div.items > div")

[<div>
 <img class="thumbnail" src="/data/picture1.png"/>
 <div class="title">타이틀1</div>
 <div class="description">설명1</div>
 </div>,
 <div>
 <img class="thumbnail" src="/data/picture2.png"/>
 <div class="title">타이틀2</div>
 <div class="description">설명2</div>
 </div>,
 <div>
 <img class="thumbnail" src="/data/picture3.png"/>
 <div class="title test">타이틀3</div>
 <div class="description">설명3</div>
 </div>]

In [14]:
# 미션7: class가 title인 div를 select 함수를 이용해서 모두 추출해주세요
soup.select("div.items > div > div.title")

[<div class="title">타이틀1</div>,
 <div class="title">타이틀2</div>,
 <div class="title test">타이틀3</div>]

In [15]:
# 미션8: class가 title test인 div를 추출해주세요
soup.select("div.items > div > div.title.test")

[<div class="title test">타이틀3</div>]

In [16]:
# 미션9: id가 main2인 div를 추출해주세요
soup.select("#main2")

[<div class="content" id="main2">
 <div class="items">
 <div>
 <img class="thumbnail" src="/data/picture1.png"/>
 <div class="title">타이틀1</div>
 <div class="description">설명1</div>
 </div>
 <div>
 <img class="thumbnail" src="/data/picture2.png"/>
 <div class="title">타이틀2</div>
 <div class="description">설명2</div>
 </div>
 <div>
 <img class="thumbnail" src="/data/picture3.png"/>
 <div class="title test">타이틀3</div>
 <div class="description">설명3</div>
 </div>
 </div>
 </div>]

# 2. 교보문고 크롤링

* [교보문고 웹사이트](https://www.kyobobook.co.kr/)
* 목표: keyword를 입력했을 때 검색 결과를 

## 1) 데이터 요청하기

In [49]:
# 조건 설정
keyword = "인공지능"
target = "kyobo"
gbCode = "TOT"
page = 1

# URL
base_url = "https://search.kyobobook.co.kr/search"

In [50]:
import requests
params = {
    "keyword": "인공지능",
    "target": "kyobo",
    "gbCode": "TOT",
    "page": 1
}
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36"
}
response = requests.get(base_url, params=params, headers=headers)
response.status_code

200

## 2) HTML 파싱 준비

In [51]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text)
soup

<!DOCTYPE html>
<html data-service="search" data-view="ink" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1, minimum-scale=1, maximum-scale=1" name="viewport"/>
<meta content="인공지능 검색결과 | 교보문고" name="title"/>
<meta content="인공지능 검색결과 | 교보문고" property="og:title"/>
<meta content="꿈을 키우는 세상 교보문고는 온오프라인을 통틀어 대한민국 최고의 도서쇼핑몰이며 전자책, 음반, 기프트, 문화서비스까지 제공하는 종합문화기업입니다." name="description"/>
<meta content="꿈을 키우는 세상 교보문고는 온오프라인을 통틀어 대한민국 최고의 도서쇼핑몰이며 전자책, 음반, 기프트, 문화서비스까지 제공하는 종합문화기업입니다." property="og:description"/>
<meta content="website" property="og:type"/>
<meta content="https://contents.kyobobook.co.kr/resources/fo/images/common/ink/img_logo_kyobo@2x.png" property="og:image"/>
<meta content="http://mobile.kyobobook.co.kr" property="og:url"/>
<meta content="date=no" name="format-detection"/>
<meta content="2dlgBOp3K0s6wHjZo_Hkas6yaYPKZIVsmres9vC3F34" name="google-site-verification"/>
<meta conten

## 3) 파싱

In [21]:
# 가지고 오려고 하는 전체 영역을 본다.
## 목표: <ul class="prod_list"> 안의 내용을 가져오기
prod_list = soup.find("ul", class_="prod_list")

In [22]:
## 목표: <li class="prod_item"> 모두 가져오기
items = prod_list.find_all("li", class_="prod_item")
# 너무 길어서 확인 불가
# for item in items:
#     print(item)
#     print("="*100)
print(type(items))
print(len(items))

<class 'bs4.element.ResultSet'>
20


In [23]:
## 첫번째 책에 대한 정보
book = items[0]     # 첫번째 책에 대한 정보

### 책 URL

In [52]:
## 목표: <img class="prod_img_load"> 의 src 가져오기
book.find("img", class_="prod_img_load")

<img class="prod_img_load" data-kbbfn="s3-image" data-kbbfn-adult="0" data-kbbfn-attr="src" data-kbbfn-bid="9791140708277" data-kbbfn-pid="S000212372878" data-kbbfn-size="200x0" data-kbbfn-title="최소한의 데이터 리터러시" data-kbbfn-type="KOR"/>

In [53]:
## attrs를 확인해봤을 때 src가 조회되지 않는 문제가 발생
book.find("img", class_="prod_img_load").attrs

{'class': ['prod_img_load'],
 'data-kbbfn': 's3-image',
 'data-kbbfn-pid': 'S000212372878',
 'data-kbbfn-bid': '9791140708277',
 'data-kbbfn-type': 'KOR',
 'data-kbbfn-attr': 'src',
 'data-kbbfn-size': '200x0',
 'data-kbbfn-title': '최소한의 데이터 리터러시',
 'data-kbbfn-adult': '0'}

In [25]:
## 대체 안으로 이미지를 클릭했을 때 얻을 수 있는 하이퍼링크(href)로 결정함.
img_url = book.find("a", class_="prod_link")["href"]
print(img_url)

https://product.kyobobook.co.kr/detail/S000217058842


### 책 정보

In [27]:
## 목표: 책이름, 저자, 출판사, 출판일, 할인가격, 가격, 평점, 리뷰 수 추출하기
## <div class="prod_info_box">를 찾아 그 다음 <div>들의 목록 파악하기
info_box = book.select("div.prod_info_box > div")
for x in info_box:
    print(x.get("class"))

['prod_badge']
['auto_overflow_wrap', 'prod_name_group']
['prod_desc_info']
['prod_author_info']
['prod_price']
['prod_bottom']
['tag_wrap', 'size_sm']


### 책 이름

In [28]:
## 책 제목을 찾을 수 있는 HTML 변수 만들기
title_box = book.select_one("div.prod_info_box > div.auto_overflow_wrap.prod_name_group")
## 책 제목을 불러오기 위해 auto_overflow_inner 클래스를 가진 div > a 태그를 가진 것 추출하기
title_a = title_box.select_one("div.auto_overflow_inner > a")
title_a.text

'\n[국내도서]\n예약판매\n과학토론: part.3 인공지능\n'

In [29]:
## 만약 title_a에 예약판매가 있다면 인덱스 2부터 합치고, 아니면 1부터 합치자
## 양쪽 공백을 제거하고 \n으로 구분하기
title_list = title_a.text.strip().split("\n")
print(title_list)
if "예약판매" in title_a.text:
    titles = title_list[2:]
    print(titles)
else:
    titles = title_list[1:]
    print(titles)
print(" ".join(titles))

['[국내도서]', '예약판매', '과학토론: part.3 인공지능']
['과학토론: part.3 인공지능']
과학토론: part.3 인공지능


### 저자, 출판사

In [30]:
## 저자, 출판사를 찾을 수 있는 HTML 변수 만들기
author_box = book.select_one("div.prod_info_box > div.prod_author_info")
## 저자 HTML(div.auto_overflow_wrap.prod_author_group), 출판사 HTML(div.prod_publish) 로 구분하기
author_box_deep, publish_box = book.select("div.prod_info_box > div.prod_author_info > div")

In [31]:
author_box_deep.text

'\n\n\n\n\n\n\n전진홍\n\n\n저자(글)\n\n\n\n더보기\n\n\n\n\n\n\n닫기\n\n\n저자 모두보기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n'

In [32]:
author_box_deep.text.strip().split("|")

['전진홍\n\n\n저자(글)\n\n\n\n더보기\n\n\n\n\n\n\n닫기\n\n\n저자 모두보기']

In [33]:
## 저자 HTML
### 양쪽 공백을 제거하고
### "|"을 기준으로 구분한다.
author_list = author_box_deep.text.strip().split("|")
authors = []
for author in author_list:
    temp = author.strip().split("\n\n\n")
    # print(temp)
    # print(f"name: {temp[0]}, role: {temp[1]}")
    # role이 저자인 name만 가져오기
    if "저자" in temp[1]:
        # print(f"name: {temp[0]}")
        authors.append(temp[0])
authors

['전진홍']

In [34]:
", ".join(authors)

'전진홍'

In [35]:
publish_box.text

'\n색안경\n·\n2025년 06월 18일\n'

In [36]:
## 출판사 HTML
### 양쪽 공백을 제거하고
### \n·\n을 기준으로 구분한다.
publisher, publish_date = publish_box.text.strip().split("\n·\n")
print(publisher)
print(publish_date)

색안경
2025년 06월 18일


#### 가격

In [37]:
## 가격을 찾을 수 있는 HTML 변수 만들기
price_box = book.select_one("div.prod_info_box > div.prod_price")
price_box.text

'\n10%\n\n45,000\n원\xa0\n\n\n정가\n50,000원\n\n|\n\r\n                            2,500p\r\n                            (5%)\n\n'

In [38]:
price = price_box.select_one("span.price > span.val").text
int(price.replace(",",""))

45000

In [39]:
price_normal = price_box.select_one("span.price_normal > s.val").text[:-1]
int(price_normal.replace(",",""))

50000

### 평점, 리뷰 수

In [40]:
## 평점, 리뷰 수를 찾을 수 있는 HTML 변수 만들기
review_box = book.select_one("div.prod_info_box > div.prod_bottom")
review_box.text

'\n\n\n\n\n\n관심 등록\n0\n\n\n\n\n\n\n\n\n\n0.0\n\n(0)\n\n\n\n\n\n\n'

In [41]:
score = review_box.select_one("span.review_klover_box > span").text
float(score)

0.0

In [42]:
review_cnt = review_box.select_one("span.review_desc").text[1:-1]
int(review_cnt)

0

### 책 한개에 대한 종합

In [43]:
## 첫번째 책에 대한 정보
book = items[11]

# 책 URL
img_url = book.find("a", class_="prod_link")["href"]
# print(img_url)

# 책 이름
title_box = book.select_one("div.prod_info_box > div.auto_overflow_wrap.prod_name_group")
title_a = title_box.select_one("div.auto_overflow_inner > a")
title_list = title_a.text.strip().split("\n")
if "예약판매" in title_a.text:
    titles = title_list[2:]
else:
    titles = title_list[1:]
title = " ".join(titles)
# print(title)

# 책 저자
author_box = book.select_one("div.prod_info_box > div.prod_author_info")
author_box_deep, publish_box = book.select("div.prod_info_box > div.prod_author_info > div")

author_list = author_box_deep.text.strip().split("|")
authors = []
for author in author_list:
    temp = author.strip().split("\n\n\n")
    # print(temp)
    # print(f"name: {temp[0]}, role: {temp[1]}")
    # role이 저자인 name만 가져오기
    if "저자" in temp[1]:
        # print(f"name: {temp[0]}")
        authors.append(temp[0])
author = ", ".join(authors)
# print(author)

# 책 출판사
publisher, publish_date = publish_box.text.strip().split("\n·\n")
# print(publisher)
# print(publish_date)

# 책 가격
price_box = book.select_one("div.prod_info_box > div.prod_price")

price_text = price_box.select_one("span.price > span.val").text
price = int(price_text.replace(",",""))
# print(price)

#### 할인이 되지 않는 책 발생(위치: 11)
try:
    price_normal = price_box.select_one("span.price_normal > s.val").text[:-1]
    price_normal = int(price_normal.replace(",",""))
except:
    price_normal = ""
# print(price_normal)

# 책 평점
review_box = book.select_one("div.prod_info_box > div.prod_bottom")

score = review_box.select_one("span.review_klover_box > span").text
score = float(score)
# print(score)

# 책 리뷰 수
review_cnt = review_box.select_one("span.review_desc").text[1:-1]
review_cnt = int(review_cnt)
# print(review_cnt)

# 데이터 종합
book_dict = {
    "title": title,
    "img_url": img_url,
    "author": author,
    "publisher": publisher,
    "publish_date": publish_date,
    "price": price,
    "price_normal": price_normal,
    "score": score,
    "review_cnt": review_cnt
}
book_dict

{'title': '누구나 읽는 수학의 역사',
 'img_url': 'https://product.kyobobook.co.kr/detail/S000000612874',
 'author': '안소정',
 'publisher': '창비',
 'publish_date': '2020년 11월 27일',
 'price': 15120,
 'price_normal': 16800,
 'score': 10.0,
 'review_cnt': 9}

## 4) 한 페이지의 모든 Book 정보 수집(반복문)

In [44]:
# 몇 번 반복해야 하는가? items의 길이만큼
# 빈 리스트 만들어서 넣기
book_list = []
for i in range(len(items)):
    ## 첫번째 책에 대한 정보
    book = items[i]

    # 책 URL
    img_url = book.find("a", class_="prod_link")["href"]
    # print(img_url)

    # 책 이름
    title_box = book.select_one("div.prod_info_box > div.auto_overflow_wrap.prod_name_group")
    title_a = title_box.select_one("div.auto_overflow_inner > a")
    title_list = title_a.text.strip().split("\n")
    if "예약판매" in title_a.text:
        titles = title_list[2:]
    else:
        titles = title_list[1:]
    title = " ".join(titles)
    # print(title)

    # 책 저자
    author_box = book.select_one("div.prod_info_box > div.prod_author_info")
    author_box_deep, publish_box = book.select("div.prod_info_box > div.prod_author_info > div")

    author_list = author_box_deep.text.strip().split("|")
    authors = []
    for author in author_list:
        temp = author.strip().split("\n\n\n")
        # print(temp)
        # print(f"name: {temp[0]}, role: {temp[1]}")
        # role이 저자인 name만 가져오기
        if "저자" in temp[1]:
            # print(f"name: {temp[0]}")
            authors.append(temp[0])
    author = ", ".join(authors)
    # print(author)

    # 책 출판사
    publisher, publish_date = publish_box.text.strip().split("\n·\n")
    # print(publisher)
    # print(publish_date)

    # 책 가격
    price_box = book.select_one("div.prod_info_box > div.prod_price")

    price_text = price_box.select_one("span.price > span.val").text
    price = int(price_text.replace(",",""))
    # print(price)

    #### 할인이 되지 않는 책 발생(위치: 11)
    try:
        price_normal = price_box.select_one("span.price_normal > s.val").text[:-1]
        price_normal = int(price_normal.replace(",",""))
    except:
        price_normal = ""
    # print(price_normal)

    # 책 평점
    review_box = book.select_one("div.prod_info_box > div.prod_bottom")

    score = review_box.select_one("span.review_klover_box > span").text
    score = float(score)
    # print(score)

    # 책 리뷰 수
    review_cnt = review_box.select_one("span.review_desc").text[1:-1]
    review_cnt = int(review_cnt)
    # print(review_cnt)

    # 데이터 종합
    book_dict = {
        "title": title,
        "img_url": img_url,
        "author": author,
        "publisher": publisher,
        "publish_date": publish_date,
        "price": price,
        "price_normal": price_normal,
        "score": score,
        "review_cnt": review_cnt
    }
    # print(book_dict)
    book_list.append(book_dict)
book_list

[{'title': '과학토론: part.3 인공지능',
  'img_url': 'https://product.kyobobook.co.kr/detail/S000217058842',
  'author': '전진홍',
  'publisher': '색안경',
  'publish_date': '2025년 06월 18일',
  'price': 45000,
  'price_normal': 50000,
  'score': 0.0,
  'review_cnt': 0},
 {'title': '인공지능입문',
  'img_url': 'https://product.kyobobook.co.kr/detail/S000217120455',
  'author': '손창호, 이은애',
  'publisher': '양서각',
  'publish_date': '2025년 07월 31일',
  'price': 12600,
  'price_normal': 14000,
  'score': 0.0,
  'review_cnt': 0},
 {'title': '인공지능과 죽음',
  'img_url': 'https://product.kyobobook.co.kr/detail/S000217098239',
  'author': '심혁주',
  'publisher': '커뮤니케이션북스',
  'publish_date': '2025년 07월 31일',
  'price': 10800,
  'price_normal': 12000,
  'score': 0.0,
  'review_cnt': 0},
 {'title': '된다! 하루 만에 끝내는 챗GPT 활용법',
  'img_url': 'https://product.kyobobook.co.kr/detail/S000216645088',
  'author': '프롬프트 크리에이터',
  'publisher': '이지스퍼블리싱',
  'publish_date': '2025년 06월 04일',
  'price': 18000,
  'price_normal': 20000,
  'sco

## 5) 페이지 반복

### 체크리스트

- [ ] 한 페이지에 대한 책 정보 수집 반복문 작성
- [ ] 여러 페이지에 대한 반복문 작성
- [ ] 진행상황을 알 수 있도록 print() 작성
- [ ] 각 과정에 대한 주석 반드시 상세히 작성
---
- [ ] 금액, 평점, 리뷰 수를 정수, 실수 타입으로 변경
- [ ] (심화) 각 기능별로 함수 만들기
- [ ] (심화) 각 기능별 함수에 type 지정하기(import typing)
- [ ] (심화) 각 기능별로 함수 Docstring 작성해보기
- [ ] (심화) 클래스로 모듈 만들어보기


In [45]:
import os
import requests
import pandas as pd
from bs4 import BeautifulSoup
############################################################################################
# 변수 입력
############################################################################################
# 조건 설정
keyword = "인공지능"
target = "kyobo"
gbCode = "TOT"
target_page = 5

# URL
base_url = "https://search.kyobobook.co.kr/search"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36"
}

############################################################################################
# 수집 시작
############################################################################################
book_list = []
for page in range(1, target_page+1):
    #---------------------------------------------------------------------------------------
    # 데이터 요청
    #---------------------------------------------------------------------------------------
    params = {
        "keyword": keyword,
        "target": target,
        "gbCode": gbCode,
        "page": page
    }
    response = requests.get(base_url, params=params, headers=headers)
    #---------------------------------------------------------------------------------------
    # BeatifulSoup 만들기
    #---------------------------------------------------------------------------------------
    if response.status_code == 200:
        soup = BeautifulSoup(response.text)
    else:
        print("soup을 만드는 데 문제가 발생했습니다.")
        break
    #---------------------------------------------------------------------------------------
    # 크롤링 시작
    #---------------------------------------------------------------------------------------
    # 필요한 정보가 있는 영역 접근하기
    prod_list = soup.find("ul", class_="prod_list")
    items = prod_list.find_all("li", class_="prod_item")

    # 책 정보 가져오기
    print(f"Book", end=" ")
    for i in range(len(items)):
        ## 첫번째 책에 대한 정보
        book = items[i]

        # 책 URL
        img_url = book.find("a", class_="prod_link")["href"]
        # print(img_url)

        # 책 이름
        title_box = book.select_one("div.prod_info_box > div.auto_overflow_wrap.prod_name_group")
        title_a = title_box.select_one("div.auto_overflow_inner > a")
        title_list = title_a.text.strip().split("\n")
        if "예약판매" in title_a.text:
            titles = title_list[2:]
        else:
            titles = title_list[1:]
        title = " ".join(titles)
        # print(title)

        # 책 저자
        author_box = book.select_one("div.prod_info_box > div.prod_author_info")
        author_box_deep, publish_box = book.select("div.prod_info_box > div.prod_author_info > div")

        author_list = author_box_deep.text.strip().split("|")
        authors = []
        for author in author_list:
            temp = author.strip().split("\n\n\n")
            # print(temp)
            # print(f"name: {temp[0]}, role: {temp[1]}")
            # role이 저자인 name만 가져오기
            if "저자" in temp[1]:
                # print(f"name: {temp[0]}")
                authors.append(temp[0])
        author = ", ".join(authors)
        # print(author)

        # 책 출판사
        publisher, publish_date = publish_box.text.strip().split("\n·\n")
        # print(publisher)
        # print(publish_date)

        # 책 가격
        price_box = book.select_one("div.prod_info_box > div.prod_price")

        price_text = price_box.select_one("span.price > span.val").text
        price = int(price_text.replace(",",""))
        # print(price)

        #### 할인이 되지 않는 책 발생(위치: 11)
        try:
            price_normal = price_box.select_one("span.price_normal > s.val").text[:-1]
            price_normal = int(price_normal.replace(",",""))
        except:
            price_normal = ""
        # print(price_normal)

        # 책 평점
        review_box = book.select_one("div.prod_info_box > div.prod_bottom")

        score = review_box.select_one("span.review_klover_box > span").text
        score = float(score)
        # print(score)

        # 책 리뷰 수
        review_cnt = review_box.select_one("span.review_desc").text[1:-1]
        review_cnt = int(review_cnt)
        # print(review_cnt)

        # 데이터 종합
        book_dict = {
            "title": title,
            "img_url": img_url,
            "author": author,
            "publisher": publisher,
            "publish_date": publish_date,
            "price": price,
            "price_normal": price_normal,
            "score": score,
            "review_cnt": review_cnt
        }
        # print(book_dict)
        book_list.append(book_dict)
        print(f"{i+1}", end=" > ")
    print(f"페이지 {page} 수집 완료")

############################################################################################
# 데이터 저장
############################################################################################
# 변수 설정
filename = f"교보문고_{keyword}_p{page}_도서검색_결과.csv"
filepath = os.getcwd() + "/" + filename

# 데이터프레임 생성
data = pd.DataFrame(book_list)
data.to_csv(filepath, index=False)

# 완료 메세지
print(f"데이터 저장이 완료되었습니다.(filepath: {filepath})")

Book 1 > 2 > 3 > 4 > 5 > 6 > 7 > 8 > 9 > 10 > 11 > 12 > 13 > 14 > 15 > 16 > 17 > 18 > 19 > 20 > 페이지 1 수집 완료
Book 1 > 2 > 3 > 4 > 5 > 6 > 7 > 8 > 9 > 10 > 11 > 12 > 13 > 14 > 15 > 16 > 17 > 18 > 19 > 20 > 페이지 2 수집 완료
Book 1 > 2 > 3 > 4 > 5 > 6 > 7 > 8 > 9 > 10 > 11 > 12 > 13 > 14 > 15 > 16 > 17 > 18 > 19 > 20 > 페이지 3 수집 완료
Book 1 > 2 > 3 > 4 > 5 > 6 > 7 > 8 > 9 > 10 > 11 > 12 > 13 > 14 > 15 > 16 > 17 > 18 > 19 > 20 > 페이지 4 수집 완료
Book 1 > 2 > 3 > 4 > 5 > 6 > 7 > 8 > 9 > 10 > 11 > 12 > 13 > 14 > 15 > 16 > 17 > 18 > 19 > 20 > 페이지 5 수집 완료
데이터 저장이 완료되었습니다.(filepath: /Users/narae/Dropbox/김나래/에이치소프트/1_원티드랩/원티드랩2기/교보문고_인공지능_p5_도서검색_결과.csv)


In [None]:
data

Unnamed: 0,title,img_url,author,publisher,publish_date,price,price_normal,score,review_cnt
0,과학토론: part.3 인공지능,https://product.kyobobook.co.kr/detail/S000217...,전진홍,색안경,2025년 06월 18일,45000,50000,0.00,0
1,인공지능입문,https://product.kyobobook.co.kr/detail/S000217...,"손창호, 이은애",양서각,2025년 07월 31일,12600,14000,0.00,0
2,인공지능과 죽음,https://product.kyobobook.co.kr/detail/S000217...,심혁주,커뮤니케이션북스,2025년 07월 31일,10800,12000,0.00,0
3,된다! 하루 만에 끝내는 챗GPT 활용법,https://product.kyobobook.co.kr/detail/S000216...,프롬프트 크리에이터,이지스퍼블리싱,2025년 06월 04일,18000,20000,9.89,38
4,서울대학교 AI융합교육학과 인공지능 수업 가이드,https://product.kyobobook.co.kr/detail/S000216...,"오유나, 박동열, 하민수, 조승호, 민환웅, 최은수, 김재훈, 박소희, 백지혜, 심...",다빈치books,2025년 07월 10일,22500,25000,10.00,17
...,...,...,...,...,...,...,...,...,...
95,모두의 인공지능 기초 수학,https://product.kyobobook.co.kr/detail/S000001...,서지영,길벗,2020년 08월 06일,22500,25000,9.02,36
96,인공지능과 영상 미디어 생태계의 진화,https://product.kyobobook.co.kr/detail/S000215...,"김광집, 이재현",커뮤니케이션북스,2025년 02월 28일,12000,,0.00,0
97,인공지능 시대의 교육방법 및 교육공학,https://product.kyobobook.co.kr/detail/S000214...,"백영균, 김정겸, 변호승, 왕경수, 윤미현, 최명숙",학지사,2024년 01월 30일,23000,,0.00,0
98,인공지능과 데이터 분석을 위한 오렌지,https://product.kyobobook.co.kr/detail/S000213...,김계수,한경사,2024년 04월 30일,35000,,10.00,1
