# 정적 크롤링: BeautifulSoup


` uv add beautifulsoup4 `

## 1) HTML 파싱 준비

In [1]:
html = """
<html>
  <body>
    <div id="main" class="content">
      <h1>첫 번째 헤더</h1>
      <h1 class="header">두 번째 헤더</h1>
      <p class="description">설명입니다.</p>
      <a href="https://example1.com" class="link">링크 1</a>
      <a href="https://example2.com" class="link">링크 2</a>
      <a href="https://example3.com" class="external">링크 3</a>
    </div>
    <div id="main2" class="content">
      <div class="items">
        <div>
            <img class="thumbnail" src="/data/picture1.png" />
            <div class="title">타이틀1</div>
            <div class="description">설명1</div>
        </div>
        <div>
            <img class="thumbnail" src="/data/picture2.png" />
            <div class="title">타이틀2</div>
            <div class="description">설명2</div>
        </div>
        <div>
            <img class="thumbnail" src="/data/picture3.png" />
            <div class="title test">타이틀3</div>
            <div class="description">설명3</div>
        </div>
      </div>
    </div>
  </body>
</html>
"""

In [2]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup)


<html>
<body>
<div class="content" id="main">
<h1>첫 번째 헤더</h1>
<h1 class="header">두 번째 헤더</h1>
<p class="description">설명입니다.</p>
<a class="link" href="https://example1.com">링크 1</a>
<a class="link" href="https://example2.com">링크 2</a>
<a class="external" href="https://example3.com">링크 3</a>
</div>
<div class="content" id="main2">
<div class="items">
<div>
<img class="thumbnail" src="/data/picture1.png"/>
<div class="title">타이틀1</div>
<div class="description">설명1</div>
</div>
<div>
<img class="thumbnail" src="/data/picture2.png"/>
<div class="title">타이틀2</div>
<div class="description">설명2</div>
</div>
<div>
<img class="thumbnail" src="/data/picture3.png"/>
<div class="title test">타이틀3</div>
<div class="description">설명3</div>
</div>
</div>
</div>
</body>
</html>



# 2) 파싱

`soup.find('태그명', class_, id)`

In [3]:
# 맨 처음 나오는 class 이름이 title인 div를 추출해주세요
soup.find("div", class_="title")

<div class="title">타이틀1</div>

In [4]:
soup.find_all("div", class_="title")

[<div class="title">타이틀1</div>,
 <div class="title">타이틀2</div>,
 <div class="title test">타이틀3</div>]

In [6]:
outputs = soup.find_all("div", class_="title")

for out in outputs:
    print(out.text)

타이틀1
타이틀2
타이틀3


In [9]:
outputs = soup.find_all("div", class_="description")

In [10]:
for out in outputs:
    print(out.text)

설명1
설명2
설명3


In [15]:
output = soup.find("h1", class_="header")
output.text

'두 번째 헤더'

In [18]:
print(soup.find_all("div", class_="description")[2].text)

설명3


In [None]:
outputs = soup.find_all("a")

for out in outputs:
    print(out.text)
    print(out["href"])
    print(out.attrs)
    print(out.attrs["href"])
    print(out.attrs.get("href")) ## 딕셔너리에서 링크가 없을때 오류가 나지 않는다.
    print()

링크 1
https://example1.com
{'href': 'https://example1.com', 'class': ['link']}
https://example1.com
https://example1.com

링크 2
https://example2.com
{'href': 'https://example2.com', 'class': ['link']}
https://example2.com
https://example2.com

링크 3
https://example3.com
{'href': 'https://example3.com', 'class': ['external']}
https://example3.com
https://example3.com



In [40]:
# html에서 image, title, description열을 가진 데이터 프레임을 만들고 싶다.
# 안에 들어갈 데이터는 image의 url, 제목, 설명을 넣고 싶어요.

items_html = soup.find("div", class_="items")
items_html


<div class="items">
<div>
<img class="thumbnail" src="/data/picture1.png"/>
<div class="title">타이틀1</div>
<div class="description">설명1</div>
</div>
<div>
<img class="thumbnail" src="/data/picture2.png"/>
<div class="title">타이틀2</div>
<div class="description">설명2</div>
</div>
<div>
<img class="thumbnail" src="/data/picture3.png"/>
<div class="title test">타이틀3</div>
<div class="description">설명3</div>
</div>
</div>

In [41]:
imgs =items_html.find_all("img")
imgs

titles = items_html.find_all("div", class_="title")
titles

descripts = items_html.find_all("div", class_="description")
descripts

[<div class="description">설명1</div>,
 <div class="description">설명2</div>,
 <div class="description">설명3</div>]

In [84]:
srcs = []
for i in imgs:
    srcs.append(i.attrs["src"])


In [43]:
title = []
for i in titles:
    title.append(i.text)

des = []
for i in descripts:
    des.append(i.text)

des


['설명1', '설명2', '설명3']

In [44]:
import pandas as pd

data = {"image" : srcs, "title" : title, "description" : des}

df = pd.DataFrame(data)

In [45]:
df

Unnamed: 0,image,title,description
0,/data/picture1.png,타이틀1,설명1
1,/data/picture2.png,타이틀2,설명2
2,/data/picture3.png,타이틀3,설명3


In [66]:
div_outputs = items_html.find_all("div", recursive=False) 
## 바로 아래 속한 div만 가져오기 위해 recursive=False
print(div_outputs)

[<div>
<img class="thumbnail" src="/data/picture1.png"/>
<div class="title">타이틀1</div>
<div class="description">설명1</div>
</div>, <div>
<img class="thumbnail" src="/data/picture2.png"/>
<div class="title">타이틀2</div>
<div class="description">설명2</div>
</div>, <div>
<img class="thumbnail" src="/data/picture3.png"/>
<div class="title test">타이틀3</div>
<div class="description">설명3</div>
</div>]


In [81]:
data_list = []
for output in div_outputs:
    temp_dict = {}
    temp_dict["image"] = output.find("img").attrs["src"]
    temp_dict["title"] = output.find("div", class_="title").text
    temp_dict["description"] = output.find("div", class_="description").text
    data_list.append(temp_dict)
    print("======"*3)



In [80]:
data_list

[{'imgurl': '/data/picture1.png', 'title': '타이틀1', 'des': '설명1'},
 {'imgurl': '/data/picture2.png', 'title': '타이틀2', 'des': '설명2'},
 {'imgurl': '/data/picture3.png', 'title': '타이틀3', 'des': '설명3'}]

In [82]:
df = pd.DataFrame(data_list)
df

Unnamed: 0,image,title,description
0,/data/picture1.png,타이틀1,설명1
1,/data/picture2.png,타이틀2,설명2
2,/data/picture3.png,타이틀3,설명3


## ` soup.select('경로') `

* 클래스명: 태그명.클래스이름
* id명: `#id이름`

In [86]:
# 링크 1을 출력하고 싶어요
soup.select_one('div > a')

<a class="link" href="https://example1.com">링크 1</a>

In [101]:
# 링크 2을 출력하고 싶어요
soup.select('div > a')[1].attrs["href"]

'https://example2.com'

In [98]:
#링크 2를 출력하고 싶어요
soup.select('div#main > a:nth-child(5)')

[<a class="link" href="https://example2.com">링크 2</a>]

In [None]:
# <div>
#     <img class="thumbnail" src="/data/picture3.png" />
#     <div class="title test">타이틀3</div>
#     <div class="description">설명3</div>
# </div> 를 출력하고싶어요

# div.items > div:nth-child(3) -> div.items 밑에서 div중에 3번째 자식을 가져와라
soup.select('div.items > div:nth-child(3)')

[<div>
 <img class="thumbnail" src="/data/picture3.png"/>
 <div class="title test">타이틀3</div>
 <div class="description">설명3</div>
 </div>]

In [85]:
#id 가 main2를 출력해주세요
soup.select('#main2')

[<div class="content" id="main2">
 <div class="items">
 <div>
 <img class="thumbnail" src="/data/picture1.png"/>
 <div class="title">타이틀1</div>
 <div class="description">설명1</div>
 </div>
 <div>
 <img class="thumbnail" src="/data/picture2.png"/>
 <div class="title">타이틀2</div>
 <div class="description">설명2</div>
 </div>
 <div>
 <img class="thumbnail" src="/data/picture3.png"/>
 <div class="title test">타이틀3</div>
 <div class="description">설명3</div>
 </div>
 </div>
 </div>]

# 2.교보문고 HTML 크롤링하기

# 1) HTML 요청하기


In [None]:
import requests
from bs4 import BeautifulSoup

base_url = "https://search.kyobobook.co.kr/search"

keyword= '인공지능'
code='TOT'
target='kyobo'
page = 2

params = {
    'keyword': keyword,
    'gbCode': code,
    "target": target,
    "page": page
}

#url = f"{base_url}?keword={keyword}&gbCode={code}&target={target}&page={page}"

# User-Agent 입력
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36"
}
response = requests.get(base_url, params=params)



# 2) HTML 파싱 준비하기

In [111]:
html = response.text
soup = BeautifulSoup(html, "html.parser")

# 3) 파싱

In [120]:
# ul 태그 : class 가 prod_list
prod_list = soup.find("ul", class_='prod_list')

#soup.select('ul.prod_list > li.prod_item')

In [158]:
# prod_list 에서 li태그: class가 prod_item

# prod_list에서 li태그: class가 prod_item
prod_item = prod_list.find_all("li", class_="prod_item")
print(len(prod_item))

20


In [146]:
one = prod_item[0]
one

<li class="prod_item">
<!-- 체크박스 영역 -->
<!-- 체크박스 영역 -->
<span class="form_chk no_label">
<!--교보일때-->
<input class="result_checkbox spec_checkbox" data-bid="9791163633228" data-cdtn-code="001" data-code="KOR" data-comb-code="0" data-grp-code="SGK" data-name="배울수록 더 강해지는 인공 지능" data-pid="S000001822266" data-prhb-age="0" id="chkSearch_S000001822266" name="001_001_S000001822266_chkSearchNm" type="checkbox"/>
<!--ebook/sam일때-->
<!--핫트랙스일때-->
<!--중고 장터일때-->
<label for="chkSearch_S000001822266"><span class="hidden">상품선택</span></label>
</span>
<!-- // 체크박스 영역 -->
<!-- 상품 영역 -->
<div class="prod_area horizontal">
<div class="prod_thumb_box size_lg">
<a class="prod_link" href="https://product.kyobobook.co.kr/detail/S000001822266" onclick="searchResultItemClickEvent('상품 썸네일', &quot;S000001822266&quot;);">
<span class="img_box">
<img class="prod_img_load" data-kbbfn="s3-image" data-kbbfn-adult="0" data-kbbfn-attr="src" data-kbbfn-bid="9791163633228" data-kbbfn-pid="S000001822266" data-kbbfn-size=

In [176]:
info_box = one.select_one("#shopData_list > ul > li:nth-child(1) > div.prod_area.horizontal > div.prod_info_box")
len(info_box)

65

In [None]:
#div.auto_overflow_wrap.prod_name_group > div.auto_overflow_contents

In [154]:
title = info_box.select_one('div.auto_overflow_wrap.prod_name_group > div.auto_overflow_contents')
title

<div class="auto_overflow_contents">
<div class="auto_overflow_inner">
<a class="prod_info" href="https://product.kyobobook.co.kr/detail/S000001822266" onclick="searchResultItemClickEvent('상품 제목', &quot;S000001822266&quot;);">
<span class="prod_category">[국내도서]</span>
<span id="cmdtName_S000001822266">배울수록 더 강해지는 인공 지능</span>
</a>
</div>
</div>

In [156]:
title.text.replace("\n", "")

'[국내도서]배울수록 더 강해지는 인공 지능'

In [165]:
for prod in prod_item:
    info_box = prod.select_one("div.prod_area.horizontal > div.prod_info_box")
    #print(info_box)
    title = info_box.select_one('div.auto_overflow_wrap.prod_name_group > div.auto_overflow_contents').text
    title = title.replace("\n", "")
    print(title)

[국내도서]배울수록 더 강해지는 인공 지능
[국내도서]모두의 인공지능 with 파이썬
[국내도서]도덕적인 AI
[국내도서]내가 된다는 것
[국내도서]질문으로 답을 찾는 인공지능 윤리 수업
[국내도서]AI는 인간을 먹고 자란다
[국내도서]누구나 쉽게 캔바 Canva로 끝내는 콘텐츠 디자인
[POD]POD오렌지3와 파이썬으로 여는 AI 분석의 세계: 머신러닝부터 딥러닝까지 한 권에
[국내도서]만들면서 배우는 아두이노와 40개의 작품들
[국내도서]로봇 시대, 인간의 일
[국내도서]챗GPT로 시작하는 생성형 AI 프로젝트 수업
[국내도서]인간은 아직 좌절하지 마
[국내도서]AI, 글쓰기, 저작권
[국내도서]인공지능이 다 해주는 브루 Vrew 영상 편집
[국내도서]균형 잡힌 뇌
[국내도서]디지털 교육 트렌드 리포트 2025
[국내도서]예술과 인공지능
[국내도서]AI는 세상을 어떻게 바꾸는가
[국내도서]AI 지도책
[국내도서]만들면서 배우는파이썬과 40개의 작품들


In [171]:
# ...existing code...
##shopData_list > ul > li:nth-child(1) > div.prod_area.horizontal > div.prod_info_box > div.prod_price > span.price > span.val
for prod in prod_item:
    info_box = prod.select_one("div.prod_area.horizontal > div.prod_info_box")
    #print(info_box)
    price = info_box.select_one("div.prod_area.horizontal > div.prod_info_box > div.prod_price > span.price > span.val").text
    title = info_box.select_one('div.auto_overflow_wrap.prod_name_group > div.auto_overflow_contents').text
    rate = info_box.select_one("div.prod_area.horizontal > div.prod_info_box > div.prod_bottom > a > span.review_klover_box > span.review_klover_text.font_size_xxs").text
    title = title.replace("\n", "")
    print(title, price + "원", f"별점은 {rate}")
# ...existing code...

[국내도서]배울수록 더 강해지는 인공 지능 12,600원 별점은 9.64
[국내도서]모두의 인공지능 with 파이썬 27,000원 별점은 10.0
[국내도서]도덕적인 AI 19,800원 별점은 9.47
[국내도서]내가 된다는 것 18,000원 별점은 9.75
[국내도서]질문으로 답을 찾는 인공지능 윤리 수업 18,900원 별점은 10.0
[국내도서]AI는 인간을 먹고 자란다 21,600원 별점은 9.8
[국내도서]누구나 쉽게 캔바 Canva로 끝내는 콘텐츠 디자인 18,000원 별점은 9.52
[POD]POD오렌지3와 파이썬으로 여는 AI 분석의 세계: 머신러닝부터 딥러닝까지 한 권에 27,000원 별점은 0.0
[국내도서]만들면서 배우는 아두이노와 40개의 작품들 22,950원 별점은 10.0
[국내도서]로봇 시대, 인간의 일 15,120원 별점은 9.51
[국내도서]챗GPT로 시작하는 생성형 AI 프로젝트 수업 18,000원 별점은 10.0
[국내도서]인간은 아직 좌절하지 마 13,500원 별점은 10.0
[국내도서]AI, 글쓰기, 저작권 10,800원 별점은 10.0
[국내도서]인공지능이 다 해주는 브루 Vrew 영상 편집 18,000원 별점은 9.32
[국내도서]균형 잡힌 뇌 16,200원 별점은 10.0
[국내도서]디지털 교육 트렌드 리포트 2025 19,800원 별점은 10.0
[국내도서]예술과 인공지능 18,000원 별점은 10.0
[국내도서]AI는 세상을 어떻게 바꾸는가 12,150원 별점은 9.8
[국내도서]AI 지도책 18,900원 별점은 9.66
[국내도서]만들면서 배우는파이썬과 40개의 작품들 16,920원 별점은 9.62
