In [3]:
from bs4 import BeautifulSoup
html = """
<html>
    <head><title>테스트 페이지</title></head>
    <body>
        <h1>안녕하세요!</h1>
        <p class="content">이것은 예제 문장입니다.</p>
        <a href="https://example.com">예제 링크</a>
    </body>
</html>
"""

# Beautifulsoup object 생성
# html 문자열을 파싱을 해야 한다 => DOM tree 생성
soup = BeautifulSoup(html, 'html.parser')

# 태그 전택자
title = soup.title
print('title: ',title)
h1 = soup.h1.text
print('H1태그 :', h1)
p = soup.p.text
print('p태그: ',p)


title:  <title>테스트 페이지</title>
H1태그 : 안녕하세요!
p태그:  이것은 예제 문장입니다.


In [None]:
# 특정 태그로 찾기 
# find_all(tag) : 해당 모든 tag를 찾는다 => 리스트로 반환된다.
# find(tag) : 찾은 요소 중 첫번째 반환 
from bs4 import BeautifulSoup

html = """
<ul>
    <li>사과</li>
    <li>바나나</li>
    <li>포도</li>
</ul>
"""

soup = BeautifulSoup(html,'html.parser')

# li_test = soup.li.text
li_test= soup.find_all('li') # 모든 li 태그를 찾아라
# print(li_test)

li_items= soup.find_all('li') # 모든 li 태그를 찾아라
for li_item in li_items:
    print(li_item.text)


사과
바나나
포도


In [13]:
# css selector 사용 
# select(css selector) : 모두찾기
# select_one(css selector) : 하나만 찾기 

html = """
<div class="info">
    <p class="name">홍길동</p>
    <p class="age">30세</p>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')
print(type(soup))

name1 = soup.select_one('.name').text # . -> 클래스 선택자
print(type(name1))
print('이름: ' , name1)
name2 = soup.find('p',class_='name').text
print('이름: ' , name2)


age = soup.select_one('.age').text
print('나이: ', age)

# p tag 전체 선택

p_tag = soup.select('p') #모든 p tag 선택
print(p_tag)
print(p_tag[0].text)
print(p_tag[1].text)

<class 'bs4.BeautifulSoup'>
<class 'str'>
이름:  홍길동
이름:  홍길동
나이:  30세
[<p class="name">홍길동</p>, <p class="age">30세</p>]
홍길동
30세


In [15]:
# 4. 링크(a tag) , 이미지 크롤링 
html = """
<a href="https://example.com/page1">페이지 1</a>
<a href="https://example.com/page2">페이지 2</a>
"""

soup = BeautifulSoup(html, 'html.parser')

links = [a['href'] for a in soup.find_all('a')]
print(links)

['https://example.com/page1', 'https://example.com/page2']


In [2]:
# 이미지의 위치 추출 -> 다운로드 
from bs4 import BeautifulSoup 
html = """
<img src="https://example.com/image1.jpg" alt="이미지 1">
<img src="https://example.com/image2.jpg" alt="이미지 2">
"""

soup = BeautifulSoup(html,'html.parser')

image_src = [img['src']for img in soup.find_all('img')]
print(image_src)

['https://example.com/image1.jpg', 'https://example.com/image2.jpg']


In [6]:
# 테이블 태그

html = """
<table>
    <tr>
        <th>이름</th><th>나이</th>
    </tr>
    <tr>
        <td>김철수</td><td>25</td>
    </tr>
    <tr>
        <td>이영희</td><td>30</td>
    </tr>
</table>
"""
soup = BeautifulSoup(html, 'html.parser')

# 행 추출
rows = soup.find_all('tr')
# print(rows)
for row in rows: #한 행씩 가져다가 처리
    cols = row.find_all(['th','td'])
    # print(cols)
    print([col.text for col in cols])

['이름', '나이']
['김철수', '25']
['이영희', '30']


#### 메소드 정리 
#### 1.find , find_all : 특정 태그로 찾기
#### 1.select, select_one : css selector로 찾기

- find(tag) : 첫번째로 일치하는 태그 오브젝트 반환 
- find_all(tag,limit=) : 일치하는 모든 태그 오브젝트를 리스트로 반환 
- find_parent() : 첫번째 부모 태그 object 반환 
- find_parents() : 모든 부모 태그, object 리스트 반환 
- find_next_sibiling() : 다음 형제 태그 오브젝트 반환 
- find_previous_sibiling : 이전 형제 태그 오브젝트 반환 
- select_one() : css selector 사용해서 특정 태그 오브젝트 반환 
- select() : css selector 사용해서 모든 태그 오브젝트 리스트로 반환
- 속성(Attribute)
  - tag.text : 텍스트 추출
  - tag['속성명'] : 해당 속성의 값을 추출
  - tag['속성명'] = 값 : 값 변경
- 태그 제어
  - tag.decompose() : 태그 제거
  - tag.extract() : 태그 제거 후 반환
  - soup.new_tag() : soup 오브젝트에 새로운 태그 생성 

In [10]:
html = """
<html>
    <head><title>테스트 페이지</title></head>
    <body>
        <h1>안녕하세요!</h1>
        <p class="content">이것은 예제 문장입니다.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html,'html.parser')

# p 태그 먼저 찾는다
p_tag = soup.find('p')
parent_tag = p_tag.find_parent()
print(parent_tag)

all_parents = p_tag.find_parents()
for parent in all_parents:
    print(parent.name)

<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>
body
html
[document]


In [12]:
html = """
<html>
    <head><title>테스트 페이지</title></head>
    <body>
        <h1>안녕하세요!</h1>
        <p class="content">이것은 예제 문장입니다.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html,'html.parser')

# p 태그 먼저 찾는다
p_tag = soup.find('p')

# 다음 형제 태그 추출
print(p_tag.find_next_sibling())
print(p_tag.find_previous_sibling())

None
<h1>안녕하세요!</h1>


In [None]:
from bs4 import BeautifulSoup 
html = """
<html>
    <head><title>테스트 페이지</title></head>
    <body>
        <h1>안녕하세요!</h1>
        <p class="content">이것은 예제 첫 번째 문장입니다.</p>
        <p class="content">이것은 예제 두 번째 문장입니다.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html,'html.parser')

# p 태그 먼저 찾는다
p_tag = soup.select_one('p.content2')
print(p_tag.text)

p_tags = soup.select('p')
print(p_tag[1].text)



이것은 예제 첫 번째 문장입니다.


KeyError: 1

In [4]:
import requests
from bs4 import BeautifulSoup


url = 'https://finance.naver.com/item/board.naver?code=068270&page=2'


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}
response = requests.get(url, headers=headers)


soup = BeautifulSoup(response.text, 'html.parser')


posts = soup.select('#content > div.section.inner_sub > table.type2 > tbody > tr:nth-child(5) > td.title > a')
print(posts)



[<a href="/item/board_read.naver?code=068270&amp;nid=297906968&amp;st=&amp;sw=&amp;page=2" onclick="return singleSubmitCheck();" title="신규 유입전에 보세요">신규 유입전에 보세요
					
				
				<span class="tah p9" style="color:#639933">[<b>1</b>]</span>
<img height="10" src="https://ssl.pstatic.net/imgstock/images5/new.gif" width="10"/></a>]
