In [None]:
from bs4 import BeautifulSoup

html = """
<html>
    <head><title>테스트 페이지</title></head>
    <body>
        <h1>안녕하세요!</h1>
        <p class="content">이것은 예제 문장입니다.</p>
        <a href="https://example.com">예제 링크</a>
    </body>
</html>
"""
print(html)

# BeautilfulSoup object 생성
# html 문자열을 파싱을 해야 한다 => DOM tree 생성 (select을 할수있게 된다)
soup = BeautifulSoup(html,'html.parser')

# 태그 선택자

title = soup.title.text
print('title : ',title)

h1 = soup.h1.text
print('H1 태그 : ', h1)

p = soup.p.text
print('P 태그 : ', p)

body = soup.body.text
print('body : ', body)


<html>
    <head><title>테스트 페이지</title></head>
    <body>
        <h1>안녕하세요!</h1>
        <p class="content">이것은 예제 문장입니다.</p>
        <a href="https://example.com">예제 링크</a>
    </body>
</html>

title :  테스트 페이지
H1 태그 :  안녕하세요!
P 태그 :  이것은 예제 문장입니다.
body :  
안녕하세요!
이것은 예제 문장입니다.
예제 링크



In [24]:
# 4. 링크(a tag), 이미지 크롤링
html = """
<a href="https://example.com/page1">페이지 1</a>
<a href="https://example.com/page2">페이지 2</a>
"""
soup = BeautifulSoup(html, 'html.parser')

links = [a['href'] for a in soup.find_all('a')]
print(links)

['https://example.com/page1', 'https://example.com/page2']


In [28]:
# 이미지와 위치 추출 => 다운로드
html = """
<img src="https://example.com/image1.jpg" alt="이미지 1">
<img src="https://example.com/image2.jpg" alt="이미지 2">
"""


soup = BeautifulSoup(html,'html.parser')

images_src = [img['src'] for img in soup.find_all('img')]
print(images_src)
#다운로드는 별도로 진행 필요

['https://example.com/image1.jpg', 'https://example.com/image2.jpg']


In [32]:
html = """
<table>
    <tr>
        <th>이름</th><th>나이</th>
    </tr>
    <tr>
        <td>김철수</td><td>25</td>
    </tr>
    <tr>
        <td>이영희</td><td>30</td>
    </tr>
</table>
"""

soup = BeautifulSoup(html, 'html.parser')

# 행 추출
rows = soup.find_all('tr')
# print(rows)
for row in rows: # 한 행씩 가져다가 처리 
    cols = row.find_all(['th','td'])
    print([col.text for col in cols])

['이름', '나이']
['김철수', '25']
['이영희', '30']


### 메소드 정리
#### 1. find, find_all : 특정 태그로 찾기 
- find(tag) : 첫번째로 일치하는 태그 오브젝트 반환
- find_all(tag, class_,limt=) : 일치하는 모든 태그 오브젝트를 리스트로 반환
- find_parent() : 부모 태그 오브젝트 반환
- find_parents() : 모든 조상 태그 오브젝트 리스트 반환
- find_previous_sibling() : 이전 형제 태그 오브젝트 반환 
- find_next_sibling() : 다음 형제 태그 오브젝트 반환
#### 2. select,select_one : CSS selector로 찾기 
- select_one() : CSS selector 사용해서 특정 태그 오브젝트 반환
- select() : CSS selector 사용해서 모든 태그 오브젝트 리스트 반환
- 속성 (Attribute)
    - tag.text :텍스트 추출
    - tag['속성명'] : 해당 속성의 값을 추출
    - tag['속성명'] = 값 : 값 변경
- 태그 제어
    - tag.decompose() : 태그 제거
    - tag.extract() : 태그 제거 후 반환
    - soup.new_tag() : soup에 오브젝트에 새로운 태그 생성     

In [36]:
html = """
<html>
    <head><title>테스트 페이지</title></head>
    <body>
        <h1>안녕하세요!</h1>
        <p class="content">이것은 예제 문장입니다.</p>
    </body>
</html>
"""
soup = BeautifulSoup(html,'html.parser')

# p 태그 먼저 찾는다
p_tag = soup.find('p')
parent_tag = p_tag.find_parent()
print(parent_tag)

all_parents = p_tag.find_parents()
for parent in all_parents:
    print(all_parents)


<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>
[<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>, <html>
<head><title>테스트 페이지</title></head>
<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>
</html>, 
<html>
<head><title>테스트 페이지</title></head>
<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>
</html>
]
[<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>, <html>
<head><title>테스트 페이지</title></head>
<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>
</html>, 
<html>
<head><title>테스트 페이지</title></head>
<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>
</html>
]
[<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>, <html>
<head><title>테스트 페이지</title></head>
<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>
</html>, 
<html>
<head><title>테스트 페이지</title></head>
<body>
<h1>안녕하세요!</h1>
<p class="content">이것은 예제 문장입니다.</p>
</body>
</html

In [38]:
html = """
<html>
    <head><title>테스트 페이지</title></head>
    <body>
        <h1>안녕하세요!</h1>
        <p class="content">이것은 예제 문장입니다.</p>
    </body>
</html>
"""
soup = BeautifulSoup(html,'html.parser')

# p 태그 먼저 찾는다
p_tag = soup.find('p')

# 다음 형제 태그 추출
print(p_tag.find_next_sibling())
print(p_tag.find_previous_sibling())

None
<h1>안녕하세요!</h1>


In [45]:
html = """
<html>
    <head><title>테스트 페이지</title></head>
    <body>
        <h1>안녕하세요!</h1>
        <p class="content1">이것은 첫 번째 문장입니다.</p>
        <p class="content2">이것은 두 번째 문장입니다.</p>
    </body>
</html>
"""
soup = BeautifulSoup(html,'html.parser')

# p 태그 먼저 찾는다
p_tag = soup.select_one('p.content2')
print(p_tag.text)

p_tags = soup.select('p')
print(p_tags[1].text)

이것은 두 번째 문장입니다.
이것은 두 번째 문장입니다.


In [None]:
import requests
from bs4 import BeautifulSoup


url = 'https://finance.naver.com/item/main.naver?code=068270'


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}
response = requests.get(url, headers=headers)


soup = BeautifulSoup(response.text, 'html.parser')


posts = soup.select('#content')
print(posts)