### requests 모듈
requests 모듈은 HTTP 요청을 보내고, 응답을 받는 기능을 제공합니다.<br>
즉, 웹 사이트의 HTML 코드를 가져오는 데 사용됩니다. 

### bs4 모듈
bs4 모듈은 HTML, XML 등의 문서에서 데이터를 추출하는 기능을 제공합니다.<br> 
즉, 웹 사이트에서 필요한 정보를 가져오는 데 사용됩니다.<br> 
HTML 태그를 이용하여 원하는 정보를 선택할 수 있으며, 정규 표현식 등을 이용하여 문자열을 검색할 수도 있습니다.


In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://www.hani.co.kr/arti/list.html?sec=news&subsec=politics"
response = requests.get(url)
print(response.text)


In [None]:
# BeautifulSoup()는 HTML, XML 등의 문서를 파싱하여 파이썬에서 사용할 수 있는 객체로 만드는 클래스입니다.
from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class="menu">
    <ul>
        <li><a href="/home">Home</a></li>
        <li><a href="/about">About</a></li>
        <li><a href="/contact">Contact</a></li>
    </ul>
</div>
<div class="content">
    <h1>Hello, World!</h1>
    <p>This is an example of using Beautifulsoup.</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')

# find() 메서드 사용 예시
div_menu = soup.find('div', {'class': 'menu'})
print(div_menu)

# find_all() 메서드 사용 예시
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

In [None]:
from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class="menu">
    <ul>
        <li><a href="/home">Home</a></li>
        <li><a href="/about">About</a></li>
        <li><a href="/contact">Contact</a></li>
    </ul>
</div>
<div class="content">
    <h1>Hello, World!</h1>
    <p>This is an example of using Beautifulsoup.</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')

# CSS 선택자를 이용하여 태그 선택하기
menu = soup.select('.menu')
for m in menu:
    print(m)

# 복합 CSS 선택자를 이용하여 태그 선택하기
links = soup.select('div.menu a')
for link in links:
    print(link.get('href'))

In [None]:
import requests
from bs4 import BeautifulSoup

html_doc = """
<html>
    <body>
        <h1>제목</h1>
        <p class="content">내용 1</p>
        <p class="content">내용 2</p>
        <a href="http://www.example.com">링크</a>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# select_one() 메서드 사용 예시
title_tag = soup.select_one('h1')
print(type(title_tag))  # <class 'bs4.element.Tag'>
print(title_tag.text)   # 제목

link_tag = soup.select_one('a')
print(type(link_tag))   # <class 'bs4.element.Tag'>
print(link_tag.text)    # 링크

# select() 메서드 사용 예시
content_tags = soup.select('.content')
print(type(content_tags))  # <class 'bs4.element.ResultSet'>
for content_tag in content_tags:
    print(content_tag.text)  # 내용 1, 내용 2


In [None]:
from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class="menu">
    <ul>
        <li><a href="/home">Home</a></li>
        <li><a href="/about">About</a></li>
        <li><a href="/contact">Contact</a></li>
    </ul>
</div>
<div class="content">
    <h1>Hello, World!</h1>
    <p>This is an example of using Beautifulsoup.</p>
    <a href="https://www.google.com" target="_blank">Google</a>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')

# text() 메서드 사용 예시
h1 = soup.find('h1')
print(h1.text)

# get() 메서드 사용 예시
a = soup.find('a')
print(a.get('href'))
print(a.get('target'))

In [None]:
import requests
from bs4 import BeautifulSoup

# 네이버 블로그에서 키워드 "파이썬"에 대한 포스트 검색 페이지에서 HTML 코드 가져오기
url = 'https://search.naver.com/search.naver'
params = {'query': '파이썬', 'where': 'blog'}
response = requests.get(url, params=params)
#print(response.url)

# HTML 코드 파싱하기
soup = BeautifulSoup(response.text, 'html.parser')

# 포스트 정보 태그 가져오기
posts = soup.select('.total_tit')

# 포스트 정보 출력하기
for post in posts:
    # 제목과 링크 가져오기
    title = post.text
    link = post.get('href')
    print(title)
    print(link)
    print('-' * 50)


In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://news.google.com/topstories?hl=ko&gl=KR&ceid=KR:ko'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

titles = soup.select('.WwrzSb')
for title in titles:
    print(title.get('aria-label'))
    print('https://news.google.com' + title['href'][1:])
    print('-' * 50)

In [None]:
import requests
from bs4 import BeautifulSoup

# 다음 영화 예매 순위 정보를 출력하는 예시

url = 'https://movie.daum.net/ranking/reservation'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

rank_list = soup.select('div.thumb_cont > strong > a')
rank_rate = soup.select('span.txt_append > span > span')

print(rank_list)
# for rank, title in enumerate(rank_list, 1):
#     print(f'{rank}위: {title.text} / 평점({rank_rate[(rank - 1) * 2].text}) / 예매율({rank_rate[2 * rank - 1].text})')