### requests.get을 이용한 웹 페이지 소스 수집

In [None]:
import requests
url = "https://news.daum.net/" # 2025.10.20 업데이트
agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
response = requests.get(url = url, headers = {"User-Agent":agent})
response.encoding = 'utf-8' # 2025.10.20 업데이트

#### response 객체

In [None]:
print(type(response))

In [None]:
print(response.status_code)

In [None]:
res_text = response.text
res_content = response.content

print(res_text[:200])
print('=' * 200)
print(res_content[:200])

In [None]:
print(type(res_text)) # <class "str">
print(type(res_content)) # <class "bytes">

### BeautifulSoup을 이용한 파싱

In [None]:
from bs4 import BeautifulSoup as BS

In [None]:
parsed_res_text = BS(res_text)
print(type(parsed_res_text))

#### find와 find_all 메서드

In [None]:
# 첫 번째 ul 태그 찾기
print(parsed_res_text.find("ul"))

In [None]:
# 두 번째 위치의 ul 태그 찾기
print(parsed_res_text.find_all("ul")[1]) # 2025.10.20 업데이트

In [None]:
# class 속성이 txt_info인 첫 번째 span 태그 찾기
print(parsed_res_text.find("span", attrs = {"class":"txt_info"})) # 2025.10.20 업데이트

In [None]:
# 내용이 '조선일보'인 모든 span 태그 찾기
print(parsed_res_text.find_all("span", string = "조선일보")) # 2025.10.20 업데이트

In [None]:
ul_tag = parsed_res_text.find("ul", attrs = {"class":"list_newsheadline2"})  # 2025.10.20 업데이트
print(type(ul_tag))

In [None]:
li_list = ul_tag.find_all("li")

In [None]:
news_name = li_list[0].find("a", attrs = {"class":"item_newsheadline2"})  # 2025.10.20 업데이트
print(news_name) 

In [None]:
press_name = li_list[0].find("span", attrs = {"class":"txt_info"})  # 2025.10.20 업데이트
print(press_name) 

#### 속성을 이용한 값 가져오기

In [None]:
print(news_name["href"])

In [None]:
print(news_name.text)

In [None]:
print(press_name.text)

In [None]:
import pandas as pd 
# 빈 리스트로 초기화
news_name_list = []
news_link_list = []
press_name_list = []
for li in li_list: # li를 li_list를 순회하면서
    # class가 link_txt인 a 태그를 news_name_tag에 저장
    news_name_tag = li.find("a", attrs = {"class":"item_newsheadline2"})  # 2025.10.20 업데이트
    press_name_tag = li.find("span", attrs = {"class":"txt_info"})  # 2025.10.20 업데이트

    news_name = news_name_tag.text
    press_name = press_name_tag.text
    news_link = news_name_tag["href"]

    news_name_list.append(news_name)
    press_name_list.append(press_name)
    news_link_list.append(news_link)

data = pd.DataFrame({"뉴스명":news_name_list, 
                    "언론사명":press_name_list,
                    "뉴스링크":news_link_list})

display(data.head(10)) 