**URL 형식**

* 프로토콜://도메인이름(or IP주소):포트번호/경로?쿼리스트링
    * 프로토콜(protocol): http:, https, ...
    * 도메인(domain) 이름: www.naver.com, www.daum.net, search.daum.net, ...
    * 포트(Port) 번호: 포트 번호가 80번인 경우는 생략 가능
    * 쿼리 스트링(query string):
        * 클라이언트(웹 브라우저)가 서버로 정보를 보낼 때 사용
        * parameter=value 형식으로 전달
        * 파라미터가 여러개일 때는 &로 파라미터를 구분

* URL 예
    * https://search.daum.net/search?w=news&DA=PGD&enc=utf8&cluster=y&cluster_page=1&q=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D&p=1
    *  https://search.daum.net/search?w=news&DA=PGD&enc=utf8&cluster=y&cluster_page=1&q=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D&p=2
    *  https://search.daum.net/search?w=news&DA=PGD&enc=utf8&cluster=y&cluster_page=1&q=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D&p=3

* 요청 방식(Request Method):
    * GET 방식
        * 클라이언트가 서버로 보내는 정보들을 URL의 query string에 포함시켜서 보내는 방식
        * 예: 검색, 링크 클릭, ...
    * POST 방식
        * 클라이언트가 서버로 보내는 정보들을 HTTP 패킷으로 감싸서 URL에 정보들이 노출되지 않도록 보내는 방식
        * 예: 로그인, 이메일, ...


In [1]:
import requests
from bs4 import BeautifulSoup

In [6]:
url = 'https://search.daum.net/search?w=news&DA=PGD&enc=utf8&cluster=y&cluster_page=1&q=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D&p=1'
response = requests.get(url)
print(response)

<Response [200]>


In [9]:
html = response.text.strip()
soup = BeautifulSoup(markup=html, features='html5lib')
selector = 'ul#clusterResultUL > li > div > div > div > a.f_link_b'
            # clusterResultUL > li:nth-child(2) > div > div > div > a
            # clusterResultUL > li:nth-child(4) > div.wrap_cont > div > div > a
            # clusterResultUL > li:nth-child(10) > div.wrap_cont > div > div > a
soup.select(selector)

[<a class="f_link_b" href="http://v.media.daum.net/v/20210131171803074?f=o" onclick='smartLog(this, "dc=NNS&amp;d=26DaU1fFl-BG-9yFZn&amp;pg=1&amp;r=1&amp;p=4&amp;rc=10&amp;e1=16O8sbGdUflWYlfqu4&amp;e3=0&amp;ext=dsid=26DaU1fFl-BG-9yFZn", event, {"cpid": {"value": "16O8sbGdUflWYlfqu4"}});' target="_blank">지멘스 CEO "<b>머신러닝</b>이 향후 5년 제조업 키워드"</a>,
 <a class="f_link_b" href="http://v.media.daum.net/v/20210125140011940?f=o" onclick='smartLog(this, "dc=NNS&amp;d=26hNNIwgETzhmlmWRS&amp;pg=1&amp;r=2&amp;p=4&amp;rc=10&amp;e1=16_-rXIov6CN5sdGtY&amp;e3=0&amp;ext=dsid=26hNNIwgETzhmlmWRS", event, {"cpid": {"value": "16_-rXIov6CN5sdGtY"}});' target="_blank">바이텍씨스템, 데이터로봇과 데이터 사이언스 및 <b>머신러닝</b> 플랫폼...</a>,
 <a class="f_link_b" href="http://v.media.daum.net/v/20210126143704209?f=o" onclick='smartLog(this, "dc=NNS&amp;d=265V43niIYytkd35sL&amp;pg=1&amp;r=3&amp;p=4&amp;rc=10&amp;e1=16sIQ8rx97vi9RHx8w&amp;e3=0&amp;ext=dsid=265V43niIYytkd35sL", event, {"cpid": {"value": "16sIQ8rx97vi9RHx8w"}});' target="_

In [None]:
soup.select()

In [21]:
# 1~5 페이지까지 뉴스 검색 결과의 제목과 URL을 출력
for page in range(1, 4):
    print(f'--- page {page} ---')
    # 검색 URL
    # url = f'https://search.daum.net/search?w=news&DA=PGD&enc=utf8&cluster=y&cluster_page=1&q=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D&p={page}'
    # response = requests.get(url)   # request 보내고 response 받음
    
    url = 'https://search.daum.net/search?w=news&DA=PGD&enc=utf8&cluster=y&cluster_page=1'
    params={'q':'머신러닝', 'p':page}  # query string의 parameter
    response = requests.get(url, params)

    html = response.text.strip()   # HTML 코드 추출
    soup = BeautifulSoup(markup=html, features='html5lib')  # BS 객체 생성
    selector = 'ul#clusterResultUL > li > div > div > div > a.f_link_b'  # HTML element 선택자
    search_results = soup.select(selector)
    for link in search_results:
        print(link['href'], link.text)

--- page 1 ---
http://v.media.daum.net/v/20210131171803074?f=o 지멘스 CEO "머신러닝이 향후 5년 제조업 키워드"
http://v.media.daum.net/v/20210125140011940?f=o 바이텍씨스템, 데이터로봇과 데이터 사이언스 및 머신러닝 플랫폼...
http://v.media.daum.net/v/20210126143704209?f=o 머신러닝 기반 광고자동화플랫폼 '몰로코 클라우드' 출시.. "올해...
http://v.media.daum.net/v/20210114144154666?f=o 오라클, 블록체인 적용한 'DB 21c' 공개.."머신러닝도 자동으로"
http://v.media.daum.net/v/20210113172556755?f=o 노영균 한양대 교수, 머신러닝 활용 '간 질병' 분류기술 개발
https://cp.news.search.daum.net/p/101999005 [5Q 인터뷰] '혼자 공부하는 머신러닝+딥러닝' 박해선 저자
http://v.media.daum.net/v/20210113230556734?f=o 큐앤에이소프, '머신러닝 기반 다차원 데이터 분석' 관련 특허
http://v.media.daum.net/v/20210101093825912?f=o 구글코리아, '머신 러닝 야학' 2기 모집
http://v.media.daum.net/v/20210107164602542?f=o 시그니아, 세계 최초 머신러닝 기반 보청기 조절 앱 '시그니아 어...
https://cp.news.search.daum.net/p/101975026 미 기업인 74% “AI·머신러닝 최우선 순위에 둔다”
--- page 2 ---
http://v.media.daum.net/v/20201222143915304?f=o 구글과 함께 하는 AI '머신러닝 야학' 2기 시작
http://v.media.daum.net/v/20201230140729772?f=o 데브옵스·머신러닝..IT분야 연봉 높이는 기술

[<a class="f_link_b" href="http://v.media.daum.net/v/20210203142151478?f=o" onclick='smartLog(this, "dc=NNS&amp;d=26b82DN0a8TRY1i0kH&amp;pg=3&amp;r=1&amp;p=4&amp;rc=10&amp;e1=16ch37p8Eze2f0phkS&amp;e3=0&amp;ext=dsid=26b82DN0a8TRY1i0kH", event, {"cpid": {"value": "16ch37p8Eze2f0phkS"}});' target="_blank">펜타시큐리티, 웹방화벽 '와플' 6.0 출시</a>,
 <a class="f_link_b" href="http://v.media.daum.net/v/20201216000105021?f=o" onclick='smartLog(this, "dc=NNS&amp;d=26UsimwQhosnccqgbo&amp;pg=3&amp;r=2&amp;p=4&amp;rc=10&amp;e1=16sIQ8rx97vi9RHx8w&amp;e3=0&amp;ext=dsid=26UsimwQhosnccqgbo", event, {"cpid": {"value": "16sIQ8rx97vi9RHx8w"}});' target="_blank">위세아이텍 창립 30주년.."<b>머신러닝</b>·빅데이터 기술력 발판으로 ...</a>,
 <a class="f_link_b" href="http://v.media.daum.net/v/20201213160120944?f=o" onclick='smartLog(this, "dc=NNS&amp;d=26IK8C5922S7VMDwNr&amp;pg=3&amp;r=3&amp;p=4&amp;rc=10&amp;e1=16sIQ8rx97vi9RHx8w&amp;e3=0&amp;ext=dsid=26IK8C5922S7VMDwNr", event, {"cpid": {"value": "16sIQ8rx97vi9RHx8w"}});' target="_blank">[공공솔

In [47]:
def daum_news_search(keyword: str, pages: int):
    for page in range(1, pages + 1):
        print(f'--- page {page} ---')
        
        url = 'https://search.daum.net/search?w=news&DA=PGD&enc=utf8&cluster=y&cluster_page=1'
        params={'q':keyword, 'p':page}  # query string의 parameter
        response = requests.get(url, params)

        html = response.text.strip()   # HTML 코드 추출
        soup = BeautifulSoup(markup=html, features='html5lib')  # BS 객체 생성
        selector = 'ul#clusterResultUL > li > div > div > div > a.f_link_b'  # HTML element 선택자
        search_results = soup.select(selector)
        for link in search_results:
            print(link['href'], link.text)

In [48]:
keyword = input('검색어 입력>>> ')
pages = int(input('검색할 페이지 개수 입력>>> '))
daum_news_search(keyword, pages)

검색어 입력>>> 딥러닝
검색할 페이지 개수 입력>>> 3
--- page 1 ---
https://cp.news.search.daum.net/p/102491259 에이디링크, 엣지 AI 추론 위한 딥러닝 가속 플랫폼 DLAP x86 시...
https://cp.news.search.daum.net/p/102463670 AI 딥러닝 기술로 발전소 클링커 생성 조기감지
https://cp.news.search.daum.net/p/102478475 딥러닝, "인공지능이 전문의가 놓쳤던 폐암의 찾아"
https://cp.news.search.daum.net/p/102458344 동서발전, 딥러닝 활용 ‘연소장애 종합감시 시스템’ 구축
http://v.media.daum.net/v/20210127085259476?f=o 큐앤에이소프트, 딥러닝 기반의 주식 자동 매매 프로그램 '큐아이...
https://cp.news.search.daum.net/p/102352622 "'알페스','섹테' 영상 꼼짝마~다 잡아낸다"...딥페이크 영상 90%...
http://v.media.daum.net/v/20210121140017531?f=o 한국뇌연구원, 딥러닝 기반 변이체-AI로 치매 예측한다
https://cp.news.search.daum.net/p/102221348 딥러닝으로 유방암 진단 오류 줄였다
http://v.media.daum.net/v/20210115110155548?f=o AI챗봇 '이루다' DB·딥러닝 모델 폐기한다
http://v.media.daum.net/v/20210115152134087?f=o 'AI 이루다' 개발사, '개인정보 유출 논란' 딥러닝 대화 모델 폐기
--- page 2 ---
http://v.media.daum.net/v/20210115105656292?f=o 'AI 이루다' 개발사 "데이터베이스·딥러닝 모델 폐기하겠다"(종합)
http://v.media.daum.net/v/20210115113350992?f=o 이루다 개발사 "데이터베이