In [1]:
import requests 
from bs4 import BeautifulSoup

In [2]:
response = requests.get("https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=101")
html = response.text 

ConnectionError: ('Connection aborted.', ConnectionResetError(54, 'Connection reset by peer'))

### Connection reset by peer
> 해당 오류는 여러가지 상황에서 발생할 수 있지만, 크롤링 중에 발생하는 경우에는 대부분 서버에서 클라이언트 요청이 정상(일반)적이지 않다고 판단할 때, 발생합니다. 이런 경우에는 header에 `user-agent`(개발자 도구에서 확인 가능)를 넣어주고 다시 요청하면 정상적으로 작업을 진행할 수 있습니다.

In [15]:
header = {
    "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}
response = requests.get("https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid1=105&sid2=731", headers=header)
html = response.text 
html[:1000]

'\r\n\r\n\r\n\r\n<!DOCTYPE HTML>\r\n<html lang="ko">\r\n<head>\r\n<meta charset="euc-kr">\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n<meta name="referrer" contents="always">\r\n<meta http-equiv="refresh" content="600" />\r\n<meta name="viewport" content="width=1106" />\r\n\r\n    \r\n    \r\n        \r\n            \r\n                \r\n                    \r\n                    \r\n                    \r\n                    \r\n                    \r\n                        \r\n                        \r\n                        \r\n                        \r\n                        \r\n                            \r\n                            \r\n                            \r\n                        \r\n                        \r\n                    \r\n                \r\n            \r\n            \r\n            \r\n            \r\n            \r\n        \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r

In [16]:
soup = BeautifulSoup(html, 'html.parser')
print(str(soup)[:1000])


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh">
<meta content="width=1106" name="viewport">
<meta content="네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LS2D&amp;mid=shm&amp;sid1=100&amp;sid2=731" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" property="og:image">
<meta content="다양한 기사 정보를 제공합니다." property="og:description"/>
<meta content="네이버" property="og:article:author">
<meta content="summary" name="twitter:card"/>
<meta content="네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" name="twitter:image"

In [23]:
elements = soup.select(".type06_headline > li a")
len(elements)

19

In [33]:
elements[0]

<a href="https://n.news.naver.com/mnews/article/029/0002751184?sid=105">
								 "온라인 중고거래 사기·허위 후기 신고하세요"
								</a>

In [27]:
elements[0].text , elements[0].attrs['href']

('\n\t\t\t\t\t\t\t\t "온라인 중고거래 사기·허위 후기 신고하세요"\n\t\t\t\t\t\t\t\t',
 'https://n.news.naver.com/mnews/article/029/0002751184?sid=105')

In [28]:
elements[1].text , elements[1].attrs['href']

('\n\n', 'https://n.news.naver.com/mnews/article/009/0005009967?sid=105')

In [30]:
elements[2].text , elements[2].attrs['href']

("\n\t\t\t\t\t\t\t\t [포토] 도쿄 '갤럭시 X BTS' 성황\n\t\t\t\t\t\t\t\t",
 'https://n.news.naver.com/mnews/article/009/0005009967?sid=105')

In [31]:
elements[3].text , elements[3].attrs['href']

('\n\n', 'https://n.news.naver.com/mnews/article/011/0004092551?sid=105')

In [37]:
elements[4].text

"\n\t\t\t\t\t\t\t\t 이통사, '전용 e심요금'으로 가입자 이탈 막는다\n\t\t\t\t\t\t\t\t"

In [42]:
import re 

title = elements[4].text
re.compile('[\n\t]+').sub('', title) , elements[4].attrs['href']

(" 이통사, '전용 e심요금'으로 가입자 이탈 막는다",
 'https://n.news.naver.com/mnews/article/011/0004092551?sid=105')

짝수인 경우에만 기사제목과 링크를 얻을 수 있음

In [52]:
import re 

for i, element in enumerate(elements):
    if i % 2 == 0:
        title = elements[i].text
        title = re.compile("[\n\t]+").sub("", title)
        # print(f"title: {re.compile('[\n\t]+').sub('', title)} / link: {elements[i].attrs['href']}")
        print(f'title: {title} / link: {elements[i].attrs["href"]}')

title:  "온라인 중고거래 사기·허위 후기 신고하세요" / link: https://n.news.naver.com/mnews/article/029/0002751184?sid=105
title:  [포토] 도쿄 '갤럭시 X BTS' 성황 / link: https://n.news.naver.com/mnews/article/009/0005009967?sid=105
title:  이통사, '전용 e심요금'으로 가입자 이탈 막는다 / link: https://n.news.naver.com/mnews/article/011/0004092551?sid=105
title:  KT, 카드사 연계 카드형 온누리상품권 모바일 앱 출시 / link: https://n.news.naver.com/mnews/article/001/0013402226?sid=105
title:  KT, 카드사 연계 카드형 온누리상품권 모바일 앱 출시 / link: https://n.news.naver.com/mnews/article/001/0013402225?sid=105
title:  KT, 카드사 연계 카드형 온누리상품권 모바일 앱 출시 / link: https://n.news.naver.com/mnews/article/001/0013402224?sid=105
title:  LG 씽큐의 고객 경험 확장…헤이홈 IoT 제품도 제어 / link: https://n.news.naver.com/mnews/article/001/0013402196?sid=105
title:  LG 씽큐의 고객 경험 확장…헤이홈 IoT 제품도 제어 / link: https://n.news.naver.com/mnews/article/001/0013402195?sid=105
title:  KT, 카드형 온누리상품권 모바일 앱 출시…월 100만원까지 충전 / link: https://n.news.naver.com/mnews/article/001/0013402186?sid=105
title:  배민, 다회용기 선택 주문 배달 시스템