# 6-3. 네이버 뉴스 목록 수집
목록 형식의 페이지에서 상세 페이지의주소들을 수집한 후 해당 주소들을 반복적으로 수집하여 각 기사를 텍스트 파일로 저장

# #01. 필요한 모듈 참조

In [1]:
import requests
import os
import datetime as dt
from bs4 import BeautifulSoup

# #02. 수집 준비
## 1) 접속을 수행하기 위한 session 객체 생성
> 웹 페이지로부터 데이터를 수집할 경우 항상 가장 처음에 위치해야 하는 코드입니다.

In [2]:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36"
session= requests.Session()
session.headers.update({'User-agent':user_agent, 'referer':None})

## 2) 접근할 페이지 주소 (네이버 뉴스)

In [3]:
content_url = 'https://news.naver.com'

## 3) 수집된 기사들이 텍스트로 저장될 폴더 생성

In [4]:
# 뉴스 기사가 저장될 폴더 이름 구성
datetime = dt.datetime.now().strftime('%y%m%d_%H%M%S')
dirname = '뉴스기사_%s' % datetime

#뉴스 기사를 텍스트 파일로 저장할 폴더 만들기
if not os.path.exists(dirname) :
    os.mkdir(dirname)

# #03. 컨텐츠의 주소들을 수집하기
## 1) 네이버 뉴스 메인 소스코드 가져오기

In [5]:
# 데이터 가져오기
r = session.get(content_url)

# 결과 검사
if r.status_code != 200:
    print("[%d Error] %s" % (r.status_code, r.reason))
    quit()

## 2) 컨텐츠에 대한 `<a>` 태그 수집
CSS 선택자가 여러 개 지정될 경우 콤마로 구분 가능

In [7]:
# 인코딩 설정
r.encoding = 'euc-kr'

# 웹 페이지의 소스코드를 사용하여 HTML 분석 객체 생성
soup = BeautifulSoup(r.text, 'html.parser')

# CSS 선택자를 활용하여 가져오기를 원하는 부분 지정
selector = soup.select('.hdline_flick_item a, .hdline_article_tit a, .mtype_img a, .mlist2 a, .section ul li a')

if not selector: # 가져온 내용이 없다면?
    print("크롤링 실패")
    quit()
    
print(len(selector))
#selector

273


## 3) 수집한 `<a>` 태그에서 URL만 추출
### 추출한 URL을 리스트에 저장하기

In [9]:
# 뉴스기사의 본문 URL을 저장할 리스트
url_list = []

# 리스트의 원소들에 대한 반복 처리
for item in selector :
    # 각 원소(링크)에 속성들 중 href 속성이 있다면 그 값을 리스트에 추가
    if 'href' in item.attrs:
        url_list.append(item['href'])
        
#url_list

In [11]:
### 앞 부분에 도메인이 제외된 경우 적용하기
news_url_list = []

for url in url_list:
    if 'read.nhn' in url:
        if content_url not in url:
            url = content_url+url
            
        news_url_list.append(url)
        
#news_url_list

# #04. 뉴스기사들 수집
전체적으로 반복문 안에서 수행되어야 하기 때문에 하나의 코드 블록에서 전 과정을 모두 구현해야 한다.

In [13]:
# URL 목록만큼 반복
for i, url in enumerate(news_url_list):
    
    print("%d번째 뉴스기사 수집중.... >> %s" % (i+1, url))
    
    #--------------------------------------------------
    # 1) 뉴스 상세페이지에 접속하여 HTML 코드 GET
    #--------------------------------------------------
    r = session.get(url)
    
    # 접속 실패 시 다음 항목으로 반복문 제어 이동
    if r.status_code != 200:
        print("%d Error가 발생했습니다." % r.status_code)
        continue
        
    # 컨텐츠의 인코딩 형식 설정
    r.encoding='euc-kr'
    
    #--------------------------------------------------
    # 2) 기사 영역 추출
    #-------------------------------------------------
    # HTML 코드 분석을 위한 객체 생성
    soup = BeautifulSoup(r.text, 'html.parser')
    
    #--------------------------------------------------
    # 3) 기사 영역에서 제목 추출
    #--------------------------------------------------
    title = soup.select('#articleTitle')
    #print(title)
    
    # 제목의 0번째 항목에서 텍스트 공백 제거 후 추출
    title_str = title[0].text.strip()
    
    # 기사 제목에서 파일 이름으로 사용할 수 없는 특수문자 제거
    title_str  = title_str.replace("'", "")
    title_str  = title_str.replace('"', "")
    title_str  = title_str.replace("?", "")
    title_str  = title_str.replace("/", "")
    title_str  = title_str.replace("<", "")
    title_str  = title_str.replace(">", "")
    
    # 둥근 따옴표 제거
    # ㄴ>한자에서 선택 가능
    title_str  = title_str.replace(" ‘", "")
    title_str  = title_str.replace("’ ", "")
    title_str  = title_str.replace(" “", "")
    title_str  = title_str.replace("” ", "")
    
    print(title_str)
    
    #--------------------------------------------------
    # 4) 기사 영역에서 내용 추출
    #--------------------------------------------------
    # 본문 가져오기
    article = soup.select('#articleBodyContents')
    article_item = article[0]
    
    # 불필요한 태그 제거, 치환
    for target in article_item.find_all('script'):target.extract()
    for target in article_item.find_all('a'):target.extract()
    for target in article_item.find_all('span'):target.extract()
    for target in article_item.find_all('div'):target.extract()
    for target in article_item.find_all('br'):target.replace_with('\n')
        
    # 본문 텍스트 추출
    article_str = article_item.text.strip()
    
    #--------------------------------------------------
    # 5) 제목과 내용을 텍스트 파일로 저장
    #--------------------------------------------------
    # 제목과 내용이 모두 존재한다면?
    if title_str and article_str:
        # 기사 제목을 파일명으로 지정, 내용을 텍스트로 저장
        fname = dirname+'/'+title_str+'.txt'
        with open(fname, 'w', encoding='utf-8') as f:
            f.write(article_str)
            print(">>>>> 파일 저장 성공 : " + fname)

1번째 뉴스기사 수집중.... >> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=629&aid=0000070056
비트코인, 5600만 원선 반등…시티그룹 국제 무역 결제 수단 고려해야
>>>>> 파일 저장 성공 : 뉴스기사_210302_121350/비트코인, 5600만 원선 반등…시티그룹 국제 무역 결제 수단 고려해야.txt
2번째 뉴스기사 수집중.... >> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=028&aid=0002534615
문 대통령4차 재난지원금 신속 지급되도록 국회가 서둘러달라”
>>>>> 파일 저장 성공 : 뉴스기사_210302_121350/문 대통령4차 재난지원금 신속 지급되도록 국회가 서둘러달라”.txt
3번째 뉴스기사 수집중.... >> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=015&aid=0004506659
정의선-최태원 만난다…현대차-SK 수소동맹 첫발
>>>>> 파일 저장 성공 : 뉴스기사_210302_121350/정의선-최태원 만난다…현대차-SK 수소동맹 첫발.txt
4번째 뉴스기사 수집중.... >> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=023&aid=0003598977
윤석열검찰 수사권 박탈은 법치 말살...원칙대로 하니 파내려 해”
>>>>> 파일 저장 성공 : 뉴스기사_210302_121350/윤석열검찰 수사권 박탈은 법치 말살...원칙대로 하니 파내려 해”.txt
5번째 뉴스기사 수집중.... >> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=417&aid=0000663626
김태년 한달전 소상공인 지원하자던 야당, 두 얼굴 정치
>>>