### 단일 페이지로부터 데이터 수집하기

#### 데이터 수집을 위한 기본 준비

In [1]:
# 필요한 모듈 참조

import requests
from bs4 import BeautifulSoup

In [2]:
# 웹 페이지 접속에 필요한 헤더정보 구성

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"
header_info = {'User-agent': user_agent, 'referer': None}

#### 데이터 수집하기

In [3]:
# 접근할 페이지 주소

content_url = "https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=052&aid=0001591826"

In [4]:
# 데이터 가져오기

r = requests.get(content_url, headers=header_info)

# 결과 검사
if r.status_code != 200:
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "%d %s 에러가 발생했습니다." % (r.status_code, r.reason)
    # 강제로 에러를 발생시킨다.
    raise Exception(err_msg)
    
r.encoding="euc-kr"
html = r.text

# 출력되는 양이 많음으로 주석
#html

#### 기사 본문 추출

In [5]:
# 추출할 영역의 CSS 선택자를 확인하여
# 기사의 본문을 추출

# 웹 페이지의 소스코드를 사용하여 HTML 분석 객체로 생성
soup = BeautifulSoup(html, 'html.parser')

# CSS 선택자를 활용하여 가져오기를 원하는 부분 지정
# -> "#id"값 형식으로 지정
selector = soup.select('#articleBodyContents')

# 결과 검사
if len(selector) == 0:
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "지정된 선택자에 대해서 인식된 구조가 없습니다."
    # 강제로 에러를 발생시킨다.
    raise Exception(err_msg)

# 출력되는 양이 많음으로 주석
#selector

#### 추출한 본문 영역에서 텍스트만 추출하기

In [6]:
# 본문 영역에 대한 결과 얻기

item = selector[0]
# 출력되는 양이 많음으로 주석
#print(item)

In [7]:
# 불필요한 태그들 제거하기

for target in item.find_all(['script', 'span', 'a']):
    target.extract()

# 출력되는 양이 많음으로 주석
# print(item)

In [8]:
# <br> 태그를 개행문자로 지환하기

for target in item.find_all('br'):
    target.replace_with("\n")

# 출력되는 양이 매우 방대하므로 출력 결과 확인 후 주석 처리하여 다시 한번 실행하자 -> 출력결과 숨김
#print(item)

In [9]:
# 최종 텍스트 추출

# 텍스트를 추출하면서 불필요한 앞뒤 공백도 함께 제거한다.
news_content = item.text.strip()
#news_content

In [10]:
# 추출된 결과를 텍스트로 저장한다

with open("네이버뉴스.txt", "w", encoding="utf-8") as f:
    f.write(news_content)

### 하나의 페이지에서 파생되는 하위 페이지 데이터 수집

#### 웹 페이지 데이터 수집을 위한 기본준비

In [11]:
import requests                     # -> 웹 페이지 요청 모듈
import os                           # -> 운영체제 기능 접근 모듈(내장모듈)
import datetime as dt               # -> 날짜 처리 모듈(내장모듈)
from bs4 import BeautifulSoup       # -> 웹 페이지 소스코드 분석 모듈

In [12]:
# 웹 페이지 접속에 필요한 헤더정보 구성

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"
header_info = {'User-agent': user_agent, 'referer': None}

In [13]:
# 수집된 기사들이 텍스트로 저장될 폴더 생성

# 뉴스 기사가 저장될 폴더이름 구성
datetime = dt.datetime.now().strftime("%y%m%d_%H%M%S")
dirname = "뉴스기사_%s" % datetime

# 뉴스기사를 텍스트 파일로 저장할 폴더 만들기
if not os.path.exists(dirname):
    os.mkdir(dirname)

#### 컨텐츠의 주소들을 수집하기

In [14]:
# 접근할 페이지 주소 (네이버 뉴스 메인)

content_url = "https://news.naver.com/"

In [15]:
# 네이버 뉴스 메인 소스코드 가져오기

r = requests.get(content_url, headers=header_info)

# 결과 검사
if r.status_code != 200:
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "%d %s 에러가 발생했습니다." % (r.status_code, r.reason)
    # 강제로 에러를 발생시킨다.
    raise Exception(err_msg)
    
r.encoding="euc-kr"
html = r.text

# 출력되는 양이 많음으로 주석
#html

In [16]:
# 수집된 내용에서 기사 본문으로 이동하기위한 <a>태그 수집

# 웹 페이지의 소스코드를 사용하여 HTML 분석 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# CSS 선택자를 활용하여 가져오기를 원하는 부분 지정
# -> 여러 개의 선택자를 사용해야 할 경우 콤마(,)로 구분
selector = soup.select('.hdline_flick_item > .lnk_hdline_main_article, .hdline_article_tit > .lnk_hdline_article, .mtype_img a, .m2list a, .list_text_inner > .list_tit')

# 결과 검사
if len(selector) == 0:
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "지정된 선택자에 대해서 인식된 구조가 없습니다."
    # 강제로 에러를 발생시킨다.
    raise Exception(err_msg)

#print(len(selector))
#print("-" * 50)
#selector

In [17]:
# 수집한 <a>태그에서 URL만 추출하여 리스트 저장

# 뉴스기사의 본문 URL을 저장할 리스트
url_list = []

# 리스트의 원소들에 대한 반복 처리
for item in selector:
    # 각 원소(링크)에 속성들(attrs) 중에 href 속성이 있다면 그 값을 별도로 준비한 리스트에 추가
    if "href" in item.attrs:
        url_list.append(item['href'])

#url_list

In [18]:
# 앞 부분에 도메인이 제외된 경우 적용하기

for i, v in enumerate(url_list):
    if content_url not in v:
        url = content_url + v
        url_list[i] = url
        
#url_list

In [19]:
# 뉴스 본문 페이지가 아닌경우 제외처리

news_url_list = []

for url in url_list:
    if "read.naver" in url:
        news_url_list.append(url)
        
news_url_list

['https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=102&oid=366&aid=0000750403',
 'https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=104&oid=052&aid=0001620563',
 'https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=105&oid=018&aid=0004997544',
 'https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=102&oid=277&aid=0004945283',
 'https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=100&oid=011&aid=0003943131',
 'https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=101&oid=421&aid=0005509297',
 'https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=104&oid=023&aid=0003630216',
 'https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=100&oid=366&aid=0000750437',
 'https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=100&oid=366&aid=0000750437',
 'https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=102&oid=082&aid=0001110176',
 'https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=102&oid=08

#### 뉴스 기사들에 대한 본문 수집

##### 작업단계 나누기

In [20]:
# URL 목록만큼 반복
for i, url in enumerate(news_url_list):
        
    print("%d번째 뉴스기사 수집중... >> %s" % (i+1, url))
    
    #-------------------------------------------------
    # 1) 뉴스 상세 페이지에 접속하여 HTML 소스코드 가져오기
    #-------------------------------------------------
    r = requests.get(url, headers=header_info)

    # 접속에 실패했다면 다음 항목으로 반복문의 제어를 이동
    if r.status_code != 200:
        # 에러코드와 에러메시지를 문자열로 구성
        err_msg = "%d %s 에러가 발생했습니다." % (r.status_code, r.reason)
        print(err_msg)
        continue


    # 컨텐츠의 인코딩 형식 설정
    r.encoding = "euc-kr"

    
    #-------------------------------------------------
    # 2) 기사 영역 추출
    #-------------------------------------------------
    # HTML 코드 분석을 위한 객체 생성
    soup = BeautifulSoup(r.text, 'html.parser')

    
    #-------------------------------------------------
    # 3) 기사 영역에서 제목 추출
    #-------------------------------------------------
    title = soup.select("#articleTitle")
    #print(title)
    
    # 제목의 0번째 항목에서 텍스트를 공백 제거하고 추출
    title_str = title[0].text.strip()
    
    # 기사 제목에서 파일이름으로 사용할 수 없는 특수문자 제거
    title_str = title_str.replace("'", "")
    title_str = title_str.replace('"', "")
    title_str = title_str.replace("?", "")
    title_str = title_str.replace("/", "")
    title_str = title_str.replace(">", "")
    title_str = title_str.replace("<", "")
    
    # 둥근따옴표 제거
    # "`ㄴ`>한자" 입력후 표시되는 팝업에서 선택 가능함
    title_str = title_str.replace("‘", "") # `ㄴ`입력 후 `한자키` --> 1페이지에서 8번
    title_str = title_str.replace("’", "") # `ㄴ`입력 후 `한자키` --> 1페이지에서 9번
    title_str = title_str.replace("“", "") # `ㄴ`입력 후 `한자키` --> 2페이지에서 1번
    title_str = title_str.replace("”", "") # `ㄴ`입력 후 `한자키` --> 2페이지에서 2번
    
    print(title_str)

    
    #-------------------------------------------------
    # 4) 기사 영역에서 내용 추출
    #-------------------------------------------------
    # 본문 가져오기
    article = soup.select('#articleBodyContents')
    article_item = article[0]
    
    # 불필요한 태그 제거, 치환
    for target in article_item.find_all(['script', 'a', 'span']):
        target.extract()
        
    for target in article_item.find_all('br'):
        target.replace_with("\n")
    
    # 본문 텍스트 추출
    article_str = article_item.text.strip()

    
    #-------------------------------------------------
    # 5) 제목과 내용을 텍스트 파일로 저장
    #-------------------------------------------------
    # 제목과 내용이 모두 존재한다면?
    if title_str and article_str:
        # 기사 제목을 파일명으로 지정하여 내용을 텍스트로 저장한다.
        fname = dirname + "/" + title_str + ".txt"
        with open(fname, 'w', encoding='utf-8') as f:
            f.write(article_str)
            print(" >> 파일저장 성공: " + fname)

1번째 뉴스기사 수집중... >> https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=102&oid=366&aid=0000750403
이재용·전직 대통령 원포인트 사면....박범계 文, 그럴 분 아냐
 >> 파일저장 성공: 뉴스기사_210729_112316/이재용·전직 대통령 원포인트 사면....박범계 文, 그럴 분 아냐.txt
2번째 뉴스기사 수집중... >> https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=104&oid=052&aid=0001620563
美 연방직원 접종 의무화...공화당 주지사들은 반발
 >> 파일저장 성공: 뉴스기사_210729_112316/美 연방직원 접종 의무화...공화당 주지사들은 반발.txt
3번째 뉴스기사 수집중... >> https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=105&oid=018&aid=0004997544
[속보] 넥슨 지주사 엔엑스씨, 이재교 신임 대표 선임
 >> 파일저장 성공: 뉴스기사_210729_112316/[속보] 넥슨 지주사 엔엑스씨, 이재교 신임 대표 선임.txt
4번째 뉴스기사 수집중... >> https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=102&oid=277&aid=0004945283
수세미로 발 닦던 방배동 족발집...더워서 그랬다더라
 >> 파일저장 성공: 뉴스기사_210729_112316/수세미로 발 닦던 방배동 족발집...더워서 그랬다더라.txt
5번째 뉴스기사 수집중... >> https://news.naver.com//main/read.naver?mode=LSD&mid=shm&sid1=100&oid=011&aid=0003943131
치맥 회동 후 하락세 잦아든 윤석열 27.5% 1위···이재명 25.5%
 >> 파일저장 성공: 뉴스기사_210