네이버 뉴스 수집(2)

컨텐츠로 접근할 수 있는 웹 페이지의 주소들을 수집하고 그 목록을 리스트로 정의.

리스트에 대해 반복문을 수행하면서 컨텐츠 수집

## 01. 필요한 모듈 참조

In [20]:
import requests  # -> 웹페이지 요청 모듈
import os       # -> 날짜 처리 모듈
import datetime as dt # ->날짜 처리 모듈
from bs4 import BeautifulSoup # -> 웹페이지 소스코드 분석 모듈
from pandas import DataFrame

-----------------------------------------
## #02. 수집 준비

### 1)접속을 수행하기 위한 session 객체 생성

In [21]:
# 접속 세션 만들기
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"

session = requests.Session()
session.headers.update({'User-agent':user_agent, 'referer':None})

### 2)접근할 페이지 주소(네이버 메인 뉴스)

In [22]:
content_url = "https://news.naver.com"

### 3)수집된 기사들이 텍스트로 저장될 폴더 생성

In [23]:
# 뉴스 기사가 저장될 폴더이름 구성
datetime = dt.datetime.now().strftime("%y%m%d_%H%M%S")
dirname = "%s_%s" % ('뉴스기사', datetime)

# 뉴스기사를 텍스트 파일로 저장할 폴더 만들기
if not os.path.exists(dirname):
    os.mkdir(dirname)

## #03.컨텐츠의 주소들을 수집하기

1) 네이버 뉴스 메인 소스코드 가져오기

In [24]:
r = session.get(content_url)

#-> 결과확인
if r.status_code != 200:
    print("%d 에러가 발생했습니다." % r.status_code)
    # 즉시 종료 --> jupyter가 재시작됨
    quit()
    
r.encoding = "euc-kr"
r.text

'\n\n\n\n\n\n\n\n\n\n\n\t\n\t\t\n\t\n\t\n\n\n<!DOCTYPE HTML>\n<html lang="ko">\n<head>\n<meta charset="euc-kr">\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n<meta name="referrer" contents="always">\n<meta http-equiv="refresh" content="600" />\n<meta name="viewport" content="width=1106" />\n\r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n<meta property="og:title"       content="네이버 뉴스">\r\n<meta property="og:type"        content="website">\r\n<meta property="og:url"         content="http://news.naver.com/main/home.nhn">\r\n<meta property="og:image"       content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png"/>\r\n<meta property="og:description" content="정치, 경제, 사회, 생활/문화, 세계, IT/과학 등 언론사별, 분야별 뉴스 기사 제공">\r\n<meta property="og:article:author"\tcontent="네이버"/>\r\n\r\n<meta name="twitter:card"\t\tcontent="summary">\r\n<meta name="twitter:

2) 컨텐츠의 URL 수집

In [25]:
# 웹 페이지의 소스코드 HTML 분석 객체로 생성
soup = BeautifulSoup(r.text, 'html.parser')

# CSS 선택자를 활용하여 가져오기를 원하는 부분 지정
# -> 여러개의 선택자를 사용해야 할 경우 콤마(,)로 구분
selector = soup.select('.lnk_hdline_main_article, .lnk_hdline_article, .mtype_img > dt > a, .mlist2 > li > a')

if not selector:  #가져온 내용이 없다면?
    print("뉴스기사 크롤링 실패")
    quit()

selector

[<a class="lnk_hdline_main_article nclicks('mai.image', '880000D8_000000000000000011185281', 'airsGParam', '0', 'news_qm_v2.0', 'VDO9t2JH4urF06tR')" href="/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=102&amp;oid=001&amp;aid=0011185281">
 <img alt="'독도 추락헬기' 수중수색 집중…무인잠수정, 실종자 수습 시도(종합)" height="190" src="https://imgnews.pstatic.net/image/001/2019/11/02/PYH2019110117230001300_P2_20191102121005378.jpg?type=nf270_166" width="300"/>
 <div class="hdline_flick_mask">
 <p class="hdline_flick_tit">'독도 추락헬기' 수중수색 집중…무인잠수정, 실…</p>
 </div>
 </a>,
 <a class="lnk_hdline_main_article nclicks('mai.image', '880000D8_000000000000000011185298', 'airsGParam', '0', 'news_qm_v2.0', 'VDO9t2JH4urF06tR')" href="/main/read.nhn?mode=LSD&amp;mid=shm&amp;sid1=104&amp;oid=001&amp;aid=0011185298">
 <img alt='미국·독일 미사일 전문가 "北 초대형 방사포 완성도 의문"' height="190" src="https://imgnews.pstatic.net/image/001/2019/11/02/AKR20191102028600504_01_i_20191102121359979.jpg?type=nf270_166" width="300"/>
 <div class="hdline_flick_mask"

3) 수집한 <a> 태그에서 URL만 추출

In [26]:
# 뉴스기사의 본문 URL을 저장할 리스트
url_list = []

#리스트의 원소들에 대한 반복 처리
for item in selector:
    #print(type(item.attrs))
    #print(item.attrs)
    
    #각 원소(링크)에 속성들(attrs) 중에 href 속성이 있다면 그 값을 별도로 준비한 리스트에 추기
    if "href" in item.attrs:
        if content_url in item['href']:
            url_list.append(item['href'])
        else:
            url_list.append(content_url + item['href'])

url_list

['https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=001&aid=0011185281',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=104&oid=001&aid=0011185298',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=104&oid=001&aid=0011185268',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=025&aid=0002949757',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=277&aid=0004565067',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=001&aid=0011185275',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=011&aid=0003644804',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=082&aid=0000954398',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=005&aid=0001255173',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=057&aid=0001392994',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=006&aid=0000099509',
 'https://

In [27]:
## 04.뉴스기사들 수집
# URL 목록만큼 반복
for i, url in enumerate(url_list):
    print("%d번째 뉴스기사 수집중...>> %s" % (i+1, url))
    
    r = session.get(url)
    
    if r.status_code != 200:
        print("%d 에러가 발생했습니다." % r.status_code)
        continue
    
    r.encoding = "euc-kr"
    
    soup = BeautifulSoup(r.text, 'html.parser')
    
    main_content = soup.select("#main_content")
    title = main_content[0].select("#articleTitle")
    title_str = title[0].text.strip()
    # 기사 제목에서 파일이름으로 사용할 수 없는 특수문자 제거
    title_str = title_str.replace("'","")
    title_str = title_str.replace("\"","")
    title_str = title_str.replace("?","")
    title_str = title_str.replace("'","")
    title_str = title_str.replace("'","")
    title_str = title_str.replace("/","")
    title_str = title_str.replace(">","")
    title_str = title_str.replace("<","")

    #본문 가져오기
    article = main_content[0].select('#articleBodyContents')
    article_item = article[0]
    
    for target in article_item.find_all('script'): target.extract()
    for target in article_item.find_all('a'): target.extract()
    for target in article_item.find_all('span'): target.extract()
    for target in article_item.find_all('div'): target.extract()
    for target in article_item.find_all('br'): target.replace_with("\n")
        
    article_str = article_item.text.strip()
    
    # 제목과 내용이 모두 존재한다면?
    if title_str and article_str:
        # 기사 제목을 파일명으로 지정하여 내용을 텍스트로 저장한다.
        fname = dirname + "/" + title_str + ".txt"
        with open(fname, 'w', encoding = "utf-8") as f:
            f.write(article_str)
            print(" >> 파일저장 성공: " + fname)

1번째 뉴스기사 수집중...>> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=001&aid=0011185281
 >> 파일저장 성공: 뉴스기사_191102_130840/독도 추락헬기 수중수색 집중…무인잠수정, 실종자 수습 시도(종합).txt
2번째 뉴스기사 수집중...>> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=104&oid=001&aid=0011185298
 >> 파일저장 성공: 뉴스기사_191102_130840/미국·독일 미사일 전문가 北 초대형 방사포 완성도 의문.txt
3번째 뉴스기사 수집중...>> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=104&oid=001&aid=0011185268
 >> 파일저장 성공: 뉴스기사_191102_130840/강창일 日정부, 언론플레이 하지 말고 협상 테이블 나와야.txt
4번째 뉴스기사 수집중...>> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=025&aid=0002949757
 >> 파일저장 성공: 뉴스기사_191102_130840/한국당→정의당 간 이자스민···금태섭 여당이 놓쳐 아쉽다.txt
5번째 뉴스기사 수집중...>> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=277&aid=0004565067
 >> 파일저장 성공: 뉴스기사_191102_130840/네탓 공방으로 번진 타다 기소 논란.txt
6번째 뉴스기사 수집중...>> https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=001&aid=0011185275
 >> 파일저장 성공: 뉴스기사_191102_130840/경찰, 이춘재 살해 화

## 01.필요한 모듈 참조

워드클라우드 모듈 설치

-- pip install --upgrade worldcloud

한글 형태소 분석 모듈 설치

1. java 1.8 버전에 대한 개발환경이 필수적으로 필요함 : 자바 환경변수 설정 JAVA_HOME, PATH, 값 설정이 필요함(책, 서핑 참조)
    --> 명령프롬프트에서 다음으로 확인 가능
    javac -version
2. VC++ 개발환경의 2014년도 버전이 필수적으로 필요함
3. 개발환경 완료 후 모듈 설치

JAVA와 파이썬 연동 기능을 제공하는 패키지 설치(버전주의)
--> pip install --upgrade jpype1==0.6.3

Konlpy 설치
-- pip install --upgrade konlpy