# 뉴스기사 크롤링 및 분류

* HTML 문서의 개념에 대해서 이해
* 태그의 형식에 대해서 이해
* 크롤링을 위한 패키지인 BeautifulSoup4의 사용벙을 이해
* 머신 러닝 분류 방법인 나이브 베이즈 분류기의 사용법을 익힘

## 크롤링이란

크롤링(crawling)이란 웹 페이지로부터 페이지를 추출하는 행위이다.  
선택자(Selector) - 원활한 크롤링을 위해서는 HTML 문서 내의 선택자를 이해해야 한다.
                   선택자는 어떤 특정 태그들에 그룹이나 번호를 주는 기능이다.

## BeautifulSoup
BeautifulSoup - HTML이나 XML 문서로부터 원하는 정보를 추출해 주는 파이썬 패키지
https://m.blog.naver.com/kiddwannabe/221177292446  
https://lifewithcoding.tistory.com/83  
https://heodolf.tistory.com/5

### 실습

In [1]:
from bs4 import BeautifulSoup

#- HTML 문서를 문자열 html로 저장합니다.
html = '''
<html> 
    <head> 
    </head> 
    <body> 
        <h1> 장바구니
            <p id='clothes' class='name' title='라운드티'> 라운드티
                <span class = 'number'> 25 </span> 
                <span class = 'price'> 29000 </span> 
                <span class = 'menu'> 의류</span> 
                <a href = 'http://www.naver.com'> 바로가기 </a> 
            </p> 
            <p id='watch' class='name' title='시계'> 시계
                <span class = 'number'> 28 </span>
                <span class = 'price'> 32000 </span> 
                <span class = 'menu'> 악세서리 </span> 
                <a href = 'http://www.facebook.com'> 바로가기 </a> 
            </p> 
        </h1> 
    </body> 
</html>
'''

#- BeautifulSoup 인스턴스를 생성합니다.
#- 두번째 매개변수는 분석할 분석기(parser)의 종류입니다.
soup = BeautifulSoup(html, 'html.parser')

In [2]:
print(soup.select('body'))

[<body>
<h1> 장바구니
            <p class="name" id="clothes" title="라운드티"> 라운드티
                <span class="number"> 25 </span>
<span class="price"> 29000 </span>
<span class="menu"> 의류</span>
<a href="http://www.naver.com"> 바로가기 </a>
</p>
<p class="name" id="watch" title="시계"> 시계
                <span class="number"> 28 </span>
<span class="price"> 32000 </span>
<span class="menu"> 악세서리 </span>
<a href="http://www.facebook.com"> 바로가기 </a>
</p>
</h1>
</body>]


In [3]:
print(soup.select('body'))

[<body>
<h1> 장바구니
            <p class="name" id="clothes" title="라운드티"> 라운드티
                <span class="number"> 25 </span>
<span class="price"> 29000 </span>
<span class="menu"> 의류</span>
<a href="http://www.naver.com"> 바로가기 </a>
</p>
<p class="name" id="watch" title="시계"> 시계
                <span class="number"> 28 </span>
<span class="price"> 32000 </span>
<span class="menu"> 악세서리 </span>
<a href="http://www.facebook.com"> 바로가기 </a>
</p>
</h1>
</body>]


In [4]:
print(soup.select('p'))

[<p class="name" id="clothes" title="라운드티"> 라운드티
                <span class="number"> 25 </span>
<span class="price"> 29000 </span>
<span class="menu"> 의류</span>
<a href="http://www.naver.com"> 바로가기 </a>
</p>, <p class="name" id="watch" title="시계"> 시계
                <span class="number"> 28 </span>
<span class="price"> 32000 </span>
<span class="menu"> 악세서리 </span>
<a href="http://www.facebook.com"> 바로가기 </a>
</p>]


In [5]:
print(soup.select('h1 .name .menu'))

[<span class="menu"> 의류</span>, <span class="menu"> 악세서리 </span>]


In [6]:
print(soup.select('html > h1'))

[]


h1은 html의 자식이기는 하지만, 바로 아래 자식은 아니다. 잘못 입력이 되었기 때문에 아무것도 출력되지 않았다.


## newspaper
newspaper3k는 뉴스 데이터를 크롤링하기 위해 만들어진 패키지이다. 사용자가 뉴스 기사의 URL을 전달해주면, 이로부터 뉴스 기사의 제목과 텍스트를 추출할 수 있다. 

In [8]:
pip install newspaper

Collecting newspaper
  Downloading newspaper-0.1.0.7.tar.gz (176 kB)
  Downloading newspaper-0.1.0.6.tar.gz (176 kB)
Collecting beautifulsoup4==4.3.2
  Downloading beautifulsoup4-4.3.2.tar.gz (143 kB)
Collecting Pillow==2.5.1
  Downloading Pillow-2.5.1.zip (6.9 MB)
Collecting PyYAML==3.11
  Downloading PyYAML-3.11.zip (371 kB)
Collecting cssselect==0.9.1
  Downloading cssselect-0.9.1.tar.gz (32 kB)
Collecting lxml==3.3.5
  Downloading lxml-3.3.5.tar.gz (3.5 MB)
Collecting nltk==2.0.5
  Downloading nltk-2.0.5.zip (1.1 MB)
  Downloading nltk-2.0.5.tar.gz (954 kB)
Collecting newspaper
  Downloading newspaper-0.1.0.5.tar.gz (49 kB)
  Downloading newspaper-0.1.0.4.tar.gz (49 kB)
  Downloading newspaper-0.1.0.3.tar.gz (49 kB)
  Downloading newspaper-0.1.0.2.tar.gz (180 kB)
  Downloading newspaper-0.1.0.1.tar.gz (49 kB)
  Downloading newspaper-0.1.0.0.tar.gz (49 kB)
  Downloading newspaper-0.0.9.9.tar.gz (49 kB)
  Downloading newspaper-0.0.9.8.tar.gz (248 kB)
  Downloading newspaper-0.0.9.6.t

    ERROR: Command errored out with exit status 1:
     command: 'C:\Users\user\anaconda3\python.exe' -c 'import io, os, sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\\Users\\user\\AppData\\Local\\Temp\\pip-install-i3099ps0\\newspaper_31af726a2a5e45768aa7861e889469b1\\setup.py'"'"'; __file__='"'"'C:\\Users\\user\\AppData\\Local\\Temp\\pip-install-i3099ps0\\newspaper_31af726a2a5e45768aa7861e889469b1\\setup.py'"'"';f = getattr(tokenize, '"'"'open'"'"', open)(__file__) if os.path.exists(__file__) else io.StringIO('"'"'from setuptools import setup; setup()'"'"');code = f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' egg_info --egg-base 'C:\Users\user\AppData\Local\Temp\pip-pip-egg-info-dwcaaguy'
         cwd: C:\Users\user\AppData\Local\Temp\pip-install-i3099ps0\newspaper_31af726a2a5e45768aa7861e889469b1\
    Complete output (1 lines):
    ----------------------------------------
    ERROR: Command errored out with exit status 1:
 

In [9]:
pip install newspaper3k

Collecting newspaper3k
  Downloading newspaper3k-0.2.8-py3-none-any.whl (211 kB)
Collecting tinysegmenter==0.3
  Downloading tinysegmenter-0.3.tar.gz (16 kB)
Collecting jieba3k>=0.35.1
  Downloading jieba3k-0.35.1.zip (7.4 MB)
Collecting cssselect>=0.9.2
  Using cached cssselect-1.2.0-py2.py3-none-any.whl (18 kB)
Collecting feedfinder2>=0.0.4
  Downloading feedfinder2-0.0.4.tar.gz (3.3 kB)
Collecting tldextract>=2.0.1
  Downloading tldextract-3.4.0-py3-none-any.whl (93 kB)
Collecting feedparser>=5.2.1
  Downloading feedparser-6.0.10-py3-none-any.whl (81 kB)
Collecting sgmllib3k
  Downloading sgmllib3k-1.0.0.tar.gz (5.8 kB)
Collecting requests-file>=1.4
  Downloading requests_file-1.5.1-py2.py3-none-any.whl (3.7 kB)
Building wheels for collected packages: tinysegmenter, feedfinder2, jieba3k, sgmllib3k
  Building wheel for tinysegmenter (setup.py): started
  Building wheel for tinysegmenter (setup.py): finished with status 'done'
  Created wheel for tinysegmenter: filename=tinysegmenter-

In [2]:
#뉴스 데이터 파싱 , article의 title에는 뉴스 기사의 제목, article의 text에는 뉴스 기사의 내용이 저장
from newspaper import Article

#- 파싱할 뉴스 기사 주소입니다.
url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002881076'

#- 언어가 한국어이므로 language='ko'로 설정해줍니다.
article = Article(url, language='ko')
article.download()
article.parse()

In [3]:
#- 기사 제목을 출력합니다.
print('기사 제목 :')
print(article.title)
print('')

#- 기사 내용을 출력합니다.
print('기사 내용 :')
print(article.text)

기사 제목 :
[AI 사피엔스 시대]자연어처리 기술, 컴퓨팅 파워 경쟁 시대로

기사 내용 :
[Copyright ⓒ 전자신문 & 전자신문인터넷, 무단전재 및 재배포 금지]

주로 아이디어와 기술력으로 경쟁했던 자연어처리 인공지능(AI) 분야는 점차 컴퓨팅 파워 싸움으로 무게 추가 이동하고 있다. 모델이 대형화되면서 향상된 퍼포먼스 확보에 필요한 자금 규모도 커지고 있다. 자칫 대기업 자본력에 휘둘릴 수 있다는 우려도 함께 나온다.자연어처리(NLP)는 인간이 사용하는 언어 체계를 기계가 인식하도록 알고리즘을 디자인하는 기술이다. 흔히 말하는 컴퓨터 혹은 인간과 대화하는 컴퓨터 관련 기술이 포함된다.목적에 따라 세 가지 카테고리로 나뉜다. 인간이 제기한 질문에 자동으로 적절한 답을 찾아주는 '질의응답(QA)', 원하는 업무를 지시했을 때 작업을 수행하는 '테스크 컴플리션', 그리고 특별한 목적이 없는 대화를 의미하는 '오픈도메인 컨버세이션(비목적성 대화)'이 있다. 각기 발전해왔던 세 가지 기술은 지난 2018년 구글의 인공지능 언어모델 '버트(BERT)'의 등장으로 패러다임이 전환됐다. 압도적인 성능으로 대량의 프리트레이닝(사전학습)이 가능해지면서 굳이 셋을 구분할 필요가 없어진 것이다.기계학습 연구에서 모델을 학습할 때는 지도학습과 비지도학습, 강화학습 중 하나를 골라 활용한다. 지도학습은 사람이 적절한 입력과 출력을 부여하는 방식이다. 정답이 정해져 있고 기계의 정답률도 쉽게 측정할 수 있다. 반면에 비지도학습은 정답이 정해지지 않은 데이터에 대해서도 기계가 스스로 클러스터링 등을 통해 학습한다. 체계화되지 않은 대량의 데이터를 학습 가능하지만 학습이 맞게 됐는지 확인하기 어렵다.버트는 기존 AI 학습 방법을 혁신적으로 바꿔놨다는 평가를 받는다. 자연어처리를 교사 없이 양방향으로 사전 학습하는 최초의 시스템이다. 비지도학습 방식을 사용하면서도 기존 존재했던 어떤 기술보다 뛰어난 성능을 보여준다. 최근 1년 반 동안 버트를 필두로 AI 모델은 급격히 대형화되

In [4]:
# 크롤러를 만들기 전 필요한 도구들을 임포트합니다.
import requests
import pandas as pd
from bs4 import BeautifulSoup

# 페이지 수, 카테고리, 날짜를 입력값으로 받습니다.
def make_urllist(page_num, code, date): 
  urllist= []
  for i in range(1, page_num + 1):
    url = 'https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1='+str(code)+'&date='+str(date)+'&page='+str(i)
    headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.90 Safari/537.36'}
    news = requests.get(url, headers=headers)

    # BeautifulSoup의 인스턴스 생성합니다. 파서는 html.parser를 사용합니다.
    soup = BeautifulSoup(news.content, 'html.parser')

    # CASE 1
    news_list = soup.select('.newsflash_body .type06_headline li dl')
    # CASE 2
    news_list.extend(soup.select('.newsflash_body .type06 li dl'))
        
    # 각 뉴스로부터 a 태그인 <a href ='주소'> 에서 '주소'만을 가져옵니다.
    for line in news_list:
        urllist.append(line.a.get('href'))
  return urllist

BeautifulSoup라는 도구를 이용해서 URL 리스트를 리턴하는 함수이다.  
원하는 페이지 수, 카테고리 번호, 날짜를 입력값으로 받는다. 

In [5]:
url_list = make_urllist(2, 101, 20200506)
print('뉴스 기사의 개수: ',len(url_list))
#2020년 5월6일, 경제 기사 (코드로 101번), 2페이지까지 URL 탐색해서 리스트를 받아옴

뉴스 기사의 개수:  40


In [6]:
url_list[:5]
#5개만 출력

['https://n.news.naver.com/mnews/article/057/0001451723?sid=101',
 'https://n.news.naver.com/mnews/article/057/0001451721?sid=101',
 'https://n.news.naver.com/mnews/article/057/0001451718?sid=101',
 'https://n.news.naver.com/mnews/article/003/0009849190?sid=101',
 'https://n.news.naver.com/mnews/article/057/0001451717?sid=101']

In [8]:
idx2word = {'101' : '경제', '102' : '사회', '103' : '생활/문화', '105' : 'IT/과학'}
#code를 키, 실제 카테고리를 밸류로 가지는 딕셔너리

In [9]:
from newspaper import Article

#- 데이터프레임을 생성하는 함수입니다.
def make_data(urllist, code):
  text_list = []
  for url in urllist:
    article = Article(url, language='ko')
    article.download()
    article.parse()
    text_list.append(article.text)

  #- 데이터프레임의 'news' 키 아래 파싱한 텍스트를 밸류로 붙여줍니다.
  df = pd.DataFrame({'news': text_list})

  #- 데이터프레임의 'code' 키 아래 한글 카테고리명을 붙여줍니다.
  df['code'] = idx2word[str(code)]
  return df

#URL 리스트와 해당 URL이 어떤 카테코기리인지 코드를 알려주면 이를 통해 데이터프레임을 생성하는 함수

In [16]:
data = make_data(url_list, 101)
#- 상위 10개만 출력해봅니다.
data[:10]

#앞서 저자애둔 경제 카테고리의 40개씩 URL 리스트로부터 
#데이터프레임을 생성함


Unnamed: 0,news,code
0,고려은단이 5월을 맞아 응원 메시지를 공유하는 ‘5월 5글자로 응원 부탁해!’ 이벤...,경제
1,코리아나화장품의 민감성 피부를 위한 저자극 스킨케어 브랜드 '프리엔제'가 마르고 건...,경제
2,서울장수주식회사가 부드럽고 달콤한 맛으로 인기를 모으고 있는 생막걸리 ‘인생막걸리’...,경제
3,[서울=뉴시스] 오동현 기자 = 모바일 게임 기업 컴투스는 3D 모바일 야구 게임 ...,경제
4,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...,경제
5,"""요즘은 잔인한 날""…리프트도 앞서 982명 일시해고(뉴욕=연합뉴스) 이귀원 특파원...",경제
6,이재용 삼성전자 부회장(52)이 그룹 경영권 승계 과정에서 발생한 각종 불법·편법 ...,경제
7,JW중외제약이 A형 혈우병 예방요법제 ‘헴리브라피하주사를 출시하고 본격적인 마케팅 ...,경제
8,"옵티팜과 휴벳바이오가 공동 개발중인 백신 후보 물질에 대해 마우스, 기니피그, 미니...",경제
9,[한국경제TV 신동호 기자]\n\n전남 나주시와 충북 청주시가 방사광 가속기 구축사...,경제
