# 31. 뉴스기사 크롤링 및 분류

__준비물__   

1. 디렉토리 만들기
```
$ mkdir -p ~/aiffel/news_crawler
```

2. Mecab라는 형태소 분석기 설치하기
```
$ git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
$ cd Mecab-ko-for-Google-Colab
$ bash install_mecab-ko_on_colab190912.sh
```

3. pip 패키지 설치하기
```
$ pip install beautifulsoup4
$ pip install newspaper3k
$ pip install konlpy
```

# 31-2. 웹 이해하기 (1) HTML, tag

__crawling__ 이란 웹 페이지에서 데이터를 추출하는 행위를 말한다. 크롤링하는 소프트웨어는 crawler라고 부른다. 웹 사이트들은 HTML(HyperText Markup Language)라는 마크업 언어로 작성된 문서이다. 

```
<!DOCTYPE html>
<html>
  <head>
    <title> HTML 문서 </title>
  </head>
  <body>
    <h1> 이것은 HTML 문서입니다! </h1>
  </body>
</html>
```

HTML 문서는 기본적으로 정해진 문법을 지키며 작성되어 있다. 네이버를 예시로 한번 봐보자.

```
<div class="direct_area">
    <a href="http://news.naver.com/" class="link_news" data-clk="newshome">네이버뉴스</a>
    <a href="http://entertain.naver.com/home" class="link_direct" data-clk="entertainment">연예</a>
    <a href="http://sports.news.naver.com/" class="link_direct" data-clk="sports">스포츠</a>
</div>
```

수 많은 꺽쇠들의 조합으로 구성되어 있다. 이렇게 `<>`들로 이루어진 코드를 __태그__ 라고 한다. 태그의 일반적인 형식은 `<태그명> 컨텐츠 </태그명>` 인데, 간혹가다 닫히는 태그가 없는 경우도 있다. 이는 `<태그명/>`으로 표현된다.

# 31-3. 웹 이해하기 (2) 선택자

원활한 크롤링을 위해서 HTML 문서 내의 __선택자(selector)__ 를 이해해야 한다. 이는 특정 태그들에 그룹이나 번호를 주는 기능을 말한다.   
```
<html> 
    <head> 
    </head> 
    <body> 
        <h1> 장바구니
            <p> 라운드티
                <span> 25 </span> 
                <span> 29000 </span> 
                <span> 의류</span> 
                <a href = 'http://www.naver.com'> 이동 </a> 
            </p> 
            <p> 시계
                <span> 28 </span>
                <span> 32000 </span> 
                <span> 악세서리 </span> 
                <a href = 'http://www.facebook.com'> 이동 </a> 
            </p> 
        </h1> 
    </body> 
</html>
```

위 HTML 문서에서 `p, span, a` 태그를 보면 동일한 태그가 반복적으로 있다. 이렇게 같은 태그가 추가 정보 없이 반복되면 가독성도 안좋아지고 특정 태그만 선택해야하는 경우에도 일일이 찾아야 하는 번거로움이 있다. 그래서 다음과 같이 `id, class`라는 selector를 추가하면 보기 쉽게 관리할 수 있다.   

```
<html> 
    <head> 
    </head> 
    <body> 
        <h1> 장바구니
            <p id='clothes' class='name' title='라운드티'> 라운드티
                <span class = 'number'> 25 </span> 
                <span class = 'price'> 29000 </span> 
                <span class = 'menu'> 의류</span> 
                <a href = 'http://www.naver.com'> 바로가기 </a> 
            </p> 
            <p id='watch' class='name' title='시계'> 시계
                <span class = 'number'> 28 </span>
                <span class = 'price'> 32000 </span> 
                <span class = 'menu'> 악세서리 </span> 
                <a href = 'http://www.facebook.com'> 바로가기 </a> 
            </p> 
        </h1> 
    </body> 
</html>
```

`id`, `class`를 기존의 코드에서 새롭게 추가했다. 이렇게 추가하면 가독성도 좋아지지만 CSS의 스타일을 적용할 때 매우 유용하다. 이러한 선택자의 개념을 이용해서 보다 용이하게 크롤링을 해보자.

# 31-4. BeautifulSoup 패키지

BeautifulSoup 파이썬 크롤링 패키지를 사용하면 손 쉽게 원하는 태그를 찾아 원하는 정보만 뽑아낼 수 있다. 이 패키지는 HTML, XML 문서로부터 원하는 정보를 추출해준다.

In [None]:
from bs4 import BeautifulSoup

#- HTML 문서를 문자열 html로 저장합니다.
html = '''
<html> 
    <head> 
    </head> 
    <body> 
        <h1> 장바구니
            <p id='clothes' class='name' title='라운드티'> 라운드티
                <span class = 'number'> 25 </span> 
                <span class = 'price'> 29000 </span> 
                <span class = 'menu'> 의류</span> 
                <a href = 'http://www.naver.com'> 바로가기 </a> 
            </p> 
            <p id='watch' class='name' title='시계'> 시계
                <span class = 'number'> 28 </span>
                <span class = 'price'> 32000 </span> 
                <span class = 'menu'> 악세서리 </span> 
                <a href = 'http://www.facebook.com'> 바로가기 </a> 
            </p> 
        </h1> 
    </body> 
</html>
'''

#- BeautifulSoup 인스턴스를 생성합니다.
#- 두번째 매개변수는 분석할 분석기(parser)의 종류입니다.
soup = BeautifulSoup(html, 'html.parser')

임의로 만든 HTML 문자열로 해당 문서를 분석해보는 예제를 살펴보자.   
맨 아랫줄에 있는 `BeautifulSoup(입력 문자열, 'html.parser')` 의미는 HTML 문법을 기반으로 파싱하라는 의미이다. 이렇게 생성한 인스턴스를 `select()`로 정보를 가져올 수 있다.   
[블로그](https://m.blog.naver.com/kiddwannabe/221177292446)를 살펴보면 `select()` 관련한 핸들링을 자세하게 볼 수 있다.

In [None]:
print(soup.select('body'))

In [None]:
print(soup.select('p'))

In [None]:
print(soup.select('h1 .name .menu'))

In [None]:
# 잘못된 입력을 넣으면 아무런 정보도 출력되지 않는다.
print(soup.select('html > h1'))

# 31-5. newspaper3k 패키지

newspaper3k 패키지는 뉴스 데이터를 크롤링하기 위해 만들어진 패키지이다. 뉴스 기사의 URL을 전달해주면 제목과 텍스트를 추출할 수 있다. 

In [None]:
from newspaper import Article

#- 파싱할 뉴스 기사 주소입니다.
url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002881076'

#- 언어가 한국어이므로 language='ko'로 설정해줍니다.
article = Article(url, language='ko')
article.download()
article.parse()

In [None]:
#- 기사 제목을 출력합니다.
print('기사 제목 :')
print(article.title)
print('')

#- 기사 내용을 출력합니다.
print('기사 내용 :')
print(article.text)

Article에 기사 URL을 전달하면 title과 text로 기사를 쉽게 크롤링할 수 있다.

# 31-6. 네이버 뉴스 기사 크롤링 (1) 뉴스 URL 페이지 이해하기

네이버 메인 > 뉴스 > 속보에 위치한 페이지를 크롤링할 예정이다.   
![](https://d3s0tskafalll9.cloudfront.net/media/images/Group_522.max-800x600.png)

❗️ LMS는 위처럼 나온다고 하는데 바뀐거같다. 실습하는 과정에서 나는 다르게 다음과 같이 나왔다.   
![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-04%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%204.32.05.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-04%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%204.32.05.png)

`&sid1=`에 있는 카테고리의 번호는 일치하다.   
100: 정치, 101: 경제, 102: 사회 ... 105: IT/과학, 110: 오피니언   
하지만 `&oid, &aid`로 바뀌었다.

# 31-7. 네이버 뉴스 기사 크롤링 (2) BeautifulSoup, newspaper3k를 통해 크롤러 만들기

In [None]:
# 크롤러를 만들기 전 필요한 도구들을 임포트합니다.
import requests
import pandas as pd
from bs4 import BeautifulSoup

# 페이지 수, 카테고리, 날짜를 입력값으로 받습니다.
def make_urllist(page_num, code, date): 
  urllist= []
  for i in range(1, page_num + 1):
    url = 'https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1='+str(code)+'&date='+str(date)+'&page='+str(i)
    headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.90 Safari/537.36'}
    news = requests.get(url, headers=headers)

    # BeautifulSoup의 인스턴스 생성합니다. 파서는 html.parser를 사용합니다.
    soup = BeautifulSoup(news.content, 'html.parser')

    # CASE 1
    news_list = soup.select('.newsflash_body .type06_headline li dl')
    # CASE 2
    news_list.extend(soup.select('.newsflash_body .type06 li dl'))
        
    # 각 뉴스로부터 a 태그인 <a href ='주소'> 에서 '주소'만을 가져옵니다.
    for line in news_list:
        urllist.append(line.a.get('href'))
  return urllist

`make_urllist()`는 beautifulsoup를 이용해서 URL 리스트를 리턴하는 함수이다. 원하는 페이지 수, 카테고리 번호, 날짜를 입력값으로 받고 있다.   
101코드 경제 기사의 2020년05월06일 날짜의 2페이지까지 리스트를 받아오자.

In [None]:
url_list = make_urllist(2, 101, 20200506)
print('뉴스 기사의 개수: ',len(url_list))

In [None]:
url_list[:5]

위에서 BeautifulSoup으로 추출한 URL을 newspaper3k를 통해 데이터프레임을 만들자. 카테고리를 번호로 호출하고 있는데 결과를 확인할 때 코드로부터 어떤 카테고리인지 확인하기 쉽게 딕셔너리 형태로 만들어두자.

In [None]:
idx2word = {'101' : '경제', '102' : '사회', '103' : '생활/문화', '105' : 'IT/과학'}

In [None]:
from newspaper import Article

#- 데이터프레임을 생성하는 함수입니다.
def make_data(urllist, code):
  text_list = []
  for url in urllist:
    article = Article(url, language='ko')
    article.download()
    article.parse()
    text_list.append(article.text)

  #- 데이터프레임의 'news' 키 아래 파싱한 텍스트를 밸류로 붙여줍니다.
  df = pd.DataFrame({'news': text_list})

  #- 데이터프레임의 'code' 키 아래 한글 카테고리명을 붙여줍니다.
  df['code'] = idx2word[str(code)]
  return df

In [None]:
data = make_data(url_list, 101)
#- 상위 10개만 출력해봅니다.
data[:10]

40개의 경제 뉴스가 데이터프레임에 저장되었다.

# 31-8. 네이버 뉴스 기사 크롤링 (3) 데이터 수집 및 전처리

다른 카테고리 뉴스들도 데이터를 수집해보자. 카테고리 코드들을 저장한 리스트를 만들어 이를 사용해 크롤링할 수 있도록 만들자.

In [None]:
code_list = [102, 103, 105]

code_list

In [None]:
from multiprocessing import Pool
import random
import time, os

def make_total_data(page_num, code_list, date):
  start = int(time.time())  
  num_cores = 4  
  df = None
  for code in code_list:
    pool = Pool(num_cores)
    url_list = make_urllist(page_num, code, date)
    df_temp = make_data(url_list, code)
    print(str(code)+'번 코드에 대한 데이터를 만들었습니다.')
    pool.close()
    pool.join()
    time.sleep(random.randint(0,1))
    if df is not None:
      df = pd.concat([df, df_temp])
    else:
      df = df_temp

  print("***run time(sec) :", int(time.time()) - start)
  return df

2020년 05월 06일 기사의 1페이지에 있는 102, 103, 105번 카테고리 뉴스를 수집하자.

In [None]:
df = make_total_data(1, code_list, 20200506)

In [None]:
print('뉴스 기사의 개수: ',len(df))

In [None]:
df.sample(10)

__크롤링__   
좀 더 많은 데이터를 수집해보자. 이렇게 수집한 데이터로 머신 러닝 모델을 통해 카테고리를 예측하는 모델을 만들어보자. 3개의 카테고리에서 각 10개의 페이지를 크롤링해보자.

In [None]:
# 아래 주석처리된 코드의 주석을 해제하고 실행을 하면 대량 크롤링이 진행됩니다. 
# 위에서 수행했던 크롤링의 10배 분량이 수행될 것입니다. 한꺼번에 너무 많은 크롤링 요청이 서버에 전달되지 않도록 주의해 주세요. 
# 기사 일자를 바꿔보면서 데이터를 모으면 더욱 다양한 데이터를 얻을 수 있게 됩니다. 

df = make_total_data(10, code_list, 20200506)

In [None]:
import os

# 데이터프레임 파일을 csv 파일로 저장합니다.
# 저장경로는 이번 프로젝트를 위해 만든 폴더로 지정해 주세요.
csv_path = os.getenv("HOME") + "/aiffel/news_crawler/news_data.csv"
df.to_csv(csv_path, index=False)

if os.path.exists(csv_path):
  print('{} File Saved!'.format(csv_path))

# 31-9. 네이버 뉴스 기사 크롤링 (4) 데이터 전처리

# 31-10. 머신러닝 사용하기

# 31-11. 모델 성능 개선하기