##1. BeautifulSoup

패키지란 이미 만들져있는 함수들의 묶음입니다. 누군가 만들어놓은 함수들이 우리가 사용하고자 하는 용도와 일치한다면, 해당 패키지를 설치하여 바로 사용하면 편하겠죠?

파이썬에서는 !pip install 패키지이름 라는 명령어를 통해 패키지를 설치할 수 있습니다.

설치 후에는 'from 패키지이름 import 모듈' 이라는 방법으로 패키지를 사용할 수 있습니다. 여기서 모듈이란 패키지 안에 저장되어져 있는 함수 등을 말합니다. 이 과정을 '임포트'라고 합니다. 사실 임포트도 여러가지 방법으로 할 수 있는데, 이는 차차 실습을 통해 이해하시게 될 거에요. (Ex) import pandas as pd)  

파이썬으로 크롤링을 할 때 주로 사용되는 패키지로 BeautifulSoup가 있습니다. 이 패키지를 통해 HTML이나 XML 문서로부터 원하는 정보를 추출할 수 있습니다. 

In [None]:
!pip install beautifulSoup4



In [None]:
# bs4라는 패키지로부터 BeautifulSoup라는 모듈을 임포트
from bs4 import BeautifulSoup

간단한 실습을 통해 BeautifulSoup4의 사용법을 익혀봅시다. 설치할 때는 beautifulSoup4라는 이름으로 설치했지만, 임포트할 때는 from **bs4**라고 적어주셔야 합니다. 설치할 때의 이름과 임포트할 때의 패키지 이름이 항상 동일하지는 않습니다.

이는 BeautifulSoup라는 패키지에서 정한 규칙이니까 따라주세요.

In [None]:
# HTML 문서를 문자열 html로 저장
html = '''
<html> 
    <head> 
    </head> 
    <body> 
        <h1> 장바구니
            <p id='clothes' class='name' title='라운드티'> 라운드티
                <span class = 'number'> 25 </span> 
                <span class = 'price'> 29000 </span> 
                <span class = 'menu'> 의류</span> 
                <a href = 'http://www.naver.com'> 바로가기 </a> 
            </p> 
            <p id='watch' class='name' title='시계'> 시계
                <span class = 'number'> 28 </span>
                <span class = 'price'> 32000 </span> 
                <span class = 'menu'> 악세서리 </span> 
                <a href = 'http://www.facebook.com'> 바로가기 </a> 
            </p> 
        </h1> 
    </body> 
</html>
'''

# BeautifulSoup 인스턴스 생성. 두번째 매개변수는 분석할 분석기(parser)의 종류.
soup = BeautifulSoup(html, 'html.parser')

맨 아랫 줄에 있는 코드를 볼까요? BeautifulSoup(입력 문자열, 'html.parser')라는 코드는 이 입력은 HTML 문법으로 작성되어져 있으니 HTML 문법을 기반으로 파싱하라는 의미입니다. 이렇게 인스턴스를 생성하고나면 본격적으로 정보를 가져오는 것은 select()를 가지고 수행합니다.

인스턴스의 이름은 soup이므로 soup.select()를 통해서 정보를 가져옵니다. select()의 사용 방법은 요약하자면 soup.select('찾는 정보')입니다. 구체적인 예시는 다음과 같습니다.

- soup.select('태그명') : 태그를 입력으로 사용할 경우
- soup.select('.클래스명') : 클래스를 입력으로 사용할  (선택자)
- soup.select('#아이디') : ID를 입력으로 사용할 경우 (선택자)
- soup.select('상위태그 하위태그') : 자손 관계 (띄어쓰기)
- soup.select('상위태그 > 하위태그') : 자식 관계 ( > )

실습을 통해 이해해볼까요? 태그명 <body>를 입력으로 내부 정보를 가져와보겠습니다.

In [None]:
# <body> 태그를 입력
print(soup.select('#clothes'))

[<p class="name" id="clothes" title="라운드티"> 라운드티
                <span class="number"> 25 </span>
<span class="price"> 29000 </span>
<span class="menu"> 의류</span>
<a href="http://www.naver.com"> 바로가기 </a>
</p>]


<p> 내부의 정보들을 모두 가져온 것을 확인할 수 있습니다.

이번에는 자손 관계를 입력으로 하여 class가 menu인 경우만을 출력해보겠습니다. 태그명 h1 자손인 클래스 .name의 자손인 클래스 .menu의 정보를 찾으면?

In [None]:
print(soup.select('h1 .name .menu'))

[<span class="menu"> 의류</span>, <span class="menu"> 악세서리 </span>]


class가 menu인 부분의 정보를 잘 가져온 것을 확인할 수 있습니다.

이번에는 의도적으로 잘못된 입력을 넣어볼게요. 태그명 h1은 태그명 html의 자손이기는 하지만, 자식은 아닙니다. 만약, html 자식인 h1의 정보를 가져오라고 하면 어떻게 될까요?

In [None]:
print(soup.select('html > h1'))

[]


아무런 정보도 출력되지 않습니다.

##2. BeautifulSoup 보충 설명

보충 설명 내용은 **영상에는 없지만 질문 주신 분이 있어서 Colab에만 추가로 자료를 만들어 설명드리는 내용입니다.**  
짧고 어렵지 않은 내용이니 한 번 읽어주세요.

* **soup.태그명**

을 사용하시면 해당 태그를 포함하여 그 태그가 끝날 까지의 문장을 가지고 옵니다. 단, 해당 태그가 여러개 있다면 첫번째 태그만 가져옵니다.

In [None]:
soup.a

<a href="http://www.naver.com"> 바로가기 </a>

a 태그가 본문에 2개 있다보니 처음 것만 가져옵니다.

* **soup.태그명.get('속성명')**

get('속성명')을 사용하시면 해당 속성의 값을 가져옵니다.

여기서 속성이라는 것은 aaa = 'bbb' 와 같은 형식을 가지는 경우  
get('aaa')를 하면 'bbb'의 값을 가져온다는 의미입니다.

In [None]:
soup.a.get('href')

'http://www.naver.com'

유사하게 p태그에 대해서도 해봅시다.

In [None]:
soup.p

<p class="name" id="clothes" title="라운드티"> 라운드티
                <span class="number"> 25 </span>
<span class="price"> 29000 </span>
<span class="menu"> 의류</span>
<a href="http://www.naver.com"> 바로가기 </a>
</p>

In [None]:
soup.p.get('title')

'라운드티'

##2. Newspaper3k

In [None]:
!pip install newspaper3k

Collecting newspaper3k
  Downloading newspaper3k-0.2.8-py3-none-any.whl (211 kB)
[?25l[K     |█▌                              | 10 kB 24.7 MB/s eta 0:00:01[K     |███                             | 20 kB 27.3 MB/s eta 0:00:01[K     |████▋                           | 30 kB 19.6 MB/s eta 0:00:01[K     |██████▏                         | 40 kB 13.1 MB/s eta 0:00:01[K     |███████▊                        | 51 kB 9.5 MB/s eta 0:00:01[K     |█████████▎                      | 61 kB 9.9 MB/s eta 0:00:01[K     |██████████▉                     | 71 kB 8.0 MB/s eta 0:00:01[K     |████████████▍                   | 81 kB 8.9 MB/s eta 0:00:01[K     |██████████████                  | 92 kB 8.0 MB/s eta 0:00:01[K     |███████████████▌                | 102 kB 8.5 MB/s eta 0:00:01[K     |█████████████████               | 112 kB 8.5 MB/s eta 0:00:01[K     |██████████████████▋             | 122 kB 8.5 MB/s eta 0:00:01[K     |████████████████████▏           | 133 kB 8.5 MB/s eta 0:

newspaper3k는 뉴스 데이터를 크롤링을 위한 패키지입니다. 사용자가 인터넷 뉴스 기사의 url을 전달해주면, 이로부터 뉴스 기사의 제목과 텍스트를 추출합니다.  

임의의 뉴스를 선정하여 뉴스의 제목과 텍스트를 뽑아보는 실습을 해보겠습니다.  

In [None]:
from newspaper import Article

# 파싱할 뉴스 기사 주소
url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002881076'

# 언어가 한국어이므로 language='ko'로 설정
article = Article(url, language='ko')
article.download()
article.parse()

In [None]:
article

<newspaper.article.Article at 0x7f67f1a3e150>

In [None]:
# 기사 제목 출력
print('기사 제목 :')
print(article.title)


# 기사 내용 출력
print('기사 내용 :')
print(article.text)

기사 제목 :
[AI 사피엔스 시대]자연어처리 기술, 컴퓨팅 파워 경쟁 시대로
기사 내용 :
[Copyright ⓒ 전자신문 & 전자신문인터넷, 무단전재 및 재배포 금지]

주로 아이디어와 기술력으로 경쟁했던 자연어처리 인공지능(AI) 분야는 점차 컴퓨팅 파워 싸움으로 무게 추가 이동하고 있다. 모델이 대형화되면서 향상된 퍼포먼스 확보에 필요한 자금 규모도 커지고 있다. 자칫 대기업 자본력에 휘둘릴 수 있다는 우려도 함께 나온다.자연어처리(NLP)는 인간이 사용하는 언어 체계를 기계가 인식하도록 알고리즘을 디자인하는 기술이다. 흔히 말하는 컴퓨터 혹은 인간과 대화하는 컴퓨터 관련 기술이 포함된다.목적에 따라 세 가지 카테고리로 나뉜다. 인간이 제기한 질문에 자동으로 적절한 답을 찾아주는 '질의응답(QA)', 원하는 업무를 지시했을 때 작업을 수행하는 '테스크 컴플리션', 그리고 특별한 목적이 없는 대화를 의미하는 '오픈도메인 컨버세이션(비목적성 대화)'이 있다. 각기 발전해왔던 세 가지 기술은 지난 2018년 구글의 인공지능 언어모델 '버트(BERT)'의 등장으로 패러다임이 전환됐다. 압도적인 성능으로 대량의 프리트레이닝(사전학습)이 가능해지면서 굳이 셋을 구분할 필요가 없어진 것이다.기계학습 연구에서 모델을 학습할 때는 지도학습과 비지도학습, 강화학습 중 하나를 골라 활용한다. 지도학습은 사람이 적절한 입력과 출력을 부여하는 방식이다. 정답이 정해져 있고 기계의 정답률도 쉽게 측정할 수 있다. 반면에 비지도학습은 정답이 정해지지 않은 데이터에 대해서도 기계가 스스로 클러스터링 등을 통해 학습한다. 체계화되지 않은 대량의 데이터를 학습 가능하지만 학습이 맞게 됐는지 확인하기 어렵다.버트는 기존 AI 학습 방법을 혁신적으로 바꿔놨다는 평가를 받는다. 자연어처리를 교사 없이 양방향으로 사전 학습하는 최초의 시스템이다. 비지도학습 방식을 사용하면서도 기존 존재했던 어떤 기술보다 뛰어난 성능을 보여준다. 최근 1년 반 동안 버트를 필두로 AI 모델은 급격히 대형화되는

이제 이를 사용하여 뉴스 기사의 url만 알 수 있다면, 기사의 내용들을 저장할 수 있습니다.

##3. 실전 크롤링

크롤러를 만들기 전에 우선 필요한 도구들을 임포트합니다.

In [None]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

변수를 이용해서 URL을 완성하는 연습을 해봅시다. 앞으로 자동으로 네이버 뉴스 URL에 접속하게 될텐데, 이 중 카테고리 번호, 날짜, 페이지 번호의 경우만 바꾸면 해당 카테고리, 날짜, 페이지의 URL에 접근할 수 있습니다.

페이지번호를 의미하는 변수로 page_num을 선언하고, 카테고리를 의미하는 변수로 code를 선언하고, 날짜를 의미하는 변수로 date를 선언합시다. 숫자로 변수를 선언하면 정수형 자료형이 되지만, URL이라는 것은 실제로는 문자열입니다.

그래서 조합하기 전에 정수형 변수에 str(변수명)을 해주게 되면, 해당 변수는 문자열 자료형으로 변경되므로 다른 문자열들과 조합이 가능하게 됩니다. 조합 방법은 더하기 기호인 +로 해주시면 됩니다. 자, 그러면 **2020년 5월 6일**에 **경제(101번 카테고리)** 뉴스란의 **1페이지** URL을 만들어볼까요?

In [None]:
page_num = 1
code = 101
date = 20200506

url = 'https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1='+str(code)+'&date='+str(date)+'&page='+str(page_num) 
print(url)

https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1=101&date=20200506&page=1


완성된 URL 클릭하여 실제 네이버 뉴스 페이지로 이동해봅시다.  

변수를 이용해서 URL을 만드는 법을 이해했다면, 이제 해당 URL에 있는 HTML 소스 코드를 가져오는 방법을 이해해야 합니다. 이는 requests라는 패키지의 get이라는 모듈을 통해서 가능합니다.

requests라는 패키지에 있는 get이라는 모듈(함수)에 url을 입력으로 하고, 이를 변수에 저장한 후에 변수.content를 하면 해당 URL의 HTML 코드를 받아올 수 있습니다. 앞서 만든 URL로 테스트를 해봅시다.

In [None]:
news = requests.get(url)
news.content

b'<HTML><HEAD>\n<TITLE>Service Unavailable</TITLE>\n</HEAD><BODY>\n<H1>Service Unavailable - Zero size object</H1>\nThe server is temporarily unable to service your request.  Please try again\nlater.<P>\nReference&#32;&#35;15&#46;e793517&#46;1640394667&#46;2646a8a2\n</BODY></HTML>\n'

어라? HTML 코드가 나오기는 하는데, 우리가 예상한 HTML 코드가 아니라 굉장히 짧은 HTML 코드가 출력됩니다. 그리고 중간에 'Access Denied'와 'Request is denied' 라는 문장이 적혀져 있는데요. 네. 저희는 접근을 차단당했습니다. 네이버가 보기에 방금 접근이 크롤링 행위를 하는 것으로 추정되어서 네이버가 저희를 차단한 것인데요. 이런 경우에는 일종의 편법을 사용해서 사용자인척 해야합니다.

이에 대한 자세한 내용은 아래의 링크를 통해 확인할 수 있습니다.

https://hogni.tistory.com/64

위의 링크에서 설명하고 있듯이, 유저 에이전트를 인자로 넣어서 get 함수를 사용하면 위와 같은 차단을 뚫고 크롤링을 할 수 있습니다. 한 번 다시 해볼까요? 아래의 headers는 강사의 브라우저에서 추출한 값으로 여러분들은 여러분들의 에이전트 정보를 추출해서 사용하셔도 됩니다!

In [None]:
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}

In [None]:
news = requests.get(url, headers=headers)
news.content

b'\r\n\r\n\r\n\r\n<!DOCTYPE HTML>\r\n<html lang="ko">\r\n<head>\r\n<meta charset="euc-kr">\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n<meta name="referrer" contents="always">\r\n<meta http-equiv="refresh" content="600" />\r\n<meta name="viewport" content="width=1106" />\r\n\r\n    \r\n    \r\n        \r\n            \r\n            \r\n            \r\n            \r\n                \r\n                \r\n                \r\n                \r\n            \r\n            \r\n        \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n<meta property="og:title"       content="\xbe\xf0\xb7\xd0\xbb\xe7\xba\xb0 \xbc\xd3\xba\xb8 \xb4\xba\xbd\xba">\r\n<meta property="og:type"        content="website">\r\n<meta property="og:url"         content="https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid=101">\r\n<meta property="og:image"       content="https://ssl.pstatic.net/static.

이번에는 정상적으로 해당 페이지의 HTML 코드가 추출된 것을 확인할 수 있습니다! 이제 이를 이용해서 원하는 날짜의, 원하는 카테고리의, 원하는 페이지에 접속해서 해당 페이지에 있는 뉴스 기사들의 URL을 전부 뽑아내는 함수를 만들어봅시다.

다음은 BeautifulSoup를 이용해서 원하는 페이지 수와, 카테고리 번호, 날짜를 입력하면 해당 URL에 접속하여 뉴스 url 리스트를 리턴하는 함수입니다.

In [None]:
# 크롤링할 페이지 수, 카테고리, 날짜
def make_urllist(page_num, code, date): 
  urllist= []

  # 1 ~ page_num까지 정해진 페이지만큼 반복.
  for i in range(1, page_num + 1):

		# 함수의 입력으로 된 변수들로 주소를 조합
    url = 'https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1='+str(code)+'&date='+str(date)+'&page='+str(i)   

		# requets 패키지의 모듈(함수)을 호출
		# import 패키지이름 으로 '임포트'했다면 '패키지이름.모듈이름' 으로 모듈을 호출합니다.
    news = requests.get(url, headers=headers)
    news.content

    # BeautifulSoup 모듈을 사용하여 HTML 페이지를 분석
    soup = BeautifulSoup(news.content, 'html.parser')

    # case1
    news_list = soup.select('.newsflash_body .type06_headline li dl')

    # case2
    news_list.extend(soup.select('.newsflash_body .type06 li dl'))
        
    # 뉴스 리스트에 있는 각 뉴스로부터 a 태그인 <a href ='주소'> 에서 '주소'만을 가져온다.
    for line in news_list:
        urllist.append(line.a.get('href'))
  return urllist

어디 한 번 함수를 실행해볼까요? 저는 2020년 5월 6일, 경제 기사(코드로 101번)를 2페이지까지 탐색해서 URL 리스트를 받아오겠습니다. 한 페이지당 뉴스 기사가 20개가 있으니까, 2페이지까지 탐색하면 총 40개의 URL 리스트를 받아와야 합니다.

In [None]:
url_list = make_urllist(2, 101, 20200506)
print('뉴스 기사의 개수 :',len(url_list))

뉴스 기사의 개수 : 40


총 40개의 URL이 존재하는 것을 확인할 수 있습니다. 5개만 출력해봅시다.

In [None]:
url_list[:5]

['https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=057&aid=0001451723',
 'https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=057&aid=0001451721',
 'https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=057&aid=0001451718',
 'https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=003&aid=0009849190',
 'https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=057&aid=0001451717']

뉴스 URL들이 잘 저장되어져 있는 것을 확인할 수 있습니다. 뉴스 URL 리스트를 받아올 수 있다면, 이제 newspaper3k를 이용해서 뉴스 기사들을 파이썬을 저장할 수 있겠군요!

앞으로 결과를 확인할 때 코드로부터 바로 어떤 카테고리인지 확인하기 쉽도록 code를 key, 실제 카테고리를 value로 가지는 dictionary를 만들어두겠습니다. 이번 실습에 사용할 카테고리들에 대해서만 생성했습니다.

참고 : https://wikidocs.net/16

In [None]:
# 파이썬의 dictionarys는 선언 할 때는 'key' : 'value'의 형태로 선언을 합니다.
idx2word = {'101' : '경제', '102' : '사회', '103' : '생활/문화', '105' : 'IT/과학'}

In [None]:
# 선언 후에는 key 값을 넣으면 맵핑되어져 있는 valeu 값이 리턴됩니다.
idx2word['101']

'경제'

In [None]:
idx2word['105']

'IT/과학'

이제 idx2word라는 딕셔너리를 통해서 이 코드 번호가 무슨 카테고리였지? 하고 생각이 안 날때마다 idx2word에 입력을 넣어서 확인할 수 있습니다.

다음은 newspaper3k를 통해서 만들어진 함수로 url 리스트와 해당 url이 어떤 카테고리인지 코드를 알려주면 이를 통해 데이터프레임을 생성하는 함수입니다.

In [None]:
# url과 카테고리를 알려주면 url로부터 본문을 추출하여 데이터프레임을 생성하는 함수.
def make_data(urllist, code):
  text_list = []
  for url in urllist:
    article = Article(url, language='ko')
    article.download()
    article.parse()
    text_list.append(article.text)

  df = pd.DataFrame({'news': text_list})
  df['code'] = idx2word[str(code)]
  return df

앞서 저장해둔 경제 카테고리(코드 101)의 40개의 url 리스트로부터 데이터프레임을 생성합니다.

In [None]:
data = make_data(url_list, 101)
data[:10] # 상위 10개 출력

Unnamed: 0,news,code
0,고려은단이 5월을 맞아 응원 메시지를 공유하는 ‘5월 5글자로 응원 부탁해!’ 이벤...,경제
1,코리아나화장품의 민감성 피부를 위한 저자극 스킨케어 브랜드 '프리엔제'가 마르고 건...,경제
2,서울장수주식회사가 부드럽고 달콤한 맛으로 인기를 모으고 있는 생막걸리 ‘인생막걸리’...,경제
3,[서울=뉴시스] 오동현 기자 = 모바일 게임 기업 컴투스는 3D 모바일 야구 게임 ...,경제
4,대원제약이 2020년 상반기 신입과 경력 정기 공채를 실시합니다.정기 공채 모집분야...,경제
5,"[AFP=연합뉴스] [AFP=연합뉴스]\n\n""요즘은 잔인한 날""…리프트도 앞서 9...",경제
6,이재용 삼성전자 부회장이 6일 삼성전자 서울 서초사옥에서 대국민 사과 회견을 하기 ...,경제
7,JW중외제약이 A형 혈우병 예방요법제 ‘헴리브라피하주사를 출시하고 본격적인 마케팅 ...,경제
8,"옵티팜과 휴벳바이오가 공동 개발중인 백신 후보 물질에 대해 마우스, 기니피그, 미니...",경제
9,[한국경제TV 신동호 기자]\n\n전남 나주시와 충북 청주시가 방사광 가속기 구축사...,경제


이번에는 하나의 카테고리만이 아니라 다른 카테고리의 뉴스들에 대해서도 수집을 하고자 합니다. 가령, 특정 날짜의 사회, 생활/문화, IT/과학의 뉴스들을 수집해본다고 해볼게요. 수집을 원하는 카테고리 코드들을 저장한 리스트를 만들어둡니다.

In [None]:
code_list = [102, 103, 105]

이 코드 리스트, 그리고 날짜, 페이지 수를 입력으로 받는 make_total_data라는 함수를 만듭니다. 이 함수는 내부적으로 앞서 만든 make_urllist 함수와 make_data 함수를 호출하도록 합니다.

In [None]:
# 원하는 날짜, 원하는 페이지 수, 수집을 원하는 카테고리를 입력.
def make_total_data(page_num, code_list, date):
  df = None

  # 각 카테고리에 대해서 아래의 코드를 수행.
  for code in code_list:
    
    # make_urllist 함수 : 페이지 수, 카테고리, 날짜를 입력하면 url을 추출하는 함수.
    url_list = make_urllist(page_num, code, date)

    # make_data 함수: url과 카테고리를 알려주면 데이터프레임을 만들어주는 함수
    df_temp = make_data(url_list, code)
    print(str(code)+'번 코드에 대한 데이터를 만들었습니다.')

    if df is not None:
      # for문 내에서 데이터프레임이 새로 만들어질 때마다
      # 이전 데이터프레임과 지속적으로 결합
      df = pd.concat([df, df_temp])
    else:
      df = df_temp

  return df

5월 6일 기사에 대해서 2페이지까지, 102번, 103번, 105번 코드를 가지는 카테고리의 뉴스들을 수집해서 데이터프레임에 저장해보겠습니다.

In [None]:
df = make_total_data(2, code_list, 20200506)

102번 코드에 대한 데이터를 만들었습니다.
103번 코드에 대한 데이터를 만들었습니다.
105번 코드에 대한 데이터를 만들었습니다.


1페이지당 20개의 뉴스 기사가 존재하므로, 총 120개의 뉴스기사가 수집되어야 합니다.  
2(페이지 수) x 20(페이지당 url) x 3(카테고리 수) = 120

In [None]:
print('뉴스 기사의 개수 :',len(df))

뉴스 기사의 개수 : 120


120개의 뉴스 기사가 수집되었네요. 임의로 10개의 샘플을 선택하여 출력해보겠습니다.

(임의 출력이므로 아래 결과는 사람마다 다를 수 있습니다.)

In [None]:
df.sample(10)

Unnamed: 0,news,code
25,기사 섹션 분류 안내\n\n기사의 섹션 정보는 해당 언론사의 분류를 따르고 있습니다...,생활/문화
26,전남 나주시와 충북 청주시가 신약·반도체 등 미래 첨단연구 핵심장비인 방사광가속기 ...,IT/과학
34,오거돈 전 부산시장(사진) 성추행 사건을 수사하는 부산경찰청이 이 사건과 별개로 오...,사회
11,이재용 삼성전자 부회장의 6일 대국민 사과가 그를 상대로 한 수사·재판에 어떤 영향...,사회
2,나는 지난 30여년간 ‘협력(協力)’이라는 말을 매일 마주하며 살고 있다. 남북관계...,생활/문화
22,"[디지털데일리 최민지기자] 이제 통신사뿐 아니라 구글 유튜브, 넷플릭스, 페이스북 ...",IT/과학
6,[서울=뉴시스] 오동현 기자 = 펍지주식회사가 올해 첫 '플레이어언노운스 배틀그라운...,IT/과학
32,라임자산운용의 전주로 지목된 김봉현 스타모빌리티 회장. 연합뉴스\n\n경찰이 ‘라임...,사회
19,동영상 뉴스\n\n[앵커]생활 속 거리두기가 시작되면서 박물관과 미술관 등 문화예술...,생활/문화
36,기사 섹션 분류 안내\n\n기사의 섹션 정보는 해당 언론사의 분류를 따르고 있습니다...,사회


10개의 샘플이 출력해보았는데, 3개의 카테고리가 전부 존재하는 것을 확인할 수 있습니다. df.sample(10)을 여러번 호출하면서 달라지는 결과를 확인해보세요. 수집한 데이터의 샘플들을 랜덤으로 여러번 출력해보는 것은 데이터를 파악하는데 꽤 큰 도움이 됩니다.

**이제 뉴스 크롤러가 완성되었습니다!** 이번에는 좀 더 많은 데이터를 수집해볼까요? 이번에는 3개의 카테고리에 대해서 **총 100개의 페이지**에 대해서 크롤링하겠습니다. 

크롤링해서 수집되는 전체 뉴스의 양은 네이버 측의 상황에 따라서 코드를 실행하는 날에 따라 다소 다를 수 있음이 확인되었습니다. 향후 실습에서 제가 최종 수집한 뉴스기사와 여러분들이 동일한 코드를 실행해서 얻은 뉴스 기사의 개수가 다소 다르더라도 신경쓰지 않으셔도 됩니다.

In [None]:
df = make_total_data(100, code_list, 20200506)

102번 코드에 대한 데이터를 만들었습니다.
103번 코드에 대한 데이터를 만들었습니다.
105번 코드에 대한 데이터를 만들었습니다.


위 코드는 최소 수십분의 시간이 걸립니다. 시간 절약을 위해 제가 이미 크롤링한 데이터를 업로드해드리니 해당 파일을 사용하셔도 좋습니다!

In [None]:
df

Unnamed: 0,news,code
0,파주시청. 사진제공=파주시 파주시청. 사진제공=파주시\n\n[파주=파이낸셜뉴스 강근...,사회
1,동영상 뉴스\n\n이천 물류창고 화재 발화지점으로 지목된 지하 2층에서 산소절단기의...,사회
2,황범순 의정부시 부시장 을지대학교 의정부캠퍼스 및 부속병원 공사현장 안전점검. 사진...,사회
3,귀갓길 여성을 쫓아가 성범죄를 시도한 20대 남성이 구속됐습니다.서울 강남경찰서는 ...,사회
4,(서울=연합뉴스) 대한약사회가 6일부터 코로나바이러스 감염증 대응 체계를 '사회적 ...,사회
...,...,...
35,(청주=연합뉴스) 전창해 기자 = '꿈의 빛'으로 불리는 차세대 다목적 방사광가속기...,IT/과학
36,6일 오후 대전 유성구 인터시티호텔에서 열린 산업지원 다목적 방사광가속기 구축 부지...,IT/과학
37,아빈드 크리슈나 신임 IBM CEO/사진제공=IBM 아빈드 크리슈나 신임 IBM C...,IT/과학
38,행사장에 부착된 넷플릭스 기업 로고./사진=뉴스1 행사장에 부착된 넷플릭스 기업 로...,IT/과학


In [None]:
df.to_csv('news_data.csv', index=False)

In [None]:
df = pd.read_table('news_data.csv', sep=',')

In [None]:
df

Unnamed: 0,news,code
0,파주시청. 사진제공=파주시 파주시청. 사진제공=파주시\n\n[파주=파이낸셜뉴스 강근...,사회
1,동영상 뉴스\n\n이천 물류창고 화재 발화지점으로 지목된 지하 2층에서 산소절단기의...,사회
2,황범순 의정부시 부시장 을지대학교 의정부캠퍼스 및 부속병원 공사현장 안전점검. 사진...,사회
3,귀갓길 여성을 쫓아가 성범죄를 시도한 20대 남성이 구속됐습니다.서울 강남경찰서는 ...,사회
4,(서울=연합뉴스) 대한약사회가 6일부터 코로나바이러스 감염증 대응 체계를 '사회적 ...,사회
...,...,...
115,(청주=연합뉴스) 전창해 기자 = '꿈의 빛'으로 불리는 차세대 다목적 방사광가속기...,IT/과학
116,6일 오후 대전 유성구 인터시티호텔에서 열린 산업지원 다목적 방사광가속기 구축 부지...,IT/과학
117,아빈드 크리슈나 신임 IBM CEO/사진제공=IBM 아빈드 크리슈나 신임 IBM C...,IT/과학
118,행사장에 부착된 넷플릭스 기업 로고./사진=뉴스1 행사장에 부착된 넷플릭스 기업 로...,IT/과학
