# BeautifulSoup 네이버 뉴스 기사 스크래핑

## 뉴스 기사 스크래핑 함수 정의

In [None]:
from bs4 import BeautifulSoup
import urllib.request
from urllib.parse import quote
import pandas as pd


def get_news(query, page_num=10):

  news_df = pd.DataFrame(columns=("Title", "Link", "Press", "Datetime", "Article"))
  idx = 0

  url_query = quote(query) # utf8로 인코딩
  url = "https://search.naver.com/search.naver?where=news&sm=nws_hty&query=" + url_query
  
  for _ in range(0, page_num):

    search_url = urllib.request.urlopen(url).read()
    soup = BeautifulSoup(search_url, 'html.parser')
    links = soup.find_all('dd', {'class':'txt_inline'})

    for link in links:
      press = link.find('span', {'class':'_sp_each_source'}).get_text()
      news_url = link.find('a').get('href')
      

      if (news_url == '#'):  # news_url이 없는 경우
        continue
      else:
        news_link = urllib.request.urlopen(news_url).read()
        news_html = BeautifulSoup(news_link, 'html.parser')

        try:      #긁어오지 못하는 부분이 있더라도 continue하도록 예외처리
          title = news_html.find('h3', {'id':'articleTitle'}).get_text()
          datetime = news_html.find('span', {'class':'t11'}).get_text()
          article = news_html.find('div', {'id':'articleBodyContents'}).get_text()
          article = article.replace("// flash 오류를 우회하기 위한 함수 추가", "") #방지코드 제거
          article = article.replace("function _flash_removeCallback() {}", "") #방지코드 제거
          article = article.replace("\n", "") #개인문자 제거
          article = article.replace("\t", "")
        
          news_df.loc[idx] = [title, news_url, press, datetime, article]
          idx += 1
          print("#", end="")
        except:
          continue

    try:
      next = soup.find('a', {'class':'next'}).get('href')
      url = "https://search.naver.com/search.naver" + next
    except:
      break

  return news_df

## 뉴스 기사 스크래핑 실행

In [None]:
query = input('검색 질의: ')
news_df = get_news(query, 10)
print('Done')

검색 질의: 인공지능
#################################Done


In [None]:
news_df

Unnamed: 0,Title,Link,Press,Datetime,Article
0,"한국인공지능학회, 여수 학술대회 온라인으로 전환",https://news.naver.com/main/read.nhn?mode=LSD&...,연합뉴스,2020.08.26. 오후 1:47,[한국인공지능학회 홈페이지 캡처. 재판매 및 DB 금지] (대전=연합뉴스) ...
1,경기창조경제혁신센터 '인공지능 투자유치 지원 IR DAY' 개최,https://news.naver.com/main/read.nhn?mode=LSD&...,스포츠서울,2020.08.26. 오전 8:16,2020 K-Champ Forum; 인공지능 투자유치 지원 IR DAY. 제공|경기...
2,‘인공지능 보스’에 열광하는 유저들…게임업계 판도 바꾼 AI,https://news.naver.com/main/read.nhn?mode=LSD&...,한경비즈니스언론사 선정,2020.08.25. 오전 10:59,-[스페셜리포트 ①] 기획부터 조작까지 ‘AI 혁신’ 이룬 3N(엔씨·넥슨·넷마블)...
3,인공지능 기반 자율방역 로봇 등 40개 개발과제에 370억원 지원,https://news.naver.com/main/read.nhn?mode=LSD&...,연합뉴스,2020.08.25. 오후 12:00,과기부 '비대면 비즈니스 디지털혁신 기술개발' 과제 40개 선정(서울=연합뉴스) 정...
4,‘인공지능 보스’에 열광하는 유저들…게임업계 판도 바꾼 AI,https://news.naver.com/main/read.nhn?mode=LSD&...,한경비즈니스언론사 선정,2020.08.25. 오전 10:59,-[스페셜리포트 ①] 기획부터 조작까지 ‘AI 혁신’ 이룬 3N(엔씨·넥슨·넷마블)...
5,"제이엘케이, 터키서 인공지능 의료기기 7건 품목허가",https://news.naver.com/main/read.nhn?mode=LSD&...,한국경제,2020.08.26. 오후 1:56,제이엘케이는 인공지능 기반 폐 컴퓨터단층촬영(CT) 영상 진단보조소프트웨어 등 7개...
6,"[2021학년도 대학 수시모집] 서울과기대, 인공지능응용학과 신입생 4년 전액 장학금",https://news.naver.com/main/read.nhn?mode=LSD&...,서울경제,2020.08.26. 오후 5:44,"[서울경제] 서울과학기술대는 2021학년도 수시모집으로 1,525명을 선발한다. 전..."
7,[김정호의 AI시대의 전략] 양자역학과 인공지능의 공통점은 불확실성,https://news.naver.com/main/read.nhn?mode=LSD&...,조선일보,2020.08.26. 오전 3:11,나노미터(10억분의 1m) 크기 원자나 분자 영역에서 일어나는 미시 세계 물리적인 ...
8,언택트 시대 맞춰 인공지능 콜센터 빠르게 확대,https://news.naver.com/main/read.nhn?mode=LSD&...,동아일보,2020.08.24. 오전 9:57,AI 실시간 상담도우미 시스템 및 고객상담 챗봇 화면 예시 (NH농협은행) 인공지능...
9,"가천대학교, 국내 1호 인공지능학부…150명으로 확대",https://news.naver.com/main/read.nhn?mode=LSD&...,한국경제,2020.08.25. 오후 3:10,2021학년도 대입 수시가천대 캠퍼스 전경가천대(입학처장 이재희·사진)는 2021학...


In [None]:
news_df['Article']

0     [한국인공지능학회 홈페이지 캡처. 재판매 및 DB 금지]     (대전=연합뉴스) ...
1     2020 K-Champ Forum; 인공지능 투자유치 지원 IR DAY. 제공|경기...
2     -[스페셜리포트 ①] 기획부터 조작까지 ‘AI 혁신’ 이룬 3N(엔씨·넥슨·넷마블)...
3     과기부 '비대면 비즈니스 디지털혁신 기술개발' 과제 40개 선정(서울=연합뉴스) 정...
4     -[스페셜리포트 ①] 기획부터 조작까지 ‘AI 혁신’ 이룬 3N(엔씨·넥슨·넷마블)...
5     제이엘케이는 인공지능 기반 폐 컴퓨터단층촬영(CT) 영상 진단보조소프트웨어 등 7개...
6     [서울경제] 서울과학기술대는 2021학년도 수시모집으로 1,525명을 선발한다. 전...
7     나노미터(10억분의 1m) 크기 원자나 분자 영역에서 일어나는 미시 세계 물리적인 ...
8     AI 실시간 상담도우미 시스템 및 고객상담 챗봇 화면 예시 (NH농협은행) 인공지능...
9     2021학년도 대입 수시가천대 캠퍼스 전경가천대(입학처장 이재희·사진)는 2021학...
10    2021학년도 대입 수시서울과학기술대 다산관 전경서울과학기술대(입학관리본부장 신현상...
11    이세돌 9단과 '알파고'의 바둑 대결은 1대4로 인공지능(AI·Artificial ...
12    "수업에서 인공지능을 활용하는 역량이 갈수록 중요해질 것"유은혜 부총리 겸 교육부 ...
13    [서울경제] 중앙대는 2021학년도 수시모집에서 전체 모집인원 4,919명 중 69...
14    서울신학대학교내년 개교 110주년 맞아 학과 개편첨단산업 이끌 스마트한 인재 양성H...
15    24일 공군 공중급유기 'KC-330'를 타고 인천공항에 도착한 이라크 파견 근로자...
16    일러스트=김성규중소벤처기업부가 아마존·마이크로소프트 등과 손잡고 인공지능(AI) 스...
17    경상대 성효경, 한동대 정임두, 포스텍 박성진 교수 연구팀[윤성효 기자]  