In [1]:
#구글 뉴스 웹사이트의 로봇 배제 표준 확인하기
# https://news.google.com/robots.txt

In [2]:
import requests
from bs4 import BeautifulSoup

In [3]:
# 구글 뉴스 검색(검색어: 파이썬)
# news.google.com에서 파이썬을 검색 
# https://news.google.com/search?q=%ED%8C%8C%EC%9D%B4%EC%8D%AC&hl=ko&gl=KR&ceid=KR%3Ako
# 실제론 다르게 생긴 주소가 나오는데 복사 붙여넣으면 이런 모양이 된다
# 실제 웹 브라우저에서는 한글을 표시하는 유니코드를 URL 코드 형식으로 인코딩하여 사용하기 때문에 저렇게 바뀐다고 한다
base_url = "https://news.google.com"
search_url = base_url + "/search?q=%ED%8C%8C%EC%9D%B4%EC%8D%AC&hI=ko&hL=KR&ceid=KR%3Ako"
resp = requests.get(search_url)
html_src = resp.text
# 웹서버에서 응답받은 html_src를 BeautifulSoup 함수에 "html.parser" 파서를 적용하여 HTML을 파싱한다.
soup = BeautifulSoup(html_src,'html.parser')

In [4]:
# 뉴스 아이템 블록을 선택
# 웹페이지에서 뉴스 콘텐츠 요소를 검색하기 위해, soup 객체에 select() 메소드를 적용한다.
# <div> 태그 중에서 class 속성이 아래 녀석인 태그를 모두 찾아서 리스트에 담는다
news_items = soup.select('div[class="xrnccd"]')
print(len(news_items))
print(news_items[0])
print("\n")

100
<div class="xrnccd"><article class="MQsxIb xTewfe R7GTQ keNKEd j7vNaf Cc0Z5d EjqUne" data-kind="13" data-n-cvid="i5" data-n-et="107" data-n-ham="true" data-n-vlb="0" jsaction=";rcuQ6b:npT2md; click:KjsqPd;EXlHgb:HQ4Dqd" jscontroller="mhFxVb" jsdata="oM6qxc;CBMiLmh0dHBzOi8vZXZlbnQuaGFua3l1bmcuY29tL3NlbWluYXIvY29uczIwMjBsZy_SAQA;4" jslog="85008" jsmodel="QWGJif hT8rr"><a aria-hidden="true" class="VDXfz" href="./articles/CBMiLmh0dHBzOi8vZXZlbnQuaGFua3l1bmcuY29tL3NlbWluYXIvY29uczIwMjBsZy_SAQA?hl=ko&amp;gl=KR&amp;ceid=KR%3Ako" jslog="95014; 5:W251bGwsbnVsbCxudWxsLG51bGwsbnVsbCxudWxsLG51bGwsbnVsbCwiaHR0cHM6Ly9ldmVudC5oYW5reXVuZy5jb20vc2VtaW5hci9jb25zMjAyMGxnLyJd; track:click" jsname="hXwDdf" tabindex="-1" target="_blank"></a><h3 class="ipQwMb ekueJc RD0gLb"><a class="DY5T1d" href="./articles/CBMiLmh0dHBzOi8vZXZlbnQuaGFua3l1bmcuY29tL3NlbWluYXIvY29uczIwMjBsZy_SAQA?hl=ko&amp;gl=KR&amp;ceid=KR%3Ako">재직자 IT 교육접수 | 한경닷컴</a></h3><div aria-hidden="true" class="Da10Tb Rai5ob" jsname="jVqMGc"><spa

In [71]:
# new_items에 들어있는 100개의 <div> 태그를 하나씩 파싱하기 위하여 for 반복문을 쓴다.
# 출력량을 제한하기위해 3개를 대상으로 반복문을 적용한다
for item in news_items[:3]:
    # 개별 뉴스의 링크는 <a> 태그의 아래 클래스에 들어가있다. <a> 태그의 'href' 속성을 따로 추출하기 위해 get() 메소드를 이용한다.
    link = item.find('a',attrs={'class':'VDXfz'}).get('href')
    news_link = base_url + link[1:] # 문자열 슬라이싱(리스트, 문자열 둘다 가능)
    print(news_link)
    
    # 개별 뉴스 제목은 <a> 태그 중에서 class 속성이 아래인 경우에 들어있다. find() 명령으로 찾은 <a> 태그 요소에
    # getText() 메소드를 적용하여 텍스트 부분을 추출한다.
    # getText()는 <a ...> 텍스트 </a> 구조의 중간 부분의 '텍스트'를 가져오는듯 하다
    news_title = item.find('a', attrs={'class':'DY5T1d'}).getText()
    print(news_title,"-> getText() 사용")
    news_title = item.find('a', attrs={'class':'DY5T1d'}).text
    print(news_title,"-> text 속성값 사용")
    
    # 이번엔 text 속성으로 텍스트를 불러왔는데, getText()로 해도 결과값이 똑같다.
    news_content = item.find('span',attrs={'class':'xBbh9'}).text
    print(news_content)
    
    # text 속성값으로 텍스트를 뽑는다.
    news_agency = item.find('a',attrs={'class':'wEwyrc AVN2gc uQIVzc Sksgp'}).text
    print(news_agency)
    
    
    news_reporting = item.find('time', attrs={'class':'WW6dff uQIVzc Sksgp'})
    # datetime 이라는 속성을 가져와서 split 한다.
    news_reporting_datetime = news_reporting.get('datetime').split('T')
    news_reporting_date = news_reporting_datetime[0]
    news_reporting_time = news_reporting_datetime[1][:-1]
    print(news_reporting_date, news_reporting_time)
    print("\n")  

https://news.google.com/articles/CBMiLmh0dHBzOi8vZXZlbnQuaGFua3l1bmcuY29tL3NlbWluYXIvY29uczIwMjBsZy_SAQA?hl=ko&gl=KR&ceid=KR%3Ako
재직자 IT 교육접수 | 한경닷컴 -> getText() 사용
재직자 IT 교육접수 | 한경닷컴 -> text 속성값 사용
성공을 부르는 습관, 유익한 혜택을 만나는 방법.
한국경제
2020-10-13 08:21:52


https://news.google.com/articles/CBMiMWh0dHBzOi8vd3d3LmNvZGluZ3dvcmxkbmV3cy5jb20vYXJ0aWNsZS92aWV3LzE1MzLSAQA?hl=ko&gl=KR&ceid=KR%3Ako
데이터 과학자들이 학습해야 할 프로그래밍 언어 5가지 -> getText() 사용
데이터 과학자들이 학습해야 할 프로그래밍 언어 5가지 -> text 속성값 사용
기술의 발전과 함께 데이터 사용이 보편화됐다. 그와 동시에 데이터에서 정보를 추출하는 데이터 과학 분야도 인기를 얻기 시작했다. 그러나 데이터 과학은 데이터 ...
코딩월드뉴스
2020-09-17 07:00:00


https://news.google.com/articles/CBMiI2h0dHA6Ly93d3cuY2lva29yZWEuY29tL25ld3MvMTY2NjEw0gEA?hl=ko&gl=KR&ceid=KR%3Ako
파이썬 초중급자를 위한 유무료 강좌 5선 -> getText() 사용
파이썬 초중급자를 위한 유무료 강좌 5선 -> text 속성값 사용
이제 막 파이썬을 배우기 시작했거나 머신러닝이나 웹 개발 심층연구를 하고 싶다면 아래의 유무료 강좌를 참고하면 좋다. 파이썬은 배우기도 쉽고 사용하기도 쉽다.
CIO Korea
2020-10-05 07:33:26




In [72]:
# 앞의 코드를 이용하여 구글 뉴스 클리핑 함수 정의
def google_news_clipping(url, limit=5):
    
    resp = requests.get(url)
    html_src = resp.text
    soup = BeautifulSoup(html_src,'html.parser')
    
    news_items = soup.select('div[class="xrnccd"]')
    
    links=[]; titles =[]; contents=[]; agencies=[]; reporting_dates=[]; reporting_times=[];
    
    for item in news_items[:limit]:
        link=item.find('a',attrs={'class':'VDXfz'}).get('href')
        news_link = base_url + link[1:]
        links.append(news_link)
        
        news_title = item.find('a', attrs={'class':'DY5T1d'}).getText()
        titles.append(news_title)
    
        news_content = item.find('span',attrs={'class':'xBbh9'}).text
        contents.append(news_content)
    
        news_agency = item.find('a',attrs={'class':'wEwyrc AVN2gc uQIVzc Sksgp'}).text
        agencies.append(news_agency)

        news_reporting = item.find('time', attrs={'class':'WW6dff uQIVzc Sksgp'})
        news_reporting_datetime = news_reporting.get('datetime').split('T')
        news_reporting_date = news_reporting_datetime[0]
        news_reporting_time = news_reporting_datetime[1][:-1]
        reporting_dates.append(news_reporting_date)
        reporting_times.append(news_reporting_time)
        
    result = {'link':links, 'title':titles, 'contents':contents, 'agency':agencies, \
              'date':reporting_dates, 'time':reporting_times}
    return result

news = google_news_clipping(search_url, 2)
print(news)

{'link': ['https://news.google.com/articles/CBMiLmh0dHBzOi8vZXZlbnQuaGFua3l1bmcuY29tL3NlbWluYXIvY29uczIwMjBsZy_SAQA?hl=ko&gl=KR&ceid=KR%3Ako', 'https://news.google.com/articles/CBMiMWh0dHBzOi8vd3d3LmNvZGluZ3dvcmxkbmV3cy5jb20vYXJ0aWNsZS92aWV3LzE1MzLSAQA?hl=ko&gl=KR&ceid=KR%3Ako'], 'title': ['재직자 IT 교육접수 | 한경닷컴', '데이터 과학자들이 학습해야 할 프로그래밍 언어 5가지'], 'contents': ['성공을 부르는 습관, 유익한 혜택을 만나는 방법.', '기술의 발전과 함께 데이터 사용이 보편화됐다. 그와 동시에 데이터에서 정보를 추출하는 데이터 과학 분야도 인기를 얻기 시작했다. 그러나 데이터 과학은 데이터 ...'], 'agency': ['한국경제', '코딩월드뉴스'], 'date': ['2020-10-13', '2020-09-17'], 'time': ['08:21:52', '07:00:00']}


In [73]:
news.keys()

dict_keys(['link', 'title', 'contents', 'agency', 'date', 'time'])

In [74]:
news.values()

dict_values([['https://news.google.com/articles/CBMiLmh0dHBzOi8vZXZlbnQuaGFua3l1bmcuY29tL3NlbWluYXIvY29uczIwMjBsZy_SAQA?hl=ko&gl=KR&ceid=KR%3Ako', 'https://news.google.com/articles/CBMiMWh0dHBzOi8vd3d3LmNvZGluZ3dvcmxkbmV3cy5jb20vYXJ0aWNsZS92aWV3LzE1MzLSAQA?hl=ko&gl=KR&ceid=KR%3Ako'], ['재직자 IT 교육접수 | 한경닷컴', '데이터 과학자들이 학습해야 할 프로그래밍 언어 5가지'], ['성공을 부르는 습관, 유익한 혜택을 만나는 방법.', '기술의 발전과 함께 데이터 사용이 보편화됐다. 그와 동시에 데이터에서 정보를 추출하는 데이터 과학 분야도 인기를 얻기 시작했다. 그러나 데이터 과학은 데이터 ...'], ['한국경제', '코딩월드뉴스'], ['2020-10-13', '2020-09-17'], ['08:21:52', '07:00:00']])