In [1]:
import warnings
warnings.filterwarnings(action='ignore')
%config Completer.use_jedi = False

In [2]:
import requests
# BeautifulSoup은 html 문서를 파싱할 때 사용하므로 json 형태로 넘어오는 데이터에는 사용하지 않는다.
# from bs4 import BeautifulSoup
# json 형태의 문자열을 파이썬에서 처리할 수 있도록 리스트나 딕셔너리로 변경하기 위해 import 한다.
import json

<img src="nateAjax_1.png" align="left" width="800"/>

<img src="nateAjax_2.png" align="left" width="800"/>

In [3]:
# 실시간 이슈 키워드가 웹 페이지에 전부 혹은 일부가 포함되어있지 않고 Ajax를 이용해서 실시간으로 
# 받아오는 방식이 사용된다.
targetSite = 'https://www.nate.com/js/data/jsonLiveKeywordDataV1.js?v=202404181005'
request = requests.get(targetSite)
print(request)
# 파이썬은 한글 인코딩이 유니코드(utf-8)로 되어있기 때문에 'euc-kr'로 인코딩된 사이트를 크롤링할 때 한글이
# 깨지면 아래와 같이 한글 인코딩 방식을 지정하면 된다.
# request.encoding = 'euc-kr'

<Response [200]>


In [4]:
issues = request.text
print(issues)
print(type(issues))

[["1",  "민주당 양곡법 직회부",  "+",  "1",  "민주당 본회의 직회부"], ["2",  "카카오엔터 美 K팝",  "n",  "0",  "카카오엔터 美 K팝"], ["3",  "기아 2024 어워드",  "+",  "1",  "기아 2024 어워드"], ["4",  "간보기 전 의협",  "n",  "0",  "간보기 전 의협 대통령"], ["5",  "가해자 누나",  "+",  "1",  "가해자 누나"], ["6",  "김슬기 끝까지 잡는다",  "n",  "0",  "김슬기 끝까지 잡는다"], ["7",  "어트랙트 그알 고소",  "n",  "0",  "어트랙트 그알 고소"], ["8",  "김만배와 언론사 압수수색",  "n",  "0",  "김만배와 언론사 압수수색"], ["9",  "처음 머리 맞댄",  "n",  "0",  "처음 머리 맞댄 절하"], ["10",  "3월 외국인 1위",  "n",  "0",  "3월 외국인 1위"]]
<class 'str'>


json 형태의 문자열로 얻어온 실시간 이슈 데이터를 파이썬이 처리할 수 있는 데이터 타입으로 변환해서 처리한다.

In [5]:
# json 모듈의 loads() 메소드는 json 형태의 문자열이 {}를 포함하면 딕셔너리로 {}를 포함하지 않으면
# 리스트로 변환한다.
ranks = json.loads(issues)
print(ranks)
print(type(ranks))

[['1', '민주당 양곡법 직회부', '+', '1', '민주당 본회의 직회부'], ['2', '카카오엔터 美 K팝', 'n', '0', '카카오엔터 美 K팝'], ['3', '기아 2024 어워드', '+', '1', '기아 2024 어워드'], ['4', '간보기 전 의협', 'n', '0', '간보기 전 의협 대통령'], ['5', '가해자 누나', '+', '1', '가해자 누나'], ['6', '김슬기 끝까지 잡는다', 'n', '0', '김슬기 끝까지 잡는다'], ['7', '어트랙트 그알 고소', 'n', '0', '어트랙트 그알 고소'], ['8', '김만배와 언론사 압수수색', 'n', '0', '김만배와 언론사 압수수색'], ['9', '처음 머리 맞댄', 'n', '0', '처음 머리 맞댄 절하'], ['10', '3월 외국인 1위', 'n', '0', '3월 외국인 1위']]
<class 'list'>


In [6]:
# requests 모듈의 json() 메소드는 json 형태의 문자열이 {}를 포함하면 딕셔너리로 {}를 포함하지 않으면
# 리스트로 변환한다.
ranks = request.json()
print(ranks)
print(type(ranks))

[['1', '민주당 양곡법 직회부', '+', '1', '민주당 본회의 직회부'], ['2', '카카오엔터 美 K팝', 'n', '0', '카카오엔터 美 K팝'], ['3', '기아 2024 어워드', '+', '1', '기아 2024 어워드'], ['4', '간보기 전 의협', 'n', '0', '간보기 전 의협 대통령'], ['5', '가해자 누나', '+', '1', '가해자 누나'], ['6', '김슬기 끝까지 잡는다', 'n', '0', '김슬기 끝까지 잡는다'], ['7', '어트랙트 그알 고소', 'n', '0', '어트랙트 그알 고소'], ['8', '김만배와 언론사 압수수색', 'n', '0', '김만배와 언론사 압수수색'], ['9', '처음 머리 맞댄', 'n', '0', '처음 머리 맞댄 절하'], ['10', '3월 외국인 1위', 'n', '0', '3월 외국인 1위']]
<class 'list'>


In [7]:
for rank in ranks:
    print('{:>2s}위: {}'.format(rank[0], rank[1]), end='')
    if rank[2] == '+':
        print('[{}{}]'.format('↑', rank[3]))
    elif rank[2] == '-':
        print('[{}{}]'.format('↓', rank[3]))
    elif rank[2] == 'n':
        print('[new]')
    else:
        print('[-]')

 1위: 민주당 양곡법 직회부[↑1]
 2위: 카카오엔터 美 K팝[new]
 3위: 기아 2024 어워드[↑1]
 4위: 간보기 전 의협[new]
 5위: 가해자 누나[↑1]
 6위: 김슬기 끝까지 잡는다[new]
 7위: 어트랙트 그알 고소[new]
 8위: 김만배와 언론사 압수수색[new]
 9위: 처음 머리 맞댄[new]
10위: 3월 외국인 1위[new]
