In [1]:
import warnings
warnings.filterwarnings(action='ignore')
import requests
# from bs4 import BeautifulSoup # html 문서를 파싱할 때 사용하므로 json 형태로 넘어오는 데이터에는 사용하지 않는다.
import json # json 형태의 문자열을 파이썬에서 처리하기 위해 import 한다.

In [2]:
# 실시간 검색어가 웹 페이지에 전부 혹은 일부가 포함되어있지 않고 ajax를 이용해서 받아는 방식이 사용된다.
# Request Method가 GET이므로 requests 모듈의 get() 메소드를 사용해서 실시간 검색어를 받아온다.
targetSite = 'https://www.nate.com/js/data/jsonLiveKeywordDataV1.js?v=202212221635'
req = requests.get(targetSite)
print(req)
# 파이썬은 한글 encoding이 유니코드(utf-8)로 되어있기 때문에 'euc-kr'로 encoding된 사이트를 크롤링 할 때 한글이 깨지면
# 아래와 같이 한글 encoding을 바꿔주면 된다.
req.encoding = 'euc-kr'

<Response [200]>


In [3]:
issues = req.text
print(issues)
print(type(issues))

[["1",  "7호선",  "+",  "1",  "7호선"], ["2",  "대통령 집회 법",  "-",  "1",  "대통령 집회 법"], ["3",  "송혜교",  "s",  "0",  "송혜교"], ["4",  "성관계 아들 감형",  "s",  "0",  "성관계 아들 감형"], ["5",  "결혼지옥",  "+",  "1",  "결혼지옥"], ["6",  "내년부터 1월 1일",  "+",  "1",  "내년부터 1월 1일"], ["7",  "이다희",  "-",  "2",  "이다희"], ["8",  "츄 퇴출 무기한",  "s",  "0",  "츄 퇴출 무기한 연기"], ["9",  "트랜스젠더 유튜버 폭행",  "s",  "0",  "트랜스젠더 유튜버 폭행"], ["10",  "檢 내가 그렇게",  "s",  "0",  "檢 내가 그렇게 무섭나"]]
<class 'str'>


In [4]:
# json 형태로 얻어온 실시간 이슈 키워드는 json 모듈의 loads() 메소드를 사용해서 파이썬에서 처리할 수 있는 데이터 타입으로
# 변환시켜 처리한다.
# loads() 메소드는 json 형태의 문자열이 {}를 포함하면 딕셔너리로 {}없이 []만 포함하면 리스트 형태로 자동 변환시킨다.
# ranks = json.loads(issues)

# requests 모듈을 사용해 응답받은 객체에서 json() 메소드를 실행하면 json 모듈의 loads() 메소드를 실행한 것과 같은 기능이
# 실행된다.
ranks = req.json()
print(ranks)
print(type(ranks))

[['1', '7호선', '+', '1', '7호선'], ['2', '대통령 집회 법', '-', '1', '대통령 집회 법'], ['3', '송혜교', 's', '0', '송혜교'], ['4', '성관계 아들 감형', 's', '0', '성관계 아들 감형'], ['5', '결혼지옥', '+', '1', '결혼지옥'], ['6', '내년부터 1월 1일', '+', '1', '내년부터 1월 1일'], ['7', '이다희', '-', '2', '이다희'], ['8', '츄 퇴출 무기한', 's', '0', '츄 퇴출 무기한 연기'], ['9', '트랜스젠더 유튜버 폭행', 's', '0', '트랜스젠더 유튜버 폭행'], ['10', '檢 내가 그렇게', 's', '0', '檢 내가 그렇게 무섭나']]
<class 'list'>


In [5]:
for rank in ranks:
    print('{:>2s}위: {}'.format(rank[0], rank[1]), end='')
    if rank[2] == '+':
        print('[{}{}]'.format('↑', rank[3]))
    elif rank[2] == '-':
        print('[{}{}]'.format('↓', rank[3]))
    elif rank[2] == 's':
        print('[-]')
    else:
        print('[new]')

 1위: 7호선[↑1]
 2위: 대통령 집회 법[↓1]
 3위: 송혜교[-]
 4위: 성관계 아들 감형[-]
 5위: 결혼지옥[↑1]
 6위: 내년부터 1월 1일[↑1]
 7위: 이다희[↓2]
 8위: 츄 퇴출 무기한[-]
 9위: 트랜스젠더 유튜버 폭행[-]
10위: 檢 내가 그렇게[-]
