##### Requests
- 특정 웹사이트에 HTTP 요청을 보내는 모듈
- 특정 웹사이트에 HTTP 요청을 보내 HTML 문서를 받아올 수 있는 라이브러리
- requests라이브러리에 의해 가져온 HTML 문서는 문서가 아닌 그냥 단순한 String이고, BeautifulSoup라이브러리에 의해 살아있는 HTML 문서로 바뀌게 된다.

In [82]:
import requests as req

In [83]:
#서버를 찾음: Response [200]
res = req.get('http://naver.com')
res
#res.text

<Response [200]>

In [84]:
#서버를 찾을 수 없음: Response [406]-클라이언트 에러
res2 = req.get('https://www.melon.com/')
res2

<Response [406]>

In [85]:
#위의 문제를 해결하기 위해 header 지정?
header = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'}
res2 = req.get('https://www.melon.com/', headers=header)
res2

<Response [200]>

##### BeautifulSoup 라이브러리
- 객체화 시켜주기 위해 필요한 모듈이다.
- BeautifulSoup은 response.text를 통해 가져온 HTML 문서를 탐색해서 원하는 부분을 뽑아내는 그런 역할을 하는 라이브러리

In [86]:
!pip install bs4



In [87]:
from bs4 import BeautifulSoup as bs

#객체화
soup = bs(res.text, "html.parser")

soup.select("tag_name")
soup

soup.select("tag_name.class_name")

#특정태그1
soup.select('tag > child_tag')

#특정태그2
soup.select('tag.class_name > child_tag')

In [88]:
res3 = req.get('http://naver.com')
res3

<Response [200]>

##### 객체화
- 변수명 = bs(res.text, 'html.parser')
- response.text를 통해 가져온 HTML 문서를 파서를 통해서 BeautifulSoup 객체로 만들어 준 것

In [89]:
#객체화
soup = bs(res3.text, 'html.parser')
#soup

In [90]:
naver = soup.select("a.nav")
naver

[<a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>,
 <a class="nav" data-clk="svc.cafe" href="https://section.cafe.naver.com/">카페</a>,
 <a class="nav" data-clk="svc.blog" href="https://section.blog.naver.com/">블로그</a>,
 <a class="nav" data-clk="svc.kin" href="https://kin.naver.com/">지식iN</a>,
 <a class="nav shop" data-clk="svc.shopping" href="https://shopping.naver.com/"><span class="blind">쇼핑</span></a>,
 <a class="nav shoplive" data-clk="svc.shoppinglive" href="https://shoppinglive.naver.com/home"><span class="blind">쇼핑LIVE</span></a>,
 <a class="nav" data-clk="svc.pay" href="https://order.pay.naver.com/home">Pay</a>,
 <a class="nav" data-clk="svc.tvcast" href="https://tv.naver.com/"><i class="ico_tv"></i>TV</a>,
 <a class="nav" data-clk="svc.dic" href="https://dict.naver.com/">사전</a>,
 <a class="nav" data-clk="svc.news" href="https://news.naver.com/">뉴스</a>,
 <a class="nav" data-clk="svc.stock" href="https://finance.naver.com/">증권</a>,


In [91]:
len(naver)

16

In [92]:
#메일이라는 컨텐츠만 뽑아오고 싶을 때!
#네이버 타입: 리스트
#인덱싱을 통해 하나의 스트링만 선택
naver[0].text

'메일'

In [93]:
naver[1].text

'카페'

In [94]:
#for문을 이용하여 모든 컨텐츠 출력해보기!
for i in naver:
    print(i.text)


메일
카페
블로그
지식iN
쇼핑
쇼핑LIVE
Pay
TV
사전
뉴스
증권
부동산
지도
VIBE
도서
웹툰


In [95]:
#네이버 코스피, 거래상위
re4=req.get('https://finance.naver.com/sise/sise_quant.naver')
re4

<Response [200]>

In [96]:
soup2 = bs(re4.text, 'html.parser')
#soup2

In [97]:
title = soup2.select("a.tltle")
title

[<a class="tltle" href="/item/main.naver?code=252670">KODEX 200선물인버스2X</a>,
 <a class="tltle" href="/item/main.naver?code=251340">KODEX 코스닥150선물인버스</a>,
 <a class="tltle" href="/item/main.naver?code=530036">삼성 인버스 2X WTI원유 선물 ETN</a>,
 <a class="tltle" href="/item/main.naver?code=114800">KODEX 인버스</a>,
 <a class="tltle" href="/item/main.naver?code=074610">이엔플러스</a>,
 <a class="tltle" href="/item/main.naver?code=122630">KODEX 레버리지</a>,
 <a class="tltle" href="/item/main.naver?code=002900">TYM</a>,
 <a class="tltle" href="/item/main.naver?code=233740">KODEX 코스닥150레버리지</a>,
 <a class="tltle" href="/item/main.naver?code=091090">세원이앤씨</a>,
 <a class="tltle" href="/item/main.naver?code=025530">SJM홀딩스</a>,
 <a class="tltle" href="/item/main.naver?code=005930">삼성전자</a>,
 <a class="tltle" href="/item/main.naver?code=024890">대원화성</a>,
 <a class="tltle" href="/item/main.naver?code=006220">제주은행</a>,
 <a class="tltle" href="/item/main.naver?code=001020">페이퍼코리아</a>,
 <a class="tltle" href="/item/mai

In [98]:
len(title)

100

In [99]:
for i in title:
    print(i.text)

KODEX 200선물인버스2X
KODEX 코스닥150선물인버스
삼성 인버스 2X WTI원유 선물 ETN
KODEX 인버스
이엔플러스
KODEX 레버리지
TYM
KODEX 코스닥150레버리지
세원이앤씨
SJM홀딩스
삼성전자
대원화성
제주은행
페이퍼코리아
TRUE 인버스 2X 천연가스 선물 ETN(H)
대한해운
삼성중공업
TIGER 200선물인버스2X
신한 인버스 2X 천연가스 선물 ETN
조일알미늄
덕성
사조동아원
대한전선
KODEX 코스닥150
팬오션
금양
KEC
KODEX 200
한미글로벌
에스엠벡셀
두산에너빌리티
TIGER 인버스
TIGER 원유선물인버스(H)
미래아이앤지
SJM
SK하이닉스
현대로템
태경비케이
화천기계
쌍방울
성안
한화솔루션
대우조선해양
에이프로젠
덕성우
한창
하이스틸
고려산업
KODEX WTI원유선물인버스(H)
형지엘리트
신성이엔지
TIGER 차이나전기차SOLACTIVE
코스모화학
우리금융지주
SK증권
현대두산인프라코어
SH에너지화학
HMM
대현
신한 인버스 2X 천연가스 선물 ETN(H)
신한 인버스 2X WTI원유 선물 ETN(H)
후성
TRUE 인버스 2X 나스닥 100 ETN
우리종금
TIGER 단기통안채
카카오뱅크
베트남개발1
한국항공우주
LG디스플레이
백광산업
대한항공
LG유플러스
TIGER 200
한화에어로스페이스
한신기계
KODEX 단기채권PLUS
삼성엔지니어링
KODEX 2차전지산업
한국전력
TIGER 화장품
이수화학
TIGER 미국S&P500
한국종합기술
TIGER 미국나스닥100레버리지(합성)
KODEX 미국나스닥100레버리지(합성 H)
카카오
티에이치엔
KB금융
유니온머티리얼
KODEX 미국달러선물인버스2X
대창
보령
이수페타시스
부산주공
동양철관
GS글로벌
서울식품
삼부토건
하나금융지주
KODEX 200IT TR


In [100]:
#리스트?
title_list=[]
for i in title:
    title_list.append(i.text)
title_list

['KODEX 200선물인버스2X',
 'KODEX 코스닥150선물인버스',
 '삼성 인버스 2X WTI원유 선물 ETN',
 'KODEX 인버스',
 '이엔플러스',
 'KODEX 레버리지',
 'TYM',
 'KODEX 코스닥150레버리지',
 '세원이앤씨',
 'SJM홀딩스',
 '삼성전자',
 '대원화성',
 '제주은행',
 '페이퍼코리아',
 'TRUE 인버스 2X 천연가스 선물 ETN(H)',
 '대한해운',
 '삼성중공업',
 'TIGER 200선물인버스2X',
 '신한 인버스 2X 천연가스 선물 ETN',
 '조일알미늄',
 '덕성',
 '사조동아원',
 '대한전선',
 'KODEX 코스닥150',
 '팬오션',
 '금양',
 'KEC',
 'KODEX 200',
 '한미글로벌',
 '에스엠벡셀',
 '두산에너빌리티',
 'TIGER 인버스',
 'TIGER 원유선물인버스(H)',
 '미래아이앤지',
 'SJM',
 'SK하이닉스',
 '현대로템',
 '태경비케이',
 '화천기계',
 '쌍방울',
 '성안',
 '한화솔루션',
 '대우조선해양',
 '에이프로젠',
 '덕성우',
 '한창',
 '하이스틸',
 '고려산업',
 'KODEX WTI원유선물인버스(H)',
 '형지엘리트',
 '신성이엔지',
 'TIGER 차이나전기차SOLACTIVE',
 '코스모화학',
 '우리금융지주',
 'SK증권',
 '현대두산인프라코어',
 'SH에너지화학',
 'HMM',
 '대현',
 '신한 인버스 2X 천연가스 선물 ETN(H)',
 '신한 인버스 2X WTI원유 선물 ETN(H)',
 '후성',
 'TRUE 인버스 2X 나스닥 100 ETN',
 '우리종금',
 'TIGER 단기통안채',
 '카카오뱅크',
 '베트남개발1',
 '한국항공우주',
 'LG디스플레이',
 '백광산업',
 '대한항공',
 'LG유플러스',
 'TIGER 200',
 '한화에어로스페이스',
 '한신기계',
 'KODEX 단기채권PLUS',
 '삼성엔지니어링',
 'KODEX 2차전

In [101]:
#현재가
price = soup2.select("td.number")
price

[<td class="number">3,345</td>,
 <td class="number">
 <img alt="상승" height="6" src="https://ssl.pstatic.net/imgstock/images/images4/ico_up.gif" style="margin-right:4px;" width="7"/><span class="tah p11 red02">
 				70
 				</span>
 </td>,
 <td class="number">
 <span class="tah p11 red01">
 				+2.14%
 				</span>
 </td>,
 <td class="number">153,264,486</td>,
 <td class="number">511,469</td>,
 <td class="number">3,340</td>,
 <td class="number">3,345</td>,
 <td class="number">22,572</td>,
 <td class="number">N/A</td>,
 <td class="number">N/A</td>,
 <td class="number">5,235</td>,
 <td class="number">
 <img alt="상승" height="6" src="https://ssl.pstatic.net/imgstock/images/images4/ico_up.gif" style="margin-right:4px;" width="7"/><span class="tah p11 red02">
 				60
 				</span>
 </td>,
 <td class="number">
 <span class="tah p11 red01">
 				+1.16%
 				</span>
 </td>,
 <td class="number">45,661,017</td>,
 <td class="number">238,710</td>,
 <td class="number">5,235</td>,
 <td class="number">5,

In [102]:
len(price)

1000

In [103]:
price_raw_list = []
for i in price:
    price_raw_list.append(i.text)
price_raw_list

['3,345',
 '\n\n\t\t\t\t70\n\t\t\t\t\n',
 '\n\n\t\t\t\t+2.14%\n\t\t\t\t\n',
 '153,264,486',
 '511,469',
 '3,340',
 '3,345',
 '22,572',
 'N/A',
 'N/A',
 '5,235',
 '\n\n\t\t\t\t60\n\t\t\t\t\n',
 '\n\n\t\t\t\t+1.16%\n\t\t\t\t\n',
 '45,661,017',
 '238,710',
 '5,235',
 '5,240',
 '4,931',
 'N/A',
 'N/A',
 '145',
 '\n0\n',
 '\n0.00%\n',
 '36,712,029',
 '5,505',
 '145',
 '150',
 '2,171',
 'N/A',
 'N/A',
 '5,065',
 '\n\n\t\t\t\t55\n\t\t\t\t\n',
 '\n\n\t\t\t\t+1.10%\n\t\t\t\t\n',
 '24,889,679',
 '125,787',
 '5,060',
 '5,065',
 '9,016',
 'N/A',
 'N/A',
 '4,095',
 '\n\n\t\t\t\t625\n\t\t\t\t\n',
 '\n\n\t\t\t\t+18.01%\n\t\t\t\t\n',
 '22,661,856',
 '91,932',
 '4,095',
 '4,100',
 '2,364',
 '-11.44',
 '-30.57',
 '13,825',
 '\n\n\t\t\t\t255\n\t\t\t\t\n',
 '\n\n\t\t\t\t-1.81%\n\t\t\t\t\n',
 '21,747,672',
 '300,771',
 '13,820',
 '13,825',
 '21,277',
 'N/A',
 'N/A',
 '2,440',
 '\n\n\t\t\t\t105\n\t\t\t\t\n',
 '\n\n\t\t\t\t+4.50%\n\t\t\t\t\n',
 '16,948,293',
 '41,530',
 '2,435',
 '2,440',
 '3,717',
 '4.14',


In [104]:
#진행상황을 확인해주는 라이브러리 -> for문만 가능, while문은 사용불가능
from tqdm import tqdm_notebook
#from tqdm import tqdm_notebook as tqdm

In [105]:
#i = 인덱싱이용하여 현재가만 출력하기 위해서 10으로 나눠줘야함 
#현재가~ROE가 10개의 컬럼이기 때문에 현재가.col만 추출하기 위해서
price_list=[]
#for i in tqdm(range(0, 1000)):
for i in tqdm_notebook(range(0, 1000)):
    if i % 10 == 0 :
        price = price_raw_list[i]
        price_list.append(price)
price_list

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for i in tqdm_notebook(range(0, 1000)):


  0%|          | 0/1000 [00:00<?, ?it/s]

['3,345',
 '5,235',
 '145',
 '5,065',
 '4,095',
 '13,825',
 '2,440',
 '7,590',
 '902',
 '4,580',
 '55,300',
 '3,385',
 '8,560',
 '1,690',
 '310',
 '2,355',
 '5,780',
 '3,500',
 '180',
 '2,345',
 '6,080',
 '1,280',
 '1,590',
 '10,495',
 '5,480',
 '17,200',
 '2,920',
 '30,480',
 '22,750',
 '2,340',
 '17,250',
 '5,640',
 '3,315',
 '246',
 '4,060',
 '88,000',
 '28,850',
 '5,830',
 '6,820',
 '455',
 '1,075',
 '49,350',
 '21,350',
 '1,090',
 '9,990',
 '1,090',
 '4,515',
 '5,460',
 '4,740',
 '1,465',
 '2,150',
 '14,280',
 '27,250',
 '11,800',
 '720',
 '5,220',
 '1,050',
 '20,400',
 '2,430',
 '100',
 '125',
 '14,050',
 '2,370',
 '851',
 '101,315',
 '25,050',
 '69',
 '51,000',
 '14,000',
 '5,130',
 '25,900',
 '11,550',
 '30,505',
 '73,800',
 '7,310',
 '104,185',
 '23,250',
 '19,950',
 '19,750',
 '2,225',
 '27,450',
 '13,495',
 '7,690',
 '9,220',
 '4,785',
 '64,000',
 '3,775',
 '48,800',
 '2,860',
 '6,280',
 '1,440',
 '10,750',
 '5,890',
 '749',
 '1,100',
 '3,085',
 '238',
 '1,755',
 '38,350',
 

In [106]:
price_list[0]

'3,345'

##### Pandas
- DataFrame을 하기 위해 필요한 모듈

In [107]:
#데이터 테이블 = 데이터 프레임 -> 길이가 동일해야함
import pandas as pd

In [108]:
len(price_list), len(title_list)

(100, 100)

In [109]:
data={'종목명' : title_list, '가격정보' : price_list}


In [110]:
kospi = pd.DataFrame(data)
kospi

Unnamed: 0,종목명,가격정보
0,KODEX 200선물인버스2X,3345
1,KODEX 코스닥150선물인버스,5235
2,삼성 인버스 2X WTI원유 선물 ETN,145
3,KODEX 인버스,5065
4,이엔플러스,4095
...,...,...
95,GS글로벌,3085
96,서울식품,238
97,삼부토건,1755
98,하나금융지주,38350


In [111]:
#파일명.확장자명 저장 
kospi.to_excel('코스피지수.xlsx', encoding='utf-8-sig')

In [112]:
#벅스
re5=req.get('https://music.bugs.co.kr/chart')
re5
#re5.text

<Response [200]>

In [113]:
#객체화
soup3 = bs(re5.text, 'html.parser')
soup3

<!DOCTYPE html>

<html lang="ko">
<head>
<!-- bgsweb-www902 -->
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="음악,음악 스트리밍,최신음악,인기가요,뮤직비디오,앨범,플레이어,mp3 다운로드,놀면뭐하니,유플래쉬,유플래시" name="keywords">
<meta content="width=device-width, initial-scale=1" name="viewport">
<script type="text/javascript">
	if(!(location.href.indexOf("music.bugs.co.kr/newPlayer") >= 0 || location.href.indexOf("music.bugs.co.kr/newRadio") >= 0 || location.href.indexOf("localhost") >= 0))
		document.domain = 'bugs.co.kr';

	var g_urlBase = "https://www.bugs.co.kr";
	var g_urlWww = "https://www.bugs.co.kr";
	var g_urlSecure = "https://secure.bugs.co.kr";
	var g_urlMusic = "https://music.bugs.co.kr";
	var g_urlMusicSecure = "https://music.bugs.co.kr";
	var g_urlMember = "https://secure.bugs.co.kr/member";
	var g_urlFile = "https://file.bugsm.co.kr/wbugs";
	var g_urlFile_n ="https://file.bugsm.co.kr/nbugs"; 
	//var g_urlSwf = "https://music.bugs.co.kr/swf";
	var g_urlSwf = "http

In [114]:
#랭킹 출력
#(html태그&속성(주로 class)선택 하위태그)
# 변수명 = soup.select(tag.class name > child tag)
ranking = soup3.select("div.ranking > strong")
ranking

[<strong>1</strong>,
 <strong>2</strong>,
 <strong>3</strong>,
 <strong>4</strong>,
 <strong>5</strong>,
 <strong>6</strong>,
 <strong>7</strong>,
 <strong>8</strong>,
 <strong>9</strong>,
 <strong>10</strong>,
 <strong>11</strong>,
 <strong>12</strong>,
 <strong>13</strong>,
 <strong>14</strong>,
 <strong>15</strong>,
 <strong>16</strong>,
 <strong>17</strong>,
 <strong>18</strong>,
 <strong>19</strong>,
 <strong>20</strong>,
 <strong>21</strong>,
 <strong>22</strong>,
 <strong>23</strong>,
 <strong>24</strong>,
 <strong>25</strong>,
 <strong>26</strong>,
 <strong>27</strong>,
 <strong>28</strong>,
 <strong>29</strong>,
 <strong>30</strong>,
 <strong>31</strong>,
 <strong>32</strong>,
 <strong>33</strong>,
 <strong>34</strong>,
 <strong>35</strong>,
 <strong>36</strong>,
 <strong>37</strong>,
 <strong>38</strong>,
 <strong>39</strong>,
 <strong>40</strong>,
 <strong>41</strong>,
 <strong>42</strong>,
 <strong>43</strong>,
 <strong>44</strong>,
 <strong>45</strong>,
 <strong>46</strong

In [115]:
ranking_list = []
for i in ranking:
    ranking_list.append(i.text)

ranking_list

['1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 '10',
 '11',
 '12',
 '13',
 '14',
 '15',
 '16',
 '17',
 '18',
 '19',
 '20',
 '21',
 '22',
 '23',
 '24',
 '25',
 '26',
 '27',
 '28',
 '29',
 '30',
 '31',
 '32',
 '33',
 '34',
 '35',
 '36',
 '37',
 '38',
 '39',
 '40',
 '41',
 '42',
 '43',
 '44',
 '45',
 '46',
 '47',
 '48',
 '49',
 '50',
 '51',
 '52',
 '53',
 '54',
 '55',
 '56',
 '57',
 '58',
 '59',
 '60',
 '61',
 '62',
 '63',
 '64',
 '65',
 '66',
 '67',
 '68',
 '69',
 '70',
 '71',
 '72',
 '73',
 '74',
 '75',
 '76',
 '77',
 '78',
 '79',
 '80',
 '81',
 '82',
 '83',
 '84',
 '85',
 '86',
 '87',
 '88',
 '89',
 '90',
 '91',
 '92',
 '93',
 '94',
 '95',
 '96',
 '97',
 '98',
 '99',
 '100']

In [116]:
#곡명
title = soup3.select("p.title")
title

[<p adult_yn="N" class="title">
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('6176179',true);
 " title="Shut Down">Shut Down</a>
 </p>,
 <p adult_yn="N" class="title">
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('32636447',true);
 " title="새삥 (Prod. ZICO) (Feat. 호미들)">새삥 (Prod. ZICO) (Feat. 호미들)</a>
 </p>,
 <p adult_yn="N" class="title">
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('6173112',true);
 " title="After LIKE">After LIKE</a>
 </p>,
 <p adult_yn="N" class="title">
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('6170217',true);
 " title="Hype Boy">Hype Boy</a>
 </p>,
 <p adult_yn="N" class="title">
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wis

In [117]:
title = soup3.select("p.title>a")
title

[<a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('6176179',true);
 " title="Shut Down">Shut Down</a>,
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('32636447',true);
 " title="새삥 (Prod. ZICO) (Feat. 호미들)">새삥 (Prod. ZICO) (Feat. 호미들)</a>,
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('6173112',true);
 " title="After LIKE">After LIKE</a>,
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('6170217',true);
 " title="Hype Boy">Hype Boy</a>,
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('6170060',true);
 " title="Attention">Attention</a>,
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.are

In [118]:
for i in title:
    print(i.text)

Shut Down
새삥 (Prod. ZICO) (Feat. 호미들)
After LIKE
Hype Boy
Attention
I Don’t Think That I Like Her
Pink Venom
FOREVER 1
LOVE DIVE
LAW (Prod. Czaer)
Cookie
Talk that Talk
Monologue
DICE
기념일
그라데이션
ELEVEN
Ready For Love
Yeah Yeah Yeah
FEARLESS
질주 (2 Baddies)
도깨비불 (Illusion)
That's Hilarious
SNEAKERS
Dangerously
내가 아니라도
백야
I Ain't Worried
TOMBOY
그때 그 순간 그대로 (그그그)
Hard to Love
통화연결음
Designer
내 기쁨은 너가 벤틀리를 끄는 거야
strawberry moon
정이라고 하자 (Feat. 10CM)
보고싶었어
잡고 싶다
너의 모든 순간
TTFU
The Happiest Girl
나의 X에게
COOL (Your rainbow)
사랑인가 봐
Typa Girl
Hurt
POP!
Left and Right (Feat. Jung Kook of BTS)
Girls
Better (Feat. BIG Naughty)
드라마
사랑한다고 말해줘
새벽에 걸려온 너의 전화는
STAY
MY BAG
That That (prod. & feat. SUGA of BTS)
거기서 거기
LOVE me
열이올라요 (Heart Burn)
Somebody!
사랑은 늘 도망가
Feel My Rhythm
SMILEY (Feat. BIBI)
Love story
다정히 내 이름을 부르면
취중고백
INVU
봄여름가을겨울 (Still Life)
Braindead
해요 (2022)
Smells Like Me
Next Level
Celebrity
그랬으면 좋겠네
I LOVE U
Off My Face
잠수이별 (Prod. 코드 쿤스트)
불시착 (Crash Landing)
일과 이분의 일
한 밤의 꿈처럼
Weekend
스티커 사진


In [119]:
len(title)

100

In [120]:
title_list = []
for i in title:
    title_list.append(i.text)

title_list

['Shut Down',
 '새삥 (Prod. ZICO) (Feat. 호미들)',
 'After LIKE',
 'Hype Boy',
 'Attention',
 'I Don’t Think That I Like Her',
 'Pink Venom',
 'FOREVER 1',
 'LOVE DIVE',
 'LAW (Prod. Czaer)',
 'Cookie',
 'Talk that Talk',
 'Monologue',
 'DICE',
 '기념일',
 '그라데이션',
 'ELEVEN',
 'Ready For Love',
 'Yeah Yeah Yeah',
 'FEARLESS',
 '질주 (2 Baddies)',
 '도깨비불 (Illusion)',
 "That's Hilarious",
 'SNEAKERS',
 'Dangerously',
 '내가 아니라도',
 '백야',
 "I Ain't Worried",
 'TOMBOY',
 '그때 그 순간 그대로 (그그그)',
 'Hard to Love',
 '통화연결음',
 'Designer',
 '내 기쁨은 너가 벤틀리를 끄는 거야',
 'strawberry moon',
 '정이라고 하자 (Feat. 10CM)',
 '보고싶었어',
 '잡고 싶다',
 '너의 모든 순간',
 'TTFU',
 'The Happiest Girl',
 '나의 X에게',
 'COOL (Your rainbow)',
 '사랑인가 봐',
 'Typa Girl',
 'Hurt',
 'POP!',
 'Left and Right (Feat. Jung Kook of BTS)',
 'Girls',
 'Better (Feat. BIG Naughty)',
 '드라마',
 '사랑한다고 말해줘',
 '새벽에 걸려온 너의 전화는',
 'STAY',
 'MY BAG',
 'That That (prod. & feat. SUGA of BTS)',
 '거기서 거기',
 'LOVE me',
 '열이올라요 (Heart Burn)',
 'Somebody!',
 '사랑은 늘 도망가',
 'Feel

In [121]:
len(ranking_list), len(title_list)

(100, 100)

In [122]:
data={'순위' : ranking_list, '곡명' : title_list}

In [123]:
music = pd.DataFrame(data)
music

Unnamed: 0,순위,곡명
0,1,Shut Down
1,2,새삥 (Prod. ZICO) (Feat. 호미들)
2,3,After LIKE
3,4,Hype Boy
4,5,Attention
...,...,...
95,96,go UP
96,97,괴짜 (Freak)
97,98,Good Night (Feat. BE'O)
98,99,스토커


In [124]:
#가수명
artist = soup3.select("p.artist>a")
artist

[<a href="https://music.bugs.co.kr/artist/20022492?wl_ref=list_tr_10_chart" onclick="
 " title="BLACKPINK">BLACKPINK</a>,
 <a href="https://music.bugs.co.kr/artist/80069449?wl_ref=list_tr_10_chart" onclick="
 " title="지코">지코</a>,
 <a href="https://music.bugs.co.kr/artist/20148657?wl_ref=list_tr_10_chart" onclick="
 " title="IVE (아이브)">IVE (아이브)</a>,
 <a href="https://music.bugs.co.kr/artist/20164333?wl_ref=list_tr_10_chart" onclick="
 " title="NewJeans">NewJeans</a>,
 <a href="https://music.bugs.co.kr/artist/20164333?wl_ref=list_tr_10_chart" onclick="
 " title="NewJeans">NewJeans</a>,
 <a href="https://music.bugs.co.kr/artist/80221620?wl_ref=list_tr_10_chart" onclick="
 " title="Charlie Puth(찰리 푸스)">Charlie Puth(찰리 푸스)</a>,
 <a href="https://music.bugs.co.kr/artist/20022492?wl_ref=list_tr_10_chart" onclick="
 " title="BLACKPINK">BLACKPINK</a>,
 <a href="https://music.bugs.co.kr/artist/80026432?wl_ref=list_tr_10_chart" onclick="
 " title="소녀시대 (GIRLS' GENERATION)">소녀시대 (GIRLS' GENERATIO

In [125]:
len(artist)

108

In [126]:
for i in artist:
    print(i.text)

BLACKPINK
지코
IVE (아이브)
NewJeans
NewJeans
Charlie Puth(찰리 푸스)
BLACKPINK
소녀시대 (GIRLS' GENERATION)
IVE (아이브)
윤미래

윤미래

NewJeans
TWICE (트와이스)
테이(Tei)
NMIXX
벤
10CM
IVE (아이브)
BLACKPINK
BLACKPINK
LE SSERAFIM (르세라핌)
NCT 127
aespa
Charlie Puth(찰리 푸스)
ITZY (있지)
Charlie Puth(찰리 푸스)
주호
린(LYn)
OneRepublic(원리퍼블릭)
(여자)아이들
WSG워너비 (가야G)
BLACKPINK
보라미유

보라미유

NCT 127
김승민
아이유(IU)
BIG Naughty (서동현)
WSG워너비 (4FIRE)
나윤권
성시경
사이먼 도미닉

사이먼 도미닉

BLACKPINK
경서
NMIXX
멜로망스(MeloMance)
BLACKPINK
NewJeans
나연 (TWICE)
Charlie Puth(찰리 푸스)

Charlie Puth(찰리 푸스)

aespa
마마무+
아이유(IU)
탑현
한동근
The Kid LAROI

The Kid LAROI

(여자)아이들
싸이 (PSY)
솔지
BE'O (비오)
선미
로꼬

로꼬

임영웅
Red Velvet (레드벨벳)
YENA (최예나)
볼빨간사춘기
경서예지

경서예지

김민석 (멜로망스)
태연 (TAEYEON)
BIGBANG (빅뱅)
시온
#안녕
Charlie Puth(찰리 푸스)
aespa
아이유(IU)
에일리(Ailee)
WINNER
Justin Bieber(저스틴 비버)
우원재

우원재

NCT 127
츄 (이달의 소녀)
이보람 (씨야)
태연 (TAEYEON)
21학번
Ed Sheeran(에드 시런)
케이시
다비치
BLACKPINK
이무진
STAYC(스테이씨)
아이유(IU)
아이유(IU)
NCT 127
청하
폴킴(Paul Kim)
LE SSERAFIM (르세라핌)
Charlie Puth(찰리 푸스)
JAY B
지코
쿠기 (Coo

In [127]:
#상세부분 때문에 9개 삭제해 줘야함 
#사이트와 객체화된 부분 비교하면서 어디가 추가되었는지 확인
# <a class="artistTitle" href="https://music.bugs.co.kr/artist/7406?wl_ref=list_tr_10_chart" title="윤미래">윤미래</a>
# len(ranking)과 맞춰주기 위해

artist_check = soup3.select('a.artistTitle')
artist_check

[<a class="artistTitle" href="https://music.bugs.co.kr/artist/7406?wl_ref=list_tr_10_chart" title="윤미래">윤미래</a>,
 <a class="artistTitle" href="https://music.bugs.co.kr/artist/80321512?wl_ref=list_tr_10_chart" title="보라미유">보라미유</a>,
 <a class="artistTitle" href="https://music.bugs.co.kr/artist/80009273?wl_ref=list_tr_10_chart" title="사이먼 도미닉">사이먼 도미닉</a>,
 <a class="artistTitle" href="https://music.bugs.co.kr/artist/80221620?wl_ref=list_tr_10_chart" title="Charlie Puth(찰리 푸스)">Charlie Puth(찰리 푸스)</a>,
 <a class="artistTitle" href="https://music.bugs.co.kr/artist/80333705?wl_ref=list_tr_10_chart" title="The Kid LAROI">The Kid LAROI</a>,
 <a class="artistTitle" href="https://music.bugs.co.kr/artist/80132051?wl_ref=list_tr_10_chart" title="로꼬">로꼬</a>,
 <a class="artistTitle" href="https://music.bugs.co.kr/artist/20105641?wl_ref=list_tr_10_chart" title="경서예지">경서예지</a>,
 <a class="artistTitle" href="https://music.bugs.co.kr/artist/20042154?wl_ref=list_tr_10_chart" title="우원재">우원재</a>]

In [128]:
len(artist_check)

8

In [129]:
for i in artist_check:
    artist.remove(i)
artist

[<a href="https://music.bugs.co.kr/artist/20022492?wl_ref=list_tr_10_chart" onclick="
 " title="BLACKPINK">BLACKPINK</a>,
 <a href="https://music.bugs.co.kr/artist/80069449?wl_ref=list_tr_10_chart" onclick="
 " title="지코">지코</a>,
 <a href="https://music.bugs.co.kr/artist/20148657?wl_ref=list_tr_10_chart" onclick="
 " title="IVE (아이브)">IVE (아이브)</a>,
 <a href="https://music.bugs.co.kr/artist/20164333?wl_ref=list_tr_10_chart" onclick="
 " title="NewJeans">NewJeans</a>,
 <a href="https://music.bugs.co.kr/artist/20164333?wl_ref=list_tr_10_chart" onclick="
 " title="NewJeans">NewJeans</a>,
 <a href="https://music.bugs.co.kr/artist/80221620?wl_ref=list_tr_10_chart" onclick="
 " title="Charlie Puth(찰리 푸스)">Charlie Puth(찰리 푸스)</a>,
 <a href="https://music.bugs.co.kr/artist/20022492?wl_ref=list_tr_10_chart" onclick="
 " title="BLACKPINK">BLACKPINK</a>,
 <a href="https://music.bugs.co.kr/artist/80026432?wl_ref=list_tr_10_chart" onclick="
 " title="소녀시대 (GIRLS' GENERATION)">소녀시대 (GIRLS' GENERATIO

In [130]:
len(artist)

100

In [131]:
artist_list = []
for i in artist:
    artist_list.append(i.text)

artist_list

['BLACKPINK',
 '지코',
 'IVE (아이브)',
 'NewJeans',
 'NewJeans',
 'Charlie Puth(찰리 푸스)',
 'BLACKPINK',
 "소녀시대 (GIRLS' GENERATION)",
 'IVE (아이브)',
 '\r\n윤미래\r\n',
 'NewJeans',
 'TWICE (트와이스)',
 '테이(Tei)',
 'NMIXX',
 '벤',
 '10CM',
 'IVE (아이브)',
 'BLACKPINK',
 'BLACKPINK',
 'LE SSERAFIM (르세라핌)',
 'NCT 127',
 'aespa',
 'Charlie Puth(찰리 푸스)',
 'ITZY (있지)',
 'Charlie Puth(찰리 푸스)',
 '주호',
 '린(LYn)',
 'OneRepublic(원리퍼블릭)',
 '(여자)아이들',
 'WSG워너비 (가야G)',
 'BLACKPINK',
 '\r\n보라미유\r\n',
 'NCT 127',
 '김승민',
 '아이유(IU)',
 'BIG Naughty (서동현)',
 'WSG워너비 (4FIRE)',
 '나윤권',
 '성시경',
 '\r\n사이먼 도미닉\r\n',
 'BLACKPINK',
 '경서',
 'NMIXX',
 '멜로망스(MeloMance)',
 'BLACKPINK',
 'NewJeans',
 '나연 (TWICE)',
 '\r\nCharlie Puth(찰리 푸스)\r\n',
 'aespa',
 '마마무+',
 '아이유(IU)',
 '탑현',
 '한동근',
 '\r\nThe Kid LAROI\r\n',
 '(여자)아이들',
 '싸이 (PSY)',
 '솔지',
 "BE'O (비오)",
 '선미',
 '\r\n로꼬\r\n',
 '임영웅',
 'Red Velvet (레드벨벳)',
 'YENA (최예나)',
 '볼빨간사춘기',
 '\r\n경서예지\r\n',
 '김민석 (멜로망스)',
 '태연 (TAEYEON)',
 'BIGBANG (빅뱅)',
 '시온',
 '#안녕',
 'Charlie Puth

In [132]:
artist_list_new=[]
for i in artist_list:
    artist_list_new.append(i.replace('\r\n',''))
artist_list_new

['BLACKPINK',
 '지코',
 'IVE (아이브)',
 'NewJeans',
 'NewJeans',
 'Charlie Puth(찰리 푸스)',
 'BLACKPINK',
 "소녀시대 (GIRLS' GENERATION)",
 'IVE (아이브)',
 '윤미래',
 'NewJeans',
 'TWICE (트와이스)',
 '테이(Tei)',
 'NMIXX',
 '벤',
 '10CM',
 'IVE (아이브)',
 'BLACKPINK',
 'BLACKPINK',
 'LE SSERAFIM (르세라핌)',
 'NCT 127',
 'aespa',
 'Charlie Puth(찰리 푸스)',
 'ITZY (있지)',
 'Charlie Puth(찰리 푸스)',
 '주호',
 '린(LYn)',
 'OneRepublic(원리퍼블릭)',
 '(여자)아이들',
 'WSG워너비 (가야G)',
 'BLACKPINK',
 '보라미유',
 'NCT 127',
 '김승민',
 '아이유(IU)',
 'BIG Naughty (서동현)',
 'WSG워너비 (4FIRE)',
 '나윤권',
 '성시경',
 '사이먼 도미닉',
 'BLACKPINK',
 '경서',
 'NMIXX',
 '멜로망스(MeloMance)',
 'BLACKPINK',
 'NewJeans',
 '나연 (TWICE)',
 'Charlie Puth(찰리 푸스)',
 'aespa',
 '마마무+',
 '아이유(IU)',
 '탑현',
 '한동근',
 'The Kid LAROI',
 '(여자)아이들',
 '싸이 (PSY)',
 '솔지',
 "BE'O (비오)",
 '선미',
 '로꼬',
 '임영웅',
 'Red Velvet (레드벨벳)',
 'YENA (최예나)',
 '볼빨간사춘기',
 '경서예지',
 '김민석 (멜로망스)',
 '태연 (TAEYEON)',
 'BIGBANG (빅뱅)',
 '시온',
 '#안녕',
 'Charlie Puth(찰리 푸스)',
 'aespa',
 '아이유(IU)',
 '에일리(Ailee)',
 'WINNER'

In [133]:
len(ranking_list), len(title_list), len(artist_list)

(100, 100, 100)

In [134]:
data={'순위' : ranking_list, '곡명' : title_list, '가수' : artist_list}

In [135]:
music = pd.DataFrame(data)
music

Unnamed: 0,순위,곡명,가수
0,1,Shut Down,BLACKPINK
1,2,새삥 (Prod. ZICO) (Feat. 호미들),지코
2,3,After LIKE,IVE (아이브)
3,4,Hype Boy,NewJeans
4,5,Attention,NewJeans
...,...,...,...
95,96,go UP,JAY B
96,97,괴짜 (Freak),지코
97,98,Good Night (Feat. BE'O),쿠기 (Coogie)
98,99,스토커,10CM


In [136]:
music.set_index('순위')

Unnamed: 0_level_0,곡명,가수
순위,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Shut Down,BLACKPINK
2,새삥 (Prod. ZICO) (Feat. 호미들),지코
3,After LIKE,IVE (아이브)
4,Hype Boy,NewJeans
5,Attention,NewJeans
...,...,...
96,go UP,JAY B
97,괴짜 (Freak),지코
98,Good Night (Feat. BE'O),쿠기 (Coogie)
99,스토커,10CM


In [137]:
music.to_excel('벅스.xlsx', encoding='utf-8-sig')

In [138]:
#네이버영화
re6=req.get('https://movie.naver.com/movie/point/af/list.naver')
re6

<Response [200]>

In [139]:
#객체화
soup4 = bs(re6.text, 'html.parser')
soup4


<!DOCTYPE html>

<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="me2:image">
<meta content="네이버영화 " property="me2:post_tag">
<meta content="네이버영화" property="me2:category1"/>
<meta content="" property="me2:category2"/>
<meta content="평점 : 네이버 영화" property="og:title"/>
<meta content="네티즌 평점과 리뷰 정보 제공" property="og:description"/>
<meta content="article" property="og:type"/>
<meta content="https://movie.naver.com/movie/point/af/list.naver" property="og:url"/>
<meta content="http://static.naver.net/m/movie/icons/OG_270_270.png" property="og:image"/><!-- http://static.naver.net/m/movie/im/navermovie.jpg -->
<meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="og:article:thumbnailUrl"/>
<meta content="네이버 영화" property="og:article:author"/>
<meta content="https://movie.naver.co

In [140]:
#평점
score = soup4.select("div.list_netizen_score> em")
score

[<em>10</em>,
 <em>1</em>,
 <em>2</em>,
 <em>2</em>,
 <em>2</em>,
 <em>2</em>,
 <em>1</em>,
 <em>1</em>,
 <em>1</em>,
 <em>4</em>]

In [141]:
score_list=[]
for i in score:
    score_list.append(i.text)
score_list

['10', '1', '2', '2', '2', '2', '1', '1', '1', '4']

In [142]:
#movie color_b는 띄어쓰기때문에 인식 못함
#띄어쓰기 대신 .이용하면 인식할 수 있음
title = soup4.select("td.title>a.movie.color_b")
title

[<a class="movie color_b" href="?st=mcode&amp;sword=187347&amp;target=after">토르: 러브 앤 썬더</a>,
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>,
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>,
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>,
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>,
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>,
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>,
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>,
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>,
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>]

In [143]:
title_list=[]
for i in title:
    title_list.append(i.text)
title_list

['토르: 러브 앤 썬더',
 '늑대사냥',
 '늑대사냥',
 '늑대사냥',
 '늑대사냥',
 '늑대사냥',
 '늑대사냥',
 '늑대사냥',
 '늑대사냥',
 '늑대사냥']

In [144]:
len(title_list)

10

In [145]:
#br은 엔터키 기능을 해주는 html태그임 
review = soup4.select("td.title")
review

[<td class="title">
 <a class="movie color_b" href="?st=mcode&amp;sword=187347&amp;target=after">토르: 러브 앤 썬더</a>
 <div class="list_netizen_score">
 <span class="st_off"><span class="st_on" style="width:100%">별점 - 총 10점 중</span></span><em>10</em>
 </div>
 <br/>그래도 괜찮은 영화였다 
 			
 			
 			
 				
 				
 				
 				<a class="report" href="#" onclick="report('wosu****', 'Uj1tbLsEJ8wB3ziVl6NptCOAxeY6k2apCfiTuHHkHmg=', '그래도 괜찮은 영화였다', '18454733', 'point_after');" style="color:#8F8F8F" title="새 창">신고</a>
 </td>,
 <td class="title">
 <a class="movie color_b" href="?st=mcode&amp;sword=211161&amp;target=after">늑대사냥</a>
 <div class="list_netizen_score">
 <span class="st_off"><span class="st_on" style="width:10%">별점 - 총 10점 중</span></span><em>1</em>
 </div>
 <br/>23년 살면서 이런 똥쓰레기 영화는 진심으로 처음입니다. 
 			
 			
 			
 				
 				
 				
 				<a class="report" href="#" onclick="report('pras****', 'Vj7eHqlpXdvOawjXYGdFEPg0NuDXJ9iJtG/hVF4hC1o=', '23년 살면서 이런 똥쓰레기 영화는 진심으로 처음입니다.', '18454732', 'point_after');" st

In [146]:
review_list=[]
for i in review:
    review_list.append(i.text)
review_list

['\n토르: 러브 앤 썬더\n\n별점 - 총 10점 중10\n\n그래도 괜찮은 영화였다 \n\t\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t신고\n',
 '\n늑대사냥\n\n별점 - 총 10점 중1\n\n23년 살면서 이런 똥쓰레기 영화는 진심으로 처음입니다. \n\t\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t신고\n',
 '\n늑대사냥\n\n별점 - 총 10점 중2\n\n그 괴물인지 시체 나오기 직전 까진 엄청 재미있음 그 이후는 말 안 한다 \n\t\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t신고\n',
 '\n늑대사냥\n\n별점 - 총 10점 중2\n\n노잼..좀비가 왜나왔을까..경찰vs범죄자 영화인줄알았는데.. \n\t\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t신고\n',
 '\n늑대사냥\n\n별점 - 총 10점 중2\n\n아..감독님의 정신세계가 궁금해져서 찾아본 영화는 처음입니다.. \n\t\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t신고\n',
 '\n늑대사냥\n\n별점 - 총 10점 중2\n\n기대하지마세요..ㅠ \n\t\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t신고\n',
 '\n늑대사냥\n\n별점 - 총 10점 중1\n\n뭐냐 이게? 내가 뭘 본거임? \n\t\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t신고\n',
 '\n늑대사냥\n\n별점 - 총 10점 중1\n\n평점리뷰 진짜 인생 처음으로 합니다. 영화 재미없어도 이런거 귀찮아서 작성하는 성격 아닌데 너무충격먹어서 리뷰 남깁니다. 길게 말할것도 없고 

In [147]:
review_list[0]

'\n토르: 러브 앤 썬더\n\n별점 - 총 10점 중10\n\n그래도 괜찮은 영화였다 \n\t\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\t신고\n'

In [148]:
test = review_list[0].split('\n\n')[2]

In [149]:
test = test.replace('\n', '')
test = test.replace('\t', '')
test = test.replace('신고', '')

In [150]:
test

'그래도 괜찮은 영화였다 '

In [151]:
view = soup.select('td.title')
view

[]

In [152]:
#뭔가 잘못됨
view = soup.select('td.title')
view_list=[]
for i in view:
    review=i.text
    review=review.split('\n\n')[2]
    review=review.replace('\n','')
    review=review.replace('\t','')
    review=review.replace('신고','')

    view_list.append(review)
view_list
    

[]

In [153]:
#10이 나와야 함
len(view_list)

0

In [154]:
#10페이지
page = range(1,11)

In [155]:
for i in page:
    url = 'https://movie.naver.com/movie/point/af/list.naver?&page={}'.format(i)
    print(url)

https://movie.naver.com/movie/point/af/list.naver?&page=1
https://movie.naver.com/movie/point/af/list.naver?&page=2
https://movie.naver.com/movie/point/af/list.naver?&page=3
https://movie.naver.com/movie/point/af/list.naver?&page=4
https://movie.naver.com/movie/point/af/list.naver?&page=5
https://movie.naver.com/movie/point/af/list.naver?&page=6
https://movie.naver.com/movie/point/af/list.naver?&page=7
https://movie.naver.com/movie/point/af/list.naver?&page=8
https://movie.naver.com/movie/point/af/list.naver?&page=9
https://movie.naver.com/movie/point/af/list.naver?&page=10


In [156]:
from tqdm import tqdm_notebook as tqdm

In [157]:
total_title_list =[]
total_review_list=[]
total_score_list=[]
for i in tqdm(page):
    url = 'https://movie.naver.com/movie/point/af/list.naver?&page={}'.format(i)
    print(url)

    re7=req.get(url) #가져오기
    
    soup4 = bs(re7.text, 'html.parser') #객체화

    #평점
    total_score = soup4.select('div.list_netizen_score> em')
    for i in total_score:
        total_score_list.append(i.text)

    #리뷰
    view = soup4.select('td.title')
    for i in view:
        review = i.text
        review = review.split('\n\n')[2]
        review = review.replace('\n', '')
        review = review.replace('\t', '')
        review = review.replace('신고', '')
        total_review_list.append(review)

    #제목

    total_title = soup4.select('td.title>a.movie.color_b')
    for i in total_title:
        total_title_list.append(i.text)

   

    


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for i in tqdm(page):


  0%|          | 0/10 [00:00<?, ?it/s]

https://movie.naver.com/movie/point/af/list.naver?&page=1
https://movie.naver.com/movie/point/af/list.naver?&page=2
https://movie.naver.com/movie/point/af/list.naver?&page=3
https://movie.naver.com/movie/point/af/list.naver?&page=4
https://movie.naver.com/movie/point/af/list.naver?&page=5
https://movie.naver.com/movie/point/af/list.naver?&page=6
https://movie.naver.com/movie/point/af/list.naver?&page=7
https://movie.naver.com/movie/point/af/list.naver?&page=8
https://movie.naver.com/movie/point/af/list.naver?&page=9
https://movie.naver.com/movie/point/af/list.naver?&page=10


In [158]:
len(total_title_list), len(total_score_list), len(total_review_list)

(100, 100, 100)

In [159]:
total_data={'제목' : total_title_list, '평점' : total_score_list, '리뷰' : total_review_list}

In [160]:
movie = pd.DataFrame(total_data)
movie

Unnamed: 0,제목,평점,리뷰
0,토르: 러브 앤 썬더,10,그래도 괜찮은 영화였다
1,늑대사냥,1,23년 살면서 이런 똥쓰레기 영화는 진심으로 처음입니다.
2,늑대사냥,2,그 괴물인지 시체 나오기 직전 까진 엄청 재미있음 그 이후는 말 안 한다
3,늑대사냥,2,노잼..좀비가 왜나왔을까..경찰vs범죄자 영화인줄알았는데..
4,늑대사냥,2,아..감독님의 정신세계가 궁금해져서 찾아본 영화는 처음입니다..
...,...,...,...
95,늑대사냥,1,시간과 돈이 아까움 감동도 재미도 스토리도 없는 맥락 없는 영화... 제 인생 제일...
96,늑대사냥,7,배우들 연기는 좋았고 전개 빨라서 나름 몰입해서 보긴 봤는데 일단 사람을 개미 죽이...
97,늑대사냥,10,"잔인함, 잔인한거 싫어하면 보기 힘듬.난 보통사람인데, 그래도 재밌게 봤음.마녀2랑..."
98,늑대사냥,1,늑대가 나오지 차라리....


In [161]:
movie.set_index('제목')

Unnamed: 0_level_0,평점,리뷰
제목,Unnamed: 1_level_1,Unnamed: 2_level_1
토르: 러브 앤 썬더,10,그래도 괜찮은 영화였다
늑대사냥,1,23년 살면서 이런 똥쓰레기 영화는 진심으로 처음입니다.
늑대사냥,2,그 괴물인지 시체 나오기 직전 까진 엄청 재미있음 그 이후는 말 안 한다
늑대사냥,2,노잼..좀비가 왜나왔을까..경찰vs범죄자 영화인줄알았는데..
늑대사냥,2,아..감독님의 정신세계가 궁금해져서 찾아본 영화는 처음입니다..
...,...,...
늑대사냥,1,시간과 돈이 아까움 감동도 재미도 스토리도 없는 맥락 없는 영화... 제 인생 제일...
늑대사냥,7,배우들 연기는 좋았고 전개 빨라서 나름 몰입해서 보긴 봤는데 일단 사람을 개미 죽이...
늑대사냥,10,"잔인함, 잔인한거 싫어하면 보기 힘듬.난 보통사람인데, 그래도 재밌게 봤음.마녀2랑..."
늑대사냥,1,늑대가 나오지 차라리....


In [162]:
#파일명.확장자명 저장 
movie.set_index('제목').to_excel('영화.xlsx', encoding='utf-8-sig')