### 크롤링 crawling
+ 웹상에 존재하는 다양한 컨텐츠를 수집하는 행위
+ html 문서를 통째로 읽어서 내용을 분석한 뒤 필요한 데이터만 추출

### 파이썬으로 크롤링 하기
+ urllib/urllib2 : 사용하기 무난, 코드 단순, 내장 패키지
+ requests : 따로 설치, urlib보다 고급기능 제공
+ lxml : 웹을 통해 읽어들인 문서 내용 분석, 그 내부에서 필요한 데이터 추출에 사용

In [4]:
pip install requests

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [22]:
pip install lxml

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [23]:
pip install cssselect

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [24]:
import requests

In [25]:
import lxml.html 

In [26]:
from lxml.cssselect import CSSSelector

In [9]:
url = 'https://www.hanbit.co.kr/store/books/bestseller_list.html'

### 지정한 url의 문서를 읽기 : get(주소, 옵션)

In [12]:
res = requests.get(url)

### requests 패키지 실행 후 유용한 변수로 결과 확인
+ http 응답코드, 응답으로 받은 컨텐츠의 인코딩 및 컨텐츠 유형 확인

In [17]:
print(res.status_code, res.encoding, res.headers['content-type'])

200 UTF-8 text/html; charset=UTF-8


### 응답으로 받은 컨텐츠 확인 : text, content

In [20]:
res.text[:500]

'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>한빛출판네트워크</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="한빛출판네트워크"/>\r\n<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위'

In [23]:
res.content[:500] # 바이트 형식

b'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac"/>\r\n<meta property="og:descripti'

### 스크래핑한 결과를 분석해서 필요한 데이터를 추출하기 위해 따로 변수로 저장

In [24]:
html = res.text

### html 변수에 저장된 문서 내 요소들을 탐색하기 편하도록 계층구조 DOM으로 생성

In [25]:
root = lxml.html.fromstring(html)

### 추출한 제목을 저장하기 위해 리스트 선언

In [294]:
titles = []
authors = []
prices = []
thumbs = []

#### 모든 p 태그들 중에서 클래스명이 book_tit인 p태그(들)을 찾은 후 자식 태그가 a인 요소들을 선택(select)한 후 텍스트 요소를 추출함

In [295]:
for title in root.cssselect('p.book_tit a'):
   # print(title.text_content())
    titles.append(title.text_content())

In [296]:
for author in root.cssselect('p.book_writer'):
    # print(author.text_content())
    authors.append(author.text_content())

In [297]:
for price in root.cssselect('span.price'):
    # print(price.text_content())
    prices.append(price.text_content())

In [298]:
for thum in root.cssselect('img.thumb'):
    # print(thum.get('src'))
    thumbs.append(thum.get('src'))

In [310]:
prices = str(prices).replace( ','  , '' )
prices = str(prices).replace('원','')
prices = str(prices).replace(' ', ', ')
print(prices)

['16200', '23400', '29000', '30150', '35000', '30600', '20700', '13500', '17820', '15300', '5400', '28000', '49500', '28800', '31500']


In [450]:

print(authors)

['윤인성, ', '박해선, ', '강문식, ', '김학렬(빠숑), ', '스티븐, H., 프리드버그, , 아놀드, J., 인셀, , 로렌스, E., 스펜스, ', '나동빈, ', '김덕영, , 심수진, , 윤성우, , 이수정, , 정지원, ', '문지애, ', '강대준, , 신홍철, ', '김태연(제주레이), , 양정임(제주규리), ', '한빛학습연구회, ', '조성호, ', '오렐리앙, 제롱(Aurélien, Géron), ', '김황후, ', '마틴, 파울러, ']


In [None]:
authors = str(authors).replace(',', '')
print(authors)

In [408]:
print(titles)
print(authors)
print(prices)
print(thumbs)


['혼자 공부하는 파이썬', '혼자 공부하는 머신러닝+딥러닝', 'IT CookBook, 초연결 사회의 데이터통신과 네트워킹', '대한민국 부동산 미래지도', '프리드버그 선형대수학', '이것이 취업을 위한 코딩 테스트다 with 파이썬', '맛있는 디자인 프리미어 프로&애프터 이펙트 CC 2021', '고개를 끄덕이는 것만으로도 위로가 되니까', '지금 당장 회계공부 시작하라(전면개정판)', '리얼 제주 [2021~2022년 최신판]', '재미있고 빠른 첫 한글 준비 선 긋기 2권 : 글자 모양 따라 긋기', 'IT CookBook, 쉽게 배우는 운영체제', '핸즈온 머신러닝(2판)', '파이썬 증권 데이터 분석', '리팩터링 2판 (리팩토링 개정판)']
['윤인성, ', '박해선, ', '강문식, ', '김학렬(빠숑), ', '스티븐, H., 프리드버그, , 아놀드, J., 인셀, , 로렌스, E., 스펜스, ', '나동빈, ', '김덕영, , 심수진, , 윤성우, , 이수정, , 정지원, ', '문지애, ', '강대준, , 신홍철, ', '김태연(제주레이), , 양정임(제주규리), ', '한빛학습연구회, ', '조성호, ', '오렐리앙, 제롱(Aurélien, Géron), ', '김황후, ', '마틴, 파울러, ']
['16200', '23400', '29000', '30150', '35000', '30600', '20700', '13500', '17820', '15300', '5400', '28000', '49500', '28800', '31500']
['/data/books/B2587075793_m.jpg', '/data/books/B2002963743_m.jpg', '/data/books/B4295361584_m.jpg', '/data/books/B6068039583_m.jpg', '/data/books/B1710834745_m.jpg', '/data/books/B8945183661_m.jpg', '/data/books/B6988001706_m.j

### 추출한 데이터들을 csv 형식 재작성
+ 혼자 공부하는 파이썬, 윤인성, 16200

In [301]:
for i in range(len(titles)):
    print(f'"{titles[i]}":, "{authors[i]}", "{prices[i]}", "{thumbs[i]}\n') # 따옴표 때문에 ""를 붙일 것

"혼자 공부하는 파이썬":, "윤인성 ", "16,200원", "/data/books/B2587075793_m.jpg

"혼자 공부하는 머신러닝+딥러닝":, "박해선 ", "23,400원", "/data/books/B2002963743_m.jpg

"IT CookBook, 초연결 사회의 데이터통신과 네트워킹":, "강문식 ", "29,000원", "/data/books/B4295361584_m.jpg

"대한민국 부동산 미래지도":, "김학렬(빠숑) ", "30,150원", "/data/books/B6068039583_m.jpg

"프리드버그 선형대수학":, "스티븐 H. 프리드버그 , 아놀드 J. 인셀 , 로렌스 E. 스펜스 ", "35,000원", "/data/books/B1710834745_m.jpg

"이것이 취업을 위한 코딩 테스트다 with 파이썬":, "나동빈 ", "30,600원", "/data/books/B8945183661_m.jpg

"맛있는 디자인 프리미어 프로&애프터 이펙트 CC 2021":, "김덕영 , 심수진 , 윤성우 , 이수정 , 정지원 ", "20,700원", "/data/books/B6988001706_m.jpg

"고개를 끄덕이는 것만으로도 위로가 되니까":, "문지애 ", "13,500원", "/data/books/B6779771167_m.jpg

"지금 당장 회계공부 시작하라(전면개정판)":, "강대준 , 신홍철 ", "17,820원", "/data/books/B9332880793_m.jpg

"리얼 제주 [2021~2022년 최신판]":, "김태연(제주레이) , 양정임(제주규리) ", "15,300원", "/data/books/B7051031564_m.jpg

"재미있고 빠른 첫 한글 준비 선 긋기 2권 : 글자 모양 따라 긋기":, "한빛학습연구회 ", "5,400원", "/data/books/B3024570365_m.jpg

"IT CookBook, 쉽게 배우는 운영체제":, "조성호 ", "28,000원", "/d

In [197]:
prices

"['16200' '23400' '29000' '30150' '35000' '30600' '20700' '13500' '17820' '15300' '5400' '28000' '49500' '28800' '31500']"

In [305]:
data = ''

In [306]:
 
    
for i in range(len(titles)):
    data += f'"{titles[i]}":, "{authors[i]}", "{prices[i]}", "{thumbs[i]}\n'

In [307]:
print(data)

"혼자 공부하는 파이썬":, "윤인성 ", "16,200원", "/data/books/B2587075793_m.jpg
"혼자 공부하는 머신러닝+딥러닝":, "박해선 ", "23,400원", "/data/books/B2002963743_m.jpg
"IT CookBook, 초연결 사회의 데이터통신과 네트워킹":, "강문식 ", "29,000원", "/data/books/B4295361584_m.jpg
"대한민국 부동산 미래지도":, "김학렬(빠숑) ", "30,150원", "/data/books/B6068039583_m.jpg
"프리드버그 선형대수학":, "스티븐 H. 프리드버그 , 아놀드 J. 인셀 , 로렌스 E. 스펜스 ", "35,000원", "/data/books/B1710834745_m.jpg
"이것이 취업을 위한 코딩 테스트다 with 파이썬":, "나동빈 ", "30,600원", "/data/books/B8945183661_m.jpg
"맛있는 디자인 프리미어 프로&애프터 이펙트 CC 2021":, "김덕영 , 심수진 , 윤성우 , 이수정 , 정지원 ", "20,700원", "/data/books/B6988001706_m.jpg
"고개를 끄덕이는 것만으로도 위로가 되니까":, "문지애 ", "13,500원", "/data/books/B6779771167_m.jpg
"지금 당장 회계공부 시작하라(전면개정판)":, "강대준 , 신홍철 ", "17,820원", "/data/books/B9332880793_m.jpg
"리얼 제주 [2021~2022년 최신판]":, "김태연(제주레이) , 양정임(제주규리) ", "15,300원", "/data/books/B7051031564_m.jpg
"재미있고 빠른 첫 한글 준비 선 긋기 2권 : 글자 모양 따라 긋기":, "한빛학습연구회 ", "5,400원", "/data/books/B3024570365_m.jpg
"IT CookBook, 쉽게 배우는 운영체제":, "조성호 ", "28,000원", "/data/books/B

In [308]:
hdr = 'title,author,price,thumb\n'

In [309]:
with open('books.csv', 'w') as f:
    f.write(hdr)
    f.write(data)

### 한빛미디어 홈페이지의 '새로나온책' 페이지 도서정보(이미지,도서명, 저자, 가격) 수집
+ 1~3페이지의 도서를 대상으로 추출

In [None]:
url2 = 'https://www.hanbit.co.kr/store/books/new_book_list.html'

In [None]:
res = requests.get(url)

### 전체도서목록(브랜드, 도서명, 저자, 발행일, 가격)

In [209]:
url3 = 'https://www.hanbit.co.kr/store/books/full_book_list.html'

In [210]:
res3 = requests.get(url3)

In [211]:
print(res3.status_code, res.encoding, res.headers['content-type'])

200 UTF-8 text/html; charset=UTF-8


In [212]:
html3 = res3.text

In [213]:
root3 = lxml.html.fromstring(html3)

In [272]:
brands2 = []
titles2 = []
writers2 = []
pubdates2 = []
prices2 = []

#### 모든 td 태그 중 첫번째 td 태그를 선택함

In [273]:
# for brand in root3.cssselect('td.brd_m'):
for brand in root3.cssselect('table.tbl_type_list td:first_child'):
    # print(brand.text_content())
    brands2.append(brand.text_content())

#### 동일한 css 선택자가 있을 경우 요소 이름보다는 요소 위치를 사용

In [274]:
for title in root3.cssselect('td.left a'):
    # print(title.text_content())
    titles2.append(title.text_content())

In [275]:
for writer in root3.cssselect('table.tbl_type_list td:nth_child(3)'):
    # print(writer.text_content())
    writers2.append(writer.text_content())

In [276]:
for pubdate in root3.cssselect('table.tbl_type_list td:nth_child(4)'):
    # print(pubdate.text_content())
    pubdates2.append(pubdate.text_content())

In [277]:
for price in root3.cssselect('table.tbl_type_list td.right'):
# for price in root3.cssselect('table.tbl_type_list td:last-child'):
    # print(price.text_content())
    prices2.append(price.text_content())

In [None]:
prices2

### 네이버 검색예제
+ search.naver.com/search.naver?query=검색어
+ 검색결과 데이터 추출
+ 질의문자열 querystring을 이용하여 검색, 추출

In [316]:
query = 'html5'   # 검색어

In [315]:
url4 = 'https://search.naver.com/search.naver'

In [314]:
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'}

In [317]:
params = {'query' : query} 

In [322]:
res4 = requests.get(url4, headers=headers, params=params)

In [323]:
html4 = res4.text

In [325]:
html4[:500]

'<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="html5 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'html5\'의 네이버 통합검색 결과입니다."> <meta name="descri'

In [327]:
root4 = lxml.html.fromstring(html4)

In [326]:
titles4 = []
links4 = []

In [338]:
for web in root4.cssselect('panel-list a.api_txt_lines'):
    print(web.text_content())
    print(web.get('href'))
    # titles2.append(title.text_content())

Html5 구조 | 기초부터 디자인까지 셀프코딩#2
https://blog.naver.com/call_1994/222253172378
HTML5 + CSS + JS 스터디 시작
https://blog.naver.com/sorang226/222278039447
[HTML] 211011 HTML5
https://blog.naver.com/blogubo/222540152084
HTML5 웹 표준 단말 시스템 “W-ebTop(웹탑)” 이젠 선택이 아닌 필수
https://blog.naver.com/inswavemk/222528821695
앱 플랫폼에서 사용자가 떠나지 못하는 이유 'HTML5 게임'
https://post.naver.com/viewer/postView.naver?volumeNo=32437712&memberNo=15460786&vType=VERTICAL
html5 로딩 속도
https://cafe.naver.com/hacosa/295274
웹 제작의 뼈대! HTML5 한 번에 끝내기_경기도 지식 GSEEK
https://blog.naver.com/gseekcampus/222025837061
Html5 css3 코딩 프로토타입 결국은 아이디어 디자인인가...놀라운 css 컴퓨터의세계
https://blog.naver.com/benya_ispin/222223152470


In [339]:
for brain in root4.cssselect('a.question_text'):
    print(brain.text_content())
    print(brain.get('href'))
    # brands2.append(brand.text_content())

CSS,HTML 과 CSS3,HTML5의 차이점이 뭔가요? (간단히 요약해주세요!)
https://kin.naver.com/qna/detail.naver?d1id=1&dirId=1040205&docId=379944783&qb=aHRtbDU=&enc=utf8&section=kin.ext&rank=1&search_sort=0&spq=0
html5 css3 인강 추천 좀 html5css3공부하려구요 웹페이지 만들어보려는데 책은 어려워서요 단기간 준비할 수 있는 곳으로 추천좀요
https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10501&docId=384782269&qb=aHRtbDU=&enc=utf8&section=kin.ext&rank=2&search_sort=0&spq=0
HTML5 table 관련 질문 HTML5로 다음과 같이 표를 넣고 싶은데 어떻게 하면 될까요?
https://kin.naver.com/qna/detail.naver?d1id=1&dirId=1040205&docId=372443019&qb=aHRtbDU=&enc=utf8&section=kin.ext&rank=3&search_sort=0&spq=0


In [340]:
for wiki in root4.cssselect('a.link_tit'):
    print(wiki.text_content())
    print(wiki.get('href'))
                            

 HTML5 - 나무위키 
https://namu.wiki/w/HTML5
 HTML5test - How well does your browser support HTML5? 
https://html5test.com/
 W3C HTML 
https://www.w3.org/html/
 Web Hypertext Application Technology Working Group (WHATWG) 
https://whatwg.org/


In [341]:
for book in root4.cssselect('a.title_area'):
    print(book.text_content())
    print(book.get('href'))

 Do it! HTML5+CSS3 웹 표준의 정석 
https://book.naver.com/bookdb/book_detail.nhn?bid=15975063
 Do it! HTML5+CSS3 웹 표준의 정석 
https://book.naver.com/bookdb/book_detail.nhn?bid=11472743
 명품 HTML5 + CSS3 + Javascript 웹 프로그래밍 
https://book.naver.com/bookdb/book_detail.nhn?bid=11575805
 HTML5 웹 프로그래밍 입문 
https://book.naver.com/bookdb/book_detail.nhn?bid=15257762
 HTML5 + CSS3 + JavaScript로 배우는 웹프로그래밍 기초 (기초부터 모바일웹까지 빠르고 쉽게 배우는 웹개발 지침서) 
https://book.naver.com/bookdb/book_detail.nhn?bid=7394492
 HTML5 독학백서 
https://book.naver.com/bookdb/book_detail.nhn?bid=21156785
 모던 웹을 위한 HTML5+CSS3 바이블 (웹 표준을 적용한 480개의 코드로 배우는 웹 페이지 제작의 모든 것) 
https://book.naver.com/bookdb/book_detail.nhn?bid=14840760
 Hello Coding HTML5+CSS3 (워드보다 쉬운 웹사이트 만들기) 
https://book.naver.com/bookdb/book_detail.nhn?bid=13330412
 모두의 HTML5 & CSS3 (16일 만에 배우는 웹 사이트 제작 기초) 
https://book.naver.com/bookdb/book_detail.nhn?bid=13953882
 쉽게 배우는 HTML5 웹 프로그래밍 입문 (차별 없는 인터넷 환경 구현하기) 
https://book.naver.com/bookdb/book_detail.nhn?bid=11020352
 HTM

#### jtbc 뉴스 사이트에서 npic, title, preivew, ntype 크롤링해서 jtbcnews 테이블에 저장

In [44]:
url5 = 'https://news.jtbc.joins.com/section/list.aspx'

In [28]:
params5 = {'pdate':'20201022'}

In [29]:
res5 = requests.get(url5, params=params5)

In [17]:
print(res5.status_code, res5.encoding, res5.headers['content-type'])

200 utf-8 text/html; charset=utf-8


In [30]:
html5 = res5.text

In [31]:
root5 = lxml.html.fromstring(html5)

In [32]:
npic5 = []
title5 = []
preview5 = []
ntype5 = []

In [33]:
for npic in root5.cssselect('dd.photo img'):
    # print(npic.get('src'))
    npic5.append(npic.get('src'))

In [34]:
for title in root5.cssselect('dt.title_cr a'):
    # print(title.text_content())
    title5.append(title.text_content())

In [35]:
for preview in root5.cssselect('dd.read_cr a'):
    # print(preview.text_content())
    preview5.append(preview.text_content())

In [36]:
import re

In [37]:
for ntype in root5.cssselect('span.location'):
    #print(ntype.text_content())
    ntype = re.sub('\t|\r\n| ', '', ntype.text_content())
    ntype = re.sub('\[JTBC>|\]', '', ntype)
    ntype5.append(ntype)

In [455]:
print(ntype5)
print(npic5)
print(

['사회', '사회', '정치', '날씨', '스포츠', '스포츠', '사회', '사회', '정치', '사회', '사회', '사회', '정치', '사회', '정치']
['https://photo.jtbc.joins.com/news/2020/10/22/202010222242142756_LC.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/22/202010222217403478_LC.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/22/202010222102401754_LC.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/22/202010222120070095_LC.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/22/202010220930056459.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/22/202010220927336004.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/22/202010222114196734_LC.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/22/202010222113384343_LC.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/22/202010222108560614_LC.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/26/202010261603123770_LC.jpg.tn350.jpg', 'https://photo.jtbc.joins.com/news/2020/10/22/202010222110571415_LC.jpg.

In [45]:
for i in range(len(title5)):
    rows = f'{i} {title5[i]} {preview5[i]} {ntype5[i]} {npic5[i]}\n'
    print(rows)

0 건설 폐기물 파묻은 땅에서 벼농사…'브랜드 쌀'로 판매  [앵커]경기도 일부 지역에서 '건설 폐기물'이 섞인 논에서 자란 벼를 브랜드 쌀로 포장해 팔고 있습니다. 저희 취재진이 다섯 달 동안 현장을 추적했는데요. 업체들이 처리 비용을 아끼려고 논에다 폐기물을 퍼부었... 사회 https://photo.jtbc.joins.com/news/2020/10/22/202010222242142756_LC.jpg.tn350.jpg

1 [단독] '술접대' 지목 유흥업소…"김봉현과 검사들 왔었다"  [앵커]오늘(22일) 국정감사에선 김봉현 전 회장이 주장한 '검사 술접대 의혹'도 쟁점이 됐습니다. 아직 그 진위는 확인되지 않고 있는데, 일단 당사자 측은 강하게 반박하고 있습니다. 저희 법조팀이 그 유흥업소를... 사회 https://photo.jtbc.joins.com/news/2020/10/22/202010222217403478_LC.jpg.tn350.jpg

2 [원보가중계] 국감 중에 이러시면…강훈식, 또 게임하다 딱 걸려  좋은 밤, 좋은 뉴스 < 원보가중계 > 시작합니다.첫 번째 소식입니다.앞서 대검찰청 국정감사 리포트에서 미처 다루지 못한 소식이 있어서 준비했습니다.열린민주당 김진애 의원, 윤석열 검찰총장 상대로 부인의 재... 정치 https://photo.jtbc.joins.com/news/2020/10/22/202010222102401754_LC.jpg.tn350.jpg

3 [날씨박사] 먼지에 한파까지…23일 아침은 더 춥다  [앵커]날씨박사 시간입니다. 기상학 박사, 김세현 기상전문기자가 나와 있습니다.김세현 기자, 오늘(22일) 황사 때문에 전국 곳곳에 미세먼지 주의보가 내려졌고, 지금도 내려진 곳이 있다고 하는데, 오늘 밤엔 한... 날씨 https://photo.jtbc.joins.com/news/2020/10/22/202010222120070095_LC.jpg.tn350.jpg

4 둥근 공의 '심술'…챔피언스리그 흔드는 '자책골' [앵커]축구

In [461]:
print(len(title5), len(preview5), len(ntype5), len(npic5))

15 15 15 15


In [27]:
hdr = 'title, preivew, ntype, npic\n'

In [None]:
with open('reports.csv', 'w') as f:
    f.write(hdr)
    f.write(data)

In [3]:
pip install pymysql

Defaulting to user installation because normal site-packages is not writeable
Collecting pymysql
  Downloading PyMySQL-1.0.2-py3-none-any.whl (43 kB)
[K     |████████████████████████████████| 43 kB 1.1 MB/s eta 0:00:011
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.0.2
Note: you may need to restart the kernel to use updated packages.


In [4]:
import pymysql

In [15]:
url = 'bigdata.cwarwltabyk2.ap-northeast-2.rds.amazonaws.com'
uid = 'admin'
pwd = 'bigdata2020'
db = 'bigdata'
charset = 'utf8'

In [73]:
sql = 'insert into jtbcnews\
        (title,preivew,ntype,npic) values (%s,%s,%s,%s)'

In [74]:
conn = pymysql.connect(host=url, user=uid, password=pwd, db=db, charset=charset)

In [75]:
cursor = conn.cursor()

In [76]:
for i in range(len(title5)):
    params = (title5[i],preview5[i],ntype5[i],npic5[i])
    cursor.execute(sql, params)
    conn.commit()

cursor.close()
conn.close()

In [47]:
url6 = 'https://movie.daum.net/main'

In [57]:
res6 = requests.get(url6)

In [49]:
print(res6.status_code, res6.encoding, res6.headers['content-type'])

200 UTF-8 text/html;charset=UTF-8


In [58]:
html6 = res6.text

In [59]:
root6 = lxml.html.fromstring(html6)

In [52]:
title6 = []
point6 = []
pre = []


#### 코드로 내용이 고정된 정적 사이트와 달리 브라우저 내에서 실행이 되어야 보이는 동적 사이트가 있음
+ 검사로 보이는 코드와 소스코드가 다름(동적 변경)
+ selenium 필요