## 크롤링crawling
    - 웹 상에 존재하는 다양한 컨텐츠를 수집하는 행위
    - html 문서를 통채로 읽어서 내용을 분석한뒤
    - 필요한 데이터만 골라서 추출하는 것이 주된 작업

## 파이썬으로 크롤링하기
 * urllib/urllib2 : 사용하기 무난, 코드 단순, 내장 패키지
 * requests : 따로 설치, urllib 보다 고급기능 제공 
 * lxml : 웹을 통해 읽어 들인 문서 내용 분석
          문서내에서 필요한 데이터를 추출하는데 사용

In [2]:
!pip install requests
!pip install lxml
!pip install cssselect



In [3]:
import requests 
import lxml.html
from lxml.cssselect import CSSSelector

In [4]:
# 한빛 미디어 홈페이지의 베스트셀러 페이지의 도서정보(이미지정보, 도서명, 저자, 가격)를 수집하세요

In [5]:
url = 'https://www.hanbit.co.kr/store/books/bestseller_list.html'

In [6]:
# 지정한 url의 문서를 읽어옴 : get(주소,옵션)
res = requests.get(url)

In [7]:
# requests 패키지 실행후 유용한 변수로 결과 확인
# http 응답코드, 응답으로 받은 컨텐츠의 인코딩 및 컨텐츠 유형 확인
print(res.status_code, res.encoding, res.headers['content-type'])

200 UTF-8 text/html; charset=UTF-8


In [8]:
# 응답으로 받은 컨텐츠 확인 : text, content
res.text[:500]

'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>한빛출판네트워크</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="한빛출판네트워크"/>\r\n<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위'

In [9]:
res.content[:500]

b'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac"/>\r\n<meta property="og:descripti'

In [10]:
# 스크래핑한 결과를 분석해서 필요한 데이터를 추출하기 위해 따로 변수로 저장
html = res.text

In [11]:
# html 문서에 저장된 문서내 요소들을 탐색하기 편하도록 계층구조로 생성
root = lxml.html.fromstring(html)

In [12]:
# 추출한 제목을 저장하기 위해 리스트 선언
#titles = []
#authors = []
#prices = []
#thumbs = []

In [13]:
#모든 p 태그들 중에서 클래스 명이 book-tit인 p태그들을 선언
titles = []

for title in root.cssselect('p.book_tit a'):
    #print(titles.text_content())
    titles.append(title.text_content())

In [14]:
authors = []

for author in root.cssselect('p.book_writer'):
    authors.append(author.text_content())

In [15]:
prices = []

for price in root.cssselect('span.price'):
    prices.append(price.text_content())

In [16]:
thumbs = []

for thumb in root.cssselect('img.thumb'):
    thumbs.append(' https://www.hanbit.co.kr' + thumb.get('src'))
thumbs

[' https://www.hanbit.co.kr/data/books/B2002963743_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B8635373198_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B8582604063_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B3943456030_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B7123382765_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B8196132630_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B8953951220_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B2272461464_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B3530910256_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B7448405310_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B9960200234_m.jpg',
 ' https://www.hanbit.co.kr/data/ebook/E1054933296_m.jpg',
 ' https://www.hanbit.co.kr/data/ebook/E6015792502_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B2587075793_m.jpg',
 ' https://www.hanbit.co.kr/data/books/B8945183661_m.jpg']

In [17]:
# 추출한 데이터들을 csv 형식으로 재작성
# 혼자 공부하는 파이썬, 윤인성, 16,200(,제거) 로 csv작성

In [18]:
data = ''
hdr = 'title,author,price,thumb \n'
data += hdr

for i in range(len(prices)):
    print(f'"{titles[i]}", "{authors[i]}", "{prices[i]}", {thumbs[i]} \n')
    data += f'"{titles[i]}", "{authors[i]}", "{prices[i]}", {thumbs[i]} \n'

    

"혼자 공부하는 머신러닝+딥러닝", "박해선 ", "23,400원",  https://www.hanbit.co.kr/data/books/B2002963743_m.jpg 

"회사에서 바로 통하는 실무 엑셀+파워포인트+워드&한글", "전미진 , 이화진 , 신면철 ", "19,800원",  https://www.hanbit.co.kr/data/books/B8635373198_m.jpg 

"IT CookBook, 데이터베이스 개론(2판)", "김연희 ", "27,000원",  https://www.hanbit.co.kr/data/books/B8582604063_m.jpg 

"IT CookBook, 시스템 프로그래밍: 리눅스&유닉스", "이종원 ", "28,000원",  https://www.hanbit.co.kr/data/books/B3943456030_m.jpg 

"눈 떠보니 선진국", "박태웅 ", "14,850원",  https://www.hanbit.co.kr/data/books/B7123382765_m.jpg 

"미라클 모닝", "할 엘로드 ", "10,800원",  https://www.hanbit.co.kr/data/books/B8196132630_m.jpg 

"심리 읽어드립니다", "김경일 , 사피엔스 스튜디오 ", "15,750원",  https://www.hanbit.co.kr/data/books/B8953951220_m.jpg 

"나도 손글씨 바르게 쓰면 소원이 없겠네", "유한빈(펜크래프트) ", "10,800원",  https://www.hanbit.co.kr/data/books/B2272461464_m.jpg 

"리얼 국내여행 [2021~2022년 최신판]", "배나영 ", "16,200원",  https://www.hanbit.co.kr/data/books/B3530910256_m.jpg 

"재미있고 빠른 첫 한글 쓰기 1권 : 모음∙자음∙쉬운 낱말", "한빛학습연구회 ", "5,850원",  https://www.hanbi

In [19]:
import pandas as pd

In [20]:
#추출한 데이터들을 csv 파일로 저장
with open('books.csv', 'w',encoding='UTF-8') as f:
    #f.write(hdr)
    f.write(data)

In [21]:
#새로나온 홈페이지의 '새로나온 책' 페이지의 도서정보(이미지,도서명,저자,가격)를 수집하세요
# 단 1~3페이지 까지의 도서들을 대상으로 수집

In [22]:
# 한빛미디어 홈페이지의 '전체도서목록' 페이지의 도서정보(브랜드,도서명,저자,발행일,가격)를 수집하세요

In [23]:
url = 'https://www.hanbit.co.kr/store/books/full_book_list.html?page=1&srt=p_pub_date&brand='

In [24]:
res = requests.get(url)

In [25]:
html = res.text

In [26]:
root = lxml.html.fromstring(html)

In [27]:
brands = []

#css 선택자가 요소마다 다름
# 이런경우 이름을 요소를 선택하는 것 보다는 요소의 위치를 선택자로 사용해서 요소를 선택하는 것이 좋음
for brand in root.cssselect('table.tbl_type_list td:first_child'):
    print(brand.text_content())
    brands.append(brand.text_content())

한빛비즈
한빛미디어
한빛에듀
한빛에듀
한빛에듀
한빛미디어
한빛미디어
한빛미디어
한빛미디어
한빛아카데미
한빛에듀
한빛미디어
한빛아카데미
한빛미디어
한빛미디어
한빛미디어
한빛비즈
한빛아카데미
한빛에듀
한빛에듀
한빛라이프
한빛비즈
한빛미디어
한빛미디어
한빛미디어
한빛미디어
한빛미디어
한빛라이프
한빛비즈
한빛아카데미
한빛미디어
한빛비즈
한빛미디어
한빛아카데미
한빛미디어
한빛미디어
한빛비즈
한빛아카데미
한빛비즈
한빛아카데미
한빛에듀
한빛에듀
한빛에듀
한빛미디어
한빛미디어
한빛라이프
한빛비즈
한빛아카데미
한빛아카데미
한빛아카데미


In [28]:
titles = []

for title in root.cssselect('td.left a'):
    print(title.text_content())
    titles.append(title.text_content())

비겁한 돈
구글 BERT의 정석
1000개 숨은그림찾기 보물찾기 : 찾아도 찾아도 끝판왕
1000개 숨은그림찾기 탈것 : 찾아도 찾아도 끝판왕
1000개 숨은그림찾기 몬스터 : 찾아도 찾아도 끝판왕
머신러닝 디자인 패턴
소프트웨어 아키텍처 101
혼자 공부하는 SQL
UX/UI 디자이너를 위한 실무 피그마
IT CookBook, 그림으로 배우고 실생활 예제로 실습하는 자바를 부탁해
똑똑한 두뇌 연습 : 놀이공원 미로찾기
한 권으로 다지는 머신러닝&딥러닝 with 파이썬
IT CookBook, 시스템 프로그래밍: 리눅스&유닉스
살아 움직이는 머신러닝 파이프라인 설계
시험장에 몰래 가져갈  이경오의 SQL+SQLD 비밀노트
그로킹 심층 강화학습
심리 읽어드립니다
한번에 적용하는 분석
1000개 숨은그림찾기 바다 동물
1000개 숨은그림찾기 아이스크림
탐험! 숲체험 생물 도감
깍두기 가계부 2022
제대로 배우는 수학적 최적화
미국 주식으로 시작하는 슬기로운 퀀트투자
1년에 5,000만 원 버는 수익 확장 노하우 네이버 블로그로 돈 벌기
디자인 1등 유튜버 존코바의 클릭을 유도하는 유튜브 디자인 with 포토샵
핸즈온 해킹
정리 잘하는 사람은 이렇게 합니다
두 발로 선 경제
인공지능 논리 입문
머신러닝 파워드 애플리케이션
유튜브 마케팅 인사이트
웹 브라우저 속 머신러닝 TensorFlow.js
IT CookBook, 처음 만나는 전기기기(2판)
모바일 UX/UI 디자인 강의 with Adobe XD
처음 배우는 플라스크 웹 프로그래밍
인문학 거저보기 : 서양철학 편
IT CookBook, 현대 센서공학(5판)
방구석 심리학 실험실
IT CookBook, 모바일 웹 서비스 구현을 위한 JSP 웹 프로그래밍
혼자서도 척척 접는 종이접기
혼자서도 척척 접는 종이접기 플러스
혼자서도 척척 접는 종이접기 2권 세트
스파크를 이용한 자연어 처리
클라우드 네이티브를 위한 데이터 센터 네트워크 구축
어른을 위한 두뇌 놀이 책
감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장

In [29]:
writers = []

for writer in root.cssselect('td:nth-child(3)'):
    print(writer.text_content())
    writers.append(writer.text_content())

황현희 외 1명  
수다르산 라비찬디란   
전진희   
이한이   
김확실   
발리아파 락슈마난 외 2명  
마크 리처즈 외 1명  
우재남   
클레어 정   
박세홍(홍팍)   
권나영   
알베르토 아르타산체스 외 1명  
이종원   
하네스 하프케 외 1명  
이경오   
미겔 모랄레스   
김경일 외 1명  
히든그레이스 데이터분석팀   
이한이   
김확실   
이치니치 잇슈   
쓰담여사   
우메타니 슌지   
김용환 외 1명  
김동석   
존코바(이요한)   
매슈 히키 외 1명  
고메다 마리나   
이용우   
이은정   
에마뉘엘 아메장   
서양수   
카이 사사키   
최은혁 외 1명  
김영삼   
윤정현   
지하늘   
Jacob Fraden   
마이클 A. 브릿   
김현규 외 1명  
신구 후미아키   
신구 후미아키   
신구 후미아키   
앨릭스 토머스   
디네시 G. 더트   
개러스 무어 박사   
황보현우 외 1명  
정용기 외 4명  
현선해 외 2명  
정용기 외 4명  


In [30]:
# 요소에 css 선택자가 없음

pubdates = []

for pubdate in root.cssselect('td:nth-child(4)'):
    print(pubdate.text_content())
    pubdates.append(pubdate.text_content())

2021-11-08
2021-11-03
2021-11-02
2021-11-02
2021-11-02
2021-11-01
2021-11-01
2021-11-01
2021-11-01
2021-10-29
2021-10-28
2021-10-21
2021-10-15
2021-10-11
2021-10-10
2021-10-10
2021-10-08
2021-10-08
2021-10-08
2021-10-08
2021-10-06
2021-10-01
2021-09-30
2021-09-30
2021-09-28
2021-09-27
2021-09-27
2021-09-17
2021-09-10
2021-09-10
2021-09-06
2021-09-03
2021-09-01
2021-08-31
2021-08-30
2021-08-30
2021-08-30
2021-08-27
2021-08-25
2021-08-23
2021-08-23
2021-08-23
2021-08-23
2021-08-20
2021-08-20
2021-08-20
2021-08-16
2021-08-13
2021-08-13
2021-08-13


In [31]:
prices = []

#for price in root.cssselect('td:last-child'):
for price in root.cssselect('td.right'):
    print(price.text_content())
    prices.append(price.text_content())


16,000원
34,000원
8,000원
8,000원
8,000원
38,000원
32,000원
24,000원
24,000원
26,000원
7,500원
40,000원
28,000원
32,000원
32,000원
35,000원
17,500원
24,000원
8,000원
8,000원
13,000원
14,800원
38,000원
32,000원
16,000원
19,800원
45,000원
15,000원
23,000원
22,000원
27,000원
16,500원
25,000원
24,000원
26,000원
19,800원
18,500원
35,000원
18,000원
30,000원
9,800원
9,800원
15,000원
34,000원
36,000원
9,900원
17,800원
7,000원
22,000원
30,000원


In [32]:
# 네이버 검색예제
# search.naver.com/search.naver?query=검색어
# 네이버에 검색어를 입력하고 검색결과에서 데이터 추출
# 질의문자열 querystring을 이용해서 검색하고
# 그 결과에서 필요한 데이터를 추출함

In [33]:
#특정 사이트는 스ㅡㅋ래핑이나 크롤링을 막기위한 방편으로 
# 사이트에 접속하는 사용자의 useragnet를 사용함


In [34]:
query = 'html5'   #검색어
url = 'https://search.naver.com/search.naver'

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}
params = {'query' : query}

res = requests.get(url, headers = headers, params=params)
html = res.text
html[:500]
root = lxml.html.fromstring(html)

In [35]:
# 블로그, 웹사이트, 네이버책, 포스트 등의 제목과 링크 추출
titles = []
links = []



In [36]:
for web in root.cssselect('panel-list a.api_txt_lines'):
    print(web.text_content())
    print(web.get('href'))

HTML5 개요
https://blog.naver.com/jjkwak/222552862141
Html5 구조 | 기초부터 디자인까지 셀프코딩#2
https://blog.naver.com/call_1994/222253172378
HTML5 + CSS + JS 스터디 시작
https://blog.naver.com/sorang226/222278039447
html5 로딩 속도
https://cafe.naver.com/hacosa/295274
HTML5+CSS3 웹 표준의 정석 / 15~92p / 첫째마당 01HTML기본다지기, 02텍스트 관련 태그들
https://blog.naver.com/pso7364/222556936368
앱 플랫폼의 황금알을 낳는 거위, HTML5 게임
http://post.naver.com/viewer/postView.nhn?volumeNo=16776238&memberNo=15460786&vType=VERTICAL
[국비지원/HTML5+CSS] 아주 기본적인 이론 + 깔짝 메모
https://blog.naver.com/dhs510/222554964995


In [37]:
for web in root.cssselect('a.question_text'):
    print(web.text_content())
    print(web.get('href'))

CSS,HTML 과 CSS3,HTML5의 차이점이 뭔가요? (간단히 요약해주세요!)
https://kin.naver.com/qna/detail.naver?d1id=1&dirId=1040205&docId=379944783&qb=aHRtbDU=&enc=utf8&section=kin.ext&rank=1&search_sort=0&spq=0
HTML5 table 관련 질문 HTML5로 다음과 같이 표를 넣고 싶은데 어떻게 하면 될까요?
https://kin.naver.com/qna/detail.naver?d1id=1&dirId=1040205&docId=372443019&qb=aHRtbDU=&enc=utf8&section=kin.ext&rank=2&search_sort=0&spq=0
html5 css3 인강 추천 좀 html5css3공부하려구요 웹페이지 만들어보려는데 책은 어려워서요 단기간 준비할 수 있는 곳으로 추천좀요
https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10501&docId=384782269&qb=aHRtbDU=&enc=utf8&section=kin.ext&rank=3&search_sort=0&spq=0


In [38]:
for web in root.cssselect('a.link_tit'):
    print(web.text_content())
    print(web.get('href'))

 HTML5 - 나무위키 
https://namu.wiki/w/HTML5
 W3C HTML 
https://www.w3.org/html/
 Your browser - HTML5test - How well does your browser support HTML5? 
https://html5test.com/
 Web Hypertext Application Technology Working Group (WHATWG) 
https://whatwg.org/


In [39]:
for web in root.cssselect('a.title_area'):
    print(web.text_content())
    print(web.get('href'))

 Do it! HTML5+CSS3 웹 표준의 정석 
https://book.naver.com/bookdb/book_detail.nhn?bid=15975063
 Do it! HTML5+CSS3 웹 표준의 정석 
https://book.naver.com/bookdb/book_detail.nhn?bid=11472743
 명품 HTML5 + CSS3 + Javascript 웹 프로그래밍 
https://book.naver.com/bookdb/book_detail.nhn?bid=11575805
 HTML5 웹 프로그래밍 입문 
https://book.naver.com/bookdb/book_detail.nhn?bid=15257762
 모던 웹을 위한 HTML5+CSS3 바이블 (웹 표준을 적용한 480개의 코드로 배우는 웹 페이지 제작의 모든 것) 
https://book.naver.com/bookdb/book_detail.nhn?bid=14840760
 HTML5 독학백서 
https://book.naver.com/bookdb/book_detail.nhn?bid=21156785
 HTML5 + CSS3 + JavaScript로 배우는 웹프로그래밍 기초 (기초부터 모바일웹까지 빠르고 쉽게 배우는 웹개발 지침서) 
https://book.naver.com/bookdb/book_detail.nhn?bid=7394492
 Hello Coding HTML5+CSS3 (워드보다 쉬운 웹사이트 만들기) 
https://book.naver.com/bookdb/book_detail.nhn?bid=13330412
 쉽게 배우는 HTML5 웹 프로그래밍 입문 (차별 없는 인터넷 환경 구현하기) 
https://book.naver.com/bookdb/book_detail.nhn?bid=11020352
 모두의 HTML5 & CSS3 (16일 만에 배우는 웹 사이트 제작 기초) 
https://book.naver.com/bookdb/book_detail.nhn?bid=13953882
 HTM

In [40]:
# jtbc 뉴스 사이트에서
# 사진npic, 제목title, 기사미리보기preview, 범주ntype 등을
# 크롤링해서 jtbcbews 테이블에 저장
# 단, 뉴스기사는 2020-10-22일자를 대상으로한다.

In [41]:
url = 'https://news.jtbc.joins.com/section/list.aspx?pdate=20201022'
params = {'pdate' : '20201022'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}

res = requests.get(url, headers = headers, params=params)
html = res.text
root = lxml.html.fromstring(html)

In [42]:
title = []

for i in root.cssselect('dt.title_cr a:first_child'):
    print(i.text_content())
    title.append(i.text_content())
    #print(i.get('href'))

"아이유·김연경…" 2am 새 앨범에 대한 셀럽들의 관심
썩토 충격? '예매율 88.6%' 대망의 '이터널스' 오늘 마블민국 상륙 
김지운 감독 '첫' 드라마·애플TV+ '첫' 韓콘텐트…'Dr. 브레인'(종합)  
[종합] "1550편 출품·2059명 지원" 서울독립영화제2021, 충무로 활기 더한다
'웃음 담보' 라미란·김무열·윤두준 '정직한후보2' 크랭크업  
'축의금 3만원 낸 친구' 눈물의 사연 주인공 밝혀졌다
설훈, 이재명 면전서 "대통령 후보들 고만고만…큰 차이 없어"
서민 '홍어준표' 논란에 홍준표·유승민 "호남 비하 발언"
90억원어치 '밀반입 필로폰' 외국인 노동자에 팔아넘긴 일당 검거
윤석열 "후보 확정 즉시 '반(反) 대장동 게이트 연합' 추진"
[단독] 워너원 재결합 긍정적 타진…"멤버들끼리 연락"
[취재썰] 영화 '보이스'의 모티브, 전직 경찰이 어떻게 김미영이 됐나
서민 '홍어준표' 전라도 비하 논란에 "죽을 죄 지었다"
불안장애라던 공무원, 병가 얻어 한 일은 '스페인 여행'
"콘텐츠로 세상을 잇다" 부산콘텐츠마켓 개막


In [43]:
title

['"아이유·김연경…" 2am 새 앨범에 대한 셀럽들의 관심',
 "썩토 충격? '예매율 88.6%' 대망의 '이터널스' 오늘 마블민국 상륙 ",
 "김지운 감독 '첫' 드라마·애플TV+ '첫' 韓콘텐트…'Dr. 브레인'(종합)  ",
 '[종합] "1550편 출품·2059명 지원" 서울독립영화제2021, 충무로 활기 더한다',
 "'웃음 담보' 라미란·김무열·윤두준 '정직한후보2' 크랭크업  ",
 "'축의금 3만원 낸 친구' 눈물의 사연 주인공 밝혀졌다",
 '설훈, 이재명 면전서 "대통령 후보들 고만고만…큰 차이 없어"',
 '서민 \'홍어준표\' 논란에 홍준표·유승민 "호남 비하 발언"',
 "90억원어치 '밀반입 필로폰' 외국인 노동자에 팔아넘긴 일당 검거",
 '윤석열 "후보 확정 즉시 \'반(反) 대장동 게이트 연합\' 추진"',
 '[단독] 워너원 재결합 긍정적 타진…"멤버들끼리 연락"',
 "[취재썰] 영화 '보이스'의 모티브, 전직 경찰이 어떻게 김미영이 됐나",
 '서민 \'홍어준표\' 전라도 비하 논란에 "죽을 죄 지었다"',
 "불안장애라던 공무원, 병가 얻어 한 일은 '스페인 여행'",
 '"콘텐츠로 세상을 잇다" 부산콘텐츠마켓 개막']

In [44]:
npic = []

for i in root.cssselect('img'):
    #print(i.text_content())
    npic.append(i.get('src'))
    #print(i.get('src'))

In [45]:
preview = []

for i in root.cssselect('dd.read_cr a'):
    print(i.text_content())
    preview.append(i.text_content())
    #print(i.get('href'))

2am2am(조권·이창민·임슬옹·정진운)의 7년 만 완전체 앨범을 향한 관심이 뜨겁다.2am은 지난 1일 새 미니앨범 '발라드 21 가을/겨울(Ballad 21 F/W)'을 발표한 가운데 다방면에서 활약 중인 선...
그래도 '마블'이다. 긴가민가한 사전 반응에도 "일단 내가 보고 판단하겠다"는 예비 관객들의 믿음이 더 크다.마블시네마틱유니버스(MCU)의 새 역사와 시대를 열게 될 영화 '이터널스(클로이 자오 감독)'가 3일 국내...
'Dr. 브레인'의 주역들. 사진=애플TV+이런 드라마는 '처음'이다. 김지운 감독의 첫 드라마이자 애플TV+의 첫 한국 오리지널 콘텐트인 'Dr. 브레인'이 한국 시청자와 만날 준비를 마쳤다.'Dr. 브레인'은 홍작가의 동...
'서울독립영화제2021' 공식 기자회견이 3일 오전 서울 동작구의 아트나인에서 열렸다. | 사진=JTBC엔터뉴스'서울독립영화제2021' 공식 포스터국내 독립영화의 성장과 발전이 새로운 문화 세계를 만들어내고 있다. 한...
새로운 식구들과 더 재미있는 웃음을 담보한다.영화 '정직한 후보2(장유정 감독)'가 지난 달 31일 3개월간의 모든 촬영을 마치고 크랭크업했다.'정직한 후보2'는 지난해 2월 개봉한 '정직한 후보'의 후속작으로, 진...
〈사진-소재원 씨 페이스북〉형편이 어려워 결혼식에서 축의금 3만 원을 내고 간 친구와의 일화를 소개한 글이 온라인에서 화제입니다. 진한 우정이 담긴 이 사연의 주인공이 밝혀졌는데, 영화 '소원'·'터널'...
더불어민주당 이재명 대선 후보가 3일 오전 국회에서 열린 중앙선거대책위원회의를 주재하고 있다. 〈사진=국회사진기자단〉이재명 더불어민주당 대선후보가 오늘(3일) 국회에서 열린 첫 중앙선거대책위원회 회의를 ...
국민의힘 대선 경선에서 윤석열 예비후보를 공개 지지한 서민 전 단국대 교수의 '홍어준표' 표현을 놓고 비판이 이어지고 있습니다. 윤 후보 경쟁자인 홍준표 후보와 호남을 모두 비하했다는 지적입니다. 지난해 11...
          경찰이 압수한 마약. 

In [46]:
preview

["2am2am(조권·이창민·임슬옹·정진운)의 7년 만 완전체 앨범을 향한 관심이 뜨겁다.2am은 지난 1일 새 미니앨범 '발라드 21 가을/겨울(Ballad 21 F/W)'을 발표한 가운데 다방면에서 활약 중인 선...",
 '그래도 \'마블\'이다. 긴가민가한 사전 반응에도 "일단 내가 보고 판단하겠다"는 예비 관객들의 믿음이 더 크다.마블시네마틱유니버스(MCU)의 새 역사와 시대를 열게 될 영화 \'이터널스(클로이 자오 감독)\'가 3일 국내...',
 "'Dr. 브레인'의 주역들. 사진=애플TV+이런 드라마는 '처음'이다. 김지운 감독의 첫 드라마이자 애플TV+의 첫 한국 오리지널 콘텐트인 'Dr. 브레인'이 한국 시청자와 만날 준비를 마쳤다.'Dr. 브레인'은 홍작가의 동...",
 "'서울독립영화제2021' 공식 기자회견이 3일 오전 서울 동작구의 아트나인에서 열렸다. | 사진=JTBC엔터뉴스'서울독립영화제2021' 공식 포스터국내 독립영화의 성장과 발전이 새로운 문화 세계를 만들어내고 있다. 한...",
 "새로운 식구들과 더 재미있는 웃음을 담보한다.영화 '정직한 후보2(장유정 감독)'가 지난 달 31일 3개월간의 모든 촬영을 마치고 크랭크업했다.'정직한 후보2'는 지난해 2월 개봉한 '정직한 후보'의 후속작으로, 진...",
 "〈사진-소재원 씨 페이스북〉형편이 어려워 결혼식에서 축의금 3만 원을 내고 간 친구와의 일화를 소개한 글이 온라인에서 화제입니다. 진한 우정이 담긴 이 사연의 주인공이 밝혀졌는데, 영화 '소원'·'터널'...",
 '더불어민주당 이재명 대선 후보가 3일 오전 국회에서 열린 중앙선거대책위원회의를 주재하고 있다. 〈사진=국회사진기자단〉이재명 더불어민주당 대선후보가 오늘(3일) 국회에서 열린 첫 중앙선거대책위원회 회의를 ...',
 "국민의힘 대선 경선에서 윤석열 예비후보를 공개 지지한 서민 전 단국대 교수의 '홍어준표' 표현을 놓고 비판이 이어지고 있습니다. 윤 후보 경쟁자인 홍준표 후보와 호남을 모두 비하했다는 지적입니다

In [47]:
import re

In [48]:
ntypes = []

for ntype in root.cssselect('span.location'):
    ntype = re.sub('\t|\r|\n|\[JTBC>] | ', '', ntype.text_content())
    ntypes.append(ntype)
    

In [49]:
ntypes

['[JTBC>연예]',
 '[JTBC>연예]',
 '[JTBC>연예]',
 '[JTBC>연예]',
 '[JTBC>연예]',
 '[JTBC>사회]',
 '[JTBC>정치]',
 '[JTBC>정치]',
 '[JTBC>사회]',
 '[JTBC>정치]',
 '[JTBC>연예]',
 '[JTBC>사회]',
 '[JTBC>정치]',
 '[JTBC>사회]',
 '[JTBC>사회]']

In [50]:
print(len(title))
print(len(npic))
print(len(preview))
print(len(ntypes))

15
15
15
15


In [51]:
for i in range(len(ntype)):
    rows = f'{i} {title[i]} {preview[i]} {ntypes[i]} {npic[i]}\n'
print(rows)

8 90억원어치 '밀반입 필로폰' 외국인 노동자에 팔아넘긴 일당 검거           경찰이 압수한 마약. 〈사진=동작경찰서 제공〉        국내 거주하는 외국인 노동자들을 상대로 마약을 판매한 외국인 마약 조직이 경찰에 붙잡혔습니다.           서울동작경찰서는 국제 택배로 필로폰... [JTBC>사회] https://photo.jtbc.joins.com/news/jam_photo/202111/03/c207fed3-33ed-416e-9386-3de3ac975869.jpg.tn350.jpg



In [52]:
#dbeaver실행후 jtbcbews 실행

In [53]:
import pymysql

ModuleNotFoundError: No module named 'pymysql'

In [None]:
url = 'bigdata.cco3x4fycnr3.ap-northeast-2.rds.amazonaws.com'
uid = 'admin'
pwd = 'bigdata2020'
db = 'BigData'
charset = 'utf8'


In [None]:
conn = pymysql.connect(host=url, user=uid, password=pwd, db = db, charset=charset)
cursor = conn.cursor()

In [None]:
for i in range(len(titles)):
    params = (title[i], preview[i], ntypes[i], npic[i])
    cursor.excute(sql, params)
    conn.commit()

cursor.close()
conn.close()

In [None]:
#daum.net에서 영화제목, 평점, 예매율을 추출

In [None]:
url = 'https://movie.daum.net/ranking/reservation'
#params = {'pdate' : '20201022'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}

res = requests.get(url, headers = headers) #params=params)
html = res.text
root = lxml.html.fromstring(html)

In [None]:
titles = []

for i in root.cssselect('a.link_txt'):
    print(i.text_content())
    titles.append(i.text_content())
    #print(i.get('href'))

듄
베놈 2: 렛 데어 비 카니지
라스트 듀얼: 최후의 결투
고장난 론
007 노 타임 투 다이
스틸워터
첫눈이 사라졌다
노회찬6411
한창나이 선녀님
타다: 대한민국 스타트업의 초상
보이스
휴가
수색자
기적
색다른 그녀
아버지의 길
당신얼굴 앞에서
고양이를 부탁해
극장판 포켓몬스터: 정글의 아이, 코코
극장판 짱구는 못말려: 격돌! 낙서왕국과 얼추 네 명의 용사들
홈
랭킹
상영예정작
콘텐츠


In [None]:
scores = []

for i in root.cssselect('span.txt_grade'):
    print(i.text_content())
    scores.append(i.text_content())
    #print(i.get('span'))

7.4
6.1
9.0
10.0
5.9
6.4
6.7
8.9
10.0
9.6
8.4
10.0
7.8
8.8
4.0
9.0
8.9
8.1
8.2
8.0


In [None]:
re_rates = []

for i in root.cssselect('span.txt_num:last_child'):
    print(i.text_content())
    #print(i.get())
    #re_rates.append(i.text_content())

40.6%
21.10.20
26.0%
21.10.13
2.6%
21.10.20
2.4%
21.10.27
1.6%
21.09.29
1.3%
21.10.06
1.0%
21.10.20
0.8%
21.10.14
0.8%
21.10.20
0.7%
21.10.14
0.6%
21.09.15
0.6%
21.10.21
0.6%
21.09.29
0.4%
21.09.15
0.4%
21.10.14
0.3%
21.09.30
0.2%
21.10.21
0.2%
21.10.13
0.2%
21.09.15
0.2%
21.09.15


In [None]:
re_rates

[]