## 웹스크래핑와 웹크롤링

> 웹스크래핑 : 특정 웹 사이트 또는 페이지에서 특정 정보를 추출

> 웹크롤링 : 정해진 규칙에 따라 다수의 웹페이지를 브라우징하고 주소 및 웹페이지를 복사


### requents 패키지

> 원하는 사이트의 정보를 가져오기 사용하는 패키지 


In [1]:
# request 패키지 설치
!pip install requests



### HTML이란?

> 하이퍼텍스트 마크업 언어(HyperText Markup Language, HTML)

> 웹 페이지를 작성을 위한 마크업 언어

> HTML은 제목, 단락, 목록 등과 같은 본문을 위한 구조를 설정하고, 링크, 인용과 그 밖의 항목으로 구조적 문서를 만들 수 있는 방법을 제공

### html 형식
> 아래의 예제에서 html, body, h1, div 태그와 class 속성이 사용됨

#### <html>
    <html>
    <body> 
        <h1>원피스</h1>
        <div class="item"> 
            <span class="brand">iQON</span> 
            <span class="regular_price">12,000원</span> 
            <span class="sale_price">10,000원</span> 
        </div> 
    </body> 
    </html>
</html>
    
![html](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FpcOVT%2FbtqTp2LUMrC%2FGFt5B4ujOSgYWYK9JOdGG1%2Fimg.png "HTML 형식")



### XPath란?

> XPath(XML Path Language) : XML속의 요소, 속성 등을 지정하기 위한 언어

> XML (eXtensible Markup Language) 문서 : XML은 데이터 저장과 전송을 목적으로 만들어진 마크업 언어 

> HTML도 일종의 XML (단, XML은 HTML과 달리 미리 정의된 태그가 없음(no pre-defined tags))


### 웹페이지 소스 코드 접근
> F12 

### XPath copy
> 마우스 오른쪽 copy > copy XPath

 

### 1. request 기본 문법

In [2]:
import requests

# 특정주소로 GET 요청(request)를 보냈고 
# 서버에서는 그 요청을 받아 뭔가를 처리한 후 요청자에게 응답(response)함, 
# 응답이 200 상태코드이면 정상

res = requests.get("http://google.com") # 구글 서버에 요청한 반응을 res에 저장함
print("응답코드 :", res.status_code) # 200이면 정상

# 응답이 200 상태코드가 아닌 경우 에러 발생
res.raise_for_status() # 응답이 200이면 실행되고, 200이 아니면 실행되지 않음.

응답코드 : 200


### 2. User-agent
> 웹크롤링 로봇이 아닌 데스크톱에서 직접 진행하는 것처럼 인지하도록 함

> 웹스크래핑이 안되는 경우에 반드시 확인 필요

> 본인의 user_agent 확인방법
>> "what is my user agent" 구글링 (https://www.whatismybrowser.com/detect/what-is-my-user-agent)


In [4]:
# User-agent 사용법 및 웹크롤링
import requests
url = "http://naver.com"
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"}
res = requests.get(url, headers=headers)
res.raise_for_status()
with open("naver.html", "w", encoding="utf8") as f: # naver.html 파일 생성, w: 작성한다. r: 읽겠다.
    f.write(res.text)


### 3. beautifulsoup과 lxml

> BeautifulSoup : BeautifulSoup는 HTML/XML Parser이기 때문에 HTML/XML문자열에서 원하는 태그정보를 추출하는 패키지 

> lxml : XML을 빠르고 유연하게 처리하는 파이썬 라이브러리, BeautifulSoup에 내장된 html parser 보다 속도가 빠름

In [5]:
# bs4
!pip install beautifulsoup4 # 스크래핑 라이브러리
!pip install lxml # 구문 분석 parser

ERROR: Invalid requirement: '#'
ERROR: Invalid requirement: '#'


### 4. BeautifulSoup 사용법

In [7]:
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday.nhn"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml") # xml을 lxml parser를 통해서 객체로 만들어줌
print(soup.title)
print(soup.title.get_text()) # title 정보만 가져온 것

print("-"*100)
print(soup.a) # 첫번째 a 객체를 보여줌, 전체 경로를 해줄 필요없음
print(soup.a.attrs) #a element의 속성정보를 출력 (attribute)
print(soup.a["href"]) #a element의 href 속성값 정보를 출력

print("-"*100)
print(soup.find("a", attrs ={"class":"Nbtn_upload"})) # class="Nbtn_upload"인 a element를 찾아줘
print(soup.find(attrs ={"class":"Nbtn_upload"}))  # class="Nbtn_upload"인 어떤 element를 찾아줘



<title>네이버 만화 &gt; 요일별  웹툰 &gt; 전체웹툰</title>
네이버 만화 > 요일별  웹툰 > 전체웹툰
----------------------------------------------------------------------------------------------------
<a href="#menu" onclick="document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"><span>메인 메뉴로 바로가기</span></a>
{'href': '#menu', 'onclick': "document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"}
#menu
----------------------------------------------------------------------------------------------------
<a class="Nbtn_upload" href="/mypage/myActivity.nhn" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>
<a class="Nbtn_upload" href="/mypage/myActivity.nhn" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>


In [8]:
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday.nhn"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml") # xml을 lxml parser를 통해서 객체로 만들어줌
print(soup.title)
print(soup.title.get_text()) # title 정보만 가져온 것

print("-"*100)
print(soup.a) # 첫번째 a 객체를 보여줌, 전체 경로를 해줄 필요없음
print(soup.a.attrs) #a element의 속성정보를 출력 (attribute)
print(soup.a["href"]) #a element의 href 속성값 정보를 출력

print("-"*100)
print(soup.find("a", attrs ={"class":"Nbtn_upload"}).get_text()) # class="Nbtn_upload"인 a element를 찾아줘
print(soup.find(attrs ={"class":"Nbtn_upload"}).get_text())  # class="Nbtn_upload"인 어떤 element를 찾아줘


<title>네이버 만화 &gt; 요일별  웹툰 &gt; 전체웹툰</title>
네이버 만화 > 요일별  웹툰 > 전체웹툰
----------------------------------------------------------------------------------------------------
<a href="#menu" onclick="document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"><span>메인 메뉴로 바로가기</span></a>
{'href': '#menu', 'onclick': "document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"}
#menu
----------------------------------------------------------------------------------------------------
웹툰 올리기
웹툰 올리기


In [12]:
# 순위 데이터 접근방법
print(soup.find("li", attrs={"class":"rank01"}))

print("-"*100)
rank1 = soup.find("li", attrs={"class":"rank01"})
print(rank1.a.get_text())

print("-"*100)
rank2 = soup.find("li", attrs={"class":"rank02"})
print(rank2.a.get_text())

print("-"*100)
rank3 = soup.find("li", attrs={"class":"rank03"})
print(rank3.a.get_text())

print("-"*100)
rank2 = rank1.next_sibling.next_sibling # 병렬처리 구조로 되어 있기 때문에 그 다음꺼 next_sibling
rank3 = rank2.next_sibling.next_sibling
print(rank2.a.get_text())
print(rank3.a.get_text())

print("-"*100)
rank2_1 = rank3.previous_sibling.previous_sibling
print(rank2_1.a.get_text())



<li class="rank01">
<a href="/webtoon/detail.nhn?titleId=748105&amp;no=91" onclick="nclk_v2(event,'rnk*p.cont','748105','1')" title="독립일기-90화 왜 점점 귀여운데">독립일기-90화 왜 점점 귀여운데</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>
----------------------------------------------------------------------------------------------------
독립일기-90화 왜 점점 귀여운데
----------------------------------------------------------------------------------------------------
더 복서-73화 모히칸(3)
----------------------------------------------------------------------------------------------------
노답소녀-27화
----------------------------------------------------------------------------------------------------
더 복서-73화 모히칸(3)
노답소녀-27화
----------------------------------------------------------------------------------------------------
더 복서-73화 모히칸(3)


In [13]:
#print(rank1.parent) # 부모 객체로 이동
#print(rank1.parent.get_text()) # 부모 객체

rank2 = rank1.find_next_sibling("li") # 태그가 li로 시작하는 rank1의 next_sibling을 찾아주어라
print(rank2.a.get_text())

print("-"*100)
rank3 = rank2.find_next_sibling("li")
print(rank3.a.get_text())

print("-"*100)
rank2 = rank3.find_previous_sibling("li") # rank3의 앞에 태그 찾고 싶을 때
print(rank2.a.get_text())

print("-"*100)
print(rank1.find_next_siblings("li")) # 형제들을 모두 가지고 옮

print("-"*100)
webtoon = soup.find("a", text="바른연애 길잡이-148")
print(webtoon)


더 복서-73화 모히칸(3)
----------------------------------------------------------------------------------------------------
노답소녀-27화
----------------------------------------------------------------------------------------------------
더 복서-73화 모히칸(3)
----------------------------------------------------------------------------------------------------
[<li class="rank02">
<a href="/webtoon/detail.nhn?titleId=736989&amp;no=78" onclick="nclk_v2(event,'rnk*p.cont','736989','2')" title="더 복서-73화 모히칸(3)">더 복서-73화 모히칸(3)</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>, <li class="rank03">
<a href="/webtoon/detail.nhn?titleId=756137&amp;no=27" onclick="nclk_v2(event,'rnk*p.cont','756137','3')" title="노답소녀-27화">노답소녀-27화</a>
<span class="rankBox">
<img alt="순위상승" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_up.gif" title="순

### 5. 네이버 웹툰 순위 추출

In [16]:
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday.nhn"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml") # xml을 lxml parser를 통해서 객체로 만들어줌

# 네이터 웹툰 전체 목록 가져오기
cartoons = soup.find_all("a", attrs={"class":"title"}) # class 속성이 title인 모든 "a" element를 반환
for cartoon in cartoons:
    print(cartoon.get_text())

참교육
뷰티풀 군바리
소녀의 세계
윈드브레이커
파이게임
장씨세가 호위무사
삼매경
만렙돌파
황제와의 하룻밤
칼가는 소녀
요리GO
유일무이 로맨스
잔불의 기사
야생천사 보호구역
수영만화일기
히어로메이커
오늘의 순정망화
리턴 투 플레이어
결혼생활 그림일기
평범한 8반
싸이코 리벤지
기사님을 지켜줘
브랜든
순정말고 순종
꿈의 기업
바이러스X
사랑의 헌옷수거함
살아간다
착한건 돈이된다
아는 여자애
선배, 그 립스틱 바르지 마요
사막에 핀 달
왕따협상
침범
마지막 지수
피플
이중첩자
중독연구소
원하는 건 너 하나
라서드
개밥 먹는 남자
이탄국의 자청비
뱀파이어의 꽃
앵무살수
그림자 신부
백호랑
드로잉 레시피
인간의 온도
하슬라
오로지 오로라
트리거
헬로맨스
보살님이 캐리해!
모락모락 왕세자님
바른연애 길잡이
여신강림
엽총소년
한림체육관
하루만 네가 되고 싶어
랜덤채팅의 그녀!
사신소년
신도림
헬58
몬스터
삼국지톡
호랑이 들어와요
달콤살벌한 부부
오피스 누나 이야기
원주민 공포만화
집이 없어
위아더좀비
윌유메리미
나는 어디에나 있다
하우스키퍼
오늘의 순정망화
급식러너
견우와 선녀
그녀석 정복기
플레이, 플리
용왕님의 셰프가 되었습니다
성인초딩
빌런투킬
악인
프린스 메이커
아이즈
3cm 헌터
빅맨
올가미
나타나주세요!
대신 심부름을 해다오
은주의 방 2~3부
제로게임
하나in세인
찐:종합게임동아리
아이레
연우의 순정
숲속의 담
별종
열녀박씨 계약결혼뎐
오파츠
필살VS로맨스
자판귀
빛빛빛
조선홍보대행사 조대박
언메이크
완벽한 가족
안식의 밤
도를 아십니까
나의 플랏메이트
태시트
풋내기들
피로만땅
인문학적 감수성
헬퍼 2 : 킬베로스
전지적 독자 시점
복학왕
모죠의 일지
급식아빠
튜토리얼 탑의 고인물
격기3반
캐슬
세상은 돈과 권력
노곤하개
화산귀환
하렘의 남자들
남주의 첫날밤을 가져버렸다
일렉시드
연놈
엔딩 후 서브남을 주웠다
나쁜사람
닥터앤닥터 육아일기
고삼무쌍
원수를 사랑하라
빌드업
여주실격!
판타지 여동생!
오징어도 사랑이 되나요?
마른 가지에 바람처럼
귀곡의 문
각자

In [45]:
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday.nhn"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml") # xml을 lxml parser를 통해서 객체로 만들어줌

# 네이터 웹툰 전체 목록 가져오기
cartoons = soup.find_all("a", attrs={"class":"title"}) # class 속성이 title인 모든 "a" element를 반환
for cartoon in cartoons:
    print(cartoon.get_text())


참교육
뷰티풀 군바리
소녀의 세계
윈드브레이커
파이게임
장씨세가 호위무사
삼매경
만렙돌파
황제와의 하룻밤
칼가는 소녀
요리GO
잔불의 기사
유일무이 로맨스
야생천사 보호구역
수영만화일기
히어로메이커
오늘의 순정망화
리턴 투 플레이어
결혼생활 그림일기
평범한 8반
싸이코 리벤지
브랜든
기사님을 지켜줘
순정말고 순종
바이러스X
살아간다
꿈의 기업
아는 여자애
착한건 돈이된다
사랑의 헌옷수거함
사막에 핀 달
선배, 그 립스틱 바르지 마요
왕따협상
침범
마지막 지수
피플
이중첩자
원하는 건 너 하나
중독연구소
라서드
개밥 먹는 남자
앵무살수
이탄국의 자청비
뱀파이어의 꽃
그림자 신부
백호랑
드로잉 레시피
인간의 온도
하슬라
오로지 오로라
트리거
보살님이 캐리해!
헬로맨스
바른연애 길잡이
여신강림
엽총소년
한림체육관
하루만 네가 되고 싶어
랜덤채팅의 그녀!
사신소년
헬58
신도림
호랑이 들어와요
삼국지톡
몬스터
달콤살벌한 부부
원주민 공포만화
오피스 누나 이야기
집이 없어
위아더좀비
윌유메리미
하우스키퍼
오늘의 순정망화
급식러너
견우와 선녀
그녀석 정복기
플레이, 플리
용왕님의 셰프가 되었습니다
나는 어디에나 있다
성인초딩
나타나주세요!
악인
빌런투킬
아이즈
3cm 헌터
빅맨
대신 심부름을 해다오
찐:종합게임동아리
은주의 방 2~3부
올가미
프린스 메이커
제로게임
하나in세인
아이레
별종
연우의 순정
숲속의 담
열녀박씨 계약결혼뎐
오파츠
자판귀
빛빛빛
조선홍보대행사 조대박
언메이크
필살VS로맨스
안식의 밤
완벽한 가족
나의 플랏메이트
도를 아십니까
태시트
풋내기들
피로만땅
인문학적 감수성
전지적 독자 시점
복학왕
헬퍼 2 : 킬베로스
모죠의 일지
급식아빠
튜토리얼 탑의 고인물
격기3반
캐슬
세상은 돈과 권력
노곤하개
하렘의 남자들
남주의 첫날밤을 가져버렸다
화산귀환
일렉시드
연놈
여주실격!
나쁜사람
고삼무쌍
닥터앤닥터 육아일기
원수를 사랑하라
엔딩 후 서브남을 주웠다
빌드업
판타지 여동생!
오징어도 사랑이 되나요?
마른 가지에 바람처럼
귀곡의 문
각자의 디데이
언덕 위

In [19]:
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/list.nhn?titleId=703846&weekday=tue"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml") # xml을 lxml parser를 통해서 객체로 만들어줌

# 네이터 웹툰 전체 목록 가져오기
cartoons = soup.find_all("td", attrs={"class":"title"})
# class 속성이 title인 모든 "a" element를 반환
title = cartoons[0].a.get_text()
link = cartoons[0].a["href"]
print(title)
print(link)
print("https://comic.naver.com" + link)
print("-"*100)

# 만화제목 + 링크 가져오기
for cartoon in cartoons:
    title = cartoon.a.get_text()
    link = "https://comic.naver.com" + cartoon.a["href"]
    print(title, link)
print("-"*100)    
    
# 평점구하기
total_rates = 0
cartoons = soup.find_all("div", attrs={"class":"rating_type"})
for cartoon in cartoons:
    rate = cartoon.find("strong").get_text()
    print(rate)
    total_rates += float(rate)
print("전체 점수 : ", total_rates)
print("평균 점수 : ", total_rates / len(cartoons))
 
# beutiful soup 매뉴얼 : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

156화
/webtoon/detail.nhn?titleId=703846&no=161&weekday=tue
https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=161&weekday=tue
----------------------------------------------------------------------------------------------------
156화 https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=161&weekday=tue
155화 https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=160&weekday=tue
154화 https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=159&weekday=tue
153화 https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=158&weekday=tue
152화 https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=157&weekday=tue
151화 https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=156&weekday=tue
150화 https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=155&weekday=tue
149화 https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=154&weekday=tue
148화 https://comic.naver.com/webtoon/detail.nhn?titleId=703846&no=153&weekday=tue
147화 https://comic.naver.

In [20]:
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/list.nhn?titleId=570503&weekday=thu"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml") # xml을 lxml parser를 통해서 객체로 만들어줌

# 네이터 웹툰 전체 목록 가져오기
cartoons = soup.find_all("td", attrs={"class":"title"})
# class 속성이 title인 모든 "a" element를 반환
title = cartoons[0].a.get_text()
link = cartoons[0].a["href"]
print(title)
print(link)
print("https://comic.naver.com" + link)
print("-"*100)

# 만화제목 + 링크 가져오기
for cartoon in cartoons:
    title = cartoon.a.get_text()
    link = "https://comic.naver.com" + cartoon.a["href"]
    print(title, link)
print("-"*100)    
    
# 평점구하기
total_rates = 0
cartoons = soup.find_all("div", attrs={"class":"rating_type"})
for cartoon in cartoons:
    rate = cartoon.find("strong").get_text()
    print(rate)
    total_rates += float(rate)
print("전체 점수 : ", total_rates)
print("평균 점수 : ", total_rates / len(cartoons))
 
# beutiful soup 매뉴얼 : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

350. They are shy
/webtoon/detail.nhn?titleId=570503&no=354&weekday=thu
https://comic.naver.com/webtoon/detail.nhn?titleId=570503&no=354&weekday=thu
----------------------------------------------------------------------------------------------------
350. They are shy https://comic.naver.com/webtoon/detail.nhn?titleId=570503&no=354&weekday=thu
349. 우당탕탕 집데이트 https://comic.naver.com/webtoon/detail.nhn?titleId=570503&no=353&weekday=thu
348. GOOD BYE, 2haknyeon! https://comic.naver.com/webtoon/detail.nhn?titleId=570503&no=352&weekday=thu
347. Thinking https://comic.naver.com/webtoon/detail.nhn?titleId=570503&no=351&weekday=thu
346. 쟁점 https://comic.naver.com/webtoon/detail.nhn?titleId=570503&no=350&weekday=thu
345. Suddenly https://comic.naver.com/webtoon/detail.nhn?titleId=570503&no=349&weekday=thu
344. 점선 https://comic.naver.com/webtoon/detail.nhn?titleId=570503&no=348&weekday=thu
343. 파동 https://comic.naver.com/webtoon/detail.nhn?titleId=570503&no=347&weekday=thu
342. Unlock https://com

###  6. 다음 영화 웹스크래핑 

HTTP method : 웹상에서 클라이언트가 서버 간에 요청을 보내는 방법
1. GET : URL로 처리

> https://www.coupang.com/np/search?minPrice=1000&maxPrice=100000&page=1   

> https://www.coupang.com/np/search?id=dohyunkim&pw=1234

> 데이터량 제한, 보안데이터에 부적합, 웹스크래핑이 쉬움

2. POST

> body에 숨겨서 전달

In [23]:
import requests
from bs4 import BeautifulSoup

headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36"}

for year in [2018, 2019, 2020]:
# for year in range(2015, 2021):    
    url = "https://search.daum.net/search?w=tot&q={}%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR".format(year)
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml") 
    
    images = soup.find_all("img", attrs={"class":"thumb_img"})    
    print("==== {}년도 영화순위 리스트 ====".format(year))
    for idx, image in enumerate(images):
        image_url = image["src"]
        image_url = "https:" + image_url

        print(image_url)
        
        image_res = requests.get(image_url)
        image_res.raise_for_status()

        with open("movie_{}_{}.jpg".format(year, idx+1), "wb") as f: # text 정보아닌 binary 저장 wb
            f.write(image_res.content)

        if idx >= 4: #상위 5개 이미지만 저장
            break

==== 2018년도 영화순위 리스트 ====
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F49d2e3870f67e47645b13976a176056ed71af64c
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fdd84b905224c91225aa2a15203aba3a354197c1d
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fce3cd6a875284e8b96414ef3696756a11544772388211
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F3ed58c2c1114935c4cc95f09949acb49b5996fa9
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fae457b72c9a9ec2c8d2f44a893098ec060f0e598
==== 2019년도 영화순위 리스트 ====
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F4e00e81f2b6f4d2eb65b3387240cc3c01547608409838
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F5574fb2c20c844629aa9ad1d6043ee851555464

In [24]:
import requests
from bs4 import BeautifulSoup

headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36"}

for year in [2019]:
# for year in range(2015, 2021):    
    url = "https://search.daum.net/search?w=tot&q={}%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR".format(year)
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml") 
    
    images = soup.find_all("img", attrs={"class":"thumb_img"})    
    print("==== {}년도 영화순위 리스트 ====".format(year))
    for idx, image in enumerate(images):
        image_url = image["src"]
        if image_url.startswith("//"):
            image_url = "https:" + image_url

        print(image_url)
        
        image_res = requests.get(image_url)
        image_res.raise_for_status()

        with open("movie_{}_{}.jpg".format(year, idx+1), "wb") as f: # text 정보아닌 binary 저장 wb (이미지 파일 같은 경우)
            f.write(image_res.content)

        if idx >= 4: #상위 5개 이미지만 저장
            break

==== 2019년도 영화순위 리스트 ====
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F4e00e81f2b6f4d2eb65b3387240cc3c01547608409838
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F5574fb2c20c844629aa9ad1d6043ee851555464908641
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F5afd212b68e34e61a964d969dd898e2f1574298873981
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F3673a8a0c5ff4f5c8c25cc959fd6985b1558662957684
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fcab3b02a7b274bd6838b80a5e481fedf1559021787090


#### 파일 생성
1. 기본생성방법

> f = open("foo.txt", 'w') ##참고 읽기('r'), 추가('a'), 쓰기('w')

> f.write("Life is too short, you need python")

> f.close()

2. with 사용방법

> with open("foo.txt", "w") as f:
    
> f.write("Life is too short, you need python")

###  7. 다음 부동산 정보 웹스크래핑 

In [18]:
# ============== 매물 1 ================
# 거래 :  매매 
# 면적 :  84/59  (공급/전용)
# 가격 :  180,000  (만원)
# 동 :  416동 
# 층 :  저/12 
# ============== 매물 2 ================

import requests
from bs4 import BeautifulSoup

# 헬리오시티
url = "https://search.daum.net/search?nil_suggest=btn&w=tot&DA=SBC&q=%ED%97%AC%EB%A6%AC%EC%98%A4%EC%8B%9C%ED%8B%B0"
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

data_rows = soup.find("table", attrs={"class":"tbl"}).find("tbody").find_all("tr")
for index, row in enumerate(data_rows):
    columns = row.find_all("td")
    
    print("============== 매물 {} ================".format(index+1))
    print("거래 :", columns[0].get_text().strip())
    print("면적 :", columns[1].get_text().strip(), "(공급/전용)")
    print("가격 :", columns[2].get_text().strip(), "(만원)")
    print("동 :", columns[3].get_text().strip())
    print("층 :", columns[4].get_text().strip()) # strip()은 깔끔하게 간격조정하기 위해서 사용.

거래 : 월세
면적 : 140/110 (공급/전용)
가격 : 150,000/70 (만원)
동 : 513동
층 : 고/29
거래 : 전세
면적 : 108/84 (공급/전용)
가격 : 115,000 (만원)
동 : 406동
층 : 고/29
거래 : 월세
면적 : 110/84 (공급/전용)
가격 : 50,000/195 (만원)
동 : 411동
층 : 고/29
거래 : 매매
면적 : 72/49 (공급/전용)
가격 : 150,000 (만원)
동 : 311동
층 : 고/18
거래 : 월세
면적 : 84/59 (공급/전용)
가격 : 60,000/80 (만원)
동 : 503동
층 : 고/23
