# Web Scraping
- 필요한 정보를 선택적으로 수집

In [1]:
import matplotlib.pyplot as plt
import webbrowser

In [2]:
url = 'www.naver.com'
webbrowser.open(url)

True

In [3]:
naver_search_url = 'https://search.naver.com/search.naver?query='
search_word = '파이썬'
url = naver_search_url + search_word
webbrowser.open_new(url)

True

In [4]:
google_url = "www.google.com/#q="
search_word = 'python'
url = google_url + search_word
webbrowser.open_new(url)

True

In [5]:
import requests
from bs4 import BeautifulSoup
import lxml

In [6]:
html = """<html><body><div><span>
            <a href=http://www.naver.com>naver</a>
            <a href=https://www.google.com>google</a>
            <a href=http://www.daum.net/>daum</a>
            </span></div></body></html>"""

# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml') # 'lxml'은 파서
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


## find
- 첫 번째로 나타나는 해당 태그를 찾는다.

In [7]:
# 첫 번째로 나타나는 a 태그를 찾는다.
print(soup.find('a'))
# 첫 번째로 나타나는 a 태그의 text를 가져온다.
print(soup.find('a').get_text())

<a href="http://www.naver.com">naver</a>
naver


## find_all
- 해당 태그를 모두 찾는다.

In [8]:
# 모든 a 태그를 찾는다.
print(soup.find_all('a'))
for site_name in soup.findAll('a'):
    print(site_name.get_text())

[<a href="http://www.naver.com">naver</a>, <a href="https://www.google.com">google</a>, <a href="http://www.daum.net/">daum</a>]
naver
google
daum


In [9]:
html2 ="""
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head> 
 <body>
  <h1>책 정보</h1>
  <p id = "book_title">토지</p>
  <p id = "author">박경리</p>
  <p id = "book_title">태백산맥</p>
  <p id = "author">조정래</p>
  <p id = "book_title">감옥으로부터의 사색</p>
  <p id = "author">신영복</p>
 </body>
</html>
"""

In [10]:
soup = BeautifulSoup(html2, 'lxml')

print(soup.title)
print(soup.body)
print(soup.body.h1)

print('='*40)
print(soup.find('p', {"id": "book_title"}))
print(soup.find('p', {"id": "author"}))

print('='*40)
print(soup.find_all('p', {"id": "book_title"}))
print(soup.find_all('p', {"id": "author"}))

<title>작품과 작가 모음</title>
<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
[<p id="book_title">토지</p>, <p id="book_title">태백산맥</p>, <p id="book_title">감옥으로부터의 사색</p>]
[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]


In [11]:
book_titles = soup.find_all('p', {"id": "book_title"})
authors = soup.find_all('p', {"id": "author"})
for book_title, author in zip(book_titles, authors):
    print(book_title.get_text() + '/' + author.get_text())

토지/박경리
태백산맥/조정래
감옥으로부터의 사색/신영복


In [12]:
r = requests.get("https://www.google.co.kr")
print(r)
print(r.text[0:100])

<Response [200]>
<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content


## Select

In [13]:
# body안에 있는 h1 태그
soup.select('body h1')

[<h1>책 정보</h1>]

In [14]:
# body안에 있는 p 태그
soup.select('body p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [15]:
# p태그의 id가 book_title인 것
soup.select('p#book_title')

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [16]:
# p태그의 id가 author 것
soup.select('p#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

## File read

In [17]:
f = open("D:/JSG/html/example2.html", encoding='utf-8')

html = f.read()
f.close()

soup = BeautifulSoup(html, 'lxml')
print(soup.select('a.portal'))
print(soup.select('body a'))
print(soup.select('html a'))
print(soup.select('a'))

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>, <a class="portal" href="http://www.daum.net" id="daum">다음</a>]
[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>, <a class="search" href="http://www.google.com" id="google">구글</a>, <a class="portal" href="http://www.daum.net" id="daum">다음</a>, <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]
[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>, <a class="search" href="http://www.google.com" id="google">구글</a>, <a class="portal" href="http://www.daum.net" id="daum">다음</a>, <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]
[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>, <a class="search" href="http://www.google.com" id="google">구글</a>, <a class="portal" href="http://www.daum.net" id="daum">다음</a>, <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]


## br 태그 처리
- soup를 html를 읽을 때 br 태그가 적용이 되지 않기 때문에 함수로 만들어 처리

In [18]:
### br 태그가 적용되지 않는 예제

f = open("D:/JSG/html/example3.html", encoding='utf-8')

html = f.read()
f.close()

soup = BeautifulSoup(html, 'lxml')
for title in soup.select('p#title'):
    print(title.get_text())

for content in soup.select('p#content'):
    print(content.get_text())

대한민국헌법
제1조 1. 대한민국은 민주공화국이다.2. 대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.
제2조 1. 대한민국의 국민이 되는 요건은 법률로 정한다.2. 국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.


In [19]:
# br 태그 적용하기 위해 br태그를 \n으로 변경br 태그 적용하기 위해 br태그를 \n으로 변경
def replace_newline(soup_html):
    br_to_newlines = soup_html.find_all("br")
    for br_to_newline in br_to_newlines:
        br_to_newline.replace_with("\n")
    return soup_html

In [20]:
f = open("D:/JSG/html/example3.html", encoding='utf-8')

html_source = f.read()
f.close()

soup = BeautifulSoup(html_source, 'lxml')
title = soup.find('p', {'id' : 'title'})
contents = soup.find_all('p', {'id': "content"})

print(title.get_text(), '\n')

for content in contents:
    content1 = replace_newline(content)
    print(content1.get_text(), '\n')

대한민국헌법 

제1조 
1. 대한민국은 민주공화국이다.
2. 대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다. 

제2조 
1. 대한민국의 국민이 되는 요건은 법률로 정한다.
2. 국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다. 



## Top Sites in South Korea Crawling In Alexa 

In [21]:
from bs4 import BeautifulSoup
import pandas as pd
import requests

In [22]:
url = 'https://www.alexa.com/topsites/countries/KR'

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, 'lxml')

website_ranking = soup_website_ranking.select('p a')
website_ranking_sites = [website_ranking_element.get_text()
                        for website_ranking_element in website_ranking[1:]]

print("[Top Sites in South Korea]")
for k in range(6):
    print("{0}: {1}".format(k+1, website_ranking_sites[k]))

[Top Sites in South Korea]
1: Google.com
2: Naver.com
3: Youtube.com
4: Daum.net
5: Tistory.com
6: Tmall.com


In [23]:
website_ranking_dict = {"Website": website_ranking_sites}
df = pd.DataFrame(website_ranking_dict, columns=['Website'], 
                  index=range(1, len(website_ranking_sites)+1))
print(df[0:6])

       Website
1   Google.com
2    Naver.com
3  Youtube.com
4     Daum.net
5  Tistory.com
6    Tmall.com


## Top 100 in Naver Music

In [24]:
url = 'https://music.naver.com/listen/history/index.nhn?type=TOTAL_V2&year=2020&month=07&week=3'

html_music = requests.get(url).text
soup_music = BeautifulSoup(html_music, 'lxml')

titles = soup_music.select('a._title span.ellipsis')
music_titles = [title.get_text() for title in titles]
music_titles

['다시 여기 바닷가',
 '마리아 (Maria)',
 'How You Like That',
 '여름 안에서 by 싹쓰리 (Feat. 황광희)',
 'Summer Hate (Feat. 비)',
 '보라빛 밤 (pporappippam)',
 '에잇(Prod.&Feat. SUGA of BTS)',
 'Downtown Baby',
 'Dolphin',
 '아로하',
 '살짝 설렜어 (Nonstop)',
 '사랑하게 될 줄 알았어',
 'Monster',
 'MORE & MORE',
 'PLAY (Feat. 창모)',
 '어떻게 이별까지 사랑하겠어, 널 사랑하는 거지',
 '아무노래',
 'Into the I-LAND',
 'Memories',
 '흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야',
 'Blueming',
 '좋은 사람 있으면 소개시켜줘',
 "Don't Start Now",
 'METEOR',
 'Psycho',
 'Dance Monkey',
 '덤더럼(Dumhdurum)',
 '화려하지 않은 고백',
 'OHIO',
 '처음처럼',
 '2002',
 'WANNABE',
 'Love poem',
 '나비와 고양이 (Feat. 백현 (BAEKHYUN))',
 '늦은 밤 너의 집 앞 골목길에서',
 '시작',
 '그대 고운 내사랑',
 'Paris In The Rain',
 '환상동화 (Secret Story of the Swan)',
 '너를 만나',
 'Rain On Me',
 '아직 너의 시간에 살아',
 '어떻게 지내 (Prod. By VAN.C)',
 'Juice',
 '홀로',
 'Apple',
 '너에게 난, 나에게 넌',
 'FIESTA',
 '밤편지',
 '오늘따라 비가 와서 그런가 봐']

In [25]:
artists = soup_music.select('td._artist a')
music_artists = [artist.get_text().strip() for artist in artists]

for k in range(7):
    print("{0}: {1} / {2}".format(k+1, music_titles[k], music_artists[k]))

1: 다시 여기 바닷가 / 싹쓰리(유두래곤, 린다G, 비룡)
2: 마리아 (Maria) / 화사(Hwa Sa)
3: How You Like That / BLACKPINK
4: 여름 안에서 by 싹쓰리 (Feat. 황광희) / 싹쓰리(유두래곤, 린다G, 비룡)
5: Summer Hate (Feat. 비) / 지코 (ZICO)
6: 보라빛 밤 (pporappippam) / 선미
7: 에잇(Prod.&Feat. SUGA of BTS) / 아이유(IU)


In [26]:
f = open('./music.txt', 'w', encoding='utf-8')
for k in range(7):
    f.write("{0},{1},{2}\n".format(k+1, music_titles[k], music_artists[k]))
f.close()

## Image 불러오기

In [27]:
from bs4 import BeautifulSoup
import requests
import os

In [28]:
url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
image_file_name = os.path.basename(url)
folder = 'D:/JSG/html/download'

# 폴더가 없으면 폴더를 만들어 줌
if not os.path.exists(folder):
    os.makedirs(folder)
    
image_path = os.path.join(folder, image_file_name)

imageFile = open(image_path, 'wb')
# 이미지 데이터를 1000000 바이트씩 나눠서 저장
chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

## PICJUMBO Image Crawling

In [29]:
from bs4 import BeautifulSoup
import requests
import os

In [30]:
url = 'https://picjumbo.com/free-stock-photos/nature/'
html_picjumbo_image = requests.get(url).text
soup_picjumbo_image = BeautifulSoup(html_picjumbo_image, 'lxml')
folder = 'D:/JSG/html/download'

if not os.path.exists(folder):
    os.makedirs(folder)


picjumbo_images = soup_picjumbo_image.select('picture img.image')
image_urls = [image_url.get('data-src') for image_url in picjumbo_images]


for url in image_urls:
    html_image = requests.get(url)
    image_file_name = os.path.basename(url)
    image_path = os.path.join(folder, image_file_name)  
    imageFile = open(image_path,'wb')
    chunk_size = 1000000
    for chunk in html_image.iter_content(chunk_size):
        imageFile.write(chunk)
    imageFile.close()

# for image_url in soup_picjumbo_image.select('picture img.image'):
#     html_image = requests.get(image_url['data-src'])
#     image_file_name = os.path.basename(image_url['data-src'])
#     image_path = os.path.join(folder, image_file_name)  
#     imageFile = open(image_path,'wb')
#     chunk_size = 1000000
#     for chunk in html_image.iter_content(chunk_size):
#         imageFile.write(chunk)
#     imageFile.close()

In [31]:
# url(주소)에서 이미지 주소 추출
def get_image_url(url):
    html_image_url = requests.get(url).text
    soup_image_url = BeautifulSoup(html_image_url, 'lxml')
    image_elements = soup_image_url.select('picture img')
    if image_elements != None:
        image_urls = []
        for image_element in image_elements:
            image_urls.append(image_element.get('data-src'))
        return image_urls
    else:
        return None

In [32]:
# 폴더를 지정해 이미지 주소에서 이미지 내려받기
def download_image(img_folder, img_url):
    if(img_url != None):
        html_image = requests.get(img_url)
        # os.path.basename(URL)는 웹사이트나 폴더가 포함된 파일명에서 파일명만 분리
        image_file = open(os.path.join(img_folder, os.path.basename(img_url)), 'wb')
        
        chunk_size = 100000 # 이미지 데이터를 1000000 바이트씩 나눠서 저장
        for chunk in html_image.iter_content(chunk_size):
            image_file.write(chunk)
        image_file.close()
        print("이미지 파일명: '{0}'. 내려받기 완료!".format(os.path.basename(img_url)))
    else:
        print("내려받을 이미지가 없습니다.")

In [33]:
url = 'https://picjumbo.com/free-stock-photos/nature/'
figure_folder = 'D:/JSG/html/download'

picjumbo_image_urls = get_image_url(url) # 이미지 파일의 주소 가져오기
num_of_download_image = 7                # 내려받을 이미지 개수 지정
# num_of_download_image = len(picjumbo_image_urls) # 전체 이미지를 내려받으려면
for k in range(num_of_download_image):
    download_image(figure_folder, picjumbo_image_urls[k])
print("="*20)
print("선택한 모든 이미지 내려받기 완료")

이미지 파일명: 'DSC06401-1080x720.jpg'. 내려받기 완료!
이미지 파일명: 'D0100448-1080x720.jpg'. 내려받기 완료!
이미지 파일명: 'DSC00128-1080x720.jpg'. 내려받기 완료!
이미지 파일명: 'DSC07667-1080x1620.jpg'. 내려받기 완료!
이미지 파일명: 'DSC09423-1080x720.jpg'. 내려받기 완료!
이미지 파일명: 'DSC07564-1080x720.jpg'. 내려받기 완료!
이미지 파일명: 'D0100432-1080x720.jpg'. 내려받기 완료!
선택한 모든 이미지 내려받기 완료


### Airbnb Crawling

In [34]:
from bs4 import BeautifulSoup
import requests
import os

In [35]:
url = 'https://www.airbnb.co.kr/s/%EA%B0%95%EB%82%A8%EC%97%AD/homes?tab_id=home_tab&refinement_paths%5B%5D=%2Fhomes&checkin=2020-08-05&checkout=2020-08-07&source=structured_search_input_header&search_type=search_query&query=%EA%B0%95%EB%82%A8%EC%97%AD&place_id=ChIJKxs2jFmhfDURPP--kvKavw0&adults=2'

html = requests.get(url).text
soup = BeautifulSoup(html, 'lxml')

rooms_list = soup.select('a._gjfol0')
room_prices = soup.select('span._1p7iugi span._krjbj')

for room, price in zip(rooms_list, room_prices):
    print("{0}/{1}".format(room['aria-label'], price.next_sibling))
    

강남역 조용하고 가격좋은 호텔/₩56,610
[J.S House] Great Location in Gangnam! !/₩97,157
♡Music House in Gangnam/강남stn 1min/ Happy party♡/₩89,362
[도시게하] UrbanExit homestay (룸 #6) 매일방역 식기소독/₩83,947
F-1# Gangnam Station Exit 5/Latex,goose bedding/₩69,318
W22. Natural Green.Gangnam.2room. 상시소독/₩71,385
New Sale  Onjung  in Kangnam Cozy and comfortable/₩56,610
< 디자인작업실 >
★Gangnam stn 5min ★완벽한 추억 보장./₩160,610
[Gangnam] Studio(2rooms, 6beds)/₩124,194
K-Grand Hostel Gangnam 1 - Deluxe Twin/₩120,360
강남역 도보 1분, 최신 주상복합, 1 min from Gangnam station/₩101,089
[당일할인]강남파티룸 [PartyRoom] 이젠 지상에서! 브라이덜샤워전문! 용품구비!/₩110,639
Eco Lovely Room for 2 persons 2 (same gender only)/₩103,977
[5 STAR Review House/ 1min to Gangnam stn]/₩79,715
Welcome to Sam's House(Gangnam stn #5)/₩69,549
GreenHouse in GangNam (Subway, large Space, Quiet)/₩141,408
GangNam Haven/₩217,336
♥️[Female only女士专用]SSuzi's house:) Gangnam, Yeoksam/₩193,453
*new open!* gangnam Stn cozy & sweet room two beds/₩52,566
Big John's Place - # 203/₩124,822
