# 1-2 Web Crawling

## 1. HTML 소스코드 분석하고 처리하기

### 1) 줄 바꿈으로 가독성 높이기


#### * HTML 소스코드를 파일로 저장

In [1]:
%%writefile C:/Web_Crawling/br_example_constitution.html
<!doctype html>
<html>
  <head>
    <meta charset="utf-8">
    <title>줄 바꿈 테스트 예제</title>
  </head>
  <body>
  <p id="title"><b>대한민국헌법</b></p>
  <p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>
  <p id="content">제2조 <br/>①대한민국의 국민이 되는 요건은 법률로 정한다.<br/>②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.</p>
  </body>
</html>

Writing C:/Web_Crawling/br_example_constitution.html


#### * HTML 파일을 읽어서 변수 html_source에 할당한 후 요소에서 텍스트 추출

In [3]:
from bs4 import BeautifulSoup

f = open('C:/Web_Crawling/br_example_constitution.html', encoding = 'utf-8')

html_source = f.read()
f.close()

soup = BeautifulSoup(html_source, 'lxml')

title = soup.find('p', {'id':'title'})
contents = soup.find_all('p', {'id':'content'})

print(title.get_text())
for content in contents :
    print(content.get_text())

대한민국헌법
제1조 ①대한민국은 민주공화국이다.②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.
제2조 ①대한민국의 국민이 되는 요건은 법률로 정한다.②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.


#### * 추출된 HTML 코드에서 줄 바꿈 태그를 파이썬의 개행문자(\n)으로 바꿈
#### * Beautiful Soup의 `replace_with(새로운 문자열)`을 이용
#### * 기존의 태그나 문자열을 새로운 태그나 문자열로 바꿈
#### * `find_result = BeautifulSoup.find('태그')`
#### * `find_result.replace_with('새 태그나 문자열')`


#### * HTML 코드에서 br 태그를 파이썬의 개행 문자로 바꾸기

In [4]:
html1 = '<p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>'

soup1 = BeautifulSoup(html1,'lxml')

print("--> 태그 p로 찾은 요소")
content1 = soup1.find('p',{'id':'content'})
print(content1)

br_content = content1.find('br')
print('--> 결과에서 태그 br로 찾은 요소:', br_content)

br_content.replace_with('\n')
print('--> 태그 br을 개행문자로 바꾼 결과')
print(content1)

--> 태그 p로 찾은 요소
<p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>
--> 결과에서 태그 br로 찾은 요소: <br/>
--> 태그 br을 개행문자로 바꾼 결과
<p id="content">제1조 
①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


### 2) 추출된 요소에 전체 적용

#### * HTML 코드에서 br 태그를 파이썬의 개행문자로 전체 대체

In [5]:
soup2 = BeautifulSoup(html1, 'lxml')
content2 = soup2.find('p',{'id':'content'})

br_contents = content2.find_all('br')
for br_content in br_contents:
    br_content.replace_with('\n')
print(content2)

<p id="content">제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


#### * 함수 사용

In [6]:
def replace_newline(soup_html):
    br_to_newlines = soup_html.find_all('br')
    for br_to_newline in br_to_newlines:
        br_to_newline.replace_with('\n')
    return soup_html

#### * Beautiful Soup으로 파싱된 HTML 소스에서 br 태그를 개행문자`\n`으로 변경
#### * 함수를 이용한 결과에서 요소의 내용만 추출하기 위해 `get_text()` 적용

In [7]:
soup2 = BeautifulSoup(html1, 'lxml')
content2 = soup2.find('p',{'id':'content'})
content3 = replace_newline(content2)
print(content3.get_text())

제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.


#### * HTML 소스코드를 할당한 변수 html_source에 최종적으로 위의 코드를 적용

#### - 줄을 바꾸어 문단을 구분하는 p 태그를 표기하기 위해서 get_text()를 출력할때 `\n` 추가

In [9]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_source, 'lxml')

title = soup.find('p',{'id':'title'})
contents = soup.find_all('p',{'id':'content'})

print(title.get_text(), '\n')

for content in contents:
    content1 = replace_newline(content)
    print(content1.get_text(),'\n')

대한민국헌법 

제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다. 

제2조 
①대한민국의 국민이 되는 요건은 법률로 정한다.
②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다. 



## 2. 웹 사이트에서 데이터 가져오기

### 

### 1) 웹 스크래핑(Scraping) 시 주의사항

#### * 해당 웹 사이트에 너무 빈번하게 접근 금지
#### * 사이트는 언제든지 예고 없이 변경 될 수 있음
#### * 인터넷 상에 공개된 데이터라도 저작권(copyright)이 있는 경우가 있음

### 2) 순위 데이터 가져오기 

#### * 사용자들이 방문하는 웹 사이트의 방문 정보(접속수, 페이지 뷰 정보 등) 및 웹 트래픽 분석

#### * 선정한 `select()`의 인자 `p a`를 이용해 웹 사이트의 트래픽 순위 추출

In [10]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.alexa.com/topsites/countries/KR'

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, 'lxml')

# p태그의 요소 안에서 a태그의 요소를 찾음
website_ranking = soup_website_ranking.select('p a')

#### * 순위 결과가 잘 추출되었는지 변수 website_ranking에 저장된 내용중 일부 출력해서 확인

In [11]:
website_ranking[0:7]

[<a href="https://support.alexa.com/hc/en-us/articles/200444340" target="_blank">this explanation</a>,
 <a href="/siteinfo/google.com">Google.com</a>,
 <a href="/siteinfo/naver.com">Naver.com</a>,
 <a href="/siteinfo/youtube.com">Youtube.com</a>,
 <a href="/siteinfo/daum.net">Daum.net</a>,
 <a href="/siteinfo/tistory.com">Tistory.com</a>,
 <a href="/siteinfo/kakao.com">Kakao.com</a>]

#### * 첫 번째 항목을 제외한 리스트 website_ranking[1:]의 각 요소에서 웹 사이트 주소 추출
#### * 리스트 모든 항목에 대해 get_text()를 적용하기 위해 리스트 컴프리헨션 이용

In [15]:
website_ranking_address = [website_ranking_element.get_text() for website_ranking_element in website_ranking[1:]]

In [16]:
website_ranking_address[0:6]

['Google.com',
 'Naver.com',
 'Youtube.com',
 'Daum.net',
 'Tistory.com',
 'Kakao.com']

#### * 코드 통합

In [17]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.alexa.com/topsites/countries/KR'

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, 'lxml')

# p태그 중 a태그 요소 추출
website_rankig = soup_website_ranking.select('p a')
website_ranking_address = [website_ranking_element.get_text() for website_ranking_element in website_ranking[1:]]

print('[Top Sites in South Korea]')
for k in range(6):
    print('{0}:{1}'.format(k+1, website_ranking_address[k]))

[Top Sites in South Korea]
1:Google.com
2:Naver.com
3:Youtube.com
4:Daum.net
5:Tistory.com
6:Kakao.com


#### * pandas의 DataFrame을 이용해서 출력 결과의 가독성을 높임

In [19]:
import pandas as pd

website_ranking_dict = {'Website':website_ranking_address}
df = pd.DataFrame(website_ranking_dict, columns=['Website'], index = range(1, len(website_ranking_address)+1))
df[0:6]

Unnamed: 0,Website
1,Google.com
2,Naver.com
3,Youtube.com
4,Daum.net
5,Tistory.com
6,Kakao.com


## 3. 이미지 가져오기

###   

### 1) 하나의 이미지 내려받기
#### * `equests` 라이브러리 이용해서 이미피 파일을 위한 응답 객체 가져오기

In [20]:
import requests

url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
html_image

<Response [200]>

#### * 이미지 주소에서 이미지 파일명만 추출해서 이용
#### * 이미지 파일의 전체 경로에서 파일 이름만 추출

In [21]:
import os

image_file_name = os.path.basename(url)
image_file_name

'python-logo.png'

#### * `os.makedirs(folder)`  : folder 경로에 해당 폴더를 생성
#### * `os.path.exists(folder)` : folder 경로에 해당 폴더가 존재하는지 확인

In [22]:
folder = 'C:/Web_Crawling/download'

if not os.path.exists(folder):
    os.makedirs(folder)

#### * 생성된 폴더와 추출한 이미지 파일명을 합치기 위해 OS 모듈의 메서드 이용
#### * `os.path.join(path1[, path2, ...])`
#### * `folder` : 파일을 저장하려는 폴더
#### * `file` : 파일 이름
#### * `os.path.join(folder, file)` : 파일의 전체 경로를 생성

#### * 생성한 이미지 파일을 위한 폴더와 추출한 이미지 파일을 통합하는 코드

In [23]:
image_path = os.path.join(folder, image_file_name)
image_path

'C:/Web_Crawling/download\\python-logo.png'

#### * 이미지 파일을 저장하기 전에 `open('file_name', 'mode')`을 이용해 파일 오픈
#### * `file_name` : 앞에서 지정한 경로 이름
#### * `mode` : 쓰기 모드 / 바이너리 모드 지정

In [24]:
# 텍스트가 아닌 이미지 파일이므로 바이너리 파일 모드로 지정
imageFile = open(image_path, 'wb')

#### * requests 라이브러리의 `iter_content(chunk_size)`
       - 전체 이미지를 hchunk_size [bytes]만큼 나눠서 내림

#### * 전체 파일의 마지막까지 나눠서 내려 받은 데이터를 차례대로 파일 쓰기를 하면
#### 최종적으로 완전한 하나의 이미지 파일을 내려 받기 가능

In [25]:
# 이미지 데이터를 1,000,000 바이트씩 나눠서 내려 받고 파일에 순차적으로 저장

chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

#### * `os.listdir(folder)` : 지정된 폴더의 파일 목록을 보여줌

In [26]:
os.listdir(folder)

['python-logo.png']

#### * [최종 코드] 이미지 주소를 알 경우 이미지 파일을 내려 받는 방법

In [27]:
import requests
import os

url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
image_file_name = os.path.basename(url)

folder = 'C:/Web_Crawling/download'

if not os.path.exists(folder):
    os.makedirs(folder)
    
image_path = os.path.join(folder, image_file_name)

imageFile = open(image_path, 'wb')

chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

#### * `select('a img')` : 해당 이미지의 요소가 추출

In [28]:
import requests
from bs4 import BeautifulSoup

URL = 'https://reshot.com/search/animal'

html_reshot_image = requests.get(URL).text
soup_reshot_image = BeautifulSoup(html_reshot_image, 'lxml')
reshot_image_elements = soup_reshot_image.select('a img')
reshot_image_elements[0:4]

[<img alt="Reshot" height="33" src="https://www.reshot.com/build/reshot-logo--mark-cc49363ac3f7876f854286af4266ead51a7ff9e0fa12f30677c9e758d43dd0d1.svg" title="Reshot" width="46"/>,
 <img alt="" class="photos-item-card__image" height="2448" loading="lazy" src="https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1521838685/photosp/bae96789-a5ab-4471-b54f-9686ace09e33/bae96789-a5ab-4471-b54f-9686ace09e33.jpg" width="2448"/>,
 <img alt="Back off!" class="photos-item-card__image" height="2361" loading="lazy" src="https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1597098233/photosp/a44357c5-b1c3-41ef-9a65-7a4937b06a44/a44357c5-b1c3-41ef-9a65-7a4937b06a44.jpg" width="3148"/>,
 <img alt="Orphans" class="photos-item-card__image" height="3375" loading="lazy" src="https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1617578418/photosp/34fd9c70-8996-4706-a0f1-113231ed3eee/34fd9c70-8996-4706-a0f1-113231ed3eee.jpg" width="3375"/>]

### 2) 여러 개의 이미지 내려 받기

#### * 위의 출력 결과에서 img 태그가 포함된 이미지가 있는 요소가 추출된 것을 확인
#### * 리스트 reshot_image_elements의 첫 번째 요소 : reshot의 로고 이미지
#### * 동물 이미지만 가져오기 위해서는 reshot_image_elements[1:]을 이용

#### * BeautifulSoup에서 `get('속성')` : '속성'에 들어간 '속성값'을 return
#### * 추출된 요소에서 `src`의 속성값인 이미지 구하기

In [29]:
reshot_image_url = reshot_image_elements[1].get('src')
reshot_image_url

'https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1521838685/photosp/bae96789-a5ab-4471-b54f-9686ace09e33/bae96789-a5ab-4471-b54f-9686ace09e33.jpg'

#### * 이미지의 주소를 알고 있을 때 이미지 내려 받는 방법

In [30]:
html_image = requests.get(reshot_image_url)

folder = 'C:/Web_Crawling/download'

#os.path.basename(URL)은 웹사이트나 폴더가 포함된 파일명에서 파일명만 분리
imageFile = open(os.path.join(folder, os.path.basename(reshot_image_url)), 'wb')

#이미지 데이터를 1000000 바이트씩 나눠서 저장
chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

#### * 함수로 만들고 반복문으로 지정한 개수만큼 이미지를 내려받는 코드

In [34]:
import requests
from bs4 import BeautifulSoup
import os

# URL에서 이미지 주소 추출
def get_image_url(url):
    html_image_url = requests.get(url).text
    soup_image_url = BeautifulSoup(html_image_url, 'lxml')
    image_elements = soup_image_url.select('img')
    if(image_elements != None):
        image_urls = []
        for image_element in image_elements:
            image_urls.append(image_element.get('src'))
        return image_urls
    else:
        return None
    
# 폴더를 지정해 이미지 주소에서 이미지 내려받기
def download_image(img_folder, img_url):
    if(img_url != None):
        html_image=requests.get(img_url)
        imageFile = open(os.path.join(img_folder, os.path.basename(img_url)), 'wb')
        
        chunk_size = 1000000
        for chunk in html_image.iter_content(chunk_size):
            imageFile.write(chunk)
            imageFile.close()
        print('이미지 파일명 : "{0}".내려받기 완료!'.format(os.path.basename(img_url)))
    else:
        print('내려받을 이미지가 없음')
        
# 웹사이트 주소 지정
reshot_url = 'https://www.reshot.com/search/animal'

figure_folder = "C:/Web_Crawling/download"

reshot_image_urls = get_image_url(reshot_url) #이미지 파일의 주소 가져오기

num_of_download_image = 7 # 내려받을 이미지 개수 지정
#num_of_download_image = len(reshot_image_urls)

for k in range(num_of_download_image):
    download_image(figure_folder, reshot_image_urls[k])
print('==================================')
print('선택한 모든 이미지 내려받기 완료')

이미지 파일명 : "reshot-logo--mark-cc49363ac3f7876f854286af4266ead51a7ff9e0fa12f30677c9e758d43dd0d1.svg".내려받기 완료!
이미지 파일명 : "bae96789-a5ab-4471-b54f-9686ace09e33.jpg".내려받기 완료!
이미지 파일명 : "a44357c5-b1c3-41ef-9a65-7a4937b06a44.jpg".내려받기 완료!
이미지 파일명 : "34fd9c70-8996-4706-a0f1-113231ed3eee.jpg".내려받기 완료!
이미지 파일명 : "dbd9fa3b-238b-47b1-8e20-c05400cbe921.jpg".내려받기 완료!
이미지 파일명 : "737d192f-ba38-4a71-9bb9-9d40b45d0263.jpg".내려받기 완료!
이미지 파일명 : "c3c3604d-36eb-4f8a-9768-cebc0749d5a5.jpg".내려받기 완료!
선택한 모든 이미지 내려받기 완료


#### * `len(reshot_image_urls)` : 이미지가 몇 개 있는지 확인

In [35]:
num_of_download_image = len(reshot_image_urls)
num_of_download_image

54