# Industry 4.0 의 중심, BigData

<div align='right'><font size=2 color='gray'>Data Processing Based Python @ <font color='blue'><a href='https://www.facebook.com/jskim.kr'>FB / jskim.kr</a></font>, [김진수](bigpycraft@gmail.com)</font></div>
<hr>

## <font color='brown'>웹 스크레이핑을 위한 기본 지식 </font>

### HTML의 기본 구조

In [1]:
! mkdir htmltest

In [2]:
%%writefile ./htmltest/HTML_example.html 
<!doctype html>
<html>
 <head>
  <meta charset="utf-8">
  <title>이것은 HTML 예제</title>
 </head>
 <body>
  <h1>출간된 책 정보</h1>
  <p id="book_title">이해가 쏙쏙 되는 파이썬</p>
  <p id="author">홍길동</p>
  <p id="publisher">위키북스 출판사</p>
  <p id="year">2018</p>
 </body>
</html>

Writing ./htmltest/HTML_example.html


In [3]:
%%writefile ./htmltest/HTML_example2.html 
<!doctype html>
<html>
 <head>
  <meta charset="utf-8">
  <title>이것은 HTML 예제</title>
 </head>
 <body>
  <h1>출간된 책 정보</h1>
  <p>이해가 쏙쏙 되는 파이썬</p>
  <p>홍길동</p>
  <p>위키북스 출판사</p>
  <p>2018</p>
 </body>
</html>

Writing ./htmltest/HTML_example2.html


### 웹 페이지의 HTML 소스 갖고 오기

In [4]:
import requests

res = requests.get("https://www.google.co.kr")
res

<Response [200]>

In [5]:
res.text[0:300]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="BQtSMZrbIn9nEr4z'

In [6]:
import requests

html = requests.get("https://www.google.co.kr").text
html[0:300]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="yR9SHg9SdUvqK6Ok'

In [7]:
type(res), type(html)

(requests.models.Response, str)

### HTML 소스코드를 분석하고 처리하기

#### 데이터 찾고 추출하기

In [8]:
from bs4 import BeautifulSoup

# 테스트용 html 코드
html = """
<html><body><div><span>
<a href=http://www.naver.com>naver</a>
<a href=https://www.google.com>google</a>
<a href=http://www.daum.net/>daum</a>
</span></div></body></html>
""" 

# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml') 
soup

<html><body><div><span>
<a href="http://www.naver.com">naver</a>
<a href="https://www.google.com">google</a>
<a href="http://www.daum.net/">daum</a>
</span></div></body></html>

In [9]:
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>



In [10]:
soup.find('a')

<a href="http://www.naver.com">naver</a>

In [11]:
soup.find('a').get_text()

'naver'

In [12]:
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="http://www.daum.net/">daum</a>]

In [13]:
site_names = soup.find_all('a')
for site_name in site_names:
    print(site_name.get_text())

naver
google
daum


In [14]:
from bs4 import BeautifulSoup

# 테스트용 HTML 코드
html2 = """
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head>
 <body>
  <h1>책 정보</h1>
  <p class="book_title">토지</p>
  <p class="author">박경리</p>
  
  <p class="book_title">태백산맥</p>
  <p class="author">조정래</p>

  <p class="book_title">감옥으로부터의 사색</p>
  <p class="author">신영복</p>
 </body>
</html>
""" 

soup2 = BeautifulSoup(html2, "lxml")

In [15]:
soup2.title

<title>작품과 작가 모음</title>

In [16]:
soup2.body

<body>
<h1>책 정보</h1>
<p class="book_title">토지</p>
<p class="author">박경리</p>
<p class="book_title">태백산맥</p>
<p class="author">조정래</p>
<p class="book_title">감옥으로부터의 사색</p>
<p class="author">신영복</p>
</body>

In [17]:
soup2.body.h1

<h1>책 정보</h1>

In [18]:
soup2.body.p

<p class="book_title">토지</p>

In [19]:
soup2.find('p')

<p class="book_title">토지</p>

In [20]:
soup2.find_all('p')

[<p class="book_title">토지</p>,
 <p class="author">박경리</p>,
 <p class="book_title">태백산맥</p>,
 <p class="author">조정래</p>,
 <p class="book_title">감옥으로부터의 사색</p>,
 <p class="author">신영복</p>]

In [21]:
soup2.find('p', 'book_title')

<p class="book_title">토지</p>

In [22]:
soup2.find('p', 'author')

<p class="author">박경리</p>

In [23]:
soup2.find_all('p', 'book_title')

[<p class="book_title">토지</p>,
 <p class="book_title">태백산맥</p>,
 <p class="book_title">감옥으로부터의 사색</p>]

In [24]:
soup2.find_all('p', 'author')

[<p class="author">박경리</p>,
 <p class="author">조정래</p>,
 <p class="author">신영복</p>]

In [25]:
from bs4 import BeautifulSoup

soup2 = BeautifulSoup(html2, "lxml")

book_titles = soup2.find_all('p', 'book_title')
authors     = soup2.find_all('p', 'author')

for book_title, author in zip(book_titles, authors):
    print(' - {} / {} '.format(book_title.get_text(), author.get_text()))

 - 토지 / 박경리 
 - 태백산맥 / 조정래 
 - 감옥으로부터의 사색 / 신영복 


## <font color='brown'>웹 사이트에서 데이터 가져오기 </font>

### 순위 데이터를 가져오기


#### 웹 사이트 순위

In [26]:
import requests  
from bs4 import BeautifulSoup 

url = "https://www.alexa.com/topsites/countries/KR"

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, "lxml")

# p 태그의 요소 안에서 a 태그의 요소를 찾음
website_ranking = soup_website_ranking.select('p a')

In [27]:
website_ranking = soup_website_ranking.find_all('div')
len(website_ranking)

501

In [28]:
website_ranking = soup_website_ranking.find_all('div', 'tr site-listing')
len(website_ranking)

50

In [29]:
tmp = website_ranking[0]
tmp

<div class="tr site-listing">
<div class="td number">1</div>
<div class="td DescriptionCell">
<p class="">
<a href="/siteinfo/naver.com">Naver.com</a>
</p>
<div class="description">
 <span class="remainder"></span>
</div>
</div>
<div class="td right"><p>14:11</p></div>
<div class="td right"><p>8.46</p></div>
<div class="td right"><p>9.00%</p></div>
<div class="td right"><p>75,421</p></div>
</div>

In [30]:
tmp1 = tmp.find('div', 'td number')
tmp1

<div class="td number">1</div>

In [31]:
tmp2 = tmp.find('a')
tmp2

<a href="/siteinfo/naver.com">Naver.com</a>

In [32]:
rank = tmp1.get_text()
rank

'1'

In [33]:
site = tmp2.get_text()
site

'Naver.com'

In [34]:
link = tmp2['href']
link

'/siteinfo/naver.com'

In [35]:
Rank = []
Site = []
Link = []

print("[Top Sites in South Korea]")
print("-"*50)
for idx in range(len(website_ranking)):
    tmp = website_ranking[idx]
    tmp1 = tmp.find('div', 'td number')
    tmp2 = tmp.find('a')
    rank = tmp1.get_text()
    site = tmp2.get_text()
    link = tmp2['href']
    
    print("{}위. {} ({})".format(rank, site, link))
    
    Rank.append(rank)
    Site.append(site)
    Link.append(link)


[Top Sites in South Korea]
--------------------------------------------------
1위. Naver.com (/siteinfo/naver.com)
2위. Youtube.com (/siteinfo/youtube.com)
3위. Google.co.kr (/siteinfo/google.co.kr)
4위. Google.com (/siteinfo/google.com)
5위. Daum.net (/siteinfo/daum.net)
6위. Tistory.com (/siteinfo/tistory.com)
7위. Namu.wiki (/siteinfo/namu.wiki)
8위. Facebook.com (/siteinfo/facebook.com)
9위. Dcinside.com (/siteinfo/dcinside.com)
10위. Wikipedia.org (/siteinfo/wikipedia.org)
11위. Gmarket.co.kr (/siteinfo/gmarket.co.kr)
12위. Twitter.com (/siteinfo/twitter.com)
13위. Ruliweb.com (/siteinfo/ruliweb.com)
14위. Blog.me (/siteinfo/blog.me)
15위. Instagram.com (/siteinfo/instagram.com)
16위. Twitch.tv (/siteinfo/twitch.tv)
17위. 11st.co.kr (/siteinfo/11st.co.kr)
18위. Auction.co.kr (/siteinfo/auction.co.kr)
19위. Baidu.com (/siteinfo/baidu.com)
20위. Inven.co.kr (/siteinfo/inven.co.kr)
21위. Donga.com (/siteinfo/donga.com)
22위. Qq.com (/siteinfo/qq.com)
23위. Tmall.com (/siteinfo/tmall.com)
24위. Amazon.com (/

In [36]:
Rank[:5]

['1', '2', '3', '4', '5']

In [37]:
Site[:5]

['Naver.com', 'Youtube.com', 'Google.co.kr', 'Google.com', 'Daum.net']

In [38]:
Link[:5]

['/siteinfo/naver.com',
 '/siteinfo/youtube.com',
 '/siteinfo/google.co.kr',
 '/siteinfo/google.com',
 '/siteinfo/daum.net']

In [39]:
import pandas as pd

data = {'Rank':Rank, 'Site':Site, 'Link':Link}
df = pd.DataFrame(data)

In [40]:
df.head()

Unnamed: 0,Link,Rank,Site
0,/siteinfo/naver.com,1,Naver.com
1,/siteinfo/youtube.com,2,Youtube.com
2,/siteinfo/google.co.kr,3,Google.co.kr
3,/siteinfo/google.com,4,Google.com
4,/siteinfo/daum.net,5,Daum.net


In [41]:
df.set_index('Rank', inplace=True)
df.head()

Unnamed: 0_level_0,Link,Site
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,/siteinfo/naver.com,Naver.com
2,/siteinfo/youtube.com,Youtube.com
3,/siteinfo/google.co.kr,Google.co.kr
4,/siteinfo/google.com,Google.com
5,/siteinfo/daum.net,Daum.net


#### 주간 음악 순위

In [42]:
import requests
from bs4 import BeautifulSoup

url = "https://music.naver.com/listen/history/index.nhn?type=TOTAL&year=2018&month=11&week=1"
html_music = requests.get(url).text
soup_music = BeautifulSoup(html_music, "lxml")

# a 태그의 요소 중에서 class 속성값이 "_title" 인 것을 찾고
# 그 안에서 span 태그의 요소 중에서 class 속성값이 "ellipsis"인 요소를 추출
titles = soup_music.select('a._title span.ellipsis') 
titles[0:7]

[<span class="ellipsis">너를 만나</span>,
 <span class="ellipsis">삐삐</span>,
 <span class="ellipsis">가을 타나 봐</span>,
 <span class="ellipsis">하루도 그대를 사랑하지 않은 적이 없었다</span>,
 <span class="ellipsis">모든 날, 모든 순간 (Every day, Every Moment)</span>,
 <span class="ellipsis">멋지게 인사하는 법 (Feat. 슬기 of Red Velvet)</span>,
 <span class="ellipsis">Good Day (Feat. 팔로알토) (Prod. 코드 쿤스트)</span>]

In [43]:
music_titles = [title.get_text() for title in titles]

In [44]:
music_titles[0:7]

['너를 만나',
 '삐삐',
 '가을 타나 봐',
 '하루도 그대를 사랑하지 않은 적이 없었다',
 '모든 날, 모든 순간 (Every day, Every Moment)',
 '멋지게 인사하는 법 (Feat. 슬기 of Red Velvet)',
 'Good Day (Feat. 팔로알토) (Prod. 코드 쿤스트)']

In [45]:
# a 태그의 요소 중에서 class 속성값이 "_artist" 인 것을 찾고
# 그 안에서 span 태그의 요소 중에서 class 속성값이 "ellipsis"인 요소를 추출
artists = soup_music.select('a._artist span.ellipsis') 
artists[0].get_text()

'\r\n\t\t\t\r\n\t\t\t\r\n\t\t\t폴킴\r\n\t\t'

In [46]:
artists[0].get_text().strip()

'폴킴'

In [47]:
music_artists = [artist.get_text().strip() for artist in artists]

In [48]:
music_artists[0:7]

['폴킴', '아이유(IU)', '바이브', '임창정', '폴킴', 'Zion.T', '루피(Loopy)']

In [49]:
# td 태그의 요소 중에서 class 속성값이 "_artist" 인 것을 찾고
# 그 안에서 a 태그의 요소를 추출
artists = soup_music.select('td._artist a')

In [50]:
artists[0]

<a class="_artist NPI=a:artist,r:1,i:383616" href="/artist/home.nhn?artistId=383616" title="폴킴">
<span class="ellipsis">
			
			
			폴킴
		</span>
</a>

In [51]:
artists[4]

<a class="_artist NPI=a:artist,r:5,i:383616" href="/artist/home.nhn?artistId=383616" title="폴킴">
<span class="ellipsis">
			
			
			폴킴
		</span>
</a>

In [52]:
artists[0].get_text().strip()

'폴킴'

In [53]:
artists[4].get_text().strip()

'폴킴'

In [54]:
music_artists = [artist.get_text().strip() for artist in artists]

In [55]:
music_artists[0:7]

['폴킴', '아이유(IU)', '바이브', '임창정', '폴킴', 'Zion.T', 'pH-1']

In [56]:
import requests
from bs4 import BeautifulSoup
 
url = 'https://music.naver.com/listen/history/index.nhn?type=DOMESTIC&year=2018&month=11&week=1&page=1'
# url = "https://music.naver.com/listen/history/index.nhn?type=DOMESTIC&year=2018&month=12&week=1&page=2"
# url = "http://music.naver.com/listen/top100.nhn?domain=TOTAL&page=1"
    
html_music = requests.get(url).text
soup_music = BeautifulSoup(html_music, "lxml")

titles = soup_music.select('a._title span.ellipsis') 
artists = soup_music.select('td._artist a')

music_titles = [title.get_text() for title in titles]
music_artists = [artist.get_text().strip() for artist in artists]

for k in range(7):
    print("{0}: {1} / {2}".format(k+1, music_titles[k], music_artists[k]))

1: 너를 만나 / 폴킴
2: 삐삐 / 아이유(IU)
3: 가을 타나 봐 / 바이브
4: 하루도 그대를 사랑하지 않은 적이 없었다 / 임창정
5: 모든 날, 모든 순간 (Every day, Every Moment) / 폴킴
6: 멋지게 인사하는 법 (Feat. 슬기 of Red Velvet) / Zion.T
7: Good Day (Feat. 팔로알토) (Prod. 코드 쿤스트) / pH-1


In [57]:
music_titles_artists={}
order = 0

for (music_title, music_artist) in zip(music_titles, music_artists):
    order = order + 1
    music_titles_artists[order] = [music_title, music_artist]

In [58]:
music_titles_artists[1]

['너를 만나', '폴킴']

In [59]:
music_titles_artists[2]

['삐삐', '아이유(IU)']

In [60]:
import requests
from bs4 import BeautifulSoup
import glob
    
naver_music_url = "http://music.naver.com/listen/history/index.nhn?type=DOMESTIC&year=2017&month=12&week=1&page="
 
# 네이버 music 주소를 입력하면 노래 제목과 아티스트를 반환
def naver_music(url):    
    html_music = requests.get(url).text
    soup_music = BeautifulSoup(html_music, "lxml")

    titles = soup_music.select('a._title span.ellipsis') 
    artists = soup_music.select('td._artist a')

    music_titles = [title.get_text() for title in titles]
    music_artists = [artist.get_text().strip() for artist in artists]
    
    return music_titles, music_artists

# 노래 제목과 아티스트를 저장할 파일 이름을 폴더와 함께 지정
file_name = './htmltest/NaverMusicTop100.txt'

f = open(file_name,'w') # 파일 열기

# 각 page에는 50개의 노래 제목과 아티스트가 추출됨
for page in range(2):
    naver_music_url_page = naver_music_url + str(page+1) # page URL
    nave_music_titles, naver_music_artists = naver_music(naver_music_url_page)
    
    # 추출된 노래 제목과 아티스트를 파일에 저장 
    for k in range(len(music_titles_artists)):
        f.write("{0:2d}: {1}/{2}\n".format(page*50 + k+1, nave_music_titles[k],  naver_music_artists[k]))

f.close() # 파일 닫기

glob.glob(file_name) # 생성된 파일 확인

['./htmltest/NaverMusicTop100.txt']

### 웹 페이지에서 이미지 가져오기

#### 하나의 이미지 내려받기

In [61]:
import requests  

url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
html_image

<Response [200]>

In [62]:
import os

image_file_name = os.path.basename(url)
image_file_name

'python-logo.png'

In [63]:
folder = './htmltest/download' 

if not os.path.exists(folder):
    os.makedirs(folder)

In [64]:
image_path = os.path.join(folder, image_file_name)
image_path

'./htmltest/download\\python-logo.png'

In [65]:
imageFile = open(image_path, 'wb')

In [66]:
# 이미지 데이터를 100000 바이트씩 나눠서 내려받고 파일에 순차적으로 저장
chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

In [67]:
os.listdir(folder)

['python-logo.png']

In [68]:
import requests  
import os

url = 'https://www.python.org/static/img/python-logo.png'
image_file_name = os.path.basename(url)

folder = './htmltest/download' 

if not os.path.exists(folder):
    os.makedirs(folder)

image_path = os.path.join(folder, image_file_name)

imageFile = open(image_path, 'wb')
# 이미지 데이터를 100000 바이트씩 나눠서 저장
chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

#### 여러 이미지 내려받기

In [69]:
import requests  
from bs4 import BeautifulSoup 

URL = 'https://pixabay.com/ko/photos/?order=popular&cat=animals'

html_pixabay_image = requests.get(URL).text
soup_pixabay_image = BeautifulSoup(html_pixabay_image, "lxml")
pixabay_image_elements = soup_pixabay_image.select('img') 
pixabay_image_elements[0:3]

[<img alt="꿀벌 먹는 사람, 색상, 새 들, 지점, 가까운, 국" src="https://cdn.pixabay.com/photo/2018/10/15/18/32/bee-eaters-3749679__340.jpg" srcset="https://cdn.pixabay.com/photo/2018/10/15/18/32/bee-eaters-3749679__340.jpg 1x, https://cdn.pixabay.com/photo/2018/10/15/18/32/bee-eaters-3749679__480.jpg 2x"/>,
 <img alt="자연, 태양, 구름, 동물, 새, 왜라기, 나는, 일몰, 해돋이, 배너" src="https://cdn.pixabay.com/photo/2018/11/01/14/37/nature-3788312__340.jpg" srcset="https://cdn.pixabay.com/photo/2018/11/01/14/37/nature-3788312__340.jpg 1x, https://cdn.pixabay.com/photo/2018/11/01/14/37/nature-3788312__480.jpg 2x"/>,
 <img alt="염소, 염소 보모, 동물, 포유 동물, 반추 동물, 머리, 뿔, 귀, 눈" src="https://cdn.pixabay.com/photo/2018/11/02/11/07/goat-3790060__340.jpg" srcset="https://cdn.pixabay.com/photo/2018/11/02/11/07/goat-3790060__340.jpg 1x, https://cdn.pixabay.com/photo/2018/11/02/11/07/goat-3790060__480.jpg 2x"/>]

In [70]:
pixabay_image_url = pixabay_image_elements[0].get('src')
pixabay_image_url

'https://cdn.pixabay.com/photo/2018/10/15/18/32/bee-eaters-3749679__340.jpg'

In [71]:
html_image = requests.get(pixabay_image_url)

folder = "./htmltest/download"
    
# os.path.basename(URL)는 웹사이트나 폴더가 포함된 파일명에서 파일명만 분리하는 방법    
imageFile = open(os.path.join(folder, os.path.basename(pixabay_image_url)), 'wb')

# 이미지 데이터를 100000 바이트씩 나눠서 저장하는 방법
chunk_size = 1000000 
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

In [72]:
import requests  
from bs4 import BeautifulSoup 
import os

# URL(주소)에서 이미지 주소 추출
def get_image_url(url): 
    html_image_url = requests.get(url).text
    soup_image_url = BeautifulSoup(html_image_url, "lxml")  
    image_elements = soup_image_url.select('img') 
    if(image_elements != None):
        image_urls = []
        for image_element in image_elements:
            image_urls.append(image_element.get('src'))
        return image_urls        
    else:
        return None
    
# 폴더를 지정해 이미지 주소에서 이미지 내려받기
def download_image(img_folder, img_url):
    if(img_url != None):  
        html_image = requests.get(img_url)
        # os.path.basename(URL)는 웹사이트나 폴더가 포함된 파일명에서 파일명만 분리    
        imageFile = open(os.path.join(img_folder, os.path.basename(img_url)), 'wb')

        chunk_size = 1000000 # 이미지 데이터를 100000 바이트씩 나눠서 저장
        for chunk in html_image.iter_content(chunk_size):
            imageFile.write(chunk)
            imageFile.close()
        print("이미지 파일명: '{0}'. 내려받기 완료!".format(os.path.basename(img_url))) 
    else:       
        print("내려받을 이미지가 없습니다.")
        
# 웹 사이트의 주소 지정   
pixabay_url = 'https://pixabay.com/ko/photos/?order=popular&cat=animals'
# pixabay_url= 'https://pixabay.com/ko/photos/?order=popular&cat=animals&pagi=2'

figure_folder = "./htmltest/download" # 이미지를 내려받을 폴더 지정  

pixabay_image_urls = get_image_url(pixabay_url) # 이미지 파일의 주소 가져오기

num_of_download_image = 7 # 내려받을 이미지 개수 지정
# num_of_download_image = len(pixabay_image_urls)

for k in range(num_of_download_image):
    download_image(figure_folder,pixabay_image_urls[k])
print("================================")
print("선택한 모든 이미지 내려받기 완료!")

이미지 파일명: 'bee-eaters-3749679__340.jpg'. 내려받기 완료!
이미지 파일명: 'nature-3788312__340.jpg'. 내려받기 완료!
이미지 파일명: 'goat-3790060__340.jpg'. 내려받기 완료!
이미지 파일명: 'kuhnase-3777407__340.jpg'. 내려받기 완료!
이미지 파일명: 'canada-goose-3788091__340.jpg'. 내려받기 완료!
이미지 파일명: 'tiger-3784924__340.jpg'. 내려받기 완료!
이미지 파일명: 'animal-3786987__340.jpg'. 내려받기 완료!
선택한 모든 이미지 내려받기 완료!


In [73]:
num_of_download_image = len(pixabay_image_urls)
num_of_download_image

100

<hr>
<marquee><font size=3 color='brown'>The BigpyCraft find the information to design valuable society with Technology & Craft.</font></marquee>
<div align='right'><font size=2 color='gray'> &lt; The End &gt; </font></div>