# 웹 사이트 데이터 가져오기

#### 웹 스크레핑시 주의 사항

- 웹 페이지의 소스코드에서 '데이터를 얻기 위한 규칙을 발견'할 수 있어야 함  
- 파이썬 코드를 이용해 해당 '웹 사이트에 너무 빈번하게 접근'하지 말아야 함  
(빈번한 접근에 의한 과부하로 서버측에서 접근을 차단할 수도 있음)  
(해킹하는 것으로 오해를 받을 여지가 있으므로 주의 요망)  
- 웹 사이트의 소스코드는 '예고 없이 변경'될 수 있음  
- 인터넷 상에 공개된 '데이터'도 '저작권이 있는 경우가' 있음  

## 순위 사이트 데이터 가져오기

### 빌보드차트 사이트 데이터 가져오기

빌보드차트 사이트

- 미국 음악 순위 차트
https://www.billboard.com/charts/hot-100

### 관심위치에서 요소검사

### 곡명을 가져오기 위해 해당 위치에서 검사
- 관심 데이터의 위치에서 오른쪽 마우스 클릭-> 검사(익스플로러에서는 요소검사)  
- select()의 인자로 쓸 태그 확인
(chart-element__information__song)
(chart-element__information__artist)

### 곡명 데이터 가져오기

In [2]:
# 빌보드차트로부터 곡명 태그요소 가져오기

import requests
from bs4 import BeautifulSoup

url ="https://www.billboard.com/charts/hot-100"

html_music = requests.get(url).text  # 요청 사이트 html소스 가져오기
soup_music = BeautifulSoup(html_music,'lxml') # html 데이터 파싱하여 soup_music에 저장

# 파싱된 데이터 soup_music으로부터 곡명 데이터가 위치한 태그 요소 추출
titles= soup_music.select('span.chart-element__information__song')
titles

[<span class="chart-element__information__song text--truncate color--primary">Mood</span>,
 <span class="chart-element__information__song text--truncate color--primary">WAP</span>,
 <span class="chart-element__information__song text--truncate color--primary">Laugh Now Cry Later</span>,
 <span class="chart-element__information__song text--truncate color--primary">Blinding Lights</span>,
 <span class="chart-element__information__song text--truncate color--primary">Savage Love (Laxed - Siren Beat)</span>,
 <span class="chart-element__information__song text--truncate color--primary">I Hope</span>,
 <span class="chart-element__information__song text--truncate color--primary">Dynamite</span>,
 <span class="chart-element__information__song text--truncate color--primary">Rockstar</span>,
 <span class="chart-element__information__song text--truncate color--primary">Holy</span>,
 <span class="chart-element__information__song text--truncate color--primary">Lemonade</span>,
 <span class="chart-ele

In [3]:
# 태그 요소 항목으로부터 곡명(텍스트) 추출

music_titles =[]    # 추출한 곡명을 담을 리스트

for title in titles:
    st_title = title.get_text().strip() # 문자열(텍스트)만 가져온 뒤 앞 뒤 개행문자나 공백 제거
    music_titles.append(st_title)   # music_titles 리스트에 한 곡명씩 추가
    
music_titles

['Mood',
 'WAP',
 'Laugh Now Cry Later',
 'Blinding Lights',
 'Savage Love (Laxed - Siren Beat)',
 'I Hope',
 'Dynamite',
 'Rockstar',
 'Holy',
 'Lemonade',
 'Watermelon Sugar',
 'Before You Go',
 'For The Night',
 'Lonely',
 'Go Crazy',
 'Got What I Got',
 'One Of Them Girls',
 'Whats Poppin',
 'Circles',
 'Be Like That',
 'Dreams',
 'Come & Go',
 'Said Sum',
 'Kings & Queens',
 'What You Know Bout Love',
 'Bang!',
 'ily',
 'More Than My Hometown',
 'Some Girls',
 'Wonder',
 'Adore You',
 'The Woo',
 'Roses',
 'Break My Heart',
 'Whole Lotta Choppas',
 "Don't Start Now",
 'One Beer',
 'Rags2Riches',
 'Franchise',
 'Mood Swings',
 'Love You Like I Used To',
 'Mr. Right Now',
 'I Should Probably Go To Bed',
 'Pretty Heart',
 "Lovin' On You",
 'Popstar',
 'Levitating',
 'Midnight Sky',
 'Happy Anywhere',
 'Runnin',
 '24',
 "You're Mines Still",
 'Tap In',
 "My Ex's Best Friend",
 'Wishing Well',
 'Everywhere But On',
 'Better Together',
 'You Broke Me First.',
 'Hawai',
 'Diamonds',
 '7 

### 아티스트 데이터 가져오기

In [4]:
#파싱된 데이터에서 아티스트 태그요소 가져오고 아티스트(텍스트)추출하기

# 앞에서 파싱된 데이터 soup_music으로부터 아티스트 데이터가 위치한 태그 요소 추출

artists= soup_music.select('span.chart-element__information__artist')
artists

music_artists =[]
for artist in artists:
    st_artist= artist.get_text().strip()  # 텍스트만 가져온 뒤 앞 뒤 개행문자나 공백 제거
    music_artists.append(st_artist)  
    
music_artists

['24kGoldn Featuring iann dior',
 'Cardi B Featuring Megan Thee Stallion',
 'Drake Featuring Lil Durk',
 'The Weeknd',
 'Jawsh 685 x Jason Derulo',
 'Gabby Barrett Featuring Charlie Puth',
 'BTS',
 'DaBaby Featuring Roddy Ricch',
 'Justin Bieber Featuring Chance The Rapper',
 'Internet Money & Gunna Featuring Don Toliver & NAV',
 'Harry Styles',
 'Lewis Capaldi',
 'Pop Smoke Featuring Lil Baby & DaBaby',
 'Justin Bieber & benny blanco',
 'Chris Brown & Young Thug',
 'Jason Aldean',
 'Lee Brice',
 'Jack Harlow Featuring DaBaby, Tory Lanez & Lil Wayne',
 'Post Malone',
 'Kane Brown With Swae Lee & Khalid',
 'Fleetwood Mac',
 'Juice WRLD x Marshmello',
 'Moneybagg Yo',
 'Ava Max',
 'Pop Smoke',
 'AJR',
 'surf mesa Featuring Emilee',
 'Morgan Wallen',
 'Jameson Rodgers',
 'Shawn Mendes',
 'Harry Styles',
 'Pop Smoke Featuring 50 Cent & Roddy Ricch',
 'SAINt JHN',
 'Dua Lipa',
 'Sada Baby Featuring Nicki Minaj',
 'Dua Lipa',
 'HARDY Featuring Lauren Alaina & Devin Dawson',
 'Rod Wave Featur

In [5]:
music_artists[0]

'24kGoldn Featuring iann dior'

### 빌보트차트 순위 가져오기

In [6]:
# 곡명과 아티스트 데이터를 정리하여 출력

import datetime
now=datetime.datetime.now()
print("========%s년%s월%s일 빌보드 Top 100========\n"%(now.year,now.month,now.day))

for k in range(100):
    print("%s: %s / %s" %(k+1,music_titles[k],music_artists[k]))


1: Mood / 24kGoldn Featuring iann dior
2: WAP / Cardi B Featuring Megan Thee Stallion
3: Laugh Now Cry Later / Drake Featuring Lil Durk
4: Blinding Lights / The Weeknd
5: Savage Love (Laxed - Siren Beat) / Jawsh 685 x Jason Derulo
6: I Hope / Gabby Barrett Featuring Charlie Puth
7: Dynamite / BTS
8: Rockstar / DaBaby Featuring Roddy Ricch
9: Holy / Justin Bieber Featuring Chance The Rapper
10: Lemonade / Internet Money & Gunna Featuring Don Toliver & NAV
11: Watermelon Sugar / Harry Styles
12: Before You Go / Lewis Capaldi
13: For The Night / Pop Smoke Featuring Lil Baby & DaBaby
14: Lonely / Justin Bieber & benny blanco
15: Go Crazy / Chris Brown & Young Thug
16: Got What I Got / Jason Aldean
17: One Of Them Girls / Lee Brice
18: Whats Poppin / Jack Harlow Featuring DaBaby, Tory Lanez & Lil Wayne
19: Circles / Post Malone
20: Be Like That / Kane Brown With Swae Lee & Khalid
21: Dreams / Fleetwood Mac
22: Come & Go / Juice WRLD x Marshmello
23: Said Sum / Moneybagg Yo
24: Kings & Quee

## 이미지 데이터 가져오기

### 웹 사이트에서 이미지 데이터 가져오기

무료 픽토그램 사이트
-  https://iconmonstr.com/


### 관심위치에서 요소검사

In [None]:
# 이미지를 가져오기 위해 해당 위치에서 검사

# 1. 검사 -> 2. select()의 인자로 쓸 태그 확인

### 이미지 주소의 태그요소 가져오기

In [7]:
# 이미지 사이트로부터 이미지 주소 태그요소 가져오기

import requests
from bs4 import BeautifulSoup

URL = 'https://iconmonstr.com/'
h_image = requests.get(URL).text
l_image = BeautifulSoup(h_image,'lxml')
s_image = l_image.select('img.favorite') # 공개이미지가 아니라서 소스가 없는 것 같음
s_image

[]

In [8]:
import requests
from bs4 import BeautifulSoup

URL='https://iconmonstr.com/'
html_image = requests.get(URL).text  # 요청 사이트 html 소스 가져오기
soup_image = BeautifulSoup(html_image,'lxml') # html 데이터 파싱하여 soup_image에 저장

# 파싱된 데이터 soup_image으로부터 이미지 주소가 위치한 태그 요소 추출
image_elements = soup_image.select('img.preload')
image_elements

[<img class="preload" height="1" src="https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-fish-1.png" width="1"/>,
 <img class="preload" height="1" src="https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-fish-2.png" width="1"/>,
 <img class="preload" height="1" src="https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-process-1.png" width="1"/>,
 <img class="preload" height="1" src="https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-process-2.png" width="1"/>,
 <img class="preload" height="1" src="https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-friend-1.png" width="1"/>,
 <img class="preload" height="1" src="https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-friend-2.png" width="1"/>,
 <img class="preload" height="1" src="https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-friend-3.png" width="1"/>,
 <img class="preload" height=

### 이미지가 저장된 주소만 가져오기

In [9]:
# .get('속성')은 속성이 들어간 '속성값'만 반환하는 함수

img_urls=[]

for img in image_elements: # 리스트로 저장된 image_elements로 부터 주소 하나씩 반복변수 img에 가져옴
    img_url = img.get('src') # src 속성의 값인 주소만 가져옴
    img_urls.append(img_url)
    
img_urls

['https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-fish-1.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-fish-2.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-process-1.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-process-2.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-friend-1.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-friend-2.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-friend-3.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-friend-4.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-friend-5.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2020/240/iconmonstr-friend-6.png',
 'https://cdns.iconmonstr.com/wp-content/assets/preview/2019/240/iconmonstr-school-21.png',


### 이미지 내려받기

In [None]:
# 각 이미지 주소에 접속하여 이미지 내려받기

- 탐색기에서'‘C:\myCode\download’ 폴더 만들기
- os.path.basename(url) : url 경로에서 마지막 파일명 부분만 가져오기
- urllib.request.urlretrieve(url,저장위치) : url로부터 파일 저장위치에 다운로드

In [None]:
import urllib
import os

folder = r'C:\Users\user\Documents\주피터노트북\download' # PC에 다운받을 폴더 위치

for url in img_urls:  # 앞서 생성한 img_urls로부터 이미지 주소 하나씩 url에 가져오기
    save_path = folder + '/' + os.path.basename(url)
    urllib.request.urlretrieve(url, save_path) # url로부터 save_path 위치에 파일 다운로드

- os.path는 파일 경로를 생성 및 수정하고, 파일 정보를 쉽게 다룰 수 있게 해주는 모듈.
    - os.path.abspath(path)  
 
- 현재 경로를 Prefix로 하여 입력받은 경로를 절대경로로 바꿔서 반환합니다.

    - abspath('tmp')

    - 'C:\\Python30\\tmp'

- 입력받은 경로의 기본 이름(base name)을 반환합니다.

    - abspath() 함수와 반대되는 기능을 수행한다고 볼 수 있습니다.
    - os.path.basename(path)

    - basename('C:\\Python30\\tmp')

        - 'tmp'

    - basename('C:\\Python30\\tmp\\test.txt')

        - 'test.txt'


파이썬 os.path 모듈  
- 코드 내에서 직접 파일을 다루는 경우 os.path 모듈을 사용하게 된다.  
- os.path 내에는 경로반환, 경로추출 등 파일/디렉토리 경로와 관련된 많은 함수를 제공해준다.



1. 다운로드 하기
2. urllib.request
3. 파일로 저장:urlretrieve()
4. 메모리로 저장 : urlopen()

In [None]:
# 탐색기에서 내려받은 이미지 확인

C:\Users\user\Documents\주피터노트북\download