#### 학습목표
- 크롤링이란?   Web 상에서 동적데이터를 수집하는 작업(프로그래밍으로 자동화 기능) - Selenium
- 스크래핑이란? Web 상에서 정적데이터를 수집하는 작업 - BeautifulSoup

- HTML 페이지를 가져와서 html/css 파싱 , 필요한 데이터를 추출하는 기법

In [1]:
import numpy  as np
import pandas as pd

# 시각화
import matplotlib.pyplot as plt 
%matplotlib inline

import seaborn as sns

import json 

import warnings
warnings.filterwarnings(action='ignore')

from datetime import date, datetime, timedelta
from dateutil.parser import parse


# 한글 폰트 문제 해결
import platform

from matplotlib import font_manager, rc

if platform.system() == 'Darwin':
    plt.rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    plt.rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~') 


# 차트 축 <- 음수 부호 지원
import matplotlib
matplotlib.rcParams['axes.unicode_minus'] = False


# crawling
from bs4 import BeautifulSoup
from urllib.request import urlopen , urlretrieve
from urllib.error   import HTTPError
from urllib.error   import URLError

import requests 
import re

print('numpy version  - ' , np.__version__)
print('pandas version - ' , pd.__version__)

numpy version  -  1.20.3
pandas version -  1.3.4


In [2]:
html = '''
<html>
    <head>
        <title>연습</title>
    </head>
    <body>
        <h1>섭섭이와 함께하는 즐거운 스크랩핑</h1>
        <p class = 'css'>웹페이지 데이터 추출</p>
        <p id = 'data' align = 'center'>크롤링을 이용한 데이터 수집은 불법입니다.</p>
    </body>
</html>
'''

In [3]:
soup = BeautifulSoup(html , "html.parser") 
type( soup )

bs4.BeautifulSoup

In [4]:
print('bs - find , findAll , find_all')
print('attr     - ' , soup.find('p').string )
print('function - ' , soup.find('p').get_text() )

bs - find , findAll , find_all
attr     -  웹페이지 데이터 추출
function -  웹페이지 데이터 추출


In [5]:
print('id 식별자로 접근 - ') 
soup.find('p' , id = 'data').get_text()

id 식별자로 접근 - 


'크롤링을 이용한 데이터 수집은 불법입니다.'

In [6]:
print('class 식별자로 접근 - ') 
soup.find('p' , class_ = 'css').get_text()

class 식별자로 접근 - 


'웹페이지 데이터 추출'

In [7]:
print('일반 속성을 이용한 접근 - ') 
soup.find('p' , attrs = {'align' : 'center'}).get_text()

일반 속성을 이용한 접근 - 


'크롤링을 이용한 데이터 수집은 불법입니다.'

In [8]:
webpage = requests.get('https://www.daangn.com/hot_articles') 
# webpage.content
# webpage.text
soup = BeautifulSoup(webpage.content , "html.parser") 
soup

<!DOCTYPE html>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width,initial-scale=1,maximum-scale=1,user-scalable=no" name="viewport"/>
<link href="https://www.daangn.com/hot_articles" rel="canonical"/>
<title>당근마켓 중고거래 | 당신 근처의 당근마켓</title>
<meta content="당근마켓에서 거래되는 인기 중고 매물을 소개합니다. 지금 당근마켓에서 거래되고 있는 다양한 매물을 구경해보세요." name="description">
<link href="당근마켓" rel="author"/>
<meta content="https://www.daangn.com/hot_articles" property="og:url">
<meta content="당근마켓 중고거래 | 당신 근처의 당근마켓" property="og:title">
<meta content="당근마켓에서 거래되는 인기 중고 매물을 소개합니다. 지금 당근마켓에서 거래되고 있는 다양한 매물을 구경해보세요." property="og:description"/>
<meta content="당근마켓" property="og:site_name"/>
<meta content="https://www.daangn.com/images/meta/home/flea_market.png" property="og:image"/>
<meta content="article" property="og:type"/>
<meta content="ko_KR" property="og:locale"/>
<meta content="1463621440622064" property="fb:app_id"/>
<meta content=

In [9]:
print('태그 탐색 - ') 
print('<p>    - ' , soup.p , soup.find('p'))
print('string - ' , soup.p.string)

태그 탐색 - 
<p>    -  <p>당근마켓 앱에서 따뜻한 거래를 직접 경험해보세요!</p> <p>당근마켓 앱에서 따뜻한 거래를 직접 경험해보세요!</p>
string -  당근마켓 앱에서 따뜻한 거래를 직접 경험해보세요!


In [10]:
print('<h1>    - '  , soup.h1 , soup.find('h1'))
print('string  - '  , soup.h1.string)
for txt in soup.h1.children : 
    print(txt)

<h1>    -  <h1 class="head-title" id="hot-articles-head-title">
      
      
      중고거래 인기매물
  </h1> <h1 class="head-title" id="hot-articles-head-title">
      
      
      중고거래 인기매물
  </h1>
string  -  
      
      
      중고거래 인기매물
  

      
      
      중고거래 인기매물
  


In [11]:
print('<ul>    - '  , soup.ul)
print()

for li in soup.ul.children : 
    print(li)

<ul>    -  <ul class="fixed-menu-ul">
<li>
<a class="menu-anchor" href="https://itunes.apple.com/kr/app/pangyojangteo/id1018769995?l=ko&amp;ls=1&amp;mt=8" id="header-download-button-ios" target="_blank">
<img alt="App Store" height="18" src="https://d1unjqcospf8gs.cloudfront.net/assets/home/base/header/apple-store-3a664174124650d63cae365bc55586fc5ff27b822b1b97788fc4af77d73d00c8.svg" width="15"/>
<span>App Store</span>
</a> </li>
<li>
<a class="menu-anchor" href="https://play.google.com/store/apps/details?id=com.towneers.www" id="header-download-button-android" target="_blank">
<img alt="Google Play" height="18" src="https://d1unjqcospf8gs.cloudfront.net/assets/home/base/header/google-play-c9ad0fc573cd01e2b982df5de6709a3d8d7cec8d9b58a5c08db7da0b92a32a75.svg" width="15"/>
<span>Google Play</span>
</a> </li>
</ul>



<li>
<a class="menu-anchor" href="https://itunes.apple.com/kr/app/pangyojangteo/id1018769995?l=ko&amp;ls=1&amp;mt=8" id="header-download-button-ios" target="_blank">
<img alt

In [12]:
for txt in soup.h1.parents : 
    print(txt)

<section id="content">
<h1 class="head-title" id="hot-articles-head-title">
      
      
      중고거래 인기매물
  </h1>
<nav id="hot-articles-navigation">
<select class="hot-articles-nav-select" id="region1" name="region1" onchange="changeRegion('r1', this.value, false)"><option value="">지역을 선택하세요</option><option value="서울특별시">서울특별시</option>
<option value="부산광역시">부산광역시</option>
<option value="대구광역시">대구광역시</option>
<option value="인천광역시">인천광역시</option>
<option value="광주광역시">광주광역시</option>
<option value="대전광역시">대전광역시</option>
<option value="울산광역시">울산광역시</option>
<option value="세종특별자치시">세종특별자치시</option>
<option value="경기도">경기도</option>
<option value="강원도">강원도</option>
<option value="충청북도">충청북도</option>
<option value="충청남도">충청남도</option>
<option value="전라북도">전라북도</option>
<option value="전라남도">전라남도</option>
<option value="경상북도">경상북도</option>
<option value="경상남도">경상남도</option>
<option value="제주특별자치도">제주특별자치도</option></select>
<select class="hot-articles-nav-select" disabled="disabled" id="region2" 

In [13]:
print('class 속성을 활용해서 card-title 만 가져온다면 - ') 
print()

# soup.findAll(class_ = 'card-title')
# card = soup.find_all(class_='card-title')
# card_titles = soup.findAll(class_ = 'card-title')


for title in soup.find_all('h2' , attrs = {'class' : 'card-title'}) :
    print(title.string)

class 속성을 활용해서 card-title 만 가져온다면 - 

디월트 20v  5ah배터리
카페 정리합니다
선반
포켓몬 빵 팔아요.
자전거판매해요 / 엘파마(ELFAMA)로사 R370 MTB(입문용모델).
위닉스뽀송 제습기
포켓몬빵 사실분
⭐포.켓.몬.빵⭐포켓몬 ! 띠부띠부 !
50인치TV 싸게 팔아요!! 급처!!
제습기 가져가실분
4단 서랍장 이사로 급매합니다.
이케아 나무선반
창고정리♥디월트 드릴 만원
라탄의자 판매
농업용3톤 물탱크 판매합니다
삼성냉동고
버버리 미니 크로스백
냉장고
전자기타 팝니다
아세아관리기
Tv
포켓몬 빵 팝니다.
에어컨
LG통돌이 세탁기, 캔디 건조기 판매합니다
좋은책어린이 저학년문고
에어컨 철거해 가실 분
영암꿀고구마(한입)
갤럭시노트10 256G
자전거 판매합니다.
아이폰12프로 그레파이트 128g 배터리성능👍
무료드림 전자렌지
파라솔
5단선반
포켓몬빵 팝니다
포르쉐 푸쉬카
내친구 과학공룡 전집 53권
구글 크롬캐스트4
투인원 휘센 에어컨, LG세탁기 팔아요
스테인레스제 칼세트
포켓몬빵 팝니다
산드로 가디건
접이식 자전거 팝니다
스팸 좋아하시는분!
포켓몬빵 ‘정가’ 판매합니다
LG 제습기
토마토 농장 입니다
다들 너무 비싸게 파시는거 같아서 2000원에 팝니다 5000원으로 파시는거는 좀 아닌거 같아용!
모에스던 쇼파
삼성 제습기 만원
루이비통 다미에 에바클러치 가방 팔아용
포켓몬빵팔아요
아우디 푸쉬카팔아요
LED 커브드 TV겸 모니터
다이슨 공기청정기&선풍기
세탁기 무료로 가져 가실분..
뮤츠 띠부띠부씰 팔아요
캠핑 가족 모셔요..
이제쓸일없어서팝니다
천왕산가족캠핑장(4/16 토)1박 판매합니다
내친구과학공룡
포켓몬빵
LG 휘센 제습기 15리터
캐리어 제습기
인켈전축
디월트 드릴 새것 중국내수용
제습기
캠핑의자 낚시의자 팔아요
접이식 철제 선반
이케아 선반
이사할때 쓰는
1년사용한 에어컨 팝니다
냉장고
포켓몬 빵  비싸게팔아요
자이크 여성 자전거
선반
자전거
가정용 미싱 내놔요.
LG 32인치 티비팔아요
30m 캠핑 릴선 

- css 선택자를 이용한 태그탐색( select() ) 
- id : # 
- class : . 
- 자손(html > title) 직계 , 하위(html title) 직계가 아니여도 선택자 사용가능

In [14]:
print( 'type - ' , type( soup.select('.card-title') ))
print()
print( soup.select('.card-title') )

type -  <class 'bs4.element.ResultSet'>

[<h2 class="card-title">디월트 20v  5ah배터리</h2>, <h2 class="card-title">카페 정리합니다</h2>, <h2 class="card-title">선반</h2>, <h2 class="card-title">포켓몬 빵 팔아요.</h2>, <h2 class="card-title">자전거판매해요 / 엘파마(ELFAMA)로사 R370 MTB(입문용모델).</h2>, <h2 class="card-title">위닉스뽀송 제습기</h2>, <h2 class="card-title">포켓몬빵 사실분</h2>, <h2 class="card-title">⭐포.켓.몬.빵⭐포켓몬 ! 띠부띠부 !</h2>, <h2 class="card-title">50인치TV 싸게 팔아요!! 급처!!</h2>, <h2 class="card-title">제습기 가져가실분</h2>, <h2 class="card-title">4단 서랍장 이사로 급매합니다.</h2>, <h2 class="card-title">이케아 나무선반</h2>, <h2 class="card-title">창고정리♥디월트 드릴 만원</h2>, <h2 class="card-title">라탄의자 판매</h2>, <h2 class="card-title">농업용3톤 물탱크 판매합니다</h2>, <h2 class="card-title">삼성냉동고</h2>, <h2 class="card-title">버버리 미니 크로스백</h2>, <h2 class="card-title">냉장고</h2>, <h2 class="card-title">전자기타 팝니다</h2>, <h2 class="card-title">아세아관리기</h2>, <h2 class="card-title">Tv</h2>, <h2 class="card-title">포켓몬 빵 팝니다.</h2>, <h2 class="card-title">에어컨</h2>, <h2 class="card-t

In [15]:
print( soup.select('#hot-articles-go-download > div > a' ) )
print()
for a in soup.select('#hot-articles-go-download > div > a' ) : 
    print(a)
    print()

[<a class="download-button" href="https://itunes.apple.com/kr/app/pangyojangteo/id1018769995?l=ko&amp;ls=1&amp;mt=8" target="_blank">
<div class="home-apple-store-bar-white"></div>
<div class="download-text">App Store</div>
</a>, <a class="download-button" href="https://play.google.com/store/apps/details?id=com.towneers.www" target="_blank">
<div class="home-google-play-bar-white"></div>
<div class="download-text">Google Play</div>
</a>]

<a class="download-button" href="https://itunes.apple.com/kr/app/pangyojangteo/id1018769995?l=ko&amp;ls=1&amp;mt=8" target="_blank">
<div class="home-apple-store-bar-white"></div>
<div class="download-text">App Store</div>
</a>

<a class="download-button" href="https://play.google.com/store/apps/details?id=com.towneers.www" target="_blank">
<div class="home-google-play-bar-white"></div>
<div class="download-text">Google Play</div>
</a>



In [16]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

try :
    html = urlopen('http://www.pythonscraping.com/pages/page3.html')
except HTTPError as he :
    print('http error')
except URLError as ue :
    print('url error')
else :
    # print(html.read())
    soup = BeautifulSoup(html.read() , 'html.parser')

In [17]:
# type( soup.select('#giftList') )
print('type - ' , type( soup.find('table' , attrs = {'id' : 'giftList'}) ) )
print()
table = soup.find('table' , attrs = {'id' : 'giftList'})

type -  <class 'bs4.element.Tag'>



In [18]:
print('title, desc, cost, img 데이터 추출 후')
print('데이터 프레임으로 만들어 본다면? - ')
print()

title_lst = []
desc_lst  = []
cost_lst  = []
img_lst   = []

datas = []
for trs in table.find_all('tr') :
    
    # print(tr)
    # print('*' * 50)
    # print( trs.find_all('td'))
    
    tds = trs.find_all('td')
    
    for td in tds :
        if td.find('img') :
            title_lst.append( tds[0].get_text().strip() )
            
            desc_lst.append(  tds[1].get_text().strip() )
            
            cost_lst.append(  tds[2].get_text().strip() )
            
            img_lst.append(   tds[3].find('img')['src'] ) 
            
#             print( tds[0].get_text().strip() )
#             print( tds[1].get_text().strip() )
#             print( tds[2].get_text().strip() )
#             print( tds[3].find('img')['src'] )
#             print("*" * 50)
                
#             datas.append([tds[0].get_text().strip() , tds[1].get_text().strip() , tds[2].get_text().strip() , tds[3].find('img')['src']])

title, desc, cost, img 데이터 추출 후
데이터 프레임으로 만들어 본다면? - 



In [19]:
scraping_frm = pd.DataFrame({
    'title' : title_lst , 
    'desc'  : desc_lst , 
    'cost'  : cost_lst , 
    'img'   : img_lst 
})
scraping_frm

Unnamed: 0,title,desc,cost,img
0,Vegetable Basket,This vegetable basket is the perfect gift for ...,$15.00,../img/gifts/img1.jpg
1,Russian Nesting Dolls,"Hand-painted by trained monkeys, these exquisi...","$10,000.52",../img/gifts/img2.jpg
2,Fish Painting,"If something seems fishy about this painting, ...","$10,005.00",../img/gifts/img3.jpg
3,Dead Parrot,This is an ex-parrot! Or maybe he's only resting?,$0.50,../img/gifts/img4.jpg
4,Mystery Box,"If you love suprises, this mystery box is for ...",$1.50,../img/gifts/img6.jpg


In [20]:
scraping_frm.to_csv('./scraping-data/scraping_frm.csv' , encoding = 'utf-8')

FileNotFoundError: [Errno 2] No such file or directory: './scraping-data/scraping_frm.csv'

- https://forecast.weather.gov/MapClick.php?lat=37.7772&lon=-122.4168#.YT618p0zaUn

In [None]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

try :
    html = urlopen('https://forecast.weather.gov/MapClick.php?lat=37.7772&lon=-122.4168#.YT618p0zaUn')
except HTTPError as he :
    print('http error')
except URLError as ue :
    print('url error')
else :
    # print(html.read())
    soup = BeautifulSoup(html.read() , 'html.parser')

In [None]:
print(' css 선택자 - ')
sevenDays = soup.select('#seven-day-forecast')
# print( type( sevenDays ) )
print(' 태그 탐색  - ')
sevenDays = soup.find('div' , attrs = {'id' : 'seven-day-forecast' })
print( sevenDays ) 



In [None]:
forecast = sevenDays.find_all('div' , attrs = {'class' : 'tombstone-container'})
forecast

In [None]:
print('period-name, desc , src , temp 프레임 만들기')
print('조건) select() 함수 이용 ') 


In [None]:
periods = soup.select('.tombstone-container > .period-name')
periods = [ tag.get_text() for tag in periods]
periods 

In [None]:
descs = soup.select('.tombstone-container > .short-desc')
descs = [ tag.get_text() for tag in descs]
descs 

In [None]:
imgs = soup.select('.tombstone-container  .forecast-icon')
imgs = [ tag['src'] for tag in imgs]
imgs 

In [None]:
temps = soup.select('.tombstone-container  .temp')
temps = [ tag.get_text() for tag in temps]
temps 

In [None]:
print('len() - ' , len(periods) , len(descs) , len(imgs) , len(temps))

In [None]:
forecast_frm = pd.DataFrame({
    'periods' : periods , 
    'descs'  : descs , 
    'imgs'  : imgs , 
    'temps'   : temps 
})
forecast_frm

- https://pythondojang.bitbucket.io/weather/observation/currentweather.html

In [None]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

try :
    html = urlopen('https://pythondojang.bitbucket.io/weather/observation/currentweather.html')
except HTTPError as he :
    print('http error')
except URLError as ue :
    print('url error')
else :
    # print(html.read())
    soup = BeautifulSoup(html.read() , 'html.parser')

In [None]:
print('location, temp, humidity 데이터 추출 후')
print('데이터 프레임으로 만들어 본다면? - ')

loc_lst = []
temp_lst = []
humidity_lst = []

datas = []

table = soup.find('table', class_ = 'table_develop3')
table


for tr in table.find_all('tr') :
    
    tds = tr.find_all('td')

    for td in tds :
        if td.find('a') :
            loc_lst.append(tds[0].a.get_text())
            temp_lst.append(tds[5].get_text().strip() )
            humidity_lst.append(tds[9].get_text().strip() )

weather_frm = pd.DataFrame({
    'location' : loc_lst,
    'temp' : temp_lst,
    'humidity' :humidity_lst
})
weather_frm



- https://www.koreabaseball.com/Record/Player/HitterBasic/Basic1.aspx
- 선수명 , avg , hit , homerun , rbi
- avg 상위 5 명의 선수에 대한 bar 시각화 구현 [실습]