## 웹 스크래핑

### 정규표현식

* HTML Parsing
* 웹 페이지의 HTML을 분석하여 필요한 URL을 추출하는 HTML파싱 작업이 필요
* 파싱은 특정 텍스트를 분석하여 그 데이터로부터 필요한 정보를 추출하는 과정

In [1]:
# 필요 패키지 불러오기
import urllib.request

# 정규 표현식 모듈
import re

In [2]:
# 삼성전자 주식정보 파싱
url = "https://finance.naver.com/item/main.nhn?code=005930"
html = urllib.request.urlopen(url)
html_contents = str(html.read().decode('ms949'))

In [3]:
html_contents

'\n\n\t\n\t\n\t\n\t\n<html lang=\'ko\'>\n<head>\n\n\n\t\n\t\t<title>삼성전자 : 네이버 증권</title>\n\t\n\t\n\n\n\n\n\n\t\n\t\n\t\t<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n\t\n\n\n<meta http-equiv="Content-Script-Type" content="text/javascript">\n<meta http-equiv="Content-Style-Type" content="text/css">\n<meta name="apple-mobile-web-app-title" content="네이버 증권" />\n\n\n\n\n\n\t\n    \n        <meta property="og:url" content="https://finance.naver.com/item/main.naver?code=005930"/>\n        \n\t\t\t\n\t\t    \n\t\t    \t<meta property="og:title" content="삼성전자 - 네이버 증권 : 네이버 증권"/>\n\t\t     \n\t\t\n\t\t\n\t\t\t\n\t\t\t   <meta property="og:description" content="관심종목의 실시간 주가를 가장 빠르게 확인하는 곳"/>\n\t\t    \n\t\t    \n\t\t\n\t\t \n\t\t\t\n\t\t\t    <meta property="og:image" content="https://ssl.pstatic.net/static/m/stock/im/2016/08/og_stock-200.png"/>\n\t\t    \n\t\t    \n\t\t\n    \n\n<meta property="og:type" content="article"/>\n<meta property="og:article:thumbnailUrl" con

In [4]:
# 첫번째 HTML 패턴
stock_results = re.findall('(\<dl class=\"blind\")([\s\S]+?)(\</dl\>)', html_contents)

# 튜플의 형태로 리턴
stock_results

[('<dl class="blind"',
  '>\n\t        <dt>종목 시세 정보</dt>\n\t        <dd>2023년 04월 03일 16시 11분 기준 장마감</dd>\n\t        <dd>종목명 삼성전자</dd>\n\t        <dd>종목코드 005930 코스피</dd>\n\t        <dd>현재가 63,100 전일대비 하락 900 마이너스 1.41 퍼센트</dd>\n\t        <dd>전일가 64,000</dd>\n\t        <dd>시가 64,000</dd>\n\t        <dd>고가 64,000</dd>\n\t        <dd>상한가 83,200</dd>\n\t        <dd>저가 63,000</dd>\n\t        <dd>하한가 44,800</dd>\n\t        <dd>거래량 11,941,193</dd>\n\t        <dd>거래대금 755,268백만</dd>\n        ',
  '</dl>'),
 ('<dl class="blind"',
  '>\n                        <dt><strong>삼성전자</strong></dt>\n                        <dd>오늘의시세 63,100 포인트</dd>\n                        <dd>900 포인트 하락</dd>\n                        <dd>1.41% 마이너스</dd>\n                ',
  '</dl>')]

In [5]:
# 두 개의 튜플 값중 첫번째 패턴
samsung_stock = stock_results[0]
samsung_stock

('<dl class="blind"',
 '>\n\t        <dt>종목 시세 정보</dt>\n\t        <dd>2023년 04월 03일 16시 11분 기준 장마감</dd>\n\t        <dd>종목명 삼성전자</dd>\n\t        <dd>종목코드 005930 코스피</dd>\n\t        <dd>현재가 63,100 전일대비 하락 900 마이너스 1.41 퍼센트</dd>\n\t        <dd>전일가 64,000</dd>\n\t        <dd>시가 64,000</dd>\n\t        <dd>고가 64,000</dd>\n\t        <dd>상한가 83,200</dd>\n\t        <dd>저가 63,000</dd>\n\t        <dd>하한가 44,800</dd>\n\t        <dd>거래량 11,941,193</dd>\n\t        <dd>거래대금 755,268백만</dd>\n        ',
 '</dl>')

In [6]:
# 세 개의 튜플 값중 두번째 패턴
samsung_index = samsung_stock[1]
samsung_index

'>\n\t        <dt>종목 시세 정보</dt>\n\t        <dd>2023년 04월 03일 16시 11분 기준 장마감</dd>\n\t        <dd>종목명 삼성전자</dd>\n\t        <dd>종목코드 005930 코스피</dd>\n\t        <dd>현재가 63,100 전일대비 하락 900 마이너스 1.41 퍼센트</dd>\n\t        <dd>전일가 64,000</dd>\n\t        <dd>시가 64,000</dd>\n\t        <dd>고가 64,000</dd>\n\t        <dd>상한가 83,200</dd>\n\t        <dd>저가 63,000</dd>\n\t        <dd>하한가 44,800</dd>\n\t        <dd>거래량 11,941,193</dd>\n\t        <dd>거래대금 755,268백만</dd>\n        '

In [7]:
# 주식 정보만 추출
index_list = re.findall("(\<dd\>)([\s\S]+?)(\</dd\>)", samsung_index)
index_list

[('<dd>', '2023년 04월 03일 16시 11분 기준 장마감', '</dd>'),
 ('<dd>', '종목명 삼성전자', '</dd>'),
 ('<dd>', '종목코드 005930 코스피', '</dd>'),
 ('<dd>', '현재가 63,100 전일대비 하락 900 마이너스 1.41 퍼센트', '</dd>'),
 ('<dd>', '전일가 64,000', '</dd>'),
 ('<dd>', '시가 64,000', '</dd>'),
 ('<dd>', '고가 64,000', '</dd>'),
 ('<dd>', '상한가 83,200', '</dd>'),
 ('<dd>', '저가 63,000', '</dd>'),
 ('<dd>', '하한가 44,800', '</dd>'),
 ('<dd>', '거래량 11,941,193', '</dd>'),
 ('<dd>', '거래대금 755,268백만', '</dd>')]

In [8]:
# 세 개의 튜플 값중 두번째 값
for index in index_list:
    print(index[1])

2023년 04월 03일 16시 11분 기준 장마감
종목명 삼성전자
종목코드 005930 코스피
현재가 63,100 전일대비 하락 900 마이너스 1.41 퍼센트
전일가 64,000
시가 64,000
고가 64,000
상한가 83,200
저가 63,000
하한가 44,800
거래량 11,941,193
거래대금 755,268백만


In [9]:
# 애플 주식정보 파싱

## 웹 크롤링

* 웹 페이지에 있는 정보를 가지고 오는 것을 의미
* selenium 라이브러리의 webdriver를 활용해 웹 브라우저 조작
* BeautifulSoup라이브러리를 활용해 웹 페이지 상의 HTML데이터에서 필요한 정보를 가져 옴

In [10]:
# 필요  패키지 불러오기
!pip install selenium



In [11]:
from selenium import webdriver

In [12]:
# 크롬 드라이버 활용
# 크롬 드라이버 경로가 정확히 등록되어야 함
driver = webdriver.Chrome('D:/chromedriver/chromedriver.exe')

  driver = webdriver.Chrome('D:/chromedriver/chromedriver.exe')


In [13]:
# URL접속
url = 'http://www.naver.com'
driver.get(url)

# 웹 페이지 HTML 다운로드
html = driver.page_source
html

'<html lang="ko" data-dark="false" data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"><head><script async="" type="text/javascript" src="https://ssl.pstatic.net/tveta/libs/ndpsdk/prod/ndp-core.js"></script> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"> <meta name="robots" content="index,nofollow"> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" c

### 크롤링 연습(멜론차트)

In [14]:
# 필요패키지 설치
!pip install beautifulsoup4



In [15]:
# 크롤링 연습(멜론)
from selenium import webdriver
driver = webdriver.Chrome('D:/chromedriver/chromedriver.exe')
url = 'https://www.melon.com/chart/day/index.htm'
driver.get(url)

  driver = webdriver.Chrome('D:/chromedriver/chromedriver.exe')


In [16]:
# BeautifulSoup패키지 모듈을 사용 멜론 일간 차트 파싱
from bs4 import BeautifulSoup
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

In [17]:
# 일간차트 1~50위 항목을 불러오기
songs = soup.select('#lst50')
# print(len(songs))
print(songs[0])

<tr class="lst50" data-song-no="36318125" id="lst50">
<td><div class="wrap t_right"><input class="input_check" name="input_check" title="Kitsch 곡 선택" type="checkbox" value="36318125"/></div></td>
<td><div class="wrap t_center"><span class="rank">1</span><span class="none">위</span></div></td>
<!-- 차트순위 추가 -->
<td><div class="wrap">
<span class="rank_wrap" title="순위 동일">
<span class="bullet_icons rank_static"><span class="none">순위 동일</span></span>
<span class="none">0</span>
</span>
</div></td>
<td><div class="wrap">
<a class="image_typeAll" href="javascript:melon.link.goAlbumDetail('11211297');" title="Kitsch">
<img alt="Kitsch - 페이지 이동" height="60" onerror="WEBPOCIMG.defaultAlbumImg(this);" src="https://cdnimg.melon.co.kr/cm2/album/images/112/11/297/11211297_20230327114349_500.jpg/melon/resize/120/quality/80/optimize" width="60"/>
<span class="bg_album_frame"></span>
</a>
</div></td>
<td><div class="wrap">
<a class="btn button_icons type03 song_info" href="javascript:melon.link.goSongD

In [18]:
# 일간차트 1위곡의 제목 추출
title = soup.select('div.ellipsis.rank01 > span > a')[0].text
title

'Kitsch'

In [19]:
singer = soup.select('div.ellipsis.rank02 > a')[0].text
singer

'IVE (아이브)'

In [20]:
# for문을 사용하여 차트50위까지의 곡들의 제목과 가수 출력
for song in songs:
    title = song.select('div.ellipsis.rank01 > span > a')[0].text
    singer = song.select('div.ellipsis.rank02 > a')[0].text
    print(title, singer, sep = '  |  ')

Kitsch  |  IVE (아이브)
Ditto  |  NewJeans
Hype boy  |  NewJeans
OMG  |  NewJeans
꽃  |  지수 (JISOO)
Nostalgia  |  우디 (Woody)
Teddy Bear  |  STAYC(스테이씨)
사건의 지평선  |  윤하 (YOUNHA)
I Don't Think That I Like Her  |  Charlie Puth
CHRISTIAN  |  Zior Park
파이팅 해야지 (Feat. 이영지)  |  부석순 (SEVENTEEN)
심(心)  |  DK(디셈버)
Attention  |  NewJeans
After LIKE  |  IVE (아이브)
사랑하기 싫어  |  지아
ANTIFRAGILE  |  LE SSERAFIM (르세라핌)
밤이 무서워요 (Lonely Night)  |  주주 시크릿
Love Me Like This  |  NMIXX
LOVE DIVE  |  IVE (아이브)
사랑인가 봐  |  멜로망스
벚꽃 엔딩  |  버스커 버스커
NIGHT DANCER  |  imase
Like Crazy  |  지민
나비무덤  |  포맨 (4MEN)
너를 보는게 지친 하루에  |  송하예
Dangerously  |  Charlie Puth
봄 사랑 벚꽃 말고  |  HIGH4 (하이포)
사랑은 늘 도망가  |  임영웅
결국엔 너에게 닿아서  |  WSG워너비 (가야G)
Candy  |  NCT DREAM
건물 사이에 피어난 장미 (Rose Blossom)  |  H1-KEY (하이키)
VIBE (feat. Jimin of BTS)  |  태양
너의 모든 순간  |  성시경
Nxde  |  (여자)아이들
Expectations  |  Anne-Marie
Say I Love You  |  우디 (Woody)
Monologue  |  테이
That's Hilarious  |  Charlie Puth
새삥 (Prod. ZICO) (Feat. 호미들)  |  지코 (ZICO)
해요 (2022)  | 

In [21]:
# 51~100위 차트 불러오기
songs = soup.select('#lst100')
print(songs[0])

<tr class="lst100" data-song-no="36266614" id="lst100" style="">
<td><div class="wrap t_right"><input class="input_check" name="input_check" title="Young, Dumb, Stupid 곡 선택" type="checkbox" value="36266614"/></div></td>
<td><div class="wrap t_center"><span class="rank">51</span><span class="none">위</span></div></td>
<!-- 차트순위 추가 -->
<td><div class="wrap">
<span class="rank_wrap" title="18단계 상승">
<span class="bullet_icons rank_up"><span class="none">단계 상승</span></span>
<span class="up">18</span>
</span>
</div></td>
<td><div class="wrap">
<a class="image_typeAll" href="javascript:melon.link.goAlbumDetail('11201031');" title="expérgo">
<img alt="expérgo - 페이지 이동" height="60" onerror="WEBPOCIMG.defaultAlbumImg(this);" src="https://cdnimg.melon.co.kr/cm2/album/images/112/01/031/11201031_20230320162256_500.jpg/melon/resize/120/quality/80/optimize" width="60"/>
<span class="bg_album_frame"></span>
</a>
</div></td>
<td><div class="wrap">
<a class="btn button_icons type03 song_info" href="javas

In [22]:
for song in songs:
    title = song.select('div.ellipsis.rank01 > span > a')[0].text
    singer = song.select('div.ellipsis.rank02 > a')[0].text
    print(title, singer, sep = '  |  ')

Young, Dumb, Stupid  |  NMIXX
그때 그 순간 그대로 (그그그)  |  WSG워너비 (가야G)
Unholy  |  Sam Smith
다정히 내 이름을 부르면  |  경서예지
Pink Venom  |  BLACKPINK
봄날  |  방탄소년단
되돌리다  |  먼데이 키즈 (Monday Kiz)
Set Me Free Pt.2  |  지민
FEARLESS  |  LE SSERAFIM (르세라핌)
우리들의 블루스  |  임영웅
오르트구름  |  윤하 (YOUNHA)
Dynamite  |  방탄소년단
NOT SORRY (Feat. pH-1) (Prod. by Slom)  |  이영지
ELEVEN  |  IVE (아이브)
Poppy (Korean Ver.)  |  STAYC(스테이씨)
사랑이라 믿었던 것들은 (Feat. 이수현)  |  BIG Naughty (서동현)
나의 X에게  |  경서
Rush Hour (Feat. j-hope of BTS)  |  Crush
나만, 봄  |  볼빨간사춘기
모든 날, 모든 순간 (Every day, Every Moment)  |  폴킴
그대를 알고  |  송하예
혼자가 아닌 나  |  정효빈
딱 10CM만  |  10CM
잘가요  |  주호
아모르 파티  |  이홍기 (FT아일랜드)
That That (prod. & feat. SUGA of BTS)  |  싸이 (PSY)
Sugar Rush Ride  |  투모로우바이투게더
Off My Face  |  Justin Bieber
그대라는 사치  |  임창정
Dreamers [Music from the FIFA World Cup Qatar 2022 Official Soundtrack] (Feat. FIFA Sound)  |  정국
너와 함께  |  김민석 (멜로망스)
다시 만날 수 있을까  |  임영웅
Butter  |  방탄소년단
마지막 사랑  |  신예영
London Boy  |  임영웅
이제 나만 믿어요  |  임영웅
그댄 행복에 살텐데 (2022)  |  

In [35]:
# selenium만을 활용한 크롤링 연습
# 모듈이 계속 업데이트가 되므로 함수명이 변경될 수도 있다
from selenium.webdriver.common.by import By
driver = webdriver.Chrome('D:/chromedriver/chromedriver.exe')
url = 'https://www.melon.com/chart/day/index.htm'
driver.get(url)

  driver = webdriver.Chrome('D:/chromedriver/chromedriver.exe')


In [26]:
songs = driver.find_elements(By.CSS_SELECTOR, '#lst50')
songs

[<selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="d697f146-7c5e-4060-a754-6f88c38f7159")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="07c2f8e2-bf2b-4a9b-8284-d04fcc093a49")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="214ae559-9894-4a47-8a44-a45edf3f39bf")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="ba8f583f-f9ce-49c6-85f7-4b6f0068570e")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="c6698af5-b4da-47ed-8a43-1652f7fe620d")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="6f988a39-b429-4224-9ced-3411aabeb197")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="1c8fda26-d601-4f15-92bd-c9

In [27]:
for song in songs:
    title = song.find_elements(By.CSS_SELECTOR,'div.ellipsis.rank01 > span > a')[0].text
    singer = song.find_elements(By.CSS_SELECTOR,'div.ellipsis.rank02 > a')[0].text
    print(title, singer, sep = ' | ')

Kitsch | IVE (아이브)
Ditto | NewJeans
Hype boy | NewJeans
OMG | NewJeans
꽃 | 지수 (JISOO)
Nostalgia | 우디 (Woody)
Teddy Bear | STAYC(스테이씨)
사건의 지평선 | 윤하 (YOUNHA)
I Don't Think That I Like Her | Charlie Puth
CHRISTIAN | Zior Park
파이팅 해야지 (Feat. 이영지) | 부석순 (SEVENTEEN)
심(心) | DK(디셈버)
Attention | NewJeans
After LIKE | IVE (아이브)
사랑하기 싫어 | 지아
ANTIFRAGILE | LE SSERAFIM (르세라핌)
밤이 무서워요 (Lonely Night) | 주주 시크릿
Love Me Like This | NMIXX
LOVE DIVE | IVE (아이브)
사랑인가 봐 | 멜로망스
벚꽃 엔딩 | 버스커 버스커
NIGHT DANCER | imase
Like Crazy | 지민
나비무덤 | 포맨 (4MEN)
너를 보는게 지친 하루에 | 송하예
Dangerously | Charlie Puth
봄 사랑 벚꽃 말고 | HIGH4 (하이포)
사랑은 늘 도망가 | 임영웅
결국엔 너에게 닿아서 | WSG워너비 (가야G)
Candy | NCT DREAM
건물 사이에 피어난 장미 (Rose Blossom) | H1-KEY (하이키)
VIBE (feat. Jimin of BTS) | 태양
너의 모든 순간 | 성시경
Nxde | (여자)아이들
Expectations | Anne-Marie
Say I Love You | 우디 (Woody)
Monologue | 테이
That's Hilarious | Charlie Puth
새삥 (Prod. ZICO) (Feat. 호미들) | 지코 (ZICO)
해요 (2022) | #안녕
Cookie | NewJeans
우연히 봄 | 로꼬
취중고백 | 김민석 (멜로망스)
on the street (with J. Cole)

In [29]:
songs = driver.find_elements(By.CSS_SELECTOR, '#lst100')
songs

[<selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="8873525a-98d6-4ce3-a6dd-5352da191707")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="44e81b84-9e60-4bb1-a5c9-dfbf1720c815")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="24f89a82-dc4b-4bd1-8d6c-397dbe67a11b")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="c9587fd1-4cd7-42ad-8766-45f7c1ee9e4e")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="22d1c385-0468-4ea7-857a-54b5247d9667")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="f2a119c8-2bda-4482-986c-daa4ec3ca38b")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24bc4a8538758711ca1e5fb15321c864", element="2038f0c6-964f-4fe5-8152-d2

In [30]:
for song in songs:
    title = song.find_elements(By.CSS_SELECTOR,'div.ellipsis.rank01 > span > a')[0].text
    singer = song.find_elements(By.CSS_SELECTOR,'div.ellipsis.rank02 > a')[0].text
    print(title, singer, sep = ' | ')

Young, Dumb, Stupid | NMIXX
그때 그 순간 그대로 (그그그) | WSG워너비 (가야G)
Unholy | Sam Smith
다정히 내 이름을 부르면 | 경서예지
Pink Venom | BLACKPINK
봄날 | 방탄소년단
되돌리다 | 먼데이 키즈 (Monday Kiz)
Set Me Free Pt.2 | 지민
FEARLESS | LE SSERAFIM (르세라핌)
우리들의 블루스 | 임영웅
오르트구름 | 윤하 (YOUNHA)
Dynamite | 방탄소년단
NOT SORRY (Feat. pH-1) (Prod. by Slom) | 이영지
ELEVEN | IVE (아이브)
Poppy (Korean Ver.) | STAYC(스테이씨)
사랑이라 믿었던 것들은 (Feat. 이수현) | BIG Naughty (서동현)
나의 X에게 | 경서
Rush Hour (Feat. j-hope of BTS) | Crush
나만, 봄 | 볼빨간사춘기
모든 날, 모든 순간 (Every day, Every Moment) | 폴킴
그대를 알고 | 송하예
혼자가 아닌 나 | 정효빈
딱 10CM만 | 10CM
잘가요 | 주호
아모르 파티 | 이홍기 (FT아일랜드)
That That (prod. & feat. SUGA of BTS) | 싸이 (PSY)
Sugar Rush Ride | 투모로우바이투게더
Off My Face | Justin Bieber
그대라는 사치 | 임창정
Dreamers [Music from the FIFA World Cup Qatar 2022 Official Soundtrack] (Feat. FIFA Sound) | 정국
너와 함께 | 김민석 (멜로망스)
다시 만날 수 있을까 | 임영웅
Butter | 방탄소년단
마지막 사랑 | 신예영
London Boy | 임영웅
이제 나만 믿어요 | 임영웅
그댄 행복에 살텐데 (2022) | 최유리
자격지심 (Feat. ZICO) | BE'O (비오)
LOVE me | BE'O (비오)
Polaroid | 임영웅
봄이 좋냐