<a href="https://colab.research.google.com/github/dohyeon-kim012/WebScraping/blob/main/3.HTML%20%EC%8A%A4%ED%81%AC%EB%A0%88%EC%9D%B4%ED%95%91.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

스크레이핑 ( Scraping ) : 웹사이트에 있는 특정 정보를 추출하는 기술을 의미한다. 이를 이용해서 **타깃을 정해놓고** 웹사이트에 있는 정보를 쉽게 수집할 수 있다  
크롤링 : 구글이나 네이버 등의 포털 사이트들이 불특정 다수의 웹사이트들의 정보를 **주기적으로** 가져오는 것  
    - sse, sso : 크롤링에 잘 해당되기 위한 방법

In [None]:
html_str = """
<html>
  <head>
    <title>안녕하세요</title>
  </head>
  <body>
    <div id="container">
      <p class='p1'>hello</p>
      <p>Bye</p>
    </div>
  </body>
</html>"""

html 문자열을 python에서 다루려면?  

--> `BeautifulSoup` 을 이용하여 HTML을 Element 객체화 시킬 수 있다  
    + 필요한 부분에 접근해서 필요한 데이터를 빼오면 된다


In [None]:
from bs4 import BeautifulSoup # 이상한 나라의 앨리스

In [None]:
soup = BeautifulSoup(html_str)
soup

<html>
<head>
<title>안녕하세요</title>
</head>
<body>
<div id="container">
<p class="p1">hello</p>
<p>Bye</p>
</div>
</body>
</html>

- `find( "태그 이름", "속성 값을 dict로 묶은 것" )` : 한 개만 찾기  
    ( 조건을 만족하는 첫 번째 엘리먼트만 가져옴 )  

- `fint_all` : 모두 찾기 ( 리스트로 나옴 )

In [None]:
soup.find_all

<bound method Tag.find_all of <html>
<head>
<title>안녕하세요</title>
</head>
<body>
<div id="container">
<p class="p1">hello</p>
<p>Bye</p>
</div>
</body>
</html>>

In [None]:
# div 중에 id가 container인 것 찾기
soup.find("div", {"id":"container"})

<div id="container">
<p class="p1">hello</p>
<p>Bye</p>
</div>

In [None]:
# p 중에 클래스가 p1인 것 찾기
soup.find("p", {"class":"p1"})

<p class="p1">hello</p>

In [None]:
# p를 "모두 찾기"
soup.find_all("p")

[<p class="p1">hello</p>, <p>Bye</p>]

텍스트 ( text ) 꺼내오기

In [None]:
p_p1 = soup.find("p", {'class':'p1'})
p_p1.text

'hello'

Bye 만 꺼내기

In [None]:
p_Bye = soup.find_all("p")[-1]
p_Bye.text

'Bye'

In [None]:
soup.find_all("p")[1].text

'Bye'

형제관계를 이용 - 특수한 상황에서만 사용할 것  

`nextSibling`을 1개만 넣으면 `</n>` 출력됨  
--> 계획문자인 `</n>` 도 엘리먼트로 치기 때문에

In [None]:
p_p1.nextSibling.nextSibling.text

'Bye'

In [None]:
p_p1.nextSibling

'\n'

선택자 ( selector ) 를 사용하여 추출하기

In [None]:
soup

<html>
<head>
<title>안녕하세요</title>
</head>
<body>
<div id="container">
<p class="p1">hello</p>
<p>Bye</p>
</div>
</body>
</html>

- `soup.select` : 선택자에 의해 엘리먼트를 여러 개 선택  
- `soup.select_one` : 선택자에 의해 엘리먼트를 한 개만 선택

In [None]:
soup.select_one("#container > .p1")

<p class="p1">hello</p>

In [None]:
soup.select("#container > p")[1]

<p>Bye</p>

In [None]:
soup.select("#container > p")[-1].text

'Bye'

## 속성값 추출하기

엘리먼트를 찾고, 원하는 속성명을 적으면 속성값을 찾을 수 있다

In [None]:
soup.select_one(".p1")

<p class="p1">hello</p>

In [None]:
soup.select_one(".p1")['class']

['p1']

In [None]:
soup.select_one(".p1").get('class')

['p1']

# 네이버 환율 정보 가져오기

- 웹에 접속을 해야 하기 때문에 `requests` 모듈이 필요
- html 문서를 가져오고 Element 객체화 시키기 위해 `BeautifulSoup` 필요

In [None]:
# from urllib.request import urlopen
import requests # urlopen = requests
from bs4 import BeautifulSoup

In [None]:
url = "https://finance.naver.com/marketindex/"

In [None]:
response = requests.get(url)
data = response.content # 접속한 웹 사이트의 html 코드 가져오기
data

b'\n<script language=javascript src="/template/head_js.nhn?referer=info.finance.naver.com&menu=marketindex&submenu=market"></script>\n<script type="text/javascript" src="https://ssl.pstatic.net/imgstock/static.pc/20210709092423/js/info/jindo.min.ns.1.5.3.euckr.js"></script>\n<script type="text/javascript" src="https://ssl.pstatic.net/imgstock/static.pc/20210709092423/js/jindo.1.5.3.element-text-patch.js"></script>\n\n\n\t\n\t\n\t<div id="container" style="padding-bottom:0px;">\n\t\n\n\t\t\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\t\t<div class="market_include">\n\t<div class="market_data">\n\t\t<div class="market1">\n\t\t\t<div class="title">\n\t\t\t\t<h2 class="h_market1"><span>\xc8\xaf\xc0\xfc \xb0\xed\xbd\xc3 \xc8\xaf\xc0\xb2</span></h2>\n\t\t\t</div>\n\t\t\t<!-- data -->\n\t\t\t<div class="data">\n\t\t\t\t<ul class="data_lst" id="exchangeList">\n\t\t\t\t\n\t\t\t\t    \n\t\t\t\t         \n\t\t\t\t         \n\t\t\t\t         \n\t\t\t\t         \t\t\t\t         \t\t\t         

In [None]:
soup = BeautifulSoup(data)
soup

<html><head><script language="javascript" src="/template/head_js.nhn?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210709092423/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210709092423/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
</head><body><div id="container" style="padding-bottom:0px;">
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_dn">
<span class="value">1,147.50</span>


`id`가 있으면 사용하는 것이 좋음  
-> 하나밖에 없는 값이기 때문

In [None]:
soup = BeautifulSoup(data)
exchange_list = soup.find("ul", {"id":"exchangeList"})
# 또는 soup.select_one("#exchangeList")
exchange_list

<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_dn">
<span class="value">1,147.50</span>
<span class="txt_krw"><span class="blind">원</span></span>
<span class="change"> 1.00</span>
<span class="blind">하락</span>
</div>
</a>
<a class="graph_img" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdc', '', '', event);">
<img alt="" height="153" src="https://ssl.pstatic.net/imgfinance/chart/marketindex/FX_USDKRW.png" width="295"/>
</a>
<div class="graph_info">
<span class="time">2021.07.12 15:54</span>
<span class="source">하나은행 기준</span>
<span class="count">고시회차<span class="num">182</span>회</span>
</div>
</li>
<li class="">
<a class="head jpy" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_JPYKRW" onclick="clickcr(th

In [None]:
fin_list = exchange_list.find_all("li")
fin_list

[<li class="on">
 <a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
 <h3 class="h_lst"><span class="blind">미국 USD</span></h3>
 <div class="head_info point_dn">
 <span class="value">1,147.50</span>
 <span class="txt_krw"><span class="blind">원</span></span>
 <span class="change"> 1.00</span>
 <span class="blind">하락</span>
 </div>
 </a>
 <a class="graph_img" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdc', '', '', event);">
 <img alt="" height="153" src="https://ssl.pstatic.net/imgfinance/chart/marketindex/FX_USDKRW.png" width="295"/>
 </a>
 <div class="graph_info">
 <span class="time">2021.07.12 15:54</span>
 <span class="source">하나은행 기준</span>
 <span class="count">고시회차<span class="num">182</span>회</span>
 </div>
 </li>, <li class="">
 <a class="head jpy" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_JPYKRW" onclick="clickcr(this, 'fr1.jpyt', '',

In [None]:
for fin in fin_list:
    print(fin.find("h3").text)

미국 USD
일본 JPY(100엔)
유럽연합 EUR
중국 CNY


In [None]:
for fin in fin_list:
    # print("국가명 : {}".format(fin.find("h3", {"class":"h_lst"}).text))

    c_name = fin.find("h3", {"class":"h_lst"}).text
    # exchangeRate = soup.select("#exchangeList > li.on > a.head.usd > div > span.value")
    exchangeRate = fin.select_one("span.value").text
    change = fin.select_one("span.change").text
    updown = fin.select_one("span.blind").text

    print("국가명 : {}".format(c_name))
    print("환율 : {}".format(exchangeRate))
    print("변동 : {}".format(change))
    print("등락 : {}".format(updown))

    print()

국가명 : 미국 USD
환율 : 1,147.50
변동 :  1.00
등락 : 미국 USD

국가명 : 일본 JPY(100엔)
환율 : 1,041.24
변동 :  2.80
등락 : 일본 JPY(100엔)

국가명 : 유럽연합 EUR
환율 : 1,360.88
변동 :  1.07
등락 : 유럽연합 EUR

국가명 : 중국 CNY
환율 : 177.11
변동 : 0.17
등락 : 중국 CNY



문제점!  
1. `환율`과 `변동`은 숫자가 아닌 텍스트의 형태  
    --> '실수화' 시켜줘야 함  
2. `<h3>`도 태그 class로 `blind`를 가지고 있기 때문에, 등락의 값이 국가명으로 나옴  
    --> change의 옆이라는 것을 활용해 `nextSibling` 사용해보자

In [None]:
for fin in fin_list:
    # print("국가명 : {}".format(fin.find("h3", {"class":"h_lst"}).text))

    c_name = fin.find("h3", {"class":"h_lst"}).text
    # exchangeRate = soup.select("#exchangeList > li.on > a.head.usd > div > span.value")
    exchangeRate = fin.select_one("span.value").text
    change = fin.select_one("span.change").text
    updown = fin.select_one("span.change").nextSibling.nextSibling.text

    print("국가명 : {}".format(c_name))
    print("환율 : {}".format(float(exchangeRate.replace(",", ""))))
    print("변동 : {}".format(float(change))) 
    # change는 숫자의 모양을 하고 있는 문자열이기 때문에, 실수로 바꿔줘야 함
    print("등락 : {}".format(updown))

    print()

국가명 : 미국 USD
환율 : 1147.5
변동 : 1.0
등락 : 하락

국가명 : 일본 JPY(100엔)
환율 : 1041.24
변동 : 2.8
등락 : 하락

국가명 : 유럽연합 EUR
환율 : 1360.88
변동 : 1.07
등락 : 하락

국가명 : 중국 CNY
환율 : 177.11
변동 : 0.17
등락 : 상승



# 무신사 스크레이핑

In [None]:
from urllib.request import urlopen, urlretrieve

url = "https://search.musinsa.com/category/001001"

In [None]:
data = urlopen(url)
data_html = data.read()
soup = BeautifulSoup(data_html)
soup

In [None]:
searchList = soup.select_one("#searchList") # searchList라는 id로 ul을 선택
print(searchList)

<ul class="snap-article-list boxed-article-list article-list center list goods_small_media8" id="searchList">
<li class="li_box" data-no="1420730">
<div class="icon_new">SALE 50%</div>
<div class="box-icon-right">
<span class="icon-box-limited icon-reverse">한정 판매</span>
</div>
<div class="icon_group">
<ul>
<li class="icon_man sight_out" title="남성">남성</li>
</ul>
</div>
<div class="li_inner">
<div class="list_img">
<a class="img-block" href="https://store.musinsa.com/app/goods/1420730" name="goods_link" title="[패키지] NYC LOCATION T-SHIRT (16 Colors) [LRPMCTA401M]">
<img alt="[패키지] NYC LOCATION T-SHIRT (16 Colors) [LRPMCTA401M]" class="lazyload lazy" data-original="https://image.msscdn.net/images/goods_img/20200424/1420730/1420730_1_125.jpg" src="//image.msscdn.net/images/no_image_125.png"/>
</a>
</div>
<div class="article_info">
<p class="item_title"><a href="https://display.musinsa.com/display/brands/grooverhyme/goods">그루브라임</a></p>
<p class="list_info">
<a href="https://store.musinsa.co

In [None]:
products = soup.select("#searchList > li")
len(products)

90

In [None]:
products[0]

<li class="li_box" data-no="1420730">
<div class="icon_new">SALE 50%</div>
<div class="box-icon-right">
<span class="icon-box-limited icon-reverse">한정 판매</span>
</div>
<div class="icon_group">
<ul>
<li class="icon_man sight_out" title="남성">남성</li>
</ul>
</div>
<div class="li_inner">
<div class="list_img">
<a class="img-block" href="https://store.musinsa.com/app/goods/1420730" name="goods_link" title="[패키지] NYC LOCATION T-SHIRT (16 Colors) [LRPMCTA401M]">
<img alt="[패키지] NYC LOCATION T-SHIRT (16 Colors) [LRPMCTA401M]" class="lazyload lazy" data-original="https://image.msscdn.net/images/goods_img/20200424/1420730/1420730_1_125.jpg" src="//image.msscdn.net/images/no_image_125.png"/>
</a>
</div>
<div class="article_info">
<p class="item_title"><a href="https://display.musinsa.com/display/brands/grooverhyme/goods">그루브라임</a></p>
<p class="list_info">
<a href="https://store.musinsa.com/app/goods/1420730" name="goods_link" title="[패키지] NYC LOCATION T-SHIRT (16 Colors) [LRPMCTA401M]">
         

In [None]:
products[0].select_one("img.lazyload")['data-original']

In [None]:
# 불러온 이미지를 파일로 저장
urlretrieve(products[0].select_one("img.lazyload")['data-original'], 'sample.jpg')

In [None]:
# 이미지 저장_ver2
img_url = products[0].select_one("img.lazyload")['data-original']
urlretrieve(img_url, img_url.split("/")[-1])

In [None]:
# 브랜드
item_title = products[0].select_one("p.item_title").text
print(item_title)

In [None]:
# 상품명
product_name = products[0].select_one("p.list_info").text.strip()
print(product_name)

In [None]:
# 가격
product_price = products[0].select_one("p.price").find("del").nextSibling.strip()
print(float(product_price.replace(",", "").replace("원","")))

In [None]:
# 별점 등록 수
star_count = products[0].select_one("p.point > span.count").text
print(int(star_count.replace(",", "")))

In [None]:
# # 좋아요 수
# like_count = products[0].select_one("p.txt_cnt_like")
# print(like_count)

In [None]:
product_idx = []
product_img_url_list = []
product_brand_list = []
product_name_list = []
product_price_list = []
product_star_count_list = []

for product in products:
  img_url = product.select_one("img.lazyload")['data-original']
  urlretrieve(img_url, img_url.split("/")[-1])

  # 브랜드
  product_title = product.select_one("p.item_title").text
  
  # 상품명
  product_name = product.select_one("p.list_info").text.strip()

  # 가격
  price_del_elem = product.select_one("p.price").find("del")

  # <del> 태그가 있으면..
  if price_del_elem:
    product_price = price_del_elem.nextSibling.strip()
  else: # <del> 태그가 없으면..
    product_price = product.select_one("p.price").text.strip()

  # 별점 등록 수
  star_count = product.select_one("p.point > span.count").text.replace(",", "")
  
  # 상품 id
  product_id = product['data-no']

  product_idx.append(product_id)
  product_img_url_list.append(img_url)
  product_brand_list.append(product_title)
  product_name_list.append(product_name)
  product_price_list.append(product_price)
  product_star_count_list.append(star_count)

In [None]:
import pandas as pd
datas = {
    "상품ID" : product_idx,
    "상품이미지URL": product_img_url_list,
    "상품브랜드": product_brand_list,
    "상품명": product_name_list,
    "상품가격": product_price_list,
    "상품별점등록수": product_star_count_list
}

df = pd.DataFrame(datas)
df.head()