In [1]:
html_str = """
<html>
  <head>
    <title>안녕하세요</title>
  </head>
  <body>
    <div id="container">
      <p class='p1'>hello</p>
      <p>Bye</p>
    </div>
  </body>
</html>"""

html 문자열을 파이썬에서 다뤄야 한다.
- HTML 문자열을 엘리먼트화 해서 파이썬에서 **객체**로 다룰 수 있어야 한다.
  - `BeautifulSoup`을 이용해서 HTML 문자열을 엘리먼트 객체로 바꿔줄 수 있다!

In [2]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_str, 'html.parser') # 파싱 뜻: 문자열 데이터를 의미 있는 구조로 분석하거나 해석하는 과정을 의미

# Parsing은 다양한 응용 분야에서 사용되며, 그 의미는 문맥에 따라 약간 다를 수 있습니다. 주요 용도는 다음과 같습니다:

# 문법 분석 (Syntax Parsing):
# 컴파일러나 인터프리터에서 소스 코드를 문법적으로 분석하는 과정입니다. 프로그램 언어의 구문 규칙을 기반으로 코드가 올바르게 작성되었는지 확인하고, 이를 중간 표현 형태로 변환합니다. 예를 들어, Python 소스 코드를 파싱하여 Abstract Syntax Tree (AST)를 생성하는 것이 이에 해당합니다.

# 데이터 파싱 (Data Parsing):
# 다양한 형식의 데이터를 읽어들이고, 이를 프로그래밍 언어가 처리할 수 있는 형태로 변환하는 과정입니다. 예를 들어, JSON, XML, CSV 파일 등을 파싱하여 프로그램 내에서 사용할 수 있는 데이터 구조(리스트, 딕셔너리 등)로 변환합니다.

# 자연어 처리 (Natural Language Processing, NLP):
# 인간 언어 텍스트를 분석하고 구조화된 정보로 변환하는 과정입니다. 예를 들어, 문장을 파싱하여 문법적 요소(주어, 동사, 목적어 등)를 식별하는 작업이 있습니다.


# 여기서는 데이터 파싱!!!
soup


<html>
<head>
<title>안녕하세요</title>
</head>
<body>
<div id="container">
<p class="p1">hello</p>
<p>Bye</p>
</div>
</body>
</html>

# find 방식
- `find("태그명", "속성값 딕셔너리")`
  - 한 개의 Element만 찾기
- `find_all("태그명", "속성값 딕셔너리")`
  - 여러 개의 Element 찾기(리스트)

In [3]:
# div 중에 id 속성이 container인 것
soup.find('div', {'id': 'container'})

<div id="container">
<p class="p1">hello</p>
<p>Bye</p>
</div>

In [4]:
# p 중에 class가 p1인 것 찾기
soup.find('p', {'class': 'p1'})

<p class="p1">hello</p>

In [5]:
# 모든 p 찾기
soup.find_all("p")

[<p class="p1">hello</p>, <p>Bye</p>]

In [6]:
soup.find("p")

<p class="p1">hello</p>

In [7]:
# 제일 마지막 p 엘리먼트를 갖고오기
soup.find_all("p")[-1]

<p>Bye</p>

In [8]:
p_p1 = soup.find('p', {'class': 'p1'})
p_p1

<p class="p1">hello</p>

In [9]:
p_p1.nextSibling

# '\n' 도 하나의 객체라 형제 요소인 <p>Bye</p> 가 나오지 않고 '\n'로 나오게 된다.
# 따라서 p_p1.nextSibling.nextSibling 이렇게 코드를 실행해야 형제 노드가 나온다.

'\n'

In [10]:
p_p1.nextSibling.nextSibling

<p>Bye</p>

In [11]:
p_p1.text

'hello'

In [12]:
p_p1.get('class')
# get은 속성값을 얻을 떄 사용한다

['p1']

# 선택자(selector) 사용 방식
- `soup.select(선택자)` : 선택자에 의해 엘리먼트를 **여러 개** 선택
- `soup.select_one(선택자)` : 선택자에 의해 엘리먼트를 한 개만 선택

In [13]:
soup.select('#container') # 'id가 container인 것'이라는 의미

[<div id="container">
 <p class="p1">hello</p>
 <p>Bye</p>
 </div>]

In [14]:
soup.select('#container > .p1') # 'id가 container인 것 중에 class가 p1인 것'이라는 의미 (자식 선택자)

[<p class="p1">hello</p>]

In [15]:
soup.select('p') # 모든 p

[<p class="p1">hello</p>, <p>Bye</p>]

# 네이버 환율 정보 가져오기
- 웹에 접속을 해야 하기 때문에 `requests` 모듈 활용 (웹에 있는 HTML 코드를 쓰게 해주세요!!)
- html문서를 가져오고 Element 객체화를 시키기 위해서 BeautifulSoup 필요

In [16]:
import requests
from bs4 import BeautifulSoup

In [17]:
# 요청할 URL

URL = "https://finance.naver.com/marketindex/"

In [18]:
response = requests.get(URL)
page = response.content # content : 접속한 웹 사이트의 응답을 문자열로 가져오는 속성
page

b'\n<script language=javascript src="/template/head_js.naver?referer=info.finance.naver.com&menu=marketindex&submenu=market"></script>\n<script type="text/javascript" src="https://ssl.pstatic.net/imgstock/static.pc/20240808165745/js/info/jindo.min.ns.1.5.3.euckr.js"></script>\n<script type="text/javascript" src="https://ssl.pstatic.net/imgstock/static.pc/20240808165745/js/jindo.1.5.3.element-text-patch.js"></script>\n\n\n\t\n\t\n\t<div id="container" style="padding-bottom:0px;">\n\t\n\n\t\t\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\t\t<div class="market_include">\n\t<div class="market_data">\n\t\t<div class="market1">\n\t\t\t<div class="title">\n\t\t\t\t<h2 class="h_market1"><span>\xc8\xaf\xc0\xfc \xb0\xed\xbd\xc3 \xc8\xaf\xc0\xb2</span></h2>\n\t\t\t</div>\n\t\t\t<!-- data -->\n\t\t\t<div class="data">\n\t\t\t\t<ul class="data_lst" id="exchangeList">\n\t\t\t\t\n\t\t\t\t    \n\t\t\t\t         \n\t\t\t\t         \n\t\t\t\t         \n\t\t\t\t         \t\t\t\t         \t\t\t     

In [19]:
soup = BeautifulSoup(page, 'html.parser')
soup


<script language="javascript" src="/template/head_js.naver?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20240808165745/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20240808165745/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_up">
<span class="value">1,371.50</span>
<span class="txt_krw

In [20]:
exchange_list = soup.select_one('#exchangeList')
exchange_list

<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_up">
<span class="value">1,371.50</span>
<span class="txt_krw"><span class="blind">원</span></span>
<span class="change">5.50</span>
<span class="blind">상승</span>
</div>
</a>
<a class="graph_img" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdc', '', '', event);">
<img alt="" height="153" src="https://ssl.pstatic.net/imgfinance/chart/marketindex/FX_USDKRW.png" width="295"/>
</a>
<div class="graph_info">
<span class="time">2024.08.12 21:20</span>
<span class="source">하나은행 기준</span>
<span class="count">고시회차<span class="num">564</span>회</span>
</div>
</li>
<li class="">
<a class="head jpy" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_JPYKRW" onclick="click

In [21]:
# exchange의 li를 가져와라
exchange_list = soup.select("#exchangeList > li")
exchange_list

[<li class="on">
 <a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
 <h3 class="h_lst"><span class="blind">미국 USD</span></h3>
 <div class="head_info point_up">
 <span class="value">1,371.50</span>
 <span class="txt_krw"><span class="blind">원</span></span>
 <span class="change">5.50</span>
 <span class="blind">상승</span>
 </div>
 </a>
 <a class="graph_img" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdc', '', '', event);">
 <img alt="" height="153" src="https://ssl.pstatic.net/imgfinance/chart/marketindex/FX_USDKRW.png" width="295"/>
 </a>
 <div class="graph_info">
 <span class="time">2024.08.12 21:20</span>
 <span class="source">하나은행 기준</span>
 <span class="count">고시회차<span class="num">564</span>회</span>
 </div>
 </li>,
 <li class="">
 <a class="head jpy" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_JPYKRW" onclick="clickcr(this, 'fr1.jpyt

In [22]:
sample_li = exchange_list[0]
sample_li

<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_up">
<span class="value">1,371.50</span>
<span class="txt_krw"><span class="blind">원</span></span>
<span class="change">5.50</span>
<span class="blind">상승</span>
</div>
</a>
<a class="graph_img" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdc', '', '', event);">
<img alt="" height="153" src="https://ssl.pstatic.net/imgfinance/chart/marketindex/FX_USDKRW.png" width="295"/>
</a>
<div class="graph_info">
<span class="time">2024.08.12 21:20</span>
<span class="source">하나은행 기준</span>
<span class="count">고시회차<span class="num">564</span>회</span>
</div>
</li>

In [23]:
# 미국 USD 고르는 방법 1:
sample_li.select_one("h3.h_lst").text

'미국 USD'

In [24]:
# 미국 USD 고르는 방법 2:
sample_li.find("h3", {"class": "h_lst"}).text

'미국 USD'

In [25]:
# 환율
float(sample_li.select_one("span.value").text.replace(",", ""))


1371.5

In [26]:
# change
float(sample_li.select_one("span.change").text)

5.5

In [27]:
# "상승" 가져오기: 방법 1
sample_li.select("span.blind")[-1].text

'상승'

In [28]:
# "상승" 가져오기: 방법 2
sample_li.select_one("span.change").nextSibling.nextSibling.text

'상승'

In [29]:
# 위를 통해 본 필요한 결과 모으기:

c_name_list = []
exchange_rate_list = []
change_list = []
updown_list = []

for exchange in exchange_list:
  c_name = exchange.select_one("h3.h_lst").text
  exchange_rate = float(exchange.select_one("span.value").text.replace(",", ""))
  change = float(exchange.select_one("span.change").text)
  updown = exchange.select_one("span.change").nextSibling.nextSibling.text

  print(c_name, exchange_rate, change, updown)

  c_name_list.append(c_name)
  exchange_rate_list.append(exchange_rate)
  change_list.append(change)
  updown_list.append(updown)

미국 USD 1371.5 5.5 상승
일본 JPY(100엔) 929.23 2.21 하락
유럽연합 EUR 1498.02 6.76 상승
중국 CNY 190.99 0.64 상승


In [30]:
import pandas as pd

exchange_datas = {
    '국가' : c_name_list,
    '환율' : exchange_rate_list,
    '변동' : change_list,
    '등락' : updown_list
}

df_exchange = pd.DataFrame(exchange_datas)
df_exchange


Unnamed: 0,국가,환율,변동,등락
0,미국 USD,1371.5,5.5,상승
1,일본 JPY(100엔),929.23,2.21,하락
2,유럽연합 EUR,1498.02,6.76,상승
3,중국 CNY,190.99,0.64,상승


In [31]:
df_exchange.to_csv('202408121640exchange.csv', index=False)
