In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 한글처리
import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname="C:\\Windows\\Fonts\\malgun.ttf").get_name()
plt.rc("font", family=font_name)

# 음수 - 표시 처리
import matplotlib as mlp
mlp.rcParams["axes.unicode_minus"] = False

# 1. XML

+ 특징
    - 메타 언어 : GML -> SGML -> XML
    - 데이터를 위한 언어
    - DBMS
    - 데이터 표준화 : 이기종 시스템간의 정보교환, 웹서비스, 유비쿼터스, 사물인터넷 등등...
    
    
+ 구성 요소
    - dtd   ( 설계도 역할, 간단한 문법, 정밀한 설계는 어려움, 제한이 있음 )
    - xml schema  ( 설계도 역할, 정밀한 설계가 가능 )
    - xml  ( 디자인적 요소가 없음 )
    - xsl, xslt  ( xml을 데이터를 디자인을 해주는 역할 , css가 여기에 해당 )
   
   
+ https://docs.python.org/3/library/xml.etree.elementtree.html


In [4]:
import xml.etree.ElementTree as et

##### XML api 사용 방법
# 1. xml이 파일로 존재하는 경우 : parse()
# 2. xml이 메모리에 로드된 경우 : fromstring()

## (1) XML 데이터 불러오기

In [3]:
##### xml이 파일로 존재하는 경우

tree1 = et.parse("data/users.xml")

tree1

<xml.etree.ElementTree.ElementTree at 0x2606d2aa730>

In [4]:
##### xml이 이미 메모리에 로드되어 있는 경우

xmlstr = """<?xml version="1.0" encoding="utf-8" ?>
<users>
	<user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
    </user>
    <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
    </user>
</users>
"""

tree2 = et.fromstring(xmlstr)

tree2

<Element 'users' at 0x000002606D3C2B30>

## (2) XML 데이터 다루기

### 1) 태그명 검색

In [6]:
# 앞서 user.xml을 불러와 담아놓은 tree1에서 find 함수로 "user" 라는 태그를 찾아보기
# 시작위치가 0이 아니라 1부터 이므로 착오 금지

print(tree1.find("user"))
print(tree1.find("user[1]"))
print(tree1.find("user[2]"))   # 두번째 유저에 접근

<Element 'user' at 0x000002606D3C2630>
<Element 'user' at 0x000002606D3C2630>
<Element 'user' at 0x000002606D3C2770>


In [16]:
data = tree1.find("user[2]")
print(type(data))
dir(data)

print(data.tag)
print(data.attrib)    # attrib 로 속성에 접근 가능
print(data.get("grade"))    # get( 키값 ) 으로 데이터를 직접 꺼낼 수 있음

print("-----------------------------------------------------")

username = data.find("name")    # 이미 data 를 user[2] 로 인해 2번째 user에 접근한 상태이므로
print(username.tag)
print(username.attrib)
print(username.text)    # text 를 이용하면 태그가 가지고있는 자식 노드에 접근할 수 있음

<class 'xml.etree.ElementTree.Element'>
user
{'grade': 'diamond'}
diamond
-----------------------------------------------------
name
{}
Kim Yoo Mee


### 2) 태그 조건으로 검색

In [26]:
# data = tree1.find("./user[@grade]")
# data = tree1.find("./user[@grade][2]")
data = tree1.find("./user[@grade='diamond']")

print(data)
print(data.attrib)
print(data.keys())
print(data.items())

<Element 'user' at 0x000002606D3C2770>
{'grade': 'diamond'}
['grade']
[('grade', 'diamond')]


### 3) 여러 개의 태그를 한꺼번에 가져오기

In [28]:
# . 은 현재위치를 의미. 여기선 tree1 이고 / 표시는 하위단계를 의미.  즉 현재위치에서 하위단계의 user란 태그를 전부 가져오기

users = tree1.findall("./user")
users

for i in users:
    print(i.attrib)
    print(i.find("name").text)

{'grade': 'gold'}
Kim Cheol Soo
{'grade': 'diamond'}
Kim Yoo Mee


# 2. JSON

In [3]:
import json

# dumps() : 데이터 저장
# loads() : 데이터 불러올 때

In [35]:
j1 = {"name" : "홍길동", "birth" : "0101", "age" : 20}
print(type(j1))
print(j1)

print("---------------------------------------------------------")

j2 = json.dumps(j1)
print(type(j2))
print(j2)

print("---------------------------------------------------------")

j3 = json.dumps((1, 2, 3))
print(type(j3))
print(j3)

print("---------------------------------------------------------")

j4 = json.loads(j2)
print(type(j4))
print(j4)


<class 'dict'>
{'name': '홍길동', 'birth': '0101', 'age': 20}
---------------------------------------------------------
<class 'str'>
{"name": "\ud64d\uae38\ub3d9", "birth": "0101", "age": 20}
---------------------------------------------------------
<class 'str'>
[1, 2, 3]
---------------------------------------------------------
<class 'dict'>
{'name': '홍길동', 'birth': '0101', 'age': 20}


In [36]:
obj = """
{
	"id": "0001",
	"type": "donut",
	"name": "Cake",
	"ppu": 0.55,
	"batters":
		{
			"batter":
				[
					{ "id": "1001", "type": "Regular" },
					{ "id": "1002", "type": "Chocolate" },
					{ "id": "1003", "type": "Blueberry" },
					{ "id": "1004", "type": "Devil's Food" }
				]
		},
	"topping":
		[
			{ "id": "5001", "type": "None" },
			{ "id": "5002", "type": "Glazed" },
			{ "id": "5005", "type": "Sugar" },
			{ "id": "5007", "type": "Powdered Sugar" },
			{ "id": "5006", "type": "Chocolate with Sprinkles" },
			{ "id": "5003", "type": "Chocolate" },
			{ "id": "5004", "type": "Maple" }
		]
}
"""

print(type(obj))

<class 'str'>


In [48]:
# id가 0001 인 값 추출

a = json.loads(obj)
print(a["id"])

# id가 1001 인 값 추출

print(a["batters"]["batter"][0]["id"])

0001
1001


# 3. BeautifulSoup

## (1) 웹 소스 가져오기

In [2]:
import urllib.request as req
from urllib.error import HTTPError, URLError

In [52]:
google = req.urlopen("https://google.com")
html = google.read()    # google 페이지에서 html 코드 가져오기
print(type(html))

<class 'bytes'>


In [53]:
try:
    google = req.urlopen("https://google.com")
except HTTPError as e:
    print("HTTPError : " , e)
except ULRError as e:
    print("URLError : " , e)
else:
    html = google.read()

In [54]:
##### 이미지 가져오기
req.urlretrieve("https://www.google.co.kr/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png", "data/google1.png")

('data/google1.png', <http.client.HTTPMessage at 0x2606d609af0>)

In [59]:
img = req.urlopen("https://www.google.co.kr/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png")
img_data = img.read()
img_data

f = open("data/google2.png", "wb")
f.write(img_data)
f.close()

## (2) BeautifulSoup 사용법

+ pip install beautifulsoup4
+ https://www.crummy.com/software/BeautifulSoup

In [6]:
from bs4 import BeautifulSoup

In [10]:
page = open("data/test_first.html")
page

# page 와 같이 test_first 파일을 불러오면 문자열구조이고 이를 tree 구조로 만들어주는 것이 BeautifulSoup 이 그런역할을 한다.

soup = BeautifulSoup(page, "html.parser")
print(soup.prettify())       # prettify() 는 들여쓰기 해주는 기능 (정렬이라 보면된다.)

<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code by Netsong7
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Happy PinkWink.
    <a href="http://netsong7.synology.me" id="pw-link">
     PinkWink
    </a>
   </p>
   <p class="inner-text second-item">
    Happy Data Science.
    <a href="https://www.python.org" id="py-link">
     Python
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    Data Science is funny.
   </b>
  </p>
  <p class="outer-text">
   <b>
    All I need is Love.
   </b>
  </p>
 </body>
</html>


### 1) 원하는 위치에 접근하는 방법(순차적인 방식)

In [14]:
list(soup.children)    # children 은 자식위치에 접근방법
list(soup.children)[0]
list(soup.children)[1]
list(soup.children)[2]

<html><head>
<title>Very Simple HTML Code by Netsong7</title>
</head><body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [17]:
html = list(soup.children)[2]
body = list(html.children)[1]
list(body.children)

['\n',
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>,
 '\n',
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 '\n',
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>,
 '\n']

### 2) 태그명으로 접근하는 방법

In [22]:
soup.head
soup.body
soup.body.div
soup.body.div.p
soup.p

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>

### 3) 함수로 접근하는 방법

+ find(), find_all()

In [23]:
soup.find("p")

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>

In [26]:
soup.find_all("p")


[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [27]:
soup.find("p", class_="outer-text")         # 그 태그에 class 속성값이 있다면 그 속성을 가진 태그로 접근

<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>

In [28]:
soup.find("p", id="second")         # 그 태그에 id 속성값이 있다면 그 속성을 가진 태그로 접근

<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>

### 4) 다양한 순차 접근 방식

In [36]:
# next_sibling 은 형제 태그에 접근   ( 여기선 head의 형제에 접근하는 코드 - 동생 )

soup.head.next_sibling

# previous_sibling 은 형제 태그에 접근 ( 여기선 body의 형제에 접근하는 코드 - 형)

soup.body.previous_sibling

# next_siblings 를 통해 형제 태그에 접근 ( 여기선 div 의 형제들에 접근하는 코드 - 동생들 (복수형) )

list(soup.body.div.next_siblings)

# parent 를 통해 부모 태그에 접근 ( 여기선 div 의 부모인 body 태그에 접근하는 코드 - 부모)

soup.body.div.parent

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

### 5) Text Node 가져오기

+ get_text()
+ text

In [42]:
soup.html.get_text()       # html 태그 안의 모든 글자들을 가져오기
soup.head.get_text()       # head 태그 안의 모든 글자들을 가져오기
soup.title.get_text()      # title 태그 안의 모든 글자들을 가져오기

soup.div.get_text()      # div 태그 안의 모든 글자들을 가져오기
soup.p.get_text()        # p 태그 안의 모든 글자들을 가져오기 ( 첫번째 p 태그 )

for p in soup.find_all("p"):       # 여러개인 p 태그에서 반복문을 돌면서 글자들을 가져오기
    print(p.get_text())


                Happy PinkWink.
                PinkWink


                Happy Data Science.
                Python



                Data Science is funny.
            



                All I need is Love.
            



### 6) 속성에 접근하기

In [55]:
# 첫번째 a 태그에 접근
a = soup.find("a")
a

# a 태그의 href 속성을 가져오기
a["href"]

# 여러개의 a 태그들의 href 속성을 전부 가져오기
for n in soup.find_all("a"):
    print(n["href"])

http://netsong7.synology.me
https://www.python.org


## (3) 실습

### 1) 네이버에서 환율 정보 가져오기

+ https://finance.naver.com/marketindex/


In [57]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

In [59]:
# 웹 소스를 준비

url = "https://finance.naver.com/marketindex/"
page = urlopen(url)
page

# 가져온 웹 소스를 트리 구조로 변환

soup = BeautifulSoup(page, "html.parser")


In [62]:
span = soup.find_all("span", class_="value")

print("미 환율 : ", span[0].get_text())

미 환율 :  1,290.60


In [67]:
# div 태그로 접근

div = soup.find_all("div", class_="head_info point_dn")
print("미 환율 : ", div[0].get_text())

div = soup.find_all("div", class_="head_info point_dn")
print("미 환율 : ", div[0].span.get_text())

미 환율 :  
1,290.60
원
 2.40
하락

미 환율 :  1,290.60


In [69]:
# CSS

# head_info 라는 class 속성을 가진 div 태그의 자식인 span 태그의 값을 가져오고 싶다.
span = soup.select_one("div.head_info > span.value")
print(span.get_text())

1,290.60


### 2) 스크래핑 연습

In [75]:
##### 웹 소스 가져오기
import ssl
context = ssl._create_unverified_context()


url = "http://www.pythonscraping.com/pages/warandpeace.html"
page = urlopen(url, context=context)
soup = BeautifulSoup(page, "html.parser")

In [81]:
##### 녹색 단어만 골라오기
green_words = soup.find_all("span", class_="green")
for n in green_words:
    print(n.get_text())
    
print("-----------------------------------------------")

green_words = soup.find_all("span", {"class" : "green"})
for n in green_words:
    print(n.get_text())
    
print("-----------------------------------------------")

green_words = soup.select("div#text > span.green")      # text 라는 id를 가진 div 태그의 자식인 span에서 green 이라는 class 값
for n in green_words:
    print(n.get_text())

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna
-----------------------------------------------
Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the ba

In [92]:
##### 제목(h숫자)

titles = soup.find_all(["h1", "h2"])     # find_all 로 태그를 여러개 찾을 때는 [] 리스트로 묶어줘야한다.
print([t.get_text() for t in titles])


['War and Peace', 'Chapter 1']


In [100]:
##### 웹소스 가져오기
url = "http://www.pythonscraping.com/pages/page3.html"
page = urlopen(url, context=context)
soup = BeautifulSoup(page, "html.parser")

In [102]:
##### 제목 행은 건너뛰고 나머지 모든 행을 수집

# original
tables = soup.find_all("tr", class_="gift")
tables

# class 속성이 없다면 ?  아이디 속성을 이용

tables = soup.find_all("tr", {"id": ["gift1", "gift2", "gift3", "gift4", "gift5"]})
tables

# id 속성이 매우 많다면 ?  ( 즉, 행의 갯수가 매우 많다면 ? )



[<tr class="gift" id="gift1"><td>
 Vegetable Basket
 </td><td>
 This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
 <span class="excitingNote">Now with super-colorful bell peppers!</span>
 </td><td>
 $15.00
 </td><td>
 <img src="../img/gifts/img1.jpg"/>
 </td></tr>,
 <tr class="gift" id="gift2"><td>
 Russian Nesting Dolls
 </td><td>
 Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
 </td><td>
 $10,000.52
 </td><td>
 <img src="../img/gifts/img2.jpg"/>
 </td></tr>,
 <tr class="gift" id="gift3"><td>
 Fish Painting
 </td><td>
 If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
 </td><td>
 $10,005.00
 </td><td>
 <img src="../img/gifts/img3.jpg"/>
 </td></tr>,
 <tr class="gift" id="gift4"><td>
 Dead Parrot
 </