In [122]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname="C:\\Windows\\Fonts\\malgun.ttf").get_name()
plt.rc("font", family=font_name)

import matplotlib as mlp
mlp.rcParams["axes.unicode_minus"] = False

import seaborn as sns

# 1. XML

+ https://docs.python.org/3/library/xml.etree.elementtree.html?highlight=xml#xml.etree.ElementTree.XML

+ 특징
    - 메타 언어 : GML -> SGML -> XML
    - 데이터를 위한 언어
    - DBMS
    - 데이터 표준화 : 이기종(서로다른) 시스템간의 정보교환, 웹서비스, 유비쿼터스, 사물인터넷 등등...

In [2]:
import xml.etree.ElementTree as elemTree

##### XML을 사용하는 방법
# 1. XML파일로 존재하는 경우 : parse()
# 2. XML문자열로 존재하는 경우 : fromstring()

### (1) XML데이터 불러오기

In [3]:
tree1 = elemTree.parse("data/users.xml")
tree1

<xml.etree.ElementTree.ElementTree at 0x25c10aa5550>

In [4]:
xmlstr = """<?xml version="1.0" encoding="utf-8" ?>
<users>
    <user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
        </user>
    <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
        </user>
</users>
"""

tree2 = elemTree.fromstring(xmlstr)
tree2

<Element 'users' at 0x0000025C10D95090>

### (2) XML 데이터 다루기

#### 1) 태그명 검색

In [8]:
print(tree1.find("user"))
print(tree1.find("user[1]")) #xml은 인덱스가 1부터 시작(개발언어가 아니기 때문)
print(tree1.find("user[2]"))

<Element 'user' at 0x0000025C10D16590>
<Element 'user' at 0x0000025C10D16590>
<Element 'user' at 0x0000025C10D16680>


In [14]:
data = tree1.find("user[2]")
#print(type(data))#타입은 Element
#dir(data)
print(data.tag)
print(data.attrib)#속성 찾기
print(data.get("grade"))

print("-----------------------------")

username = data.find("name")
print(username.tag)
print(username.attrib)#속성(속성은 없지만 자식이 있기때문에 {}로 뜸)
print(username.text)

user
{'grade': 'diamond'}
diamond
-----------------------------
name
{}
Kim Yoo Mee


#### 2) 태그 조건으로 검색

In [20]:
#data = tree1.find("./user[@grade]")#태그중에 grade라는 속성을 가지고 있는 user tag에 접근하겠다는 뜻. @는 attrib를 의미
#data = tree1.find("./user[@grade][2]")#인덱스 이용
data = tree1.find("./user[@grade='diamond']")#값을 부여할 수 있음

print(data.attrib)
print(data.keys())
print(data.items())

{'grade': 'diamond'}
['grade']
[('grade', 'diamond')]


#### 3) 여러 개의 태그를 한꺼번에 가져오기

In [22]:
users = tree1.findall("./user")#./는 생략가능(./는 현재위치를 표시한 것)
users

for user in users:
    print(user.attrib)
    print(user.find("name").text)

{'grade': 'gold'}
Kim Cheol Soo
{'grade': 'diamond'}
Kim Yoo Mee


#### 4) 연습문제

In [23]:
str = """<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E" />
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>
"""

data = elemTree.fromstring(str)

In [46]:
# Singapore에 있는 이웃나라 이름은?
s=data.find("country[2]")
n=s.find("neighbor[@name]")
print(n.get("name"))
# Panama에 있는 이웃나라 중 Costa Rica의 방향은?

# 각 나라의 gdppc를 조회

# 각 나라의 인접국가를 조회

#---------------------------------
# Singapore에 있는 이웃나라 이름은?
con = data.find("country[2]")
nei = con.find("neighbor[@name]")
print(nei.get("name"))
print("====================")

# Panama에 있는 이웃나라 중 CostaRica의 방향은?
con = data.find("country[3]")
neis = con.findall("neighbor")
for nei in neis : 
    if nei.get("name") == "Costa Rica":
        print(nei.get("direction"))
print("====================")

# 각 나라의 gdppc를 조회
cons = data.findall("country")
for con in cons :
    print(con.get("name"))
    print(con.find("gdppc").text)
print("====================")
    
# 각 나라의 인접국가를 조회
cons = data.findall("country")
for con in cons :
    neis = con.findall("neighbor")
    for nei in neis:
        print(nei.get("name"))


Malaysia
Malaysia
W
Liechtenstein
141100
Singapore
59900
Panama
13600
Austria
Switzerland
Malaysia
Costa Rica
Colombia


# 2. JSON

In [47]:
import json

# dumps() : 데이터를 저장
# loads() : 데이터를 불러올 때

In [54]:
j1 = {"name":"홍길동", "birth":"0101", "age":20}#dict타입
print(type(j1))
print(j1)

print("------------------------------------------------------------------------")

#dict형식을 바로 문자열로 바꿀 수 없기 때문에 json.dumps를 이용한다
j2 = json.dumps(j1)
print(type(j2))#json이라고 특별한 형식이 있는게 아님. 그냥 문자열로 저장됨
print(j2)

print("------------------------------------------------------------------------")

#j3 = str([1, 2, 3])
j3 = json.dumps([1, 2, 3])#튜플
print(type(j3))
print(j3)

print("------------------------------------------------------------------------")

j4 = json.loads(j2)#문자열로 저장된 j2를 불러오면 다시 dict형식으로 불러와짐
print(type(j4))
print(j4)

<class 'dict'>
{'name': '홍길동', 'birth': '0101', 'age': 20}
------------------------------------------------------------------------
<class 'str'>
{"name": "\ud64d\uae38\ub3d9", "birth": "0101", "age": 20}
------------------------------------------------------------------------
<class 'str'>
[1, 2, 3]
------------------------------------------------------------------------
<class 'dict'>
{'name': '홍길동', 'birth': '0101', 'age': 20}


In [55]:
obj = """
{
	"id": "0001",
	"type": "donut",
	"name": "Cake",
	"ppu": 0.55,
	"batters":
		{
			"batter":
				[
					{ "id": "1001", "type": "Regular" },
					{ "id": "1002", "type": "Chocolate" },
					{ "id": "1003", "type": "Blueberry" },
					{ "id": "1004", "type": "Devil's Food" }
				]
		},
	"topping":
		[
			{ "id": "5001", "type": "None" },
			{ "id": "5002", "type": "Glazed" },
			{ "id": "5005", "type": "Sugar" },
			{ "id": "5007", "type": "Powdered Sugar" },
			{ "id": "5006", "type": "Chocolate with Sprinkles" },
			{ "id": "5003", "type": "Chocolate" },
			{ "id": "5004", "type": "Maple" }
		]
}
"""

print(type(obj))

<class 'str'>


In [63]:
result = json.loads(obj)#문자열을 json으로 읽어오기
print(type(result))#문자열을 json으로 읽어오면 dict로 읽어온다
#print(result)

print("----------------------------------------------------------------")

print(result["id"])#첫번째로 걸리는 id가 출력됨(순서대로 접근하기 때문에)

print("----------------------------------------------------------------")

print(result["batters"]["batter"][0]["id"])

<class 'dict'>
----------------------------------------------------------------
0001
1001


# 3. BeautifulSoup

In [64]:
# 네트워크를 통해 html을 가져오는 작업

### (1) 웹 소스 가져오기

In [66]:
import urllib.request as req
from urllib.request import urlopen
from urllib.error import HTTPError, URLError

In [70]:
google = urlopen("https://www.google.com")#접속할 주소 작성
html = google.read()
print(type(html))

<class 'bytes'>


In [73]:
try:
    google = urlopen("https://www.google.com")
except HTTPError as e:
    print("HTTPError입니다. : ", e)#e에 메세지가 들어감
except URLError as e:
    print("URLError입니다. : ", e)
else:
    html = google.read()

In [74]:
##### 이미지 가져오기

#data폴더안에 google.png라는 이름으로 이미지 저장하기
req.urlretrieve("https://www.google.com/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png",
               "data/google.png")


('data/google.png', <http.client.HTTPMessage at 0x25c1088ee50>)

In [78]:
img = urlopen("https://www.google.com/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png")#img라는 변수(메모리)에 저장
img_data = img.read()
img_data

#가공 후 저장할 때
f = open("data/googl2.png", "wb")
f.write(img_data)
f.close()

In [84]:
import urllib.parse
##### 요청 주소
# 프로토콜://서버주소:포트번호/폴더 또는 파일명#섹션명   <-- 섹션명 : 바로 화면에 보여질 위치를 정해줌?
# 프로토콜://서버주소:포트번호/폴더 또는 파일명?변수=값&변수=값...  <-- 요청을 보여줌

# https://www.weather.go.kr/weather/lifenindustry/sevice_rss.jsp

api = "https://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp"
value = {"stnId":109}#지역번호
params = urllib.parse.urlencode(value)#key와 값을 꺼내기 위해 urlencode라는 함수 이용
print(params)

url = api + "?" + params
print(url)

data = urlopen(url).read()
#print(data)#한글이 다 유니코드로 바뀌어있음
print(data.decode("utf-8"))#utf-8로 다시 인코딩

stnId=109
https://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109
<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</link>
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubDate>2022년 02월 23일 (수)요일 06:00</pubDate>
 <item>
<author>기상청</author>
<category>육상중기예보</category>
<title>서울,경기도 육상 중기예보 - 2022년 02월 23일 (수)요일 06:00 발표</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</link>
<guid>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</guid>
<description>
	<header>
		<title>서울,경기도 육상중기예보</title>
		<tm>202202230600</tm>
		<wf><![CDATA[○ (강수) 26일(토)은 구름많고 오후에 비 또는 눈이 내리겠습니다.   <br />○ (기온) 이번 예보기간 아침 기온은 -7~3도, 낮 기온은 5~12도로 어제(22일, 아침최저기온 -13~-5도, 낮최고기온 -1~2도)보다 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 26일(토)은 1.0~2.5m, 그 밖의 날은 0.5~2.0m로 일겠습니다.<br />○ (주말전망) 26일(토)은 구름많고 오후에 비 또는 눈이 내리겠습니다. 27일(일

### (2) BeautifulSoup 사용법

+ pip install beautifulsoup4
+ https://www.crummy.com/software/BeautifulSoup/

In [9]:
from bs4 import BeautifulSoup

page = open("data/test_first.html").read()
page #파일은 현재 문자열, 트리로 바꿔야 접근하기가 편함

#트리구조로 바꾸기(BeautifulSoup을 이용하면 됨)
soup = BeautifulSoup(page, "html.parser") #어떤방법으로 접근할지 지정 가능, soup은 이 데이터가 저장되어있는 주소를 가지고 있는 것
print(soup.prettify()) #prettify() : 들여쓰기

<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code by Netsong7
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Happy PinkWink.
    <a href="http://netsong7.synology.me" id="pw-link">
     PinkWink
    </a>
   </p>
   <p class="inner-text second-item">
    Happy Data Science.
    <a href="https://www.python.org" id="py-link">
     Python
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    Data Science is funny.
   </b>
  </p>
  <p class="outer-text">
   <b>
    All I need is Love.
   </b>
  </p>
 </body>
</html>


In [14]:
##### 원하는 위치에 접근하는 방법(순차적인 방식)
list(soup.children) #children : 현재 위치에서 모든 자식들을 보겠다는 의미, 여기서 현재 위치는 꼭대기(움직이지 않아서)
#리스트 형식으로 저장되어 있어서 list()로 풀어서 보면 됨

list(soup.children)[0] #첫번째 자식은 html
list(soup.children)[1] #두번째 자식은 공백(공백도 무시하면 안됨)
list(soup.children)[2] #그 다음은 html태그부터 시작해서 전체(실제 시작)

<html><head>
<title>Very Simple HTML Code by Netsong7</title>
</head><body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [16]:
html = list(soup.children)[2]
list(html.children) #html은 자식노드가 2개 있음(head, body)

body = list(html.children)[1]
list(body.children)

['\n',
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>,
 '\n',
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 '\n',
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>,
 '\n']

In [20]:
##### 태그명으로 접근하는 방법

soup.head #.으로 접근하는 방법
soup.body
soup.body.div #따로 명시하지 않으면 body안에서 첫번째 자식(첫번째 div)를 불러옴
soup.body.div.p

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>

In [21]:
##### find(), find_all()
soup.find("p")

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>

In [22]:
soup.find("p", class_="outer-text")#이 태그("p")에 class라는 속성이 있으면 접근하게 해주라는 뜻

<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>

In [23]:
soup.find("p", id="second")

<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>

In [26]:
soup.head
soup.head.next_sibling #head에서 작업하고 body로 옮겨가고 싶을 때 사용(head와 body는 형제관계)

soup.body.previous_sibling #body에서 다시 head로 가고싶을 때 사용
soup.body.previous_sibling.next_sibling #다시 body로

soup.body.div.parent #body의 div에서 다시 body로 나가고 싶을 때

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [32]:
##### 데이터(Text Node)가져오기

soup.html.get_text()
soup.head.get_text()
soup.title.get_text() #더 가깝게 접근할수록 데이터를 깔끔하게 가져옴

soup.div.get_text()
soup.p.get_text()

#모든 p태그의 글자를 가져오려면
for p in soup.find_all("p"):
    print(p.get_text())


                Happy PinkWink.
                PinkWink


                Happy Data Science.
                Python



                Data Science is funny.
            



                All I need is Love.
            



In [35]:
##### 속성에 접근하기

a = soup.find("a")
a

a['href'] #문자 인덱스를 이용해서 값만 뽑아오기

for n in soup.find_all("a"):
    print(n["href"])

http://netsong7.synology.me
https://www.python.org


### (3) 실습

#### 1) 네이버에서 환율정보 가져오기

+ https://finance.naver.com/marketindex/


In [37]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

In [43]:
url = "https://finance.naver.com/marketindex/"
page = urlopen(url) #내 컴퓨터에 주소를 가져옴
page

soup = BeautifulSoup(page, "html.parser")

In [50]:
span = soup.find_all("span", class_="value")
span

print("미 환율 : ", span[0].get_text())

미 환율 :  1,197.30


In [58]:
div = soup.find_all("div", class_="head_info")
span = div[0].find_all("span")

print("미 환율 : {}, 상승 : {}" .format(span[0].get_text(), span[3].get_text()))

미 환율 : 1,197.30, 상승 : 5.30


In [59]:
# CSS

span = soup.select_one("div.head_info > span.value")#클래스는 .으로 접근
print(span.get_text())

1,197.30


#### 2)스크래핑 연습

In [81]:
url = "http://www.pythonscraping.com/pages/warandpeace.html"
page = urlopen(url)
soup = BeautifulSoup(page, "html.parser")

In [79]:
##### 녹색 단어만 골라오기
span = soup.find_all("span", class_="green")
span

for n in span:
    print(n.get_text())

print("-----------------------------------------")

span = soup.find_all("span", {"class":"green"})
for n in span:
    print(n.get_text())
    
print("-----------------------------------------")

span = soup.select("div#text > span.green")
for n in span:
    print(n.get_text())


Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna
-----------------------------------------
Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
An

In [96]:
##### 제목 추출(h1, h2)

title = soup.find_all(["h1", "h2"])
for i in title:
    print(i.get_text())

print("-----------------------------------------")

title = soup.select("h1,h2")
title

for n in title:
    print(n.get_text())
    

War and Peace
Chapter 1
-----------------------------------------
War and Peace
Chapter 1


In [99]:
##### 녹색과 적색단어 추출
span = soup.find_all("span", {"class":["green","red"]})
for n in span:
    print(n.get_text())

print("-----------------------------------------------------")
span = soup.select("div#text > span.green, span.red")
for i in span:
    print(i.get_text())


Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.
Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
If you have nothing better to do, Count [or Prince], and if the
prospect of spending an evening with a poor invalid is not too
terrible, I shall be very charmed to see you tonight between 7 and 10-
Annette Scherer.
Heavens! what a virulent attack!
the prince
Anna Pavlovna
First of all, dear friend, tell me how you are. Set your friend's
mind at rest,
Can one be well while suffering morally? Can one be calm in times
like these if one

In [100]:
url = "http://www.pythonscraping.com/pages/page3.html"
page = urlopen(url)
soup = BeautifulSoup(page, "html.parser")

In [111]:
##### 제목행을 제외하고 나머지 모든 행 리스트를 가져오기

# td = soup.find_all("td")
# for i in td:
#     print(i.get_text())
    
# print("-------------------------------------------------------")

# table = soup.find_all("tr", class_="gift")
# for i in table:
#     print(i.get_text())
    
# print("-------------------------------------------------------")

# for i in range(5):
#     table = soup.find_all("tr", id="gift{}".format(i))
    
#     for i in table:
#         print(i.get_text())
        
#print("-------------------------------------------------------")

#for i in soup.select("tr.gift"):
#    print(i.get_text())

#print("-------------------------------------------------------")

import bs4 

tr = soup.find("table", {"id":"giftList"}).tr.next_siblings  #첫번째 tr태그 건너뛰기, 복수형으로 써야 나머지를 다 가져옴
for t in tr:
    # 공백이나 태그가 아닌거는 건너뛰게 조건문 작성
    if (type(t) == bs4.element.Tag):#태그만 골라오게
        print(t.get_text())
        print(t.img["src"])#속성에 접근할때는 인덱스(대괄호) 사용


Vegetable Basket

This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
Now with super-colorful bell peppers!

$15.00



../img/gifts/img1.jpg

Russian Nesting Dolls

Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! 8 entire dolls per set! Octuple the presents!

$10,000.52



../img/gifts/img2.jpg

Fish Painting

If something seems fishy about this painting, it's because it's a fish! Also hand-painted by trained monkeys!

$10,005.00



../img/gifts/img3.jpg

Dead Parrot

This is an ex-parrot! Or maybe he's only resting?

$0.50



../img/gifts/img4.jpg

Mystery Box

If you love suprises, this mystery box is for you! Do not place on light-colored surfaces. May cause oil staining. Keep your friends guessing!

$1.50



../img/gifts/img6.jpg


In [120]:
##### 가격 중에 $15.00 수집
print(soup.select("tr#gift1 td")[2].get_text())
print(soup.select("td")[2].get_text()) #테이블이 1개일때는 이렇게 작성해도 됨

print("-------------------------------------------------------")

print(soup.find_all("td")[2].get_text())

print("-------------------------------------------------------")

print(soup.find("img", src="../img/gifts/img1.jpg").parent.previous_sibling.get_text())


$15.00


$15.00

-------------------------------------------------------

$15.00

-------------------------------------------------------

$15.00

