<a href="https://colab.research.google.com/github/Junjaee/Study/blob/main/Python_Data_Analytics_Library/07_%EB%B6%84%EC%84%9D%EC%98%88%EC%A0%9C4_Crawling_%26_Scrapping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import matplotlib as mpl
import matplotlib.font_manager as fm
fm.FontProperties(fname = "맑은 고딕")
mpl.rcParams["axes.unicode_minus"] = False # 음수표시

import seaborn as sns

plt.style.use("fivethirtyeight")

import warnings
warnings.filterwarnings("ignore")

## XML(Extension Markup Language)

  - 1. 특징
            1) 메타 언어 : GML -> SGML -> XML
            2) 데이터를 위한 언어
            3) 데이터베이스 용도
            4) 데이터 표준화 : 이 기종 시스템간의 정보교환, 웹서비스, 유비쿼터스, 사물인터넷 기타등등...
 
  - 2. 문법(물리적인 구성요소)
            1) XML(.xml)
            2) DTD(.dtd) : XML 작성을 위한 설계문서
            3) XML Schema(.xsd) : XML 작성을 위한 설계문서
            4) XSL(.xsl, xslt) : XML문서에 스타일을 입혀주는 언어
 
  - 3. 결과 문서의 종류
            1) Well-Formed XML Document(잘 짜여진 문서)
            2) Valid XML Document(유효한 문서)
    
  - 4. Element 문법
            - 작성 규칙
                a) 모든 XML문서는 반드시 단 하나의 루트 엘리먼트를 가진다.
                b) 루트 엘리먼트는 여러 개의 자식 엘리먼트를 가질 수 있고
                    또 그 자식도 자신의 자식을 가질 수 있다.
                c) 시작태그와 끝태그는 반드시 짝을 이루어야 한다.
                d) "<"는 값으로 사용 불가. ">"는 사용할 수 있으나 가급적 사용 금지
                e) "<"와 ">" 다음에 공백문자가 올 수 없으며 반드시 시작태그와 끝태그의 이름이 같아야 한다.
    
            - 종류
                a) 내용을 가지는 엘리먼트
                b) 내용이 없는 엘리먼트
        
            - 내용에 대한 종류
                a) 문자 데이터
                b) 자식 엘리먼트
                c) 엔티티 또는 문자 참조
                d) CDATA Section
                e) 프로세싱 지시자
                f) 주석 : <!-- 주석 내용 -->
                g) 공백 문자열
    
  - 5. DTD 
            - 종류
                내부 DTD
                외부 DTD
        
            - 구성 요소
                엘리먼트 선언
                속성(attribute) 선언
                Entity 선언
                Notation 선언
                프로세싱 지시자
                파라미터 엔티티 참조
                주석
                공백
                conditional section
        
            - 문서 유형 선언
                <!DOCTYPE 루트엘리먼트명 SYSTEM 또는 PUBLIC "식별자">
                    DOCTYPE은 반드시 대문자
                    SYSTEM은 특정 단체나 업체내부에서 사용되는 경우
                    PUBLIC은 공개
                    식별자는 다운로드 받을 수 있는 경로
                    PUBLIC일 경우 추가된 식별자
                    +-//DTD를 개발 및 유지보수 업체명//DTD명 및 버전번호//사용된 언어
        
            - 엘리먼트 선언
                <!ELEMENT 엘리먼트명 컨텐트 유형>
                    컨텐트 유형
                        #PCDATA    : 내용으로 문자데이터만 갖는 엘리먼트
                        자식 엘리먼트
                            , : 작성 순서
                            | : 선택
                            ? : 생략하거나 한번만 작성
                            + : 한번 이상
                            * : 생략하거나 여러번 작성
                            기호 없음 : 단 한번만 작성
                        EMPTY
                        MIXED : 문자데이터 또는 자식엘리먼트를 혼합형태
                        ANY
        
            - ATTRIBUTE 선언
                <!ATTLIST 엘리먼트명 속성명 속성유형 디폴트선언>
                    속성 유형
                        CDATA :  문자 데이터
                        ENUMERATION    : dtd에 나열된 값 중 하나가 와야 함
                        ID : 유일한 값을 지정
                        IDREF/IDREFS : ID값을 참조
                        NMTOKEN/NMTOKENS : 이름 작성 규칙을 준수하는 데이터만 사용
                        NOTATION : dtd에 명시적으로 선언된 notation만 사용가능
                        ENTITY : dtd에 명시적으로 선언된 entity만 사용 가능
        
            - validation check
                https://www.xmlvalidation.com/
    
  - 6. 네임 스페이스
        CML
        -----
            <?xml version=1.0>
            <정보>
                <고유번호>111111-1111111</고유번호>
                <이름>홍길동</이름>
                ...
            </정보>
    
        PML
        -----
            <?xml version=1.0>
            <정보>
                <고유번호>LC100</고유번호>
                <이름>캠코더</이름>
                ...
            </정보>
    
        OML
        -----
            <?xml version=1.0>
            <주문정보 xmlns:고객="http://www.a.com/2017/Custom"
                xmlns:상품="http://www.a.com/2017/Product"
                xmlns="http://www.a.com/2017/Order">
                <주문번호>1</주문번호>
                <주문수량>10</주문수량>
                <결제>
                    <방법>현금</방법>
                    <금액>10000000</금액>
                </결제>
    
                <고객:고유번호>111111-1111111</고객:고유번호>
                <고객:이름>홍길동</고객:이름>
    
                <상품:고유번호>LC100</상품:고유번호>
                <상품:이름>캠코더</상품:이름>
                ...
            </주문정보>

In [3]:
import xml.etree.ElementTree as elemTree

##### XML을 사용하는 방법
# 1. XML 파일로 존재하는 경우 : parse()
# 2. XML 문자열로 존재하는 경우 : fromstring()

### 1. XML 데이터 불러오기

In [6]:
##### 구글 드라이브 연결 #####
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [4]:
tree1 = elemTree.parse("/content/drive/My Drive/Colab Notebooks/Study/Python Data Analytics Library/data/users.xml")
tree1

<xml.etree.ElementTree.ElementTree at 0x7f73d8848c10>

In [5]:
xmlstr = """<?xml version="1.0" encoding="utf-8" ?>
<users>
	<user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
        </user>
  <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
        </user>
</users>
"""

tree2 = elemTree.fromstring(xmlstr)
tree2

<Element 'users' at 0x7f73d87f8b90>

### 2. XML 데이터 다루기

#### 1) 태그명 검색

In [18]:
# data = tree1.find("user")
# data = tree1.find("user[1]")
data = tree1.find("user[2]")

##### Xpath : ./, ../, ...
data = tree1.find("./user[1]")

print(data)
print(type(data))
dir(data)
print(data.tag)
print(data.attrib)
print(data.get("grade"))

print("="*40)

username = data.find("name")
print(username.tag)
print(username.attrib)
print(username.text)

print("="*40)

username = data.find("age")
print(username.tag)
print(username.attrib)
print(username.text)

<Element 'user' at 0x7f73d8846530>
<class 'xml.etree.ElementTree.Element'>
user
{'grade': 'gold'}
gold
name
{}
Kim Cheol Soo
age
{}
25


#### 2) 태그 조건으로 검색

In [26]:
# data = tree1.find("./user[@grade]")
# data = tree1.find("./user[@grade][1]")
# data = tree1.find("./user[@grade][2]")
data = tree1.find("./user[@grade = 'diamond']")

print(data.attrib)
print(data.keys())
print(data.items())

{'grade': 'diamond'}
['grade']
[('grade', 'diamond')]


#### 3) 여러 개의 태그를 한꺼번에 가져오기

In [28]:
users = tree1.findall("./user")
users

for user in users:
  print(user.attrib)
  print(user.find("name").text)

{'grade': 'gold'}
Kim Cheol Soo
{'grade': 'diamond'}
Kim Yoo Mee


In [31]:
str2 = """<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>
"""

tree3 = elemTree.fromstring(str2)
tree3

<Element 'data' at 0x7f73d472e7d0>

In [None]:
# Singapore에 있는 이웃나라 이름은?

# Panama에 있는 이웃나라 중 Costa Rica의 방향은?

# 각 나라의 gdppc를 조회

# 각 나라의 인접국가 조회

In [123]:
# 1
print("1번 문제")
country = tree3.find("./country[@name = 'Singapore']")
username = country.find("neighbor")
print(username.get("name"))
print("="*40)

# 2
print("2번 문제")
country = tree3.find("./country[@name = 'Panama']")
username = country.find("neighbor[@name = 'Costa Rica']")
print(username.get("direction"))
print("="*40)

# 3
print("3번 문제")
countrys = tree3.findall("./country")
countrys

for country in countrys:
  print(country.get("name") + "의 gdppc는")
  username = country.find("gdppc")
  print(username.text)
  print("="*40)

# 4
print("4번 문제")
countrys = tree3.findall("./country")
countrys

for country in countrys:
  print(country.get("name") + "의 인접국가는")
  username = country.findall("neighbor")
  for user in username:
    print(user.get("name"))
  print("="*40)

1번 문제
Malaysia
2번 문제
W
3번 문제
Liechtenstein의 gdppc는
141100
Singapore의 gdppc는
59900
Panama의 gdppc는
13600
4번 문제
Liechtenstein의 인접국가는
Austria
Switzerland
Singapore의 인접국가는
Malaysia
Panama의 인접국가는
Costa Rica
Colombia


In [4]:
import requests as req
health = req.get("https://www.k-health.com/rss/allArticle.xml")
tree4 = health.text

## 2. JSON(Javascript Object Notation)

In [128]:
import json

# dumps() : 데이터를 저장
# loads() : 데이터를 불러올 때

In [143]:
j1 = {"name" : "홍길동", "birth" : "0519", "age" : 20}
print(type(j1))
print(j1)

print("="*40)

# j2 = json.dumps(j1)
j2 = json.dumps(j1, indent = 2)
print(type(j2))
print(j2)

# 리스트나 튜플로 json으로 변환
j3 = json.dumps([1, 2, 3])
print(j3)
print(type(j3))

j3 = json.dumps((1, 2, 3))
print(j3)
print(type(j3))

print("="*40)

j4 = json.loads(j2) 
print(j4)
print(type(j4))

<class 'dict'>
{'name': '홍길동', 'birth': '0519', 'age': 20}
<class 'str'>
{
  "name": "\ud64d\uae38\ub3d9",
  "birth": "0519",
  "age": 20
}
[1, 2, 3]
<class 'str'>
[1, 2, 3]
<class 'str'>
{'name': '홍길동', 'birth': '0519', 'age': 20}
<class 'dict'>


In [144]:
obj = """
{
"id": "0001",
"type": "donut",
"name": "Cake",
"ppu": 0.55,
"batters":
{
"batter":
[
{ "id": "1001", "type": "Regular" },
{ "id": "1002", "type": "Chocolate" },
{ "id": "1003", "type": "Blueberry" },
{ "id": "1004", "type": "Devil's Food" }
]
},
"topping":
[
{ "id": "5001", "type": "None" },
{ "id": "5002", "type": "Glazed" },
{ "id": "5005", "type": "Sugar" },
{ "id": "5007", "type": "Powdered Sugar" },
{ "id": "5006", "type": "Chocolate with Sprinkles" },
{ "id": "5003", "type": "Chocolate" },
{ "id": "5004", "type": "Maple" }
]
}
"""

print(type(obj))

<class 'str'>


In [150]:
result = json.loads(obj)
print(type(result))
print(result)

print("="*40)

print(result["id"])

print("="*40)

print(result["batters"]["batter"][0]["id"])

<class 'dict'>
{'id': '0001', 'type': 'donut', 'name': 'Cake', 'ppu': 0.55, 'batters': {'batter': [{'id': '1001', 'type': 'Regular'}, {'id': '1002', 'type': 'Chocolate'}, {'id': '1003', 'type': 'Blueberry'}, {'id': '1004', 'type': "Devil's Food"}]}, 'topping': [{'id': '5001', 'type': 'None'}, {'id': '5002', 'type': 'Glazed'}, {'id': '5005', 'type': 'Sugar'}, {'id': '5007', 'type': 'Powdered Sugar'}, {'id': '5006', 'type': 'Chocolate with Sprinkles'}, {'id': '5003', 'type': 'Chocolate'}, {'id': '5004', 'type': 'Maple'}]}
0001
1001


## 3. BeautifulSoup

#### 1) 웹 소스 가져오기

In [5]:
import urllib.request as req
from urllib.request import urlopen

In [2]:
##### 텍스트 내용 읽어오기

google = urlopen("http://google.com")
print(type(google))

html = google.read()
print(type(html))
print(html)

<class 'http.client.HTTPResponse'>
<class 'bytes'>
b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="en"><head><meta content="Search the world\'s information, including webpages, images, videos and more. Google has many special features to help you find exactly what you\'re looking for." name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="Eh+UqQZLr1URSl9itaG5PQ==">(function(){window.google={kEI:\'2Q3AYMD4J6nD0PEPuuuSkAo\',kEXPI:\'0,18167,754048,1,530320,56873,954,5105,206,4804,926,1390,383,246,5,1354,4936,314,6385,9847,10,1106274,1232,1196480,540,31,302679,26305,51224,16114,28684,17572,4859,1361,9291,3024,4749,1842,4720,6273,4020,978,13228,2054,1793,4192,6430,1142,13385,4518,2777,919,5081,1593,1279,2212,530,149,1103,842,515,1466,214,4108,3506,606,2023,1777,520,

In [3]:
from urllib.error import HTTPError, URLError

try:
  naver = urlopen("https://www.naver.com/index.jsp")
except HTTPError as e:
  print("HTTP Error 입니다." + str(e))
except URLError as e:
  print("URL Error 입니다." + str(e)) 
else:
  print(naver.read())

HTTP Error 입니다.HTTP Error 404: Not Found


In [7]:
##### 이미지 가져오기

req.urlretrieve("https://t1.daumcdn.net/daumtop_chanel/op/20200723055344399.png", "/content/drive/My Drive/Colab Notebooks/Study/Python Data Analytics Library/data/daum.png")
print("저장 되었습니다")

저장 되었습니다


In [9]:
img = urlopen("https://t1.daumcdn.net/daumtop_chanel/op/20200723055344399.png")
img_data = img.read()
img_data

f = open("/content/drive/My Drive/Colab Notebooks/Study/Python Data Analytics Library/data/daum2.png", "wb")
f.write(img_data)
print("저장 되었습니다")
f.close()

저장 되었습니다


In [None]:
import urllib.parse
##### 요청 방식
# 프로토콜://서버주소:포트번호/폴더 또는 파일명#섹션명
# 프로토콜://서버주소:포트번호/파일명?변수명=값&변수명=값

# http://www.weather.go.kr/weather/lifenindustry/sevice_rss.jsp

api = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
value = {"stnId" : 109}

params = urllib.parse.urlencode(value)
print(params)

url = api + "?" + params
print(url)

data = urlopen(url).read()
# print(data)
data = data.decode("utf-8")
print(data)

#### 2) BeautyifulSoup 사용법

In [15]:
from bs4 import BeautifulSoup

In [18]:
page = open("/content/drive/My Drive/Colab Notebooks/Study/Python Data Analytics Library/data/test_first.html").read()
page

soup = BeautifulSoup(page, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code by Netsong7
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Happy PinkWink.
    <a href="http://netsong7.synology.me" id="pw-link">
     PinkWink
    </a>
   </p>
   <p class="inner-text second-item">
    Happy Data Science.
    <a href="https://www.python.org" id="py-link">
     Python
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    Data Science is funny.
   </b>
  </p>
  <p class="outer-text">
   <b>
    All I need is Love.
   </b>
  </p>
 </body>
</html>


In [27]:
list(soup.children)
list(soup.children)[0]
list(soup.children)[2]

<html><head>
<title>Very Simple HTML Code by Netsong7</title>
</head><body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [31]:
html = list(soup.children)[2]
list(html.children)
list(html.children)[0]

body = list(html.children)[1]
list(body.children)

['\n', <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>, '\n', <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>, '\n', <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>, '\n']

In [33]:
##### 태그명으로 접근
soup.head
soup.body
soup.body.div
soup.body.div.p

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>

In [36]:
##### find(), find_all()

soup.find("p")
soup.find_all("p")

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
 </p>, <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>, <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>, <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [37]:
soup.find("p", class_ = "outer-text")

<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>

In [38]:
soup.find("p", id = "second")

<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>

In [43]:
soup.head
soup.head.next_sibling

soup.body
soup.body.previous_sibling

soup.body.p.next_sibling.next_sibling

soup.body.parent

<html><head>
<title>Very Simple HTML Code by Netsong7</title>
</head><body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://netsong7.synology.me" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [45]:
##### 데이터(Text Node) 가져오기

soup.html.get_text()
soup.head.get_text()
soup.title.get_text()
soup.div.get_text()
soup.p.get_text()

for p in soup.find_all("p"):
  print(p.get_text())


                Happy PinkWink.
                PinkWink


                Happy Data Science.
                Python



                Data Science is funny.
            



                All I need is Love.
            



In [49]:
##### 속성에 접근하기

link = soup.find("a")
link

link["href"]

links = soup.find_all("a")
for n in links:
  print(n["href"])

http://netsong7.synology.me
https://www.python.org


### 실습예제

#### 1) 네이버에서 환율정보 가져오기

- https://finance.naver.com/marketindex/

In [56]:
from urllib.request import urlopen

url = "https://finance.naver.com/marketindex/"
page = urlopen(url)
page

soup = BeautifulSoup(page, "html.parser")

In [61]:
span = soup.find_all("span", class_ = "value")
span

print("미 환율 :", span[0].get_text())

미 환율 : 1,115.30


In [71]:
div = soup.find_all("div", class_ = "head_info")
span = div[0].find_all("span")
print(span)

print("미 환율 :", span[0].get_text())

[<span class="value">1,115.30</span>, <span class="txt_krw"><span class="blind">원</span></span>, <span class="blind">원</span>, <span class="change"> 0.70</span>, <span class="blind">하락</span>]
미 환율 : 1,115.30


In [72]:
# CSS

span = soup.select_one("div.head_info > span.value")
span.get_text()

'1,115.30'

#### 2) 스트래핑 연습

In [73]:
url = "http://www.pythonscraping.com/pages"