# 1. XML의 이해
    
## XML의 개념
- XML; eXtensible Markuo Language
- 데이터의 구조와 의미를 설명하는 tag 사용를 사용하여 데이터의 속성과 값을 표현
- HTML: XML에서 웹에 필요한 개념만 정의

![xml](../images/그림15-1_p504.png)

![xml](../images/그림15-1_p505.png)

![xml](../images/그림15-1_p505_JSON.png)

# 2. Beautifulsoup 모듈

## Beautifulsoup 모듈 개요

- https://www.crummy.com/software/BeautifulSoup

![parser](../images/표15-1_p506.png)

## Beautifulsoup 모듈 설치

- pip install beautifulsoup4

![bs설치](../images/그림15-1-2_p507.png)

In [2]:
from bs4 import BeautifulSoup

## Beautifulsoup 모듈 사용법

![bs사용법](../images/표15-2_p507.png)

- book.xml
```
<books>
  <book>
    <author>Carson</author>
    <price format="dollar">31.95</price>
    <pubdate>05/01/2001</pubdate>
  </book>
<pubinfo>
  <publisher>MSPress</publisher>
  <state>WA</state>
</pubinfo>
<book>
  <author>Sungchul</author>
  <price format="dollar">29.95</price>
  <pubdate>05/01/2012</pubdate>
</book>
<pubinfo>
  <publisher>Gachon</publisher>
  <state>SeoungNam</state>
</pubinfo>
</books>
```

In [3]:
from bs4 import BeautifulSoup

with open("books.xml", "r", encoding="utf8")as books_file:
    books_xml = books_file.read()               # 파일을 문자열로 읽어 오기

soup = BeautifulSoup(books_xml, "lxml")         # lxml 파서를 사용해 데이터 분석

# author가 들어간 모든 요소의 값 추출
for book_info in soup.find_all("author"):
    print(book_info)
    print(book_info.get_text())                 # 해당 요소에서 값 추출

<author>Carson</author>
Carson
<author>Sungchul</author>
Sungchul


In [5]:
soup.find_all("author")

[<author>Carson</author>, <author>Sungchul</author>]

In [8]:
import urllib.request
from bs4 import BeautifulSoup

with open("US08621662-20140107.XML", "r", encoding="utf8") as patent_xml:
    xml = patent_xml.read()             # 파일을 문자열로 읽어 오기

soup = BeautifulSoup(xml,"lxml")        # lxml 파서 호출

# invention-title 태그 찾기
invention_title_tag = soup.find("invention-title")
print(invention_title_tag.get_text())

Adjustable shoulder device for hard upper torso suit


### 동일한 <document-id> 가 여러 상위 tag에 있을 경우

![동일tag](../images/p509_xml.png)

In [18]:
publication_reference_tag = soup.find("publication-reference")
p_document_id_tag = publication_reference_tag.find("document-id")
p_country = p_document_id_tag.find("country").get_text()
p_doc_number = p_document_id_tag.find("doc-number").get_text()
p_kind = p_document_id_tag.find("kind").get_text()
p_date = p_document_id_tag.find("date").get_text()
print("%s\n%s\n%s\n%s" % (p_country, p_doc_number, p_kind, p_date))

US
08621662
B2
20140107


In [19]:
application_reference_tag = soup.find("application-reference")
a_document_id_tag = application_reference_tag.find("document-id")
a_country = a_document_id_tag.find("country").get_text()
a_doc_number = a_document_id_tag.find("doc-number").get_text()
a_date = a_document_id_tag.find("date").get_text()
print("%s\n%s\n%s" % (a_country, a_doc_number, a_date))

US
13175987
20110705


# 3. JSON의 이해

## JSON의 개념
- JSON: JavaScript Object Notation을 이용한 데이터 표현언어
- XML보다 데이터 용량이 적고 코드로의 전환이 쉽다
- 파이썬의 딕셔너리형과 매우 비슷하여, 키-값의 쌍으로 구성되어 있다

```
{
    "dataTitle" : "JSON Tutorial!",
    "swiftVersion" : 2.1,
    "user" : [
        {
            "name" : "John",
            "age" : 25
        },
        {
            "name" : "Mark",
            "age" : 29
        },
        {
            "name" : "Sarah",
            "age" : 22
        }
    ]
}
```

## JSON과 XML 비교

![JSON&XML](../images/그림15-2_p512.png)

# 4. JSON 데이터 분석

- REST API(웹에서 데이터제공): JSON 포맷 사용

## JSON 읽기

- json_example.json 파일
```
{"employees":[
    {"firstName":"John", "lastName":"Doe"},
    {"firstName":"Anna", "lastName":"Smith"},
    {"firstName":"Peter", "lastName":"Jones"}
]}
```

In [21]:
import json

with open("json_example.json", "r", encoding = "utf8") as f:
    contents = f.read()                     # 파일 내용 읽어 오기
    json_data = json.loads(contents)        # json 파싱
    print(json_data["employees"])           # 딕셔너리처럼 사용하기

[{'firstName': 'John', 'lastName': 'Doe'}, {'firstName': 'Anna', 'lastName': 'Smith'}, {'firstName': 'Peter', 'lastName': 'Jones'}]


## JSON 쓰기

In [22]:
import json

dict_data ={'Name':'Zara','Age':7,'Class':'First'} # 딕셔너리 생성

with open("data.json", "w") as f:
    json.dump(dict_data, f)

# 5. Twitter에서 데이터 가져오기

- twitter API 문서 사용법 https://dev.twitter.com/overview/api
- twitter 계정 개설 https://www.twitter.com
- 개발자 계정 https://dev.twitter.com
- twitter 접속 모듈 설치

![접속모듈](../images/그림15-4-1_p516.png)

In [26]:
import requests
from requests_oauthlib import OAuth1

# 사용자의 OAuth 정보 입력
consumer_key = 'MlQHYIaVcsmjr2h4defzRi88H'
consumer_secret = '2u7cPGQwiNLMQHpZh0iw0qEj6aJB6INQw35FSlnwfyL0tIlmdU'
access_token = '836816176235888640-6lFKqe8OkkUA8NxYz6cWRdv7cJTEALb'
access_token_secret = 'XjrusK6qGpZtrIZkNgq4fjV8oZLO5DF7FZtrs1RxQnF4X'

# 사용자의 OAuth 인증 정보 생성
oauth = OAuth1(client_key=consumer_key, client_secret=consumer_secret, resource_owner_key=access_token, resource_owner_secret=access_token_secret)

# Twitter REST API를 사용해 특정 계정 정보 요청,s creen_name은 트위터 계정명
url = 'https://api.twitter.com/1.1/statuses/user_timeline.json?screen_name={0}'.format('naver_d2')

# API URL과 계정 인증 정보를 HTTP로 전송
r = requests.get(url=url,auth=oauth)

# 결과를 json 형태로 다운로드함
statuses = r.json()

# 결과 출력
for status in statuses:
    print(status['text'], status['created_at'])

대학생 오픈소스 경진대회 D2 CAMPUS FEST 2016의 참가신청이 시작되었습니다! 오픈소스 개발에 관심있는 많은 대학생 여러분의 참여를 기다립니다. #D2CAMUS_FEST #OpenSource  https://t.co/l4QGc9O9ng Tue Nov 29 06:03:33 +0000 2016
오늘 오후 3시부터 제 5회 CAMPUS SEMINAR 참가접수가 시작됩니다:) 
#D2CAMPUS_SEMINAR
* 참가신청 : https://t.co/6fOBNIZJXf
* 상세프로그램 : https://t.co/o3zZWkAvI7 Wed Aug 17 01:40:25 +0000 2016
&lt;XE 오픈세미나 : XE3 A부터 Z까지&gt; 
8월 6일부터 총 4회의 XE 오픈세미나를 진행합니다.  그 첫 번째 시리즈 'XE3 구조와 간단한 페이지 만들기' 의 참가 접수가 시작되었습니다.  https://t.co/F48QZZJvrm Wed Jul 20 08:49:34 +0000 2016
대학생 기술 세미나 D2 CAMPUS SEMINAR 4회가 열립니다. #D2CAMPUS_SEMINAR
* 상세보기 https://t.co/DPig6cbFzs
* 참가신청 : 2월 17일 오후 3시 https://t.co/6fOBNIZJXf Mon Feb 15 07:59:53 +0000 2016
NAVER 개발자 센터가 새롭게 시작합니다. 신기술 API(베타버전) 제공과 간편해진 API 개발, 개발포럼 개설을 통해 개발자를 지원하고 소통하는 NAVER 개발자 센터로 거듭납니다! https://t.co/Vic1Pm4MXL Wed Jan 27 09:51:50 +0000 2016
2월 26일(금)에 진행될 제 4회 D2 CAMPUS SEMINAR에 서주실 깊이있는 경험과 지식을 가진 대학생 연사를 공개모집합니다. #D2CAMPUS_SEMINAR
https://t.co/x8nYFrWd0p Thu Jan 07 05:04:27 +0000 2016
D2 CAMPUS FEST 2015 프로젝트

### Tweet Data Dictionary

![tweet_dictionary](../images/tweet_dictionary_p519.png)

![매개변수dictionary](../images/그림15-5_p518.png)