## 1. XML의 이해
### - XML의 개념
- XML은 확장적인 마크업(markup) 언어라는 뜻으로, 데이터의 구조와 의미를 설명하는 태그를 사용하여 어떤 데이터의 속성과 값을 표현하는 언어이다. 즉, 시작 태그와 종료 태그 사이에 어떤 값이 있고, 그 값은 태그의 이름으로 만들어진 속성에 대한 값이 된다.
  
### - XML 표현하기
- XML의 구조는 다음과 같이 표현한다.   
<?xml version="1.0"?>  
<학생>  
        <이름>한재일</이름>    
        <학번>20105503</학번>    
        <나이>26</나이>  
        <학과>산업경영공학과</학과>  
        <성별>남성</성별>  
</학생>  

## 2. XML 파싱
### -BeautifulSoup 모듈 개요
- BeautifulSoup 모듈은 일종의 래퍼(wrapper)로, 기존 파싱 기능이 있는 다른 라이브러리를 쉽게 사용할 수 있도록 한다. 

### - BeautifulSoup 모듈 설치
cmd 창에서
> conda create -n python_mooc python=3.6  
> conda install lxml  
> conda install -c anaconda beautifulsoup4=4.5.1  

이후 파이썬 셸에서 다음 실행
> from bs4 import BeautifulSoup

### - BeautifulSoup 모듈 사용법

In [None]:
# 15-1.
from bs4 import BeautifulSoup

with open("books.xml", "r", encoding="utf8") as book_file:
    books_xml = books_file.read()
    
soup = BeautifulSoup(books_xml, "lxml")

# author가 들어간 모든 요소의 값 추출
for book_info in soup.find_all("author"):
    print(book_info)
    print(book_info.get_text())  # 해당 요소에서 값 추출

### - USPTO XML 데이터

In [None]:
# 15-2.
import urllib.request
from bs4 import BeautifulSoup

with open("US08621662-20140107.XML", "r", encoding="utf8") as patent_xml:
    xml = patent_xml.read()  # 파일을 문자열로 읽어 오기
    
soup = BeautifulSoup(xml, "lxml")  # lxml 파서 호출

# invention-title 태그 찾기
invention_title_tag = soup.find("invention-title")
print(invention_title_tag.get_text())

## 3. JSON의 이해
### - JSON의 개념
- JSON은 XML보다 데이터 용량이 적고 코드로의 전환이 쉽다는 측면에서 XML의 대체재로 가장 많이 활용.
- JSON은 파이썬의 딕셔너리형과 매우 비슷하여, 키-값의 쌍으로 구성되어 있다. 
- 예시
{  
"sibling": [  
{"firstName": "Anna", "lastName": "Clayton"},  
{"lastName": "Alex", "lastName": "Clayton"}  
]  
}  

## 4. JSON 데이터 분석
### - JSON 읽기
- json 모듈로 읽고 딕셔너리형처럼 처리한다. 


In [None]:
# 15-3. 
import json

with open("json_example.json","r",encoding="utf8") as f:
    contents = f.read()
    json_data = json.loads(contents)
    print(json_data["employees"])


### - JSON 쓰기
- 딕셔너리형으로 구성된 데이터를 json 형태의 파일로 변환하는 과정


In [None]:
import json

dict_data = {'Name': 'Zara', 'Age': 7, 'Class': 'First'}

with open("data.json", "w") as f:
    json.dump(dict_data, f)

### - 트위터 데이터 읽어오기
cmd 창에서 
> conda install requests  
> pip install requests-oauthlib

In [None]:
# 15-5.
import requests
from requests_oauthlib import OAuth1

# 사용자의 OAuth 정보 입력
consumer_key = '확인한 consumer_key'
consumer_secret = '확인한 consumer_secret'
access_token = '확인한 access_token'
access_token_secret = '확인한 access_token_secret'

# 사용자의 OAuth 인증 정보 생성
oauth = OAuth1(client_key = consumer_key, client_secret = consumer_secret, 
              resource_owner_key = access_token, resource_owner_secret = access_token_secret)

# Twitter REST API를 사용해 특정 계정 정보 요청, screen_name은 트위터 계정명
url = 'https://api.twitter.com/1.1/statuses/user_timeline.json?screen_name={0}'.format('naver_d2')

# API URL과 계정 인증 정보를 HTTP로 전송
r = requests.get(url = url, auth= oauth)

# 결과를 json 형태로 다운로드
statuses = r.json()

# 결과 출력
for status in statuses:
    print(status['text'], status['created_at'])