# 웹의 다양한 데이터 형식

XML/ JSON/ YAML/ CSV/ TSV/ 엑셀/ PDF 등등  
--

기본적인 데이터 포멧  
---
- 크게 텍스트 데이터와 바이너리 데이터로 분류 할 수 있다.
- 텍스트 데이터 : 일반적인 텍스트 에디터로 편집할 수 있는 데이터 포맷을 의미  
자연언어(한국어,영어..)와 숫자로 구성된 데이터  
특수문자(줄바꿈,탭 등 제어문자)도 포함  
예> 프로그래밍 소스코드, XML, JSON, YAML, CSV...
- 바이너리 데이터 : 텍스트 데이터 외의 데이터를 의미한다.  
텍스트 데이터는 문자 데이터로 사용할 수 있는 데이터인 반면에  
바이너리 데이터는 문자와 상관없이 데이터를 사용할 수 있는 형식의 데이터

형식|장점|단점
---|---|---
텍스트데이터|텍스트 에디터만 있으면 편집할 수 있다.<br>또한 설명을 포함할 수 있으므로 가독성이 높다|바이너리 데이터에 비해 크기가 크다.
바이너리 데이터|텍스트 데이터에 비해 크기가 작다|텍스트 에디터로 편집할수 없다.<br>어떤 바이트에 어떤 데이터가 있는지 정의를 해야한다.

실제로 웹상에서는 텍스트 데이터보다 바이너리 데이터가 대부분 많이 사용된다.  
이유는 이미지나 동영상 파일 때문이다 (용량이 크기때문에 서버에 부담이 많음)  
이미지는 압축률이 다른 형식을 많이 사용한다. (jpeg,gif,png)  
이러한 이미지 파일은 바이너리 형식을 취하고 있다.  

텍스트 데이터 기반의 이미지 형식도 있지만, 실제로는 거의 사용되지 않는다. (바이너리 형식으로 사용하는 것이 훨씬 실용적이기 때문에)  

텍스트 데이터의 주의점  
---
- 어떤 문자 코드(문자 인코딩)로 저장돼 있느냐에 따라서 다른 의미를 갖게 된다.  
같은 문장을 텍스트 파일로 저장할 때 문자 인코딩이 다르면 다른 문자로 나타난다.  
최근에는 UTF-8을 많이 사용한다. (기존에는 EUC-KR)
- HTML 문서에서 `<meta charset='utf-8'>`부분을 보면 확인할 수 있음
-----

# XML 데이터
**텍스트 데이터를 기반으로한 형식, 웹API에서 많이 사용되는 형식 중의 하나**

XML(Extensible Markup Language)  
: 특정 목적에 따라 데이터를 태크로 감싸 마크업하는 일반적인 형식의 언어다. W3C에 의해 만들어 졌다. (world ~ 컨소시엄)
- XML은 데이터를 계층구조로 표현할 수 있다는 특징이 있다.
- 기본형식  
<요소 속성='속성값'>내용</요소> HTML은 태그 이름이 정해져있지만(p,div등) XML은 내가 원하는 요소이름을 아무거나 사용가능  
하나의 요소에는 여러개의 속성을 추가해도 상관없다.  
Ex)
```
<products type='A'>
 <product id='야채' price='1000'>감자</product> 요게 products의 서브(자식)이됨
 <product id='야채2' price='2000'></product>
</products>
```  
위와 같이 XML은 계층구조로 만들어서 복잡한 데이터를 표현할 수 있다. (http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp)

In [2]:
import urllib.request as ureq
from bs4 import BeautifulSoup
import os.path
url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108'
'''
urlData = ureq.urlopen(url).read()
soup = BeautifulSoup(urlData,'html.parser')
'''

#바로 파일로 다운로드
path = './'
FileName = path + 'forecast.xml'

#exists 메소드 디렉토리에 이런 파일이 있는지 확인
if not os.path.exists(FileName): 
    ureq.urlretrieve(url,FileName)


In [3]:
#다운 받은 파일을 분석하기
with open(FileName,'r',encoding='utf-8') as f:
    xmlData = f.read()

In [4]:
soup = BeautifulSoup(xmlData,'html.parser')

In [None]:
#soup.select_one('description > header > wf')

In [5]:
info={}
location = soup.select_one('body').find_all('location')

In [None]:
location[0].select('data > tmEf')

In [6]:
for Dat in location:
    info[Dat.find('city').string] = Dat.find('wf').string
    

In [10]:
#날씨별로 지역분류해보기

#각 지역 확인하기
info={}
location = soup.select_one('body').find_all('location')
for Dat in location:
    
    cityName = Dat.find('city').string
    weather = Dat.find('wf').string
    
    if not (weather in info):
        info[weather]=[] #처음보는 날씨면 리스트 생성
    info[weather].append(cityName)
    '''
    info[Dat.find('city').string] = Dat.find('wf').string
    '''
#지역의 날씨를 구분해서 분류하기
for wet in info.keys():
    print('**',wet)
    for name in info[wet]:
        print('-',name)

** 구름많음
- 서울
- 인천
- 수원
- 파주
- 이천
- 평택
- 춘천
- 원주
- 강릉
- 대전
- 세종
- 홍성
- 청주
- 충주
- 영동
** 맑음
- 광주
- 목포
- 여수
- 순천
- 광양
- 나주
- 전주
- 군산
- 정읍
- 남원
- 고창
- 무주
- 부산
- 울산
- 창원
- 진주
- 거창
- 통영
- 대구
- 안동
- 포항
- 경주
- 울진
- 울릉도
- 제주
- 서귀포


---
# JSON 데이터 형식
- 텍스트 데이터를 기반으로 한 데이터 형식
- JSON(JavaScript Object Notation) : 자바 스크립트에서 사용하는 객체 표기방법
- 자바스크립트 전용 데이터 형식이 아니다. 다양한 소프트웨어와 프로그래밍 언어에서 많이 사용되는 형식으로, 데이터 교환할때 XML보다 가볍기 때문에 (XML은 태그 기반이라 양이 많음 ) 최근 선호하는 형식이다.
- 확장자는 .json 으로 사용한다.
- 구조가 단순하다는 것이 큰 장점이다.
- 수많은 프로그래밍 언어에서 인코딩/디코딩 표준으로 JSON을 사용하고 있다.
- 파이썬 모듈에도 json모듈을 지원하고 있다.
- 최근에 웹API들이 JSON형식으로 데이터를 제공하고 있다.

## JSON의 구조
- 자료형은 숫자, 문자열, 불린값(True, False), 배열, 객체, null이라는 6가지의 종료를 사용할 수 있다.  
예> 숫자 : 40  
문자열 : "스트링"  
boolean : true / false (소문자 사용)  
배열 : [1,2,3] (파이썬의 리스트)  
객체 : {"key":value, "key":value} (파이썬의 딕셔너리)    
null : null

In [16]:
import json

#json 데이터 생성

price = { # { 쓰면 객체가 됨
    "time":"19-06-06",
    "price":{
        "apple":1000,
        "banana":3000,
        "orange":2000
    }
}
#json.dumps 메소드는 json 형식으로 출력
jsonData = json.dumps(price) 
print(type(jsonData))
print(jsonData)
print(type(json.loads(jsonData)))
print(json.loads(jsonData))

<class 'str'>
{"time": "19-06-06", "price": {"apple": 1000, "banana": 3000, "orange": 2000}}
<class 'dict'>
{'time': '19-06-06', 'price': {'apple': 1000, 'banana': 3000, 'orange': 2000}}


In [31]:
#실제로 해보자
import urllib.request as req
import os.path
import json

#json 데이터 다운로드 하기
url = "https://api.github.com/repositories"
fileName = 'rep.json'

if not os.path.exists(fileName):
    req.urlretrieve(url,fileName)

with open(fileName,'r',encoding = 'utf-8') as f:
    jsonData = f.read()
    
    #파이썬 형식으로 변환
    data = json.loads(jsonData)
    
    for dat in data:
        print(dat["name"]+'-'+dat['owner']['login'])

grit-mojombo
merb-core-wycats
rubinius-rubinius
god-mojombo
jsawesome-vanpelt
jspec-wycats
exception_logger-defunkt
ambition-defunkt
restful-authentication-technoweenie
attachment_fu-technoweenie
microsis-Caged
s3-anotherjesse
taboo-anotherjesse
foxtracs-anotherjesse
fotomatic-anotherjesse
glowstick-mojombo
starling-defunkt
merb-more-wycats
thin-macournoyer
resource_controller-jamesgolick
markaby-jamesgolick
enum_field-jamesgolick
subtlety-defunkt
zippy-defunkt
cache_fu-defunkt
phosphor-KirinDave
sinatra-bmizerany
gsa-prototype-jnewland
duplikate-technoweenie
lazy_record-jnewland
gsa-feeds-jnewland
votigoto-jnewland
mofo-defunkt
xhtmlize-jnewland
ruby-git-ruby-git
bmhsearch-ezmobius
mofo-uggedal
simply_versioned-mmower
gchart-abhay
schemr-benburkert
calais-abhay
chronic-mojombo
git-wiki-sr
signal-wiki-queso
ruby-on-rails-tmbundle-drnic
low-pro-for-jquery-danwrong
merb-core-wayneeseguin
dst-sr
yaws-mojombo
yaws-KirinDave
tasks-sr
ruby-on-rails-tmbundle-mattetti
amazon-ec2-grempe
merblog

---
# YAML 데이터 분석
- YAML은 들여쓰기를 사용해서 계층구조를 표현하는 것이 특징인 데이터 형식(파이썬처럼)
- XML 보다 간단하며, JSON과 거의 비슷하다.
- YAML은 JSON대용으로 많이 사용되기도 하고, 애플리케이션 설정 파일을 작성할 때 많이 사용된다.
- 웹 프레임 워크인 Ruby나 Symfony(PHP)의 설정 파일 형식으로 사용되고 있다.
- 파이썬/PHP/루비 등을 포함한 여러 프로그래밍 언어에서 YAML형식을 다루기 위한 라이브러리가 제공되고 있다.
- 파이썬에서 YAML을 다루기 위해서 PyYAML이라는 모듈을 설치해야 한다.
- 설치 예> pip3 install pyyaml

## YAML 데이터 형식
- YAML의 기본은 배열, 해시, 스칼라(문자열,숫자,불린)
- 배열을 나타낼 때는 -(하이픈)을 붙여서 사용한다. 하이픈뒤에는 공백을 사용해야 한다.  
예>  
```
 - apple  
 - orange
 - banana
```
- 중첩 배열(배열 안에 배열)  
예>  
```
 - Yellow
 -
  - orange
  - banana
 - Red
 -
  - apple
  - strawberry
```
- 해시 표현방법 : 해시는 자바 스크립트의 객체와 같은 것을 의미 ("키":"값")  
예>
```
 name : hong
 age : 24
 color : white
```
- 해시의 계층구조 표현 방법(들여쓰기 이용)  
예>
```
 name : kim
 property:
  age :10
  nation : Korea
```
- 배열과 해시를 조합하면 조금 더 복잡한 데이터를 표현할 수 있다.  
예>
```
 - name : lee
  age:10
  nation :Korea
  hobby:
   - sports
   - movie
 - name : smith
  age:20
  nation:USA
  hobby:
   - jogging
   - music
 - name : kim
  age:16
  nation:Korea
  hobby:
   - skating
   - gaming
```
- YAML은 플로우 스타일(Flow Style)이 지원된다.(한줄로 표현하기)  
{key:value,key2:value2}  
이때 쉼표(,)와 콜론(:)뒤에는 반드시 공백이 있어야 한다.  
예>
```
 -name: lee
  hobby: ["sports", "movie"]
 -name: smith
  hobby: ["jogging", "music"]
```
- YAML은 주석을 사용할 수 있다. 주석 기호는 '#'으로 시작한다.  
예>
```
 # 노란색 과일
 - banana
 - orange
```
- 멀티라인 주석 :multi-line: |  
예>
```
 multi-line: |
     I am a boy,
     I am a student,
     I like Orange.
```

## YAML의 앵커와 별칭(alias)
 &aaa1 : 일종의 변수 선언 (앵커)  
 *aaa1 : 별칭
 
 &aaa1 "bbb"  
 *aaa1은 &aaa1의 별칭이다

In [45]:
import yaml

#html에서 색은 #------로 표현함 앞에서 부터 R,G,B 2자리씩
# #000000은 검정색, #ffffff는 흰색, #00ff00 초록색

yaml_data="""
color_def:
 - &col1 "#ff0000"
 - &col2 "#00ff00"
 - &col3 "#0000ff"

color:
 title1: *col1
 title2: *col2
 title3: *col3
"""
data = yaml.load(yaml_data)
#print(data)
#별칭을 이용한 출력
print('title1=',data['color']['title1'])
print('title2=',data['color']['title2'])

title1= #ff0000
title2= #00ff00


In [51]:
import yaml

#yaml 데이터 정의
yaml_data = """
date: 2017-01-01
productList: 
 - 
  id: 100
  name: banana
  color: yellow
  price: 1000
 - 
  id: 200
  name: orange
  color: orange
  price: 700
 -
  id: 300
  name: apple
  color: red
  price: 1200

"""

data = yaml.load(yaml_data)

#이름과 가격 출력
for list in data['productList']:
    print(list['name'],":",list['price'])

banana : 1000
orange : 700
apple : 1200


In [61]:
#파이썬 데이터를 YAML로 쓰기

#yaml.load(str) : str(YAML)데이터를 파이썬 데이터로 변환
#yaml.dump(value) : value(파이선데이터)를 YAML로 변환
import yaml

person =[
    {'name':'HongGildong','age':'30','gender':"man"},
    {'name':'HongGilsoon','age':'25','gender':"woman"},
    {'name':'KangGildong','age':'40','gender':"man"}    
]
print('YAML형식 :','\n',yaml.dump(person))
print('Python형식 :\n',yaml.load(yaml.dump(person)))

for person in yaml.load(yaml.dump(person)):
    print(person['name'])

YAML형식 : 
 - {age: '30', gender: man, name: HongGildong}
- {age: '25', gender: woman, name: HongGilsoon}
- {age: '40', gender: man, name: KangGildong}

Python형식 :
 [{'age': '30', 'gender': 'man', 'name': 'HongGildong'}, {'age': '25', 'gender': 'woman', 'name': 'HongGilsoon'}, {'age': '40', 'gender': 'man', 'name': 'KangGildong'}]
HongGildong
HongGilsoon
KangGildong


---
# CSV 데이터 분석
- 웹에서 가장 많이 사용되는 형식
- 엑셀로 쉽게 만들수 있는 형식
- 수많은 데이터베이스와 데이터 도구에서 CSV형식을 지원

CSV (Comma-Separated Values) 파일은 텍스트 에디터를 이용해서 간편하게 수정할 수 있다.  

**CSV와 비슷한 형식의 파일들**
- TSV(Tab-Separated Values)
- SSV(Space ~)  

## CSV 파일의 형식
레코드1(가로방향이 레코드, 세로방향은 필드)  
레코드2  
레코드3  
....  
레코드를 구분할 때 CRLF(엔터키)  

- 레코드는 1개 이상의 필드를 갖는다.  
이때 필드는 콤마(,)로 구분한다.  

- **첫번째** 레코드는 헤더로 사용할 수 있다.  
예>
상품코드,상품이름,가격  
a1,마우스,10000  
a2,키보드,12000  

- 각 필드를 큰따옴표로 둘러싸도 된다.  
예>
"상품코드","상품이름","가격"  
"a1","마우스","10000"  
"a2","키보드","12000"  

- 필드안에 "가 들어가 있는 경우에는 ""(이스케이프)처리를 한다.  
"마""우스" ---> 실제로 마"우스 값을 의미한다.  
그가 ""하지마""라고 말했다. ---> 그가 "하지마"라고 말했다.  
- CSV/TSV 형식은 아주 단순하다는 장점이 있다.

In [93]:
import codecs

fileName = 'prod_list.csv'

data = []
with codecs.open(fileName,'r',"euc_kr") as f:
    csv = f.read()
    records = csv.split('\r\n')
    """"""
    for rec in records:
        if rec =="":continue
        field = rec.split(',')
        data.append(field)
    for fields in data:
        print(fields[1],fields[2])
        
    

상품이름 가격
마우스 10000
키보드 2000
모니터 30000


In [92]:
data

[['코드', '상품이름', '가격'],
 ['100', '마우스', '10000'],
 ['200', '키보드', '2000'],
 ['300', '모니터', '30000']]

큰 따옴표로 둘러쌓인것 구분하기 힘드므로 csv 모듈 필요  
csv.reader() 메서드  
delimiter=',' 필드를 구분하는 구분자
quotchar='"'
# 파이썬의 csv모듈을 이용한 CSV데이터 처리방법  
- CSV파일에 있는 필드데이터가 큰따옴표(")로 둘러 싸인 경우에는 분석하기가 어렵다.  
- 따라서 이때에는 csv 모듈을 이용하는데  
- csv.reader(파일포인터,delimiter=",",quotechar='"')  
- 여기서, delimiter는 구분문자를 지정하고, quotechar는 어떤 기호로 데이터를 감싸고 있는지를 지정한다.  

# CSV 파일을 만들때 사용하는 메소드
- csv.writer(파일포인터,delimiter=",",quotechar='"')


In [114]:
import csv,codecs

with codecs.open('test.csv','w','euc_kr') as fp:
    writer = csv.writer(fp,delimiter=',',quotechar='"')
    writer.writerow(['코드','상품이름','가격'])
    writer.writerow(["1",'키보드',20000])
    writer.writerow(["2",'마우스',10000])
    writer.writerow(["3",'모니터',100000])

with open('test.csv','r') as fp:
    data = csv.reader(fp,delimiter=',')#,quotechar='"')
    for field in data:
        print(field[1],field[2])

상품이름 가격
키보드 20000
마우스 10000
모니터 100000
