# 웹의 다양한 데이터 형식
------------
# 텍스트 데이터와 바이너리 데이터
텍스트 데이터
-  일반적으로 텍스트 에디터(메모장)로 편집할 수 있는 포멧
- ex : txt, xml, json, csv, tsv, ssv...
- 가독성이 좋으나 data용량을 많이 차지한다

바이너리 데이터
- 텍스트 데이터를 제외한 데이터 
- 일반적인 텍스트 에디터로 열면 사람이 시각적으로 확인되도 의미를 알 수 없음
- 텍스트 데이터에 비해 데이터 용량은많이 차지 하지 않지만, 가독성이 없음

-------------------
# 텍스트 테이터의 주의점
- 인코딩 문제가 발생
- 한글의 경우는 euc-kr, utf-8 의 인코딩을 사용

# xml
- 텍스트 데이터를 기반으로 하는 형식
- Xml(eXtensible Markup Language)
- W3C(웹표준협회)에 의해 표준 정의
- 데이터를 계층형 구조로 표현
- <요소속성 = '속성값'>내용</요소>

# 기상청 전국 날씨
http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108

In [1]:
from bs4 import BeautifulSoup
import urllib.request as req # 인터넷에 연결되서 데이터를 가져오는 
import os.path # 현 디렉토리가 어디인지 알려줌





In [2]:
# 인터넷에 얻을 데이터가 있다면 이런식으로 데이터를 가지고 온다.

#1단계 - 모두 가져온다.
url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108'
savename = 'forecast.xml'

# 현재 해당 파일의 존재 여부 확인 - 이부분은 매일 새로운 데이터를 받으려면 없어야 한다 - forecast.xml이 없으면 가져와라는 뜻!
if not os.path.exists(savename):
    req.urlretrieve(url, savename)

#2단계 - 데이터를 잘래낸다
# BeautifulSoup로 분석하기
xml = open(savename,'r',encoding='utf-8').read()
soup = BeautifulSoup(xml,'html.parser')

# 각지역 확인하기
info = {}
for location in soup.find_all('location'):
    name = location.find('city').getText()
    weather = location.find('wf').getText()
    low = location.find('tmn').getText()
    high = location.find('tmx').getText()
    if not (weather in info):
        info[weather]=[]
    info[weather].append(name+' : '+low+' ~ '+high)


# 각 지역의 날씨를 구분하여 출력하기
for weather in info.keys():
    print('+', weather)
    for name in info[weather]:
        print('|--',name)
















        

+ 구름조금
|-- 서울 : -3 ~ 5
|-- 인천 : -2 ~ 5
|-- 수원 : -4 ~ 6
|-- 파주 : -8 ~ 5
|-- 춘천 : -6 ~ 5
|-- 원주 : -5 ~ 6
|-- 강릉 : 0 ~ 7
|-- 대전 : -2 ~ 7
|-- 세종 : -4 ~ 6
|-- 홍성 : -4 ~ 7
|-- 청주 : -4 ~ 7
|-- 전주 : -2 ~ 7
|-- 군산 : -2 ~ 7
|-- 부산 : 2 ~ 11
|-- 울산 : 1 ~ 10
|-- 창원 : 1 ~ 10
|-- 대구 : -1 ~ 8
|-- 안동 : -4 ~ 7
|-- 포항 : 0 ~ 9
|-- 제주 : 8 ~ 13
|-- 서귀포 : 9 ~ 14
+ 구름많음
|-- 광주 : 0 ~ 9
|-- 목포 : 3 ~ 9
|-- 여수 : 3 ~ 10


---------------------
# JSON : (JavaScript object natation)
- Text Data를 기반으로 하는가변운 데이터 형식
- 구조가 단순하다는 장점
- 거의 대부분의 웹API들이 JSON형식으로 데이터를 제공한다.

# JSON 구조
1. JSON 데이터는 이름과 값의 쌍으로 이루어집니다.
2. JSON 데이터는 쉼표로 나열됩니다.
3. 객체는 중괄호{}로 둘러쌓아 표현한다.
4. 배열은 대괄호[]로 둘러쌓아 표현한다.

# https://api.github.com/repositories

In [3]:
import urllib.request as req
import os.path
import json





In [48]:
# Json 데이터 내려받기
url = 'https://api.github.com/repositories'
savename = 'repo.json'

if not os.path.exists(savename):
    req.urlretrieve(url, savename)
    
# JSON 파일 분석하기
s = open(savename, 'r', encoding='utf-8').read()
items = json.loads(s)

for item in items:
    print(item['name']+ '-' + item['owner']['login'])









grit-mojombo
merb-core-wycats
rubinius-rubinius
god-mojombo
jsawesome-vanpelt
jspec-wycats
exception_logger-defunkt
ambition-defunkt
restful-authentication-technoweenie
attachment_fu-technoweenie
microsis-Caged
s3-anotherjesse
taboo-anotherjesse
foxtracs-anotherjesse
fotomatic-anotherjesse
glowstick-mojombo
starling-defunkt
merb-more-wycats
thin-macournoyer
resource_controller-jamesgolick
markaby-jamesgolick
enum_field-jamesgolick
subtlety-defunkt
zippy-defunkt
cache_fu-defunkt
phosphor-KirinDave
sinatra-bmizerany
gsa-prototype-jnewland
duplikate-technoweenie
lazy_record-jnewland
gsa-feeds-jnewland
votigoto-jnewland
mofo-defunkt
xhtmlize-jnewland
ruby-git-ruby-git
bmhsearch-ezmobius
mofo-uggedal
simply_versioned-mmower
gchart-abhay
schemr-benburkert
calais-abhay
chronic-mojombo
git-wiki-sr
signal-wiki-queso
ruby-on-rails-tmbundle-drnic
low-pro-for-jquery-danwrong
merb-core-wayneeseguin
dst-sr
yaws-mojombo
yaws-KirinDave
tasks-sr
ruby-on-rails-tmbundle-mattetti
amazon-ec2-grempe
merblog

--------------------------------------------
# 콤마CSV(comma seperatec value), 탭TSV(Tab seperated value), 스페이스바SSV(space Seperated Value)
- 웹에서 가장 많이 사용
- 구조가 단순하다, 엑셀로도 쉽게 제작 가능
- csv는 각 필드를 쉼표로 구분한다.
- tsc는 각 필드를 탭으로 구분한다.
- ssv는 각 필드를 스페이스바로 구분한다.
- 사용할 때 인코딩 타입을 반드시 확인
- 큰따옴표를 써도 되고 쓰지 않아도 되지만, 각 필드에 쉼표나 줄바꿈 등등이 있을 경우 큰 따옴표 사용해야함! (1,000원 일때 "1,000원")

In [49]:
import codecs # 코덱들을 정리해 놓은 모듈 - utf8 등





In [None]:
# euc_kr로 저장된 csv 파일 읽기





In [50]:
filename = './data/list-euckr.csv'
csv = codecs.open(filename,'r','euc_kr').read()





In [55]:
# csv를 파이썬 리스트로 변환하기
data = []
rows = csv.split('\r\n') # ''는 빈줄이 있기 때문에 생긴다.
for row in rows:
    if row == '':continue # '' 비어있는 데이터는 컨티뉴로 넘어가고 - rows 길이때문에 알아서 멈춤
    cells = row.split(',')
    data.append(cells)

#결과 출력하기
for c in data:
    print(c[0],c[1],c[2])









ID 이름 가격
1000 비누 300
1001 장갑 150
1002 마스크 230


In [58]:
rows





['ID,이름,가격', '1000,비누,300', '1001,장갑,150', '1002,마스크,230', '']

In [59]:
import pandas as pd





In [60]:
# 이렇게 불러오기 때문에 pandas 쓰면 편하게 쓸 수 있다.
aaa = pd.read_csv('./data/list-euckr.csv', encoding='euc_kr')
aaa





Unnamed: 0,ID,이름,가격
0,1000,비누,300
1,1001,장갑,150
2,1002,마스크,230


# Excel Data - pandas에서 불러올 수 있다. 이따가 보여줄께
# http://www.index.go.kr/main.do - 국가 지표 체계

In [None]:
# pandas에서는 xls 를 읽어 올 수 없다. - 숫자값으로 변환해서 가져와야 한다. - excel 통합문서로 저장

In [62]:
import openpyxl






In [72]:
filename = './data/stat_104102.xlsx'
book = openpyxl.load_workbook(filename)

# excel은 mdi방식이라 sheet를 지정해줘야
# 맨 앞의 sheet  추출하기
sheet = book.worksheets[0]
# 시트의 각 행을 순서대로 추출하기
data = []
for row in sheet.rows:
    data.append(
        [
        row[0].value,
        row[10].value
        ]
    )
data









[['', 2017],
 ['계', 51778],
 ['서울', 9857],
 ['부산', 3470],
 ['대구', 2475],
 ['인천', 2948],
 ['광주', 1463],
 ['대전', 1502],
 ['울산', 1165],
 ['세종', 280],
 ['경기', 12873],
 ['강원', 1550],
 ['충북', 1594],
 ['충남', 2116],
 ['전북', 1854],
 ['전남', 1896],
 ['경북', 2691],
 ['경남', 3380],
 ['제주', 657]]

In [73]:
del data[0]
del data[0]
data





[['서울', 9857],
 ['부산', 3470],
 ['대구', 2475],
 ['인천', 2948],
 ['광주', 1463],
 ['대전', 1502],
 ['울산', 1165],
 ['세종', 280],
 ['경기', 12873],
 ['강원', 1550],
 ['충북', 1594],
 ['충남', 2116],
 ['전북', 1854],
 ['전남', 1896],
 ['경북', 2691],
 ['경남', 3380],
 ['제주', 657]]

In [89]:
# 데이터를 인구 순서대로 정렬
data1 = sorted(data,key=lambda x:x[1])

#data2=data1[0]
#data2[1] lambda에 있는 x는 데이터 한줄 그중에 [1]이니까 숫자값





In [90]:
# 하위 5위를 출력
for i, a in enumerate(data1):
    if(i>=5):break
    print(i+1,a[0],a[1])





1 세종 280
2 제주 657
3 울산 1165
4 광주 1463
5 대전 1502


In [99]:
data2=data1[0]
data2[1]





280

In [100]:
# pandas에서는 쉽게 불러들일 수 있다.
aaa = pd.read_excel('./data/stat_104102.xlsx')
aaa[2017]





계     51778
서울     9857
부산     3470
대구     2475
인천     2948
광주     1463
대전     1502
울산     1165
세종      280
경기    12873
강원     1550
충북     1594
충남     2116
전북     1854
전남     1896
경북     2691
경남     3380
제주      657
Name: 2017, dtype: int64

In [101]:
def add_prop(agg_df):
    agg_births = agg_df['births']
    agg_df['prop'] = agg_births/ agg_births.sum()
    return aggdf





In [102]:
names_with_prop = names.groupby(['year','gender']).apply(add_prop)





NameError: name 'names' is not defined