## 데이터 로딩, 저장, 파일 형식

파이썬으로 쉽게 데이터를 읽고 써보자

일반적인 파일 입 출력 방법

- 텍스트 파일을 이용하는 방법
- 데이터베이스를 이용하는 방법
- 웹 API를 이용해 네트워크르 통해 불러오는 방법

### 6.1 텍스트 파일 이용하는 방법

pandas 파일 파싱 함수

- read_csv: 파일, URL, 또는 유사한 객체로부터 구분된 데이터를 읽어옵니다. 데이터 구분자는 쉼표(,)
- read_table: 파일, URL, 또는 유사한 객체로부터 구분된 데이터를 읽어옵니다. 데이터 구분자는 탭('\t')
- read_fwf: 고정폭 칼럼 형식에서 데이터를 읽어옵니다. 데이터 구분자가 없음
- read_clipboard: 클립보드에 있는 데이터를 read_table 함수. 웹 표를 긁어올 때 유용합니다.

위 함수는 텍스트 데이터를 DataFrame으로 읽어오는 함수로 옵션들이 있습니다.

- 색인: 반환하는 DataFrame에서 하나 이상의 칼럼을 색인으로 지정할 수 있습니다.
- 자료형 추론과 데이터 변환: 사용자가 정의 값 변환과 비어있는 값을 위한 사용자 리스트를 포함합니다.
- 날짜 분석: 여러 칼럼에 걸쳐 있는 날짜와 시간 정보를 하나의 칼럼에 조합해서 결과에 반영합니다.
- 반복: 여러 파일에 걸쳐 있는 자료를 반복작으로 읽어올 수 있습니다.
 정제되지 않은 데이터 처리: row나 꼬릿말, 주석 건너뛰기, 쉼표처리 등을 해줍니다.

[참고] example 파일들은 [여기서](https://github.com/wesm/pydata-book/tree/2nd-edition/examples) 다운받을 수 있습니다.

csv 파일 만들기

In [1]:
s = """\
a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
"""

In [2]:
with open('./data/ex1.csv', 'w') as f:
    f.write(s)

In [3]:
s2 = """\
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
"""

In [4]:
with open('./data/ex2.csv', 'w') as f:
    f.write(s2)

판다스로 읽어오기

In [5]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [6]:
df = pd.read_csv('./data/ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
pd.read_table('./data/ex1.csv', sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
pd.read_csv('./data/ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [9]:
pd.read_csv('./data/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [10]:
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('./data/ex2.csv', names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [11]:
s = """\
key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16
"""

In [12]:
with open('./data/csv_mindex.csv', 'w+') as f:
    f.write(s)
    f.seek(0)
    print(f.read())

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16



In [13]:
parsed = pd.read_csv('./data/csv_mindex.csv', index_col=('key1', 'key2'))
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [14]:
s3 = """\
            A         B         C
aaa -0.264438 -1.026059 -0.123123
bbb  0.123123  0.232324  0.455234
ccc -0.231235 -0.484853 -0.583123
ddd -0.813582 -0.323231  1.235613
"""

In [15]:
with open('./data/ex3.txt', 'w+') as f:
    f.write(s3)
    f.seek(0)
    print(f.read())

            A         B         C
aaa -0.264438 -1.026059 -0.123123
bbb  0.123123  0.232324  0.455234
ccc -0.231235 -0.484853 -0.583123
ddd -0.813582 -0.323231  1.235613



In [16]:
list(open('./data/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.123123\n',
 'bbb  0.123123  0.232324  0.455234\n',
 'ccc -0.231235 -0.484853 -0.583123\n',
 'ddd -0.813582 -0.323231  1.235613\n']

In [17]:
result = pd.read_table('./data/ex3.txt', sep='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.123123
bbb,0.123123,0.232324,0.455234
ccc,-0.231235,-0.484853,-0.583123
ddd,-0.813582,-0.323231,1.235613


예외 처리: ```skiprows```

In [18]:
pd.read_csv('./data/ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


누락값 처리하기

기본적으로 pandas는 NA, -1, #IND, NULL 처럼 비어있는 값으로 흔히 통용되는 문자를 자동으로 인식해 비어있는 값으로 처리합니다.

In [19]:
result = pd.read_csv('./data/ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [20]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [21]:
result = pd.read_csv('./data/ex5.csv', na_values=['NULL', 1, 5])
result

Unnamed: 0,something,a,b,c,d,message
0,one,,2,3.0,4,
1,two,,6,,8,world
2,three,9.0,10,11.0,12,foo


In [22]:
sentinels = {'message': ['foo', 'NA'], 'something':['two']}
pd.read_csv('./data/ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


#### 6.1.1 텍스트 파일 조금씩 읽어오기

매우 큰 파일을 처리할 때 한번에 로딩하는 것은 무리가 있을 수 있습니다

```nrow```, ```chunksize``` 활용하기

In [23]:
result = pd.read_csv('./data/ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [24]:
pd.read_csv('./data/ex6.csv', nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [25]:
chunker = pd.read_csv('./data/ex6.csv', chunksize=1000)
chunker

<pandas.io.parsers.TextFileReader at 0x1762f334748>

#### 6.1.2 데이터를 텍스트 형식으로 기록하기

In [26]:
data = pd.read_csv('./data/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [27]:
data.to_csv('./data/out.csv')

In [28]:
import sys

In [29]:
data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [30]:
data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [31]:
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [32]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0


In [33]:
dates = pd.date_range('1/1/2020', periods=7)
ts = pd.Series(np.arange(7), index=dates)
ts

2020-01-01    0
2020-01-02    1
2020-01-03    2
2020-01-04    3
2020-01-05    4
2020-01-06    5
2020-01-07    6
Freq: D, dtype: int32

In [34]:
ts.to_csv('./data/tseries.csv')

In [35]:
list(open('./data/tseries.csv'))

[',0\n',
 '2020-01-01,0\n',
 '2020-01-02,1\n',
 '2020-01-03,2\n',
 '2020-01-04,3\n',
 '2020-01-05,4\n',
 '2020-01-06,5\n',
 '2020-01-07,6\n']

In [36]:
pd.read_csv('./data/tseries.csv', parse_dates=True)

Unnamed: 0.1,Unnamed: 0,0
0,2020-01-01,0
1,2020-01-02,1
2,2020-01-03,2
3,2020-01-04,3
4,2020-01-05,4
5,2020-01-06,5
6,2020-01-07,6


from_csv 메서드는 더이상 지원하지 않습니다.

#### 6.1.3 수동으로 구분 형식 처리하기

잘못된 형식의 줄이 포함되면 수동으로 처리해야 한다.  
다음과 같은 예는 마지막에

In [37]:
list(open('./data/ex7.csv'))

['"a","b","c"\n', '"1","2","3"\n', '"1","2","3","4"']

In [38]:
import csv

In [39]:
f = open('./data/ex7.csv')
f

<_io.TextIOWrapper name='./data/ex7.csv' mode='r' encoding='cp949'>

In [40]:
reader = csv.reader(f)
reader

<_csv.reader at 0x1762f328eb8>

In [41]:
for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3', '4']


In [42]:
lines = list(csv.reader(open('./data/ex7.csv')))
lines
header, values = lines[0], lines[1:]
values

[['1', '2', '3'], ['1', '2', '3', '4']]

In [43]:
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [44]:
class my_dialect(csv.Dialect):
    lineterminator = '\n'  # 개행문자
    delimiter = ';'  # 끊는 단위
    quotechar = '"'  # 문자열 감싼 것
    quoting = csv.QUOTE_MINIMAL  # ?
    
reader = csv.reader(f, dialect=my_dialect)
reader

<_csv.reader at 0x1762f337eb8>

좀 더 복잡하거나 구분자가 한 글자를 초과하는 고정 길이를 가진다면 csv 모듈 사용이 어려움  
이런 경우 문자열의 split 메서드나 정규표현식 re.split 메서드 등을 사용해서 가공해야 함

#### 6.1.4 JSON 데이터

JSON: JavaScript Object Notation 은 데이터를 보낼 때 널리 사용하는 표준 파일 형식 중 하나

JSON 파일 읽는 방법

In [45]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

In [46]:
import json

In [47]:
result = json.loads(obj)
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

파이썬 객체를 JSON 형태로 바꾸는 방법

In [48]:
asjson = json.dumps(result)
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

In [49]:
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


#### 6.1.5 XML과 HTML: 웹 내용 긁어오기

파이썬에는 HTML과 XML 형식의 데이터를 일고 쓸 수 있는 라이브러리가 많습니다.  
그 중에서 lxml 라이브러리를 알아봅시다.

웹에서 표를 보여주기 위해 HTML을 사용하는데 JSON이나 HTML, XML 형태로 내려받기가 쉽지 않습니다.  
일단, 데이터를 가져올 URL을 확인하고 requests 모듈을 사용해서 불러온 다음 lxml을 이용해서 파싱합니다.  

In [50]:
import requests

In [51]:
from lxml.html import parse
from io import StringIO

In [52]:
text = requests.get('http://finance.yahoo.com/q/op?s=AAPL+Options').text
parsed = parse(StringIO(text))

doc = parsed.getroot()

doc 객체에는 모든 HTML 태그가 추출 되었는데 우리가 관심이 가는 table 태그도 포함되었습니다.  
우선 HTML 문서에서 외부 연결 URL을 모두 찾아보자  
외부 연결 URL은 a 태그로 지정되어 있습니다.  
HTML 문서의 최상위에서 findall 메서드에 XPath를 넘겨서 해당 엘리먼트를 가져올 수 있습니다.  

In [53]:
links = doc.findall('.//a')
links[15:20]

[<Element a at 0x17630858138>,
 <Element a at 0x1763085f958>,
 <Element a at 0x1763085f9a8>,
 <Element a at 0x1763085f9f8>,
 <Element a at 0x1763036c1d8>]

In [61]:
lnk = links[27]
lnk

<Element a at 0x17630835868>

가져온 객체는 HTML 엘리먼트를 표현하는개체일 뿐입니다.  
URL과 링크 이름을 가져오려면 get 메서드와 text_content 메서드를 사용해서 링크 이름을 가져와야 합니다.  

In [55]:
lnk.get('href')

'/quote/AAPL/options?strike=160&straddle=false'

In [56]:
lnk.text_content()

'160.00'

HTML 문서에서 모든 URL 목록을 가져오는 법

In [63]:
urls = [lnk.get('href') for lnk in doc.findall('.//a')]
urls[-10:]

['/',
 '/watchlists',
 '/portfolios',
 '/screener',
 '/premium?ncid=navbarprem_fqbo1nu0ks0',
 '/calendar',
 '/news/',
 'https://money.yahoo.com',
 '/videos/',
 '/tech']

In [66]:
tables = doc.findall('.//table')
calls = tables[0]
puts = tables[1]

In [68]:
rows = calls.findall('.//tr')

In [69]:
def _unpack(row, kind='td'):
    elts = row.findall('.//%s' % kind)
    return [val.text_content().strip().split('\n')[0] for val in elts]

In [70]:
_unpack(rows[0], kind='th')

['Contract Name',
 'Last Trade Date',
 'Strike',
 'Last Price',
 'Bid',
 'Ask',
 'Change',
 '% Change',
 'Volume',
 'Open Interest',
 'Implied Volatility']

In [71]:
_unpack(rows[2], kind='td')

['AAPL200717C00120000',
 '2020-06-22 6:37PM EDT',
 '120.00',
 '183.27',
 '270.90',
 '271.35',
 '0.00',
 '-',
 '4',
 '0',
 '788.62%']

웹에서 긁어온 데이터를 DataFrame으로 변환해보자  
숫자 데이터지만 문자열 형식으로 저장되 있으므로 하나하나 바꿔주어야 한다.  
pandas에 TextParser 클래스를 활용하면 쉽다.  

In [73]:
from pandas.io.parsers import TextParser

In [74]:
def parse_options_data(table):
    rows = table.findall('.//tr')
    header = _unpack(rows[0], kind='th')
    data = [_unpack(r) for r in rows[1:]]
    return TextParser(data, names=header).get_chunk()

In [76]:
call_data = parse_options_data(calls)
put_data = parse_options_data(puts)
call_data[:10]

Unnamed: 0,Contract Name,Last Trade Date,Strike,Last Price,Bid,Ask,Change,% Change,Volume,Open Interest,Implied Volatility
0,AAPL200717C00115000,2020-07-09 3:02PM EDT,115.0,267.7,265.85,268.65,0.0,-,4,14,438.28%
1,AAPL200717C00120000,2020-06-22 6:37PM EDT,120.0,183.27,270.9,271.35,0.0,-,4,0,788.62%
2,AAPL200717C00135000,2020-07-13 3:35PM EDT,135.0,249.65,246.35,248.55,3.5,+1.42%,83,3754,406.84%
3,AAPL200717C00140000,2020-07-10 1:06PM EDT,140.0,240.97,240.75,243.65,0.0,-,1,5,362.50%
4,AAPL200717C00145000,2020-07-08 3:06PM EDT,145.0,234.8,235.75,238.65,0.0,-,6,7,350.39%
5,AAPL200717C00150000,2020-07-09 3:39PM EDT,150.0,231.6,230.75,233.65,0.0,-,48,46,338.87%
6,AAPL200717C00155000,2020-07-09 12:51PM EDT,155.0,227.95,225.75,228.65,0.0,-,10,15,327.73%
7,AAPL200717C00160000,2020-07-13 3:35PM EDT,160.0,223.65,221.35,223.55,3.85,+1.75%,94,331,344.53%
8,AAPL200717C00165000,2020-07-13 3:49PM EDT,165.0,219.25,216.2,218.45,33.15,+17.81%,35,100,321.29%
9,AAPL200717C00170000,2020-06-22 6:37PM EDT,170.0,123.25,219.55,221.85,0.0,-,5,0,567.24%


lxml.objectify 이용해 XML 파싱하기

XML(eXtensible Markup Language)은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 데이터 형식입니다.  

New York Metropolitan Transportation Authority는 버스와 전철 운영에 관한 여러 데이터를 공개하고 있습니다.  
XML 파일로 제공되는 실적 자료를 보자.

In [77]:
from lxml import objectify

path = './data/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()

In [79]:
data = []

skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
              'DESIRED_CHANGE', 'DECIMAL_PLACES']

for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        el_data[child.tag] = child.pyval
    data.append(el_data)

perf = DataFrame(data)

In [80]:
perf = DataFrame(data)

In [81]:
perf

Unnamed: 0,INDICATOR_SEQ,PARENT_SEQ,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,DESIRED_CHANGE,INDICATOR_UNIT,DECIMAL_PLACES,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,U,%,1,95,96.9,95,96.9
1,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,U,%,1,95,96,95,95
2,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,U,%,1,95,96.3,95,96.9
3,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,U,%,1,95,96.8,95,98.3
4,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,U,%,1,95,96.6,95,95.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
643,373889,,Metro-North Railroad,Escalator Availability,Percent of the time that escalators are operat...,2011,8,Service Indicators,M,U,%,1,97,,97,
644,373889,,Metro-North Railroad,Escalator Availability,Percent of the time that escalators are operat...,2011,9,Service Indicators,M,U,%,1,97,,97,
645,373889,,Metro-North Railroad,Escalator Availability,Percent of the time that escalators are operat...,2011,10,Service Indicators,M,U,%,1,97,,97,
646,373889,,Metro-North Railroad,Escalator Availability,Percent of the time that escalators are operat...,2011,11,Service Indicators,M,U,%,1,97,,97,


XML 데이터를 얻으려면 예제보다 훨씬 복잡합니다. 각각의 태그 또한 메타데이터를가지고 있을 수 있습니다.  
유효한 XML 형식인 HTML의 a 태그를 생각하면 됩니다.

In [86]:
from io import StringIO
tag = '<a href="http://www.google.com">Google</a>'

root = objectify.parse(StringIO(tag)).getroot()

In [87]:
root

<Element a at 0x176328de588>

In [88]:
root.get('href')

'http://www.google.com'

In [89]:
root.text

'Google'