## **CHAPTER 6 데이터 로딩, 저장, 파일 형식**

**일반적으로 입,출력은 몇 가지 작은 범주로 나눌 수 있으며 텍스트 파일을 이용하는 방법, 데이터베이스를 이용하는 방법, 웹 API를 이용해서 네트워크를 통해 불러오는 방법이 있다.**

## **6.1 텍스트 파일 이용하는 방법**

**파이썬은 파일을 읽고 쓰는 단순한 문법, 직관적인 자료 구조, 튜플에 데이터를 저장하고 읽어내는 편리한 기능 덕분에 텍스트 파일을 처리할 때 사랑받는 언어가 되었다.**

**pandas는 표 형식의 자료를 DataFrame 객체로 읽어오는 몇 가지 기능을 제공하고 있다.**

> **read_csv, read_table이 가장 자주 사용된다.**

|  함수  | 설명 | 
|:---:|---:|
| `read_csv` | 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉼포(,)를 기본으로 한다. | 
| `read_table` | 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 탭('\t')을 기본으로 한다. | 
| `read_fwf` | 고정폭 칼럼 형식에서 데이터를 읽어온다. (구분자가 없는 데이터) | 
| `read_clipboard` | 클립보드에 있는 데이터를 읽어오는 read_table 함수. 웹페이지에서 표를 긁어올 때 유용하다. | 

**위 함수는 텍스트 데이터를 DataFrame으로 읽어오는 함수로, 다음과 같은 몇 가지 종류의 옵션을 받는다.**

> **색인: 반환하는 DataFrame에서 하나 이상의 칼럼을 색인으로 지정할 수 있다. 파일이나 사용자로부터 칼럼의 이름을 받거나 아무것도 받지 않을 수 있다.**

> **자료형 추론과 데이터 변환: 사용자가 정의 값 변환과 비어있는 값을 위한 사용자 리스트를 포함한다.**

> **날짜 분석: 여러 칼럼에 걸쳐 있는 날짜와 시간 정보의 하나의 칼럼에 조합해서 결과에 반영한다.**

> **반복: 여러 파일에 걸쳐 있는 자료를 반복적으로 읽어올 수 있다.**

> **정제되지 않은 데이터 처리: 로우나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 일을 처리한다.**

**이 함수에서 자료형 추론은 매우 중요한 기능인데, 이 말은 날짜나 다른 몇 가지 사용자 자료형을 처리하려면 다소 번거롭긴 하지만 어떤 칼럼이 숫자인지 불리언인지 혹은 문자열인지 지정해줄 필요가 없다는 뜻이다.**

In [1]:
import pandas as pd

In [2]:
# 이 파일은 쉼표로 구분되어 있기 때문에 read_csv를 사용해 DataFrame으로 읽어올 수 있다.
df = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex1.csv')

In [3]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
# read_table에 구분자를 쉼표로 지정해서 읽어올 수도 있다.
pd.read_table('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex1.csv',sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
# 모든 파일에 칼럼의 이름이 있는 건 아니다. 다음 파일을 보자.
# 이 파일을 읽어오려면 몇 가지 옵션이 있는데, pandas가 자동으로 칼럼 이름을 생성하도록 하거나 직접 칼럼 이름을 지정할 수도 있다.
pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex2.csv',header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex2.csv',names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
# message 칼럼을 index로 하는 DataFrame을 반환하려면 index_col 인자에 네 번째 또는 'message'라는 이름을 가진 칼럼을 지정해서 index로 만들 수 있다.
names = ['a','b','c','d','message']
pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex2.csv',names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [8]:
# 계층적 index를 지정하고 싶다면 칼럼 번호나 이름의 리스트를 넘기면 된다.
parsed = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/csv_mindex.csv')
parsed

Unnamed: 0,key1,key2,value1,value2
0,one,a,1,2
1,one,b,3,4
2,one,c,5,6
3,one,d,7,8
4,two,a,9,10
5,two,b,11,12
6,two,c,13,14
7,two,d,15,16


In [9]:
parsed = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/csv_mindex.csv', index_col=['key1','key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [10]:
# 가끔 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해 놓은 경우가 있는데, 
# 이럴 때는 read_table의 구분자로 정규표현식을 사용하면 된다.
list(open('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [11]:
# 직접 파일을 고쳐도 되지만 이 파일은 여러 개의 공백문자로 필드가 구분되어 있으므로 이를 표현할 수 있는 정규표현식 \s+를 사용해서 처리할 수도 있다.
# 이 경우, 첫 번째 로우는 다른 로우보다 칼럼이 하나 적기 때문에 read_table은 첫 번째 칼럼이 DataFrame의 index가 되어야 한다고 추론한다.
result = pd.read_table('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex3.txt',sep='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [12]:
# 파서 함수는 파일 형식에서 발생할 수 있는 매우 다양한 예외를 잘 처리할 수 있도록 많은 추가 인자를 가지고 있는데,
# 예를 들면 skiprows를 이용해서 첫 번째와 세 번째, 네 번째 로우 건너 뛸 수 있다.
pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex4.csv', skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [13]:
# 누락된 값을 잘 처리하는 일은 파일을 읽는 과정에서 자주 발생하는 일이고 중요한 문제다.
# 보통 텍스트 파일에서 누락된 값은 표기하지 않거나 (비어있는 문자열) 구분하기 쉬운 특수한 문자로 표기한다.
# 기본적으로 pandas는 NA, -1, #IND, NULL처럼 비어있는 값으로 흔히 통용되는 문자를 인식해서 비어있는 값으로 처리한다.
result = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex5.csv')

In [14]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [15]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [16]:
# na_values 옵션은 리스트나 문자열 집합을 받아서 누락된 값을 처리한다.
result = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex5.csv',na_values=['NULL'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [17]:
# 열마다 다른 NA 문자를 사전 값으로 넘겨 처리할 수 있다.
sentinels = {'message':['foo','NA'],'something':['two']}
pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


|  인자  | 설명 | 
|:---:|---:|
| `path` | 파일 시스템에서의 위치, URL, 파일 객체를 나타내는 문자열 | 
| `sep or delimiter` | 필드를 구분하기 위해 사용할 연속된 문자나 정규표현식 | 
| `header` | 칼럼의 이름으로 사용할 로우의 번호, 기본 값은 0(첫 로우)이며 헤더가 없으면 None으로 지정할 수 있다. | 
| `index_col` | 색인으로 사용할 칼럼 번호나 이름. 계층적 색인을 지정할 경우 리스트를 넘길 수 있다. | 
| `names` | 칼럼 이름으로 사용할 리스트, header=None과 함께 사용 | 
| `na_values` | NA 값으로 처리할 값들의 나열 | 
| `comment` | 주석으로 분류되어 파싱하지 않을 문자 혹은 문자열 | 
| `parse_dates` | 날짜를 datetime으로 변환할지의 여부, 기본 값은 False이며, True일 경우 모든 칼럼에 다 적용된다. 리스트를 넘기면 변환할 칼럼을 지정할 수 있는데, [1,2,3]을 넘기면 각각의 칼럼을 datetime으로 변환하고 [[1,3]]을 넘기면 1,3번 칼럼을 조합해서 하나의 datetime으로 변환한다. | 
| `keep_date_col` | 여러 칼럼을 datetime으로 변환했을 경우 원래 칼럼을 남겨둘지의 여부. 기본 값은 False | 
| `converters` | 변환 시 칼럼에 적용할 함수를 지정한다. 예를 들어 {'foo':f}는 'foo' 칼럼에 f 함수를 적용한다. 전달하는 사전의 키 값은 칼럼 이름이나 번호가 될 수 있다. | 
| `dayfirst` | 모호한 날짜 형식일 경우 국제 형식으로 간주한다. 기본 값은 False | 
| `date_parser` | 날짜 변환 시 사용할 함수 | 
| `nrows` | 파일의 첫 일부만 읽어올 때 처음 몇 줄을 읽을 것인지 지정한다. | 
| `iterator` | 파일을 조금씩 읽을 때 사용하도록 TextParser객체를 반환하도록 한다. 기본 값은 False | 
| `chunksize` | TextParser 객체에서 사용할, 한 번에 읽을 파일의 크기 | 
| `skip_footer` | 무시할 파일의 마지막 줄 수 |
| `verbose` | 파싱 결과에 대한 정보를 출력한다. 숫자가 아닌 값이 들어있는 칼럼이면서 누락된 값이 있다면 줄 번호를 출력한다. 기본 값은 False | 
| `encoding` | 유니코드 인코딩 종류를 지정한다. UTF-8로 인코딩된 텍스트일 경우 'utf-8'로 지정한다. | 
| `squeez` | 로우가 하나뿐이라면 Series 객체를 반환한다. 기본 값은 False | 
| `thousands` | 숫자를 천 단위로 끊을 때 사용할 ','나 '.' 같은 구분자 | 

### **6.1.1 텍스트 파일 조금씩 읽어오기**

**매우 큰 파일을 처리할 때 인자를 제대로 주었는지 알아보기 위해 파일의 일부분만 읽어보거나 여러 파일 중에서 몇 개의 파일만 읽어서 확인한다.**

In [18]:
result = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [19]:
# 파일을 전체를 읽는 대신 처음 몇 줄만 읽어보고 싶다면 nrows 옵션을 주면 된다.
pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex6.csv',nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [20]:
# 파일을 여러 조각에 나누어서 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.
chunker = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex6.csv',chunksize=1000)
chunker

<pandas.io.parsers.TextFileReader at 0x200d47eeda0>

In [21]:
# read_csv에서 반환된 TextParser 객체를 이용해서 chunksize에 따라 분리된 파일을 순회 할 수 있다.
# 예를 들어 ex6.csv 파일을 순회하면서 'key' 칼럼에 있는 값을 세어보려면 다음 처럼 하면 된다.
chunker = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex6.csv',chunksize=1000)

tot = pd.Series([]) # 빈 Series 생성

for piece in chunker:
    tot = tot.add(piece['key'].value_counts(),fill_value=0)

tot = tot.sort_values(ascending=False)

In [22]:
# TextParser에는 임의의 크기의 조각을 읽을 수 있는 get_chunk 메서드도 포함
tot[:10]

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

### **6.1.2 데이터를 텍스트 형식으로 기록하기**

**읽어오기와 마찬가지로 데이터를 구분자로 구분된 형식으로 내보내는 것도 가능하다. 앞에서 읽었던 CSV 파일 중 하나를 다시 본다.**

In [23]:
data = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [24]:
# DataFrame의 to_csv 메서드를 이용하면 쉼표로 구분된 형식으로 데이터를 파일로 쓸 수 있다.
data.to_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/out.csv')

In [25]:
# 물론 다른 구분자도 사용이 가능하다(콘솔에서 확인할 수 있도록 실제 파일로 기록하지 않고 sys.stdout에 결과를 기록하도록 했다.)
import sys

data.to_csv(sys.stdout, sep = '|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [26]:
# 결과에서 누락된 값은 비어있는 문자열로 나타나는데, 이것 역시 원하는 값으로 지정할 수 있다.
data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [27]:
# 다른 옵션이 명시되지 않으면 로우와 칼럼의 이름도 함께 기록된다.
# 로우와 칼럼의 이름을 포함하지 않으려면 다음과 같이 사용한다.
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [28]:
# 칼럼의 일부분만 기록할 수도 있고, 순서를 직접 지정할 수도 있다.
data.to_csv(sys.stdout, index=False, columns = ['a','b','c']) # cols -> colunmns 명령어 변경

a,b,c
1,2,3.0
5,6,
9,10,11.0


In [29]:
import numpy as np

In [30]:
# Series에도 to_csv 메서드가 있다.
dates = pd.date_range('1/1/2000',periods=7)

ts = pd.Series(np.arange(7), index = dates)

ts.to_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/tseries.csv')

  


### **6.1.3 수동으로 구분 형식 처리하기**

**디스크에 저장된 표 형식의 데이터는 대부분 pandas.read_table 같은 함수를 이용해서 읽어올 수 있다.**

**하지만 간혹 수동으로 처리해야 하는 경우도 있는데, read_table에서 읽을 수 없는 잘못된 형식의 줄이 포함된 데이터는 드물지 않게 발견할 수 있다.**

In [31]:
# 구분자가 한 글자인 파일은 파이썬 내장 csv 모듈을 이용해서 처리할 수 있는데, 
# 열려진 파일 객체를 csv.reader 함수에 넘기기만 하면 된다.
import csv
f = open('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex7.csv')

reader = csv.reader(f)

In [32]:
# 파일을 읽듯이 reader를 순회하면 둘러싸고 있던 큰따옴표 (")가 제거된 튜플을 얻을 수 있다.
for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [33]:
# 이제 원하는 형태로 데이터를 넣을 수 있도록 다음 예처럼 코드를 직접 작성

# 구분자가 한 글자인 파일을 CSV 모듈을 이용하여 처리한 후 list 자료형으로 변환한 값들을 lines에 할당
lines = list(csv.reader(open('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex7.csv')))
print('lines:',lines)
# lines[0]: 'a', 'b', 'c'를 header로 지정하고 나머지 값들은 value 값으로 지정
header, values = lines[0], lines[1:]
print('header:', header)
print('values:', values)
# values들을 zip 함수들을 통해 같은 값들을 매핑하고, zip(header,zip(*values))를 통해 header와 zip(*values)들을 매핑해준다.
# 매핑한 값들을 h,v에 나눠서 할당하는데 h(header값들), v(values값들)을 딕셔너리 자료형으로 자료형 변환 (h(key값):v(value값))
data_dict = {h: v for h, v in zip(header,zip(*values))}

print("data_dict:",data_dict)

lines: [['a', 'b', 'c'], ['1', '2', '3'], ['1', '2', '3']]
header: ['a', 'b', 'c']
values: [['1', '2', '3'], ['1', '2', '3']]
data_dict: {'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}


In [34]:
# csv 파일은 다양한 형태로 존재할 수 있는데 다양한 구분자, 문자열을 둘러써는 방법, 
# 개행문자 같은 것은 csv.Dialect를 상속받아 새로운 클래스를 정의해서 해결
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"' # ''속에 "를 넣으면 "를 구분자로 구분
    # quoting객체에 delimiter, quotechar 또는 lineterminator에 들어있는 모든 문자와 같은 특수 문자를 포함하는 필드만 인용 처리하도록 지시합니다.
    quoting = csv.QUOTE_MINIMAL 
    
reader = csv.reader(f, dialect = my_dialect) # 개행문자를 처리하기 위한 새로운 클래스를 적용

# for line in reader:
    #print(line)

In [35]:
# 서브클래스를 정의하지 않고 csv.reader에 키워드 인자로 각 CSV 파일의 특징을 지정해서 전달해도 된다.
reader = csv.reader(f, delimiter = '|')

# for line in reader:
    # print(line)

In [36]:
# 사용 가능한 옵션(csv.Dialect의 속성)과 어떤 역할을 하는지에 대해서는 표를 살펴본다.


|  인자  | 설명 | 
|:---:|---:|
| `delimiter` | 필드를 구분하기 위한 한 글자짜리 구분자. 기본 값은 ',' | 
| `lineterminator` | 파일을 저장할 때 사용할 개행분자. 기본 값은 '\r\n'. 파일을 읽을 때는 이 값을 무시하며 자동으로 플랫폼별 개행문자를 인식 | 
| `quotechar` | 각 필드에서 값을 둘러싸고 있는 문자. 기본 값은 '"' | 
| `quoting` | 값을 읽거나 쓸 대 둘러쌀 문자 컨벤션.  csv.QUOTE_ALL (모든 필드에 적용), csv.QUOTE_MINIMAL(구분자 같은 특별한 문자가 포함된 필드만 적용), csv.QUOTE_NONE(값을 둘러싸지 않음) | 
| `skipinitialspace` | 구분자 뒤에 있는 공백문자를 무시할지의 여부. 기본 값은 False | 
| `doublequote` | 값을 굴러싸는 문자가 필드 내에 존재할 경우 처리 여부. True면 그 문자까지 모두 둘러싼다. |
| `escapechar` | quoting이 csv.QUOTE_NONE일 대, 값에 구분자와 같은 문자가 있을 경우 구별할 수 있도록 해주는 이스케이프 문자('\'같은). 기본값은 None |

**좀 더 복잡하거나 구분자가 한 글자를 초과하는 고정 길이를 가진다면 csv 모듈을 사용할 수 없다. 이런 경우에는 줄을 나누고 문자열의 split 메서드나 정규표현식 메서드인 re.split 등을 이용해서 가공하는 작업을 해야한다.**

In [37]:
# 결과는 CHAPTER 6 파일 경로에 위치한 mydata.csv 파일을 열어서 확인
with open('mydata.csv','w') as f:
    writer = csv.writer(f, dialect = my_dialect)
    writer.writerow(('one','two','three'))
    writer.writerow(('1','2','3'))
    writer.writerow(('4','5','6'))
    writer.writerow(('7','8','9'))

### **6.1.4 JSON 데이터**

**JSON(JavaScript Object Notation)은 웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼때 널리 사용하는 표준 파일 형식 중 하나이다. JSON은 CSV 같은 표 형식의 텍스트보다 좀 더 유연한 데이터 형식이며, JSON 데이터의 예는 다음과 같다.**

In [38]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

**JSON은 널 값인 null과 다른 몇 가지 사소한 주의사항(리스트의 마지막에 쉼표가 있으면 안 된다던가 하는)을 제외하면 파이썬 코드와 거의 유사하다.**

> **기본 자료형은 객체(사전), 배열(리스트), 문자열, 숫자, 불리언 그리고 널이다.**

> **객체의 키는 반드시 문자열이어야 한다.**

**JSON 데이터를 읽고 쓸 수 있는 파이썬 라이브러리가 몇 가지 있는데 파이썬 표준 라이브러리인 json을 사용한다.**

**JSON 문자열을 파이썬 형태로 변환하기 위해서는 json.loads를 사용하면 된다.**

In [39]:
import json

In [40]:
result = json.loads(obj)
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [41]:
# json.dumps는 파이썬 객체를 JSON 형태로 변환한다.
asjson = json.dumps(result)
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

In [42]:
# JSON 객체나 객체의 리스트를 DataFrame이나 다른 자료 구조로 어떻게 변환해서 분석을 할 것인지는 독자의 몫이다.
# 편리하게도 JSON 객체의 리스트를 DataFrame 생성자로 넘기고 데이터 필드를 선택할 수 있다.
import pandas as pd

siblings = pd.DataFrame(result['siblings'], columns=['name','age','pets'])
siblings

Unnamed: 0,name,age,pets
0,Scott,30,"[Zeus, Zuko]"
1,Katie,38,"[Sixes, Stache, Cisco]"


**중첩된 레코드를 포함해서 좀 더 심화된 JSON 데이터를 읽고 다루는 예제는 다음 장에 나오는 USDA 음식 데이터 베이스 예제를 참고**

> **pandas에서 JSON을 빠르게 읽고(read_json)쓰는 (to_json) 네이티브 구현이 현재 개발 중이며, 이 책을 집필하는 시점에서는 아직 완료되지 않았다.**

### **6.1.5 XML과 HTML: 웹 내용 긁어오기**

**파이썬에는 HTML과 XML 형식의 데이터를 읽고 쓸 수 있는 라이브러리가 많은데, 그중 lxml은 아주 큰 파일을 빠르게 처리할 수 있는 라이브러리로, 여러 종류의 인터페이스를 제공한다.**

> **먼저 HTML을 위한 lxml.html의 사용법을 살펴보고 그 다음 lxml.objectify를 이용해서 XML을 처리하는 방법을 알아본다.**

**대부분의 웹사이트는 브라우저에서 표를 보여주기 위해 HTML을 사용하는데 기계적으로 읽기 쉬운 JSON이나 HTML 또는 XML 형태로 내려받기가 쉽지 않다.**

> **야후! 금융에서 서비스하고 있는 주식 선물 옵션 데이터가 한 예다.**

> **옵션이란 파생 상품의 한 종류로, 주식을 현재부터 특정 시점의 미래(옵션 만기) 사이에 특정 가격(행사 가격)에 팔거나 살 수 있는 권리를 매매하는 것이다.**

> **사람들은 콜 옵션과 풋 옵션을 다양한 행사 가격과 옵션 만기를 두고 거래한다. 이 데이터는 야후! 금융 사이트에서 찾아볼 수 있다.**

**일단, 데이터를 가져올 URL을 확인하고 requests 모듈을 사용해서 불러온 다음 lxml을 이용해서 다음과 같이 파싱한다.**

In [43]:
# https://finance.yahoo.com/quote/AAPL/options 이 링크주소를 한번 들어가보는 것을 추천
import requests

from lxml.html import parse
from io import StringIO

text = requests.get('https://finance.yahoo.com/quote/AAPL/options').text # 해당 링크의 text를 요청
# StringIO는 파일처럼 흉내내는 객체라고 이해하면 된다.
# 문자열 데이터를 파일로 저장한 다음 여러가지 처리를 하게 되는데
# 그 파일을 다시 쓰지 않을 때 유용하게 사용
parsed = parse(StringIO(text)) 
# root는 xml 문서의 최상단 루트 태그를 가리키게 된다.
# doc 객체에는 모든 HTML 태그가 추출되어 있는데, 우리가 관심을 가져야 할 table 태그도 포함되어있다.
doc = parsed.getroot()

In [44]:
# 어떻게 동작하는지 간단히 살펴보기 위해 긁어온 HTML 문서에서 외부 연결 URL을 모두 찾아보기로 하자.
# 외부 연결 URL은 a 태그로 지정되어 있다.
# HTML 문서의 최상위에서 findall 메서드에 XPath(문서 질의 언어)를 넘겨서 해당 엘리먼트를 가져올 수 있다.
links = doc.findall('.//a')

links[15:20]

[<Element a at 0x200d13d0638>,
 <Element a at 0x200d13d0a98>,
 <Element a at 0x200d4950368>,
 <Element a at 0x200d49504f8>,
 <Element a at 0x200d49502c8>]

In [45]:
# 하지만 이 객체는 HTML 엘리먼트를 표현한느 객체일 뿐이므로 URL과 링크 이름을 가져오려면 각 엘리먼트에 대해 get 메서드를 호출하여 URL을 얻고,
# text_content 메서드를 사용해서 링크 이름을 가져와야한다.
lnk = links[27]

print(lnk)

print(lnk.get('href')) # 27번째 인덱스에 있는 element의 URL을 가져온다.

print(lnk.text_content()) # 27번째 인덱스의 링크 이름

<Element a at 0x200d47c31d8>
/quote/AAPL/options?strike=182.5&straddle=false
182.50


In [46]:
# 그러므로 HTML 문서에서 모든 URL 목록을 가져오려면 다음과 같은 리스트가 내포된 문법을 이용해야 한다.
urls = [lnk.get('href') for lnk in doc.findall('.//a')]

urls[-10:]

['/watchlists',
 '/portfolios',
 '/screener',
 '/premium?ncid=navbarprem_fqbo1nu0ks0',
 '/calendar',
 '/industries',
 '/videos/',
 '/news/',
 'https://money.yahoo.com',
 '/tech']

In [47]:
# 이제 찾고자 하는 table은 하나씩 확인해볼 수밖에 없다.
# 몇몇 웹사이트는 table 마다 id 속성을 줘서 이 작업을 쉽게 할 수있는데, 필자는 콜 데이터와 풋 데이터가 각각의 table에 들어있는 것을 찾아냄
tables= doc.findall('.//table')
calls = tables[1]
puts = tables[0]

In [48]:
# 각각의 table에는 헤더가 하나씩 있고 그 다음에는 데이터가 들어있다.
rows = calls.findall('.//tr')

In [49]:
# 헤더 역시 데이터와 마찬가지로 각각의 셀 안에 있는 텍스트를 추출한다.
# 여기서는 th 셀 안에 헤더가 들어있고 td 셀에는 데이터가 들어있다.

def _unpack(row, kind='td'):
    elts = row.findall('.//%s' % kind)
    return [val.text_content().strip().split('\n')[0] for val in elts]

In [50]:
_unpack(rows[0],kind='th') # rows[0]에 위치한 헤더들을 출력

['Contract Name',
 'Last Trade Date',
 'Strike',
 'Last Price',
 'Bid',
 'Ask',
 'Change',
 '% Change',
 'Volume',
 'Open Interest',
 'Implied Volatility']

In [51]:
_unpack(rows[2],kind='td') # rows[2]에 위치한 데이터를 출력

['AAPL191025P00155000',
 '2019-10-09 3:28PM EDT',
 '155.00',
 '0.01',
 '0.00',
 '0.03',
 '0.00',
 '-',
 '1',
 '0',
 '165.63%']

In [52]:
# 지금까지 살펴본 단계를 모두 합쳐 웹에서 긁어온 데이터를 DataFrame으로 변환한다.
# 숫자 데이터지만 여전히 문자열 형식으로 저장되어 있으므로 적절하게 변환을 해줘야한다.
# 모든 데이터가 실수형은 아닐 것이므로 이 작업은 수동으로 처리해야 한다.
# 하지만 운 좋게도 pandas에는 TextParser 클래스가 있어 자동 형 변환을 적절하게 수행해준다.
from pandas.io.parsers import TextParser

def parse_options_data(table):
    rows = table.findall('.//tr')
    header = _unpack(rows[0], kind='th')
    data = [_unpack(r) for r in rows[1:]]
    return TextParser(data, names=header).get_chunk() # get_chunk(): Stata로부터 행을 읽고 데이터 프레임으로 반환

In [53]:
# 마지막으로 lxml 테이블 객체를 위에서 작성한 파싱 함수를 이용해서 처리하면 다음과 같은 DataFrame 결과 값을 얻을 수 있다.
call_data = parse_options_data(calls)

put_data = parse_options_data(puts)

In [54]:
call_data[:10]

Unnamed: 0,Contract Name,Last Trade Date,Strike,Last Price,Bid,Ask,Change,% Change,Volume,Open Interest,Implied Volatility
0,AAPL191025P00150000,2019-10-16 3:30PM EDT,150.0,0.01,0.0,0.01,0.0,-,1,0,162.50%
1,AAPL191025P00155000,2019-10-09 3:28PM EDT,155.0,0.01,0.0,0.03,0.0,-,1,0,165.63%
2,AAPL191025P00160000,2019-10-10 11:44AM EDT,160.0,0.01,0.0,0.0,0.0,-,100,0,50.00%
3,AAPL191025P00165000,2019-10-22 3:49PM EDT,165.0,0.01,0.0,0.01,0.0,-,1,0,131.25%
4,AAPL191025P00170000,2019-10-17 1:38PM EDT,170.0,0.04,0.0,0.0,0.0,-,53,0,50.00%
5,AAPL191025P00175000,2019-10-18 2:40PM EDT,175.0,0.01,0.0,0.01,0.0,-,104,0,112.50%
6,AAPL191025P00180000,2019-10-21 11:07AM EDT,180.0,0.03,0.0,0.0,0.0,-,1,0,50.00%
7,AAPL191025P00182500,2019-10-18 3:36PM EDT,182.5,0.01,0.0,0.01,0.0,-,316,0,96.88%
8,AAPL191025P00185000,2019-10-22 3:11PM EDT,185.0,0.01,0.01,0.01,0.0,-,17,0,98.44%
9,AAPL191025P00187500,2019-10-21 10:06AM EDT,187.5,0.01,0.01,0.01,0.0,-,1799,0,93.75%


### **lxml.objectify 이용해 XML 파싱하기**

**XML은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 또 다른 유명한 데이터 형식이다.**

**앞에서는 lxml.html 인터페이스에 대해서 알아봤는데 이제부터는 XML 데이터를 편리하게 다룰 수 있는 lxml.objectify에 대해서 알아본다.**

**뉴욕 MTA는 버스와 전철 운영에 관한 여러 가지 데이터를 공개하고 있다.(http://www.mta.info/developers/download.html) 그중에서 우리가 살펴볼 것은 여러 XML 파일로 제공되는 실적 자료다. 전철과 버스 운영은 매월 아래와 비슷한 내용의 각각 다른 파일(Metro-North Railroad의 경우 Performance_MNR.xml 같은)로 제공한다.**

In [55]:
from lxml import objectify

In [56]:
# lxml.objectify를 이용해서 파일을 파싱한 후 getroot 함수로 XML 파일의 루트 노드에 대한 참조를 얻어온다.
path = './pydata-book-2nd-edition/pydata-book-2nd-edition/datasets/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()

In [57]:
# root.INDICATOR를 통해 모든 <INDICATOR> 엘리먼트를 끄집어낼 수 있다.
# 각각의 항목에 대해 몇몇 태그는 제외하고 태그 이름 (YTD_ACTUAL 같은)을 키 값으로 하는 사전을 만들어낼 수 있다.
data = []

skip_fields = ['PARENT_SEQ','INDICATOR_SEQ','DESIRED_CHANGE','DECIMAL_PLACES'] # 불필요한 필드 지정

for elt in root.INDICATOR: # INDICATOR를 통해 모든 엘리먼트를 가져온다.
    el_data = {} # 엘리먼트들을 저장할 빈 딕셔너리 생성
    for child in elt.getchildren(): # XML의 하위 요소 제거
        if child.tag in skip_fields: # 만약 불필요한 필드가 태그되면 제외시킴
            continue 
        el_data[child.tag] = child.pyval # 태그를 키 값으로 하는 사전들을 추가
    data.append(el_data) # 사전들을 리스트에 추가

In [58]:
perf = pd.DataFrame(data)
perf

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95,96.9,95,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95,96,95,95
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95,96.3,95,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95,96.8,95,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95,96.6,95,95.8
...,...,...,...,...,...,...,...,...,...,...,...,...
643,Metro-North Railroad,Escalator Availability,Percent of the time that escalators are operat...,2011,8,Service Indicators,M,%,97,,97,
644,Metro-North Railroad,Escalator Availability,Percent of the time that escalators are operat...,2011,9,Service Indicators,M,%,97,,97,
645,Metro-North Railroad,Escalator Availability,Percent of the time that escalators are operat...,2011,10,Service Indicators,M,%,97,,97,
646,Metro-North Railroad,Escalator Availability,Percent of the time that escalators are operat...,2011,11,Service Indicators,M,%,97,,97,


In [59]:
# XML 데이터를 얻으려면 지금 본 예제보다 훨씬 더 복잡한 과정을 거쳐야 한다.
# 각각의 태그 또한 메타데이터를 가지고 있을 수 있다.
# 유효한 XML 형식인 HTML의 a 태그를 생각하면 된다.
import io # 파이썬 3.xx 버전에서는 StringIO -> io로 바뀜
tag = '<a herf="http://www.google.com">Google</a>'

root = objectify.parse(StringIO(tag)).getroot()

In [60]:
# 이제 태그나 링크 이름에서 어떤 필드(herf 같은)라도 가능하다.

print('root:',root)

print('root.get:',root.get)

print('root.text:', root.text)

root: Google
root.get: <bound method _Element.get of <Element a at 0x200d6dea748>>
root.text: Google


## **6.2 이진 데이터 형식**

**데이터를 효율적으로 저장하는 가장 손쉬운 방법은 파이썬에 기본으로 내장되어 있는 pickle 직렬화를 통해 데이터를 이진 형식으로 저장하는 것이다.**

**편리하게도 pandas의 객체는 모두 pickle을 이용해서 데이터를 저장하는 save 메서드를 가지고 있다.(현재 지원 안함)**

In [61]:
frame = pd.read_csv('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex1.csv')
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [62]:
frame.to_pickle('test.pickle') # Pickle 파일 저장 (저장확인은 CHAPTER6 파이썬 파일이 있는 위치에서 확인)

In [63]:
pickle_frame = pd.read_pickle('test.pickle') # Pickle로 저장된 파일 불러오기
pickle_frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


**pickle은 오래 보관할 필요가 없는 데이터에만 추천한다. 오랜 시간이 지나도 안정적으로 데이터를 저장할거라고 보장하기 힘들기 때문이다.**

**버전 이슈로 pickle로 저장한 데이터를 향후 버전에서 읽어오지 못할 가능성이 있다.**

### **6.2.1 HDF5 형식 사용하기**

**디스크에 이진 형식으로 저장된 대용향의 과학 자료를 효율적으로 읽고 쓸 수 있는 다양한 도구가 있다.**

> **산업 기준에 맞는 인기 있는 라이브러리 중 하나가 HDF5인데, 이것은 자바나 파이썬, MATLAB 언어를 위한 인터페이스를 제공하는 C 라이브러리이다.**

**HDF5 파일은 내부적으로 파일 시스템 같은 노드 구조를 가지는데, 여러 개의 데이터셋을 저장하고 부가 정보를 기록할 수 있도록 해준다.**

**더 단순한 형식과 비교하면 HDF5는 다양한 압축 기술을 사용해서 온더플라이(on-the-fly, 실시간) 압축을 지원하며 반복되는 패턴을 가진 데이터를 좀 더 효과적으로 저장할 수 있다.**

> **메모리에 모두 적재할 수 없는 엄청나게 큰 데이터를 아주 큰 배열에서 필요한 만큼의 작은 부분들만 효과적으로 읽고 쓸 수 있는 훌륭한 선택이다.**

**파이썬에서 사용 가능한 HDF5 라이브러리는 PyTables와 h5py의 두 가지다. 이 둘은 문제에 대한 접근 방식이 서로 달라 h5py는 직접적이지만 고수준의 HDF5 API에 대한 인터페이스를 제공하고, PyTables는 HDF5를 추상화하여 여러 가지 유연한 데이터 컨테이너와 테이블 index, 질의 기능 그리고 외부 메모리 연산(out-of-core, external memory algorithm)을 지원한다.**

In [64]:
# pandas는 PyTables를 이용한 HDFStore라는 가벼운 사전 클래스를 통해 pandas 객체를 저장한다.
store = pd.HDFStore('mydata.h5')

In [65]:
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [66]:
store['obj1'] = frame

In [67]:
store['obj1_col'] = frame['a']

In [68]:
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [69]:
# HDF5 파일에 포함된 객체는 파이썬 사전과 유사한 형식으로 사용할 수 있다.
store['obj1']

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


**만약 엄청난 양의 데이터를 다뤄야 한다면 PyTables와 h5py를 잘 살펴보고 어떤 것이 목적에 맞을지 알아보는 것이 좋다.**

**실제로 데이터 분석 문제는 대부분 CPU보다는 IO성능에 의존적이므로 HDF5 같은 도구를 사용하면 애플리케이션의 성능을 엄청나게 향상시킬 수 있다.**

### **6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기**

**pandas는 ExcelFile 클래스를 통해 마이크로소프트 엑셀 2003 이후 버전의 데이터를 읽어올 수 있다.**

**내부적으로 ExcelFile 클래스는 xlrd, openpyxl 패키지를 이용하므로 사용하기전에 두 패키지를 먼저 설치**

In [70]:
xls_file = pd.ExcelFile('./pydata-book-2nd-edition/pydata-book-2nd-edition/examples/ex1.xlsx')

In [71]:
xls_file

<pandas.io.excel._base.ExcelFile at 0x200d7466198>

In [72]:
table = xls_file.parse('Sheet1')

In [73]:
# 시트에 있는 데이터는 parse 함수를 사용해서 DataFrame으로 읽어올 수 있다.
table

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


## **6.3 HTML, 웹 API와 함께 사용하기**

**데이터 피드를 JSON이나 여타 다른 형식으로 얻을 수 있는 공개 API를 제공하는 웹사이트가 많다.**

**파이썬으로 이 API를 사용하는 방법은 다양하며 추천하는 가장 쉬운 방법은 requests 패키지(http://docs.python-requests.org)를 이용하는 것이다.**

In [74]:
# pandas의 다음 릴리즈에 대한 최초 30개의 이슈를 가져오려면 다음과 같은 HTTP GET 요청을 작성한다.
# data에 각 값은 색상, URL, 그리고 이슈 라벨의 이름을 담고 있는 사전이다.
# data를 가지고 바로 DataFrame을 생성할 수 있다.
import requests

url = 'https://api.github.com/repos/pydata/pandas/milestones/28/labels'

resp = requests.get(url)

resp

<Response [200]>

In [75]:
# Response 객체의 json 메서드는 파이썬 객체인 사전 형태로 변환된 JSON 데이터를 반환한다.
data = resp.json()
data[:5]

[{'id': 76811,
  'node_id': 'MDU6TGFiZWw3NjgxMQ==',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/Bug',
  'name': 'Bug',
  'color': 'e10c02',
  'default': False},
 {'id': 76812,
  'node_id': 'MDU6TGFiZWw3NjgxMg==',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/Enhancement',
  'name': 'Enhancement',
  'color': '4E9A06',
  'default': False},
 {'id': 127681,
  'node_id': 'MDU6TGFiZWwxMjc2ODE=',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/Refactor',
  'name': 'Refactor',
  'color': 'FCE94F',
  'default': False},
 {'id': 129350,
  'node_id': 'MDU6TGFiZWwxMjkzNTA=',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/Build',
  'name': 'Build',
  'color': '75507B',
  'default': False},
 {'id': 134699,
  'node_id': 'MDU6TGFiZWwxMzQ2OTk=',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/Docs',
  'name': 'Docs',
  'color': '3465A4',
  'default': False}]

In [76]:
issue_labels = pd.DataFrame(data)
issue_labels

Unnamed: 0,id,node_id,url,name,color,default
0,76811,MDU6TGFiZWw3NjgxMQ==,https://api.github.com/repos/pandas-dev/pandas...,Bug,e10c02,False
1,76812,MDU6TGFiZWw3NjgxMg==,https://api.github.com/repos/pandas-dev/pandas...,Enhancement,4E9A06,False
2,127681,MDU6TGFiZWwxMjc2ODE=,https://api.github.com/repos/pandas-dev/pandas...,Refactor,FCE94F,False
3,129350,MDU6TGFiZWwxMjkzNTA=,https://api.github.com/repos/pandas-dev/pandas...,Build,75507B,False
4,134699,MDU6TGFiZWwxMzQ2OTk=,https://api.github.com/repos/pandas-dev/pandas...,Docs,3465A4,False
5,211840,MDU6TGFiZWwyMTE4NDA=,https://api.github.com/repos/pandas-dev/pandas...,Timeseries,AFEEEE,False
6,233160,MDU6TGFiZWwyMzMxNjA=,https://api.github.com/repos/pandas-dev/pandas...,Groupby,729FCF,False
7,2301354,MDU6TGFiZWwyMzAxMzU0,https://api.github.com/repos/pandas-dev/pandas...,Data IO,06909A,False
8,2413328,MDU6TGFiZWwyNDEzMzI4,https://api.github.com/repos/pandas-dev/pandas...,Visualization,8AE234,False
9,2822098,MDU6TGFiZWwyODIyMDk4,https://api.github.com/repos/pandas-dev/pandas...,Indexing,0b02e1,False


In [77]:
# 이렇게 추출된 깃헙의 개별 이슈에 대한 정보는 DataFrame의 로우에 하나씩 저장된다.
issue_labels.iloc[7]

id                                                   2301354
node_id                                 MDU6TGFiZWwyMzAxMzU0
url        https://api.github.com/repos/pandas-dev/pandas...
name                                                 Data IO
color                                                 06909A
default                                                False
Name: 7, dtype: object

## **6.4 데이터베이스와 함께 사용하기**

**사실 대부분의 애플리케이션은 텍스트 파일에서 데이터를 읽어오지 않는다. 왜냐하면 대용량의 데이터를 저장하기에 텍스트 파일은 상당히 비효율적이기 때문이며, SQL 기반의 관계형 데이터 베이스(SQL Server나 PostgreSQL, MySQL 같은)가 널리 사용되고 있고 또 최근 유명해진 NoSQL이라 불리는 비 SQL 기반의 데이터 베이스도 많이 사용되고 있기 때문이다.**

**데이터베이스는 애플리케이션에서 필요한 성능이나 데이터 무결성과 확장성에 맞춰서 선택하는 것이 일반적이다.**

**SQL에서 데이터를 읽어와서 DataFrame에 저장하는 방법은 꽤 직관적이며 pandas에는 이 과정을 간결하게 해주는 함수가 몇 가지 있다.**

In [78]:
# 한 예로 파이썬의 sqlite3 드라이버를 사용해서 SQLite 데이터베이스를 이용할 수 있다.
import sqlite3

query = '''
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
 );'''

con = sqlite3.connect(':memory:')
con.execute(query)
con.commit()

In [79]:
# 이제 데이터를 몇 개 입력한다.
data = [('Atlanta','Georgia',1.25,6),
        ('Tallahassee','Florida',2.6,3),
        ('Sacramento','California',1.7,5)]
stmt = 'INSERT INTO test VALUES(?,?,?,?)'

con.executemany(stmt,data)

con.commit()

In [80]:
# 대부분의 파이썬 SQL 드라이버(PyODVC,psycopg2,MySQLdb,pymssql 등)는 테이블에 대해서 select 쿼리를 수행하면 튜플 리스트를 반환한다.
cursor = con.execute('select * from test')

rows = cursor.fetchall()

rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [81]:
# 반환된 튜플 리스트를 DataFrame 생성자에 바로 전달해도 되지만, 컬럼 이름을 지정해주면 더 편하다. cursor의 description 속성을 활용하자
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [82]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


In [85]:
# 데이터베이스에 쿼리를 보내기 위해 매번 이렇게 하는 건 너무 귀찮은 일이다.
# 유명한 파이썬 SQL 툴킷인 SQLAlchemy(SQL알케미) 프로젝트는 SQL 데이터베이스 간의 일반적인 차이점을 추상화하여 제공한다.
# pandas는 real_sql 함수를 제공하여 SQLAlchemy의 일반적인 연결을 이용해 쉽게 데이터를 읽을 수 있다.
import sqlalchemy as sqla

db = sqla.create_engine('sqlite:///mydata.sqlite')

pd.read_sql('select * from test', db)

OperationalError: (sqlite3.OperationalError) no such table: test
[SQL: select * from test]
(Background on this error at: http://sqlalche.me/e/e3q8)