# 데이터 읽기

pandas에는 표 형식의 자료를 DataFrame 객체로 읽어오는 기능을 제공한다.  
`read_csv, read_table, read_execel, read_html` 등이 있다.

이때 몇가지 옵션을 취한다.
- 색인, 자료형 추론과 데이터 변환, 날짜 분석, 반복, 정제되지 않은 데이터 처리

read_csv: 구분자를 쉼표(',')로 한다.

In [65]:
for i in list(open('examples/ex1.csv')):
    print(i)

a,b,c,d,message

1,2,3,4,hello

5,6,7,8,world

9,10,11,12,foo


In [66]:
df = pd.read_csv('examples/ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


read_table에 구분자를 쉼표로 지정해 읽어올 수도 있다.

In [67]:
pd.read_table('examples/ex1.csv', sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


직접 컬럼 이름을 지정할 수 있다.

In [68]:
pd.read_csv('examples/ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [69]:
pd.read_csv('examples/ex2.csv', names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


컬럼을 지정해서 색인으로 만들 수 있다.

In [70]:
names=['a','b','c','d','message']
pd.read_csv('examples/ex2.csv',names=names, index_col=4) #index_col='message'

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


계층적 색인

In [71]:
parsed = pd.read_csv('examples/csv_mindex.csv', index_col=['key1','key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


구분자 없이 공백이나 다른 패턴으로 구분해놓은 경우  
\s+ 를 사용해 처리할 수 있다.

In [72]:
list(open('examples/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [73]:
result = pd.read_table('examples/ex3.txt', sep='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


첫 번째 로우가 다른 로우보다 컬럼이 하나 적기 때문에 첫 번째 컬럼이 색인이 되었다.

In [74]:
list(open('examples/ex4.csv'))

['# hey!\n',
 'a,b,c,d,message\n',
 '# just wanted to make things more difficult for you\n',
 '# who reads CSV files with computers, anyway?\n',
 '1,2,3,4,hello\n',
 '5,6,7,8,world\n',
 '9,10,11,12,foo\n']

skiprows를 이용해서 로우를 건너뛸 수 있다.

In [75]:
pd.read_csv('examples/ex4.csv', skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [76]:
list(open('examples/ex5.csv'))

['something,a,b,c,d,message\n',
 'one,1,2,3,4,\n',
 'two,5,6,,8,world\n',
 'three,9,10,11,12,foo\n']

누락된 값은 특수한 문자(NA, NULL)로 표기된다.

In [77]:
result = pd.read_csv('examples/ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [78]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


na_values 옵션은 리스트나 문자열 집합, 사전값 등으로 받아서 누락된 값을 처리한다.

In [79]:
result = pd.read_csv('examples/ex5.csv', na_values=['world'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,
2,three,9,10,11.0,12,foo


In [80]:
sentinels = {'message':['foo','NA'], 'something':['two']}
pd.read_csv('examples/ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


자주 사용될 함수 인자.

sep=<no_default>, delimiter=None : 구분자  
header='infer' : 컬럼으로 사용할 로우 번호  
names=<no_default>, : 컬럼 이름으로 사용할 리스트/ header-None과 함께 사용.  
index_col=None, : 색인으로 사용할 칼럼 번호나 이름, 계층적 색인을 지정할 경우 사용  
squeeze=False,  : 만일 컬럼이 하나뿐이라면 Series 객체를 반환한다.  
converters=None,  : 변환 시 컬럼을 적용할 함수를 지정  
skiprows=None,  : 무시할 로우 번호  
skipfooter=0, : 파일의 끝에서 무시할 라인 수  
nrows=None,  : 파일의 첫 일부만 읽어올 때 처음 몇 줄을 읽을것인지 지정  
na_values=None,  : NA값으로 처리할 목록  
verbose=False,  : 파싱 결과에 대한 정보를 출력한다. 숫자가 아닌 값이 들어 있는 컬럼에 누락된 값이 있다면 줄 번호를 출력해준다.  
parse_dates=False,  : 날짜를 datetime으로 변환할지 여부  
keep_date_col=False,  : 여러 칼럼을 datetime으로 변환했을 경우 원래 컬럼을 남겨둘지 여부  
date_parser=None,  :날짜 변환 시 사용할 함수  
dayfirst=False,  : 모호한 날짜 형식일 경우 국제 형식으로 간주한다.  
iterator=False,  : 파일을 조금씩 일을 때 사용하도록 TextParser 객체를 반환하도록 한다.  
chunksize=None,  : TextParser 객체에서 사용할 한 번에 읽을 파일의 크기   
thousands=None,  : 숫자를 천단위로 끊을 때 사용.  
comment=None,  : 주석으로 분류되어 파싱하지 않을 문자 혹은 문자열  
encoding=None,  : 유니코드 인코딩 종류를 지정한다.  

## 텍스트 파일 조금씩 읽어오기

pandas의 출력 설정을 조절

In [81]:
pd.options.display.max_rows=10

In [82]:
result = pd.read_csv('examples/ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


처음 몇줄만 읽을 때 nrows 옵션을 사용한다.

In [83]:
pd.read_csv('examples/ex6.csv', nrows=4)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R


여러 조각으로 나누어 읽고 싶다면 chunksize 옵션으로 로우의 개수를 조절

In [84]:
chunker = pd.read_csv('examples/ex6.csv', chunksize=1000)
chunker

<pandas.io.parsers.readers.TextFileReader at 0x1fe9e1e7460>

'key'로우에 있는 값을 세어보려면

In [85]:
tot = pd.Series([],dtype='float64')
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

tot = tot.sort_values(ascending=False)

In [86]:
tot[:10]

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

## 데이터를 텍스트 형식으로 기록하기

In [87]:
data = pd.read_csv('examples/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


to_csv 메서드를 이용하면 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있다.

In [88]:
data.to_csv('examples/out.csv')

In [89]:
list(open('examples/out.csv'))

[',something,a,b,c,d,message\n',
 '0,one,1,2,3.0,4,\n',
 '1,two,5,6,,8,world\n',
 '2,three,9,10,11.0,12,foo\n']

다른 구분자도 가능하다.  
실제 파일로 기록하지 않기위에 sys.stdout에 결과를 기록한다.

In [90]:
import sys

data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


누락된값도 원하는 값으로 지정할 수 있다.

In [91]:
data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


로우와 컬럼의 이름을 포함하지 않으려면

In [92]:
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


컬럼의 순서를 바꾸거나 일부분만 기록할 수 있다.

In [95]:
data.to_csv(sys.stdout,index=False, columns=['a','c','b'])

a,c,b
1,3.0,2
5,,6
9,11.0,10


In [98]:
dates = pd.date_range('1/1/2000', periods=7)
ts = pd.Series(np.arange(7), index=dates)
ts.to_csv('examples/tseries.csv',header=False)

In [99]:
for i in list(open('examples/tseries.csv')):
    print(i, end='')

2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


## 구분자 형식 다루기

In [100]:
list(open('examples/ex7.csv'))

['"a","b","c"\n', '"1","2","3"\n', '"1","2","3"\n']

In [101]:
import csv
f = open('examples/ex7.csv')

reader = csv.reader(f)

큰 따옴표가 제거된 튜플을 얻을 수 있다.

In [102]:
for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [103]:
# 줄 단위 리스트로 저장
with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f))

In [104]:
# 헤더와 값을 분리
header, values = lines[0], lines[1:]

In [105]:
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

구분자, 문자열을 둘러싸는 방법, 개행 문자 등 csv.Dialect를 상속받아 새로운 클래스를 정의하여 해결할 수 있다.

In [106]:
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar ='"'
    quoting = csv.QUOTE_NONE

In [107]:
f = open('examples/ex7.csv')

reader = csv.reader(f, dialect=my_dialect)

In [108]:
for line in reader:
    print(line)

['"a","b","c"']
['"1","2","3"']
['"1","2","3"']


키워드 인자로 지정해서 전달해도 됨.

In [109]:
f = open('examples/ex7.csv')

reader = csv.reader(f, delimiter='"')

In [110]:
for line in reader:
    print(line)

['a,', 'b', ',', 'c', '']
['1,', '2', ',', '3', '']
['1,', '2', ',', '3', '']


|인자 | 설명|
|----------------------------------|--------------------------|
|delimiter | 구분자. 기본값 ' , ' |
|lineterminator | 개행 문자. 기본값 ' \r\n '|
| quotechar | 값을 둘러싸고 있는 문자. 기본값 ' " ' |
|quoting | QUOTE_ALL (모든필드에 적용),  \_MINIMAL (구분자 같은 특별한 문자가 포함된 필드만), \_NONE(값을 둘러싸지 않음) 기본값 MINIMAL |
| skipinitialspace | 구분자 뒤에 있는 공백 문자를 무시할지. 기본값 False |
| doublequote | 값을 둘러싸는 문자가 필드 내에 존재할 경우 처리 여부 |
| escapechar| quoting이 \_NONE일 때 값에 구분자와 같은 문자가 있을 경우 구별할 수 있도록 해주는 이스케이프 문자('\'). 기본값 NONE) |

csv처럼 구분자로 구분된 파일을 기록하려면 csv.writer를 이용하면 된다.

In [111]:
with open('mydata.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect)
    writer.writerow(('one','two','three'))
    writer.writerow(('1','2','3'))
    writer.writerow(('4','5','6'))
    writer.writerow(('7','8','9'))

## JSON 데이터
JSON(JavaScript Object Notation)은 웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 형식 중 하나다.

In [112]:
#JSON 데이터 예
obj = """
{"name": "Wes",
"places_lived": ["United States", "Spain","Germany"],
"pet": null,
"siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
{"name": "Katie", "age": 38, "ptes": ["Sixes", "Stache", "Cisco"]}]
}
"""

파이썬 코드와 거의 유사하다.  
JSON 문자열을 파이썬 형태로 변환하려면 json.loads를 사용한다.

In [113]:
import json

result =json.loads(obj)

result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'ptes': ['Sixes', 'Stache', 'Cisco']}]}

json.dumps는 파이썬 객체를 JSON형태로 변환한다.

In [114]:
asjson = json.dumps(result)
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "ptes": ["Sixes", "Stache", "Cisco"]}]}'

In [115]:
siblings = pd.DataFrame(result['siblings'], columns=['name','age'])
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


In [116]:
list(open('examples/example.json'))

['[{"a": 1, "b": 2, "c": 3},\n',
 ' {"a": 4, "b": 5, "c": 6},\n',
 ' {"a": 7, "b": 8, "c": 9}]\n']

read_json은 옵션을 주지 않을 경우 JSON 배열에 담긴 각 객체를 테이블 로우로 간주한다.

In [117]:
data = pd.read_json('examples/example.json')
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


to_json 함수를 사용하여 JSON으로 저장

In [118]:
print(data.to_json())

print(data.to_json(orient='records'))

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}
[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]


## XML과 HTML: 웹 스크래핑

pandas에는 read_html 이라는 내장 함수가 있다. 이는 lxml이나 Beautiful Soup 같은 라리브러리를 사용해서 자동으로 HTML 파일을 파싱하여 DataFrame으로 변환해준다.

> 파싱(parsing)은 구문 분석이라고 한다. 문장이 이루고 있는 구성 성분을 분해하고 분해된 성분의 위계 관계를 분석하여 구조를 결정하는 것이다. 즉 데이터를 분해 분석하여 원하는 형태로 조립하고 다시 빼내는 프로그램을 말한다. 웹상에서 주어진 정보를 내가 원하는 형태로 가공하여 서버에서 불러들이는 것이다. [출처-해시넷](http://wiki.hash.kr/index.php/%ED%8C%8C%EC%8B%B1)

`conda install lxml`

`pip install beautifulsoup4 html5lib`

미연방예금보험공사의 부도은행

In [119]:
tables = pd.read_html('examples/fdic_failed_bank_list.html')

In [120]:
len(tables)

1

In [121]:
failures = tables[0]
failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


데이터 정제, 연도별 부도은행 수 계산

In [122]:
close_timestamps = pd.to_datetime(failures['Closing Date'])
close_timestamps.dt.year.value_counts()

2010    157
2009    140
2011     92
2012     51
2008     25
       ... 
2004      4
2001      4
2007      3
2003      3
2000      2
Name: Closing Date, Length: 15, dtype: int64

### lsml.objectify를 이용해서 XML 파싱하기

뉴옥 MTA의 전철과 버스 운영파일

lxml.objectify를 이용해서 파일을 파싱한 후 getroot 함수를 이용해서 XML 파일의 루트노드에 대한 참조를 얻는다.

In [123]:
from lxml import objectify

path = "datasets/mta_perf/Performance_MNR.xml"
with open(path) as f:
    parsed = objectify.parse(f)
root = parsed.getroot()

root.INDICATOR를 이용해서 모든<INDICATOR> XML 에릴먼트를 끄집어낼 수 있다.

In [124]:
data = []
skip_fields = ['PARENT_SEQ','INDICATOR_SEQ','DESIRED_CHANGE','DECIMAL_PLACES']

for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

In [125]:
perf = pd.DataFrame(data)
perf.head()

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95.0,96.9,95.0,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95.0,96.0,95.0,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95.0,96.3,95.0,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95.0,96.8,95.0,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95.0,96.6,95.0,95.8


In [126]:
from io import StringIO
tag = '<a href="http://www.google.com">Google</a>'
root = objectify.parse(StringIO(tag)).getroot()

In [127]:
root

<Element a at 0x1fe9bb4d700>

In [128]:
root.get('href')

'http://www.google.com'

In [129]:
root.text

'Google'

# 이진 데이터 형식
파이썬에 기본으로 내장된 pickle **직렬화**를 사용하면 데이터를 효율적(이진 형식)으로 저장할 수 있다.  
pandas 객체는 to_pickle 메서드를 가지고 있다.

In [130]:
frame = pd.read_csv('examples/ex1.csv')
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [131]:
frame.to_pickle('examples/frame_pickle')

In [132]:
pd.read_pickle('examples/frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


pandas는 HDF5와 Message-Pack, 두 가지 바이너리 포맷을 지원한다.  
pandas 또는 Numpy 데이터를 위한 다른 저장 형식도 존재한다.
- Bcolz: Blocs 압축 알고리즘에 기반한 압축이 가능한 컬럼지향 바이너리 포맷이다.
- Feather: Feather는 아파치 에로우의 메모리 포맷을 사용한다.

## HDF5 형식 사용하기 
HDF5는 대량의 과학 계산용 배열 데이터를 저장하기 위해 고안된 파일 포맷이다.

In [133]:
frame = pd.DataFrame({'a':np.random.randn(100)})

store = pd.HDFStore('mydata.h5')

store['obj1'] = frame
store['obj1_col']= frame['a']
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [134]:
store['obj1']

Unnamed: 0,a
0,-0.051502
1,-1.010138
2,1.500903
3,0.450184
4,-0.726738
...,...
95,-1.730893
96,1.102921
97,0.622166
98,-0.573775


HDFStore는 'fixed'와 'table' 두 가지 저장 스키마를 지원한다.  
'table' 스키마가 더 느리지만 쿼리 연산을 지원한다.

In [135]:
store.put('obj2', frame, format='table')
store.select('obj2', where=['index>=10 and index <=15'])

Unnamed: 0,a
10,-0.48795
11,-2.454368
12,-1.416023
13,-0.265453
14,0.521622
15,-0.783245


In [136]:
store.close()

`put`은 명시적인 store['obj2']=frame 메서드지만 저장 스키마를 지정하는 등의 다른 옵션을 제공한다.   
pandas.read_hdf 함수는 이런 기능들을 축약해서 사용할 수 있다.

In [137]:
frame.to_hdf('mydata.h5', 'obj3',format='table')
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'])

Unnamed: 0,a
0,-0.051502
1,-1.010138
2,1.500903
3,0.450184
4,-0.726738


## 마이크로소프트 엑셀 파일에서 데이터 읽어오기
pandas는 ExcelFile 클래스나 pandas.read_excel 함수를 사용해서 2003년 이후 MS엑셀 버전의 데이터를 읽어 올 수 있다.  
XLS, XLSM 파일을 읽기 위해 각각 xlrd와 openpyxl 패키지를 이용한다.

`pip install xlrd`  
`pip install openpyxl`

In [151]:
xlsx = pd.ExcelFile('examples/ex1.xlsx')
xlsx.parse()

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


시트에 있는 데이터는 parse 함수를 이용해서 DataFrame으로 읽어올 수 있다.

In [148]:
pd.read_excel(xlsx, 'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [149]:
frame = pd.read_excel('examples/ex1.xlsx','Sheet1')
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


pandas 데이터를 엑셀 파일로 저장하고 싶다면 ExcelWrite를 생성해서 데이터를 기록하고 to_excel 메서드로 넘기면 된다.

In [154]:
writer = pd.ExcelWriter('examples/test.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()

ExcelWriter를 사용하지 않고 to_excel 메서드에 파일 경로만 넘겨도 된다.

In [None]:
frame.to_excel('examples/ex2.xlsx')

# 웹 API와 함께 사용하기
여기선 requests 패키지를 사용

pandas 깃허브에서 최근 30개의 이슈를 가져오기

In [155]:
import requests

In [156]:
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
resp

<Response [200]>

json 메서드는 JSON의 내용을 파이썬 사전 형태로 변환한 객체를 반환한다.

In [157]:
data = resp.json()
data[0]['title']

'CI: Attempt to fix wheel builds'

DataFrame으로 생성하고 관심 있는 필드만 따로 추출

In [159]:
issues = pd.DataFrame(data, columns=['number','title','labels','state'])
issues

Unnamed: 0,number,title,labels,state
0,53670,CI: Attempt to fix wheel builds,"[{'id': 129350, 'node_id': 'MDU6TGFiZWwxMjkzNT...",open
1,53669,DOC: warning-text of old documentation mention...,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open
2,53668,BUG: non-nano Timestamp methods return wrong r...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
3,53667,DOC: No meaningful link to source for delegate...,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open
4,53666,BUG: Unnecessary NonExistentTimeError when res...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
...,...,...,...,...
25,53640,BUG: `pd.concat` dataframes with different dat...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
26,53639,BUG: Inconsistent returns of Series.kurt() and...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
27,53634,BUG: fix datetimeindex repr,[],open
28,53633,"BUG: api: corr & corrwith, in some case , th...","[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open


# 데이터베이스와 함께 사용하기
파이썬의 내장 sqlite3 드라이버를 사용하면 SQLite 데이터베이스를 이용할 수 있다.

In [161]:
import sqlite3

In [162]:
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
c REAL, d INTEGER
);"""

In [163]:
con = sqlite3.connect('mydata.sqlite')
con.execute(query)

<sqlite3.Cursor at 0x1fea172aab0>

In [164]:
con.commit()

In [165]:
data = [('Atlanta','Georgia', 1.25,6),
       ('Tallahassee','Florida',2.6,3),
       ('Sacramento','California', 1.7,5)]

In [166]:
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"

In [167]:
con.executemany(stmt, data)

<sqlite3.Cursor at 0x1fea1736260>

In [168]:
con.commit()

대부분의 파이썬 SQL 드라이버는 테이블에 대해 select 쿼리를 수행하면 튜플 리스트를 반환한다.

In [170]:
cursor = con.execute('select * from test')

In [171]:
rows = cursor.fetchall()
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [173]:
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [175]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


SQLAlchemy를 사용하여 SQLite 데이터베이스에 접속하고 앞서 만든 테이블에서 데이터를 읽는 방법

In [176]:
import sqlalchemy as sqla

In [178]:
db = sqla.create_engine('sqlite:///mydata.sqlite')

In [179]:
pd.read_sql('select * from test', db)

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


> 웻스 맥키니. (2019). Python for Data Analysis 파이썬 라이브러리를 활용한 데이터 분석(2판). 한빛미디어