In [59]:
import pandas as pd
import numpy as np
from pandas import DataFrame, Series

# Reading and Writing Data in Text Format

In [6]:
df=pd.read_csv('examples/ex1.csv')# read_csv: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어옴
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
pd.read_table('examples/ex1.csv',sep=',') # read_table에 구분자를 쉼표로 지정해서 읽어옴

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [9]:
# column이 없는 파일인 경우
pd.read_csv('examples/ex2.csv', header=None)# pandas가 자동으로 컬럼이름을 생성하도록 하거나

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [10]:
pd.read_csv('examples/ex2.csv',names=['a','b','c','d','message']) # names 인자에 컬럼 이름을 지정함

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
# message컬럼을 색인으로 하는 DataFrame을 반환할 경우
names=['a','b','c','d','message']
pd.read_csv('examples/ex2.csv',names=names, index_col='message') # index_col인자에 message이름을 가진 컬럼을 지정하여 색인으로 만듦

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [15]:
# 계층적 색인을 지정할 경우
parsed=pd.read_csv('examples/csv_mindex.csv',index_col=['key1','key2']) #컬럼 번호나 이름의 리스트를 넘기면 됨
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [17]:
# 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해놓은 경우
list(open('examples/ex3.txt')) 

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [18]:
result=pd.read_table('examples/ex3.txt',sep='\s+') # 정규표현식 \s+ 사용하여 처리
result #첫번째 로우는 다른 로우보다 컬럼이 하나 적기 때문에 read_table은 첫번째 컬럼이 색인이 되어야한다고 추론

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [23]:
#파서 함수는 파일 형식에서 발생하는 다양한 예외를 처리하도록 많은 추가 인자를 갖고 있음

In [22]:
pd.read_csv('examples/ex4.csv')

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# just wanted to make things more difficult for you,,,,
# who reads CSV files with computers,anyway?,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [24]:
pd.read_csv('examples/ex4.csv', skiprows=[0,2,3]) #skiprows를 이용해 첫번째, 세번째, 네번째 로우를 건너뛸 수 있음.

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [25]:
# pandas는 NA나 NULL처럼 통용되는 문자를 비어있는 값으로 사용
result=pd.read_csv('examples/ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [26]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [34]:
result=pd.read_csv('examples/ex5.csv', na_values=['NULL'])# na_values옵션은 리스트나 문자열 집합을 받아 누락된 값을 처리
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [32]:
sentinels={'message':['foo','NA'],'something':['two']}
pd.read_csv('examples/ex5.csv',na_values=sentinels) # 컬럼마다 다른 NA문자를 사전값으로 넘겨 처리

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


- 텍스트 파일 조금씩 읽어오기

In [35]:
pd.options.display.max_rows=10 # 최대 10개의 데이터만 출력되게 설정

In [36]:
result=pd.read_csv('examples/ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [37]:
pd.read_csv('examples/ex6.csv',nrows=5) # nrows옵션으로 처음 5줄만 읽어오기

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [39]:
chunker=pd.read_csv('examples/ex6.csv',chunksize=1000) # chunksize옵션으로 로우의 개수를 주어 파일을 여러조각으로 나누기
chunker

<pandas.io.parsers.TextFileReader at 0x2151439eee0>

* 데이터를 텍스트 형식으로 기록

In [44]:
data=pd.read_csv('examples/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [45]:
# DataFrame의 to_csv메서드를 이용하면 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있음
data.to_csv('examples/out.csv') 

In [48]:
import sys

In [49]:
data.to_csv(sys.stdout,sep='|') # 다른 구분자도 사용 가능

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [53]:
data.to_csv(sys.stdout,na_rep='NULL') # na_rep 옵션으로 누락된 값을 원하는 값으로 지정 가능

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [56]:
data.to_csv(sys.stdout, index=False, header=False) # 로우와 컬럼 이름을 포함하지 않으려면

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [57]:
data.to_csv(sys.stdout, index=False,columns=['a','b','c']) # 컬럼의 일부분만 기록 가능, 순서를 직접 지정 가능

a,b,c
1,2,3.0
5,6,
9,10,11.0


In [64]:
#Series의 to_csv
dates=pd.date_range('1/1/2000',periods=7)
ts=pd.Series(np.arange(7), index=dates)
ts.to_csv(sys.stdout)

,0
2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


* 구분자 형식 다루기: read_table함수가 데이터를 불러오는데 실패할 경우

In [65]:
import csv
f=open('examples/ex7.csv') # 구분자가 한 글자인 파일은 파이썬 내장 csv모듈을 이용하여 처리
reader=csv.reader(f) # 열려진 파일 객체를 csv.reader함수에 넘기면 된다.

In [66]:
for line in reader: # 파일을 읽듯이 reader을 순회하면 둘러싸고있는 큰따옴표가 제거된 튜플을 얻을 수 있다.
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [67]:
with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f)) # 파일을 읽어 줄 단위 리스트로 저장

In [68]:
header, values = lines[0], lines[1:] # 헤더와 데이터 구분

In [69]:
data_dict={h: v for h, v in zip(header, zip(*values))} # 사전 표기법과 로우를 컬럼으로 전치해주는 zip(*values)를 이용하여
data_dict #데이터 컬럼 사전을 만듦

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

* JSON 데이터: 웹브라우저와 다른 애플리케이션이 HTTP요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 형식

In [72]:
import json #기본 자료형은 객체(사전 *키 값은 반득시 문자열* ), 배열(리스트), 문자열, 숫자, 불리언 그리고 널

In [76]:
obj= """{"name":"Wes",
"places_lived":["United States","Spain","Germany"],
"pet":null,
"siblings":[{"name":"Scott","age":30,"pets":["Zeus","Zuko"]},
{"name":"Katie","age":38,"pets":["Sixes","Stache","Cisco"]}]
}"""

In [77]:
result= json.loads(obj)
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [79]:
asjson=json.dumps(result) # json.dumps는 파이썬 객체를 JSON형태로 변환
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

In [80]:
siblings=pd.DataFrame(result['siblings'],columns=['name','age']) 
# JSON객체의 리스트 -> 사전을 담고있는 리스트로 변환 -> DataFrame생성자로 넘김 -> 데이터 필드 선택 가능
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


In [82]:
data=pd.read_json('examples/example.json') # pandas.read_json은 자동으로 JSON 데이터셋을 Series나 DataFrame으로 변환 가능
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [83]:
print(data.to_json()) # pandas의 데이터를 JSON으로 저장하려면 Series나 DataFrame의 to_json함수 이용

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}


* XML과 HTML: 웹 스크래핑

In [85]:
tables=pd.read_html('examples/fdic_failed_bank_list.html') 
# pd.read_html은 기본적으로 <table> 태그 안에 있는 표 형식의 데이터 파싱 시도, 그 결과 DataFrame 객체의 리스트에 저장

In [86]:
len(tables)

1

In [88]:
failures=tables[0]
failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [89]:
close_timestamps=pd.to_datetime(failures['Closing Date'])
close_timestamps.dt.year.value_counts()

2010    157
2009    140
2011     92
2012     51
2008     25
       ... 
2004      4
2001      4
2007      3
2003      3
2000      2
Name: Closing Date, Length: 15, dtype: int64

In [90]:
# lxml.objectify를 통해 XML파싱하기, XML은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원

from lxml import objectify
path='datasets/mta_perf/Performance_MNR.xml'
parsed=objectify.parse(open(path)) # lxml.objectify를 이용하여 파일을 파싱한 후
root=parsed.getroot() # getroot함수를 이용하여 XML파일의 루트 노드에 대한 참조 얻기

In [94]:
data=[]
skip_fields=['PARENT_SEQ','INDICATOR_SEQ','DESIRED_CHANGE','DEMICAL_PLACES']

#root.INDICATOR을 이용해 모든 <INDICATOR> XML엘리먼트 끄집어내기
for elt in root.INDICATOR: 
    el_data={}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data) 

In [95]:
#이 사전 리스트를 DataFrame으로 변환하기
perf=pd.DataFrame(data)
perf.head()

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,DECIMAL_PLACES,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,1,95,96.9,95,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,1,95,96.0,95,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,1,95,96.3,95,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,1,95,96.8,95,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,1,95,96.6,95,95.8


# Binary Data Format

 pickle은 오래 보관할 필요가 없는 데이터일 경우에만 추천

In [96]:
frame = pd.read_csv('examples/ex1.csv')
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [97]:
frame.to_pickle('examples/frame_pickle') # to_pickle메서드로 pickle직렬화를 사용하여 데이터를 이진 형식으로 저장

In [98]:
pd.read_pickle('examples/frame_pickle') 

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


* HDF5형식 사용: 대량의 과학 계산용 배열 데이터를 저장하기 위해 고안된 훌륭항 파일 포맷

In [101]:
frame=pd.DataFrame({'a':np.random.randn(100)})

In [102]:
store=pd.HDFStore('mydata.h5')

In [103]:
store['obj1']=frame

In [105]:
store['obj1_col']=frame['a']

In [106]:
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [107]:
store['obj1'] # HDF5파일에 포함된 객체는 파이썬 사전과 유사한 형식으로 사용 가능

Unnamed: 0,a
0,0.006968
1,-0.975980
2,0.108147
3,0.166356
4,-1.367372
...,...
95,0.237257
96,0.225873
97,0.521790
98,0.943234


In [117]:
#HDFStore는 'fixed'와 'table' 두 가지 저장 스키마 지원
store.put('obj2',frame,format='table') # put은 명시적으로 store['obj2']=frame메서드
store.select('obj2',where=['index >= 10 and index <=15']) #'table'스키마가 더 느리지만 특변한 문법을 이용해 연산을 지원
store.close()

In [118]:
frame.to_hdf('mydata.h5','obj3',format='table')
pd.read_hdf('mydata.h5','obj3',where=['index<5'])

Unnamed: 0,a
0,0.006968
1,-0.97598
2,0.108147
3,0.166356
4,-1.367372


* 마이크로소프트 엑셀 파일에서 읽어오기

In [120]:
xlsx=pd.ExcelFile('examples/ex1.xlsx')

In [121]:
pd.read_excel(xlsx, 'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [122]:
frame =pd.read_excel('examples/ex1.xlsx','Sheet1')
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [123]:
# pandas데이터를 엑셀 파일로 저장하고 싶다면
writer =pd.ExcelWriter('examples/ex2.xlsx') # ExcelWrite를 생성해서 데이터를 기록하고
frame.to_excel(writer, 'Sheet1') # pandas 객체의 to_excel 메서드로 넘기면 됨
writer.save()

# Interacting with Web APIs

In [124]:
# 파이썬으로 API를 사용하는 가장 손쉬운 방법은 requests패키지를 이용하는 것

import requests

In [125]:
url='https://api.github.com/repos/pandas-dev/pandas/issues'

In [126]:
resp=requests.get(url) # requests라이브러리를 이용하여 GET HTTP 요청을 생성
resp

<Response [200]>

In [127]:
data=resp.json() # 응답 객체의 json메서드는 JSON의 내용을 파이썬 사전 형태로 변환한 객체 반환
data[0]['title']

'Fixed comment for pandas.unique'

In [128]:
issues=pd.DataFrame(data, columns=['number','title','labels','state'])
issues

Unnamed: 0,number,title,labels,state
0,39653,Fixed comment for pandas.unique,[],open
1,39652,Backport PR #39586: REG: read_excel with engin...,"[{'id': 49254273, 'node_id': 'MDU6TGFiZWw0OTI1...",open
2,39651,"REF: implement Index._view, Index._rename",[],open
3,39650,BUG: equals/assert_numpy_array_equals with non...,[],open
4,39649,BUG: Categorical.from_codes casts nullable int...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
...,...,...,...,...
25,39611,"BUG:weeks = df.groupby(['CUSTOMER_ID', 'SALES_...","[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
26,39610,BUG: Grouping by frequency doesn't preserve or...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
27,39609,QST: Is it intended that empty dictionary aggr...,"[{'id': 1954720290, 'node_id': 'MDU6TGFiZWwxOT...",open
28,39607,BUG: `max` and `min` returns incorrect result,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open


# Interacting with Databases

In [129]:
# 파이썬의 내장 sqlite3 드라이버를 사용하여 SQLite 데이터베이스 이용
# -> SQL에서 데이터를 읽어와 DataFrame에 저장하는 과정을 간결하게 해주는 함수 중 하나

import sqlite3

In [130]:
query="""CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20), c REAL, d INTEGER);"""

In [131]:
con=sqlite3.connect('mydata.sqlite')

In [132]:
con.execute(query)

<sqlite3.Cursor at 0x215154cd2d0>

In [133]:
con.commit

<function Connection.commit>

In [134]:
data=[('Atlanta', 'Georgia',1.25,6),
     ('Tallahassee','Florida',2.6,3),
     ('Sacramento','California',1.7,5)]

In [135]:
stmt="INSERT INTO test VALUES(?,?,?,?)"

In [136]:
con.executemany(stmt,data)

<sqlite3.Cursor at 0x215154947a0>

In [137]:
con.commit

<function Connection.commit>

In [138]:
cursor=con.execute('select * from test')

In [139]:
rows=cursor.fetchall()
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [140]:
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [155]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


In [156]:
# 매번 번거롭게 데이터베이스에 쿼리를 보내지 않고 SQLAlchemy프로젝트 사용
# -> SQL 데이터베이스 간의 일반적인 차이점을 추상화하여 제공

import sqlalchemy as sqla

In [163]:
db=sqla.create_engine('sqlite:///mydata.sqlite')

In [164]:
pd.read_sql('select * from test', db) #이거......왜 안돼..........

Unnamed: 0,a,b,c,d
