# 6.파일 읽고 쓰기 

In [2]:
import pandas as pd 
import numpy as np

### 1. pandas read_csv()
read_csv와 read_table은 모두 csv를 읽는 함수다.   

read_csv의 기본 구분자는 쉼표(,)이고 read_table의 기본 구분자는 탭(\t)이다.  

두 함수 모두 sep option을 통해 구분자를 변경할 수 있다.   

ex) sep = '\s+'이면 띄어쓰기를 기준으로(여러개의 경우 여러개로) 구분한다.  

In [3]:
pd.read_csv('examples/ex1.csv')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### 1.1 csv 파일 읽기 옵션

In [4]:
# header : 열 이름으로 사용할 행을 지정하는 옵션, 숫자를 지정하면 그 행이 header가 된다. 
# 지정하지 않으면 첫번째 행이 header가 된다 
print(pd.read_csv('examples/ex2.csv'))
print('______________________________')
# None으로 지정하면 열 이름이 자동 생성되고 첫번째 행부터 data로 된다. 
print(pd.read_csv('examples/ex2.csv', header= None))


   1   2   3   4  hello
0  5   6   7   8  world
1  9  10  11  12    foo
______________________________
   0   1   2   3      4
0  1   2   3   4  hello
1  5   6   7   8  world
2  9  10  11  12    foo


In [5]:
# names : header 이름 직접 지정
pd.read_csv('examples/ex2.csv',names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [9]:
# index_col : 행의 이름으로 사용할 행을 지정함
pd.read_csv('examples/ex2.csv',names=['a','b','c','d','message'],index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [32]:
# index_col을 여러개 설정하여 index를 계층적으로 만들 수 있다. 
print(pd.read_csv('examples/csv_mindex.csv'))
print('______________________________')
print(pd.read_csv('examples/csv_mindex.csv',index_col=['key1','key2']))

  key1 key2  value1  value2
0  one    a       1       2
1  one    b       3       4
2  one    c       5       6
3  one    d       7       8
4  two    a       9      10
5  two    b      11      12
6  two    c      13      14
7  two    d      15      16
______________________________
           value1  value2
key1 key2                
one  a          1       2
     b          3       4
     c          5       6
     d          7       8
two  a          9      10
     b         11      12
     c         13      14
     d         15      16


In [36]:
# skiprow : 원하는 열을 뺄 수 있음 
print(pd.read_csv('examples/ex4.csv'))
print('___________________________')
print(pd.read_csv('examples/ex4.csv',skiprows=[0,2,3]))

                                                                      # hey!
a                                                  b        c   d    message
# just wanted to make things more difficult for... NaN      NaN NaN      NaN
# who reads CSV files with computers                anyway? NaN NaN      NaN
1                                                  2        3   4      hello
5                                                  6        7   8      world
9                                                  10       11  12       foo
___________________________
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


#### 1.2 누락된 값 처리하기 

In [39]:
result = pd.read_csv('examples/ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [40]:
# isnull() : 해당 값이 null인지 확인하는 함수 
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [42]:
# na_values : null값으로 인식되는 값을 추가할 수 있음
result = pd.read_csv('examples/ex5.csv',na_values=['NULL'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [43]:
#dict를 na_value에 넣으면 key값에 해당하는 열에서 해당 value값을 null값 처리함
sentinels = {'message' : ['foo','NA'],'something' : ['two']}
pd.read_csv('examples/ex5.csv',na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


#### 1.3 텍스트 파일 조금씩 읽기 

In [46]:
# 읽은 파일을 표시할 때 조금만 표현할 수 있음 
pd.options.display.max_rows = 10
result = pd.read_csv('examples/ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [56]:
# nrow 옵션을 통해 파일의 일부만 읽어올 수 있음
pd.read_csv('examples/ex6.csv',nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [3]:
# 파일을 여러 조각으로 나누어 읽을 수 있음 
# chunksize : 읽어올 최대 행의 숫자를 정함
chunker = pd.read_csv('examples/ex6.csv',chunksize=1000)

In [4]:
tot = pd.Series([])
for piece in chunker: 
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

tot = tot.sort_values(ascending=False)
tot[:10]

  tot = pd.Series([])


E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

#### 1.4 데이터 쓰기

In [6]:
data = pd.read_csv('examples/ex5.csv')

In [7]:
data.to_csv('examples/out.csv')

In [8]:
import sys

In [None]:
data.to_csv(sys.stdout, na_rep='NULL')

### 2.이진 데이터 형식

pandas는 HDF5, Message_pck 두가지 이진 데이터 형식을 지원한다.   
pickle 형태는 버전이 바뀐 경우 지원이 안 될 수 있기 때문에 불안정하나 hdf5는 안정적인 편이다. 

#### 2.1 pickle

In [60]:
# pickle serilization : 데이터를 이진 형식으로 저장하는 방법
frame = pd.read_csv('examples/ex1.csv')

# to_pickle()함수를 통해 데이터를 pickle로 저장함
frame.to_pickle('examples/frame_pickle')

# read_pickle()함수를 통해 다시 데이터를 불러올 수 있음 
pd.read_pickle('examples/frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### 2.2 hdf5

In [65]:
# HDF5 형식 사용하기 
frame = pd.DataFrame({'a' : np.random.randn(100)})
store = pd.HDFStore('./examples/mydata.h5')

In [66]:
store['obj1'] = frame

In [67]:
store['obj1_col'] = frame['a']

In [71]:
print(store.info())

<class 'pandas.io.pytables.HDFStore'>
File path: ./examples/mydata.h5
/obj1                frame        (shape->[100,1])
/obj1_col            series       (shape->[100])  


In [72]:
store['obj1']

Unnamed: 0,a
0,1.027814
1,1.894072
2,-1.283109
3,-0.931794
4,-1.336343
...,...
95,-0.255503
96,-0.962299
97,1.864575
98,-0.729164


In [73]:
store.put('obj2',frame,format = 'table')

In [76]:
store['obj2']

Unnamed: 0,a
0,1.027814
1,1.894072
2,-1.283109
3,-0.931794
4,-1.336343
...,...
95,-0.255503
96,-0.962299
97,1.864575
98,-0.729164


In [77]:
# hdf5 파일을 사용한 이후 close()로 닫는다. 
store.close()

#### 2.3 엑셀 파일 읽기, 저장하기 

In [78]:
# xlsx 읽어오기 
xlsx = pd.ExcelFile('examples/ex1.xlsx')

In [79]:
pd.read_excel(xlsx,'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [80]:
# xlsx 저장하기 
writer = pd.ExcelWriter('examples/ex2.xlsx')

In [81]:
frame.to_excel(writer,'Sheet1')
writer.save()

In [None]:
frame.to_excel('examples/ex2.xlsx')

### 3.웹 api 사용하기 

데이터 피드를 제공하는 public api 사용하기 

In [82]:
# request moduel : http를 호출하는 module
import requests

In [None]:
url = 'http://api.github.com/repos/pandas-dev/pandas/issues'
# get 함수로 요청한 결과 값을 변수 resp에 저장
resp = requests.get(url)

In [83]:
resp

<Response [200]>

In [84]:
data = resp.json()

In [85]:
data[0]['title']

'DOC: Improve groupby().ngroup() explanation for missing groups'

In [89]:
# github에서 데이터 가져오기 
issues = pd.DataFrame(data, columns=['number', 'title','labels','state'])

In [90]:
issues

Unnamed: 0,number,title,labels,state
0,50049,DOC: Improve groupby().ngroup() explanation fo...,[],open
1,50048,ENH: Add nullable keyword to read_sql/ DRAFT,[],open
2,50047,ENH: maybe_convert_objects add boolean support...,"[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open
3,50046,Docker Hub Sample images,[],open
4,50045,QST: Pandas .agg vs .agregate behavior,"[{'id': 34444536, 'node_id': 'MDU6TGFiZWwzNDQ0...",open
...,...,...,...,...
25,50009,TST: automatically skip SQL tests if no databa...,"[{'id': 127685, 'node_id': 'MDU6TGFiZWwxMjc2OD...",open
26,50005,TYP #37715: Fix mypy errors in accessor.py,[],open
27,50000,QST: Prerequisites to understand pandas-dev/pa...,"[{'id': 129350, 'node_id': 'MDU6TGFiZWwxMjkzNT...",open
28,49999,API: dont do inference on object-dtype arithme...,"[{'id': 31404521, 'node_id': 'MDU6TGFiZWwzMTQw...",open


### 4. database와 함께 사용하기 

In [88]:
# sql : 관계형 데이터베이스 관리 시스템의 데이터 관리를 위해 설계된 특수한 프로그래밍 언어.  
import sqlite3

In [91]:
query = """
.....:CREATE TABLE test
.....:(a VARCHAR(20), b VARCHAR(20),
.....: c REAL,        d INTEGER
.....: );"""

In [93]:
con = sqlite3.connect('examples/mydata.sqlite')

In [94]:
con.execute(query)

<sqlite3.Cursor at 0x7fc071511340>

In [95]:
con.commit()

In [96]:
data = [('Atlanta','Georgia',1.25, 6),
        ('Tallahassee','Florida',2.6,3),
        ('Sacramento','California',1.7,5)]

In [97]:
stmt = "INSERT INTO test VALUES(?,?,?,?)"

In [99]:
con.executemany(stmt,data)

<sqlite3.Cursor at 0x7fc0714e2f80>

In [100]:
con.commit()

In [102]:
cursor = con.execute('select * from test')

In [103]:
rows = cursor.fetchall()

In [104]:
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [105]:
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [106]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


In [107]:
import sqlalchemy as sqla

In [113]:
db = sqla.create_engine('sqlite:///examples/mydata.sqlite')

In [114]:
pd.read_sql('select * from test',db)

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5
