#Chapter06. 데이터 로딩, 저장, 파일 형식

##6.1 텍스트 파일 이용하는 방법

- read_csv : 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉼표(,)를 기본으로 한다.(주로 csv)
- read_table : 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 탭('\t')을 기본으로 한다.(주로 txt)
- read_fwf : 고정폭 칼럼 형식에서 데이터를 읽어온다(구분자가 없는 데이터)
- read_clipboard : 클립보드에 있는 데이터를 읽어오는 read_table 함수. 웹페이지에서 표를 긁어올때 유용하다.

In [136]:
import pandas as pd




In [137]:
!type "ex1.csv"
#파일이 ,(쉼표)로 구분되어 있음

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [138]:
df = pd.read_csv('ex1.csv')
#read_csv는 쉼표로 구분하여 DataFrame으로 읽어올 수 있다.

In [139]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [140]:
pd.read_table('ex1.csv',sep=',')
#sep옵션을 통해 구분자를 지정해줄 수 있다.

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [141]:
!type ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [142]:
pd.read_csv('ex2.csv',header=None)
#header를 None으로 설정하면 column의 이름을 0,1,2...의 수들로 생성한다.

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [143]:
pd.read_csv('ex2.csv',names=['a','b','c','d','message'])
#names옵션을 통해 column의 이름들을 설정해줄 수 있다.

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [144]:
names = ['a','b','c','d','message']

In [145]:
pd.read_csv('ex2.csv',names=names,index_col='message')
#특정 column을 색인으로 하는 DataFrame을 반환하려면 index_col인자에 해당 column의 이름을 넘겨주면 된다.

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [146]:
!type csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [147]:
#계층적 색인을 지정하고 싶다면 index_col에 column의 번호나 이름의 리스트를 넘기면 된다.
parsed = pd.read_csv('csv_mindex.csv',index_col=['key1','key2'])

In [148]:
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [149]:
list(open('ex3.txt'))

['A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 '\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 '\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 '\n',
 'ddd -0.871858 -0.348382  1.100491\n',
 '\n']

In [150]:
!type ex3.txt

A         B         C
aaa -0.264438 -1.026059 -0.619500

bbb  0.927272  0.302904 -0.032399

ccc -0.264273 -0.386314 -0.217601

ddd -0.871858 -0.348382  1.100491



In [151]:
err_result = pd.read_table('ex3.txt')
#아무 옵션없이 read_table할 경우

In [152]:
err_result

Unnamed: 0,A B C
0,aaa -0.264438 -1.026059 -0.619500
1,bbb 0.927272 0.302904 -0.032399
2,ccc -0.264273 -0.386314 -0.217601
3,ddd -0.871858 -0.348382 1.100491


In [153]:
result = pd.read_table('ex3.txt',sep='\s+')
#여러개의 공백문자로 필드가 구분되어 있을경우, 정규표현식 '\s+'을 사용하여 처리

In [154]:
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [155]:
!type ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [156]:
pd.read_csv('ex4.csv',skiprows=[0,2,3])
#skiprows 옵션을 통해 자신이 원하는 row를 생략할 수 있다.

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [157]:
!type ex5.csv
#누란된 값('NA')이 있는 데이터(실제 txt에서는 ,,이렇게 기록되어있음)

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo


In [158]:
result = pd.read_csv('ex5.csv')

In [159]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [160]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [161]:
result = pd.read_csv('ex5.csv',na_values=['NULL'])
#na_values에 NA 값으로 처리할 값들을 List형태로 입력해주면 해당 값은 NaN이 된다.

In [162]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [163]:
sentinels = {'message' : ['foo','NA'],'something' : ['two']}

In [164]:
pd.read_csv('ex5.csv',na_values=sentinels)
#na_values에 dict를 넘겨주면 해당 (key : value) 는 (column : row) 형태로 해당 column(key)의 row(value)가 NaN가 된다.

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


###6.1.1 텍스트 파일 조금씩 읽어오기

In [165]:
!type ex6.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [166]:
result = pd.read_csv('ex6.csv')

In [167]:
result

Unnamed: 0.1,Unnamed: 0,something,a,b,c,d,message
0,0,one,1,2,3.0,4,
1,1,two,5,6,,8,world
2,2,three,9,10,11.0,12,foo


In [168]:
#파일 전체가 아닌 처음 몇줄만 읽어보고 싶다면 nrows 옵션
pd.read_csv('ex6.csv',nrows=5)

Unnamed: 0.1,Unnamed: 0,something,a,b,c,d,message
0,0,one,1,2,3.0,4,
1,1,two,5,6,,8,world
2,2,three,9,10,11.0,12,foo



------------------------------------------------------------------------------------------
노이해


In [169]:
#파일을 여러조각으로 나누어서 읽고 싶다면 chunksize 옵션으로 row의 개수를 입력
chunker = pd.read_csv('ex6.csv',chunksize=1000)

In [170]:
chunker

<pandas.io.parsers.TextFileReader at 0x81d4c18>

In [171]:
from pandas import Series

In [172]:
tot = Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(),fill_value=0)
    
tot = tot.order(ascending = False)

KeyError: 'key'

In [173]:
type(chunker)

pandas.io.parsers.TextFileReader

In [174]:
tot[:4]

Series([], dtype: float64)

------------------------------------------------------------------------------------------


###6.1.2 데이터를 텍스트 형식으로 기록하기

- 읽어오기와 마찬가지로 데이터를 구분자로 구분된 형식으로 내보내는 것도 가능하다.

In [175]:
data = pd.read_csv('ex5.csv')

In [176]:
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [177]:
data.to_csv('ex06_out.csv')
#to_csv 메서드를 이용하면 쉼표로 구분된 형식으로 데이터를 파일로 쓸 수 있음

In [178]:
!type ex06_out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [179]:
import sys

In [180]:
#다른 구분자를 사용할수도 있음
data.to_csv(sys.stdout,sep='|')
#sys.stdout은 콘솔에서 확인할 수 있도록 실제 파일로
#기록하지 않고 sys.stdout에 결과를 기록

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [181]:
#결과에서 누락된 값은 비어있는 문자열로 나타남
#na_rep 옵션으로 비어있는 문자열을 원하는 값으로 지정가능
data.to_csv(sys.stdout,na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [182]:
#다른 옵션이 명시되지 않으면 row와 column의 이름도 함께 기록됨
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [183]:
#row와 column의 이름을 포함하지 않으려면 index=,header=를 명시
data.to_csv(sys.stdout,index=False,header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [184]:
#column의 일부만 기록할 수도 있고, 순서를 직접 지정할 수도 있음
data.to_csv(sys.stdout,index=False,columns=['a','b','c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0


In [185]:
dates = pd.date_range('2015-01-01',periods=7)

In [186]:
import numpy as np

In [187]:
ts = Series(np.arange(7),index=dates)

In [208]:
ts.to_csv('tseries.csv')

In [209]:
ts

2015-01-01    0
2015-01-02    1
2015-01-03    2
2015-01-04    3
2015-01-05    4
2015-01-06    5
2015-01-07    6
Freq: D, dtype: int32

In [210]:
!type tseries.csv

2015-01-01,0
2015-01-02,1
2015-01-03,2
2015-01-04,3
2015-01-05,4
2015-01-06,5
2015-01-07,6


In [211]:
Series.from_csv('tseries.csv',parse_dates=True)

2015-01-01    0
2015-01-02    1
2015-01-03    2
2015-01-04    3
2015-01-05    4
2015-01-06    5
2015-01-07    6
dtype: int64

###6.1.3 수동으로 구분 형식 처리하기

In [233]:
!type  ex7.csv

"a","b","c"
"1","2","3"
"1","2","3","4"


In [250]:
pd.read_table('ex7.csv')
#read_table로는 읽을 수 없는 잘못된 형식의 데이터

Unnamed: 0,"a,""b"",""c"""
0,"1,""2"",""3"""
1,"1,""2"",""3"",""4"""


In [251]:
#구분자가 한글자인 파일은 파이썬 내장 csv 모듈을 이용해 처리가능
import csv
f = open('ex7.csv')

reader = csv.reader(f)

In [268]:
#reader를 순회하면 둘러싸고 있던 큰 따옴표(")가 제거된 튜플을 얻을수 있음
for line in reader:
    print line

In [271]:
#데이터를 넣을 수 있도록 하자
lines = list(csv.reader(open('ex7.csv')))

In [273]:
header,values = lines[0], lines[1:]

In [274]:
print :header

['a', 'b', 'c']