In [27]:
!type examples/ex1.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [28]:
# 이 파일은 쉼표로 구분되어 있기 때문에 read_csv를 사용해서 DataFrame으로 읽어올 수 있다.

In [29]:
import pandas as pd
import numpy as np

In [30]:
from pandas import Series, DataFrame

In [31]:
df = pd.read_csv("examples/ex1.csv")

In [32]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [33]:
# read_table에 구분자를 쉼표로 지정해서 읽어올 수도 있다.

In [34]:
pd.read_table("examples/ex1.csv", sep=",")

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [35]:
# 모든 파일에 컬럼 이름이 있는 건 아니다. 다음 파일을 보자.

In [36]:
!type examples/ex2.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [37]:
# 이 파일을 읽어오는 몇 가지 옵션이 있는데, pandas가 자동으로 컬럼 이름을 생성하도록 하거나 우리가 직접 컬럼 이름을 지정한다.

In [38]:
pd.read_csv("examples/ex2.csv", header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [39]:
pd.read_csv("examples/ex2.csv", names=["a", "b", "c", "d", "message"])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [40]:
# message 컬럼을 색인으로 하는 DataFrame을 반환하려면 index_col 인자에 4번째 컬럼 또는 "message" 이름을 가진 컬럼을 지정해서 색인으로 만들 수 있다.

In [41]:
names = ["a", "b", "c", "d", "message"]

In [42]:
pd.read_csv("examples/ex2.csv", names=names, index_col="message")

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [43]:
# 계층적 색인을 지정하고 싶다면 컬럼 번호나 이름의 리스트를 넘기면 된다.

In [44]:
!type examples/csv_mindex.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [45]:
parsed = pd.read_csv("examples/csv_mindex.csv",
                     index_col=["key1", "key2"])

In [46]:
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [47]:
# 가끔은 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해놓은 경우가 있다. 다음과 같은 파일이 있다고 하자.

In [48]:
list(open("examples/ex3.txt"))

['           A          B        C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601 \n',
 'ddd -0.871858 -0.348382  1.100491']

In [49]:
# 직접 파일을 고쳐도 되지만, 이 파일은 필드가 여러 개의 공백 문자로 구분되어 있으므로 이를 표현할 수 있는 정규 표현식 \s+를 사용해서 처리할 수도 있다.

In [50]:
result = pd.read_table("examples/ex3.txt", sep="\s+")

In [51]:
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [52]:
# 이 경우 첫 번째 로우는 다른 로우보다 컬럼이 하나 적기 때문에 read_table은 첫 번째 컬럼이 DataFrame의 색인이 되어야 한다고 추론한다.

In [53]:
# 파서 함수는 파일 형식에서 발생할 수 있는 매우 다양한 예외(표 6-2)를 잘 처리할 수 있도록 많은 추가 인자를 가지고 있는데, 
# 예를 들면 skiprows를 이용해서 첫 번째, 세 번째, 네 번째 로우를 건너뛸 수 있다.

In [54]:
!type examples/ex4.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [55]:
pd.read_csv("examples/ex4.csv", skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [56]:
# 누락된 값을 잘 처리하는 것은 파일을 읽는 과정에서 자주 발생하는 일이고 중요한 문제다.

In [57]:
# 보통 텍스트 파일에서 누락된 값은 표기되지 않거나(비어 있는 문자열) 구분하기 쉬운 특수한 문자로 표기된다.

In [58]:
# 기본적으로 pandas는 NA나 NULL처럼 흔히 통용되는 문자를 비어 있는 값으로 사용한다.

In [59]:
!type examples/ex5.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [60]:
result = pd.read_csv("examples/ex5.csv")

In [61]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [62]:
# na_values 옵션은 리스트나 문자열 집합을 받아서 누락된 값을 처리한다.

In [63]:
result = pd.read_csv("examples/ex5.csv", na_values=["NULL"])

In [64]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [65]:
# 컬럼마다 다른 NA 문자를 사전값으로 넘겨서 처리할 수도 있다.

In [66]:
sentinels = {"message": ["foo", "NA"], "something": ["two"]}

In [67]:
pd.read_csv("examples/ex5.csv", na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


In [68]:
# [표 6-2]에 pandas_read_csv와 pandas_read_table에서 자주 사용하는 인자들을 모아두었다.

In [69]:
# 6.1.1 텍스트 파일 조금씩 읽어오기

In [70]:
# 매우 큰 파일을 처리할 때 인자를 제대로 주었는지 알아보기 위해 파일의 일부분만 읽어보거나 여러 파일 중에서 몇 개의 파일만 읽어서 확인해보고 싶을 것이다.

In [71]:
# 큰 파일을 다루기 전에 pandas의 출력 설정을 조금 손보자.

In [72]:
pd.options.display.max_rows = 10

In [73]:
# 이제 최대 10개의 데이터만 출력한다. 

In [74]:
result = pd.read_csv("examples/ex6.csv")

In [75]:
result

Unnamed: 0,one two three key
0,0 -0.264438 -1.026059 -0.619500 A
1,1 0.927272 0.302904 -0.032399 B
2,2 -0.264273 -0.386314 -0.217601 C
3,3 -0.871858 -0.348382 1.100491 D
4,4 -0.264438 -1.026059 -0.619500 E
...,...
1067,4 -0.264438 -1.026059 -0.619500 L
1068,4 -0.264438 -1.026059 -0.619500 M
1069,4 -0.264438 -1.026059 -0.619500 N
1070,4 -0.264438 -1.026059 -0.619500 O


In [76]:
# 파일 전체를 읽는 대신 처음 몇 줄만 읽고 싶다면 nrows 옵션을 주면 된다.

In [77]:
pd.read_csv("examples/ex6.csv", nrows=5)

Unnamed: 0,one two three key
0,0 -0.264438 -1.026059 -0.619500 A
1,1 0.927272 0.302904 -0.032399 B
2,2 -0.264273 -0.386314 -0.217601 C
3,3 -0.871858 -0.348382 1.100491 D
4,4 -0.264438 -1.026059 -0.619500 E


In [78]:
# 파일을 여러 조각으로 나누어서 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.

In [79]:
chunker = pd.read_csv("examples/ex6.csv", chunksize=1000)

In [80]:
chunker

<pandas.io.parsers.readers.TextFileReader at 0x192578ea6e0>

In [81]:
# read_csv에서 반환된 TextParser 객체를 이용해서 chunksize에 따라 분리된 파일들을 순회할 수 있다.

In [82]:
# 예를 들어 ex6.csv 파일을 순회하면서 "key" 로우에 있는 값을 세어보려면 다음처럼 하면 된다.

In [83]:
# chunker = pd.read_csv("examples/ex6.csv", chunksize=1000)

In [84]:
# tot = pd.Series([])

In [85]:
# for piece in chunker:
#    tot = tot.add(piece["key"].value_counts(), fill_value=0)

In [86]:
# tot = tot.sort_values(ascending=False)

In [87]:
# 그러면 다음과 같은 결과를 얻을 수 있다.

In [88]:
# tot[:10]

In [89]:
# TextParser는 임의 크기의 조각을 읽을 수 있는 get_chunk 메서드도 포함하고 있다.

In [90]:
# 6.1.2 데이터를 텍스트 형식으로 기록하기

In [91]:
# 읽어오기와 마찬가지로 데이터를 구분자로 구분한 형식으로 내보내는 것도 가능하다.

In [92]:
# 위에서 읽었던 CSV 파일 중 하나를 다시 보자.

In [93]:
data = pd.read_csv("examples/ex5.csv")

In [94]:
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [95]:
# DataFrame의 to_csv 메서드를 이용하면 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있다.

In [96]:
data.to_csv("examples/out.csv")

In [97]:
!type examples/out.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [98]:
# 물론 다른 구분자도 사용 가능하다(콘솔에서 확인할 수 있도록 실제 파일로 기록하지 않고 sys stdout에 결과를 기록하도록 했다).

In [99]:
import sys

In [100]:
data.to_csv(sys.stdout, sep="|")

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [101]:
# 결과에서 누락된 값은 비어 있는 문자열로 나타내는데, 이것 역시 원하는 값으로 지정 가능하다.

In [102]:
data.to_csv(sys.stdout, na_rep="NULL")

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [103]:
# 다른 옵션을 명시하지 않으면 로우와 컬럼 이름이 기록된다. 로우와 컬럼 이름을 포함하지 않으려면 다음과 같이 한다.

In [104]:
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [105]:
# 컬럼의 일부분만 기록할 수도 있으며, 순서를 직접 지정할 수도 있다.

In [106]:
data.to_csv(sys.stdout, index=False, columns=["a", "b", "c"])

a,b,c
1,2,3.0
5,6,
9,10,11.0


In [107]:
# Series에도 to_csv 메서드가 존재한다.

In [108]:
dates = pd.date_range("1/1/2000", periods=7)

In [109]:
ts = pd.Series(np.arange(7), index=dates)

In [110]:
ts.to_csv("examples/tseries.csv")

In [111]:
!type examples/tseries.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [112]:
# 6.1.3 구분자 형식 다루기

In [113]:
# pandas_read_table 함수를 이용해서 디스크에 표 형태로 저장된 대부분의 파일 형식을 불러올 수 있다.

In [114]:
# 하지만 수동으로 처리해야 하는 경우도 있다.

In [115]:
# read_table 함수가 데이터를 불러오는데 실패하게끔 만드는 잘못된 라인이 포함되어 있는 데이터를 전달받는 경우도 종종 있다.

In [116]:
# 우선은 작은 CSV 파일을 불러오는 과정으로 기본적인 도구 사용법을 익혀보자.

In [117]:
!type examples/ex7.csv
"a","b","c"
"1","2","3"
"1","2","3"

���� ������ �ùٸ��� �ʽ��ϴ�.


('1', '2', '3')

In [118]:
# 구분자가 한 글자인 파일은 파이썬 내장 csv 모듈을 이용해서 처리할 수 있는데, 열려진 파일 객체를 csv.reader 함수에 넘기기만 하면 된다.

In [119]:
import csv
f = open("examples/ex7.csv")

reader = csv.reader(f)

In [120]:
# 파일을 읽듯이 reader를 순회하면 둘러싸고 있던 큰따옴표가 제거된 튜플을 얻을 수 있다.

In [121]:
for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [122]:
# 이제 원하는 형태로 데이터를 넣을 수 있게 차근차근 해볼까 한다. 

In [123]:
# 먼저 파일을 읽어 줄 단위 리스트로 저장한다.

In [124]:
with open("examples/ex7.csv") as f:
    lines = list(csv.reader(f))

In [125]:
# 그리고 헤더와 데이터를 구분한다.

In [126]:
header, values = lines[0], lines[1:]

In [127]:
# 사전 표기법과 로우를 컬럼으로 전치해주는 zip(*values)를 이용해서 데이터 컬럼 사전을 만들어보자.

In [128]:
data_dict = {h: v for h, v in zip(header, zip(*values))}

In [129]:
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [130]:
# CSV 파일은 다양한 형태로 존재할 수 있다. 

In [131]:
# 다양한 구분자, 문자열을 둘러싸는 방법, 개행 문자 같은 것들은 csv.Dialect를 상속받아 새로운 클래스를 정의해서 해결할 수 있다.

In [132]:
# class my_dialect(csv.Dialect):
#    lineterminator = "\n"
#    delimiter = ";"
#    quotechar = '"'
#    quoting = csv.QUOTE_MINIMAL

# reader = csv.reader(f, dialect=my_dialect)

In [133]:
# 서브클래스를 정의하지 않고 csv.reader에 키워드 인자로 각각의 CSV 파일의 특징을 지정해서 전달해도 된다.

In [134]:
# reader = csv.reader(f, delimiter="|")

In [136]:
# 사용 가능한 옵션(csv.Diaalect의 속성)과 어떤 역할을 하는지에 대해서는 [표6-3]을 살펴보자. 페이지 250-251

In [137]:
# CSV처럼 구분자로 구분된 파일을 기록하려면 csv.writer를 이용하면 된다.

In [138]:
# csv.writer는 이미 열린, 쓰기가 가능한 파일 객체를 받아서 csv.reader와 동일한 옵션으로 파일을 기록한다.

In [139]:
# with open("mydata.csv", "w") as f:
#   writer = csv.writer(f, dialect=my_dialect)
#   writer.writerow(("one", "two", "three"))
#   writer.writerow(("1", "2", "3"))
#   writer.writerow(("4", "5", "6")) 
#   writer.writerow(("7", "8", "9")) 