In [5]:
!type examples/ex1.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [6]:
# 이 파일은 쉼표로 구분되어 있기 때문에 read_csv를 사용해서 DataFrame으로 읽어올 수 있다.

In [7]:
import pandas as pd

In [8]:
from pandas import Series, DataFrame

In [9]:
df = pd.read_csv("examples/ex1.csv")

In [10]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
# read_table에 구분자를 쉼표로 지정해서 읽어올 수도 있다.

In [12]:
pd.read_table("examples/ex1.csv", sep=",")

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [13]:
# 모든 파일에 컬럼 이름이 있는 건 아니다. 다음 파일을 보자.

In [14]:
!type examples/ex2.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [15]:
# 이 파일을 읽어오는 몇 가지 옵션이 있는데, pandas가 자동으로 컬럼 이름을 생성하도록 하거나 우리가 직접 컬럼 이름을 지정한다.

In [16]:
pd.read_csv("examples/ex2.csv", header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [17]:
pd.read_csv("examples/ex2.csv", names=["a", "b", "c", "d", "message"])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [18]:
# message 컬럼을 색인으로 하는 DataFrame을 반환하려면 index_col 인자에 4번째 컬럼 또는 "message" 이름을 가진 컬럼을 지정해서 색인으로 만들 수 있다.

In [19]:
names = ["a", "b", "c", "d", "message"]

In [20]:
pd.read_csv("examples/ex2.csv", names=names, index_col="message")

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [21]:
# 계층적 색인을 지정하고 싶다면 컬럼 번호나 이름의 리스트를 넘기면 된다.

In [22]:
!type examples/csv_mindex.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [23]:
parsed = pd.read_csv("examples/csv_mindex.csv",
                     index_col=["key1", "key2"])

In [24]:
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [25]:
# 가끔은 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해놓은 경우가 있다. 다음과 같은 파일이 있다고 하자.

In [26]:
list(open("examples/ex3.txt"))

['           A          B        C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601 \n',
 'ddd -0.871858 -0.348382  1.100491']

In [27]:
# 직접 파일을 고쳐도 되지만, 이 파일은 필드가 여러 개의 공백 문자로 구분되어 있으므로 이를 표현할 수 있는 정규 표현식 \s+를 사용해서 처리할 수도 있다.

In [28]:
result = pd.read_table("examples/ex3.txt", sep="\s+")

In [29]:
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [30]:
# 이 경우 첫 번째 로우는 다른 로우보다 컬럼이 하나 적기 때문에 read_table은 첫 번째 컬럼이 DataFrame의 색인이 되어야 한다고 추론한다.

In [31]:
# 파서 함수는 파일 형식에서 발생할 수 있는 매우 다양한 예외(표 6-2)를 잘 처리할 수 있도록 많은 추가 인자를 가지고 있는데, 
# 예를 들면 skiprows를 이용해서 첫 번째, 세 번째, 네 번째 로우를 건너뛸 수 있다.

In [32]:
!type examples/ex4.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [33]:
pd.read_csv("examples/ex4.csv", skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [34]:
# 누락된 값을 잘 처리하는 것은 파일을 읽는 과정에서 자주 발생하는 일이고 중요한 문제다.

In [35]:
# 보통 텍스트 파일에서 누락된 값은 표기되지 않거나(비어 있는 문자열) 구분하기 쉬운 특수한 문자로 표기된다.

In [36]:
# 기본적으로 pandas는 NA나 NULL처럼 흔히 통용되는 문자를 비어 있는 값으로 사용한다.

In [37]:
!type examples/ex5.csv

���� ������ �ùٸ��� �ʽ��ϴ�.


In [38]:
result = pd.read_csv("examples/ex5.csv")

In [39]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [40]:
# na_values 옵션은 리스트나 문자열 집합을 받아서 누락된 값을 처리한다.

In [41]:
result = pd.read_csv("examples/ex5.csv", na_values=["NULL"])

In [42]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [43]:
# 컬럼마다 다른 NA 문자를 사전값으로 넘겨서 처리할 수도 있다.

In [44]:
sentinels = {"message": ["foo", "NA"], "something": ["two"]}

In [45]:
pd.read_csv("examples/ex5.csv", na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


In [46]:
# [표 6-2]에 pandas_read_csv와 pandas_read_table에서 자주 사용하는 인자들을 모아두었다.

In [47]:
# 6.1.1 텍스트 파일 조금씩 읽어오기

In [48]:
# 매우 큰 파일을 처리할 때 인자를 제대로 주었는지 알아보기 위해 파일의 일부분만 읽어보거나 여러 파일 중에서 몇 개의 파일만 읽어서 확인해보고 싶을 것이다.

In [49]:
# 큰 파일을 다루기 전에 pandas의 출력 설정을 조금 손보자.

In [50]:
pd.options.display.max_rows = 10

In [51]:
# 이제 최대 10개의 데이터만 출력한다. 

In [52]:
result = pd.read_csv("examples/ex6.csv")

In [53]:
result

Unnamed: 0,one two three
0,0 -0.264438 -1.026059 -0.619500
1,1 0.927272 0.302904 -0.032399
2,2 -0.264273 -0.386314 -0.217601
3,3 -0.871858 -0.348382 1.100491
4,4 -0.264438 -1.026059 -0.619500
...,...
100,4 -0.264438 -1.026059 -0.619500
101,4 -0.264438 -1.026059 -0.619500
102,4 -0.264438 -1.026059 -0.619500
103,4 -0.264438 -1.026059 -0.619500


In [54]:
# 파일 전체를 읽는 대신 처음 몇 줄만 읽고 싶다면 nrows 옵션을 주면 된다.

In [55]:
pd.read_csv("examples/ex6.csv", nrows=5)

Unnamed: 0,one two three
0,0 -0.264438 -1.026059 -0.619500
1,1 0.927272 0.302904 -0.032399
2,2 -0.264273 -0.386314 -0.217601
3,3 -0.871858 -0.348382 1.100491
4,4 -0.264438 -1.026059 -0.619500


In [56]:
# 파일을 여러 조각으로 나누어서 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.

In [57]:
chunker = pd.read_csv("examples/ex6.csv", chunksize=1000)

In [58]:
chunker

<pandas.io.parsers.readers.TextFileReader at 0x23e2337faf0>

In [59]:
# read_csv에서 반환된 TextParser 객체를 이용해서 chunksize에 따라 분리된 파일들을 순회할 수 있다.

In [64]:
# 예를 들어 ex6.csv 파일을 순회하면서 "key" 로우에 있는 값을 세어보려면 다음처럼 하면 된다.

In [69]:
chunker = pd.read_csv("examples/ex6.csv", chunksize=1000)

In [70]:
tot = pd.Series([])

  tot = pd.Series([])


In [73]:
for piece in chunker:
    tot = tot.add(piece["key"].value_counts(), fill_value=0)

In [74]:
tot = tot.sort_values(ascending=False)

In [75]:
# 그러면 다음과 같은 결과를 얻을 수 있다.

In [76]:
tot[:10]

  tot[:10]


Series([], dtype: float64)

In [77]:
# TextParser는 임의 크기의 조각을 읽을 수 있는 get_chunk 메서드도 포함하고 있다.