In [1]:
##### 6.1 텍스트 파일에서 데이터를 읽고 쓰는법 #####

In [6]:
# 날짜나 다른 몇 가지 사용자 정희 자료형을 처리하려면 몇가지 코드가 필요하다.
# 쉼표로 구분된 작은 csv 파일을 살펴보자

import pandas as pd

In [8]:
df = pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex1.csv")

In [9]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [10]:
# read_table에 구분자를 쉼표로 지정해서 읽어올 수도 있다.

pd.read_table("C:/Users/LG/Desktop/Python for Data Analysis/data/ex1.csv", sep=",")

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
# pandas가 자동으로 컬럼 이름을 생성하도록 하거나 직접 컬럼 이름을 지정할 수 있다.

pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex2.csv", header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [12]:
pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex2.csv", 
            names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [13]:
# message 컬럼을 색인로 하는 DataFrame을 반환하려면,
# index_col 인자에 4번째 컬럼/'message' 컬럼을 지정하면 된다.

names = ['a', 'b', 'c', 'd', 'message']

In [14]:
pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex2.csv",
           names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [15]:
# 계층적 색인을 지정하고 싶다면 컬럼 번호나 이름의 리스트를 넘기면 된다.

parsed = pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/csv_mindex.csv",
                    index_col=['key1', "key2"])

In [16]:
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [17]:
# 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분하는 경우도 있다.

list(open("C:/Users/LG/Desktop/Python for Data Analysis/data/ex3.txt"))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [18]:
# 위 데이터는 필드가 여러 개의 공백 문자로 구분되어 있으므로 정규표현식 \s+를 사용해 처리할 수 있다.

result = pd.read_table("C:/Users/LG/Desktop/Python for Data Analysis/data/ex3.txt",
                      sep="\s+")

In [19]:
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [20]:
# 첫번째 로우는 다른 로우보다 컬럼이 하나 적기 때문에 read_table은 첫 번째 컬럼을 색인으로 추론했다.

In [21]:
# 파서 함수는 파일 형식에서 발생할 수 있는 예외를 처리하도록 추가 인자를 가지고 있는데,
# skiprows를 이용해 첫 번째, 세 번째, 네 번째 로우를 건너뛸 수 있다.

pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex4.csv",
           skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [22]:
# pandas는 NA나 NULL을 비어있는 값으로 사용한ㄷ.

result = pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex5.csv")

In [23]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [24]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [25]:
# na_values 옵션은 리스트나 문자열 집합을 받아 누락된 값을 처리한다.

result = pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex5.csv",
                    na_values=["NULL"])

In [26]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [27]:
# 컬럼마다 다른 NA 문자를 사전값으로 넘겨 처리할 수도 있다.

sentinels ={'message': ['foo', 'NA'], 'something': ['two']}

In [28]:
pd.read_csv('C:/Users/LG/Desktop/Python for Data Analysis/data/ex5.csv',
           na_values = sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


In [29]:
##### 6.1.1 텍스트 파일 조금씩 읽어오기 #####

In [33]:
# 큰 파일의 일부를 읽어 확인하고싶은 경우, 출력을 설정해 최대 10개의 데이터만 출력한다.

pd.options.display.max_rows = 10

In [31]:
result = pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex6.csv")

In [32]:
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [34]:
# 파일 전체를 읽는 대신 처음 몇 줄만 읽어보고 싶다면 nrows 옵션을 준다.

pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex6.csv", nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [35]:
# 파일을 여러 조각으로 나누어 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.

chunker = pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex6.csv", chunksize = 1000)

In [36]:
chunker

<pandas.io.parsers.TextFileReader at 0xfc5dd10>

In [37]:
# ex6.csv 파일을 순회하면서 'key' 로우에 있는 값을 세어보자.

chunker = pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex6.csv", chunksize=1000)

In [38]:
tot = pd.Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

In [39]:
tot = tot.sort_values(ascending=False)  # 값이 많은 순으로 정렬

In [40]:
tot[:10]

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

In [41]:
# TextParser는 임의 크기의 조각을 읽을 수 있는 get_chunk 메서드도 포함하고 있다.

In [42]:
##### 6.1.2 데이터를 텍스트 형식으로 기록하기 #####

In [43]:
# 데이터를 구분자로 구분한 형식으로 내보내는 것도 가능하다.

data = pd.read_csv('C:/Users/LG/Desktop/Python for Data Analysis/data/ex5.csv')

In [44]:
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [46]:
# DataFrame의 to_csv 메서드를 이용하면 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있다.

data.to_csv('C:/Users/LG/Desktop/Python for Data Analysis/data/out.csv')

In [47]:
# 물론 다른 구분자도 가능하다.
# 콘솔에서 확인 가능하도록 실제 파일로 기록하지않고 sys.stdout에 결과를 기록하겠다.

import sys

In [48]:
data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [49]:
# 결과에 누락된 값은 비어있는 문자열로 나타나는데, 이것도 지정가능하다.

data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [50]:
data.to_csv(sys.stdout, na_rep='NULL', sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|NULL
1|two|5|6|NULL|8|world
2|three|9|10|11.0|12|foo


In [52]:
# 다른 옵션을 명시하지 않으면 로우와 컬럼 이름이 기록된다.
# 로우와 컬럼 이름을 포함하지 않으려면 다음과 같이 한다.

data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [54]:
# 컬럼의 일부분만 기록, 순서 지정도 가능하다.

data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0


In [58]:
# Series에서도 to_csv 메서드가 존재한다.

import numpy as np

dates = pd.date_range('1/1/2000', periods=7)
ts = pd.Series(np.arange(7), index=dates)

In [59]:
ts.to_csv('C:/Users/LG/Desktop/Python for Data Analysis/data/tseries.csv')

  """Entry point for launching an IPython kernel.


In [60]:
ts

2000-01-01    0
2000-01-02    1
2000-01-03    2
2000-01-04    3
2000-01-05    4
2000-01-06    5
2000-01-07    6
Freq: D, dtype: int32

In [61]:
##### 6.1.3 구분자 형식 다루기 #####

In [62]:
# pandas_read_table 함수로 디스크에 표 형태로 저장된 대부분의 파일 형식을 불러올 수 있다.
# 하지만 read_table로 불러오기에 잘못된 라인이 포함되어 수동으로 불러오는 경우도 있다.

In [77]:
# 구분자가 한 글자인 파일은 파이썬 내장 csv 모듈을 이용해 처리할 수 있는데, 열러진 객체를 csv.reader 함수에 넘기기만 하면된다.

import csv
f = open('C:/Users/LG/Desktop/Python for Data Analysis/data/ex7.csv')

In [78]:
reader = csv.reader(f)

In [79]:
# 파일을 읽듯이 reader을 순회하면 큰따옴표가 제거된 튜플을 얻을 수 있다.

for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [81]:
# 파일을 읽어 줄 단위 리스트로 저장한다.

with open('C:/Users/LG/Desktop/Python for Data Analysis/data/ex7.csv') as f:
    lines = list(csv.reader(f))

In [82]:
# 헤더와 데이터를 구분한다.

header, values = lines[0], lines[1:]

In [83]:
# 사전 표기법과 로우를 컬럼으로 전치해주는 zip(*values)를 이용해서 데이터 컬럼 사전을 만들어보자.

data_dict = {h: v for h, v in zip(header, zip(*values))}

In [84]:
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [85]:
# csv의 다양한 구분자, 문자열을 둘러싸는 방법, 개행 문자 같은 것은 csv.Dialect를 상속받아 새로운 클래스를 정의해 해결할 수 있다.

class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

In [86]:
reader = csv.reader(f, dialect=my_dialect)

TypeError: argument 1 must be an iterator

In [87]:
reader = csv.reader(f, delimiter='|')

TypeError: argument 1 must be an iterator

In [88]:
# csv퍼럼 구분자로 구분된 파일을 기록하려면 csv.write를 이용하면 된다.
# csv.write는 이미 열린, 쓰기가 가능한 파일 객체를 받아 csv.reader와 동일한 옵션으로 파일을 기록한다.

with open('mydata.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))