# 6.1 텍스트 파일에서 데이터를 읽고 쓰는 법

In [1]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv("examples/ex1.csv")
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
# Header columns을 없애는 경우
pd.read_csv("examples/ex2.csv", header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
# Header columns 지정
pd.read_csv("examples/ex2.csv",names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [10]:
# index가 될 열을 지정하는 법

names = ['a','b','c','d','message']
pd.read_csv("examples/ex2.csv",names = names, index_col="message") 
# 즉, names에 지정된 list의 원소 중 하나를 index 열로 지정할 수 있다

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [14]:
pd.read_csv("examples/ex2.csv",names = names, index_col="a")

Unnamed: 0_level_0,b,c,d,message
a,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [16]:
# 구분자 없이 공백이나 다른 패턴으로 필드를 구분해놓은 경우(examples/ex3.txt 파일)
# 정규 표현식 \s+ 사용하여 처리 
result = pd.read_csv("examples/ex3.txt", sep = "\s+")
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [17]:
# parsing 함수 : 파일 형식에서 발생할 수 있는 다양한 예외를 처리할 수 있도록 많은 추가 인수를 가진다
# ex) skiprows
# 1,3,4번째 행을 건너뛰려는 경우
pd.read_csv("examples/ex4.csv", skiprows= [0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [23]:
# 누락된 값 처리(NA,NULL)
# Pandas는 누락된 값을 NaN으로 출력
naresult = pd.read_csv("examples/ex5.csv")
naresult

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [24]:
pd.isna(naresult)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [29]:
# na_values : 지정한 값들을 NaN으로 출력
pd.read_csv("examples/ex5.csv",na_values=[1,5,9])
# 원래 공백인 값들은 NaN으로 출력되고 na_values로 지정한 1,5,9값이 NaN으로 출력됨

Unnamed: 0,something,a,b,c,d,message
0,one,,2,3.0,4,
1,two,,6,,8,world
2,three,,10,11.0,12,foo


In [27]:
# keep_default_na 옵션을 이용하여 NA 값 표현 비활성화
result2 = pd.read_csv("examples/ex5.csv",keep_default_na=False)
result2

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [28]:
pd.isna(result2)
# 비어있는 값에 대한 NAN출력이 비활성화되어 전부 False로 표시됨

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False


In [34]:
# 열마다 다른 NA문자를 dictionary 값으로 넘겨서 처리 가능
nadict = {"something":["one","two"],"message":["NA","foo"]}
pd.read_csv("examples/ex5.csv",na_values= nadict, keep_default_na= False)
# keep_default_na를 비활성화 시켜 지정한 NaN출력 값 외 공백 값은 NaN을 출력하지 않음

Unnamed: 0,something,a,b,c,d,message
0,,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,
