CSV(Comman Separated Value)파일 포맷 : 데이터 값이 쉼표(comma)로 구분되는 텍스트 파일

## %%writefile 
샘플 데이터로 사용할 CSV 파일을 `%%writefile`매직(magic) 명령으로 만들 수 있다.<br>
`%%writefile` : 텍스트 파일을 만드는 명령어

In [1]:
%%writefile sample1.csv
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three

Writing sample1.csv


## CSV 파일 입력
csv 파일로부터 데이터를 읽어 데이터프레임을 만들 때는 `pandas.read_csv()`함수를 사용<br>
함수의 입력값으로 파일 이름을 넣는다.

In [3]:
import pandas as pd

In [4]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


위에서 읽은 데이터에는 열 인덱스는 있지만 행 인덱스 정보가 없으므로 0부터 시작하는 정수 인덱스가 자동으로 추가된다.<br>
만약 데이터 파일에 열 인덱스 정보가 없는 경우에는 `read_csv`명령의 `names`인수로 설정할 수 있다.

In [5]:
%%writefile sample2.csv
1,1.11,one
2,2.22,two
3,3.33,three

Writing sample2.csv


In [6]:
pd.read_csv('sample2.csv',names = ['c1','c2','c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


만약 테이블 내의 특정한 열을 행 인덱스로 지정하고 싶으면 `index_col`인수를 사용

In [7]:
pd.read_csv('sample1.csv',index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


확장자가 csv가 아닌 파일, 데이터를 구분하는 구분자(separator)가 쉼표(comma)가 아니면 `sep`인수를 써서 구분자를 사용자가 지정해준다.<br>
만약 길이가 정해지지 않은 공백이 구분자인 경우 `\s+`정규식 문자열을 사용

In [8]:
%%writefile sample3.txt
c1 c2 c3 c4
0.179181 -1.538472 1.347553 0.43381
1.024209 0.08737 -1.281997 0.49265
0.417899 -2.002308 0.255245 -1.10515

Writing sample3.txt


In [9]:
pd.read_table('sample3.txt',sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.08737,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


만약 자료 파일 중에 건너 뛰어야 할 행이 있으면 skiprows 인수를 사용한다.

In [10]:
%%writefile sample4.txt
파일 제목 : sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [11]:
pd.read_csv('sample4.txt',skiprows=[0,1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


특정한 값을 NaN으로 취급하고 싶으면 `na_values` 인수에 NaN 값으로 취급할 값을 넣는다.

In [12]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [14]:
df = pd.read_csv('sample5.csv',na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## csv 파일 출력
`to_csv` 메서드 사용

In [15]:
df.to_csv('sample6.csv')

리눅스나 맥에서는 `cat`셀 명령으로 파일의 내용을 확인할 수 있다. <br>
윈도우에서는 `type`함수를 사용한다. <br>
느낌표(!)는 셀 함수를 사용하기 위한 아이파이썬(IPython)매직 명령이다.

In [16]:
!cat sample6.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


파일을 읽을 때와 마찬가지로 출력할 때도 `sep`인수로 구분자를 바꿀 수 있다. 

In [18]:
df.to_csv('sample7.txt',sep='|')

In [19]:
!cat sample7.txt

|c1| c2| c3
0|1.0| 1.11| one
1|2.0| | two
2|| 3.33| three


또 `na_rep` 인수로 NaN 표시값을 바꿀 수도 있다. 

In [20]:
df.to_csv('sample8.csv',na_rep='누락')

In [21]:
!cat sample8.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,누락, 3.33, three


`index`,`header`인수를 지정하여 인덱스 및 헤더 출력 여부를 지정하는 것도 가능

In [22]:
df.index = ['a','b','c']
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [23]:
df.to_csv('sample9.csv', index=False, header=False)

In [24]:
!cat sample9.csv 

1.0, 1.11, one
2.0, , two
, 3.33, three
