# 판다스 데이터 입출력

In [1]:
import pandas as pd

## CSV 파일 입력

In [2]:
# Magic 명령어 
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


In [3]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [4]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [5]:
pd.read_csv('sample2.csv')  # 첫 번째 행이 열 인덱스가 됨

Unnamed: 0,1,1.11,one
0,2,2.22,two
1,3,3.33,three


In [6]:
pd.read_csv('sample2.csv', header=None) # 열 인덱스가 없는 경우 header=None

Unnamed: 0,0,1,2
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [7]:
pd.read_csv('sample2.csv', names=['c1','c2','c3'])  # 열 인덱스를 직접 설정

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [8]:
pd.read_csv('sample1.csv',index_col='c1') # 테이블 내의 특정한 열을 행 인덱스로 지정

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [9]:
%%writefile sample3.txt   
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [14]:
# 확장자가 csv가 아닌 파일인 경우
pd.read_csv('sample3.txt', sep='\s+')
# 길이가 정해지지 않은 공백이 구분자인 경우에는 \s+ 정규식(regular expression) 문자열을 사용
# sep와 delimiter 동일

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [2]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [15]:
# 자료 파일 중에 건너 뛰어야 할 행이 있으면 skiprows 인수를 사용
pd.read_csv('sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [None]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [None]:
# 특정한 값을 NaN으로 취급하고 싶으면 na_values 인수에 NaN 값으로 취급할 값을 넣는다.
pd.read_csv('sample5.csv', na_values=['누락'])  # NaN은 실수형, 따라서 첫 번째 열이 실수형으로 바뀜

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [None]:
df = pd.read_csv('sample5.csv', na_values=['누락',' '])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [None]:
# 파일을 읽어올 때 encoding 주의
pd.read_csv('sample5.csv', na_values=['누락',' '], encoding='utf-8')

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## CSV 파일 출력

In [None]:
df.to_csv('sample6.csv')

In [None]:
!cat sample6.csv

,c1, c2, c3
0,1.0,1.11, one
1,2.0,, two
2,,3.33, three


In [None]:
pd.read_csv('sample6.csv')

Unnamed: 0.1,Unnamed: 0,c1,c2,c3
0,0,1.0,1.11,one
1,1,2.0,,two
2,2,,3.33,three


In [None]:
df.to_csv('sample7.csv', sep='|', index=False)

In [None]:
!cat sample7.csv

c1| c2| c3
1.0|1.11| one
2.0|| two
|3.33| three


In [None]:
pd.read_csv('sample7.csv', sep='|')

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [None]:
# 그외 df.to_csv('.csv', na_rep, index, header)

## 인터넷 상의 CSV 파일 읽기

In [None]:
# https://github.com/datascienceschool/docker_rpython/tree/master/data
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")

In [None]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
