# 데이터 입출력

In [3]:
import numpy as np
import pandas as pd

In [2]:
%%writefile samples/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing samples/sample1.csv


### csv 파일 입력

In [5]:
# 데이터 프레임으로 만들어줌
# 별다른 얘기가 없으면 제일 첫줄을 header로 만든다. (열 인덱스)
pd.read_csv('samples/sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [7]:
# header가 없는 파일 생성
%%writefile samples/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing samples/sample2.csv


In [8]:
# 그냥 읽으면 제일 첫번째 데이터가 컬럼이 되어버린다.
pd.read_csv('samples/sample2.csv')

Unnamed: 0,1,1.11,one
0,2,2.22,two
1,3,3.33,three


In [9]:
#  header을 none로 주면 인덱스를 0,1,2로 붙여준다.
pd.read_csv('samples/sample2.csv', header=None)

Unnamed: 0,0,1,2
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [10]:
# name을 주면 header가 name으로 지정된다.
pd.read_csv('samples/sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [12]:
# 특정 컬럼을 index로 주고싶은경우에
pd.read_csv('samples/sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [14]:
## txt파일 만들기
%%writefile samples/sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing samples/sample3.txt


In [15]:
# 정규표현식에서 \s = 스페이스(\s+는 스페이스가 하나이상)
# pd로 읽으면 모두 데이터프레임형식이 된다.
pd.read_table('samples/sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [16]:
%%writefile samples/sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing samples/sample4.txt


In [19]:
# 원하지 않는 행 건너뛰기
# 내용에 , 로 구분되어있어, read_csv로도 읽을 수 있다.
pd.read_csv('samples/sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [20]:
%%writefile samples/sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing samples/sample5.csv


In [22]:
# 누락이라고 적힌 글자와 공백을 NaN로 바꾸기
# NaN은 실수형으로, NaN으로 바뀌어 다른 정수들도 실수로 변환된다.
df = pd.read_csv('samples/sample5.csv', na_values=['누락', ' '])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


### CSV 파일출력

In [23]:
df.to_csv('samples/sample6.csv')

In [24]:
# , 대신에 |로 구분자를 준다.
df.to_csv('samples/sample7.txt', sep='|')

In [25]:
# na_rep : NaN표시값을 바꿔준다.
df.to_csv('samples/sample8.csv', na_rep='누락')

In [26]:
df.index = ["a", "b", "c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [27]:
# index와 header가 없는 csv파일 생성
df.to_csv('samples/sample9.csv', index=False, header=False)

### 인터넷상의 csv파일 읽기

In [28]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")

In [29]:
# 읽어 온 파일 중 5줄을 보여준다.
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [30]:
# 뒤에서 5줄을 보여준다
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q
