# 데이터 입출력

In [2]:
import pandas as pd
import numpy as np

### `%%writefile` 명령 
* 샘플 데이터로 사용할 CSV 파일을 %%writefile 매직(magic) 명령으로 만들어보자. 이 명령은 셀에 서술한 내용대로 텍스트 파일을 만드는 명령이다.

In [3]:
%%writefile sample1.csv
c1, c2, c3
1, 1,11, one
2, 2.22, two
3, 3.33, three

Overwriting sample1.csv


### csv 파일 입력
* CSV 파일로부터 데이터를 읽어 데이터프레임을 만들 때는 pandas.from_csv() 명령을 사용한다.

In [4]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
1,1.0,11,one
2,2.22,two,
3,3.33,three,


** - 열 인덱스 정보가 없는 경우에는 read_csv 명령의 names 인수로 설정할 수 있다.**

In [5]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample2.csv


In [6]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


** - 만약 테이블 내의 특정한 열을 행 인덱스로 지정하고 싶으면 index_col 인수를 사용한다.**

In [14]:
pd.read_csv('sample1.csv', index_col=1)

Unnamed: 0,c1,c2,c3
1.0,1,11,one
2.22,2,two,
3.33,3,three,


** - 확장자가 CSV가 아닌 파일 즉, 데이터를 구분하는 구분자(separator)가 쉼표(comma)가 아니면 sep 인수를 써서 구분자를 사용자가 지정해준다. 만약 구분자가 길이가 정해지지 않은 공백인 경우에는 \s+라는 정규식(regular expression) 문자열을 사용한다. **

In [15]:
%%writefile sample3.txt
c1        c2        c3        c4 
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [16]:
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


** - 만약 자료 파일 중에 건너 뛰어야 할 행이 있으면 skiprows 인수를 사용한다.**

In [18]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명: 
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [19]:
pd.read_csv('sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


** - 특정한 값을 NaN으로 취급하고 싶으면 na_values 인수에 NaN 값으로 취급할 값을 넣는다.**

In [20]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2,, two
누락, 3.33, three

Writing sample5.csv


In [21]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


### CSV 파일 출력
** - 지금까지와 반대로 파이썬의 데이터프레임 값을 CSV 파일로 출력하고 싶으면 to_csv() 메서드를 사용한다. **

In [22]:
df.to_csv('sample6.csv')

** - 리눅스나 맥에서는 cat 셸 명령으로 파일의 내용을 확인할 수 있다. 윈도우에서는 type 명령을 사용한다. 느낌표(!)는 셸 명령을 사용하기 위한 IPython 매직 명령이다. **

In [23]:
!cat sample6.csv 

,c1, c2, c3
0,1.0,1.11, one
1,2.0,, two
2,,3.33, three


** - 파일을 읽을 때와 마찬가지로 출력할 때도 sep 인수로 구분자를 바꿀 수 있다.**

In [25]:
df.to_csv('sample7.txt', sep='|')

In [26]:
!cat sample7.txt

|c1| c2| c3
0|1.0|1.11| one
1|2.0|| two
2||3.33| three


** - 또 na_rep 인수로 NaN 표시값을 바꿀 수도 있다. **

In [27]:
df.to_csv('sample8.csv', na_rep='누락')

In [28]:
!cat sample8.csv

,c1, c2, c3
0,1.0,1.11, one
1,2.0,누락, two
2,누락,3.33, three


** - index, header 인수를 지정하여 인덱스 및 헤더 출력 여부를 지정하는 것도 가능하다.**

In [29]:
df.index = ["a", "b", "c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [30]:
df.to_csv('sample9.csv', index=False, header=False)

In [31]:
!cat sample9.csv

1.0,1.11, one
2.0,, two
,3.33, three


In [32]:
df.to_csv('sample10.csv', index=True, header=False)

In [33]:
!cat sample10.csv

a,1.0,1.11, one
b,2.0,, two
c,,3.33, three


### 인터넷 상의 CSV 파일 입력
** - 웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다. read_csv 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다. 다음은 저자의 github 웹사이트에 저장되어 있는 데이터 파일을 원격으로 읽는 명령이다.**

In [35]:
df = pd.read_csv('https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv')

** - 이 데이터프레임은 실제로 데이터 갯수, 즉 행(row)의 수가 890개가 넘는 대량의 데이터이다. 이렇게 데이터의 수가 많을 경우, 데이터프레임의 표현(representation)은 데이터 앞, 뒤의 일부분만 보여준다.**

In [36]:
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


** - 만약 앞이나 뒤의 특정 갯수만 보고 싶다면 head 메서드나 tail 메서드를 이용한다. 메서드 인수로 출력할 행의 수를 넣을 수도 있다.**

In [40]:
df.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


In [39]:
df.tail(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


### 인터넷 상의 데이터 베이스 자료 입력
** - pandas_datareader 패키지의 DataReader 을 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다. **

In [42]:
from pandas_datareader.data import DataReader

** - 날짜는 datetime 패키지를 사용하여 지정해도 되고 문자열을 바로 사용해도 된다. (이때는 내부적으로 dateutil 패키지를 사용한다.**

In [43]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

** - data_source 인수로 데이터를 읽어올 웹 사이트를 지정한다. 데이터의 코드는 웹 사이트에서 검색하여 알아내야 한다. 다음은 FRED 데이터베이스에서 미국 국가총생산(GDP), 모든 항목을 포함한 소비자 가격 지수(CPIAUCSL), 식료품 및 연로를 제외한 소비자 가격 지수(CPILFESL)를 가져오는 예이다. 웹사이트에서 자세한 데이터에 대한 세부적인 사항이나 값을 확인할 수 있다.**

In [44]:
gdp = DataReader("GDP", "fred", dt_start, dt_end)
gdp.tail()

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-04-01,18093.224
2015-07-01,18227.689
2015-10-01,18287.226
2016-01-01,18325.187
2016-04-01,18538.039


** - 데이터 코드에 리스트를 넣으면 여러개의 데이터를 동시에 가져온다.**

In [45]:
inflation = DataReader(["CPIAUCSL", "CPILFESL"], "fred", dt_start, dt_end)
inflation.tail()

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2016-02-01,237.532,245.689
2016-03-01,238.022,246.004
2016-04-01,238.843,246.487
2016-05-01,239.439,247.031
2016-06-01,240.074,247.436
