In [1]:
import pandas as pd
import numpy as np

### 데이터 입출력

#### %%writefile 명령

In [2]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


In [4]:
# read a data
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [5]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [6]:
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [24]:
# 데이터를 구분하는 구분자가 쉼표가 아니면 sep인수를 써서 구분자를 사용자가 지정해준다. 
# c1        c2        c3        c4
# 0.179181 -1.538472  1.347553  0.43381
# 1.024209  0.087307 -1.281997  0.49265
# 0.417899 -2.002308  0.255245 -1.10515

In [16]:
# pd.read_table('sample3.txt', sep='\s+')

In [17]:
# 자료 파일 중 건더 뛰어야 할 행이 있으면 skiprows 인수 사용
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [18]:
pd.read_csv('sample4.txt', skiprows=[0,1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [22]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, 누락, two
누락, 3.33, three

Writing sample5.csv


In [25]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,누락,two
2,,3.33,three


#### CSV 파일 출력

In [26]:
df.to_csv('sample6.csv')

In [27]:
!type sample6.csv 

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, 누락, two
2,, 3.33, three


In [28]:
df.to_csv('sample7.txt', sep='|') # 읽을 때와 마찬가지로 출력할 때도 sep 인수로 구분자를 바꿀 수 있다.

In [29]:
!type sample7.txt

|c1| c2| c3
0|1.0| 1.11| one
1|2.0| 누락| two
2|| 3.33| three


In [30]:
# na_rep  인수로 NaN 표시값을 바꿀 수도 있다.
df.to_csv('sample8.csv', na_rep='누락')

In [31]:
!type sample8.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, 누락, two
2,누락, 3.33, three


In [32]:
# index, header 인수를 지정하여 인덱스 및 헤더 출력 여부를 지정하는 것도 가능하다.
df.index = ['a', 'b', 'c']
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,누락,two
c,,3.33,three


In [33]:
df.to_csv('sample9.csv', index=False, header=False)

In [34]:
!type sample9.csv 

1.0, 1.11, one
2.0, 누락, two
, 3.33, three


#### 인터넷 상의 CSV 파일 입력

###### 웹상에는 다양한 데이터 파일이 csv 형태로 제공된다. read_csv 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어드린다.
###### 다음은 저자의 github 웹사이트에 저장되어 있는 데이터 파일을 원격으로 읽는 명령이다. 

In [35]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")

In [36]:
pd.set_option("display.max_rows", 20)  # 앞뒤로 모두 20행만 보여준다.
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [37]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [39]:
df.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


#### 인터넷 상의 데이터 베이스 자료 입력

###### pandas_datareader 패키지의 DataReader을 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다.
###### pandas_datareader 패키지는 판다스와 별도로 설치해야한다.
###### 자세한 내용은 웹사이트 참조. (https://pandas-datareader.readthedocs.io/en/latest/index.html)

In [41]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

In [44]:
import pandas_datareader as pdr

gdp = pdr.get_data_fred('GDP', dt_start, dt_end)
gdp.tail()

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-04-01,18279.784
2015-07-01,18401.626
2015-10-01,18435.137
2016-01-01,18525.933
2016-04-01,18711.702


In [46]:
inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"], dt_start, dt_end)
inflation.tail()

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2016-02-01,237.336,245.51
2016-03-01,238.08,245.913
2016-04-01,238.992,246.551
2016-05-01,239.557,247.137
2016-06-01,240.222,247.54
