In [19]:
"""
pandas 데이터 입출력

pandas는 CSV(Comman Separated Value)를 포함한
다양한 포맷의 데이터 파일을 읽어 직접 데이터프레임을 만들 수 있다.
pandas 입출력 가능한 포맷의 종류는 다음과 같다.

CSV
Clipboard
Excel
JSON
HTML
Python Pickling
Feather
Msgpack
HDF5
SAS
STATA
SQL
Google BigQuery
여기에서는 가장 단순하지만 널리 사용되는 CSV 포맷 입출력에 대해 살펴본다.
CSV 파일 포맷은 값들이 comma로 구분되는 텍스트 파일이다.
"""

In [None]:
# %%writefile : magic command
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample1.csv


In [3]:
import pandas as pd
# pandas.from_csv(), pandas.read_csv() : csv파일 불러오기
pd.read_csv("data/sample1.csv")

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [1]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample2.csv


In [9]:
# csv에 컬럼명이 없이 데이터 만들기
pd.read_csv("data/sample2.csv")

Unnamed: 0,1,1.11,one
0,2,2.22,two
1,3,3.33,three


In [10]:
# csv에 컬럼 label이 없는 경우 name을 이용하여 설정 가능
pd.read_csv("data/sample2.csv", names=["c1", "c2", "c3"])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [16]:
# 만약 특정한 컬럼을 index로 지정하고 싶으면 index_col 인수 사용
pd.read_csv("data/sample1.csv", index_col="c1")

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [None]:
"""
확장자가 CSV가 아닌 파일 즉, 구분자가 comma가 아닌 경우에도
sep 인수를 써서 구분자를 지정하면 읽을 수 있다.
만약 구분자가 길이가 정해지지 않은 공백인 경우에는 \s+라는
정규식(regular expression) 문자열을 사용한다.
"""

In [17]:
%%writefile data/sample3.txt
c1        c2        c3        c4 
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing data/sample3.txt


In [18]:
# 확장자가 txt일 경우에는 read_table()
# sep="\s+"
pd.read_table("data/sample3.txt", sep="\s+")

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [19]:
%%writefile data/sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명: 
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample4.txt


In [20]:
pd.read_table("data/sample4.txt", sep="\s+")

Unnamed: 0,파일,제목:,sample4.txt
0,데이터,포맷의,설명:
1,"c1,","c2,",c3
2,1,"1.11,",one
3,2,"2.22,",two
4,3,"3.33,",three


In [22]:
# 만약 자료 파일 중에 건너 뛰어야 할 행이 있으면 skiprows 인수를 사용
pd.read_table("data/sample4.txt", skiprows=[0, 1], sep="\s+")

Unnamed: 0,"c1,","c2,",c3
0,1,"1.11,",one
1,2,"2.22,",two
2,3,"3.33,",three


In [23]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, one
2,, two
누락, 3.33, three

Writing data/sample5.csv


In [24]:
pd.read_csv("data/sample5.csv")

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [36]:
# 특정한 값을 NaN으로 취급하고 싶으면 na_values 인수에
# NaN 값으로 취급할 값을 넣는다.
df = pd.read_csv("data/sample5.csv", na_values=["누락"])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [None]:
"""
csv file 출력
반대로 DataFrame 값을 csv file로 출력하고 싶다면 
to_csv() 이용
"""

In [47]:
df.to_csv("data/sample6.csv")
# !cat data/sample6.csv
# ,c1, c2, c3
# 0,1.0,1.11, one
# 1,2.0,, two
# 2,,3.33, three

In [65]:
# 읽을 때와 마찬가지로 sep 인수로 구분자를 변경할 수도 있다.
df.to_csv("data/sample7.csv", sep="|")
# !cat ~/data/sample7.txt
# |c1| c2| c3
# 0|1.0|1.11| one
# 1|2.0|| two
# 2||3.33| three

In [74]:
# na_rep 인수로 NA 표시값을 바꿀 수도 있다.
df.to_csv('data/sample8.csv', na_rep='누락')
# !cat ~/data/sample8.csv
# ,c1, c2, c3
# 0,1.0,1.11, one
# 1,2.0,누락, two
# 2,누락,3.33, three

In [80]:
# 마지막으로 index, header 인수를 지정하여 
# 인덱스 및 헤더 출력 여부를 지정한다.
df.index = ["a", "b", "c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [81]:
df.to_csv("data/sample9.csv", index=False, header=False)
# !cat ~/data/sample9.csv
# 1.0,1.11, one
# 2.0,, two
# ,3.33, three

In [None]:
"""
 인터넷 상의 CSV 파일 입력
 
 웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다.
 read_csv 명령 사용시 파일 패스 대신 URL을 지정하면
 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다. 
 다음은 구글 파이낸스에서 제공하는 애플의 주가 데이터를
 담은 csv 파일을 읽는 법이다.
"""

In [82]:
df = pd.read_csv("http://www.google.com/finance/historical?q=NASDAQ%3AAAPL&ei=a095WYHnMYSO0QTTz47YDA&output=csv")

In [83]:
df

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,26-Jul-17,153.35,153.93,153.06,153.46,15780951
1,25-Jul-17,151.80,153.84,151.80,152.74,18853932
2,24-Jul-17,150.58,152.44,149.90,152.09,21493160
3,21-Jul-17,149.99,150.44,148.88,150.27,26252630
4,20-Jul-17,151.50,151.74,150.19,150.34,17243748
5,19-Jul-17,150.48,151.42,149.95,151.02,20922969
6,18-Jul-17,149.20,150.13,148.67,150.08,17868792
7,17-Jul-17,148.82,150.90,148.57,149.56,23793456
8,14-Jul-17,147.97,149.33,147.33,149.04,20132061
9,13-Jul-17,145.50,148.49,145.44,147.77,25199373


In [90]:
df.to_csv("data/apple.csv")
# 만약 앞이나 뒤의 특정 갯수만 보고 싶다면
#  head 메서드나 tail 메서드를 이용한다.
df.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,26-Jul-17,153.35,153.93,153.06,153.46,15780951
1,25-Jul-17,151.8,153.84,151.8,152.74,18853932
2,24-Jul-17,150.58,152.44,149.9,152.09,21493160
3,21-Jul-17,149.99,150.44,148.88,150.27,26252630
4,20-Jul-17,151.5,151.74,150.19,150.34,17243748
5,19-Jul-17,150.48,151.42,149.95,151.02,20922969
6,18-Jul-17,149.2,150.13,148.67,150.08,17868792
7,17-Jul-17,148.82,150.9,148.57,149.56,23793456
8,14-Jul-17,147.97,149.33,147.33,149.04,20132061
9,13-Jul-17,145.5,148.49,145.44,147.77,25199373


In [91]:
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Volume
246,3-Aug-16,104.81,105.84,104.77,105.79,30202641
247,2-Aug-16,106.05,106.07,104.0,104.48,33816556
248,1-Aug-16,104.41,106.15,104.41,106.05,38167871
249,29-Jul-16,104.19,104.55,103.68,104.21,27733688
250,28-Jul-16,102.83,104.45,102.82,104.34,39869839


In [None]:
"""
인터넷 상의 데이터 베이스 자료 입력

다음과 같은 인터넷 상의 자료는 pandas_datareader 패키지의
DataReader 을 써서 바로 pandas로 입력할 수도 있다.

Yahoo! Finance
Google Finance
Enigma
FRED
Fama/French
World Bank
OECD
Eurostat
EDGAR Index
TSP Fund Data
Oanda currency historical rate
Nasdaq Trader Symbol Definitions

자세한 내용은 다음 웹사이트를 참조한다.
https://pandas-datareader.readthedocs.io/en/latest/index.html
"""

In [93]:
from pandas_datareader.data import DataReader as pdr
# 날짜는 datetime 패키지를 사용하여 지정해도 되고
# 문자열을 바로 사용해도 된다.
# (이때는 내부적으로 dateutil 패키지를 사용한다.)
import datetime

In [95]:
start = datetime.datetime(2015, 1, 1)
end = "2016, 6, 30"

In [None]:
"""
data_source 인수로 데이터를 읽어올 웹사이트를 지정할 수 있다.
이 때 데이터의 이름을 지정하는 코드는 웹사이트마다 다르므로 주의한다.
예를 들어 삼성전자 주가는 yahoo에서는 005930.KS로 지정하지만
google에서는 KRX:005930이다.
"""

In [99]:
df = pdr("KRX:005930", "google", start, end)
df.to_csv("data/samsung.csv")
df.tail()

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-06-24,1445000.0,1445000.0,1360000.0,1400000.0,408920
2016-06-27,1400000.0,1405000.0,1385000.0,1398000.0,236573
2016-06-28,1390000.0,1404000.0,1379000.0,1399000.0,213829
2016-06-29,1408000.0,1412000.0,1391000.0,1396000.0,208090
2016-06-30,1408000.0,1445000.0,1397000.0,1425000.0,272883


In [100]:
"""
다음은 FRED 데이터베이스에서 
미국 국가총생산(GDP),
모든 항목을 포함한 소비자 가격 지수(CPIAUCSL), 
식료품 및 연로를 제외한 소비자 가격 지수(CPILFESL)를 가져오는 예이다.

https://fred.stlouisfed.org/series/GDP
https://fred.stlouisfed.org/series/CPIAUCSL
https://fred.stlouisfed.org/series/CPILFESL
"""

In [105]:
gdp = pdr("GDP", "fred")
gdp.to_csv("data/gdp.csv")
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2010-01-01,14681.1
2010-04-01,14888.6
2010-07-01,15057.7
2010-10-01,15230.2
2011-01-01,15238.4
2011-04-01,15460.9
2011-07-01,15587.1
2011-10-01,15785.3
2012-01-01,15973.9
2012-04-01,16121.9


In [114]:
# 종목 코드에 list를 넣으면 복수 종목에 대한 데이터를 가져온다.
inflation = pdr(["CPIAUCSL", "CPILFESL"], "fred", start, end)
inflation.to_csv("data/inflation.csv")
inflation

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-01,234.913,239.91
2015-02-01,235.489,240.236
2015-03-01,235.989,240.783
2015-04-01,236.201,241.366
2015-05-01,236.891,241.662
2015-06-01,237.419,242.021
2015-07-01,237.876,242.48
2015-08-01,237.811,242.754
2015-09-01,237.467,243.249
2015-10-01,237.792,243.719
