## Pandas 데이터 입출력
Pandas 는 CSV(comman separated values)를 포함한 다양한 포맷의 데이터 파일을 읽어 직접 데이터프레임을 만들 수 있다. pandas 입출력이 가능한 데이터 포맷 종류는 다음과 같다.
<br/>
- CSV
- Clipboard
- Excel
- JSON
- HTML
- Python Pickling
- Feather
- Msgpack
- HDF5
- SAS
- STATA
- SQL
- Google BigQuery

<br/>
여기에서는 가장 단순하지만 널리 사용되는 CSV 포맷 입출력에 대해 살펴본다. CSV 파일 포맷은 값들이 comma로 구분되는 텍스트 파일이다.



## %%writefile

샘플로 사용할 csv파일을 %%writefile 매직 명령으로 만든다. 이 명령은 셀에 서술한 내용대로 텍스트파일을 만드는 명령어이다. 파일을 만들기 전에 mkdir명령으로 샘플 파일을 보관할 디렉토리를 만든다.

In [1]:
import pandas as pd

In [2]:
!mkdir -p ./data

In [3]:
%%writefile ./data/sample2.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting ./data/sample2.csv


In [4]:
pd.read_csv('./data/sample1.csv')

Unnamed: 0.1,Unnamed: 0,지역,2015,2016,2017,2005-2010 증가율
0,가,수도권,1,3,1,0.0
1,나,충청,2,2,4,-100.0
2,다,경북,3,5,12,-300.0
3,라,대구,4,1,2,50.0
4,마,제주,5,2,1,80.0


In [5]:
pd.read_csv('./data/sample2.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [6]:
pd.read_csv('./data/sample2.csv',index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [7]:
df = pd.read_csv('http://www.google.com/finance/historical?q=NASDAQ%3AAAPL&output=csv')
df

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7-Nov-17,173.91,175.25,173.60,174.81,24361485
1,6-Nov-17,172.36,174.99,171.72,174.25,35026306
2,3-Nov-17,174.00,174.26,171.12,172.50,59398631
3,2-Nov-17,166.60,168.50,165.28,168.11,41393373
4,1-Nov-17,169.87,169.94,165.61,166.89,33637762
5,31-Oct-17,167.90,169.65,166.94,169.04,36046828
6,30-Oct-17,163.89,168.07,163.72,166.72,44700772
7,27-Oct-17,159.29,163.60,158.70,163.05,44454160
8,26-Oct-17,157.23,157.83,156.78,157.41,17000469
9,25-Oct-17,156.91,157.55,155.27,156.41,21207098


In [8]:
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7-Nov-17,173.91,175.25,173.6,174.81,24361485
1,6-Nov-17,172.36,174.99,171.72,174.25,35026306
2,3-Nov-17,174.0,174.26,171.12,172.5,59398631
3,2-Nov-17,166.6,168.5,165.28,168.11,41393373
4,1-Nov-17,169.87,169.94,165.61,166.89,33637762


In [9]:
df.tail(10)

Unnamed: 0,Date,Open,High,Low,Close,Volume
241,22-Nov-16,111.95,112.42,111.4,111.8,25965534
242,21-Nov-16,110.12,111.99,110.01,111.73,29264571
243,18-Nov-16,109.72,110.54,109.66,110.06,28428917
244,17-Nov-16,109.81,110.35,108.83,109.95,26964598
245,16-Nov-16,106.7,110.23,106.6,109.99,58840522
246,15-Nov-16,106.57,107.68,106.16,107.11,32264510
247,14-Nov-16,107.71,107.81,104.08,105.71,51175504
248,11-Nov-16,107.12,108.87,106.55,108.43,34143898
249,10-Nov-16,111.09,111.09,105.83,107.79,57134541
250,9-Nov-16,109.88,111.32,108.05,110.88,59176361


## 인터넷 상의 데이터 베이스 자료입력
<br/>

다음과 같은 인터넷 상의 자료는 pandas_datareader 패키지의 DataReader 을 써서 바로 pandas로 입력할 수도 있다.

- Yahoo! Finance
- Google Finance
- Enigma
- FRED
- Fama/French
- World Bank
- OECD
- Eurostat
- EDGAR Index
- TSP Fund Data
- Oanda currency historical rate
- Nasdaq Trader Symbol Definitions
<br/>
<br/>
data_source 인수로 데이터를 읽어올 웹사이트를 지정할 수 있다. 이때 데이터의 이름을 지정하는 코드는 웹사이트마다 다르다. 예를들어 삼성전자 주가는 yahoo에서 005930.KS로 지정하지만 구글에서는 KRX:005930이다

In [11]:
from pandas_datareader.data import DataReader
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

In [14]:
df = DataReader("KRX:005930",'google',dt_start,dt_end)
df.tail(10)

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017-10-25,2702000.0,2721000.0,2685000.0,2695000.0,117165
2017-10-26,2686000.0,2695000.0,2620000.0,2620000.0,193090
2017-10-27,2620000.0,2666000.0,2607000.0,2654000.0,147614
2017-10-30,2689000.0,2716000.0,2685000.0,2702000.0,161691
2017-10-31,2703000.0,2772000.0,2675000.0,2754000.0,265521
2017-11-01,2875000.0,2875000.0,2809000.0,2861000.0,284706
2017-11-02,2875000.0,2876000.0,2838000.0,2853000.0,203104
2017-11-03,2853000.0,2857000.0,2793000.0,2819000.0,198395
2017-11-06,2819000.0,2825000.0,2767000.0,2819000.0,178627
2017-11-07,2819000.0,2846000.0,2793000.0,2805000.0,149186


In [15]:
gdp = DataReader("GDP","fred",dt_start, dt_end)
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-01-01,17874.715
2015-04-01,18093.224
2015-07-01,18227.689
2015-10-01,18287.226
2016-01-01,18325.187
2016-04-01,18538.039


In [16]:
inflation = DataReader(["CPIAUCSL","CPILFESL"],"fred", dt_start, dt_end)
inflation

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-01,234.913,239.91
2015-02-01,235.489,240.236
2015-03-01,235.989,240.783
2015-04-01,236.201,241.366
2015-05-01,236.891,241.662
2015-06-01,237.419,242.021
2015-07-01,237.876,242.48
2015-08-01,237.811,242.754
2015-09-01,237.467,243.249
2015-10-01,237.792,243.719
