Pandas는 CSV를 포함한 다양한 포맷의 데이터 파일을 읽어 직접 데이터프레임을 만들 수 있다. pandas 입출력 가능한 포맷의 종류는 다음과 같다.<br/>
CSV <br/>
Clipboard<br/>
Excel<br/>
JSON<br/>
HTML<br/>
Python Pickling<br/>
Feather<br/>
Msgpack<br/>
HDF5<br/>
SAS<br/>
STATA<br/>
SQL<br/>
Google BigQuery

## %%writefile 매직명령

In [10]:
import pandas as pd
import numpy as np

In [13]:
pwd

'C:\\pythondev\\study_da'

In [17]:
%%writefile ~data/sample1.csv
c1, c2, c3
1,1.11,one
2,2.22,two
3,3.33,three

Writing C:\Users\data/sample1.csv


## csv 파일 입력

In [18]:
pd.read_csv('~data/sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [20]:
%%writefile ~data/sample2.csv
1,1.11,one
2,2.22,two
3,3.33,three

Writing C:\Users\data/sample2.csv


In [22]:
pd.read_csv('~data/sample2.csv',names=['c1','c2','c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [23]:
pd.read_csv('~data/sample1.csv',index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [24]:
%%writefile ~data/sample3.txt
c1 c2 c3 c4
0.179181 -1.538472 1.347553 0.43381
1.024209 0.0897307 -1.271997 0.49265
0.417899 -2.002308 0.255245 -1.10515

Writing C:\Users\data/sample3.txt


[자주 사용하는 문자 클래스] => 정규식

[0-9] 또는 [a-zA-Z] 등은 무척 자주 사용하는 정규 표현식이다. 이렇게 자주 사용하는 정규식들은 별도의 표기법으로 표현할 수 있다. 다음을 기억해 두자.

\d - 숫자와 매치, [0-9]와 동일한 표현식이다.
\D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
\s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
\S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
\w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9]와 동일한 표현식이다.
\W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식이다.
대문자로 사용된 것은 소문자의 반대임을 추측할 수 있을 것이다.

In [25]:
pd.read_csv('~data/sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.089731,-1.271997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [26]:
%%writefile ~data/sample4.txt
파일제목 : sample4.txt
데이터포맷의 설명 : 
1,1.11,one
2,2.22,two
3,3.33,three

Writing C:\Users\data/sample4.txt


In [29]:
pd.read_csv('~data/sample4.txt',skiprows=[0,1,2])

Unnamed: 0,2,2.22,two
0,3,3.33,three


In [30]:
%%writefile ~data/sample5.csv
c1, c2, c3
1, 1.11, one
2,, two
누락, 3.33, three

Writing C:\Users\data/sample5.csv


In [32]:
df=pd.read_csv('~data/sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## csv 파일 출력

In [59]:
df.to_csv('~data/sample6.csv')
pd.read_csv('~data/sample6.csv')

Unnamed: 0.1,Unnamed: 0,c1,c2,c3
0,a,1.0,1.11,one
1,b,2.0,,two
2,c,,3.33,three


In [43]:
!more ~data/sample6.csv

잘못된 매개 변수입니다 - /sample6.csv


In [54]:
df.to_csv('~data/sample7.txt',sep='|')
pd.read_csv('~data/sample7.txt')

Unnamed: 0,|c1| c2| c3
0,a|1.0|1.11| one
1,b|2.0|| two
2,c||3.33| three


In [58]:
df.to_csv('~data/sample8.csv',na_rep='누락')

In [61]:
!cat ~data/sample8.csv

'cat'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [50]:
df.index=["a","b","c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [53]:
df.to_csv('~data/sample9.csv',index=False, header=False)
pd.read_csv('~data/sample9.csv')

Unnamed: 0,1.0,1.11,one
0,2.0,,two
1,,3.33,three


## 인터넷 상의 csv 파일 입력

웹 상에는 다양한 데이터 파일이 csv 파일 형태로 제공된다. read_csv 명령 사용시 파일 패스 대신 url을 지정하면 pandas가 직접 해당 파일을 다운로드하여 읽어들인다. 다음은 구글 파이낸스에서 제공하는 애플의 주가 데이터를 담은 csv 파일을 읽는 법이다.

In [62]:
df = pd.read_csv('http://www.google.com/finance/historical?q=NASDAQ%3AAAPL&output=csv')

 데이터의 수가 많을 경우, 데이터프레임의 표현(representation)은 데이터 앞, 뒤의 일부분만 보여준다.

In [64]:
df

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,28-Aug-17,160.14,162.00,159.93,161.47,25965972
1,25-Aug-17,159.65,160.56,159.27,159.86,25480063
2,24-Aug-17,160.43,160.74,158.55,159.27,19818918
3,23-Aug-17,159.07,160.47,158.88,159.98,19399081
4,22-Aug-17,158.23,160.00,158.02,159.78,21604585
5,21-Aug-17,157.50,157.89,155.11,157.21,26368528
6,18-Aug-17,157.86,159.50,156.72,157.50,27428069
7,17-Aug-17,160.52,160.71,157.84,157.86,27940565
8,16-Aug-17,161.94,162.51,160.15,160.95,27671612
9,15-Aug-17,160.66,162.20,160.14,161.60,29465487


In [65]:
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,28-Aug-17,160.14,162.0,159.93,161.47,25965972
1,25-Aug-17,159.65,160.56,159.27,159.86,25480063
2,24-Aug-17,160.43,160.74,158.55,159.27,19818918
3,23-Aug-17,159.07,160.47,158.88,159.98,19399081
4,22-Aug-17,158.23,160.0,158.02,159.78,21604585


In [66]:
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Volume
246,6-Sep-16,107.9,108.3,107.51,107.7,26880391
247,2-Sep-16,107.7,108.0,106.82,107.73,26334858
248,1-Sep-16,106.14,106.8,105.62,106.73,26701523
249,31-Aug-16,105.66,106.57,105.64,106.1,29662406
250,30-Aug-16,105.8,106.5,105.5,106.0,24863945


## 인터넷 상의 데이터 베이스 자료 입력

 pandas_datareader 패키지의 DataReader 을 써서 바로 pandas로 입력할 수도 있다.<br/>
 Yahoo! Finance<br/>
Google Finance<br/>
Enigma<br/>
FRED<br/>
Fama/French<br/>
World Bank<br/>
OECD<br/>
Eurostat<br/>
EDGAR Index<br/>
TSP Fund Data<br/>
Oanda currency historical rate<br/>
Nasdaq Trader Symbol Definitions<br/>

자세한 내용은 다음 웹사이트를 참조한다.
https://pandas-datareader.readthedocs.io/en/latest/index.html

In [71]:
!pip install pandas_datareader

Collecting pandas_datareader
  Downloading pandas_datareader-0.5.0-py2.py3-none-any.whl (74kB)
Collecting requests-ftp (from pandas_datareader)
  Downloading requests-ftp-0.3.1.tar.gz
Collecting requests-file (from pandas_datareader)
  Downloading requests-file-1.4.2.tar.gz
Building wheels for collected packages: requests-ftp, requests-file
  Running setup.py bdist_wheel for requests-ftp: started
  Running setup.py bdist_wheel for requests-ftp: finished with status 'done'
  Stored in directory: C:\Users\student\AppData\Local\pip\Cache\wheels\76\fb\0d\1026eb562c34a4982dc9d39c9c582a734eefe7f0455f711deb
  Running setup.py bdist_wheel for requests-file: started
  Running setup.py bdist_wheel for requests-file: finished with status 'done'
  Stored in directory: C:\Users\student\AppData\Local\pip\Cache\wheels\3e\34\3a\c2e634ca7b545510c1b3b7d94dea084e5fdb5f33558f3c3a81
Successfully built requests-ftp requests-file
Installing collected packages: requests-ftp, requests-file, pandas-datareader
S

In [72]:
from pandas_datareader.data import DataReader

날짜는 datetime 패키지를 사용하여 지정해도 되고 문자열을 바로 사용해도 된다. (이 때는 내부적으로 datautil 패키지를 사용한다.)

In [76]:
import datetime
dt_start = datetime.datetime(2015,1,1)
dt_end = "2016, 6, 30"

data_source 인수로 데이터를 읽어올 웹사이트를 지정할 수 있다. 이 때 데이터의 이름을 지정하는 코드는 웹사이트마다 다르므로 주의한다.

In [77]:
df=DataReader("KRX:005930","google",dt_start, dt_end)
df.tail()

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-06-24,1445000.0,1445000.0,1360000.0,1400000.0,408920
2016-06-27,1400000.0,1405000.0,1385000.0,1398000.0,236573
2016-06-28,1390000.0,1404000.0,1379000.0,1399000.0,213829
2016-06-29,1408000.0,1412000.0,1391000.0,1396000.0,208090
2016-06-30,1408000.0,1445000.0,1397000.0,1425000.0,272883


In [79]:
gdp=DataReader("GDP","fred",dt_start, dt_end)
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-01-01,17874.7
2015-04-01,18093.2
2015-07-01,18227.7
2015-10-01,18287.2
2016-01-01,18325.2
2016-04-01,18538.0


In [80]:
inflation=DataReader(["CPIAUCSL","CPILFESL"],"fred",dt_start,dt_end)
inflation

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-01,234.913,239.91
2015-02-01,235.489,240.236
2015-03-01,235.989,240.783
2015-04-01,236.201,241.366
2015-05-01,236.891,241.662
2015-06-01,237.419,242.021
2015-07-01,237.876,242.48
2015-08-01,237.811,242.754
2015-09-01,237.467,243.249
2015-10-01,237.792,243.719
