In [5]:
#-*- coding: utf-8 -*-
import numpy as np
print('Numpy Version : {:s}'.format(np.__version__))
import matplotlib
print('MatPlotLib Version : {:s}'.format(matplotlib.__version__))
import matplotlib.pyplot as plt
import pandas as pd
print('Pandas Version : {:s}'.format(pd.__version__))

Numpy Version : 1.14.3
MatPlotLib Version : 2.2.2
Pandas Version : 0.22.0


# 데이터 입출력

* Pandas는 데이터 파일을 읽어 데이터프레임을 만들 수 있다.
    * CSV
    * Excel
    * HTML
    * JSON
    * HDF5
    * SAS
    * STATA
    * SQL

### `%%writefile` 명령
* 셀에 서술한 내용대로 텍스트 파일을 만드는 명령

In [3]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


### CSV파일 입력
* `pandas.from_csv()` : CSV 파일로부터 데이터를 읽어 데이터프레임으로 만든다.

In [6]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


* 행 인덱스 정보가 없어 0부터 시작하는 정수 인덱스가 자동으로 추가되었다.
* 열의 인덱스 정보가 없으면 `names` 인수로 설정할 수 있다.

In [7]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [8]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


* `index_col` : 테이블 내의 특정한 열을 행 인덱스로 지정할 수 있다.

In [9]:
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


* 구분자가 쉼표가 아니면 sep 인수를 써서 구분자를 사용자가 지정할 수 있다.

In [10]:
%%writefile sample3.txt
c1        c2        c3        c4 
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [12]:
# 공백을 구분자로 사용
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


* `skiprows` : 데이터 파일에서 특정 행을 건너 뛰어서 데이터프레임을 생성한다.

In [14]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명: 
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [16]:
# 0~1까지의 행을 건너뛰어서 데이터프레임을 생성했다.
pd.read_csv('sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


* `na_values` : 특정한 값을 NaN으로 취급한다.

In [17]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2,, two
누락, 3.33, three

Writing sample5.csv


In [18]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


### CSV 파일 출력
* `to_csv()` : 데이터프레임 값을 CSV파일로 출력할 수 있다.

In [19]:
df.to_csv('sample6.csv')

** 느낌표(!)는 셸 명령을 사용하기 위한 IPython 매직 명령이다. **

In [20]:
!cat sample6.csv  # 윈도우에서는 !type 사용

,c1, c2, c3
0,1.0,1.11, one
1,2.0,, two
2,,3.33, three


* `sep` : 구분자를 바꿀 수 있다.

In [21]:
df.to_csv('sample7.txt', sep='|')

In [22]:
!cat sample7.txt

|c1| c2| c3
0|1.0|1.11| one
1|2.0|| two
2||3.33| three


* `na_rep` : NaN 표시값을 바꿀 수 있다.

In [23]:
df.to_csv('sample8.csv', na_rep='누락')

In [24]:
!cat sample8.csv

,c1, c2, c3
0,1.0,1.11, one
1,2.0,누락, two
2,누락,3.33, three


* `index`, `header` : 인수를 지정하여 인덱스 및 헤더 출력 여부를 지정할 수 있다.

In [25]:
df.index = ["a", "b", "c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [26]:
df.to_csv('sample9.csv', index=False, header=False)

In [27]:
!cat sample9.csv

1.0,1.11, one
2.0,, two
,3.33, three


### 인터넷 상의 CSV 파일 입력
* `read_csv` 명령 사용시 URL을 지정하면 Pandas가 해당 파일을 다운로드하여 읽어들인다.

In [33]:
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

* 데이터의 수가 많을 경우, 데이터프레임의 표현은 데이터 앞, 뒤의 일부분만 보여준다.

In [34]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


* `head` : 앞에 특정 갯수만 보여준다. 
* `tail` : 뒤에 특정 갯수만 보여준다.

In [35]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [36]:
df.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### 인터넷 상의 데이터 베이스 자료 입력
* pandas_datareader 패키지
    * pandas_datareader 패키지는 Pandas와 별도로 설치해야 한다.
        * FRED
        * Fama/French
        * World Bank
        * OECD
        * Eurostat
        * EDGAR Index
        * TSP Fund Data
        * Oanda currency historical rate
        * Nasdaq Trader Symbol Definitions
        * 자세한 내용은 다음 웹사이트를 참조한다.
            * https://pandas-datareader.readthedocs.io/en/latest/index.html
    * `DataReader` : 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다.

In [37]:
from pandas_datareader.data import DataReader

* 날짜는 datetime 패키지, 문자열을 사용해도 된다.

In [38]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

### Example

`data_source` 인수로 데이터를 읽어올 웹 사이트를 지정한다. 데이터의 코드는 웹 사이트에서 검색하여 알아내야 한다. 다음은 FRED 데이터베이스에서 미국 국가총생산(GDP), 모든 항목을 포함한 소비자 가격 지수(CPIAUCSL), 식료품 및 연로를 제외한 소비자 가격 지수(CPILFESL)를 가져오는 예이다. 웹사이트에서 자세한 데이터에 대한 세부적인 사항이나 값을 확인할 수 있다.

* https://fred.stlouisfed.org/series/GDP
* https://fred.stlouisfed.org/series/CPIAUCSL
* https://fred.stlouisfed.org/series/CPILFESL

In [41]:
gdp = DataReader("GDP", "fred", dt_start, dt_end)
gdp.tail()

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-04-01,18093.224
2015-07-01,18227.689
2015-10-01,18287.226
2016-01-01,18325.187
2016-04-01,18538.039


* 데이터 코드에 리스트를 넣으면 여러개의 데이터를 동시에 가져온다.

In [43]:
inflation = DataReader(["CPIAUCSL", "CPILFESL"], "fred", dt_start, dt_end)
inflation.tail()

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2016-02-01,237.532,245.689
2016-03-01,238.022,246.004
2016-04-01,238.843,246.487
2016-05-01,239.439,247.031
2016-06-01,240.074,247.436
