In [1]:
import pandas as pd
import numpy as np

# 데이터 입출력

Pandas는 데이터 파일을 읽어 데이터프레임을 만들 수 있다. 다음 목록에 보인 포멧을 포함한 여러가지 포맷을 지원한다.

* CSV
* Excel
* HTML
* JSON
* HDF5
* SAS
* STATA
* SQL

여기에서는 가장 단순하지만 널리 사용되는 CSV(Comman Separated Value) 포맷 입출력에 대해 살펴본다. CSV 파일 포맷은 데이터 값이 쉽표(comma)로 구분되는 텍스트 파일이다. 

## `%%writefile` 명령

샘플 데이터로 사용할 CSV 파일을 `%%writefile` 매직(magic) 명령으로 만들어보자. 이 명령은 셀에 서술한 내용대로 텍스트 파일을 만드는 명령이다.

In [3]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample1.csv


## CSV 파일 입력

CSV 파일로부터 데이터를 읽어 데이터프레임을 만들 때는 `pandas.from_csv()` 명령을 사용한다. 

In [4]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


위에서 읽은 데이터에는 열 인덳스는 있지만 행 인덱스 정보가 없으므로 0부터 시작하는 정수 인덱스가 자동으로 추가되었다. 다음처럼 데이터 파일에 열 인덱스 정보가 없는 경우에는 `read_csv` 명령의 `names` 인수로 설정할 수 있다.

In [5]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [9]:
pd.read_csv('./sample2.csv')

Unnamed: 0,1,1.11,one
0,2,2.22,two
1,3,3.33,three


In [6]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


만약 테이블 내의 특정한 열을 행 인덱스로 지정하고 싶으면 `index_col` 인수를 사용한다.

In [7]:
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


확장자가 CSV가 아닌 파일 즉, 데이터를 구분하는 구분자(separator)가 쉼표(comma)가 아니면 `sep` 인수를 써서 구분자를 사용자가 지정해준다. 만약 구분자가 길이가 정해지지 않은 공백인 경우에는 `\s+`라는 정규식(regular expression) 문자열을 사용한다.

In [10]:
%%writefile sample3.txt
c1        c2        c3        c4 
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [17]:
pd.read_table('sample3.txt', sep='\s+') # \s+ : space하나 이상을 구분자로

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [18]:
pd.read_csv('sample3.txt', sep='\s+') # \s+ : space하나 이상을 구분자로

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


만약 자료 파일 중에 건너 뛰어야 할 행이 있으면 `skiprows` 인수를 사용한다.

In [19]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명: 
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample4.txt


In [20]:
pd.read_csv('sample4.txt', skiprows=[0, 1]) #0번째 줄 1번째 줄 skip

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


특정한 값을 NaN으로 취급하고 싶으면 `na_values` 인수에 NaN 값으로 취급할 값을 넣는다.

In [21]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2,, two
누락, 3.33, three

Writing sample5.csv


In [23]:
df = pd.read_csv('sample5.csv', na_values=['누락']) # na_values=['누락'] : 누락을 NaN 값으로 처리
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## CSV 파일 출력

지금까지와 반대로 파이썬의 데이터프레임 값을 CSV 파일로 출력하고 싶으면 `to_csv()` 메서드를 사용한다.

In [None]:
df.to_csv('sample6.csv')

리눅스나 맥에서는 `cat` 셸 명령으로 파일의 내용을 확인할 수 있다. 윈도우에서는 `type` 명령을 사용한다. 느낌표(!)는 셸 명령을 사용하기 위한 IPython 매직 명령이다.

In [None]:
!cat sample6.csv  # 윈도우에서는 !type 사용

In [None]:
!type sample6.csv  # 윈도우에서는 !type 사용

파일을 읽을 때와 마찬가지로 출력할 때도 `sep` 인수로 구분자를 바꿀 수 있다.

In [None]:
df.to_csv('sample7.txt', sep='|')

In [None]:
!cat sample7.txt

또 `na_rep` 인수로 NaN 표시값을 바꿀 수도 있다.

In [None]:
df.to_csv('sample8.csv', na_rep='누락')

In [None]:
!cat sample8.csv

`index`, `header` 인수를 지정하여 인덱스 및 헤더 출력 여부를 지정하는 것도 가능하다.

In [None]:
df.index = ["a", "b", "c"]
df

In [None]:
df.to_csv('sample9.csv', index=False, header=False)

In [None]:
!cat sample9.csv

## 인터넷 상의 CSV 파일 입력

웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다. `read_csv` 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다. 다음은 저자의 github 웹사이트에 저장되어 있는 데이터 파일을 원격으로 읽는 명령이다.

In [25]:
df = pd.read_csv('https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv')

이 데이터프레임은 실제로 데이터 갯수, 즉 행(row)의 수가 890개가 넘는 대량의 데이터이다. 이렇게 데이터의 수가 많을 경우, 데이터프레임의 표현(representation)은 데이터 앞, 뒤의 일부분만 보여준다.

In [26]:
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


만약 앞이나 뒤의 특정 갯수만 보고 싶다면 `head` 메서드나 `tail` 메서드를 이용한다. 메서드 인수로 출력할 행의 수를 넣을 수도 있다.

In [39]:
df.head() # 중요

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [30]:
df.tail(2) # 중요

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [41]:
data1 = pd.read_csv('./면제자_관리자원_현황__역종별__연령별_20180109171615.csv', engine = 'python')
data1

Unnamed: 0,역종별,2016,2016.1,2016.2,2016.3,2016.4
0,역종별,계,25세이하,26~30세,31~35세,36~40세
1,계,682775,139901,124279,167801,250794
2,전시근로역,574663,108549,100928,140989,224197
3,병역면제,108112,31352,23351,26812,26597


In [34]:
data = pd.read_csv('./crime_in_Seoul.csv', encoding= 'euc-kr')
data

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,중부서,2,2,3,2,105,65,1395,477,1355,1170
1,종로서,3,3,6,5,115,98,1070,413,1278,1070
2,남대문서,1,0,6,4,65,46,1153,382,869,794
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711
4,혜화서,3,2,5,4,96,63,1114,424,1015,861
5,용산서,5,5,14,14,194,173,1557,587,2050,1704
6,성북서,2,2,2,1,86,71,953,409,1194,1015
7,동대문서,5,5,13,13,173,146,1981,814,2548,2227
8,마포서,8,8,14,10,294,247,2555,813,2983,2519
9,영등포서,14,12,22,20,295,183,2964,978,3572,2961


In [60]:
data2 = pd.read_csv('./지역별_평생교육기관_현황_20180109172421.csv', engine ='python')
data2

Unnamed: 0,교육기관 형태별(1),교육기관 형태별(2),2016,2016.1,2016.2,2016.3,2016.4,2016.5,2016.6,2016.7,2016.8,2016.9,2016.10,2016.11,2016.12,2016.13,2016.14,2016.15,2016.16,2016.17
0,교육기관 형태별(1),교육기관 형태별(2),계,서울특별시,부산광역시,대구광역시,인천광역시,광주광역시,대전광역시,울산광역시,세종특별자치시,경기도,강원도,충청북도,충청남도,전라북도,전라남도,경상북도,경상남도,제주특별자치도
1,계,소계,5177,1878,307,188,185,184,164,67,13,938,164,131,170,185,130,221,209,43
2,준형식평생교육기관,소계,1024,313,74,35,25,35,54,9,5,153,42,35,44,53,21,69,46,11
3,준형식평생교육기관,각종학교(초.중.고),43,14,1,1,4,2,2,0,0,9,0,2,1,0,0,5,2,0
4,준형식평생교육기관,산업체부설고등학교,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
5,준형식평생교육기관,공민학교,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6,준형식평생교육기관,고등공민학교,3,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,1,0
7,준형식평생교육기관,고등기술학교,7,2,1,0,1,1,0,0,0,0,0,0,1,0,0,0,1,0
8,준형식평생교육기관,근로청소년을 위한 특별학급,3,1,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0
9,준형식평생교육기관,방송통신중학교,20,1,1,1,1,1,1,1,0,4,3,0,0,1,2,0,2,1


In [57]:
data3 = pd.read_csv('./SPOTFIRE_TEMPLATE_1_2.csv')
data3

Unnamed: 0,표측1	표측2	2016	2016	2016	2016	2016	2016	2016	2016	2016	2015	2015	2015	2015	2015	2015	2015	2015	2015	2014	2014	2014	2014	2014	2014	2014	2014	2014	2013	2013	2013	2013	2013	2013	2013	2013	2013	2012	2012	2012	2012	2012	2012	2012	2012	2012	2011	2011	2011	2011	2011	2011	2011	2011	2011	2010	2010	2010	2010	2010	2010	2010	2010	2010	2009	2009	2009	2009	2009	2009	2009	2009	2009
0,표측1\t표측2\t1.0일\t2.1~2일 \t3.3~5일\t4.6~10일\t5.11...
1,1.전체\t \t26.3\t12.0\t20.3\t23.4\t8.9\t4.6\t2.0...
2,2.성별\t1.남자\t27.7\t12.6\t20.0\t22.8\t8.2\t4.7\t...
3,2.성별\t2.여자\t24.8\t11.3\t20.6\t24.0\t9.5\t4.5\t...
4,3.연령\t1.15~19세\t27.9\t10.8\t22.4\t25.3\t8.0\t3...
5,3.연령\t2.20대\t31.2\t12.9\t19.7\t23.5\t7.3\t3.1\...
6,3.연령\t3.30대\t22.6\t11.7\t18.3\t24.2\t10.8\t4.6...
7,3.연령\t4.40대\t16.8\t10.4\t22.7\t26.5\t10.5\t7.7...
8,3.연령\t5.50대\t23.7\t12.2\t20.8\t25.7\t8.1\t4.9\...
9,3.연령\t6.60대이상\t35.4\t13.0\t19.2\t17.6\t8.0\t3....


In [59]:
data3.tail()

Unnamed: 0,표측1	표측2	2016	2016	2016	2016	2016	2016	2016	2016	2016	2015	2015	2015	2015	2015	2015	2015	2015	2015	2014	2014	2014	2014	2014	2014	2014	2014	2014	2013	2013	2013	2013	2013	2013	2013	2013	2013	2012	2012	2012	2012	2012	2012	2012	2012	2012	2011	2011	2011	2011	2011	2011	2011	2011	2011	2010	2010	2010	2010	2010	2010	2010	2010	2010	2009	2009	2009	2009	2009	2009	2009	2009	2009
24,6.학력\t2.중학교(재/졸)\t30.8\t13.7\t19.7\t23.8\t5.3\...
25,6.학력\t3.고등학교(재/졸)\t26.8\t10.9\t21.1\t23.5\t8.3...
26,6.학력\t4.전문대(재/졸)\t20.1\t10.4\t19.2\t27.6\t11.7...
27,6.학력\t5.대학교(재/졸)\t23.3\t12.9\t20.2\t24.3\t9.8\...
28,6.학력\t6.대학원(재/졸)\t18.3\t12.8\t23.7\t21.7\t12.9...


In [64]:
data.info() # 기억

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 11 columns):
관서명      31 non-null object
살인 발생    31 non-null int64
살인 검거    31 non-null int64
강도 발생    31 non-null int64
강도 검거    31 non-null int64
강간 발생    31 non-null int64
강간 검거    31 non-null int64
절도 발생    31 non-null object
절도 검거    31 non-null object
폭력 발생    31 non-null object
폭력 검거    31 non-null object
dtypes: int64(6), object(5)
memory usage: 2.7+ KB


In [66]:
data.describe()

Unnamed: 0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거
count,31.0,31.0,31.0,31.0,31.0,31.0
mean,5.258065,4.935484,8.903226,8.16129,175.774194,131.967742
std,3.605253,3.203493,4.93528,5.710206,85.580259,56.590037
min,1.0,0.0,1.0,1.0,59.0,46.0
25%,3.0,2.5,6.0,4.0,103.5,90.0
50%,4.0,4.0,8.0,7.0,154.0,124.0
75%,7.5,7.5,13.0,11.5,251.0,175.5
max,14.0,12.0,22.0,26.0,334.0,247.0


### engine = 'python-fwf', encoding = 'euc-kr'
#### 인코딩을 알 수 없는 경우 메모장으로 빼서 UPF-8 파일로 다시 저장

## 인터넷 상의 데이터 베이스 자료 입력

pandas_datareader 패키지의 `DataReader` 을 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다. 다음은 pandas_datareader 패키지가 제공하는 인터넷 사이트의 일부이다.

* FRED
* Fama/French
* World Bank
* OECD
* Eurostat
* EDGAR Index
* TSP Fund Data
* Oanda currency historical rate
* Nasdaq Trader Symbol Definitions

자세한 내용은 다음 웹사이트를 참조한다.
* https://pandas-datareader.readthedocs.io/en/latest/index.html


In [None]:
from pandas_datareader.data import DataReader

날짜는 datetime 패키지를 사용하여 지정해도 되고 문자열을 바로 사용해도 된다. (이때는 내부적으로 dateutil 패키지를 사용한다.

In [None]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

`data_source` 인수로 데이터를 읽어올 웹 사이트를 지정한다. 데이터의 코드는 웹 사이트에서 검색하여 알아내야 한다. 다음은 FRED 데이터베이스에서 미국 국가총생산(GDP), 모든 항목을 포함한 소비자 가격 지수(CPIAUCSL), 식료품 및 연로를 제외한 소비자 가격 지수(CPILFESL)를 가져오는 예이다. 웹사이트에서 자세한 데이터에 대한 세부적인 사항이나 값을 확인할 수 있다.

* https://fred.stlouisfed.org/series/GDP
* https://fred.stlouisfed.org/series/CPIAUCSL
* https://fred.stlouisfed.org/series/CPILFESL

In [None]:
gdp = DataReader("GDP", "fred", dt_start, dt_end)
gdp.tail()

데이터 코드에 리스트를 넣으면 여러개의 데이터를 동시에 가져온다.

In [None]:
inflation = DataReader(["CPIAUCSL", "CPILFESL"], "fred", dt_start, dt_end)
inflation.tail()