In [1]:
import pandas as pd
import numpy as np

# 데이터 입출력

Pandas는 데이터 파일을 읽어 데이터프레임을 만들 수 있다. 다음 목록에 보인 포멧을 포함한 여러가지 포맷을 지원한다.

* CSV
* Excel
* HTML
* JSON
* HDF5
* SAS
* STATA
* SQL

여기에서는 가장 단순하지만 널리 사용되는 CSV(Comman Separated Value) 포맷 입출력에 대해 살펴본다. CSV 파일 포맷은 데이터 값이 쉽표(comma)로 구분되는 텍스트 파일이다. 

## `%%writefile` 명령

샘플 데이터로 사용할 CSV 파일을 `%%writefile` 매직(magic) 명령으로 만들어보자. 이 명령은 셀에 서술한 내용대로 텍스트 파일을 만드는 명령이다.

In [2]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


## CSV 파일 입력

CSV 파일로부터 데이터를 읽어 데이터프레임을 만들 때는 `pandas.from_csv()` 명령을 사용한다. 

In [5]:
df=pd.read_csv('./sample1.csv')

In [6]:
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [4]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


위에서 읽은 데이터에는 열 인덳스는 있지만 행 인덱스 정보가 없으므로 0부터 시작하는 정수 인덱스가 자동으로 추가되었다. 다음처럼 데이터 파일에 열 인덱스 정보가 없는 경우에는 `read_csv` 명령의 `names` 인수로 설정할 수 있다.

In [7]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [8]:
pd.read_csv('sample2.csv', names=['숫자', '실수', '문자'])

Unnamed: 0,숫자,실수,문자
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


만약 테이블 내의 특정한 열을 행 인덱스로 지정하고 싶으면 `index_col` 인수를 사용한다.

In [9]:
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


확장자가 CSV가 아닌 파일 즉, 데이터를 구분하는 구분자(separator)가 쉼표(comma)가 아니면 `sep` 인수를 써서 구분자를 사용자가 지정해준다. 만약 구분자가 길이가 정해지지 않은 공백인 경우에는 `\s+`라는 정규식(regular expression) 문자열을 사용한다.

In [10]:
%%writefile sample3.txt
c1        c2        c3        c4 
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [11]:
pd.read_table('sample3.txt', sep='\s+')     #\s는 띄어쓰기  +는 정규표현식으로 스페이스바 한 개 이상이면 다 구분하겠다!!

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


만약 자료 파일 중에 건너 뛰어야 할 행이 있으면 `skiprows` 인수를 사용한다.

In [12]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명: 
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [13]:
pd.read_csv('sample4.txt', skiprows=[0, 1])  #처음2줄은 스킵하고 3번째줄부터 데이터를 불러오는 것 skiprows, @csv는 이미 sep=','가 되어있는것

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


특정한 값을 NaN으로 취급하고 싶으면 `na_values` 인수에 NaN 값으로 취급할 값을 넣는다.

In [14]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2,, two
누락, 3.33, three

Writing sample5.csv


In [15]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## CSV 파일 출력

지금까지와 반대로 파이썬의 데이터프레임 값을 CSV 파일로 출력하고 싶으면 `to_csv()` 메서드를 사용한다.

In [16]:
df.to_csv('sample6.csv')

리눅스나 맥에서는 `cat` 셸 명령으로 파일의 내용을 확인할 수 있다. 윈도우에서는 `type` 명령을 사용한다. 느낌표(!)는 셸 명령을 사용하기 위한 IPython 매직 명령이다.

In [17]:
!cat sample6.csv  # 윈도우에서는 !type 사용

'cat'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [18]:
!type sample6.csv  # 윈도우에서는 !type 사용

,c1, c2, c3
0,1.0,1.11, one
1,2.0,, two
2,,3.33, three



sample6.csv


지정된 파일을 찾을 수 없습니다.
다음 내용 진행 중 오류 발생: #.
지정된 파일을 찾을 수 없습니다.
다음 내용 진행 중 오류 발생: 윈도우에서는.
지정된 파일을 찾을 수 없습니다.
다음 내용 진행 중 오류 발생: !type.
지정된 파일을 찾을 수 없습니다.
다음 내용 진행 중 오류 발생: 사용.


파일을 읽을 때와 마찬가지로 출력할 때도 `sep` 인수로 구분자를 바꿀 수 있다.

In [None]:
df.to_csv('sample7.txt', sep='|')

In [None]:
!cat sample7.txt

또 `na_rep` 인수로 NaN 표시값을 바꿀 수도 있다.

In [None]:
df.to_csv('sample8.csv', na_rep='누락')

In [None]:
!cat sample8.csv

`index`, `header` 인수를 지정하여 인덱스 및 헤더 출력 여부를 지정하는 것도 가능하다.

In [None]:
df.index = ["a", "b", "c"]
df

In [None]:
df.to_csv('sample9.csv', index=False, header=False)

In [None]:
!cat sample9.csv

## 인터넷 상의 CSV 파일 입력

웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다. `read_csv` 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다. 다음은 저자의 github 웹사이트에 저장되어 있는 데이터 파일을 원격으로 읽는 명령이다.

In [19]:
df = pd.read_csv('https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv')

이 데이터프레임은 실제로 데이터 갯수, 즉 행(row)의 수가 890개가 넘는 대량의 데이터이다. 이렇게 데이터의 수가 많을 경우, 데이터프레임의 표현(representation)은 데이터 앞, 뒤의 일부분만 보여준다.

In [20]:
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


만약 앞이나 뒤의 특정 갯수만 보고 싶다면 `head` 메서드나 `tail` 메서드를 이용한다. 메서드 인수로 출력할 행의 수를 넣을 수도 있다.

In [21]:
df.head()   #윗부분 보기

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [22]:
df.tail(2)  #밑부분 보기

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


## 인터넷 상의 데이터 베이스 자료 입력

pandas_datareader 패키지의 `DataReader` 을 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다. 다음은 pandas_datareader 패키지가 제공하는 인터넷 사이트의 일부이다.

* FRED
* Fama/French
* World Bank
* OECD
* Eurostat
* EDGAR Index
* TSP Fund Data
* Oanda currency historical rate
* Nasdaq Trader Symbol Definitions

자세한 내용은 다음 웹사이트를 참조한다.
* https://pandas-datareader.readthedocs.io/en/latest/index.html


In [None]:
from pandas_datareader.data import DataReader

날짜는 datetime 패키지를 사용하여 지정해도 되고 문자열을 바로 사용해도 된다. (이때는 내부적으로 dateutil 패키지를 사용한다.

In [None]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

`data_source` 인수로 데이터를 읽어올 웹 사이트를 지정한다. 데이터의 코드는 웹 사이트에서 검색하여 알아내야 한다. 다음은 FRED 데이터베이스에서 미국 국가총생산(GDP), 모든 항목을 포함한 소비자 가격 지수(CPIAUCSL), 식료품 및 연로를 제외한 소비자 가격 지수(CPILFESL)를 가져오는 예이다. 웹사이트에서 자세한 데이터에 대한 세부적인 사항이나 값을 확인할 수 있다.

* https://fred.stlouisfed.org/series/GDP
* https://fred.stlouisfed.org/series/CPIAUCSL
* https://fred.stlouisfed.org/series/CPILFESL

In [None]:
gdp = DataReader("GDP", "fred", dt_start, dt_end)
gdp.tail()

데이터 코드에 리스트를 넣으면 여러개의 데이터를 동시에 가져온다.

In [None]:
inflation = DataReader(["CPIAUCSL", "CPILFESL"], "fred", dt_start, dt_end)
inflation.tail()

In [39]:
data1 = pd.read_csv('./대한무역투자진흥공사 2015 설명회 자료.csv',engine='python')
data1

Unnamed: 0,No.,자료명,저자,출판사,출판년도,총서명,총서번호
0,1,2015 KOTRA 세계시장 진출전략 설명회,KOTRA 정부3.0추진팀,KOTRA,2015,설명회자료,15-001
1,2,2015 글로벌 투자유치전략 설명회,KOTRA Invest Korea 투자정보팀,KOTRA Invest Korea,2015,설명회자료,15-002
2,3,2015 주요 전략시장 긴급점검 설명회,KOTRA 신흥시장팀,KOTRA,2015,설명회자료,15-003
3,4,2015 달라지는 FTA 환경과 우리기업 대응전략,KOTRA 통상지원총괄팀,KOTRA,2015,설명회자료,15-004
4,5,코트라 해외수주협의회 제18차 수요포럼,KOTRA 프로젝트총괄팀,KOTRA,2015,설명회자료,15-005
5,6,한류스타-중소기업 융합 해외마케팅 사업설명회,KOTRA 지식서비스사업단,KOTRA,2015,설명회자료,15-006
6,7,강원도 우량기업·외투기업 투자마케팅 협력상담회,KOTRA Invest Korea 전략지역유치팀,KOTRA Invest Korea,2015,설명회자료,15-007
7,8,한류스타-중소기업 융합 해외마케팅 설명회,KOTRA 지식서비스사업단,KOTRA,2015,설명회자료,15-008
8,9,코트라 해외수주협의회 제19차 수요포럼,KOTRA 건설플랜트사업팀,KOTRA,2015,설명회자료,15-009
9,10,한-중 FTA 활용방안 설명회,KOTRA 중국사업단,"KOTRA, 한국무역협회 (KITA) 차이나데스크",2015,설명회자료,15-010


In [27]:
data2 = pd.read_csv('./crime_in_Seoul.csv',encoding='euc-kr')

In [28]:
data2

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,중부서,2,2,3,2,105,65,1395,477,1355,1170
1,종로서,3,3,6,5,115,98,1070,413,1278,1070
2,남대문서,1,0,6,4,65,46,1153,382,869,794
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711
4,혜화서,3,2,5,4,96,63,1114,424,1015,861
5,용산서,5,5,14,14,194,173,1557,587,2050,1704
6,성북서,2,2,2,1,86,71,953,409,1194,1015
7,동대문서,5,5,13,13,173,146,1981,814,2548,2227
8,마포서,8,8,14,10,294,247,2555,813,2983,2519
9,영등포서,14,12,22,20,295,183,2964,978,3572,2961


In [37]:
data2 = pd.read_csv('./신용보증기금 보증기업의주요재무비율(2015년,생산성비율,건설업).csv',engine='python')
data2

Unnamed: 0,기업규모,종합건설외감(%),종합건설 비외감(%),종합건설영세(%),전문건설 외감(%),전문건설 비외감(%),전문건설 영세(%)
0,부가가치율,15.6,39.0,55.0,45.9,71.8,88.6
1,설비투자효율,187.2,1110.8,2617.4,649.0,1381.1,1998.0
2,총자본투자효율,12.9,46.1,68.4,79.6,96.3,89.1


In [41]:
data3 = pd.read_csv('./카드사업+분기별+수수료+구성정보(\'16.3분기).csv',engine='python')
data3

Unnamed: 0,카드사업종류,2005.4/4분기,2006.1/4분기,2006.2/4분기,2006.3/4분기,2006.4/4분기,2007.1/4분기,2007.2/4분기,2007.3/4분기,2007.4/4분기,...,2014.2/4분기,2014.3/4분기,2014.4/4분기,2015.1/4분기,2015.2/4분기,2015.3/4분기,2015.4/4분기,2016.1/4분기,2016.2/4분기,2016.3/4분기
0,단기카드대출(%)(현금서비스),28.39,28.88,28.45,28.21,28.14,27.92,28.1,27.14,28.22,...,20.44,20.59,21.34,20.51,20.52,20.5,20.69,20.49,20.42,21.3
1,장기카드대출(%)(카드론),14.72,14.72,14.66,14.4,14.84,14.7,14.95,15.08,14.19,...,9.17,9.21,9.21,9.51,10.21,12.94,12.37,12.02,11.59,11.55
2,일부결제금액이월약정(%)(결제성),없음,없음,없음,없음,없음,없음,없음,없음,없음,...,12.55,12.29,13.09,12.49,12.3,12.37,12.46,12.11,11.8,11.92
3,일부결제금액이월약정(%)(대출성),없음,없음,없음,없음,없음,없음,없음,없음,없음,...,18.84,18.77,19.87,18.79,18.86,19.07,19.11,19.09,19.01,19.06


In [42]:
data3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 45 columns):
카드사업종류        4 non-null object
2005.4/4분기    4 non-null object
2006.1/4분기    4 non-null object
2006.2/4분기    4 non-null object
2006.3/4분기    4 non-null object
2006.4/4분기    4 non-null object
2007.1/4분기    4 non-null object
2007.2/4분기    4 non-null object
2007.3/4분기    4 non-null object
2007.4/4분기    4 non-null object
2008.1/4분기    4 non-null object
2008.2/4분기    4 non-null object
2008.3/4분기    4 non-null object
2008.4/4분기    4 non-null object
2009.1/4분기    4 non-null object
2009.2/4분기    4 non-null object
2009.3/4분기    4 non-null object
2009.4/4분기    4 non-null object
2010.1/4분기    4 non-null object
2010.2/4분기    4 non-null object
2010.3/4분기    4 non-null object
2010.4/4분기    4 non-null object
2011.1/4분기    4 non-null object
2011.2/4분기    4 non-null object
2011.3/4분기    4 non-null float64
2011.4/4분기    4 non-null float64
2012.1/4분기    4 non-null float64
2012.2/4분기    4 non-null float64

In [43]:
data3.describe()

Unnamed: 0,2011.3/4분기,2011.4/4분기,2012.1/4분기,2012.2/4분기,2012.3/4분기,2012.4/4분기,2013.1/4분기,2013.2/4분기,2013.3/4분기,2013.4/4분기,...,2014.2/4분기,2014.3/4분기,2014.4/4분기,2015.1/4분기,2015.2/4분기,2015.3/4분기,2015.4/4분기,2016.1/4분기,2016.2/4분기,2016.3/4분기
count,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,...,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0
mean,17.87,17.5675,18.4025,21.525,17.89,16.3,14.835,14.7775,14.09,14.0375,...,15.25,15.215,15.8775,15.325,15.4725,16.22,16.1575,15.9275,15.705,15.9575
std,4.907525,4.75596,5.315132,4.068714,6.64419,5.562595,5.543895,5.550864,5.352227,5.242578,...,5.294041,5.358616,5.715612,5.187867,4.99036,4.164205,4.369496,4.496653,4.66678,4.963039
min,11.07,11.06,10.97,16.22,8.42,8.13,7.83,7.73,7.51,7.51,...,9.17,9.21,9.21,9.51,10.21,12.37,12.37,12.02,11.59,11.55
25%,15.93,15.5375,16.6175,19.8425,16.0175,15.1125,11.715,11.66,10.8625,10.9375,...,11.705,11.52,12.12,11.745,11.7775,12.7975,12.4375,12.0875,11.7475,11.8275
50%,19.225,18.835,19.715,21.975,19.76,18.535,15.81,15.895,14.975,15.135,...,15.695,15.53,16.48,15.64,15.58,16.005,15.785,15.6,15.405,15.49
75%,21.165,20.865,21.5,23.6575,21.6325,19.7225,18.93,19.0125,18.2025,18.235,...,19.24,19.225,20.2375,19.22,19.275,19.4275,19.505,19.44,19.3625,19.62
max,21.96,21.54,23.21,25.93,23.62,20.0,19.89,19.59,18.9,18.37,...,20.44,20.59,21.34,20.51,20.52,20.5,20.69,20.49,20.42,21.3
