# 4.2 데이터 입출력

In [1]:
import pandas as pd

In [2]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


# CSV 파일 입력

In [3]:
# csv 파일 불러오기 - 행 인덱스는 정수, 열 인덱스는 c1 ~ c3
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [4]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [5]:
# 열 인덱스 직접 지정하기
pd.read_csv('sample2.csv', names = ["c1", "c2", "c3"])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [6]:
# 특정 열을 행 인덱스로 사용하기
pd.read_csv('sample1.csv', index_col = "c1")

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [7]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [8]:
# 구분자에 따라 출력하기
# \s+: 길이가 정해지지 않은 공백이 구분자인 경우
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [9]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [10]:
# 불필요한 행 건너뛰기
pd.read_csv('sample4.txt', skiprows=[0,1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [11]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [12]:
# 특정 값을 NaN 취급하고 싶은 경우
df = pd.read_csv('sample5.csv', na_values=["누락"])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


# CSV 파일 출력

In [13]:
# csv파일 저장하기
df.to_csv('sample6.csv')

In [14]:
# csv파일 내용 확인하기
!type sample6.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


In [15]:
# 구분자를 바꿔 저장하기
df.to_csv('sample7.txt', sep='|')

In [16]:
!type sample7.txt

|c1| c2| c3
0|1.0| 1.11| one
1|2.0| | two
2|| 3.33| three


In [17]:
# NaN 값을 바꿔 저장하기
df.to_csv('sample8.csv', na_rep='누락')

In [18]:
!type sample8.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,누락, 3.33, three


In [19]:
# 인덱스 지정하기 - 데이터 프레임 형태로 불러왔으므로 가능
df.index = ["a","b","c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [20]:
# 행 인덱스, 열 인덱스 없이 저장하기
df.to_csv('sample9.csv', index=False, header=False)

In [21]:
!type sample9.csv

1.0, 1.11, one
2.0, , two
, 3.33, three


# 인터넷 상의 CSV 파일 입력

In [22]:
# url을 이용하여 csv 파일을 다운하여 입력
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")

In [23]:
# pd.set_option("display.max_rows", 20)
# 앞뒤로 모두 20행만 보여준다.

In [24]:
# 자료 일부만 확인하기 - 시작
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [25]:
# 자료 일부만 확인하기 - 끝
df.tail(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


# 인터넷 상의 데이터 베이스 자료 입력

In [26]:
# pandas_datareader: 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다. 
import pandas_datareader as pdr

In [27]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

In [28]:
# https://fred.stlouisfed.org/series/GDP
# 미국 GDP(국가총생산)
gdp = pdr.get_data_fred('GDP', dt_start, dt_end)
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-01-01,18003.399
2015-04-01,18223.577
2015-07-01,18347.425
2015-10-01,18378.803
2016-01-01,18470.156
2016-04-01,18656.207


In [29]:
# https://fred.stlouisfed.org/series/CPIAUCSL
# https://fred.stlouisfed.org/series/CPILFESL
# CPIAUCSL: 모든 항목을 포함한 소비자 가격 지수
# CPILFESL: 식료품 및 연로를 제외한 소비자 가격 지수
inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"], dt_start, dt_end)
inflation

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-01,234.747,239.811
2015-02-01,235.342,240.172
2015-03-01,235.976,240.755
2015-04-01,236.222,241.346
2015-05-01,237.001,241.688
2015-06-01,237.657,242.064
2015-07-01,238.034,242.565
2015-08-01,238.033,242.817
2015-09-01,237.498,243.316
2015-10-01,237.733,243.768
