# DataScience School Article

## 4.2 데이터 입출력
pandas는 여러 데이터파일을 읽어 데이터프레임을 만들수 있다.지원하는 포맷은 다음과 같다.
* CSV : `,'로 구분
* TSV : '\t'으로 구분
* Excel
* HTML
* JSON
* HDF5
* SAS
* STATA
* SQL

In [1]:
import pandas as pd

### `%%writefile` 명령
* 셀엘서 서술한 내용대로 텍스트 파일을 생성

In [2]:
%%writefile sample.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample.csv


### CSV 파일 입력

In [3]:
pd.read_csv("sample.csv")

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [4]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [5]:
pd.read_csv("sample2.csv", names = ["c1", "c2", "c3"])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


만약, 테이블내의 특정한 열을 행 인덱스로 지정하고 싶다면...

In [6]:
pd.read_csv('sample.csv', index_col = 'c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


확장가가 csv가 아닌 즉, 데이터를 구분하는 구분자가 `,`가 아니면 sep인수를 써서 구분자를 써서 사용자가 지정해준다.
길이가 정해지지 않은 경우에는 `\s+`정규식을 사용한다.

In [7]:
%%writefile sample3.txt
c1   c2   c3   c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [8]:
pd.read_table("sample3.txt", sep = "\s+")

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


만약, 자료중에 건너뛰어야 할 자료가 있다면 ***skiprows***

In [9]:
%%writefile sample4.txt
파일제목 : sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [10]:
pd.read_table("sample4.txt", skiprows=[0, 1])

Unnamed: 0,"c1, c2, c3"
0,"1, 1.11, one"
1,"2, 2.22, two"
2,"3, 3.33, three"


특정한 값을 NaN으로 취급하고 싶으면 na_values 인수에 NaN값으로 취급할 값을 넣는다.

In [11]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [12]:
df = pd.read_csv("sample5.csv", na_values = ['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


### CSV 파일출력

In [13]:
df.to_csv("sample6.csv")

In [14]:
!cat sample6.csv  # 윈도우에서는 !type sample6.csv 함수를 사용

'cat'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [15]:
!type sample6.csv 

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


In [16]:
df.to_csv("sample7.csv", sep = '|')

In [17]:
!type sample7.csv 

|c1| c2| c3
0|1.0| 1.11| one
1|2.0| | two
2|| 3.33| three


In [18]:
df.to_csv('sample8.csv',na_rep='누락')
!type sample8.csv 

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,�늻�씫, 3.33, three


index, header인수를 지정하여 인덱스 및 헤더출력가 안되도록 설정

In [19]:
df, df.index

(    c1     c2      c3
 0  1.0   1.11     one
 1  2.0            two
 2  NaN   3.33   three,
 RangeIndex(start=0, stop=3, step=1))

In [20]:
df.index = ["A", "B", "C"]
df

Unnamed: 0,c1,c2,c3
A,1.0,1.11,one
B,2.0,,two
C,,3.33,three


In [21]:
df.to_csv('sample9.csv', index = False, header=False)

In [22]:
!type sample6.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


In [23]:
!type sample6.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


## 인터넷 상이 CSV파일 입력
* pd.set_option("display.max_rows", 20)

In [24]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")

In [25]:
pd.set_option("display.max_rows", 20) # 앞 뒤로 20개만 보여줌
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


## 인터넷 상의 데이터베이스 입력 자료
* pandas.dataReader패키지의 DataReader사용
* [DataReader](https://pandas-datareader.readthedocs.io/en/latest/index.html) 

* FRED
* Fama/French
* World Bank
* OECD
* Eurostat
* EDGAR Index
* TSP Fund Data
* Oanda currency historical rate
* Nasdaq Trader Symbol Definitions

날짜는 datetime패키지를 이용해 지정해도 되고 문자열로 지정해도 됨

In [26]:
import datetime

In [27]:
dt_start = datetime.datetime(2020,1,1)
dt_end = "2020, 11,30"

**data_source**인수로 데이터를 읽어올 웹사이트 코드를 지정(데이터의 코드는 웹사이트에 검색)

* https://fred.stlouisfed.org/series/GDP
* https://fred.stlouisfed.org/series/CPIAUCSL
* https://fred.stlouisfed.org/series/CPILFESL

In [28]:
import pandas_reader as pdr

ModuleNotFoundError: No module named 'pandas_reader'

설치방법은 anaconda