# Data 입출력
- 작성자: 고려대학교 경제학과 한치록 교수

Python을 이용한 통계분석에서 데이터 입출력을 일관되게 처리하는 것은 중요하다. 안정적인 작업을 위하여 널리 사용되는 모듈을 활용하는 것이 권고되며, [`pandas`](https://pandas.pydata.org) 패키지가 가장 널리 사용된다. 해당 모듈의 설명은 [여기](https://pandas.pydata.org/docs/user_guide/index.html)에 있다. 다음 명령을 이용하여 `pandas` 모듈을 설치할 수 있다. (BIDAS 파이썬 환경에는 pandas가 기본 설치되어 있다.)

```sh
pip install pandas
```

`pandas` 모듈이 처리할 수 있는 데이터 형식은 [Pandas 매뉴얼 IO tools 섹션]에 열거되어 있으며, 버전 2.1.3에서 읽어들일 수 있는 파일 형식은 다음과 같다: CSV, Fixed-Width Test File, JSON, HTML, XML, Local clipboard, MS Excel, Open Document, HDF5 Format, Feather Format, Parquet Format, ORC Format, Stata, SAS, SPSS, Python Pickle Format, SQL, Google Big Query. 동 버전에서 출력할 수 있는 파일 형식은 다음과 같다: CSV, JSON, HTML, LaTeX, XML, Local clipboard, MS Excel, HDF5 Format, Feather Format, Parquet Format, ORC Format, Stata, Python Pickle Format, SQL, Google Big Query. 상세한 내용은 [Pandas 매뉴얼 IO tools 섹션]을 참조하라.

계량경제학 연구자들의 경우 정형화된 데이터를 보통 Excel, Stata, CSV 등으로 저장하며 이들 포맷은 모두 지원된다. CSV와 Stata는 별도의 엔진을 설치할 필요 없이 지원된다. 엑셀 파일의 경우 `openpyxl` 엔진(`.xlsx` 파일), `xlrd` 엔진(`.xls` 파일), `pyxlsb` 엔진(`.xlsb` 파일) 등이 필요하며 모듈을 별도로 설치하여야 한다.

[Pandas 매뉴얼 IO tools 섹션]: https://pandas.pydata.org/docs/user_guide/io.html

## CSV 파일 읽기
CSV 파일은 별도의 모듈 없이 `pandas`만으로 입출력 가능하다. 다음 예제로 포함된 `wage1.csv` 파일은 [Wooldridge](http://econ.msu.edu/faculty/wooldridge/) 교과서에 포함된 데이터셋으로서 다음과 같이 설명되어 있다.

> These are data from the 1976 Current Population Survey,
> collected by Henry Farber when he and I were colleagues at
> MIT in 1988.

In [1]:
import pandas as pd
df = pd.read_csv("data/wage1.csv")
df.shape

(526, 24)

## Stata 데이터 읽기
Stata `.dta` 파일은 버전을 막론하고 `pandas.read_stata`를 이용하여 읽을 수 있다.

In [2]:
import pandas as pd
df = pd.read_stata("data/wage1.dta")
df.shape

(526, 24)

## 엑셀 파일 읽기
`.xlsx` 파일을 읽으려면 별도의 모듈(엔진)이 필요하다. 모듈 설치 없이 `pandas`의 `read_excel`을 사용하면 오류가 발생할 것이다. 우선 다음과 같이 모듈을 설치한다.

```sh
pip install openpyxl
```

설치가 끝나면 `.xlsx` 파일을 읽을 수 있다.

In [3]:
import pandas as pd
df = pd.read_excel("data/wage1.xlsx")
df.shape

(526, 24)

## R 데이터 파일 읽기
R 데이터를 읽는 것도 가능하다고 하지만 실험해 본 결과 만족스럽지 않았다. R 데이터는 R에서 `.csv`, `.xlsx` 등으로 export한 후 읽는 것이 훨씬 간편하다.

```r
# R
library(wooldridge)
data(wage1)
write.csv(wage1, "wage1.csv")
# openxlsx::write.xlsx(wage1, "wage1.xlsx")
# writexl::write_xlsx(wage1, "wage1.xlsx")
# writexl::write_xls(wage1, "wage1.xls")
```

```python
# python
import pandas as pd
df = pd.read_csv('wage1.csv')
```

## 데이터 출력
데이터를 파일로 내보내려면 DataFrame의 `to_csv`, `to_excel`, `to_stata` 등 메쏘드를 사용한다.

In [8]:
import pandas as pd
df = pd.read_csv('data/wage1.csv')

# create output files
df.to_csv('output/test.csv')
df.to_excel('output/test.xlsx')
df.to_stata('output/test.dta')

# delete output files
import os
os.remove('output/test.csv')
os.remove('output/test.xlsx')
os.remove('output/test.dta')

## DataFrame과 관련된 몇 가지 tip

### 벡터들을 결합하여 DataFrame 생성
실험 등을 목적으로 [NumPy](https://numpy.org/) array로부터 DataFrame을 만들고자 할 수도 있다. 예를 들어 `x1`과 `x2`를 랜덤하게 생성한 후 이 둘을 가로로 붙이려면(R의 `cbind`) 다음과 같이 한다. ([여기 참조](https://stackoverflow.com/questions/20763012/creating-a-pandas-dataframe-from-a-numpy-array-how-do-i-specify-the-index-colum))

In [9]:
import numpy as np
import pandas as pd

n = 100
np.random.seed(1)

x1 = np.random.normal(size=n)
x2 = np.random.normal(size=n)

df1 = pd.DataFrame({'x1': x1, 'x2': x2})
df1.head(3)

Unnamed: 0,x1,x2
0,1.624345,-0.447129
1,-0.611756,1.224508
2,-0.528172,0.403492


### DataFrame들의 칼럼 결합
앞에서는 두 'array'들을 가로로 붙였다. 두 'DataFrame'들을 가로로 붙여 보자(R의 `cbind`). 실험을 위해 우선 `df2`를 만든다. 그 다음 `df1`과 `df2`를 가로로 붙일 것이다.

In [10]:
df2 = pd.DataFrame({'x3': x1, 'x4': x2})
df2.head(3)

Unnamed: 0,x3,x4
0,1.624345,-0.447129
1,-0.611756,1.224508
2,-0.528172,0.403492


In [11]:
# https://stackoverflow.com/questions/33088010/pandas-column-bind-cbind-two-data-frames
df = pd.concat([df1, df2], axis = 1)
df.head(3)

Unnamed: 0,x1,x2,x3,x4
0,1.624345,-0.447129,1.624345,-0.447129
1,-0.611756,1.224508,-0.611756,1.224508
2,-0.528172,0.403492,-0.528172,0.403492


### 칼럼 이름 바꾸기
DataFrame의 칼럼 명을 바꾸려면 `rename`을 사용한다. 다음은 "x3"을 "x1"로, "x4"를 "x2"로 바꾼다.

In [12]:
df3 = df2.rename(columns = {'x3': 'x1', 'x4': 'x2'})
df3.head(3)

Unnamed: 0,x1,x2
0,1.624345,-0.447129
1,-0.611756,1.224508
2,-0.528172,0.403492


### DataFrame들을 위아래로 붙이기
행 방향으로 붙이려면(R의 `rbind`) 다음과 같이 한다.

In [13]:
df4 = pd.concat([df1, df3], axis = 0, ignore_index = True)
df4.tail(3)

Unnamed: 0,x1,x2
197,0.043597,0.420282
198,-0.620001,0.810952
199,0.698032,1.044442


파이썬은 통계 패키지가 아니라 프로그램 언어이다.