# 01. 파일 입출력

## 파일입출력

Pandas 노트 01장에서는 Pandas의 파일 입출력에 대하여 알아봅니다. 데이터 분석에서 일반적으로 사용되는 파일 형식인 엑셀(Excel)과 CSV (Comma Separated Value)을 로드하고 데이터프레임(DataFrame)을 엑셀(Excel)이나 CSV형식으로 저장하는 방법에 대해 학습해 봅니다.

### 모듈 import

In [7]:
from IPython.display import Image
import numpy as np
import pandas as pd 

### 데이터 다운로드

In [8]:
# 데이터셋 다운로드를 위한 패키지 설치
!pip install opendata-kr -q

In [9]:
from opendata import dataset

In [10]:
# 데이터셋 다운로드
dataset.download('서울시대중교통')
dataset.download('서울시주민등록인구')

[서버] Jaen

data/서울시대중교통/seoul_transportation.xlsx


  0%|          | 0.00/26.2k [00:00<?, ?B/s]


[서버] Jaen

data/서울시주민등록인구/seoul_population.csv


  0%|          | 0.00/3.55k [00:00<?, ?B/s]




## 1) Excel

### Excel - 불러오기

Excel 데이터를 바로 읽어들일 수 있으며, sheet_name을 지정하면 해당 sheet를 가져옵니다.

[참고] pd.read_excel()로 엑셀 데이터 로드시 에러 발생한다면 engine='openpyxl'을 추가

In [15]:
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name='철도')
excel.head()

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551


In [19]:
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name='버스', engine='openpyxl')
excel.head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


가지고 올 때는 OrderedDict로 가져오며, keys()로 시트명을 조회할 수 있습니다.

In [22]:
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name=None, engine='openpyxl')
excel

{'철도':     대중교통구분    노선명      년월   승차총승객수
 0      지하철    1호선  201711  8633618
 1      지하철    1호선  201712  8737235
 2      지하철    1호선  201801  8145989
 3      지하철    1호선  201802  7273309
 4      지하철    1호선  201803  8692551
 ..     ...    ...     ...      ...
 596    지하철  우이신설선  201901  1263643
 597    지하철  우이신설선  201902  1102109
 598    지하철  우이신설선  201903  1402393
 599    지하철  우이신설선  201904  1403115
 600    지하철  우이신설선  201905  1469681
 
 [601 rows x 4 columns],
 '버스':    대중교통구분      년월     승차총승객수
 0      버스  201711  163443126
 1      버스  201712  162521011
 2      버스  201801  153335185
 3      버스  201802  134768582
 4      버스  201803  166177855
 5      버스  201804  160452595
 6      버스  201805  164390595
 7      버스  201806  156999747
 8      버스  201807  163736112
 9      버스  201808  160240197
 10     버스  201809  151311657
 11     버스  201810  165820934
 12     버스  201811  163017758
 13     버스  201812  158049446
 14     버스  201901  153037549
 15     버스  201902  131621925
 16     버스  201903 

keys()로 포함하고 있는 시트를 조회합니다.

In [23]:
# 시트 조회
excel.keys()

dict_keys(['철도', '버스'])

In [24]:
excel['철도'].head()

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551


In [25]:
excel['버스'].head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


---

### Excel - 저장하기

DataFrame을 Excel로 저장할 수 있으며, Excel로 저장시 파일명을 지정합니다.

- index=False 옵션은 가급적 꼭 지정하는 옵션입니다. 지정을 안하면 index가 별도의 컬럼으로 저장되게 됩니다.

- sheet_name을 지정하여, 저장할 시트의 이름을 변경할 수 있습니다.

In [29]:
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name='철도', engine='openpyxl')
excel.head()

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551


별도의 시트명 지정 없이 저장

In [30]:
excel.to_excel('sample.xlsx', index=True)

시트명을 샘플로 지정하여 저장

In [31]:
excel.to_excel('sample1.xlsx', index=False, sheet_name='샘플')

---

## 2) CSV (Comma Separated Values)

- \- 한 줄이 한 개의 행에 해당하며, 열 사이에는 쉼표(,)를 넣어 구분합니다. 
- Excel보다는 훨씬 가볍고 차지하는 용량이 적기 때문에 대부분의 파일데이터는 csv 형태로 제공됩니다.

### CSV - 불러오기

In [34]:
df = pd.read_csv('data/서울시주민등록인구/seoul_population.csv')
df

Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
0,2020,합계,4417954,9911088,4816522,5094566,9668465,4701723,4966742,242623,114799,127824,2.19,1568331
1,2020,종로구,75003,158996,76876,82120,149384,72635,76749,9612,4241,5371,1.99,28507
2,2020,중구,63686,134635,65776,68859,125240,61222,64018,9395,4554,4841,1.97,24495
3,2020,용산구,113093,244645,118835,125810,230040,110722,119318,14605,8113,6492,2.03,40247
4,2020,성동구,135870,300505,146424,154081,293556,143387,150169,6949,3037,3912,2.16,45603
5,2020,광진구,167427,360109,173000,187109,346682,167310,179372,13427,5690,7737,2.07,50560
6,2020,동대문구,167598,357014,175322,181692,342837,169769,173068,14177,5553,8624,2.05,61796
7,2020,중랑구,185920,399562,197118,202444,394702,195165,199537,4860,1953,2907,2.12,69447
8,2020,성북구,195396,447056,214658,232398,437153,210810,226343,9903,3848,6055,2.24,73770
9,2020,강북구,145896,311569,151466,160103,308055,150143,157912,3514,1323,2191,2.11,63422


### CSV - 저장하기

저장하는 방법은 excel과 유사합니다. 다만, csv파일 형식에는 sheet_name 옵션은 없습니다.

In [35]:
df = pd.read_csv('data/서울시주민등록인구/seoul_population.csv')

to_csv()으로 csv 파일형식으로 저장할 수 있습니다.

In [36]:
df.to_csv('sample.csv', index=False)

읽어들인 Excel 파일도 Csv로 저장할 수 있습니다.

In [38]:
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name='버스', engine='openpyxl')
excel.head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


In [39]:
excel.to_csv('sample1.csv', index=False)