## Module import

In [1]:
from IPython.display import Image
import numpy as np
import pandas as pd
# %pip install openpyxl

### Download the data

In [2]:
from opendata import dataset

# 데이터셋 다운로드
dataset.download('서울시대중교통')
dataset.download('서울시주민등록인구')

[서버] Jaen

data\서울시대중교통\seoul_transportation.xlsx


  0%|          | 0.00/26.2k [00:00<?, ?B/s]


[서버] Jaen

data\서울시주민등록인구\seoul_population.csv


  0%|          | 0.00/3.55k [00:00<?, ?B/s]




## Excel

[도큐먼트](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

### Excel - 불러오기


Excel 데이터를 바로 읽어들일 수 있으며, `sheet_name`을 지정하면 해당 sheet를 가져옵니다.

[참고] `pd.read_excel()`로 엑셀 데이터 로드시 에러 발생한다면 `engine='openpyxl'`을 추가

In [3]:
excel_train = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', engine='openpyxl' ,sheet_name='철도')
excel_train.head()

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551


In [4]:
excel_bus = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', engine='openpyxl', sheet_name='버스')
excel_bus.head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


`sheet_name`을 None으로 지정하면, 모든 sheet를 가지고 옵니다

가지고 올 때는 OrderedDict로 가져오며, `keys`로 시트명을 조회할 수 있습니다.

In [5]:
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', engine='openpyxl', sheet_name=None)
excel

{'철도':     대중교통구분    노선명      년월   승차총승객수
 0      지하철    1호선  201711  8633618
 1      지하철    1호선  201712  8737235
 2      지하철    1호선  201801  8145989
 3      지하철    1호선  201802  7273309
 4      지하철    1호선  201803  8692551
 ..     ...    ...     ...      ...
 596    지하철  우이신설선  201901  1263643
 597    지하철  우이신설선  201902  1102109
 598    지하철  우이신설선  201903  1402393
 599    지하철  우이신설선  201904  1403115
 600    지하철  우이신설선  201905  1469681
 
 [601 rows x 4 columns],
 '버스':    대중교통구분      년월     승차총승객수
 0      버스  201711  163443126
 1      버스  201712  162521011
 2      버스  201801  153335185
 3      버스  201802  134768582
 4      버스  201803  166177855
 5      버스  201804  160452595
 6      버스  201805  164390595
 7      버스  201806  156999747
 8      버스  201807  163736112
 9      버스  201808  160240197
 10     버스  201809  151311657
 11     버스  201810  165820934
 12     버스  201811  163017758
 13     버스  201812  158049446
 14     버스  201901  153037549
 15     버스  201902  131621925
 16     버스  201903 

In [6]:
excel.keys()

dict_keys(['철도', '버스'])

In [7]:
excel['철도'].head()

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551


In [8]:
excel['버스'].head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


### Excel - 저장하기

DataFrame을 Excel로 저장할 수 있으며, Excel로 저장 시 파일명을 지정합니다.
* `index=False` 옵션은 가급적 꼭 지정하는 옵션입니다. 지정을 안하면 **index가 별도의 column으로 저장**되게 됩니다.
* `sheet_name`을 지정하여, 저장할 시트의 이름을 변경할 수 있습니다.

In [9]:
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', engine='openpyxl', sheet_name='철도')
excel.head()

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551


별도의 시트명 없이 저장

In [10]:
import os
desktop_path = os.path.expanduser("~/")
file_path = os.path.join(desktop_path, 'sample2.xlsx')

excel.to_excel(file_path, index=True)

sheetname을 **샘플**로 지정하여 저장

In [11]:
excel.to_excel(file_path, index=False, sheet_name='샘플')

## CSV (Comma Separated Values)

* 한 줄이 한 개의 행에 해당하며, 열 사이에는 **쉼표(,)를 넣어 구분**합니다.
* Excel보다는 훨씬 가볍고 **차지하는 용량이 적기 때문에 대부분의 파일데이터는 csv 형태**로 제공됩니다.

## CSV - 불러오기

In [12]:
df = pd.read_csv('data/서울시주민등록인구/seoul_population.csv')
df.keys()

Index(['연도', '자치구', '세대수', '인구 합계', '남자 인구 합계', '여자 인구 합계', '한국인 인구 합계',
       '한국인 남자 인구수', '한국인 여자 인구수', '등록 외국인 인구 합계', '등록 외국인 인구 남자수',
       '등록 외국인 인구 여자수', '세대당 인구', '65세 이상 고령자 수'],
      dtype='object')

### CSV - 저장하기

저장하는 방법은 excel과 유사합니다. 다만, csv 파일 형식에는 `sheet_name` 옵션은 없습니다.

In [13]:
desktop_path = os.path.expanduser('~/')
file_path = os.path.join(desktop_path, 'sample1.csv')

df.to_csv(file_path, index=False)

읽어들인 **Excel 파일도 csv로 저장**할 수 있습니다.

In [14]:
desktop_path = os.path.expanduser('~/')
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', engine='openpyxl', sheet_name='버스')
excel.head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


In [15]:
excel.to_csv(file_path, index=False)

## json(JavaScript Object Notation)

* JavaScript Object Notation이라는 의미의 축약어로 데이터를 저장하거나 전송할 때 많이 사용되는 경량의 DATA 교환 형식
* 용량이 작고, 파일의 구조를 이해하기 직관적
* 데이터 전송 시 많이 사용됩니다.

In [16]:
import pprint
import json
import requests

# USD 환율 정보 실시간 요청 API
# 결과 형식을 json 형식으로 반환
url = "https://api.exchangerate-api.com/v4/latest/USD"

# API로 실시간 데이터 요청
ret = requests.get(url)

# json 형식의 파일로 로드
json_data = json.loads(ret.text)

# 출력
pprint.pprint(json_data)

 'base': 'USD',
 'date': '2024-07-12',
 'provider': 'https://www.exchangerate-api.com',
 'rates': {'AED': 3.67,
           'AFN': 71,
           'ALL': 92.62,
           'AMD': 388.28,
           'ANG': 1.79,
           'AOA': 880.01,
           'ARS': 920.5,
           'AUD': 1.48,
           'AWG': 1.79,
           'AZN': 1.7,
           'BAM': 1.8,
           'BBD': 2,
           'BDT': 117.52,
           'BGN': 1.8,
           'BHD': 0.376,
           'BIF': 2876.97,
           'BMD': 1,
           'BND': 1.34,
           'BOB': 6.92,
           'BRL': 5.41,
           'BSD': 1,
           'BTN': 83.54,
           'BWP': 13.51,
           'BYN': 3.26,
           'BZD': 2,
           'CAD': 1.36,
           'CDF': 2837.24,
           'CHF': 0.897,
           'CLP': 911.35,
           'CNY': 7.27,
           'COP': 3983.51,
           'CRC': 527.35,
           'CUP': 24,
           'CVE': 101.51,
           'CZK': 23.35,
           'DJF': 177.72,
           'DKK': 6.87,
           'D

### json 형식의 파일 로드

* `read_json()` 함수 호출 시 json 형식을 반환하는 API 주소나, 파일 모두 입력 가능

In [17]:
# read_json으로 파일 로드
df = pd.read_json(url)
df

Unnamed: 0,provider,WARNING_UPGRADE_TO_V6,terms,base,date,time_last_updated,rates
USD,https://www.exchangerate-api.com,https://www.exchangerate-api.com/docs/free,https://www.exchangerate-api.com/terms,USD,2024-07-12,1720742401,1.00
AED,https://www.exchangerate-api.com,https://www.exchangerate-api.com/docs/free,https://www.exchangerate-api.com/terms,USD,2024-07-12,1720742401,3.67
AFN,https://www.exchangerate-api.com,https://www.exchangerate-api.com/docs/free,https://www.exchangerate-api.com/terms,USD,2024-07-12,1720742401,71.00
ALL,https://www.exchangerate-api.com,https://www.exchangerate-api.com/docs/free,https://www.exchangerate-api.com/terms,USD,2024-07-12,1720742401,92.62
AMD,https://www.exchangerate-api.com,https://www.exchangerate-api.com/docs/free,https://www.exchangerate-api.com/terms,USD,2024-07-12,1720742401,388.28
...,...,...,...,...,...,...,...
XPF,https://www.exchangerate-api.com,https://www.exchangerate-api.com/docs/free,https://www.exchangerate-api.com/terms,USD,2024-07-12,1720742401,109.86
YER,https://www.exchangerate-api.com,https://www.exchangerate-api.com/docs/free,https://www.exchangerate-api.com/terms,USD,2024-07-12,1720742401,250.31
ZAR,https://www.exchangerate-api.com,https://www.exchangerate-api.com/docs/free,https://www.exchangerate-api.com/terms,USD,2024-07-12,1720742401,18.00
ZMW,https://www.exchangerate-api.com,https://www.exchangerate-api.com/docs/free,https://www.exchangerate-api.com/terms,USD,2024-07-12,1720742401,25.36


### json 형식으로 저장

In [18]:
df.to_json('currency.json')

## 연습문제

아래 코드를 실행하여 실습에 필요한 데이터셋을 다운로드 받습니다.

In [19]:
dataset.download('판다스입출력샘플')

[서버] Jaen

data\판다스입출력샘플\file_sample.zip


  0%|          | 0.00/40.9k [00:00<?, ?B/s]

압축 해제 및 프로젝트 파일 구성중...



* `sample` 변수에 `data/file_sample.xlsx` 파일을 읽어 로드합니다.
* 로드한 후 sheet를 모두 출력합니다.

In [22]:
sample = pd.read_excel('data/판다스입출력샘플/file_sample.xlsx', engine='openpyxl', sheet_name=None)
sample.keys()

dict_keys(['2020년 01월', '2020년 02월', '2020년 03월', '2020년 04월', '2020년 05월', '2020년 06월', '2020년 07월', '2020년 08월', '2020년 09월', '2020년 10월', '2020년 11월', '2020년 12월'])

2020 10월 시트를 `sample_202010`에 로드합니다.

In [26]:
sample_202010 = pd.read_excel('data/판다스입출력샘플/file_sample.xlsx', engine='openpyxl', sheet_name='2020년 10월')
sample_202010

Unnamed: 0,지역,GS칼텍스_셀프,GS칼텍스_일반,S-OIL_셀프,S-OIL_일반,SK에너지_셀프,SK에너지_일반,알뜰(ex)_셀프,알뜰주유소_셀프,알뜰주유소_일반,자가상표_일반,현대오일뱅크_셀프,현대오일뱅크_일반
0,서울 강남구,1443.44,1627.111111,1420.76,1593.25,1416.86625,1734.166667,,,,,1385.23,1525.705
1,서울 강동구,1413.275,1430.353333,1418.97,1498.0,1445.0,1653.695,,,,,1403.063333,1424.34
2,서울 강북구,1293.675,1313.19,1275.1,1325.71,1329.69,1295.84,,,,,1322.3,
3,서울 강서구,1361.773333,1385.84,1376.913333,,1325.516667,1433.664,,1273.11,1264.06,,1299.24,1362.53
4,서울 관악구,1415.45,1429.97,,1397.015,1411.84,1436.28,,1313.0,1329.45,,1392.55,1407.05
5,서울 광진구,,1360.394,1337.16,1344.97,,1373.623333,,,1309.19,,1358.733333,1337.94
6,서울 구로구,1285.94,1511.173333,1286.42,1393.832,,1336.065,,,1321.77,,1314.235,1391.17
7,서울 금천구,1313.94,,1305.565,1287.58,,1351.6,,1282.46,1291.67,,1313.035,1379.39
8,서울 노원구,1340.89,1421.85,1370.966667,,1373.275,1398.0,,,,,,1431.435
9,서울 도봉구,1331.92,1327.32,1329.896,1557.0,1291.47,,,,,,1345.106667,1309.936667


In [27]:
sample_202010.to_csv('2020-10-oil-price.csv', index=False)