## 모듈 import

- ..: 현재 디렉토리
- .: 상위 디렉토리

In [3]:
import numpy as np
import pandas as pd 

## Excel

### Excel - 불러오기

Excel 데이터를 바로 읽어들일 수 있으며, `sheet_name`을 지정하면 해당 sheet를 가져옵니다.

In [9]:
excel = pd.read_excel('./data/data/seoul_transportation.xlsx', sheet_name='철도', engine = 'openpyxl')

In [12]:
excel.head()

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551


"버스" sheet를 읽으세요.

In [13]:
excel = pd.read_excel('./data/data/seoul_transportation.xlsx', sheet_name='버스', engine = 'openpyxl')
excel.head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


### Excel - 저장하기

DataFrame을 Excel로 저장할 수 있으며, Excel로 저장시 **파일명**을 지정합니다.

- `index=False` 옵션은 가급적 꼭 지정하는 옵션입니다. 지정을 안하면 **index가 별도의 컬럼으로 저장**되게 됩니다.
- `sheet_name`을 지정하여, 저장할 시트의 이름을 변경할 수 있습니다.


In [14]:
excel.to_excel('sample.xlsx', index=True)

In [15]:
excel.to_excel('sample1.xlsx', index=False, sheet_name='샘플')

### 연습문제

1) data 폴더에 있는 seoul_transportation.xlsx 파일을 읽어서 df에 저장하세요.

2) ‘승차총승객수’ 칼럼을 선택하여 total_passenger에 저장하세요.

3) 저장된 시리즈를 '승차총승객수’ 라는 이름의 엑셀 파일로 저장하세요.

In [16]:
# '승차총승객수' 칼럼을 선택
df = pd.read_excel("./data/data/seoul_transportation.xlsx")
df

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551
...,...,...,...,...
596,지하철,우이신설선,201901,1263643
597,지하철,우이신설선,201902,1102109
598,지하철,우이신설선,201903,1402393
599,지하철,우이신설선,201904,1403115


df를 '2020년 07월 서울 브랜드별 평균 휘발유 가격.xlsx'으로 저장하세요. 인덱스는 저장하지 않습니다.

In [17]:
# 승차총승객수라는 이름의 엑셀 파일로 저장
df.to_excel('2020년 07월 서울 브랜드별 평균 휘발유 가격.xlsx',index = False)

## CSV (Comma Separated Values)

- 한 줄이 한 개의 행에 해당하며, 열 사이에는 **쉼표(,)를 넣어 구분**합니다.
- Excel보다는 훨씬 가볍고 **차지하는 용량이 적기 때문에 대부분의 파일데이터는 csv 형태**로 제공됩니다.

(참고) 쉼표를 찍어 놓은 금액 데이터(100,000)를 CSV에 직접 집어넣으면 나중에 해석할 때 서로 다른 열로 취급되므로 문제가 될 수 있습니다. 해결책으로 쉼표 대신 탭 문자(\t)를 구분자로 사용하는 것이다. 이러한 경우 **Tab Separated Values(TSV)**라고 부른다.

### CSV - 불러오기

In [39]:
df = pd.read_csv('./data/data/seoul_population.csv') # sep=',', encoding='utf-8'

In [40]:
df.head()

Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
0,2020,합계,4417954,9911088,4816522,5094566,9668465,4701723,4966742,242623,114799,127824,2.19,1568331
1,2020,종로구,75003,158996,76876,82120,149384,72635,76749,9612,4241,5371,1.99,28507
2,2020,중구,63686,134635,65776,68859,125240,61222,64018,9395,4554,4841,1.97,24495
3,2020,용산구,113093,244645,118835,125810,230040,110722,119318,14605,8113,6492,2.03,40247
4,2020,성동구,135870,300505,146424,154081,293556,143387,150169,6949,3037,3912,2.16,45603


때때로 한글데이터를 불러올 때 다른 인코딩을 사용해야하는 경우도 있습니다.그럴 땐 `encoding` 옵션을 지정해주면 됩니다.

In [41]:
df = pd.read_csv('./data/data/seoul_population.csv', encoding='utf8')
# 'cp949', 'euc-kr' 
# UnicodeDecodeError -> 인코딩 오류 (utf-8로 해석 불가) -> encoding='cp949' or 'euc-kr' or 'latin1' or 'utf16'

In [44]:
df = pd.read_csv('./data/data/seoul_population.csv', encoding='utf8',chunksize =10)
df
for d in df:
    display(d)

Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
0,2020,합계,4417954,9911088,4816522,5094566,9668465,4701723,4966742,242623,114799,127824,2.19,1568331
1,2020,종로구,75003,158996,76876,82120,149384,72635,76749,9612,4241,5371,1.99,28507
2,2020,중구,63686,134635,65776,68859,125240,61222,64018,9395,4554,4841,1.97,24495
3,2020,용산구,113093,244645,118835,125810,230040,110722,119318,14605,8113,6492,2.03,40247
4,2020,성동구,135870,300505,146424,154081,293556,143387,150169,6949,3037,3912,2.16,45603
5,2020,광진구,167427,360109,173000,187109,346682,167310,179372,13427,5690,7737,2.07,50560
6,2020,동대문구,167598,357014,175322,181692,342837,169769,173068,14177,5553,8624,2.05,61796
7,2020,중랑구,185920,399562,197118,202444,394702,195165,199537,4860,1953,2907,2.12,69447
8,2020,성북구,195396,447056,214658,232398,437153,210810,226343,9903,3848,6055,2.24,73770
9,2020,강북구,145896,311569,151466,160103,308055,150143,157912,3514,1323,2191,2.11,63422


Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
10,2020,도봉구,139114,327361,159420,167941,325257,158620,166637,2104,800,1304,2.34,62059
11,2020,노원구,218270,527032,254188,272844,523037,252383,270654,3995,1805,2190,2.4,85489
12,2020,은평구,213914,484043,231998,252045,479835,230279,249556,4208,1719,2489,2.24,85187
13,2020,서대문구,144838,322952,153152,169800,312173,149360,162813,10779,3792,6987,2.16,54204
14,2020,마포구,178482,381858,178977,202881,371890,175150,196740,9968,3827,6141,2.08,54331
15,2020,양천구,180633,457781,224379,233402,454251,222824,231427,3530,1555,1975,2.51,65670
16,2020,강서구,266982,585901,282686,303215,580185,280034,300151,5716,2652,3064,2.17,88984
17,2020,구로구,180531,432488,215424,217064,404408,199673,204735,28080,15751,12329,2.24,70198
18,2020,금천구,114715,247835,126141,121694,231733,117226,114507,16102,8915,7187,2.02,39842
19,2020,영등포구,184714,407367,202969,204398,379480,187647,191833,27887,15322,12565,2.05,61688


Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
20,2020,동작구,184229,401572,193718,207854,391220,189152,202068,10352,4566,5786,2.12,65190
21,2020,관악구,274811,509803,255211,254592,495060,248339,246721,14743,6872,7871,1.8,78875
22,2020,서초구,173502,429025,205282,223743,425126,203359,221767,3899,1923,1976,2.45,60169
23,2020,강남구,234872,544055,260378,283677,539231,257999,281232,4824,2379,2445,2.3,75096
24,2020,송파구,281959,673926,325080,348846,667960,322299,345661,5966,2781,3185,2.37,93483
25,2020,강동구,196499,463998,228044,235954,459970,226216,233754,4028,1828,2200,2.34,70019


In [42]:
df.head()

Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
0,2020,합계,4417954,9911088,4816522,5094566,9668465,4701723,4966742,242623,114799,127824,2.19,1568331
1,2020,종로구,75003,158996,76876,82120,149384,72635,76749,9612,4241,5371,1.99,28507
2,2020,중구,63686,134635,65776,68859,125240,61222,64018,9395,4554,4841,1.97,24495
3,2020,용산구,113093,244645,118835,125810,230040,110722,119318,14605,8113,6492,2.03,40247
4,2020,성동구,135870,300505,146424,154081,293556,143387,150169,6949,3037,3912,2.16,45603


### CSV - 저장하기

저장하는 방법은 excel과 유사합니다. 다만, csv파일 형식에는 `sheet_name` 옵션은 없습니다.

In [25]:
df = pd.read_csv('./data/data/seoul_population.csv')

In [26]:
df.to_csv('sample.csv', index=False)

### 연습문제

data 폴더에 있는 example_1.csv 파일을 읽어서 df에 저장하세요.

In [27]:
# 코드를 입력하세요.
df = pd.read_csv('./data/data/example_1.csv')
df

Unnamed: 0,지역,GS칼텍스_셀프,GS칼텍스_일반,S-OIL_셀프,S-OIL_일반,SK에너지_셀프,SK에너지_일반,알뜰(ex)_셀프,알뜰주유소_셀프,알뜰주유소_일반,자가상표_셀프,자가상표_일반,현대오일뱅크_셀프,현대오일뱅크_일반
0,서울 강남구,1479.628286,1647.3725,1459.241304,1641.747917,1452.455417,1790.737444,,,,,,1408.8225,1604.995806
1,서울 강동구,1451.55875,1472.213056,1456.763333,1528.7025,1457.974359,1666.781667,,,,,,1412.656667,1441.861667
2,서울 강북구,1342.991667,1373.801667,1325.855,1370.8775,1375.390244,1347.2625,,,,,,1353.985814,
3,서울 강서구,1403.7525,1429.829167,1420.370833,,1377.233636,1485.694,,1326.212083,1313.838333,,,1339.844737,1406.236939
4,서울 관악구,1425.005238,1472.719583,,1435.575417,1439.986667,1466.670278,,1330.8375,1390.558333,,,1420.11625,1453.77875
5,서울 광진구,,1409.874667,1388.13375,1375.815833,1468.312,1414.259167,,,1354.878333,,,1372.834231,1376.601667
6,서울 구로구,1349.338333,1580.261111,1348.405,1441.733833,,1417.576415,,,1385.675833,,,1365.516522,1422.016774
7,서울 금천구,1382.317059,,1383.742083,1357.099167,,1427.995122,,1304.87,1372.938333,,,1382.120417,1386.201429
8,서울 노원구,1381.040833,1459.922778,1412.337778,,1407.652917,1509.330833,,,,,,,1467.67
9,서울 도봉구,1358.41875,1404.916667,1375.605333,1523.638333,1349.851463,1478.19,,,,,,1388.036452,1344.847742


data 폴더에 있는 example_2.csv 파일을 읽어서 df에 저장하세요.
- encoding은 cp949로 되어있습니다.

In [29]:
# 코드를 입력하세요.
df = pd.read_csv('./data/data/example_2.csv', encoding='cp949')
df

Unnamed: 0,지역,GS칼텍스_셀프,GS칼텍스_일반,S-OIL_셀프,S-OIL_일반,SK에너지_셀프,SK에너지_일반,알뜰(ex)_셀프,알뜰주유소_셀프,알뜰주유소_일반,자가상표_셀프,자가상표_일반,현대오일뱅크_셀프,현대오일뱅크_일반
0,서울 강남구,1479.628286,1647.3725,1459.241304,1641.747917,1452.455417,1790.737444,,,,,,1408.8225,1604.995806
1,서울 강동구,1451.55875,1472.213056,1456.763333,1528.7025,1457.974359,1666.781667,,,,,,1412.656667,1441.861667
2,서울 강북구,1342.991667,1373.801667,1325.855,1370.8775,1375.390244,1347.2625,,,,,,1353.985814,
3,서울 강서구,1403.7525,1429.829167,1420.370833,,1377.233636,1485.694,,1326.212083,1313.838333,,,1339.844737,1406.236939
4,서울 관악구,1425.005238,1472.719583,,1435.575417,1439.986667,1466.670278,,1330.8375,1390.558333,,,1420.11625,1453.77875
5,서울 광진구,,1409.874667,1388.13375,1375.815833,1468.312,1414.259167,,,1354.878333,,,1372.834231,1376.601667
6,서울 구로구,1349.338333,1580.261111,1348.405,1441.733833,,1417.576415,,,1385.675833,,,1365.516522,1422.016774
7,서울 금천구,1382.317059,,1383.742083,1357.099167,,1427.995122,,1304.87,1372.938333,,,1382.120417,1386.201429
8,서울 노원구,1381.040833,1459.922778,1412.337778,,1407.652917,1509.330833,,,,,,,1467.67
9,서울 도봉구,1358.41875,1404.916667,1375.605333,1523.638333,1349.851463,1478.19,,,,,,1388.036452,1344.847742


data 폴더에 있는 example_3.csv 파일을 읽어서 df에 저장하세요.
- encoding은 cp949로 되어있습니다.

In [30]:
# 코드를 입력하세요.
df = pd.read_csv('./data/data/example_3.csv', encoding='cp949')
df 

Unnamed: 0,지역|GS칼텍스_셀프|GS칼텍스_일반|S-OIL_셀프|S-OIL_일반|SK에너지_셀프|SK에너지_일반|알뜰(ex)_셀프|알뜰주유소_셀프|알뜰주유소_일반|자가상표_셀프|자가상표_일반|현대오일뱅크_셀프|현대오일뱅크_일반
0,서울 강남구|1479.6282857142858|1647.3725000000002|1...
1,서울 강동구|1451.5587500000001|1472.2130555555555|1...
2,서울 강북구|1342.9916666666666|1373.801666666667|13...
3,서울 강서구|1403.7524999999996|1429.8291666666664|1...
4,서울 관악구|1425.0052380952384|1472.7195833333337||...
5,서울 광진구||1409.8746666666668|1388.13375|1375.815...
6,서울 구로구|1349.3383333333334|1580.2611111111112|1...
7,서울 금천구|1382.3170588235296||1383.7420833333335|...
8,서울 노원구|1381.0408333333335|1459.9227777777778|1...
9,서울 도봉구|1358.4187500000003|1404.9166666666667|1...


- 구분자(sep)는 ,가 아닌 |로 되어있습니다 다시 파일을 읽어오세요.

In [38]:
# 코드를 입력하세요.
df = pd.read_csv('./data/data/example_3.csv', encoding='cp949', sep = "|", chunksize = 5)
df_chunk = next(df)
df_chunk

Unnamed: 0,지역,GS칼텍스_셀프,GS칼텍스_일반,S-OIL_셀프,S-OIL_일반,SK에너지_셀프,SK에너지_일반,알뜰(ex)_셀프,알뜰주유소_셀프,알뜰주유소_일반,자가상표_셀프,자가상표_일반,현대오일뱅크_셀프,현대오일뱅크_일반
0,서울 강남구,1479.628286,1647.3725,1459.241304,1641.747917,1452.455417,1790.737444,,,,,,1408.8225,1604.995806
1,서울 강동구,1451.55875,1472.213056,1456.763333,1528.7025,1457.974359,1666.781667,,,,,,1412.656667,1441.861667
2,서울 강북구,1342.991667,1373.801667,1325.855,1370.8775,1375.390244,1347.2625,,,,,,1353.985814,
3,서울 강서구,1403.7525,1429.829167,1420.370833,,1377.233636,1485.694,,1326.212083,1313.838333,,,1339.844737,1406.236939
4,서울 관악구,1425.005238,1472.719583,,1435.575417,1439.986667,1466.670278,,1330.8375,1390.558333,,,1420.11625,1453.77875
