# 패키지 설치

In [None]:
!pip install mySUNI

## 모듈 import

In [2]:
import numpy as np
import pandas as pd
from mySUNI import cds
from IPython.display import Image

## 데이터 다운로드

In [3]:
cds.list_data() # 데이터 조회

Unnamed: 0,name,info,filename
0,서울시자전거,서울시 따릉이 자전거 대여량 정보,[seoul_bicycle.csv]
1,서울시대중교통,"서울시 대중교통(지하철, 버스) 이용객 정보",[seoul_transportation.xlsx]
2,서울시주민등록인구,서울시 주민등록인구 정보,[seoul_population.csv]
3,유가정보,2019년 서울시 유가 정보,"[gas_first_2019.csv, gas_second_2019.csv]"
4,PandasFileIO,Pandas File I/O 연습 문제용 데이터셋,"[mySUNI.xlsx, mySUNI_1.csv, mySUNI_2.csv, mySU..."
5,CCTV데이터분석,mySUNI WorkShop - CCTV 데이터 분석,"[01. CCTV_in_Seoul.csv, 01. population_in_Seou..."
6,국민연금데이터분석,mySUNI WorkShop - 국민연금 데이터 분석,[national_pension.csv]
7,민간아파트가격동향분석,mySUNI WorkShop - 민간 아파트 가격 동향 분석,[seoul_house_price.csv]
8,실거래가분석,mySUNI WorkShop - 2020년 아파트 실거래가 분석,"[2020-seoul-apt-price.csv, loc_code.xlsx]"
9,유가가격분석,mySUNI WorkShop - 2020년 유가 가격 분석,"[gas_first_2019.csv, gas_second_2019.csv]"


In [None]:
cds.download_data(['서울시대중교통', '서울시주민등록인구', 'PandasFileIO'])

## Excel

[도큐먼트](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

### Excel - 불러오기

Excel 데이터를 바로 읽어들일 수 있으며, `sheet_name`을 지정하면 해당 sheet를 가져옵니다.

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, ... , dtype=None, engine=None,  ...)

In [7]:
# 경로구분자 - OS(운영체제)
import os 
os.path.sep # => \\

'\\'

In [9]:
# 'data/seoul_transportation.xlsx' 파일의 '철도' 시트를 가져옵니다
import os
filename = os.path.join('data', 'seoul_transportation.xlsx')
display(filename)
excel = pd.read_excel(filename)
print(type(excel))

'data\\seoul_transportation.xlsx'

<class 'pandas.core.frame.DataFrame'>


In [10]:
# excel의 첫 5개 행을 출력합니다
excel.head(5)

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551


In [12]:
# 'data/seoul_transportation.xlsx' 파일의 '버스' 시트를 가져와 첫 5개 행을 출력합니다.
import os
filename = os.path.join('data', 'seoul_transportation.xlsx')
excel = pd.read_excel(filename, sheet_name='버스')
excel.head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


`sheet_name`을 None으로 지정하면, 모든 sheet를 가지고 옵니다.

가지고 올 때는 Dict로 가져오며, `keys()`로 **시트명을 조회**할 수 있습니다.

In [13]:
# 'data/seoul_transportation.xlsx' 파일의 모든 시트를 OrderedDict로 가져와 출력합니다.
import os
filename = os.path.join('data', 'seoul_transportation.xlsx')
excels = pd.read_excel(filename, sheet_name=None)
type(excels)   # excels = {'철도': DataFrame, '버스': DataFrame}

dict

In [None]:
# excels의 시트이름 목록 조회
excels.keys()

dict_keys(['철도', '버스'])

In [19]:
# excels의 '철도' 시트에 대한 DataFrame에서 첫 5개 행을 출력합니다.
excels['철도'].head(5)

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551


In [20]:
# excels의 '버스' 시트에 대한 DataFrame에서 첫 5개 행을 출력합니다.
excels['버스'].head(5)

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


In [24]:
import os
filename = os.path.join('data', 'seoul_transportation.xlsx')
subway = pd.read_excel(filename, sheet_name='철도', index_col='년월')
subway.head(3)
subway.to_excel('test.xlsx', index=True)

### Excel - 저장하기

DataFrame을 Excel로 저장할 수 있으며, Excel로 저장시 **파일명**을 지정합니다.

- `index=False` 옵션은 가급적 꼭 지정하는 옵션입니다. 지정을 안하면 **index가 별도의 컬럼으로 저장**되게 됩니다.
- `sheet_name`을 지정하여, 저장할 시트의 이름을 변경할 수 있습니다.


In [25]:
excel.head(2)

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011


In [26]:
# DataFrame excel을 'sample.xlsx' 로 저장합니다. 이때 index도 함께 저장 합니다.
excel.to_excel('sample.xlsx', index=True)

In [28]:
# DataFrame excel을 'sample1.xlsx' 로 저장합니다. 이때 index는 저장하지 않고, 
# sheet_name은 '샘플'로 저장 합니다.
excel.to_excel('sample1.xlsx', index=False, sheet_name='샘플')

### Excel - 여러개의 시트에 저장

여래 개의 시트에 저장하기 위해서는 **ExcelWriter를 사용**해야 합니다.

In [29]:
writer = pd.ExcelWriter('sample2.xlsx')
excel.to_excel(writer, index=False, sheet_name='샘플1')
excel.to_excel(writer, index=False, sheet_name='샘플2')
excel.to_excel(writer, index=False, sheet_name='샘플3')
writer.close()

In [None]:
# with statement를 사용하면 close를 별도로 하지 않아도 됨
with pd.ExcelWriter('sample2.xlsx') as excel:
    excel.to_excel(writer, index=False, sheet_name='샘플1')
    excel.to_excel(writer, index=False, sheet_name='샘플2')
    excel.to_excel(writer, index=False, sheet_name='샘플3')


In [None]:
# 시스템(OS)

### 연습문제

data 폴더에 있는 mySUNI.xlsx 파일을 읽어서 df에 저장하세요.
- 모든 시트를 읽어오세요.

In [31]:
# 코드를 입력하세요.
filename = os.path.join('data', 'mySUNI.xlsx')
df = pd.read_excel(filename, sheet_name=None)
type(df), len(df)

(dict, 12)

시트명을 조회하세요.

In [32]:
# 코드를 입력하세요.
df.keys()

dict_keys(['2020년 01월', '2020년 02월', '2020년 03월', '2020년 04월', '2020년 05월', '2020년 06월', '2020년 07월', '2020년 08월', '2020년 09월', '2020년 10월', '2020년 11월', '2020년 12월'])

시트명이 2020년 07월인 데이터 프레임을 df_07에 저장하세요.

In [33]:
# 코드를 입력하세요.
df_07 = df['2020년 07월']

해당 시트를 '2020년 07월 서울 브랜드별 평균 휘발유 가격.xlsx'으로 저장하세요. 인덱스는 저장하지 않습니다.

In [34]:
# 코드를 입력하세요.
df_07.to_excel('2020년 07월 서울 브랜드별 평균 휘발유 가격.xlsx', index=False)

## CSV (Comma Separated Values)

- 한 줄이 한 개의 행에 해당하며, 열 사이에는** 쉼표(,)를 넣어 구분**합니다.
- Excel보다는 훨씬 가볍고 **차지하는 용량이 적기 때문에 대부분의 파일데이터는 csv 형태**로 제공됩니다.

(참고) 쉼표를 찍어 놓은 금액 데이터(100,000)를 CSV에 직접 집어넣으면 나중에 해석할 때 서로 다른 열로 취급되므로 문제가 될 수 있습니다. 해결책으로 쉼표 대신 탭 문자(\t)를 구분자로 사용하는 것이다. 이러한 경우 **Tab Separated Values(TSV)**라고 부른다.

### CSV - 불러오기

In [35]:
# 'data/seoul_population.csv' 파일을 읽어 df라는 이름을 부여합니다
import os
filename = os.path.join('data', 'seoul_population.csv')
df = pd.read_csv(filename)

In [36]:
df.head(2)

Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
0,2020,합계,4417954,9911088,4816522,5094566,9668465,4701723,4966742,242623,114799,127824,2.19,1568331
1,2020,종로구,75003,158996,76876,82120,149384,72635,76749,9612,4241,5371,1.99,28507


In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26 entries, 0 to 25
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   연도             26 non-null     int64  
 1   자치구            26 non-null     object 
 2   세대수            26 non-null     object 
 3   인구 합계          26 non-null     object 
 4   남자 인구 합계       26 non-null     object 
 5   여자 인구 합계       26 non-null     object 
 6   한국인 인구 합계      26 non-null     object 
 7   한국인 남자 인구수     26 non-null     object 
 8   한국인 여자 인구수     26 non-null     object 
 9   등록 외국인 인구 합계   26 non-null     object 
 10  등록 외국인 인구 남자수  26 non-null     object 
 11  등록 외국인 인구 여자수  26 non-null     object 
 12  세대당 인구         26 non-null     float64
 13  65세 이상 고령자 수   26 non-null     object 
dtypes: float64(1), int64(1), object(12)
memory usage: 3.0+ KB


때때로 한글데이터를 불러올 때 다른 인코딩을 사용해야하는 경우도 있습니다.그럴 땐 `encoding` 옵션을 지정해주면 됩니다.

In [44]:
# 'data/seoul_population.csv' 파일을 encoding을 'utf8'로 지정하여 읽어 df라는 이름을 부여합니다.
import os

def get_encoding(filename):
    import chardet
    with open(filename, 'rb') as fb:
        enc = chardet.detect(fb.readline())['encoding']
    return enc

filename = os.path.join('data', 'seoul_population.csv')
df = pd.read_csv(filename, encoding=get_encoding(filename))

In [43]:
df.head()

Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
0,2020,합계,4417954,9911088,4816522,5094566,9668465,4701723,4966742,242623,114799,127824,2.19,1568331
1,2020,종로구,75003,158996,76876,82120,149384,72635,76749,9612,4241,5371,1.99,28507
2,2020,중구,63686,134635,65776,68859,125240,61222,64018,9395,4554,4841,1.97,24495
3,2020,용산구,113093,244645,118835,125810,230040,110722,119318,14605,8113,6492,2.03,40247
4,2020,성동구,135870,300505,146424,154081,293556,143387,150169,6949,3037,3912,2.16,45603


### CSV - 큰 파일 데이터 끊어서 불러오기

데이터의 크기가 매우 큰 경우 memory에 한 번에 로드할 수 없습니다.

`chunksize`를 지정하고 `chunksize`만큼 끊어서 불러와서 처리하게 되면 용량이 매우 큰 데이터도 처리할 수 있습니다.

예시) `chunksize=10`: 10개의 데이터를 로드합니다.

In [53]:
# 'data/seoul_population.csv' 파일을 10개 만큼씩 끊어 읽어 옵니다
df = pd.read_csv('data/seoul_population.csv', chunksize=10)
type(df)

pandas.io.parsers.readers.TextFileReader

In [46]:
print(dir(df))  # __iter__, __next__

['__abstractmethods__', '__class__', '__class_getitem__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__slots__', '__str__', '__subclasshook__', '__weakref__', '_abc_impl', '_check_file_or_buffer', '_clean_options', '_currow', '_engine', '_engine_specified', '_failover_to_python', '_get_options_with_defaults', '_make_engine', 'chunksize', 'close', 'engine', 'get_chunk', 'handles', 'nrows', 'options', 'orig_options', 'read', 'squeeze']


In [None]:
df = list(df)
for d in df:
    display(len(d), type(d))

In [None]:
df = pd.read_csv('data/seoul_population.csv', chunksize=10)
pd.concat(df)  ##  여러 조각난 것을 하나로 합치기

### CSV - 저장하기

저장하는 방법은 excel과 유사합니다. 다만, csv파일 형식에는 `sheet_name` 옵션은 없습니다.

In [63]:
df = pd.read_csv('data/seoul_population.csv')

In [64]:
# df를 'sample.csv'로 저장합니다. 이때 index는 저장되지 않도록 합니다.
df.to_csv('sample.csv', index=False)

읽어들인 **Excel 파일도 Csv로 저장**할 수 있습니다.

In [65]:
excel = pd.read_excel('data/seoul_transportation.xlsx', sheet_name='버스')
excel.head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855


In [66]:
# excel을 'sample1.csv'로 저장합니다. 이때 index는 저장되지 않도록 합니다.
excel.to_csv('sample1.csv', index=False)

### 연습문제

data 폴더에 있는 mySUNI_1.csv 파일을 읽어서 df에 저장하세요.

In [67]:
# 코드를 입력하세요.
import os
filename = os.path.join('data', 'mySUNI_1.csv')
df = pd.read_csv(filename)
df.head(2)

Unnamed: 0,지역,GS칼텍스_셀프,GS칼텍스_일반,S-OIL_셀프,S-OIL_일반,SK에너지_셀프,SK에너지_일반,알뜰(ex)_셀프,알뜰주유소_셀프,알뜰주유소_일반,자가상표_셀프,자가상표_일반,현대오일뱅크_셀프,현대오일뱅크_일반
0,서울 강남구,1479.628286,1647.3725,1459.241304,1641.747917,1452.455417,1790.737444,,,,,,1408.8225,1604.995806
1,서울 강동구,1451.55875,1472.213056,1456.763333,1528.7025,1457.974359,1666.781667,,,,,,1412.656667,1441.861667


data 폴더에 있는 mySUNI_2.csv 파일을 읽어서 df에 저장하세요.
- encoding은 cp949로 되어있습니다.

In [70]:
# 코드를 입력하세요.
import os

def get_encoding(filename):
    import chardet
    with open(filename, 'rb') as fb:
        enc = chardet.detect(fb.readline())['encoding']
    return enc

filename = os.path.join('data', 'mySUNI_2.csv')
df = pd.read_csv(filename, encoding=get_encoding(filename))
df.head(2)

Unnamed: 0,지역,GS칼텍스_셀프,GS칼텍스_일반,S-OIL_셀프,S-OIL_일반,SK에너지_셀프,SK에너지_일반,알뜰(ex)_셀프,알뜰주유소_셀프,알뜰주유소_일반,자가상표_셀프,자가상표_일반,현대오일뱅크_셀프,현대오일뱅크_일반
0,서울 강남구,1479.628286,1647.3725,1459.241304,1641.747917,1452.455417,1790.737444,,,,,,1408.8225,1604.995806
1,서울 강동구,1451.55875,1472.213056,1456.763333,1528.7025,1457.974359,1666.781667,,,,,,1412.656667,1441.861667


data 폴더에 있는 mySUNI_3.csv 파일을 읽어서 df에 저장하세요.
- encoding은 cp949로 되어있습니다.

In [71]:
# 코드를 입력하세요.
import os

def get_encoding(filename):
    import chardet
    with open(filename, 'rb') as fb:
        enc = chardet.detect(fb.readline())['encoding']
    return enc

filename = os.path.join('data', 'mySUNI_3.csv')
df = pd.read_csv(filename, encoding=get_encoding(filename))
df.head(2)


Unnamed: 0,지역|GS칼텍스_셀프|GS칼텍스_일반|S-OIL_셀프|S-OIL_일반|SK에너지_셀프|SK에너지_일반|알뜰(ex)_셀프|알뜰주유소_셀프|알뜰주유소_일반|자가상표_셀프|자가상표_일반|현대오일뱅크_셀프|현대오일뱅크_일반
0,서울 강남구|1479.6282857142858|1647.3725000000002|1...
1,서울 강동구|1451.5587500000001|1472.2130555555555|1...


- 구분자(sep)는 ,가 아닌 |로 되어있습니다 다시 파일을 읽어오세요.

In [72]:
# 코드를 입력하세요.
df = pd.read_csv(filename, encoding=get_encoding(filename), sep='|')
df.head(2)

Unnamed: 0,지역,GS칼텍스_셀프,GS칼텍스_일반,S-OIL_셀프,S-OIL_일반,SK에너지_셀프,SK에너지_일반,알뜰(ex)_셀프,알뜰주유소_셀프,알뜰주유소_일반,자가상표_셀프,자가상표_일반,현대오일뱅크_셀프,현대오일뱅크_일반
0,서울 강남구,1479.628286,1647.3725,1459.241304,1641.747917,1452.455417,1790.737444,,,,,,1408.8225,1604.995806
1,서울 강동구,1451.55875,1472.213056,1456.763333,1528.7025,1457.974359,1666.781667,,,,,,1412.656667,1441.861667


데이터를 5개씩 끊어서 읽어오세요.

In [76]:
# 코드를 입력하세요.
df = pd.read_csv(filename, encoding=get_encoding(filename), sep='|', chunksize=5)

In [78]:
df = list(df)
for d in df:
    print(len(d), type(d))

5 <class 'pandas.core.frame.DataFrame'>
5 <class 'pandas.core.frame.DataFrame'>
5 <class 'pandas.core.frame.DataFrame'>
5 <class 'pandas.core.frame.DataFrame'>
5 <class 'pandas.core.frame.DataFrame'>
