# Part2. 데이터 입출력
## 1. 외부 파일 읽어오기
|File Format|Reader|Writer|
|----|----|----|
|CSV|read_csv|to_csv|
|JSON|read_json|to_json|
|HTML|read_html|to_html|
|Local clipboard|read_clipboard|to_clipboard|
|MS Excel|read_excel|to_excel|
|HDF5 Format|read_hdf|to_hdf|
|SQL|read_sql|to_sql|

### 1.1 CSV 파일
`read_csv()` 함수의 header 옵션은 데이터프레임의 열 이름으로 사용할 행을 지정한다.  
`index_col` 옵션은 데이터프레임의 행 인덱스가 되는 열을 지정한다.

In [1]:
import pandas as pd

In [2]:
file_path = './read_csv_sample.csv'
file_path

'./read_csv_sample.csv'

In [3]:
df1 = pd.read_csv(file_path)
df1

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9


In [4]:
# header=None 옵션
df2 = pd.read_csv(file_path, header=None)
df2

Unnamed: 0,0,1,2,3
0,c0,c1,c2,c3
1,0,1,4,7
2,1,2,5,8
3,2,3,6,9


In [5]:
# index_col=None 옵션
df3 = pd.read_csv(file_path, index_col=None)
df3

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9


In [6]:
# index_col='c0' 옵션
df4 = pd.read_csv(file_path, index_col='c0')
df4

Unnamed: 0_level_0,c1,c2,c3
c0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,4,7
1,2,5,8
2,3,6,9


CSV 파일에 따라서는 쉼표(,) 대신 탭(\t)이나 공백(" ")으로 텍스트를 구분하기도 함.  

|옵션|설명|
|----|----|
|path|파일의 위치(파일명 포함), URL|
|sep(또는 delimiter)|텍스트 데이터를 필드별로 구분하는 문자|
|header|열 이름으로 사용될 행의 번호(기본값은 0)<br/>header가 없고 첫 행부터 데이터가 있는 경우 None으로 지정|
|index_col|행 인덱스로 사용할 열의 번호 또는 열이름|
|names|열 이름으로 사용할 문자열의 리스트|
|skiprows|처음 몇 줄을 skip할 것인지 설정(숫자 입력)<br/>skip하려는 행의 번호를 담은 리스트로 설정 가능(예: [1, 3, 5])|
|parse_dates|날짜 텍스트를 datetime64로 변환할 것인지 설정(기본값은 False)|
|skip_footer|마지막 몇 줄을 skip할 것인지 설정(숫자 입력)|
|encoding|텍스트 인코딩 종류를 지정(예: 'utf-8')|

### 1.2 Excel 파일
엑셀파일은 데이터프레임과 일대일로 대응함.  
read_csv() 함수의 옵션을 그대로 사용 가능.

In [7]:
df1 = pd.read_excel('./남북한발전전력량.xlsx') # header=0 (default 옵션)
df1

Unnamed: 0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
1,,수력,64,51,49,60,41,55,52,54,...,50,56,56,65,78,77,84,78,58,66
2,,화력,484,573,696,803,1022,1122,1264,1420,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
3,,원자력,529,563,565,581,587,670,739,771,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
4,,신재생,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
5,북한,합계,277,263,247,221,231,230,213,193,...,236,255,235,237,211,215,221,216,190,239
6,,수력,156,150,142,133,138,142,125,107,...,133,141,125,134,132,135,139,130,100,128
7,,화력,121,113,105,88,93,88,88,86,...,103,114,110,103,79,80,82,86,90,111
8,,원자력,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


In [8]:
df2 = pd.read_excel('./남북한발전전력량.xlsx', header=None) # header=None 옵션
df2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
1,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
2,,수력,64,51,49,60,41,55,52,54,...,50,56,56,65,78,77,84,78,58,66
3,,화력,484,573,696,803,1022,1122,1264,1420,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
4,,원자력,529,563,565,581,587,670,739,771,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
5,,신재생,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
6,북한,합계,277,263,247,221,231,230,213,193,...,236,255,235,237,211,215,221,216,190,239
7,,수력,156,150,142,133,138,142,125,107,...,133,141,125,134,132,135,139,130,100,128
8,,화력,121,113,105,88,93,88,88,86,...,103,114,110,103,79,80,82,86,90,111
9,,원자력,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


### 1.3 JSON 파일

In [9]:
# read_json() 함수로 데이터프레임 변환
df = pd.read_json('read_json_sample.json')
df

Unnamed: 0,developer,name,opensource,year
NumPy,Travis Oliphant,,True,2006
matplotlib,John D. Hunter,,True,2003
pandas,Wes Mckinneye,,True,2008


In [10]:
df.index

Index(['NumPy', 'matplotlib', 'pandas'], dtype='object')

## 2. 웹(web)에서 가져오기
### 2.1 HTML 웹 페이지에서 표 속성 가져오기
`read_html()` 함수는 HTML 웹 페이지에 있는 `<table>`태그에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환.  
표 데이터들은 각각 별도의 데이터프레임으로 변환되기 때문에 여러 개의 데이터프레임(표)을 원소로 갖는 리스트가 반환됨.

In [11]:
# HTML 파일 경로 OR 웹 페이지 주소를 URL 변수에 저장
url = 'sample.html'

In [12]:
# HTML 웹페이지의 표(table)를 가져와서 데이터프레임으로 변환
tables = pd.read_html(url)

In [13]:
len(tables)

2

In [14]:
tables

[   Unnamed: 0  c0  c1  c2  c3
 0           0   0   1   4   7
 1           1   1   2   5   8
 2           2   2   3   6   9,
          name  year        developer  opensource
 0       NumPy  2006  Travis Oliphant        True
 1  matplotlib  2003   John D. Hunter        True
 2      pandas  2008    Wes Mckinneye        True]

In [15]:
type(tables)

list

In [16]:
# tables 리스트의 원소를 iteration하면서 각각 화면 출력
for i in range(len(tables)):
    print("tables[%s]" % i)
    print(tables[i])
    print('\n')

tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True




In [17]:
# 파이썬 패키지 정보가 들어 있는 두 번째 데이터프레임을 선택하여 df 변수에 저장
df = tables[1]
df

Unnamed: 0,name,year,developer,opensource
0,NumPy,2006,Travis Oliphant,True
1,matplotlib,2003,John D. Hunter,True
2,pandas,2008,Wes Mckinneye,True


In [18]:
# 'name' 열을 인덱스로 지정
df.set_index(['name'], inplace=True)
df

Unnamed: 0_level_0,year,developer,opensource
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
NumPy,2006,Travis Oliphant,True
matplotlib,2003,John D. Hunter,True
pandas,2008,Wes Mckinneye,True


### 2.2 웹 스크래핑
미국 ETF 리스트 가져오기

In [19]:
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

In [20]:
# 위키피디아 미국 ETF 웹 페이지에서 필요한 정보를 스크래핑하여 딕셔너리 형태로 변수 etfs에 저장
url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url)
resp

<Response [200]>

In [21]:
soup = BeautifulSoup(resp.text, 'lxml')
soup

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
<head>
<meta charset="utf-8"/>
<title>List of American exchange-traded funds - Wikipedia</title>
<script>document.documentElement.className=document.documentElement.className.replace(/(^|\s)client-nojs(\s|$)/,"$1client-js$2");RLCONF={"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_American_exchange-traded_funds","wgTitle":"List of American exchange-traded funds","wgCurRevisionId":910276864,"wgRevisionId":910276864,"wgArticleId":16294432,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Dynamic lists","All articles with unsourced statements","Articles with unsourced statements from May 2015","Exchange-traded funds"],"wgBreakFrames":!1,"wgPageContentLanguage":"en","wgPageContentModel":"wikitext","wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Janua

In [22]:
rows = soup.select('div > ul > li')
rows

[<li class="toclevel-1 tocsection-1"><a href="#Stock_ETFs"><span class="tocnumber">1</span> <span class="toctext">Stock ETFs</span></a>
 <ul>
 <li class="toclevel-2 tocsection-2"><a href="#Broad_market_ETFs"><span class="tocnumber">1.1</span> <span class="toctext">Broad market ETFs</span></a></li>
 <li class="toclevel-2 tocsection-3"><a href="#Index-tracking_ETFs"><span class="tocnumber">1.2</span> <span class="toctext">Index-tracking ETFs</span></a></li>
 <li class="toclevel-2 tocsection-4"><a href="#Style_ETFs"><span class="tocnumber">1.3</span> <span class="toctext">Style ETFs</span></a>
 <ul>
 <li class="toclevel-3 tocsection-5"><a href="#Large-cap_ETFs"><span class="tocnumber">1.3.1</span> <span class="toctext">Large-cap ETFs</span></a></li>
 <li class="toclevel-3 tocsection-6"><a href="#Mid-cap_ETFs"><span class="tocnumber">1.3.2</span> <span class="toctext">Mid-cap ETFs</span></a></li>
 <li class="toclevel-3 tocsection-7"><a href="#Small-cap_ETFs"><span class="tocnumber">1.3.3</

In [23]:
etfs = {}
for row in rows:
#     try:
#         print(row.text)
    try:
        etf_name = re.findall('^(.*) \(NYSE', row.text)
        print(etf_name)
        etf_market = re.findall('\((.*)\|', row.text)
        print(etf_market)
        etf_ticker = re.findall('NYSE Arca\|(.*)\)', row.text)
        print(etf_ticker)
        print()

        if (len(etf_ticker) > 0) & (len(etf_market) > 0) & (len(etf_name) > 0):
            etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]]
    except AttributeError as err:
        pass
    
# etfs 딕셔너리 출력
etfs

[]
[]
[]

[]
[]
[]

[]
[]
[]

[]
[]
[]

[]
[]
[]

[]
[]
[]

[]
[]
[]

[]
[]
[]

[]
[]
[]

[]
[]
[]

['iShares Core S&P Total US Stock Mkt']
['NYSE Arca']
['ITOT']

[]
['NASDAQ']
[]

['iShares Russell 3000 Index']
['NYSE Arca']
['IWV']

['Schwab US Broad Market ETF']
['NYSE Arca']
['SCHB']

['Schwab Fundamental U.S. Broad Market Index ETF']
['NYSE Arca']
['FNDB']

['Vanguard Total World Stock']
['NYSE Arca']
['VT']

['Vanguard Total Stock Market']
['NYSE Arca']
['VTI']

['Vanguard Total International Stock']
['NYSE Arca']
['VXUS']

['Vanguard Russell 3000']
['NYSE Arca']
['VTHR']

['DIAMONDS Trust, Series 1']
['NYSE Arca']
['DIA']

['Guggenheim S&P 500 Equal Weight']
['NYSE Arca']
['RSP']

['iShares S&P Global 100 Index']
['NYSE Arca']
['IOO']

['iShares S&P 500 Index']
['NYSE Arca']
['IVV']

['SPDR S&P 500']
['NYSE Arca']
['SPY']

['SPDR Gender Diversity']
['NYSE Arca ']
[]

['Vanguard S&P 500']
['NYSE Arca']
['VOO']

['iShares Russell 2000 Index']
['NYSE Arca']
['IWM']

['iShares S&P 

{'ITOT': ['NYSE Arca', 'iShares Core S&P Total US Stock Mkt'],
 'IWV': ['NYSE Arca', 'iShares Russell 3000 Index'],
 'SCHB': ['NYSE Arca', 'Schwab US Broad Market ETF'],
 'FNDB': ['NYSE Arca', 'Schwab Fundamental U.S. Broad Market Index ETF'],
 'VT': ['NYSE Arca', 'Vanguard Total World Stock'],
 'VTI': ['NYSE Arca', 'Vanguard Total Stock Market'],
 'VXUS': ['NYSE Arca', 'Vanguard Total International Stock'],
 'VTHR': ['NYSE Arca', 'Vanguard Russell 3000'],
 'DIA': ['NYSE Arca', 'DIAMONDS Trust, Series 1'],
 'RSP': ['NYSE Arca', 'Guggenheim S&P 500 Equal Weight'],
 'IOO': ['NYSE Arca', 'iShares S&P Global 100 Index'],
 'IVV': ['NYSE Arca', 'iShares S&P 500 Index'],
 'SPY': ['NYSE Arca', 'SPDR S&P 500'],
 'VOO': ['NYSE Arca', 'Vanguard S&P 500'],
 'IWM': ['NYSE Arca', 'iShares Russell 2000 Index'],
 'OEF': ['NYSE Arca', 'iShares S&P 100 Index'],
 'CVY': ['NYSE Arca', 'Guggenheim Multi-Asset Income'],
 'RPG': ['NYSE Arca', 'Guggenheim S&P 500 Pure Growth ETF'],
 'RPV': ['NYSE Arca', 'Gugg

In [24]:
# etfs 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(etfs)
df

Unnamed: 0,AADR,ACCU,AGG,AGLS,ALD,AMLP,AND,ARGT,ARKG,ARKK,...,XLE,XLF,XLI,XLK,XLP,XLU,XLV,XLY,XOP,YPRO
0,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,...,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca
1,AdvisorShares WCM/BNY Mellon Focused Growth AD...,AdvisorShares Accuvest Global Opportunities ETF,iShares Barclays Aggregate Bond,AdvisorShares Accuvest Global Long Short ETF,WisdomTree Asia Local Debt,ALPS Alerian MLP ETF,Global X FTSE Andean 40 ETF,Global X FTSE Argentina 20 ETF,ARK Genomic Revolution Multi-Sector ETF,ARK Innovation ETF,...,Energy Select Sector SPDR,Financial Select Sector SPDR,Industrial Select Sector SPDR,Technology Select Sector SPDR,Consumer Staples Select Sector SPDR,Utilities Select Sector SPDR,Health Care Select Sector SPDR,Consumer Discretionary Select Sector SPDR,SPDR S&P Oil & Gas Explor & Prod ETF,AdvisorShares YieldPro ETF


## 3. API 활용하여 데이터 수집하기

In [25]:
## google 지오코딩 API를 통해 위도, 경도 데이터 가져오기
# 라이브러리 가저오기
import googlemaps
import pandas as pd

In [26]:
my_key = 'AIzaSyByxcKZXtUynMYbqmSn7DPdXQIbHR1HSRs'

In [27]:
# 구글맵스 객체 생성하기
maps = googlemaps.Client(key=my_key)
maps

<googlemaps.client.Client at 0x26921d29eb8>

In [28]:
lat = [] # 위도
lng = [] # 경도

In [29]:
# 장소(또는 주소) 리스트
places = ['서울시청', '국립국악원', '해운대해수욕장', '에스코어']

In [47]:
i = 0
for place in places:
    i = i + 1
    try:
        print(i, place)
        # 지오코딩 API 결과값 호출하여 geo_location 변수에 저장
        geo_location = maps.geocode(place)[0].get('geometry')
        lat.append(geo_location['location']['lat'])
        lng.append(geo_location['location']['lng'])
        
    except:
        lat.append('')
        lng.append('')
        print(i)

1 서울시청
2 국립국악원
3 해운대해수욕장
4 에스코어


In [31]:
print(lat)
print(lng)

[37.5662952, 37.4777592, 35.1586975, 36.148738]
[126.9779451, 127.0083043, 129.1603842, -95.98396199999999]


In [32]:
# 데이터프레임으로 변환하기
df = pd.DataFrame({'위도':lat, '경도':lng}, index=places)
df

Unnamed: 0,경도,위도
서울시청,126.977945,37.566295
국립국악원,127.008304,37.477759
해운대해수욕장,129.160384,35.158698
에스코어,-95.983962,36.148738


In [36]:
df.loc['에스코어',:]

경도   -95.983962
위도    36.148738
Name: 에스코어, dtype: float64

## 4. 데이터 저장하기
### 4.1 CSV 파일로 저장

In [37]:
# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name': ['Jerry', 'Riah', 'Paul'],
        'algol': ['A', 'A+', 'B'],
        'basic': ['C', 'B', 'B+'],
        'c++': ['B+', 'C', 'C++']
       }
data

{'name': ['Jerry', 'Riah', 'Paul'],
 'algol': ['A', 'A+', 'B'],
 'basic': ['C', 'B', 'B+'],
 'c++': ['B+', 'C', 'C++']}

In [38]:
df = pd.DataFrame(data)
df

Unnamed: 0,algol,basic,c++,name
0,A,C,B+,Jerry
1,A+,B,C,Riah
2,B,B+,C++,Paul


In [39]:
df.set_index('name', inplace=True)
df

Unnamed: 0_level_0,algol,basic,c++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C++


In [40]:
# to_csv() 메소드를 사용하여 CSV 파일로 내보내기. 파일명은 df_sample.csv로 저장
df.to_csv('df_sample.csv')

### 4.2 JSON 파일로 저장
to_json()

In [41]:
# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name': ['Jerry', 'Riah', 'Paul'],
        'algol': ['A', 'A+', 'B'],
        'basic': ['C', 'B', 'B+'],
        'c++': ['B+', 'C', 'C++']
       }
data

{'name': ['Jerry', 'Riah', 'Paul'],
 'algol': ['A', 'A+', 'B'],
 'basic': ['C', 'B', 'B+'],
 'c++': ['B+', 'C', 'C++']}

In [44]:
df = pd.DataFrame(data)
df

Unnamed: 0,algol,basic,c++,name
0,A,C,B+,Jerry
1,A+,B,C,Riah
2,B,B+,C++,Paul


In [45]:
df.set_index('name', inplace=True)
df

Unnamed: 0_level_0,algol,basic,c++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C++


In [46]:
# to_json() 메소드를 사용하여 JSON 파일로 내보내기. 파일명은 df_sample.json으로 지정
df.to_json('df_sample.json')