## 외부 파일 읽어오기
- CSV 파일 읽기
- Excel 파일 읽기
- JSON 파일 읽기
- HTML 읽기
- Web Scraping

## CSV 파일 읽기 테스트  
### read_csv(filepath 또는 buffer, header=?, index_col=?)


* header 옵션
    - 열 이름이 되는 행을 지정
* index_col 옵션
    - 행 주소가 되는 열을 지정  

- 옵션  
    <table border=1>  
        <tr><td><center>옵션</center></td><td><center>설명</center></tr>  
        <tr><td>filepath_or_buffer</td><td>파일의 위치, URL</td></tr>  
        <tr><td>sep(or delimiter)</td><td>텍스트 형 데이터를 구분하기 위한 문자</td></tr>  
        <tr><td>header</td><td>열 이름이 되는 행의 번호(기본 0)<br>첫 행부터 데이터가 있는 경우 None</td></tr>  
        <tr><td>index_col</td><td>행 주소가 되는 열의 번호 또는 이름</td></tr>  
        <tr><td>names</td><td>열 이름으로 쓸 문자열 리스트</td></tr>  
        <tr><td>skipselected_rows</td><td>처음 몇 줄을 skip인 지 숫자 지정<br>skip할 행 번호 리스트</td></tr>  
        <tr><td>parse_dates</td><td>날짜 텍스트를 datetime64로 변환할 지 여부(기본:false)</td></tr>  
        <tr><td>skip_footer</td><td>마지막 몇 줄 skip할 지 숫자로 지정</td></tr>  
        <tr><td>encoding</td><td>텍스트 인코딩 종류 지정</td></tr>  
    </table>


In [2]:
import pandas as pd

# 파일경로를 filePath에 지정
filePath = 'data/csv_sample.csv'

In [3]:
# read_csv() 함수를 사용해 데이터프레임 변환. 변수 dataframe1에 저장
# default로 첫 줄 자료는 header로 사용됨
dataframe1 = pd.read_csv(filePath)
print(dataframe1)
print('\n')

   col_0  col_1  col_2  col_3
0      0      1      2      3
1      1      6      5      4
2      2      7      8      9




In [4]:
# read_csv() 함수를 사용해 데이터프레임 변환. 변수 dataframe2에 저장. header=None 옵션
# 헤더 없이 파일 전체를 데이터로 취급하는 경우
dataframe2 = pd.read_csv(filePath, header=None)
print(dataframe2)
print('\n')

# 실습 : header의 값을 0, 1, ...로 차례로 바꾸어 출력 결과를 관찰

       0      1      2      3
0  col_0  col_1  col_2  col_3
1      0      1      2      3
2      1      6      5      4
3      2      7      8      9




In [5]:
# read_csv() 함수를 사용해 데이터프레임 변환. 변수 dataframe3에 저장. index_col=None 옵션
# 디폴트로 정수 인덱스 자동 지정
dataframe3 = pd.read_csv(filePath, index_col=None)
print(dataframe3)
print('\n')

   col_0  col_1  col_2  col_3
0      0      1      2      3
1      1      6      5      4
2      2      7      8      9




In [9]:
# read_csv() 함수를 사용해 데이터프레임 변환. 변수 dataframe4에 저장. index_col='col0' 옵션
# 데이터의 일부를 인덱스 열로 지정
dataframe4 = pd.read_csv(filePath, index_col='col_0')
print(dataframe4)

# 문제 멀티인덱스로 col_01, col_2를 지정해 보아라
dataframe4 = pd.read_csv(filePath, index_col=['col_0', 'col_2'])
print(dataframe4)

             col_1  col_3
col_0 col_2              
0     2          1      3
1     5          6      4
2     8          7      9


In [42]:
# 실습 : header와 index_col을 함께 지정해 보기

## Excel 파일 읽기 테스트  
### read_excel(filepath_or_buffer)

- 오류날 경우 lxsl 패키지 설치해야 함 >> pip install --upgrade lxsl
- openpyxl 패키지도 함께 설치        >> pip install --upgrade openpyxl


In [13]:
import pandas as pd

# read_excel() 함수를 사용해 데이터프레임 변환 
dataframe1 = pd.read_excel('data/남북한발전전력량.xlsx')               # header=0 (default 옵션)
dataframe2 = pd.read_excel('data/남북한발전전력량.xlsx', header=None)  # header=None 옵션

# 데이터프레임 출력
display(dataframe1)
print('\n')
display(dataframe2)

# 문제 : 엑셀 원본과 같이 전력양과 발전 전력별이 멀티인덱스로 구성되도록 해 보아라.
# 단, 데이터를 이미 읽었으므로 set_index()함수를 사용해 멀티인덱스 구성하라.
df1=dataframe1.set_index(['전력량 (억㎾h)', '발전 전력별'])
display(df1)

Unnamed: 0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
1,,수력,64,51,49,60,41,55,52,54,...,50,56,56,65,78,77,84,78,58,66
2,,화력,484,573,696,803,1022,1122,1264,1420,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
3,,원자력,529,563,565,581,587,670,739,771,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
4,,신재생,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
5,북한,합계,277,263,247,221,231,230,213,193,...,236,255,235,237,211,215,221,216,190,239
6,,수력,156,150,142,133,138,142,125,107,...,133,141,125,134,132,135,139,130,100,128
7,,화력,121,113,105,88,93,88,88,86,...,103,114,110,103,79,80,82,86,90,111
8,,원자력,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-






Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
1,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
2,,수력,64,51,49,60,41,55,52,54,...,50,56,56,65,78,77,84,78,58,66
3,,화력,484,573,696,803,1022,1122,1264,1420,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
4,,원자력,529,563,565,581,587,670,739,771,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
5,,신재생,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
6,북한,합계,277,263,247,221,231,230,213,193,...,236,255,235,237,211,215,221,216,190,239
7,,수력,156,150,142,133,138,142,125,107,...,133,141,125,134,132,135,139,130,100,128
8,,화력,121,113,105,88,93,88,88,86,...,103,114,110,103,79,80,82,86,90,111
9,,원자력,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


Unnamed: 0_level_0,Unnamed: 1_level_0,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
전력량 (억㎾h),발전 전력별,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,2153,2393,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
,수력,64,51,49,60,41,55,52,54,61,61,...,50,56,56,65,78,77,84,78,58,66
,화력,484,573,696,803,1022,1122,1264,1420,1195,1302,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
,원자력,529,563,565,581,587,670,739,771,897,1031,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
,신재생,-,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
북한,합계,277,263,247,221,231,230,213,193,170,186,...,236,255,235,237,211,215,221,216,190,239
,수력,156,150,142,133,138,142,125,107,102,103,...,133,141,125,134,132,135,139,130,100,128
,화력,121,113,105,88,93,88,88,86,68,83,...,103,114,110,103,79,80,82,86,90,111
,원자력,-,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


## JSON 파일 읽기 테스트  
### read_json(filepath_or_buffer)

In [44]:
import pandas as pd

# read_json() 함수를 사용해 데이터프레임 변환 
dataframe = pd.read_json('data/json_sample.json')  
print(dataframe)
print('\n')
print(dataframe.index)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')


## HTML 파일 읽기 테스트  
### read_html(filepath_or_buffer)
* html 파일 처리 관련 패키지 설치
    - pip install lxml

In [15]:
import pandas as pd

# HTML 파일 경로 or 웹 페이지 주소를 url 변수에 저장
url ='data/sample.html'

# HTML 웹페이지의 표(table)를 가져와서 데이터프레임으로 변환 
tables = pd.read_html(url)

# tables의 데이터 타입은 무얼까?
print(type(tables))

# 표(table)의 개수 확인
print(len(tables))
print('\n')
print(tables)

# tables의 첫째 항목, 둘째 항목의 데이터 타입을 확인해보자!
print(type(tables[0]))
print(type(tables[1]))

<class 'list'>
2


[   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9,          name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True]
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


In [46]:
# tables 리스트의 원소를 iteration하면서 각 위치의 데이터를 화면에 출력
for index in range(len(tables)):
    print("tables[%s]" % index)
    print(tables[index])
    print('\n')

tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True




In [47]:
# 파이썬 패키지 정보가 들어 있는 두 번째 데이터프레임을 선택하여 dataframe 변수에 저장
dataframe = tables[1] 

# 'name' 열을 인덱스로 지정
dataframe.set_index(['name'], inplace=True)
print(dataframe)

            year        developer  opensource
name                                         
NumPy       2006  Travis Oliphant        True
matplotlib  2003   John D. Hunter        True
pandas      2008    Wes Mckinneye        True


## Web Scraping 테스트 
* beautifulsoup
  - HTML과 XML 문서를 파싱할 수 있는 파이썬의 패키지
  - 웹 스크래핑을 위해 필요한 기능 제공
  - HTML로부터 데이터 추출을 위해 구문분석한 페이지의 구문분석 트리 생성
  - 패키지 설치
    - pip install beautifulsoup4


* request
    -  HTTP 요청을 보내는 모듈
    - [requests 공식문서](http://docs.python-requests.org/)

* re
    - 정규표현식 모듈
    - [참고자료](https://wikidocs.net/4308)

In [16]:
# 필요한 라이브러리들 불러오기
import pandas as pd
import requests # http요청 패키지 로드
import re       # 정규표현식 패키지 로드
from bs4 import BeautifulSoup # 웹스크래핑 패키지 로드

In [17]:
# 위키피디아의 미국 ETF 웹 페이지로부터 필요한 정보를 추출(스크래핑)해 딕셔너리 etfs로 저장
etf_url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
response = requests.get(etf_url)
soup_result =BeautifulSoup(response.text, 'lxml')
selected_rows = soup_result.select('div > ul > li')

In [18]:
# 스크래핑한 html 문서 출력
print(response.text)

<!DOCTYPE html>
<html class="client-nojs" lang="en" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>List of American exchange-traded funds - Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"dd250db5-4673-4a4d-8958-954e6a65062c","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"List_of_American_exchange-traded_funds","wgTitle":"List of American exchange-traded funds","wgCurRevisionId":1071580546,"wgRevisionId":1071580546,"wgArticleId":16294432,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Articles with short description","Short description matches Wikidata","Dynami

In [19]:
print(soup_result)

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
<head>
<meta charset="utf-8"/>
<title>List of American exchange-traded funds - Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"dd250db5-4673-4a4d-8958-954e6a65062c","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"List_of_American_exchange-traded_funds","wgTitle":"List of American exchange-traded funds","wgCurRevisionId":1071580546,"wgRevisionId":1071580546,"wgArticleId":16294432,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Articles with short description","Short description matches Wikidata","Dynami

In [20]:
# 선택한 행 출력
print(selected_rows)

[<li class="toclevel-1 tocsection-1"><a href="#Stock_ETFs"><span class="tocnumber">1</span> <span class="toctext">Stock ETFs</span></a>
<ul>
<li class="toclevel-2 tocsection-2"><a href="#Broad_market_ETFs"><span class="tocnumber">1.1</span> <span class="toctext">Broad market ETFs</span></a></li>
<li class="toclevel-2 tocsection-3"><a href="#Index-tracking_ETFs"><span class="tocnumber">1.2</span> <span class="toctext">Index-tracking ETFs</span></a></li>
<li class="toclevel-2 tocsection-4"><a href="#Style_ETFs"><span class="tocnumber">1.3</span> <span class="toctext">Style ETFs</span></a>
<ul>
<li class="toclevel-3 tocsection-5"><a href="#Large-cap_ETFs"><span class="tocnumber">1.3.1</span> <span class="toctext">Large-cap ETFs</span></a></li>
<li class="toclevel-3 tocsection-6"><a href="#Mid-cap_ETFs"><span class="tocnumber">1.3.2</span> <span class="toctext">Mid-cap ETFs</span></a></li>
<li class="toclevel-3 tocsection-7"><a href="#Small-cap_ETFs"><span class="tocnumber">1.3.3</span> <s

In [21]:
etfs = {}
for r in selected_rows:
    
    try:
        etf_names = re.findall('^(.*) \(NYSE', r.text)
        etf_markets = re.findall('\((.*)\|', r.text)
        etf_tickers = re.findall('NYSE Arca\|(.*)\)', r.text)
        print(etf_names,etf_tickers)
        if (len(etf_names) > 0) & (len(etf_tickers) > 0):
            #print(etf_names, etf_tickers)
            etfs[etf_tickers[0]] = [etf_markets[0], etf_names[0]]

    except AttributeError as error:
        pass    

[] []
[] []
[] []
[] []
[] []
[] []
[] []
[] []
[] []
[] []
['iShares Core S&P Total US Stock Mkt'] []
[] []
['iShares Russell 3000 Index'] []
['Schwab US Broad Market ETF'] []
['Schwab Fundamental U.S. Broad Market Index ETF'] []
['Vanguard Total World Stock'] []
['Vanguard Total Stock Market'] []
['Vanguard Total International Stock'] []
['Vanguard Russell 3000'] []
['DIAMONDS Trust, Series 1'] []
['Guggenheim S&P 500 Equal Weight'] []
['iShares S&P Global 100 Index'] []
['iShares S&P 500 Index'] []
['SPDR S&P 500'] []
['SPDR Gender Diversity'] []
['Vanguard S&P 500'] []
['iShares Russell 2000 Index'] []
['iShares S&P 100 Index'] []
[] []
['Guggenheim Multi-Asset Income'] []
['Guggenheim S&P 500 Pure Growth ETF'] []
['Guggenheim S&P 500 Pure Value ETF'] []
['iShares Russell 1000 Index'] []
['iShares S&P 500 Index'] []
['PowerShares Buyback Achievers'] []
['PowerShares FTSE RAFI US 1000'] []
['PowerShares S&P 500 Low Volatility'] []
['Schwab US Large-Cap ETF'] []
['Schwab US Dividend 

In [22]:
# etfs 딕셔너리 출력
print(etfs)
print('\n')

{}




In [54]:
# etfs 딕셔너리를 데이터프레임으로 변환
dataframe = pd.DataFrame(etfs)
print(dataframe)

Empty DataFrame
Columns: []
Index: []


## 파일 저장하기
- CSV 파일로 저장
- Excel 파일로 저장
- JSON 파일 저장


In [23]:
import pandas as pd

# data를 dataframe으로 변환해 저장
data = {'name' : [ '경민', '영희', '길동'],
        'SpringFramework' : [ "A", "A+", "B"],
        'Java' : [ "C", "B", "B+"],
        'c++' : [ "B+", "C", "C+"],
        }

dataframe = pd.DataFrame(data)
dataframe.set_index('name', inplace=True)   # 인덱스로 name 열을 지정
print(dataframe)

# to_csv() 메소드로 CSV 파일 형식으로 내보내기. 파열명은 저장하기.csv로 저장
dataframe.to_csv("data/저장하기.csv")

     SpringFramework Java c++
name                         
경민                 A    C  B+
영희                A+    B   C
길동                 B   B+  C+


In [24]:
import pandas as pd

# data(딕셔너리 구조)를 dataframe에 저장 
data = {'name' : [ '경민', '영희', '길동'],
        'SpringFramework' : [ "A", "A+", "B"],
        'Java' : [ "C", "B", "B+"],
        'c++' : [ "B+", "C", "C+"],
        }

dataframe = pd.DataFrame(data)
dataframe.set_index('name', inplace=True)   # 인덱스로 name 열을 지정
print(dataframe)

# to_json() 메소드로 JSON 파일 형식으로 내보내기. 파열명은 저장하기.json로 저장
dataframe.to_json("data/저장하기.json")

     SpringFramework Java c++
name                         
경민                 A    C  B+
영희                A+    B   C
길동                 B   B+  C+


In [25]:
import pandas as pd

# data(딕셔너리 구조)를 dataframe에 저장  
data = {'name' : [ '경민', '영희', '길동'],
        'SpringFramework' : [ "A", "A+", "B"],
        'Java' : [ "C", "B", "B+"],
        'c++' : [ "B+", "C", "C+"],
        }

dataframe = pd.DataFrame(data)
dataframe.set_index('name', inplace=True)   # 인덱스로 name 열을 지정
print(dataframe)

# to_excel() 메소드로 엑셀 파일 형식으로 내보내기. 파열명은 저장하기.xlsx로 저장
dataframe.to_excel("data/저장하기.xlsx")

     SpringFramework Java c++
name                         
경민                 A    C  B+
영희                A+    B   C
길동                 B   B+  C+


---
### 여러 데이터 프레임을 합쳐 하나의 excel 파일로 저장하기

In [26]:
import pandas as pd

# DataFrame() 함수를 사용해 dataframe1, dataframe2에 저장 
data1 = {'name' : [ '경민', '영희', '길동'],
         'SpringFramework' : [ "A", "A+", "B"],
         'Java' : [ "C", "B", "B+"],
          'c++' : [ "B+", "C", "C+"]}

data2 = {'col0':[1,2,3], 
         'col1':[4,5,6], 
         'col2':[7,8,9], 
         'col3':[10,11,12], 
         'col4':[13,14,15]}

dataframe1 = pd.DataFrame(data1)
dataframe1.set_index('name', inplace=True)      # 인덱스로 name 열을 지정
print(dataframe1)
print('\n')

dataframe2 = pd.DataFrame(data2)
dataframe2.set_index('col0', inplace=True)        # 인덱스로 col0 열을 지정
print(dataframe2)

# dataframe1을 'sheet1'으로, dataframe2를 'sheet2'로 저장 (엑셀파일명은 "여러시트로 저장.xlsx")
writer = pd.ExcelWriter("data/여러시트로 저장.xlsx")
dataframe1.to_excel(writer, sheet_name="sheet1")
dataframe2.to_excel(writer, sheet_name="sheet2")
writer.save()

     SpringFramework Java c++
name                         
경민                 A    C  B+
영희                A+    B   C
길동                 B   B+  C+


      col1  col2  col3  col4
col0                        
1        4     7    10    13
2        5     8    11    14
3        6     9    12    15
