## 외부 파일 읽어오기    
판다스는 다양한 형태의 외부 파일을 읽어와서 데이터프레임으로 변환하는 함수를 제공한다. 

|File Format|Reader|Writer|
|---|---|---|
|CSV|read_csv|to_csv|
|JSON|read_json|to_json|
|HTML|read_html|to_html|
|Local clipboard|read_clipboard|to_clipboard|
|MS Excel|read_excel|to_excel|
|HDF5 Format|read_hdf|to_hdf|
|SQL|read_sql|to_sql|


## CSV 파일
> csv 파일 --> 데이터프레임: pandas.read_csv('파일경로(이름)')   

read_csv() 함수의 header 옵션은 데이터프레임의 열 이름을 사용할 행을 지정한다. 

In [1]:
import pandas as pd

# 파일 경로(파이썬 파일과 같은 폴더)를 찾고, 변수 file_path에 저장
file_path = './read_csv_sample.csv'

# read_csv() 함수로 데이터프레임 변환. 변수 df1에 저장
df1 = pd.read_csv(file_path)
df1

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9


In [2]:
df2 = pd.read_csv(file_path, header=None)
df2

Unnamed: 0,0,1,2,3
0,c0,c1,c2,c3
1,0,1,4,7
2,1,2,5,8
3,2,3,6,9


In [6]:
df3 = pd.read_csv(file_path, index_col=None)
df3

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9


In [7]:
df4 = pd.read_csv(file_path, index_col='c0')
df4

Unnamed: 0_level_0,c1,c2,c3
c0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,4,7
1,2,5,8
2,3,6,9


csv 파일에 따라서는 쉽표(,) 대신 탭(\t)이나 공백("")으로 텍스트를 구분하기도 한다.
이때는 구분자(sep 또는 delimiter)옵션을 알맞게 입력해야 한다. 

### read_csv()함수의 옵션

|옵션|설명|
|---|---|
|path|파일의 위치 (파일명 포함), URL|
|sep(또는 delimiter)|텍스트 데이터를 필드별로 구분하는 문자|
|header|열 이름으로 사용될 행의 번호(기본값은 0) header가 없고 첫 행부터 데이터가 있는 경우 None으로 지정 가능|
|index_col|행 인덱스로 사용할 열의 번호 또는 열 이름|
|names|열 이름으로 사용할 문자열의 리스트|
|skiprows|처음 몇 줄을 skip할 것인지 설정(숫자입력) skip하려는 행의 번호를 담은 리스트로 설정 가능(예: [1,3,5])|
|parse_dates|날짜 텍스트를 datetime64로 변환할 것인지 설정(기본값은 False)|
|skip_footer|마지막 몇 줄을 skip할 것인지 설정(숫자입력)
|encoding|텍스트 인코딩 종류를 지정(예: 'utf-8')

### Excel 파일

read_excel() 함수의 사용법은 앞에서 살펴본 read_csv() 함수와 거의 비슷하다. 

> Excel 파일 --> 데이터프레임: pandas.read_excel("파일 경로(이름)")

Excel 파일의 경로를 확장자까지 포함하여 read_excel() 함수의 인자로 전달한다. header 옵션을 추가하지 않은 경우에는 Excel 파일의 첫 행이 열 이름을 구성함. 한편 header=None 옵션을 사용하면 정수형 인덱스를 열 이름으로 할당

In [8]:
import pandas as pd 

# read_excel() 함수로 데이터프레임 변환
df1 = pd.read_excel('./남북한발전전력량.xlsx') # header=0(default 옵션)
df2 = pd.read_excel('./남북한발전전력량.xlsx', header=None) # header= None옵션
df1


Unnamed: 0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
1,,수력,64,51,49,60,41,55,52,54,...,50,56,56,65,78,77,84,78,58,66
2,,화력,484,573,696,803,1022,1122,1264,1420,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
3,,원자력,529,563,565,581,587,670,739,771,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
4,,신재생,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
5,북한,합계,277,263,247,221,231,230,213,193,...,236,255,235,237,211,215,221,216,190,239
6,,수력,156,150,142,133,138,142,125,107,...,133,141,125,134,132,135,139,130,100,128
7,,화력,121,113,105,88,93,88,88,86,...,103,114,110,103,79,80,82,86,90,111
8,,원자력,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


In [9]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
1,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
2,,수력,64,51,49,60,41,55,52,54,...,50,56,56,65,78,77,84,78,58,66
3,,화력,484,573,696,803,1022,1122,1264,1420,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
4,,원자력,529,563,565,581,587,670,739,771,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
5,,신재생,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
6,북한,합계,277,263,247,221,231,230,213,193,...,236,255,235,237,211,215,221,216,190,239
7,,수력,156,150,142,133,138,142,125,107,...,133,141,125,134,132,135,139,130,100,128
8,,화력,121,113,105,88,93,88,88,86,...,103,114,110,103,79,80,82,86,90,111
9,,원자력,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


## JSON 파일 
json파일은 데이터 공유를 목적으로 개발된 특수한 파일 형식이다. 파이썬 딕셔너리와 비슷하게 'key : value' 구조를 갖는데, 구조가 중첩되는 방식에 따라 옵션을 다르게 적용한다. 

> JSON 파일 --> 데이터프레임: pandas.read_json("파일 경로(이름)")

자료실에서 예제 파일을 찾아서 다운로드 받는다. 파이썬 파일과 같은 폴더에 저장하는 것을 가정한다. JSON 파일에는 주요 파이썬 패키지의 출시년도, 개발자, 오픈소스 정보가 들어 있다. 

In [10]:
import pandas as pd

# read_json() 함수로 데이터프레임 변환 

df = pd.read_json('./read_json_sample.json')
df

Unnamed: 0,name,year,developer,opensource
pandas,,2008,Wes Mckinneye,True
NumPy,,2006,Travis Oliphant,True
matplotlib,,2003,John D. Hunter,True


In [11]:
df.index

Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')

In [12]:
df.loc['pandas','name']

''

In [13]:
#  read_json() 함수로 데이터프레임 변환

df = pd.read_json('./read_json_sample.json')
print(df)
print('\n')
print(df.index)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')


## 웹(web)에서 가져오기 

HTML 웹페이지에서 표 속성 가져오기 
판다스 read_html() 함수는 HTML 웹페이지에 있는 <table>태그에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환한다. 표 데이터들은 각각 데이터프레임으로 변환되기 떄문에 여러 개의 데이터프레임을 원소로 갖는 리스트가 반환된다. 

read_html() 함수를 이용하여 웹 페이지의 표 정보를 파싱(parsing)하려면, HTML 웹페이지의 주소(URL)를 따옴표("",'')안에 입력한다. 

> HTML표 속성 읽기:  pandas.read_html( "웹주소(URL)" 또는 "HTML 파일 경로(이름)" ) 

set_index() 메소드를 사용하여 'name' 열을 새로운 행 인덱스로 설정한다. 

In [15]:
import pandas as pd 

# HTML 파일 경로 OR 웹페이지 주소를 url 변수에 저장 
url = './sample.html'

# HTML 웹페이지의 표(table)를 가져와서 데이터프레임으로 변환 
tables = pd.read_html(url)

# 표(table)의 개수 확인 
print(len(tables))
print('\n')

# tables 리스트의 원소를 iteration하면서 각각 화면 출력 
for i in range(len(tables)):
    print('tables[%s]' % i)
    print(tables[i])
    print('\n')
    
# 파이썬 패키지 정보가 들어 있는 두 번째 데이터프레임을 선택하여 df 변수에 저장 
df = tables[1]

# 'name' 열을 인덱스로 지정
df.set_index(['name'], inplace=True)
print(df)

2


tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True


            year        developer  opensource
name                                         
NumPy       2006  Travis Oliphant        True
matplotlib  2003   John D. Hunter        True
pandas      2008    Wes Mckinneye        True


### Web scraping

BeautifulSoup 등 웹스크래핑 도구로 수집한 데이터를 판다스 데이터프레임으로 정이라흔 방법을 설명한다. 먼저 스크래핑한 내용을 파이썬 리스트, 딕셔너리 등으로 정리한 뒤 DataFrame()함수에 리스트나 딕셔너리 형태로 전달하여 데이터프레임으로 변환한다.    



In [16]:
!pip install bs4

Collecting bs4
  Using cached bs4-0.0.1.tar.gz (1.1 kB)
Using legacy 'setup.py install' for bs4, since package 'wheel' is not installed.
Installing collected packages: bs4
    Running setup.py install for bs4: started
    Running setup.py install for bs4: finished with status 'done'
Successfully installed bs4-0.0.1


In [18]:
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

In [20]:
url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')   
rows = soup.select('div > ul > li')
    
etfs = {}
for row in rows:
    
    try:
        etf_name = re.findall('^(.*) \(NYSE', row.text)
        etf_market = re.findall('\((.*)\|', row.text)
        etf_ticker = re.findall('NYSE Arca\|(.*)\)', row.text)
        
        if (len(etf_ticker) > 0) & (len(etf_market) > 0):
            etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]]

    except AttributeError as err:
        pass    

# etfs 딕셔너리 출력
print(etfs)
print('\n')

# etfs 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(etfs)
print(df)

IndexError: list index out of range

# 3.  API 활용하여 데이터 수집하기 



# 4. 데이터 저장하기 

판다스 데이터프레임은 2차원 배열로 구조화된 데이터이기 때문에 2차원 구조를 갖는 CSV 파일로 변환할 수 있다. 데이터프레임을 CSV파일로 저장하려면 to_csv() 메소드를 적용한다. 
CSV 파일을 저장할 파일 경로와 파일명을 따옴표안에 입력한다. 

> CSV 파일로 저장:  DataFrame객체.to_csv('파일이름(경로')

In [21]:
### csv 파일로 저장             2.7_to_csv

import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장

data = {'name': ['Jerry', 'Riah', 'Paul'],
        'algol': ['A', 'A+', 'B'],
        'basic': ['C', 'B', 'B+'],
        'C++': ['B+', 'C', 'C+'],
       }

df = pd.DataFrame(data)
df.set_index('name', inplace=True) # name 열을 인덱스로 저장
df

Unnamed: 0_level_0,algol,basic,C++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C+


In [22]:
# to_csv() 메소드를 사용하여 CSV 파일로 내보내기. 파일명은 df_sample.csv로 저장
df.to_csv('./df.sample.csv')

## JSON 파일로 저장 

데이터프레임을 JSON 파일로 저장하려면 to_json() 메소드를 이용한다. JSON파일의 이름을 저장하려는 파일 경로와 함께 따옴표안에 입력한다. 

> JSON 파일로 저장:  DataFrame객체.to_json('파일 이름(경로)')

In [23]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name': ['Jerry', 'Riah', 'Paul'],
        'algol': ['A', 'A+', 'B'],
        'basic': ['C', 'B', 'B+'],
        'C++': ['B+', 'C', 'C+'],
       }

df = pd.DataFrame(data)
df.set_index('name', inplace=True) # name 열을 인덱스에 지정
df

Unnamed: 0_level_0,algol,basic,C++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C+


In [24]:
# to_json() 메소드를 사용하여 JSON 파일로 내보내기. 파일명은 df_sample.json로 저장 
df.to_json('./df_sample.json')

## Excel 파일로 저장 

> Excel 파일로 저장: DataFrame객체.to_excel('파일 이름(경로)')



to_excel() 메소드를 사용하려면 openpyxl 라이브러리를 사전에 설치해야함. 아나콘다 배포판에는 openpyxl 라이브러리가 기본 제공되므로 따로 설치 하지 않아도 된다. 

> Excel 파일로 저장: DataFrame객체.to_excel('파일이름(경로)')

In [25]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name': ['Jerry', 'Riah', 'Paul'],
        'algol': ['A', 'A+', 'B'],
        'basic': ['C', 'B', 'B+'],
        'C++': ['B+', 'C', 'C+'],
       }

df = pd.DataFrame(data)
df.set_index('name', inplace=True) # name 열을 인덱스에 지정
df

Unnamed: 0_level_0,algol,basic,C++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C+


In [26]:
# to_excel() 메소드를 사용하여 Excel 파일로 내보내기. 파일명은 df_sample.xlsx로 저장
df.to_excel('./df_sample.xlsx')

### 여러 개의 데이터프레임을 하나의 Excel 파일로 저장 

판다스 ExcelWriter() 함수는 Excel 워크북 객체를 생성. 데이터프레임에 to_excel() 메소드를 적용할 때 삽입하려는 워크북 객체를 인자로 전달한다. 또한 sheet_name옵션에 Excel 파일의 시트 이름을 입력하여 삽입되는 시트 위치를 지정할 수 있다. 한편 데이터프레임을 삽입하는 시트 이름을 다르게 설정하면, 같은 Excel 파일의 서로 다른 시트에 여러 데이터프레임을 구분하여 저장한다. 

> 데이터프레임 여러 개를 Excel 파일로 저장: pandas.ExcelWriter( '파일 이름(경로)' )

In [28]:
import pandas as pd 

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data1 = {'name': ['Jerry', 'Riah', 'Paul'],
        'algol': ['A', 'A+', 'B'],
        'basic': ['C', 'B', 'B+'],
        'C++': ['B+', 'C', 'C+'],
       }

data2 = {
            'c0':[1,2,3],
            'c1':[4,5,6],
            'c2':[7,8,9],
            'c3':[10,11,12],
            'c4':[13,14,15],
}

df1 = pd.DataFrame(data1)
df1.set_index('name', inplace=True) # name 열을 인덱스에 지정
print(df1)
print('\n')

df2 = pd.DataFrame(data2)
df2.set_index('c0', inplace=True) # c0 열을 인덱스로 지정
print(df2)

# df1을 'sheet1'으로, df2를 'sheet2'로 저장(Excel 파일명은 'df_excelwriter.xlsx')
writer = pd.ExcelWriter('./df_excelwriter.xlsx')
df1.to_excel(writer, sheet_name='sheet1')
df2.to_excel(writer, sheet_name='sheet2')
writer.save()

      algol basic C++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15
