### 1. 외부 파일 읽어오기
* 판다스는 다양한 형태의 외부 파일을 읽어와서 데이터프레임으로 변환하는 함수를 제공한다.

#### 1-1. CSV 파일
* 데이터 값을 쉼표(,)로 구분하고 있다는 의미로 CSV(comma-separated values)라고 부르는 텍스트 파일이다.
* 판다스 read_csv() 함수에 확장자(.csv)를 포함하여 파일 경로(파일명)를 입력하면 CSV 파일을 읽어와서 데이터프레임으로 변환한다.

In [3]:
# CSV 파일 읽기
import pandas as pd

# 파일 경로(파이썬 파일과 같은 폴더)를 찾고, 변수 file_path에 저장
file_path = './read_csv_sample.csv'

df1 = pd.read_csv(file_path)
print(df1)
print('\n')

# header옵션: '열 이름'이 되는 행을 지정
df2 = pd.read_csv(file_path, header=None)
print(df2)
print('\n')

# index_col옵션: '행 주소'가 되는 열을 지정
df3 = pd.read_csv(file_path, index_col=None)
print(df3)
print('\n')

df4 = pd.read_csv(file_path, index_col='c0')
print(df4)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    0   1   2   3
0  c0  c1  c2  c3
1   0   1   4   7
2   1   2   5   8
3   2   3   6   9


   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    c1  c2  c3
c0            
0    1   4   7
1    2   5   8
2    3   6   9


#### 1-2. Excel 파일
* Excel 파일(확장자: .xlsx)의 행과 열은 데이터프레임의 행, 열로 일대일 대응된다.

In [5]:
# Excel 파일 읽기
import pandas as pd

# read_excel() 함수로 데이터프레임 변환
# header=0(default 옵션)
df1 = pd.read_excel('./남북한발전전력량.xlsx', engine='openpyxl')
# header 옵션 미적용
df2 = pd.read_excel('./남북한발전전력량.xlsx', engine='openpyxl', header=None)

print(df1)
print('\n')
print(df2)


  전력량 (억㎾h) 발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...  2007  \
0        남한     합계  1077  1186  1310  1444  1650  1847  2055  2244  ...  4031   
1       NaN     수력    64    51    49    60    41    55    52    54  ...    50   
2       NaN     화력   484   573   696   803  1022  1122  1264  1420  ...  2551   
3       NaN    원자력   529   563   565   581   587   670   739   771  ...  1429   
4       NaN    신재생     -     -     -     -     -     -     -     -  ...     -   
5        북한     합계   277   263   247   221   231   230   213   193  ...   236   
6       NaN     수력   156   150   142   133   138   142   125   107  ...   133   
7       NaN     화력   121   113   105    88    93    88    88    86  ...   103   
8       NaN    원자력     -     -     -     -     -     -     -     -  ...     -   

   2008  2009  2010  2011  2012  2013  2014  2015  2016  
0  4224  4336  4747  4969  5096  5171  5220  5281  5404  
1    56    56    65    78    77    84    78    58    66  
2  2658  2802  

#### 1-3. JSON 파일
* JSON 파일(확장자: .json)은 데이터 공유를 목적으로 개발된 특수한 파일 형식이다.
* 파이썬 딕셔너리와 비슷하게 'key:value'구조를 갖는데, 구조가 중첩되는 방식에 따라 다르게 적용한다.

In [8]:
# JSON 파일 읽기
import pandas as pd

# read_json() 함수로 데이터프레임 변환
# JSON 파일의 "name"데이터가 인덱스로 지정된다.
df = pd.read_json('./read_json_sample.json')
print(df)
print('\n')
print(df.index)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')


### 2. 웹(web)에서 가져오기

#### 2-1. HTML 웹 페이지에서 표 속성 가져오기
* 판다스 read_html() 함수는 HTML 웹 페이지에 있는 <table> 태그에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환한다.

In [14]:
# 웹에서 표 정보 읽기
import pandas as pd

# HTML 파일 경로 or 웹 페이지 주소를 url 변수에 저장
url = './sample.html'

# HTML 웹페이지의 표(table)를 가져와서 데이터프레임으로 변환
tables = pd.read_html(url)

# 표(table)의 개수 확인
print(len(tables))
print('\n')

# tables 리스트의 원소를 iteration하면서 각각 화면 출력
for i in range(len(tables)):
    print("tables[%s]"%i)
    print(tables[i])
    print('\n')
    
# 파이썬 패키지 정보가 들어 있는 두번째 데이터프레임을 선택하여 df 변수에 저장
df = tables[1]

df.set_index('name', inplace=True)
print(df)

2


tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True


            year        developer  opensource
name                                         
NumPy       2006  Travis Oliphant        True
matplotlib  2003   John D. Hunter        True
pandas      2008    Wes Mckinneye        True


#### 2-2. 웹 스크래핑

In [19]:
# 미국 ETF 리스트 가져오기
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

# 위키피디아 미국 ETF 웹 페이지에서 필요한 정보를 스크래핑하여 딕셔너리 형태로 변수 etfs에 저장
url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')
rows = soup.select('div>ul>li')

etfs = {}
for row in rows:
    try:
        etf_name = re.findall('^(.*) \(NYSE', row.text)
        etf_market = re.findall('\((.*)\|', row.text)
        etf_ticker = re.findall('NYSE Arca\|(.*)\)', row.text)
        
        if (len(etf_ticker) > 0) & (len(etf_market) > 0) & (len(etf_name) > 0):
            etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]]
            
    except AttributeError as err:
        pass

print(etfs)
print('\n')

df = pd.DataFrame(etfs)
print(df)

{}


Empty DataFrame
Columns: []
Index: []


### 3. API 활용하여 데이터 수집하기

### 4. 데이터 저장하기

#### 4-1. CSV 파일로 저장
* 판다스 데이터프레임은 2차원 배열로 구조화된 데이터이기 때문에 2차원 구조를 갖는 CSV 파일로 변환할 수 있다.
* 데이터프레임을 CSV 파일로 저장하려면 to_csv() 메소드를 적용한다.

In [22]:
import pandas as pd

data = {'name':['Jerry','Riah','Paul'],
        'algol':["A","A+","B"],
        'basic':["C","B","B+"],
        'c++':["B+","C","C+"]}
df = pd.DataFrame(data)
df.set_index('name', inplace=True)
print(df)

df.to_csv("./df_sample.csv")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


#### 4-2. JSON 파일로 저장
* 데이터프레임을 JSON 파일로 저장하려면 to_json() 메소드를 이용한다.

In [23]:
# JSON 파일로 저장
import pandas as pd

data = {'name':['Jerry','Riah','Paul'],
        'algol':["A","A+","B"],
        'basic':["C","B","B+"],
        'c++':["B+","C","C+"]}
df = pd.DataFrame(data)
df.set_index('name', inplace=True)
print(df)

df.to_json("./df_sample.json")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


#### 4-3. Excel 파일로 저장
* 데이터프레임의 행과 열은 Excel 파일의 행과 열로 일대일로 대응된다.
* 데이터프레임을 Excel 파일로 저장할 때는 to_excel() 메소드를 적용한다.

In [24]:
# Excel 파일로 저장
import pandas as pd

data = {'name':['Jerry','Riah','Paul'],
        'algol':["A","A+","B"],
        'basic':["C","B","B+"],
        'c++':["B+","C","C+"]}
df = pd.DataFrame(data)
df.set_index('name', inplace=True)
print(df)

df.to_excel("./df_sample.xlsx")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


#### 4-4. 여러 개의 데이터프레임을 하나의 Excel 파일로 저장
* 판다스 ExcelWriter() 함수는 Excel 워크북 객체를 생성한다.
* 데이터프레임에 to_excel() 메소드를 적용할 때 삽입하려는 워크북 객체를 인자로 전달한다.
* sheet_name 옵션에 Excel 파일의 시트이름을 입력하여 삽입되는 시트 위치를 지정할 수 있다.

In [27]:
# ExcelWriter() 활용
import pandas as pd

data1 = {'name':['Jerry','Riah','Paul'],
        'algol':["A","A+","B"],
        'basic':["C","B","B+"],
        'c++':["B+","C","C+"]}
data2 = {'c0':[1,2,3],
         'c1':[4,5,6],
         'c2':[7,8,9],
         'c3':[10,11,12],
         'c4':[13,14,15]}

df1 = pd.DataFrame(data1)
df1.set_index('name', inplace=True)
print(df1)
print('\n')

df2 = pd.DataFrame(data2)
df2.set_index('c0', inplace=True)
print(df2)

# df1을 'sheet1'으로, df2를 'sheet2'로 저장
writer = pd.ExcelWriter("./df_excelwriter.xlsx")
df1.to_excel(writer, sheet_name="sheet1")
df2.to_excel(writer, sheet_name="sheet2")
writer.save()

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15
