# Part 2. 데이터 입출력
## 1. 외부 파일 읽어오기
판다스는 다양한 형태의 외부 파일을 읽어와 데이터 프레임으로 변환하는 함수를 제공한다.  
반대로 데이터프레임을 다양한 유형의 파일로 저장할 수도 있다.  

File Format | Reader   | Writer
------------|----------|--------
CSV         | read_csv |to_csv
HTML        |read_html |to_html
MS Excel    |read_excel|to_excel
SQL         |read_sql  |to_sql
  
### 1-1. CSV 파일
CSV: 쉼표로 열(데이터 값)을 구분, 줄바꿈으로 행을 구분  
`CSV 파일 -> 데이터프레임 : pandas.read_csv("파일 경로(이름)*", header = 0(default), index_col = False)`  
  
header 옵션 : '열 이름'이 되는 행을 지정  
index_col 옵션 : '행 주소'가 되는 열을 지정

In [1]:
import pandas as pd

file_path = 'read_csv_sample.csv'

df1 = pd.read_csv(file_path)
print(df1)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


In [2]:
df2 = pd.read_csv(file_path, header=None)  # 정수형 인덱스를 열 이름으로 자동 할당
print(df2)

print('\n')

df3 = pd.read_csv(file_path, index_col=None) # default
print(df3)

print('\n')

df4 = pd.read_csv(file_path, index_col='c0')
print(df4)

    0   1   2   3
0  c0  c1  c2  c3
1   0   1   4   7
2   1   2   5   8
3   2   3   6   9


   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    c1  c2  c3
c0            
0    1   4   7
1    2   5   8
2    3   6   9


csv 파일에 따라 쉼표 대신 탭이나 공백으로 텍스트를 구분하기도 한다.   
이때는 구분자(sep 또는 delimiter) 옵션을 알맞게 입력해야 한다.  

옵션  |설명 
------|----
path|파일의 위치, url
sep, delimiter|텍스트 데이터를 필드별로 구분하는 문자
header|열 이름으로 사용될 행의 번호
index_col|행 인덱스로 사용할 열의 번호 또는 열 이름
names| 열 이름으로 사용할 문자열의 리스트
skiprows| 처음 몇 줄을 skip할 것인지 설정
parse_dates| 날짜 텍스트를 datetime64로 변환할 것인지 설정
skip_footer|마지막 몇 줄을 skip할 것인지 설정
encoding| 텍스트 인코딩 종류를 지정(ex: 'utf-8')

### 1-2. EXCEL 파일

read_csv() 함수와 거의 비슷하며, 대부분의 옵션을 그대로 사용할 수 있다.  
`Excel 파일 -> 데이터프레임 : pandas.read_excel("파일 경로(이름)*")`  

In [3]:
import pandas as pd

df1 = pd.read_excel('남북한발전전력량.xlsx') # default: header = 0
df2 = pd.read_excel('남북한발전전력량.xlsx', header = None) # 정수형 인덱스를 열 이름으로 자동 할당

print(df1)
print('\n')
print(df2)

  전력량 (억㎾h) 발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...  2007  \
0        남한     합계  1077  1186  1310  1444  1650  1847  2055  2244  ...  4031   
1       NaN     수력    64    51    49    60    41    55    52    54  ...    50   
2       NaN     화력   484   573   696   803  1022  1122  1264  1420  ...  2551   
3       NaN    원자력   529   563   565   581   587   670   739   771  ...  1429   
4       NaN    신재생     -     -     -     -     -     -     -     -  ...     -   
5        북한     합계   277   263   247   221   231   230   213   193  ...   236   
6       NaN     수력   156   150   142   133   138   142   125   107  ...   133   
7       NaN     화력   121   113   105    88    93    88    88    86  ...   103   
8       NaN    원자력     -     -     -     -     -     -     -     -  ...     -   

   2008  2009  2010  2011  2012  2013  2014  2015  2016  
0  4224  4336  4747  4969  5096  5171  5220  5281  5404  
1    56    56    65    78    77    84    78    58    66  
2  2658  2802  

### 1-3. JSON 파일

JSON: 데이터 공유를 목적으로 개발된 특수한 파일 형식  
파이썬 딕셔너리와 비슷하게 'key:value' 구조를 갖고, 구조가 중첩되는 방식에 따라 옵션을 다르게 적용한다.  
`JSON 파일 -> 데이터프레임 : pandas.read_json("파일 경로(이름)*")`

In [4]:
import pandas as pd

df = pd.read_json("read_json_sample.json")
print(df)
print("\n")
print(df.index)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')


## 2. 웹(web)에서 가져오기

### 2-1. HTML 웹 페이지에서 표 속성 가져오기

판다스 read_html() 함수는 HTML 웹 페이지에 있는 `<table>` 태그에서 표 형식의 데이터를 모두 찾아 데이터 프레임으로 변환한다.  
따라서 여러 개의 데이터프레임을 원소로 갖는 리스트가 반환된다.  
`HTML 표 속성 읽기: pandas.read_html("웹 주소(url)" 또는 "HTML 파일 경로(이름)*")`  
    

In [8]:
import pandas as pd

url = 'sample.html'

tables = pd.read_html(url)

print(len(tables))
print('\n')
print(tables)

2


[   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9,          name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True]


In [9]:
for i in range(len(tables)):
    print("tables[%s]" % i)
    print(tables[i])
    print('\n')

tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True




In [10]:
df = tables[1]
df.set_index(['name'], inplace=True)

print(df)

            year        developer  opensource
name                                         
NumPy       2006  Travis Oliphant        True
matplotlib  2003   John D. Hunter        True
pandas      2008    Wes Mckinneye        True


### 2-2. 웹 스크래핑

스크래핑한 내용을 파이썬 리스트, 딕셔너리 등으로 정리한 후 DataFrame()함수에 리스트나 딕셔너리 형태로 전달해 데이터프레임으로 변환하기

In [13]:
# 미국 ETF 리스트 가져오기

from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml') # 스크래핑   
rows = soup.select('div > ul > li') 
    
etfs = {} # 딕셔너리 형태로 저장
for row in rows:
    
    try:
        etf_name = re.findall('^(.*) \(NYSE', row.text)
        etf_market = re.findall('\((.*)\|', row.text)
        etf_ticker = re.findall('NYSE Arca\|(.*)\)', row.text)
        
        if (len(etf_ticker) > 0) & (len(etf_market) > 0) & (len(etf_name) > 0):
            etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]] ## 리스트를 원소로 갖는 딕셔너리를 정의하는 법

    except AttributeError as err:
        pass    

print(etfs)
print('\n')

df = pd.DataFrame(etfs)
print(df)

{}


Empty DataFrame
Columns: []
Index: []


> **데이터베이스에서 판다스로 데이터를 가져오는 방법**  
> 판다스는 read_sql() 함수를 이용하면 데이터베이스로부터 데이터를 불러올 수 있다.  
> 이때 읽어온 데이터는 데이터프레임 포맷으로 저장된다.

## 3. API 활용하여 데이터 수집하기

대부분의 API는 판다스에서 쉽게 읽어올 수 있는 파일 형식을 지원한다. 따라서 API를 통해 가져온 데이터를 판다스 데이터프레임으로 손쉽게 변환할 수 있다.

In [15]:
# ## google 지오코딩 API 통해 위도, 경도 데이터 가져오기 

# # 라이브러리 가져오기
# import googlemaps
# import pandas as pd

# # my_key = "----발급받은 API 키를 입력-----"

# # 구글맵스 객체 생성하기
# maps = googlemaps.Client(key=my_key)  # my key값 입력

# lat = []  #위도
# lng = []  #경도

# # 장소(또는 주소) 리스트
# places = ["서울시청", "국립국악원", "해운대해수욕장"]

# i=0
# for place in places:   
#     i = i + 1
#     try:
#         print(i, place)
#         # 지오코딩 API 결과값 호출하여 geo_location 변수에 저장
#         geo_location = maps.geocode(place)[0].get('geometry')
#         lat.append(geo_location['location']['lat'])
#         lng.append(geo_location['location']['lng'])
        
#     except:
#         lat.append('')
#         lng.append('')
#         print(i)

# # 데이터프레임으로 변환하기
# df = pd.DataFrame({'위도':lat, '경도':lng}, index=places)
# print('\n')
# print(df)

## 4. 데이터 저장하기

### 4-1. CSV 파일로 저장

`CSV 파일로 저장 : DataFrame 객체.to_csv("파일 이름(경로)")`

In [16]:
import pandas as pd

data = {'name':['Jerry', 'Riah', 'Paul'],
       'algol':['A', 'A+','B'],
       'basic':['C', 'B', 'B+'],
       'c++':['B+', 'C','C+']}

df = pd.DataFrame(data)
df.set_index('name', inplace=True)
print(df)

df.to_csv('./df_sample.csv')

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


### 4-2. JSON 파일로 저장

`JSON 파일로 저장 : DataFrame 객체.to_json("파일 이름(경로)")`

In [19]:
data = {'name':['Jerry', 'Riah', 'Paul'],
       'algol':['A', 'A+','B'],
       'basic':['C', 'B', 'B+'],
       'c++':['B+', 'C','C+']}

df = pd.DataFrame(data)
df.set_index('name', inplace=True)
print(df)

df.to_json('./df_sample.json')

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


### 4-3. Excel 파일로 저장

`Excel 파일로 저장 : DataFrame 객체.to_excel("파일 이름(경로)")`

In [20]:
data = {'name':['Jerry', 'Riah', 'Paul'],
       'algol':['A', 'A+','B'],
       'basic':['C', 'B', 'B+'],
       'c++':['B+', 'C','C+']}

df = pd.DataFrame(data)
df.set_index('name', inplace=True)
print(df)

df.to_excel('./df_sample.xlsx')

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


### 4-4. 여러 개의 데이터프레임을 하나의 Excel 파일로 저장

판다스 ExcelWriter() 함수는 Excel 워크북 객체를 생성한다.  
또한 sheet_name 옵션에 Excel 파일의 시트 이름을 입력하여 삽입되는 시트 위치를 지정할 수 있다.  
데이터프레임을 삽입하는 시트 이름을 다르게 설정하면, 같은 Excel 파일의 서로 다른 시트에 여러 데이터프레임을 구분하여 저장한다.  
`데이터프레임 여러 개를 Excel 파일로 저장 : pandas.ExcelWriter("파일 이름(경로)")`

In [21]:
data1 = {'name':['Jerry', 'Riah', 'Paul'],
       'algol':['A', 'A+','B'],
       'basic':['C', 'B', 'B+'],
       'c++':['B+', 'C','C+']}

data2 = {'c0':[1,2,3],
        'c1':[4,5,6],
         'c2':[7,8,9,],
        'c3':[10,11,12],
        'c4':[13,14,15]}

df1 = pd.DataFrame(data1)
df1.set_index('name', inplace=True)
print(df1)
print('\n')

df2 = pd.DataFrame(data2)
df2.set_index('c0', inplace=True)
print(df2)

writer = pd.ExcelWriter('./df_excelwriter.xlsx')
df1.to_excel(writer, sheet_name="sheet1")
df2.to_excel(writer, sheet_name="sheet2")
writer.save()

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15
