# 외부 파일 읽어오기

## CSV 파일

In [1]:
import pandas as pd

file_path = './data/read_csv_sample.csv'

# read_csv() 함수로 데이터프레임 변환, 변수 df1에 저장
df1 = pd.read_csv(file_path)
print(df1)
print('\n')

# read_csv() 함수로 데이터프레임 변환, 변수 df2에 저장. header=None 옵션
df2 = pd.read_csv(file_path, header=None)
print(df2)
print('\n')

# read_csv() 함수로 데이터프레임 변환, 변수 df3에 저장. index_col=None 옵션
df3 = pd.read_csv(file_path, index_col=None)
print(df3)
print('\n')

# read_csv() 함수로 데이터프레임 변환, 변수 df3에 저장. index_col='c0' 옵션
df4 = pd.read_csv(file_path, index_col='c0')
print(df4)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    0   1   2   3
0  c0  c1  c2  c3
1   0   1   4   7
2   1   2   5   8
3   2   3   6   9


   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    c1  c2  c3
c0            
0    1   4   7
1    2   5   8
2    3   6   9


## Excel 파일

In [2]:
import pandas as pd

# read_excel() 함수로 데이터프레임 변환
df1 = pd.read_excel('./data/남북한발전전력량.xlsx', engine='openpyxl')   # header=0(default 옵션)
df2 = pd.read_excel('./data/남북한발전전력량.xlsx', engine='openpyxl', header=None)   # header 옵션 미적용

# 데이터프레임 출력
print(df1)
print('\n')
print(df2)

  전력량 (억㎾h) 발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...  2007  \
0        남한     합계  1077  1186  1310  1444  1650  1847  2055  2244  ...  4031   
1       NaN     수력    64    51    49    60    41    55    52    54  ...    50   
2       NaN     화력   484   573   696   803  1022  1122  1264  1420  ...  2551   
3       NaN    원자력   529   563   565   581   587   670   739   771  ...  1429   
4       NaN    신재생     -     -     -     -     -     -     -     -  ...     -   
5        북한     합계   277   263   247   221   231   230   213   193  ...   236   
6       NaN     수력   156   150   142   133   138   142   125   107  ...   133   
7       NaN     화력   121   113   105    88    93    88    88    86  ...   103   
8       NaN    원자력     -     -     -     -     -     -     -     -  ...     -   

   2008  2009  2010  2011  2012  2013  2014  2015  2016  
0  4224  4336  4747  4969  5096  5171  5220  5281  5404  
1    56    56    65    78    77    84    78    58    66  
2  2658  2802  

## JSON 파일

In [3]:
import pandas as pd

# read_json() 함수로 데이터프레임 변환
df = pd.read_json('./read_json_sample.json')
print(df)
print('\n')
print(df.index)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')


# 웹(web)에서 가져오기

## HTML 웹 페이지에서 표 속성 가져오기

In [19]:
import pandas as pd

# HTML 파일 경로 or 웹 페이지 주소를 url 변수에 저장
url = './sample.html'

# HTML 웹페이지의 표(table)를 가져와서 데이터프레임으로 변환
tables = pd.read_html(url)

# 표(table)의 개수 확인
print(len(tables))
print('\n')

# tables 리스트의 원소를 interation하면서 각각 화면 출력
for i in range(len(tables)):
    print("tables[%s]" % i)
    print(tables[i])
    print('\n')
    
# 파이썬 패키지 정보가 들어 있는 두 번째 데이터프레임을 선택하여 df 변수에 저장
df = tables[i]

# 'name' 열을 인덱스로 지정
df.set_index(['name'], inplace=True)
print(df)

2


tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True


            year        developer  opensource
name                                         
NumPy       2006  Travis Oliphant        True
matplotlib  2003   John D. Hunter        True
pandas      2008    Wes Mckinneye        True


## 웹 스크래핑

In [14]:
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

# 위키피디아 미국 ETF 웹 페이지에서 필요한 정보를 스크래핑하여 딕셔너리 형태로 변수 etfs에 저장
url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')   
rows = soup.select('div > ul > li')
    
etfs = {}
for row in rows:
    
    try:
        etf_name = re.findall('^(.*) \(NYSE', row.text)
        etf_market = re.findall('\((.*)\|', row.text)
        etf_ticker = re.findall('NYSE Arca\|(.*)\)', row.text)
        
        if (len(etf_ticker) > 0) & (len(etf_market) > 0) & (len(etf_name) > 0):
            etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]]

    except AttributeError as err:
        pass    

# etfs 딕셔너리 출력
print(etfs)
print('\n')

# etfs 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(etfs)
print(df)

{}


Empty DataFrame
Columns: []
Index: []


# 데이터 저장하기

## CSV 파일로 저장

In [18]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name' : ['Jerry', 'Riah', 'Paul'],
       'algol' : ["A", "A+", "B"],
       'basic' : ["C", "B", "B+"],
       'c++' : ["B+", "C", "C+"],
       }

df = pd.DataFrame(data)
df.set_index('name', inplace=True)   # name 열을 인덱스로 지정
print(df)

# to_csv() 메소드를 사용하여 CSV 파일로 내보내기. 파일명은 df_sample.csv 저장
df.to_csv("./df_sample.csv")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


## JSON 파일로 저장

In [20]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name' : ['Jerry', 'Riah', 'Paul'],
       'algol' : ["A", "A+", "B"],
       'basic' : ["C", "B", "B+"],
       'c++' : ["B+", "C", "C+"],
       }

df = pd.DataFrame(data)
df.set_index('name', inplace=True)   # name 열을 인덱스로 지정
print(df)

# to_csv() 메소드를 사용하여 CSV 파일로 내보내기. 파일명은 df_sample.csv 저장
df.to_csv("./df_sample.json")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


## Excel 파일로 저장

In [21]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name' : ['Jerry', 'Riah', 'Paul'],
       'algol' : ["A", "A+", "B"],
       'basic' : ["C", "B", "B+"],
       'c++' : ["B+", "C", "C+"],
       }

df = pd.DataFrame(data)
df.set_index('name', inplace=True)   # name 열을 인덱스로 지정
print(df)

# to_csv() 메소드를 사용하여 CSV 파일로 내보내기. 파일명은 df_sample.csv 저장
df.to_csv("./df_sample.xlsx")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


## 여러 개의 데이터프레임을 하나의 Excel 파일로 저장

In [22]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data1 = {'name' : ['Jerry', 'Riah', 'Paul'],
       'algol' : ["A", "A+", "B"],
       'basic' : ["C", "B", "B+"],
       'c++' : ["B+", "C", "C+"],
       }

data2 = {'c0' : [1,2,3],
         'c1' : [4,5,6],
         'c2' : [7,8,9],
         'c3' : [10,11,12],
         'c4' : [13,14,15]}

df1 = pd.DataFrame(data1)
df1.set_index('name', inplace=True)  # name 열을 인덱스로 지정
print(df1)
print('\n')

df2 = pd.DataFrame(data2)
df2.set_index('c0', inplace=True)    # c0 열을 인덱스로 지정
print(df2)

# df1을 'sheet1'으로, df2를 'sheet2'로 지정(Excel 파일명은 "df_excelwriter.xlsx")
writer = pd.ExcelWriter("./data/df_excelwriter.xlsx")
df1.to_excel(writer, sheet_name="sheet1")
df2.to_excel(writer, sheet_name="sheet2")
writer.save()

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15
