# 외부 파일 읽어오기

판다스는 다양한 형태의 외부 파일을 읽어와서 데이터프레임으로 변환하는 함수를 제공한다. 어떤 파일이든 판다스 객체인 데이터프레임으로 변환되고 나면 판다스의 모든 함수와 기능을 자유롭게 사용할 수 있다. 반대로 데이터프레임 또한 다양한 유형의 파일로 저장할 수 있다.

예를 들어 .csv, .json, .xlsx 등이 있다.

* CSV(comma - separated values) 파일 : 데이터 값을 쉼표로 구분하는 파일

        csv 파일 -> 데이터프레임 : pandas.read_csv("파일경로(이름)")

read_csv() 함수의 header 옵션은 데이터프레임의 열 이름으로 사용할 행을 지정한다.

index_col 옵션은 데이터프레임의 행 인덱스가 되는 열을 지정한다.



In [1]:
# 드라이브에 있는 csv파일 불러오기
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
import pandas as pd

file_path = '경로/read_csv_sample.csv'

# read_csv() 함수로 데이터프레임 변환.
df1 = pd.read_csv(file_path)
df1

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9


In [3]:
# read_cvs() - header=None 옵션
df2 = pd.read_csv(file_path, header=None)
df2

Unnamed: 0,0,1,2,3
0,c0,c1,c2,c3
1,0,1,4,7
2,1,2,5,8
3,2,3,6,9


In [4]:
# read_cvs() - index_col=None 옵션
df3 = pd.read_csv(file_path, index_col=None)
df3

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9


In [5]:
# read_cvs() - index_col='c0' 옵션
df4 = pd.read_csv(file_path, index_col='c0')
df4

Unnamed: 0_level_0,c1,c2,c3
c0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,4,7
1,2,5,8
2,3,6,9



#### read_csv() 옵션

1.   path : 파일의 위치(파일명 포함), URL

2.   sep(or delimiter) : 텍스트 데이터를 필드별로 구한하는 문자

3.   header : 열 이름으로 사용될 행의 번호(기본값을 0). header가 없고 첫 행부터 데이터가 있는경우 None으로 지정 가능



4.   index_col : 행 인덱스로 사용할 열의 번호 또는 열 이름

5.   names : 열 이름으로 사용할 문자열 리스트

6.   skiprows : 처음 몇 줄을 skip할 것인지 설정(숫자 입력). skip하려는 행의 번호를 담은 리스트로 설정 가능(예: [1, 3, 5])

7.   parse_dates : 날짜 텍스트를 datetime64로 변환할 것인지 설정(기본값 False)

8.   skip_footer : 마지막 몇 줄을 skip할 것인지 설정(숫자 입력)

9.   encoding : 텍스트 인코딩 종류를 지정



*  Exel 파일

Exel 파일(확장자 : .xlsx)의 행과 열은 데이터프레임의 행, 열로 대응된다.

        Exel -> DataFrame : pandas.read_excel(Path)

In [6]:
import pandas as pd

file_path = '경로/남북한발전전력량.xlsx'

# read_excel()
df1 = pd.read_excel(file_path, engine='openpyxl') # header = 0 (default)
df2 = pd.read_excel(file_path, engine='openpyxl', header=None) # header 옵션 미적용

In [7]:
df1

Unnamed: 0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,2153,2393,2664,2852,3065,3225,3421,3646,3812,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
1,,수력,64,51,49,60,41,55,52,54,61,61,56,42,53,69,59,52,52,50,56,56,65,78,77,84,78,58,66
2,,화력,484,573,696,803,1022,1122,1264,1420,1195,1302,1518,1689,1821,1859,2056,2127,2272,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
3,,원자력,529,563,565,581,587,670,739,771,897,1031,1090,1121,1191,1297,1307,1468,1487,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
4,,신재생,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,86,118,151,173,195
5,북한,합계,277,263,247,221,231,230,213,193,170,186,194,202,190,196,206,215,225,236,255,235,237,211,215,221,216,190,239
6,,수력,156,150,142,133,138,142,125,107,102,103,102,106,106,117,125,131,126,133,141,125,134,132,135,139,130,100,128
7,,화력,121,113,105,88,93,88,88,86,68,83,92,96,84,79,81,84,99,103,114,110,103,79,80,82,86,90,111
8,,원자력,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-


In [8]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28
0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
1,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,2153,2393,2664,2852,3065,3225,3421,3646,3812,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
2,,수력,64,51,49,60,41,55,52,54,61,61,56,42,53,69,59,52,52,50,56,56,65,78,77,84,78,58,66
3,,화력,484,573,696,803,1022,1122,1264,1420,1195,1302,1518,1689,1821,1859,2056,2127,2272,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
4,,원자력,529,563,565,581,587,670,739,771,897,1031,1090,1121,1191,1297,1307,1468,1487,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
5,,신재생,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,86,118,151,173,195
6,북한,합계,277,263,247,221,231,230,213,193,170,186,194,202,190,196,206,215,225,236,255,235,237,211,215,221,216,190,239
7,,수력,156,150,142,133,138,142,125,107,102,103,102,106,106,117,125,131,126,133,141,125,134,132,135,139,130,100,128
8,,화력,121,113,105,88,93,88,88,86,68,83,92,96,84,79,81,84,99,103,114,110,103,79,80,82,86,90,111
9,,원자력,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-


실행 환경에 따라서는 Exel 파일 데이터 추출을 지원하는 xlrd 라이브러리와 openpyxl 라이브러리 설치가 필요할 수도 았다. xlsx 확장자를 갖는 경우, engine 옵션에 'openpyxl'을 지정, xls 확장자에는 'xlrd'를 지정한다.

* JSON 파일

JSON파일(확장자 .json)은 데이터 공유를 목적으로 개발된 특수 파일 형식이다. 파이썬 딕셔너리와 비슷하게 'key : value' 구조를 갖는다. 구조가 중첩되는 방식에 따라 다르게 적용한다.

        json -> DataFrame : pandas.read_json(Path)

In [9]:
import pandas as pd

file_path = '경로/read_json_sample.json'

# read_json
df = pd.read_json(file_path)
df

Unnamed: 0,name,year,developer,opensource
pandas,,2008,Wes Mckinneye,True
NumPy,,2006,Travis Oliphant,True
matplotlib,,2003,John D. Hunter,True


In [10]:
df.index # json파일의 "name" 데이터 ("pandas", "Numpy", "matplotlib")

Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')

# 웹(web)에서 가져오기

* HTML 웹 페이지에서 표 속성 가져오기

read_html() 함수는 HTML 웹 페이지에 있는 <table> 태그에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환한다. 표 데이터들은 각각 별도의 데이터프레임으로 변환되기 때문에 여러 개의 데이터프레임을 원소로 갖는 리스트가 반환된다.

        html 표 속성 읽기 : pandas.read_html("웹 주소(URL)" 또는 "HTML 파일 경로(이름)")

In [11]:
import pandas as pd

url = '경로/sample.html'

# html 웹 페이지의 표(table)를 가져와 데이터프레임으로 변환
tables = pd.read_html(url)

# 표 개수 확인
len(tables)

2

In [12]:
for i in range(len(tables)):
    print("tables[{0}]".format(i))
    print(tables[i])
    print()

tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9

tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True



In [13]:
df = tables[1]

# 'name' 열을 인덱스로 지정
df.set_index(['name'], inplace=True)
df

Unnamed: 0_level_0,year,developer,opensource
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
NumPy,2006,Travis Oliphant,True
matplotlib,2003,John D. Hunter,True
pandas,2008,Wes Mckinneye,True


* 웹 스크래핑

BeautifulSoup 등 웹 스크래핑(scraping) 도구로 수집한 데이터를 판다스 데이터프레임으로 정리하는 방법을 설명한다. 먼저 스크래핑한 내용을 파이썬 리스트, 딕셔너리 등으로 정리한 뒤 DataFrame() 함수에 리스트나 딕셔너리 형태로 전달하여 데이터프레임으로 변환한다.


In [14]:
# 미국 ETF 리스트 가져오기

from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

# 위키피디아 미국 ETF 웹 페이지에서 필요한 정보를 스크래핑하여 딕셔너리 형태로 변수 etfs에 저장
url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')
rows = soup.select('div > ul > li')

etfs = {}
for row in rows:
    try:
        name = re.findall('^(.*) \(NYSE', row.text)
        market = re.findall('\((.*)\|', row.text)
        ticket = re.findall('NYSE Arca\|(.*)\)', row.text)

        if (len(ticket) > 0) and (len(market) > 0) and (len(name) > 0):
            etfs[ticket[0]] = [market[0], name[0]]
    except AttributeError as e:
        pass

In [15]:
etfs

{'AADR': ['NYSE Arca', 'AdvisorShares WCM/BNY Mellon Focused Growth ADR ETF'],
 'ACCU': ['NYSE Arca', 'AdvisorShares Accuvest Global Opportunities ETF'],
 'AGG': ['NYSE Arca', 'iShares Core U.S. Aggregate Bond'],
 'ALD': ['NYSE Arca', 'WisdomTree Asia Local Debt'],
 'AMLP': ['NYSE Arca', 'ALPS Alerian MLP ETF'],
 'AND': ['NYSE Arca', 'Global X FTSE Andean 40 ETF'],
 'ARGT': ['NYSE Arca', 'Global X FTSE Argentina 20 ETF'],
 'ARKF': ['NYSE Arca', 'ARK Fintech Innovation ETF'],
 'ARKG': ['NYSE Arca', 'ARK Genomic Revolution Multi-Sector ETF'],
 'ARKK': ['NYSE Arca', 'ARK Innovation ETF'],
 'ARKQ': ['NYSE Arca', 'ARK Industrial Innovation ETF'],
 'ARKW': ['NYSE Arca', 'ARK Next Generation Internet ETF'],
 'ARKX': ['NYSE Arca', 'ARK Space Exploration & Innovation ETF'],
 'AUNZ': ['NYSE Arca', 'WisdomTree Australia & New Zealand Debt Fund'],
 'BABZ': ['NYSE Arca', 'PIMCO Build America Bond Strategy'],
 'BGU': ['NYSE Arca', 'Direxion Large Cap Bull 3x'],
 'BGZ': ['NYSE Arca', 'Direxion Large 

In [16]:
df = pd.DataFrame(etfs)
df

Unnamed: 0,DIA,RSP,IOO,IVV,SPY,VOO,IWM,OEF,CVY,RPG,RPV,IWB,PKW,PRF,SPLV,SCHX,SCHD,FNDX,SDY,VV,MGC,VONE,VIG,VYM,DTN,DLN,MDY,DVY,IWR,IJH,PDP,SCHM,IVOO,VO,VXF,DON,IWC,IJR,SCHA,FNDA,...,ICSH,IEIL,IEIS,IELG,IESM,NEAR,BABZ,DI,FORX,ILB,LDUR,MUNI,SMMU,CHNA,LALT,PHDG,PSR,ONEF,GAL,INKM,RLY,SYE,SYG,SYV,SRLN,ULST,ALD,AUNZ,BZF,CCX,CEW,CRDT,CYB,ELD,EMCB,EU,ICB,RRF,USDU,WDTI
0,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,...,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca,NYSE Arca
1,"DIAMONDS Trust, Series 1",Guggenheim S&P 500 Equal Weight,iShares S&P Global 100 Index,iShares S&P 500 Index,SPDR S&P 500,Vanguard S&P 500,iShares Russell 2000 Index,iShares S&P 100 Index,Guggenheim Multi-Asset Income,Guggenheim S&P 500 Pure Growth ETF,Guggenheim S&P 500 Pure Value ETF,iShares Russell 1000 Index,PowerShares Buyback Achievers,PowerShares FTSE RAFI US 1000,PowerShares S&P 500 Low Volatility,Schwab US Large-Cap ETF,Schwab US Dividend Equity ETF,Schwab Fundamental U.S. Large Company Index ETF,SPDR S&P Dividend ETF,Vanguard Large-Cap,Vanguard Mega-Cap 300,Vanguard Russell 1000,Vanguard Dividend Appreciation,Vanguard High Dividend Yield,WisdomTree Dividend ex-Financials,WisdomTree LargeCap Dividend,MidCap SPDR,iShares Select Dividend,iShares Russell Midcap Index,iShares S&P MidCap 400 Index,PowerShares DWA Mom Port,Schwab US Mid-Cap,Vanguard S&P Mid-Cap 400,Vanguard Mid-Cap,Vanguard Extended Market,WisdomTree MidCap Dividend ETF,iShares Micro-Cap,iShares S&P SmallCap 600 Index,Schwab US Small-Cap ETF,Schwab Fundamental U.S. Small Company Index ETF,...,iShares Liquidity Income ETF,iShares Enhanced International Large-Cap ETF,iShares Enhanced International Small-Cap ETF,iShares Enhanced U.S. Large-Cap ETF,iShares Enhanced U.S. Small-Cap ETF,iShares Short Maturity Bond ETF,PIMCO Build America Bond Strategy,PIMCO Diversified Income ETF,PIMCO Foreign Currency Strategy ETF,PIMCO Global Advantage Inflation-Linked Bond S...,PIMCO Low Duration ETF,PIMCO Intermediate Muni Bond Strategy ETF,PIMCO Short Term Muni Bond Strategy ETF,PowerShares China-A Share Portfolio,PowerShares Multi-Strategy Alternative Portfolio,S&P 500 Downside Hedged Portfolio,Active U.S. Real Estate Fund ETF,Russell Equity ETF,SPDR SSgA Global Allocation,SPDR SSgA Income Allocation,SPDR SSgA Multi-Asset Real Return,SPDR MFS Systematic Core Equity ETF,SPDR MFS Systematic Growth Equity ETF,SPDR MFS Systematic Value Equity ETF,SPDR Blackstone/GSO Senior Loan ETF,SPDR SSgA Ultra Short Term Bond ETF,WisdomTree Asia Local Debt,WisdomTree Australia & New Zealand Debt Fund,WisdomTree Dreyfus Brazilian Real Fund,WisdomTree Commodity Currency,WisdomTree Dreyfus Emerging Currency,WisdomTree Strategic Corporate Bond Fund,WisdomTree Dreyfus Chinese Yuan,WisdomTree Emerging Markets Local Debts Fund,WisdomTree Emerging Markets Corporate Bond Fund,WisdomTree Euro Debt Fund,WisdomTree Dreyfus Indian Rupee,WisdomTree Global Real Return,WisdomTree Bloomberg U.S. Dollar Bullish Fund,WisdomTree Managed Futures Strategy Fund
