In [None]:
# 1. 외부 파일 읽어오기
# 판다스는 다양한 형태의 외부 파일을 읽어와서 데이터프레임으로 변환하는 함수를 제공
# 반대로 데이터프레임을 다양한 유형의 파일로 저장할 수도 있음

In [3]:
# 1-1. CSV 파일
# CSV 파일 -> 데이터프레임 : pandas.read_csv("파일 경로(이름)")
# 데이터 값을 쉼표(,)로 구분하고 있다는 의미로 CSV(Comma Separated Values)라고 부르는 텍스트 파일
# 쉼표로 열을 구분하고 줄바꿈으로 행을 구분
# header 옵션은 데이터프레임의 열 이름으로 사용할 행을 지정
# header 옵션이 없으면 CSV 파일의 첫 행의 데이터가 열 이름이 됨 (디폴트)
# index_col 옵션은 데이터프레임의 행 인덱스가 되는 열을 지정
# index_col 옵션을 지정하지 않으면 행 인덱스는 정수 0, 1, 2가 자동 지정

import pandas as pd

file_path = './read_csv_sample.csv' # 현재 폴더인 경우 './' , 이전 폴더인 경우 '../'

df1 = pd.read_csv(file_path) # 아무런 옵션이 없으므로 첫 행이 열 이름, 행 인덱스는 자동 지정
print(df1)
print('\n')

df2 = pd.read_csv(file_path, header = None) # 열을 지정하지 않음, 즉 정수로 지정됨
print(df2)
print('\n')

df3 = pd.read_csv(file_path, index_col = None) # 행 인덱스를 지정하지 않음, 즉 정수로 지정됨
print(df3)
print('\n')

df4 = pd.read_csv(file_path, index_col = 'c0') # 기존에 있는 열을 행 인덱스로 지정
print(df4)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    0   1   2   3
0  c0  c1  c2  c3
1   0   1   4   7
2   1   2   5   8
3   2   3   6   9


   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    c1  c2  c3
c0            
0    1   4   7
1    2   5   8
2    3   6   9


In [4]:
# CSV 파일에 따라서는 쉼표 대신 탭, 공백으로 텍스트를 구분하기도 함
# 이 때는 구분자 옵션을 알맞게 입력해야 함
# sep : 텍스트 데이터를 필드별로 구분하는 문자
# names : 열 이름으로 사용할 문자열의 리스트
# skiprows : 처음 몇 줄을 skip할 것인지를 설정(숫자 입력), skip하려는 행의 번호를 담은 리스트로 설정 가능(예: [1,3,5])
# parse_date : 날짜 텍스트를 datatime64(일자시간타입)로 변환할 것인지 설정(기본값은 False)
# skipfooter : 마지막 몇 줄을 skip할 것인지 설정(숫자 입력)
# encoding : 텍스트 인코딩 종류를 지정(예 : 'utf-8')

import pandas as pd

# 1. names : 열 이름으로 사용할 문자열 리스트 지정
df1 = pd.read_csv('./read_csv_sample.csv', header = 0, names = ['열1', '열2', '열3', '열4'])
print(df1)
print('\n')

# 2. skiprows : 처음 몇 줄을 skip할 건지, 리스트로 입력하면 해당 줄만 skip
# 초기 데이터에 대해서 생각하기
df2 = pd.read_csv('./read_csv_sample.csv', skiprows = 2)
print(df2)
print('\n')

df3 = pd.read_csv('./read_csv_sample.csv', skiprows = [1, 3])
print(df3)
print('\n')

# 3. skipfooter : 마지막 몇 줄을 skip할 건지
df4 = pd.read_csv('./read_csv_sample.csv', skipfooter = 2)
print(df4)

   열1  열2  열3  열4
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


   1  2  5  8
0  2  3  6  9


   c0  c1  c2  c3
0   1   2   5   8


   c0  c1  c2  c3
0   0   1   4   7


  return func(*args, **kwargs)


In [4]:
# 1-2. Excel 파일
# Excel 파일 -> 데이터프레임 : pandas.read_excel("파일 경로(이름)")
# Excel 파일(확장자 : xlsx)의 행과 열은 데이터프레임의 행, 열로 일대일 대응된다
# read_excel() 함수의 사용법은 앞에서 살펴본 read.csv()의 사용과 거의 비슷

import pandas as pd

df1 = pd.read_excel('./남북한발전전력량.xlsx', engine = 'openpyxl') # header = 0이 디폴트, 데이터의 첫 행이 열 이름으로 !
df2 = pd.read_excel('./남북한발전전력량.xlsx', engine = 'openpyxl', header = None) # 정수형 인덱스 0, 1, 2 .. 가 열 이름으로 !

print(df1)
print('\n')
print(df2)

# 실행 환경에 따라서는 Excel 파일 데이터를 추출을 지원하는 xlrd 라이브러리와 openpyxl 라이브러리 설치가 필요할 수 있음
# xlsx 확장자를 갖는 경우, engine 옵션에 'openpyxl' / xls 확장자를 갖는 경우 'xlrd'를 옵션으로 지정

  전력량 (억㎾h) 발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...  2007  \
0        남한     합계  1077  1186  1310  1444  1650  1847  2055  2244  ...  4031   
1       NaN     수력    64    51    49    60    41    55    52    54  ...    50   
2       NaN     화력   484   573   696   803  1022  1122  1264  1420  ...  2551   
3       NaN    원자력   529   563   565   581   587   670   739   771  ...  1429   
4       NaN    신재생     -     -     -     -     -     -     -     -  ...     -   
5        북한     합계   277   263   247   221   231   230   213   193  ...   236   
6       NaN     수력   156   150   142   133   138   142   125   107  ...   133   
7       NaN     화력   121   113   105    88    93    88    88    86  ...   103   
8       NaN    원자력     -     -     -     -     -     -     -     -  ...     -   

   2008  2009  2010  2011  2012  2013  2014  2015  2016  
0  4224  4336  4747  4969  5096  5171  5220  5281  5404  
1    56    56    65    78    77    84    78    58    66  
2  2658  2802  

In [5]:
# 1-3. JSON 파일
# JSON 파일 -> 데이터프레임 : pandas.read_json("파일 경로(이름)")
# JSON 파일(확장자: .json)은 데이터 공유를 목적으로 개발된 특수한 파일 형식
# 파이썬 딕셔너리와 비슷하게 key:value 구조를 갖는데, 구조가 중첩되는 방식에 따라 다르게 적용

import pandas as pd

df = pd.read_json('./read_json_sample.json')
print(df)
print('\n')
print(df.index) # JSON 파일의 "name" 데이터가 인덱스로 지정됨

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')


In [8]:
# 2. 웹(web)에서 가져오기

# 2-1. HTML 웹 페이지에서 표 속성 가져오기
# HTML 표 속성 읽기 : pandas.read_html("웹주소" 또는 "HTML 파일 경로(이름)")
# HTML (Hypertext Markup Language,하이퍼텍스트 마크업 언어)는 우리가 보는 웹페이지가 어떻게 구조화되어 있는지 알 수 있도록 하는 마크업 언어
# 판다스 read_html() 함수는 HTML 웹 페이지에 있는 <table> 태그에서 표 형식의 데이터를 모두 찾아 데이터프레임으로 변환
# 표 데이터들은 각각 별도의 데이터프레임으로 변환되기 때문에 여러 개의 데이터프레임을 원소로 갖는 리스트가 반환됨
# read_html() 함수를 이용하여 웹 페이지의 표 정보를 파싱하려면, url을 따옴표 안에 입력

import pandas as pd

url = "./sample.html"

tables = pd.read_html(url) # 변수 tables에는 2개의 데이터프레임을 원소로 갖는 리스트가 저장
print(len(tables))
print('\n')

for i in range(len(tables)):
    print("tables[%s]" % i)
    print(tables[i])
    print('\n') # tables 리스트의 원소를 iteration하면서 각각 화면 출력
    
df = tables[1] # 파이썬 패키지 정보가 들어 있는 2번째 표를 인덱싱하여 df 변수에 저장
df.set_index(['name'], inplace = True) # df의 열 'name'을 새로운 행 인덱스로 설정
print(df)

2


tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True


            year        developer  opensource
name                                         
NumPy       2006  Travis Oliphant        True
matplotlib  2003   John D. Hunter        True
pandas      2008    Wes Mckinneye        True


In [5]:
# 2-2. 웹 스크래핑
# BeautifulSoup 등 웹 스크래핑 도구로 수집한 데이터를 판다스 데이터프레임으로 정리하는 방법 설명
# 스크래핑한 내용을 파이썬 리스트, 딕셔너리 등으로 정리한 뒤 DataFrame() 함수에 리스트나 딕셔너리 형태로 전달하여 데이터프레임으로 변환

# etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]]와 같이 리스트를 원소로 갖는 딕셔너리를 정의하는 방법을 반드시 기억
# 왼쪽의 딕셔너리 키는 열 이름이 되고, 오른쪽 리스트는 열 데이터가 됨

# 라이브러리 불러오기
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd 

# 위키피디아 미국 ETF 웹 페이지에서 필요한 정보를 스크래핑하여 딕셔너리 형태로 변수 etfs에 저장
url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')   
rows = soup.select('div > ul > li')
    
etfs = {}
for row in rows:
    
    try:
        etf_name = re.findall('^(.*) \(NYSE', row.text)
        etf_market = re.findall('\((.*)\|', row.text)
        etf_ticker = re.findall('NYSE Arca\|(.*)\)', row.text)
        
        if (len(etf_ticker) > 0) & (len(etf_market) > 0) & (len(etf_name) > 0):
            etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]]

    except AttributeError as err:
        pass    

# etfs 딕셔너리 출력
print(etfs)
print('\n')

# etfs 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(etfs)
print(df)


# 데이터베이스에서 판다스로 데이터를 가져올 수 있을까 ?
# 판다스 read_sql() 함수를 이용하면 SQL 쿼리를 가지고 데이터베이스로부터 데이터를 불러올 수 있음
# 이 때 읽어온 데이터는 데이터프레임 포맷으로 저장됨

{}


Empty DataFrame
Columns: []
Index: []


In [12]:
# 2-3. API 활용하여 데이터 수집하기
# API를 통해서 수집한 데이터를 판다스 자료구조로 변환하는 방법을 알아봄
# 대부분 API는 판다스에서 쉽게 읽어올 수 있는 파일 형식(csv, html, xml, ...)을 지원
# 따라서, API를 통해 가져온 데이터를 판다스 데이터프레임으로 손쉽게 변환 가능

# 구글 지오코딩 API로 예를 들어 설명

import googlemaps
import pandas as pd

my_key = "---API 키 노출 금지---"

maps = googlemaps.Client(key=my_key)

lat = [] # 위도
lng = [] # 경도
places = ['고려대학교', '부산대학교', '인하대학교'] # 장소 리스트

i = 0
for place in places:
    i += 1
    try:
        print(i, place)
        geo_location = maps.geocode(place)[0].get("geometry")
        lat.append(geo_location['location']['lat'])
        lng.append(geo_location['location']['lng'])
    except:
        lat.append('')
        lng.append('')
        print(i)
        
df = pd.DataFrame({'위도':lat, '경도':lng}, index = places)
print('\n')
print(df)

1 고려대학교
2 부산대학교
3 인하대학교


              위도          경도
고려대학교  37.590799  127.027777
부산대학교  35.233512  129.081005
인하대학교  37.450022  126.653488


In [14]:
# 4. 데이터 저장하기

# 4-1. CSV 파일로 저장
# CSV 파일로 저장 : DataFrame 객체.to_csv("파일 이름(경로)")
# 판다스 데이터프레임은 2차원 배열로 구조화된 데이터이기 때문에 2차원 구조를 갖는 CSV 파일로 변환 가능
# 데이터프레임을 CSV 파일로 저장하려면 to_csv() 메소드를 적용
# CSV 파일을 저장할 파일 경로와 파일명(확장자 포함)을 따옴표 안에 입력

import pandas as pd

data = {'name':['Jerry','Riah','Paul'],
        'algol':['A','A+','B'],
        'basic':['C','B','B+'],
        'c++':['B+','C','C+']}

df = pd.DataFrame(data)
df.set_index('name',inplace = True)
print(df)

df.to_csv("./df_sample.csv") # 파일을 열어보면 쉼표와 줄바꿈으로 구분되는 2차원 구조가 확인됨

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


In [16]:
# 4-2. JSON 파일로 저장
# JSON 파일로 저장 : DataFrame 객체.to_json("파일 이름(경로)")
# 데이터프레임을 JSON 파일로 저장하려면 to_json() 메소드를 이용

import pandas as pd

data = {'name':['Jerry','Riah','Paul'],
        'algol':['A','A+','B'],
        'basic':['C','B','B+'],
        'c++':['B+','C','C+']}

df = pd.DataFrame(data)
df.set_index('name', inplace = True)
print(df)

df.to_json("./df_sample.json")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


In [18]:
# 4-3. Excel 파일로 저장
# Excel 파일로 저장 : DataFrame 객체.to_excel("파일 이름(경로)")
# 데이터프레임은 Excel 파일과 아주 유사한 구조를 가짐
# 데이터프레임의 행과 열은 Excel 파일의 행과 열로 일대일 대응됨
# 데이터프레임을 Excel 파일로 저장할 때는 to_excel() 메소드를 적용
# 단, to_excel() 메소드를 사용하려면 openpyxl 라이브러리를 사전에 설치해야 함 (import openpyxl)

import pandas as pd

data = {'name':['Jerry','Riah','Paul'],
        'algol':['A','A+','B'],
        'basic':['C','B','B+'],
        'c++':['B+','C','C+']}

df = pd.DataFrame(data)
df.set_index('name', inplace = True)
print(df)

df.to_excel("./df_sample.xlsx")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


In [22]:
# 4-4. 여러 개의 데이터프레임을 하나의 Excel 파일로 저장
# 데이터프레임 여러 개를 Excel 파일로 저장 : pandas.ExcelWriter("파일 이름(경로)")
# 판다스 ExcelWriter() 함수는 Excel 워크북 객체를 생성 (이 때, 워크북은 하나의 엑셀 파일이라고 생각)
# 데이터프레임에 to_excel() 메소드를 적용할 때 삽입하려는 워크북 객체를 인자로 전달
# 또한, sheet_name 옵션에 Excel 파일의 시트이름을 입력하여 삽입되는 시트 위치 지정 가능

import pandas as pd

data1 = {'name':['Jerry','Riah','Paul'],
        'algol':['A','A+','B'],
        'basic':['C','B','B+'],
        'c++':['B+','C','C+']}

data2 = {'c0':[1,2,3],
         'c1':[4,5,6],
         'c2':[7,8,9],
         'c3':[10,11,12],
         'c4':[13,14,15]}

df1 = pd.DataFrame(data1)
df1.set_index('name', inplace = True)
print(df1)
print('\n')

df2 = pd.DataFrame(data2)
df2.set_index('c0', inplace = True)
print(df2)

writer = pd.ExcelWriter('./df_excelwriter.xlsx') #  ExcelWriter() 함수로 생성한 워크북 객체를 writer 변수에 저장
df1.to_excel(writer, sheet_name = 'sheet1')
df2.to_excel(writer, sheet_name = 'sheet2')
writer.save()

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15
