## ch03-05 다양한 데이터 불러오기

pandas는 다음과 같이 다양한 형식의 데이터를 불러올 수 있다. 
- csv
- excel
- database
- json
- messagePack
- html
- google BigQuery
- 클립보드
- Pickle


### csv 파일 불러 오기
pandas.read_csv() 함수를 사용한다. 제 1인수에 파일 경로를 넘겨주면
DataFrame형 오브젝트를 되돌려 준다. 파일 경로 또는 URL 형식으로 지정할 수 있다.


In [1]:
import os
import pandas as pd

# base_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
# anime_csv = os.path.join(base_url, 'anime.csv')
anime_csv = './anime/anime.csv'
df = pd.read_csv(anime_csv)
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


### 지정한 열을 DataFrame의 인덱스로 하기
키워드 인수 index_col에 수치 또는 열 이름을 지정하여 지정한 열을 DataFrame의 인덱스로 한다 

In [2]:
# 인덱스로 할 열을 번호로 지정
df = pd.read_csv(anime_csv, index_col=0)
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [3]:
# 인덱스로 할 열을 열 이름으로 지정
df = pd.read_csv(anime_csv, index_col = 'anime_id')
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


###  지정한 열을 지정한 형으로 불러오기
키워드 인수 dtype 에 열이름(키)과 형(값)을 사전형으로 지정하여 지정한 열을 지정한 형으로 불러올 수 잇다. 

In [4]:
df = pd.read_csv(anime_csv, dtype={'members':float})
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630.0
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665.0
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262.0
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572.0
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266.0


### datetime 형의 열이 포함되어 있는 경우
datetime 형의 열이 포함되어 있는 경우, 키워드 인수 parse_dates에 열 이름을 리스트로 지정하여 불러올 때 형을 변환할 수 있다. 

In [5]:
anime_stock_price_csv = './anime/anime_stock_price.csv'
df = pd.read_csv(anime_stock_price_csv, parse_dates=['Date'])
# df = pd.read_csv(anime_stock_price_csv)
print(df.dtypes)
print(df.head())

Date              datetime64[ns]
TOEI ANIMATION           float64
IG Port                  float64
dtype: object
        Date  TOEI ANIMATION  IG Port
0 2015-01-01         3356.86  1201.51
1 2015-01-02         3356.86  1201.51
2 2015-01-05         3396.12  1218.44
3 2015-01-06         3361.77  1201.51
4 2015-01-07         3297.97  1202.51


### 단락 문자의 변경
초기 설정의 단락문자 콤마(,)를 변경하는 경우에는 키워드 인수 sep에 문자열을 지정한다. read_csv()에는 다수의 옵션이 준비되어 있다. 

In [6]:
anime_tsv = './anime/anime.tsv'
df = pd.read_csv(anime_tsv, sep='\t')
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [7]:
%ls anime

[1m[31m3791.csv[m[m*                      [1m[31manime_genre_top10_pivoted.csv[m[m*
[1m[31m4816.csv[m[m*                      [1m[31manime_master.csv[m[m*
[1m[31manime.csv[m[m*                     [1m[31manime_split_genre.csv[m[m*
[1m[31manime.db[m[m*                      [1m[31manime_stock_price.csv[m[m*
[1m[31manime.tsv[m[m*                     [1m[31manime_stock_returns.csv[m[m*
[1m[31manime.xlsx[m[m*                    [1m[31mn225.csv[m[m*
[1m[31manime_genre_top10.csv[m[m*


### Excel 파일 불러오기
pandas.read_excel() 함수를 사용한다 
- xlrd 모듈을 설치한다. 

In [8]:
anime_xlsx = './anime/anime.xlsx'
df =pd.read_excel(anime_xlsx)
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,15335,Gintama Movie: Kanketsu-hen - Yorozuya yo Eien...,"Action, Comedy, Historical, Parody, Samurai, S...",Movie,1,9.1,72534
2,28851,Koe no Katachi,"Drama, School, Shounen",Movie,1,9.05,102733
3,199,Sen to Chihiro no Kamikakushi,"Adventure, Drama, Supernatural",Movie,1,8.93,466254
4,12355,Ookami Kodomo no Ame to Yuki,"Fantasy, Slice of Life",Movie,1,8.84,226193


### 불러오는 시트 지정하기
기본 설정으로는 첫 번째 시트를 불러온다. 시트 이름을 지정해서 불러올 때는 키워드 인수 sheet_name에 시트 이름을 지정한다. 
- 책에 나와 있는 sheetname 은 사용하지 않기로 예약되어 있다. sheet_name을 사용한다. 

In [9]:
df = pd.read_excel(anime_xlsx, sheet_name='Movie')
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,15335,Gintama Movie: Kanketsu-hen - Yorozuya yo Eien...,"Action, Comedy, Historical, Parody, Samurai, S...",Movie,1,9.1,72534
2,28851,Koe no Katachi,"Drama, School, Shounen",Movie,1,9.05,102733
3,199,Sen to Chihiro no Kamikakushi,"Adventure, Drama, Supernatural",Movie,1,8.93,466254
4,12355,Ookami Kodomo no Ame to Yuki,"Fantasy, Slice of Life",Movie,1,8.84,226193


### SQL을 사용해서 불러오기

pandas.read_sql() 함수를 사용한다. 제1 인수에 쿼리를 실행하는 SQL문, 제2 인수에 SQLAlchemy 또는 DBAPI2의 접속 인스턴스를 넘겨준다.
다음 코드는 SQLite의 데이터베이스에 DBAPI로 접속해서 쿼리 결과를 DataFrame에 저장하고 있다. 


In [10]:
from urllib.request import urlopen
import os
import sqlite3

base_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'

anime_db =os.path.join(base_url, 'anime.db')
res = urlopen(anime_db)

with open('anime.db', 'wb') as f:
    f.write(res.read())
    with sqlite3.connect(f.name) as conn:
        df = pd.read_sql('SELECT * FROM anime', conn)
        
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


### HTML 파일 불러오기
pandas.read_html() 함수를 사용한다. 
- HTML 파일의 table 요소를 DataFrame으로 불러온다. 
- DataFrame이 들어 있던 리스트가 되돌아 온다. 
- Table 요소가 여러 개 있는 경우 여러 개의 DataFrame이 저장된다. 


In [11]:
url = 'https://docs.python.org/3/py-modindex.html'
tables = pd.read_html(url, index_col=1)
tables[0].loc[:, 1:].dropna().head(10) # 첫번째 DataFrame에서 빈 열과 결손값 제외
# 이 방법을 이용하면 pandas를 스크립핑 툴로 활용할 수 있다. 

Unnamed: 0_level_0,2
1,Unnamed: 1_level_1
__future__,Future statement definitions
__main__,The environment where the top-level script is ...
_dummy_thread,Drop-in replacement for the _thread module.
_thread,Low-level threading API.
abc,Abstract base classes according to PEP 3119.
aifc,Read and write audio files in AIFF or AIFC for...
argparse,Command-line option and argument parsing library.
array,Space efficient arrays of uniformly typed nume...
ast,Abstract Syntax Tree classes and manipulation.
asynchat,Support for asynchronous command/response prot...
