- 데이터 로딩 : 데이터를 읽고 접근 가능하도록 하는 작업
- 파싱 : 구문분석
- 입출력 범주
  - 텍스트 파일을 이용하는 방법
  - 데이터베이스를 이용하는 방법
  - 웹 API를 이용해서 네트워크를 통해 불러오는 방법

### 1. 텍스트 파일에서 데이터를 읽고 쓰는 법
- read_ + 데이터 타입 : csv, fwf, clipboard, ecvel, html, json...
- 텍스트 데이터를 DataFrame으로 읽어오는 함수는 몇 가지 옵션을 취함
  - 색인 : 반환하는 DAataframe에서 하나 이상의 열을 색인으로 지정할 수 있음
  - 자료형 추론과 데이터 변환 : 사용자 정의 값 변혼과 비어있는 값을 위한 사용자 리스트를 포함
  - 날짜 및 시간 분석 : 여러 열에 걸쳐있는 날짜와 시간 정보를 하나의 열에 조합해서 결과에 반영
  - 반복 : 여러 개의 파일에 걸쳐 있는 자료를 반복적으로 읽어옴
  - 정제되지 않은 데이터 처리 : 행이나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 요소를 처리

![6-1](6-1.png)

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv("examples/ex1.csv")

In [4]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
!cat examples/ex2.csv

In [5]:
pd.read_csv("examples/ex2.csv",header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
# 열이름 이름 바꾸기
pd.read_csv("examples/ex2.csv", names=["a1","b2","c3","d4","message"])

Unnamed: 0,a1,b2,c3,d4,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
#열을 색인으로 만들 수 있다
names=["a","b","c","d","message"]
pd.read_csv("examples/ex2.csv", names=names, index_col="message")

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [17]:
parsed = pd.read_csv("examples/csv_mindex.csv")
parsed

Unnamed: 0,key1,key2,value1,value2
0,one,a,1,2
1,one,b,3,4
2,one,c,5,6
3,one,d,7,8
4,two,a,9,10
5,two,b,11,12
6,two,c,13,14
7,two,d,15,16


In [9]:
#계층적 색인을 지정하고 싶다면 열 번호나 이름의 리스트를 넘긴다
#계층적 색인 : 경기도 > 성남시 > 00동 ... 과같이 하위계층이 존재하는 데이터에 대한 인덱스
parsed = pd.read_csv("examples/csv_mindex.csv", index_col=["key1","key2"])

In [10]:
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


#### txt를 df로 읽어들이기
- 여러 개의 공백 문자로 구분되어 있으므로 이를 표현할수 있도록 정규표현식 처리

In [12]:
result = pd.read_csv("examples/ex3.txt")
result

Unnamed: 0,A B C
0,aaa -0.264438 -1.026059 -0.619500
1,bbb 0.927272 0.302904 -0.032399
2,ccc -0.264273 -0.386314 -0.217601
3,ddd -0.871858 -0.348382 1.100491


In [11]:
result = pd.read_csv("examples/ex3.txt",sep="\s+")
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [13]:
# 파싱함수는 파일 형식에서 발생할 수 있는 매우 다양한 예외를 잘 처리할 수 있도록 많은 추가 인수를 가짐
# 예를들어 skiprows를 이용해 1, 3, 4 번째 행을 건너뛸 수 있다
pd.read_csv("examples/ex4.csv", skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [14]:
result = pd.read_csv("examples/ex5.csv")

In [15]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [18]:
pd.isna(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [19]:
#옵션은 문자열의 집합을 받아서 누락된 값을 처리한다
result = pd.read_csv("examples/ex5.csv", na_values=["NULL"])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [20]:
#다양한 NA 값 표현 목록이 있지만 keep_default_na 옵션으로 비활성화할 수 있다
result2 = pd.read_csv("examples/ex5.csv", keep_default_na = False)
result2

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [21]:
result2.isna()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False


In [22]:
result3 = pd.read_csv("examples/ex5.csv",keep_default_na=False, na_values=["NA"])
result3

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [23]:
result3.isna()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,False,False,False
2,False,False,False,False,False,False


In [24]:
#열마다 다른 NA 문자를 딕셔너리 값으로 넘겨서 처리할 수도 있다
sentinels = {"message": ["foo","NA"], "something":["two"]}
pd.read_csv("examples/ex5.csv", na_values = sentinels, keep_default_na=False)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


#### 1) 텍스트파일 조금씩 읽어오기

In [25]:
pd.options.display.max_rows = 10 #최대 10개의 데이터만 출력한다
result = pd.read_csv("examples/ex6.csv")

In [26]:
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [27]:
#처음 몇 행만 읽어보고 싶다면 nrows 옵션을 설정
pd.read_csv("examples/ex6.csv",nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [28]:
#여러조각으로 나누어서 읽고 싶다면 chunksize 옵션으로 행 개수 설정
chunker = pd.read_csv("examples/ex6.csv", chunksize=1000)
type(chunker)

pandas.io.parsers.readers.TextFileReader

In [29]:
#예를들어 ex6.cav 파일을 순회하면서 key 열의 값을 세는 작업은 다음과 같이 수행
chunker = pd.read_csv("examples/ex6.csv",chunksize=1000)
tot = pd.Series([], dtype='int64')
for piece in chunker:
    tot = tot.add(piece["key"].value_counts(),fill_value=0)

tot = tot.sort_values(ascending=False)

In [30]:
tot[:10]

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

#### 2) 데이터를 텍스트 형식으로 기록하기

In [31]:
data = pd.read_csv("examples/ex5.csv")

In [32]:
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [33]:
#to_csv 메서드를 이용하면 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있음
data.to_csv("examples/out.csv")

In [34]:
pd.read_csv("examples/out.csv")

Unnamed: 0.1,Unnamed: 0,something,a,b,c,d,message
0,0,one,1,2,3.0,4,
1,1,two,5,6,,8,world
2,2,three,9,10,11.0,12,foo


In [35]:
import sys
data.to_csv(sys.stdout, sep="|")

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [36]:
f=open("examples/out.csv")
for line in f:
    print(line)

,something,a,b,c,d,message

0,one,1,2,3.0,4,

1,two,5,6,,8,world

2,three,9,10,11.0,12,foo



#### 3) 다른 구분자 형식 다루기

In [37]:
import csv
f=open("examples/ex7.csv")
reader = csv.reader(f)

In [38]:
for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [39]:
#원하는 형태로 데이터를 넣어보자
with open("examples/ex7.csv") as f :
    lines = list(csv.reader(f))

In [40]:
#그리고 헤더와 데이터 줄을 구분
header, values = lines[0], lines[1:]

In [41]:
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

#### 4) JSON 데이터

- JSON : 웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 형식 중 하나

In [42]:
import json
obj = """
{"name":"Wes",
"cities_lived":["Akron","Nashville","New York","San Francisco"],
"pet":null,
"siblings":[{"name":"Scott", "age":34, "hobbies":["guitars","soccer"]}, 
            {"name":"Katie", "age":42, "hobbies":["diving","art"]}]
}
"""

In [43]:
result = json.loads(obj)
result

{'name': 'Wes',
 'cities_lived': ['Akron', 'Nashville', 'New York', 'San Francisco'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 34, 'hobbies': ['guitars', 'soccer']},
  {'name': 'Katie', 'age': 42, 'hobbies': ['diving', 'art']}]}

In [44]:
#json.dumps는 파이썬 객체를 JSON 형태로 변환한다
asjson = json.dumps(result)
asjson

'{"name": "Wes", "cities_lived": ["Akron", "Nashville", "New York", "San Francisco"], "pet": null, "siblings": [{"name": "Scott", "age": 34, "hobbies": ["guitars", "soccer"]}, {"name": "Katie", "age": 42, "hobbies": ["diving", "art"]}]}'

- JSON 객체를 딕셔너리가 담긴 리스트로 변환해 DataFrame 생성자로 넘기고 테이터 필드를 선택할 수 있음

In [47]:
siblings = pd.DataFrame(result["siblings"], columns=["name","age","hobbies"])
siblings

Unnamed: 0,name,age,hobbies
0,Scott,34,"[guitars, soccer]"
1,Katie,42,"[diving, art]"


In [48]:
#pandas.read_json은 자동으로 JSON 데이터셋을 Series나 DataFrame으로 변환한다
data = pd.read_json("examples/example.json")
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


#### 5) XML과 HTML: 웹스크래핑

In [49]:
tables = pd.read_html("examples/fdic_failed_bank_list.html")
len(tables)

1

In [50]:
failures = tables[0]

In [51]:
failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [52]:
close_timestamps = pd.to_datetime(failures["Closing Date"])
close_timestamps.dt.year.value_counts()

2010    157
2009    140
2011     92
2012     51
2008     25
       ... 
2004      4
2001      4
2007      3
2003      3
2000      2
Name: Closing Date, Length: 15, dtype: int64

#### lxml.obfectify를 이용해서 XML 파싱하기
- XML : 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 데이터 형식

In [53]:
from lxml import objectify
path = "datasets/mta_perf/Performance_MNR.xml"
with open(path) as f:
    parsed = objectify.parse(f)
root = parsed.getroot()

In [54]:
# root.INDICATOR은 모든 <INDICATOR> XML 요소를 끄집어낸다
data = []
skip_fields = ["PARENT_SEQ", "INDICATOR_SEQ", "DESIRED_CHANGE", "DECIMAL_PLACES"]
for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)
perf = pd.DataFrame(data)
perf.head()

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95.0,96.9,95.0,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95.0,96.0,95.0,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95.0,96.3,95.0,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95.0,96.8,95.0,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95.0,96.6,95.0,95.8


In [55]:
# pandas.read_xml 함수는 이 과정을 단 한 줄로 처리할 수 있다
perf2 = pd.read_xml(path)
perf2.head()

Unnamed: 0,INDICATOR_SEQ,PARENT_SEQ,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,DESIRED_CHANGE,INDICATOR_UNIT,DECIMAL_PLACES,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,U,%,1,95.0,96.9,95.0,96.9
1,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,U,%,1,95.0,96.0,95.0,95.0
2,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,U,%,1,95.0,96.3,95.0,96.9
3,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,U,%,1,95.0,96.8,95.0,98.3
4,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,U,%,1,95.0,96.6,95.0,95.8


### 6.2. 이진 데이터 형식
- 기본 단위가 2개의 상태만 가지는 데이터

In [56]:
frame = pd.read_csv("examples/ex1.csv")
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [57]:
frame = pd.read_csv("examples/ex1.csv")
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [58]:
frame.to_pickle("examples/frame_pickle")
pd.read_pickle("examples/frame_pickle")

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
conda install pyarrow

In [59]:
import pyarrow
import pandas as pd
#pyarrow 패키지가 있다면 read_parquet 함수를 이용하면 파케이 파일을 읽을 수 있다
fec = pd.read_parquet('datasets/fec/fec.parquet')

#### 1) 마이크로소프트 엑셀 파일 읽기
- xlrd 패키지와 openpyxl 패키지를 이용해 XLS와 XLSX 파일을 읽을 수 있다

In [None]:
conda install openpyxl xlrd

In [60]:
# 이 객체를 해당 파일에서 이용 가능한 시트 이름 목록을 표시할 수 있다
xlsx = pd.ExcelFile("examples/ex1.xlsx")
xlsx.sheet_names

['Sheet1']

In [61]:
#시트에 저장된 데이터는 parse 함수를 통해 DataFrame 으로 읽어올 수 있다
xlsx.parse(sheet_name="Sheet1")

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [62]:
#index_col을 사용해 인수로 지정할 수 있다
xlsx.parse(sheet_name="Sheet1", index_col=0)

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [63]:
#하나의 파일에서 여러 시트를 읽어야한다면 read_excel을 이용한다
frame = pd.read_excel("examples/ex1.xlsx",sheet_name="Sheet1")
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [64]:
#판다스데이터를 덱셀형식으로 저장하기
writer = pd.ExcelWriter("examples/ex2.xlsx")
frame.to_excel(writer, "Sheet1")
writer.close()

In [65]:
#또는 to_excel에 파일 경로를 넘겨줄 수도 있다
frame.to_excel("examples/ex2.xlsx")

#### 2) HDF5 형식 사용하기
- HDF5 : 계층적 데이터 형식
- 각 hdf5 파일은 여러개의 데이터셋을 저장하고 부가 정보를 기록할 수 있다
- 다양한 압축 기술을 사용해 온더플라이(실시간) 방식을 지원하며 반복되는 패턴을 가진 데이터를 더 효과적으로 저장

In [None]:
conda install pytables

In [66]:
import numpy as np
frame = pd.DataFrame({"a":np.random.standard_normal(100)})
store = pd.HDFStore("examples/mydata.h5")
store["obj1"] = frame
store["obj1_col"] = frame["a"]
store

<class 'pandas.io.pytables.HDFStore'>
File path: examples/mydata.h5

In [67]:
# HDF5 파일에 포함된 객체는 파이썬 딕셔너리와 유사한 API 형식으로 사용 가능
store["obj1"]

Unnamed: 0,a
0,0.983725
1,0.621841
2,0.819776
3,0.043723
4,1.008680
...,...
95,-1.754595
96,-1.062697
97,0.410148
98,1.883290


In [68]:
#hdfstore는 fixed와 table 두 가지 저장 스키마를 지원한다
store.put("obj2",frame, format="table")
store.select("obj2", where = ["index >= 10 and index <=15"])

Unnamed: 0,a
10,-0.537695
11,-0.328289
12,-0.837883
13,-0.033334
14,-0.373493
15,1.41132


In [69]:
store.close()

### 6.3. 웹 API와 함께 사용하기
- requests 라이브러리를 이용해서 GET HTTP 요청을 생성

In [None]:
conda install requests

In [70]:
import requests
url = "https://api.github.com/repos/pandas-dev/pandas/issues"
resp = requests.get(url)
resp.raise_for_status() # get 후에는 항상 raise_for_status를 호출하는것이 좋다

In [71]:
resp

<Response [200]>

In [72]:
#json 메서드는 JSON의 내용을 파이썬 딕셔너리 형태로 변환한 객체를 반환
data = resp.json()
data[0]["title"]

'DOC: add parameters and examples to CustomBusinessMonthBegin/End'

In [73]:
issues = pd.DataFrame(data, columns=["number", "title", "labels","state"])
issues

Unnamed: 0,number,title,labels,state
0,55328,DOC: add parameters and examples to CustomBusi...,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open
1,55327,COMPAT: Fix warning with numba >= 0.58.0,"[{'id': 76865106, 'node_id': 'MDU6TGFiZWw3Njg2...",open
2,55326,BUG: groupby.transform with a reducer and unob...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
3,55324,BUG: fix parsing of ODF time values with comments,[],open
4,55323,ENH: Add list accessor for PyArrow list types ...,"[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open
...,...,...,...,...
25,55286,BUG: sqlalchemy.exc.InvalidRequestError: Could...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
26,55284,BUG: resample('MS') may introduce trailing emp...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
27,55279,ENH: Allow selection with multi index subset m...,"[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open
28,55272,BUG:,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open


#### 6.4 데이터베이스와 함께 사용하기

In [74]:
import sqlite3

In [75]:
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
c REAL, d INTEGER);
"""

In [78]:
con = sqlite3.connect("mydata.sqlite")
con.execute(query)

<sqlite3.Cursor at 0x24da467fc40>

In [79]:
con.commit()

In [80]:
data = [("Atlanta", "Georgia", 1.25, 6),
       ("Tallahassee","Florida",2.6,3),
       ("Sacramento", "California", 1.7, 5)]

In [81]:
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)

<sqlite3.Cursor at 0x24da224a040>

In [82]:
con.commit()

In [83]:
#대부분의 파이썬 SQL 드라이버는 select 쿼리를 수행하면 튜플 리스트를 반환
cursor = con.execute("SELECT * FROM test")
rows = cursor.fetchall()
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [84]:
# 튜플리스트를 바로 DataFrame에 전달해도 되지만 cursor의 description 속성에 있는 열 이름을 지정해야함
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [85]:
import pandas as pd
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


- 파이썬 툴킷인 SQLAlchemy 프로젝트는 SQL DB간의 차이점을 추상화해 제공
-  read_sql 함수를 통해 데이터를 쉽게 읽도록 지원

conda install sqlalchemy