### 텍스트 파일

### pandas 파일 파싱 함수

|  |  |
| -- | -- |
| read_csv | 데이터 구분자가 쉼표인 csv파일 읽기 |
| read_table | 데이터 구분자가 탭을 기본으로 하는 파일 읽기 |
| read_fwf | 구분자가 없는 데이터 읽기 |
| read_clipboard | 클립보드에 있는 데이터를 읽어오는 read_table 함수 (웹페이지의 표) |
| read_excel | 엑셀(XLS, XLSX) |
| read_hdf | pandas에서 저장한 HDFS |
| read_html | HTML |
| read_json | JSON |
| read_msgpack | 메시지 바이너리 포맷으로 인코딩된 pandas 데이터 |
| read_pickle | 파이썬 피클 포맷 |
| read_sas | SAS 시스템 사용자 저장 포맷 |
| read_sq | SQL 쿼리 결과 |
| read_stata | Stata |
| read_feather | Feather 바이너리 파일 포맷 |

In [170]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

#### ```pd.read_csv('파일경로')```
- ```header```

#### ```pd.read_table('파일경로', sep = '구분자')```

In [7]:
!type ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [23]:
df = pd.read_csv('ex1.csv')
# pd.read_table('ex1.csv', sep = ',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### 열 이름이 없는 파일

In [24]:
!type ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


- 열 이름 자동생성 / 직접 지정

In [30]:
pd.read_csv('ex2.csv', header = None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- 열 이름 직접 지정

In [34]:
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('ex2.csv', names = names, index_col = 'message') # 인덱스 열 이름을 'message'로 직접 지정

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


#### 계층적 인덱스

In [36]:
!type csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [37]:
parsed = pd.read_csv('csv_mindex.csv',
                     index_col = ['key1', 'key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


#### 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해놓은 경우

In [44]:
!type ex3.txt

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


In [46]:
result = pd.read_table('ex3.txt')
result

Unnamed: 0,A B C
0,aaa -0.264438 -1.026059 -0.619500
1,bbb 0.927272 0.302904 -0.032399
2,ccc -0.264273 -0.386314 -0.217601
3,ddd -0.871858 -0.348382 1.100491


- 정규 표현식 '\s+' = 공백

In [47]:
result = pd.read_table('ex3.txt', sep ='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


#### ```skiprows``` : 건너뛸 줄 지정

In [49]:
!type ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [54]:
pd.read_csv('ex4.csv')

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# just wanted to make things more difficult for you,,,,
# who reads CSV files with computers,anyway?,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


-  1, 3, 4번재 줄 제외하고 읽기

In [55]:
pd.read_csv('ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### 누락값, 결측값 포함된 파일

In [56]:
!type ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo


In [58]:
result = pd.read_csv('ex5.csv'); result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- ```na_values``` : 리스트나 문자열 집합을 받아, 결측값(NaN)으로 처리할 값들을 지정

In [59]:
result = pd.read_csv('ex5.csv', na_values = ['NULL']); result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- 열마다 다른 na_values지정

In [61]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('ex5.csv', na_values = sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


#### 
#### ```read_csv```와 ```read_table```의 주요 인자

|  |  |
| -- | -- |
| path | 파일위치 |
| sep 또는 delimiter | 구분자 |
| header | 열 이름으로 사용할 줄번호, 기본값은 0 (첫번째 줄), 헤더가 없을 경우에는 None |
| index_col | 인덱스로 사용할 열 번호나 이름. 계층적 인덱스일 경우 리스트를 넘길 수 있음 |
| names | 열 이름으로 사용할 리스트, header = None과 함께 사용 |
| skiprows | 파일의 시작부터 무시할 행 수 또는 무시할 줄 번호가 담긴 리스트 |
| na_values | NA 값으로 처리할 값들의 목록 |
| comment | 주석으로 분류되어 파싱하지 않을 문자 혹은 문자열 |
| parse_dates | 날짜를 datetime으로 변환할지 여부, True일 경우 모든 열에 적용 |
| keep_date_col | 여러 열을 datetime으로 변환할 경우, 원래 열을 남겨둘지 여부 |
| converters | 변환 시 열에 적용할 함수를 지정 (예 : {'foo' : f}는 'foo'열에 f함수를 적용 |
| dayfirst | 모호한 날짜 형식일 경우 국제 형식으로 간주 |
| date_parser | 날짜 변환 시 사용할 함수 |
| nrows | 파일의 첫 일부만 읽어올 대 처음 몇 줄을 읽을 것인지 지정 |
| iterator | 파일을 조금씩 읽을 대 사용하도록 TextParser 객체를 반환 |
| chunksize | TextParser 객체에서 사용할 한 번에 읽을 파일의 크기 |
| skip_footer | 파일의 끝에서 무시할 라인 수 |
| verbose | 파싱 결과에 대한 정보 출력. 숫자가 아닌 값이 들어있는 열에 누락된 값이 있다면 줄 번호를 알려줌 |
| encoding | 유니코드 인코딩 종류 'utf-8' |
| squeeze | 열이 하나라면 Series 객체로 반환하는지 여부 |
| thousands | 숫자를 천 단위로 끊을 때 사용할 ',', '나', '.'같은 구분자 |


##### 
### 텍스트 파일 조금씩 읽어오기

- pandas의 출력 설정 수정

In [62]:
pd.options.display.max_rows = 10 # 최대 10개의 데이터만 출력

- ```nrows``` : 읽을 줄의 수 지정

In [70]:
result = pd.read_csv('ex6.csv', nrows = 5)
result
# pd.read_csv('ex6.csv').head(5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


#### 파일을 조각으로 분리해서 읽기
- ```chunksize```

In [72]:
chunker = pd.read_csv('ex6.csv', chunksize = 1000)
chunker

<pandas.io.parsers.readers.TextFileReader at 0x21a98250400>

- ```chunksize```에 분리된 파일들을 순회하며, 'key'에 있는 값을 세기

In [76]:
tot = pd.Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value = 0)

  tot = pd.Series([])


In [74]:
tot = tot.sort_values(ascending=False)

In [75]:
tot[:10]

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

### 데이터를 텍스트 형식으로 기록

In [80]:
data = pd.read_csv('ex5.csv'); data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


### ```.to_csv('파일경로', sep = '구분자', ...)``` : csv 파일로 저장
- ```na_rep``` : 누락값을 원하는 값으로 지정
- ```index```  
- ```header``` 

In [81]:
data.to_csv('out.csv')

In [84]:
import sys
data.to_csv(sys.stdout, sep = '|') # '|'를 구분자로 지정

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [86]:
data.to_csv(sys.stdout, na_rep = 'NULL') # 누락값을 'NULL'으로 표현

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


- ```index``` 
- ```header``` 

In [87]:
# 행과 열 이름을 포함하지 않음
data.to_csv(sys.stdout, index = False, header = False) 

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [89]:
# 열 이름을 직접 지정
data.to_csv(sys.stdout, index = False, columns = ['a', 'b', 'c']) 

a,b,c
1,2,3.0
5,6,
9,10,11.0


#### Series를 csv파일로 저장

In [90]:
dates = pd.date_range('1/1/2000', periods = 7)
ts = pd.Series(np.arange(7), index = dates)
ts

2000-01-01    0
2000-01-02    1
2000-01-03    2
2000-01-04    3
2000-01-05    4
2000-01-06    5
2000-01-07    6
Freq: D, dtype: int32

In [91]:
ts.to_csv('tseries.csv')
!type tseries.csv

,0
2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


### 구분자 형식 다루기

In [93]:
!type ex7.csv

"a","b","c"
"1","2","3"
"1","2","3"


#### 구분자가 한 글자인 파일은 csv 모듈 사용

In [95]:
import csv
f = open('ex7.csv')
reader = csv.reader(f)

In [98]:
for line in reader:
     print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


#### 딕셔너리 형태로 형태로 데이터 읽기
- 파일을 읽어 줄 단위 리스트로 저장

In [112]:
with open('ex7.csv') as f:
     lines = list(csv.reader(f))

- 헤더와 데이터를 구분

In [113]:
header, values = lines[0], lines[1:]

- 딕셔너리 표기법과 행과 열로 전치해주는 zip(-values)를 이용해서 데이터 열 딕셔너리 생성

In [114]:
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [115]:
pd.DataFrame(data_dict)

Unnamed: 0,a,b,c
0,1,2,3
1,1,2,3


#### 다양한 구분자의 경우 (문자열을 둘러싸거나, 개행 문자 등의 경우) 클래스로 해결
```python
class my_dialect(csv.Dialect): 
    lineterminator = '\n' 
    delimiter = ';' 
    quotechar = '"' 
    quoting = csv.QUOTE_MINIMAL

reader = csv.reader(f, dialect = my_dialect)


```

#### 서브클래스를 정의하지 않고 csv.reader 인자 지정으로도 가능 
```python
reader = csv.reader(f, delimiter='|')
```

- 더 복잡하거나 구분자가 한 글자를 초과하는 고정길이를 가진다면 csv 모듈 사용 불가
- 이 경우 줄을 나누고 문자열의 split 메서드아 정규 표현식 메서드인 re.split을 이용

#### csv와 같은 구분자로 구분된 파일을 기록
### ```csv.writer()``` : 이미 열린, 쓰기가 가능한 파일 객체를 받아 파일을 기록
### ```.writerow(내용)``` : 행으로 내용 기록

In [111]:
with open('mydata.csv', 'w') as f: 
    writer = csv.writer(f, dialect = my_dialect) 
    writer.writerow(('one', 'two', 'three')) 
    writer.writerow(('1', '2', '3')) 
    writer.writerow(('4', '5', '6')) 
    writer.writerow(('7', '8', '9'))

In [110]:
!type mydata.csv

one;two;three
1;2;3
4;5;6
7;8;9


#### 
### JSON 데이터 : 웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 형식 중 하나

In [117]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

In [118]:
import json

### ```json.loads(obj)``` : JSON 문자열을 파이썬 형태로 변환

In [121]:
result = json.loads(obj); result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

- JSON 객체나 객체의 리스트를 다른 자료구조로 변환

In [126]:
siblings = pd.DataFrame(result['siblings'], columns = ['name', 'age']), siblings

In [128]:
!type example.json

[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]


### ```.to_json()``` : pandas 데이터를 JSON으로 저장 

In [129]:
print(data.to_json())

{"something":{"0":"one","1":"two","2":"three"},"a":{"0":1,"1":5,"2":9},"b":{"0":2,"1":6,"2":10},"c":{"0":3.0,"1":null,"2":11.0},"d":{"0":4,"1":8,"2":12},"message":{"0":null,"1":"world","2":"foo"}}


In [131]:
print(data.to_json(orient='records'))

[{"something":"one","a":1,"b":2,"c":3.0,"d":4,"message":null},{"something":"two","a":5,"b":6,"c":null,"d":8,"message":"world"},{"something":"three","a":9,"b":10,"c":11.0,"d":12,"message":"foo"}]


### XML과 HTML: 웹 스크래핑

### ```read_html('html파일')``` : 파이썬에서 HTML 읽기

In [135]:
tables = pd.read_html('fdic_failed_bank_list.html')

In [141]:
len(tables)

1

In [139]:
failures = tables[0]
failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [142]:
# Closing Date열을 datetime형으로 변환
close_timestamps = pd.to_datetime(failures['Closing Date'])

In [149]:
close_timestamps.head()

0   2016-09-23
1   2016-08-19
2   2016-05-06
3   2016-04-29
4   2016-03-11
Name: Closing Date, dtype: datetime64[ns]

In [150]:
(close_timestamps.dt.year.value_counts()).head()

2010    157
2009    140
2011     92
2012     51
2008     25
Name: Closing Date, dtype: int64

### XML 파싱

### ```lxml.objectify.parse(open(경로)``` : XML 파일 파싱
### ```.parsed.getroot()``` : XML 파일의 루트노드에 대한 참조

In [155]:
from lxml import objectify

In [154]:
path = '/Users/이찬솔/Documents/Python_for_Data_Analysis/datasets/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()

In [156]:
data = []

skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']

for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

In [157]:
perf = pd.DataFrame(data)
perf.head()

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95.0,96.9,95.0,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95.0,96.0,95.0,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95.0,96.3,95.0,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95.0,96.8,95.0,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95.0,96.6,95.0,95.8


In [158]:
from io import StringIO
tag = '<a href="http://www.google.com">Google</a>'
root = objectify.parse(StringIO(tag)).getroot()

In [159]:
root

<Element a at 0x21a9c7f7780>

In [160]:
root.get('href')

'http://www.google.com'

In [161]:
root.text

'Google'

### 
### 이진 데이터 형식
### pickle 직렬화 : 데이터를 이진 형식으로 저장
### ```.to_pickle('저장경로')``` : pickle 파일로 저장
### ```pd.read_pickle('경로')``` : pickle파일 읽기

In [164]:
frame = pd.read_csv('ex1.csv')
frame.to_pickle('frame_pickle')

In [165]:
pd.read_pickle('frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### HDF5 : 과학 계산용 배열 데이터 저장, 다른 언어에서 사용 가능
### ```pd.HDFStore``` : h5 형태로 저장

```python
frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore('mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']
```

- HDF5 파일에 포함된 객체는 파이썬 딕셔너리와 유사한 형식으로 사용 가능
```python
store['obj1']
```

- HDFStore는 'fixed'와 'table' 두 가지 저장 스키라를 지원
- 'table' 스키마가 일반적으로 더 느리지만, 쿼리 연산 지원
```python
store.put('obj2', frame, format='table')
# store['obj2'] = frame
store.select('obj2', where=['index >= 10 and index <= 15'])
store.close()
```

### ```.put()``` : 저장 스키라를 지정하는 등의 다른 옵션 제공
### ```pd.read_hdf('파일경로')``` : 기능들을 축약해서 사용

```python
frame.to_hdf('mydata.h5', 'obj3', format='table')
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'])
os.remove('mydata.h5')

```

### 
### 엑셀 파일 읽어오기

### ```pd.ExcelFile('파일')``` : ExcelFile 클래스 사용하기 위한 객체 생성
### ```pd.read_excel('엑셀객체', '시트')``` : 엑셀파일 읽기

In [189]:
xlsx = pd.ExcelFile('ex1.xlsx')
pd.read_excel(xlsx, 'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [191]:
frame = pd.read_excel('ex1.xlsx', 'Sheet1'); frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


### ```pd.ExcelWrite('파일경로')``` : Writer 객체 생성
### ```.to_excel(Writer, '시트')``` : Writer 객체를 엑셀로 저장

In [193]:
writer = pd.ExcelWriter('ex2.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()

- ExcelWriter를 사용하지 않고 to_excel 메서드에 파일 경로만 넘겨도 가능

In [194]:
frame.to_excel('ex2.xlsx')

### 
### 웹 API 사용

### ```requests.get(url)```

In [195]:
import requests

In [196]:
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
resp

<Response [200]>

In [197]:
data = resp.json()

In [202]:
data[0]['title']

"BUG: read_csv, usecols, header=1 unexpectedly doesn't count an empty first line"

In [200]:
issues = pd.DataFrame(data, columns=['number', 'title',
                                     'labels', 'state'])
issues.head()

Unnamed: 0,number,title,labels,state
0,47906,"BUG: read_csv, usecols, header=1 unexpectedly ...",[],open
1,47905,BUG: Fix read_xml raising syntax error when re...,[],open
2,47902,BUG: pd.read_xml read chinese tag throw Syntax...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
3,47901,ENH: Move warnings to error/__init__.py per GH...,"[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open
4,47899,BUG: read_html produce UnicodeEncodeError for ...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open


### 
### DB와 함께 사용

In [203]:
import sqlite3

In [204]:
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""

In [205]:
con = sqlite3.connect('mydata.sqlite')
con.execute(query)
con.commit()

In [206]:
data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]

In [207]:
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)
con.commit()

In [208]:
cursor = con.execute('select * from test')
rows = cursor.fetchall()
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [210]:
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [212]:
pd.DataFrame(rows, columns = [x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


### SQLAlchemy

In [215]:
import sqlalchemy as sqla

In [216]:
db = sqla.create_engine('sqlite:///mydata.sqlite')
pd.read_sql('select * from test', db)

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5
