## Pandas 데이터 로딩, 저장, 파일 형식

In [1]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [4]:
data = pd.read_csv('pydata-book/ch06/ex1.csv') # 기본적으로 첫번째 열을 header로 인식
data

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
data2 = pd.read_csv('pydata-book/ch06/ex2.csv', header=None)
data2

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
data3 = pd.read_csv('pydata-book/ch06/ex2.csv',
                   names=['a','b','c','d','message'], # column을 index로 변환이 가능
                   index_col='message')
data3

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [8]:
pd.read_csv('pydata-book/ch06/ex3.txt', sep='\s+') # 구분자 자체를 정규표현식 사용가능, '\s+' : 하나이상의 공백으로 구분하라

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [10]:
pd.read_csv('pydata-book/ch06/ex4.csv') # data내에 주석이 삽입된 경우, 주석은 빼고 만들고 싶다

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# just wanted to make things more difficult for you,,,,
# who reads CSV files with computers,anyway?,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [None]:
def get_skip_rows(filename, pattern):
    """지정한 문자로 시작하는 행 번호 탐지
    Parameters
        filename: 파일명
        pattern: 탐지 대상 문자열.
    Returns: 해당하는 행 번호 (0-기반)
    """
    # 파일 내용 읽어오기
    with open(filename) as f:
        lines = f.readlines()
    # ..... 다운로드 파일 참조!

In [11]:
filename = 'pydata-book/ch06/ex4.csv'
# skip_rows = get_skip_rows(filename, '#')
pd.read_csv(filename, skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### 텍스트 파일 일부 읽기

## 데이터 텍스트 출력

In [12]:
data.to_csv('out.csv')

In [13]:
# 이전 파일에 이어쓰기
data.to_csv('out.csv', mode='a')

## DB 연동

####  데이터베이스 생성

In [14]:
import sqlite3

query = """create table test (a varchar(20), b varchar(20), c real, d integer);"""

con = sqlite3.connect('test.db') # test.db 파일이 생성될 것
con.execute(query)
con.commit()

#### 데이터베이스에 모의 데이터 몇 개 삽입

In [15]:
data = [(u'서울', u'경기', 10, 5),
       (u'대전', u'전주', 3.1, 2.5),
       (u'부산', u'창원', 4.2, 3.8)]
stmt = "insert into test values(?,?,?,?)"
con.executemany(stmt, data)
con.commit()

#### 데이터베이스에 대해 질의 수행 후, 커서 가져와 읽기

In [16]:
cursor = con.execute('select * from test')
rows = cursor.fetchall()
rows

[(u'\uc11c\uc6b8', u'\uacbd\uae30', 10.0, 5),
 (u'\ub300\uc804', u'\uc804\uc8fc', 3.1, 2.5),
 (u'\ubd80\uc0b0', u'\ucc3d\uc6d0', 4.2, 3.8)]

#### pandas의 DataFrame으로 바로 읽어오기

In [17]:
import pandas.io.sql as sql

sql_query = 'select * from test'

# 교재를 보면 read_frame()이라는 예전 api를 사용하고 있다.
# sql.read_sql()이 최신이다
sql.read_sql(sql_query, con) 

Unnamed: 0,a,b,c,d
0,서울,경기,10.0,5.0
1,대전,전주,3.1,2.5
2,부산,창원,4.2,3.8


## MongoDB 활용

MongoDB는 파이썬에 기본적으로 탑재되어 있지 않다. https://www.mongodb.org/
에서 다운로드받아 설치할 수 있다.

In [None]:
import pymongo # MongoDB 드라이버
client = pymongo.MongoClient() # 로컬 서버, 기본 포트 27017