# Data loading, storage, and file formats

In [1]:
from __future__ import division
from numpy.random import randn
import numpy as np
import os
import sys
np.random.seed(12345)
from pandas import Series, DataFrame
import pandas as pd
np.set_printoptions(precision=4)

## 텍스트 형식 데이터 읽기 및 쓰기

In [2]:
df = pd.read_csv('data/ex1.csv') # csv파일 불러오기
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [3]:
pd.read_table('data/ex1.csv', sep=',')
# read_table에서 디폴트 구분자는 탭을 사용한다

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
# 자동으로 헤더를 만든다
pd.read_csv('data/ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
# 헤더 이름을 지정한다
pd.read_csv('data/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### 실습 예제 1번
ex2.csv파일을 읽어와 헤더 이름을 x, y, z ,b, naju로 하시오

In [6]:
# 특정 컬럼을 인덱스로 사용할 수도 있다 
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('data/ex2.csv', names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


### 실습 예제 2번
ex2.csv파일을 읽어와 헤더 이름으로할 list를 만들고 안에 값은 (one, two, three, four, d)로 하고  columns 중 d를 인덱스로 한다 

In [7]:
# 색인 컬럼을 계층으로 줄 수도 있다
parsed = pd.read_csv('data/csv_mindex.csv', index_col=['key1', 'key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


### 실습 예제 3번
csv_mindex.csv파일을 읽어와 컬럼중에 value1와 value2를 색인으로 한다. 이름은 prat2로 한다

In [8]:
# 한개 또는 여러개의 스페이스를 구분자로 지정할 수 있다
result = pd.read_table('data/ex3.txt', sep='\s+')
result
# 첫번째 컬럼를 색인으로 자동으로 지정했다 (첫번째 행의 수가 하나 적으므로) 

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [9]:
# 0, 2, 3 번째 행을 삭제하라
pd.read_csv('data/ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### 실습 예제 4번
ex4.csv 파일을 불러와 0,2, 3, 4행을 삭제해보시오

In [10]:
result = pd.read_csv('data/ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [11]:
pd.isnull(result) ## 괄호 안의 데이터프레임에서 NaN값은 True를 출력하고 아니면 False를 출력한다

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [12]:
# 컬럼별로 결측치(NA 문자들)을 따로 지정할 수 있다
sentinels = {'message': ['foo', 'NA'], 'something': ['two']} ## message 컬럼에 있는 foo를 NaN로 바꾸며 someghing에 two도 NaN으로 바꾼다
pd.read_csv('data/ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### 실습 예제 5번
message 컬럼에 있는 world와  a열에 있는 5를 NaN으로 만들어 보시오

### 텍스트파일의 일부분 읽기


In [13]:
result = pd.read_csv('data/ex6.csv')
result.head(10)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
5,1.81748,0.742273,0.419395,-2.251035,Q
6,-0.776764,0.935518,-0.332872,-1.875641,U
7,-0.913135,1.530624,-0.572657,0.477252,K
8,0.35848,-0.497572,-0.367016,0.507702,S
9,-1.740877,-1.160417,-1.63783,2.172201,G


In [14]:
pd.read_csv('data/ex6.csv', nrows=5) # 5개의 색인만 가져오기

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [15]:
# 파일을 여러 조각으로 나눈 후에 각 조각으로부터 데이터를 읽을 수 있다
chunker = pd.read_csv('data/ex6.csv', chunksize=1000)
chunker

<pandas.io.parsers.TextFileReader at 0x1361b27aa20>

In [16]:
chunker = pd.read_csv('data/ex6.csv', chunksize=1000)

tot = Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

#tot = tot.sort_values(ascending=False)

In [17]:
tot[:10]

0    151.0
1    146.0
2    152.0
3    162.0
4    171.0
5    157.0
6    166.0
7    164.0
8    162.0
9    150.0
dtype: float64

### 텍스트 형식으로 데이터 쓰기


In [18]:
data = pd.read_csv('data/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [19]:
data.to_csv('data/out.csv') # 데이터 파일을 out.csv파일로 출력해 보아라

### 실습 예제 6번
data 파일을 prat3.csv파일로 출력해 보시오

In [20]:
data.to_csv(sys.stdout, sep='|')  #내보내지않고 여기에 출력하기하기 위해 sys_stdout을 사용했고 구분 기호로 |를 사용했다

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [21]:
data.to_csv(sys.stdout, na_rep='NULL') # 빈값에 NULL값을 넣었다

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [22]:
data.to_csv(sys.stdout, index=False, header=False) # 컬럼과 색인을 모두 표기하지 않고 출력하기

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [23]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c']) #색인은 출력하지않고 컬럼에 a b c를 넣고 출력한다

a,b,c
1,2,3.0
5,6,
9,10,11.0


In [24]:
dates = pd.date_range('1/1/2000', periods=7) # 2000/1/1부터 6일 뒤에 날짜까지 리스트를 만든다 
ts = Series(np.arange(7)*100, index=dates) # 이것을 시리즈로 만들고 색인은 dates에 있는 날짜이며 값은 0~6까지의 값에 곱하기 100을 한것이다
ts.to_csv('data/tseries.csv')
ts

2000-01-01      0
2000-01-02    100
2000-01-03    200
2000-01-04    300
2000-01-05    400
2000-01-06    500
2000-01-07    600
Freq: D, dtype: int32

In [25]:
Series.from_csv('data/tseries.csv')  # 다시 csv파일을 시리즈로 불러오기

2000-01-01      0
2000-01-02    100
2000-01-03    200
2000-01-04    300
2000-01-05    400
2000-01-06    500
2000-01-07    600
dtype: int64

### 실습 예제 7번
data2라는 변수의 이름을 가졌고 2017/08/11 부터 6일뒤까지의 날짜를 가진 리스트를 만들어보시오
또한 prat3의 이름을 가졌고 리스트의 값을 색인으로 하는 시리즈를 만들 되 시리즈안의 값들은 0부터 순서대로 나타나게 하시오

### 특정 형식의 수동작업

In [26]:
import csv 
f = open('data/ex7.csv') #f라는 변수에 ex7.csv 파일이 불러온다 
print(f)  #이것을 출력하면 read와 다르게 작업할 수 있는 형식(r, w)이나 언어지원형식이 나온다
reader = csv.reader(f)
reader

<_io.TextIOWrapper name='data/ex7.csv' mode='r' encoding='cp949'>


<_csv.reader at 0x1361b6e3660>

In [27]:
for line in reader: #reader안에 있는 값을 line에 넣어 그것을 출력한다
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3', '4']


In [28]:
lines = list(csv.reader(open('data/ex7.csv'))) #csv파일을 읽어와 list로 만든다
print(lines)
header, values = lines[0], lines[1:] # header에는 lines의 첫번째 리스트만, values에는 두번쨰부터 끝까지 리스트를 넣는다.
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

[['a', 'b', 'c'], ['1', '2', '3'], ['1', '2', '3', '4']]


{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

### 실습 예제 8번
csv파일을 읽어와 list로 만들어 prat4라는 이름으로 저장하고 prheader, prvalues에 각각 두번째리스트까지, 마지막 리스트까지 값을 넣으시오
그 후 두 리스트 모두 출력해보시오

In [29]:
# JSON 형식
# 키: 밸류 형식을 가지며 키는 반드시 문자열이어야 한다
# JSON 데이터를 파이선에서 읽으려면 json.loads를 사용하면 된다

obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"},
              {"name": "Katie", "age": 33, "pet": "Cisco"}]
}
"""

In [30]:
import json 
result = json.loads(obj) 
result
type(result)

dict

In [31]:
# 파이선 객체를 JSON 형식으로 바꾸려면 json.dumps를 사용하면 된다

asjson = json.dumps(result)
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"}, {"name": "Katie", "age": 33, "pet": "Cisco"}]}'

In [32]:
# 사전형식 데이터를 데이터프레임으로 바꾸고 일부 값만 추출할 수 있다
siblings = DataFrame(result['siblings'], columns=['name', 'age'])
siblings

Unnamed: 0,name,age
0,Scott,25
1,Katie,33


## Database와의 상호작용

In [33]:
import sqlite3 
                #query라는 데이터베이스 테이블을 만든다.
query = """ 
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""

con = sqlite3.connect(':memory:') ## memory라는 db에 접속
con.execute(query) ## 실행할 query문을 괄호안에 넣는다
con.commit() #변경내용을 db에 반영

In [34]:
data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"  

con.executemany(stmt, data)  # executemany는 execute와 다르게 복수개의 데이터를 넣게해준다 
                            # stmt라는 변수를 사용하여 data를 db에 넣고 변경내용을 db에 반영한다 
con.commit()

In [35]:
cursor = con.execute('select * from test')
rows = cursor.fetchall() #조회된 결과에서 모든 데이터를 리스트 형태로 반환한다

rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [36]:
cursor.description #cursor에 필드확인하기

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [37]:
DataFrame(rows, columns=list(zip(*cursor.description))[0]) # db에있는 값을 데이터프레임 형식으로 출력

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


In [38]:
import pandas.io.sql as sql     #pandas 모듈에서 sql명령어를 사용하여 보다 쉽게 데이터베이스 테이블 출력
sql.read_sql('select * from test', con) 

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


### 실습 예제 9번
위에서 만든 con에  ('korea', 'naju', 2017, 8) 라는 데이터를 execute를 활용하여 넣고 리스트형식으로 출력해보시오.