## 자료 불러오기, 저장, 파일 형식

### 텍스트 형식으로 읽고 쓰기

In [1]:
import pandas as pd
import numpy as np

root_url = 'http://compmath.korea.ac.kr/appmath/data/'

In [2]:
df = pd.read_csv(root_url+'ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [3]:
pd.read_table(root_url + 'ex1.csv', sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
# 기본 열이름 설정
pd.read_csv(root_url + 'ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
# 직접 열이름 설정
pd.read_csv(root_url + 'ex2.csv',  names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
# 데이터프레임의 열이름 중에서 행 이름을 설정하기 위해서는 index_col= 인자를 사용한다.

names=['a', 'b', 'c', 'd', 'message']

pd.read_csv(root_url + 'ex2.csv', names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [7]:
# 인덱스 이름을 수준별로 설정하고 싶으면 
# 열 번호 또는 이름에 대한 리스트를 인자로 넘기면 된다.
parsed = pd.read_csv(root_url + 'csv_mindex.csv', index_col=['key1', 'key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


공백문자들로 항목이 구분되어 있는 것을 알 수 있다.   
이 경우는 read_table 함수의 구분자 인자 sep=\s+에 정규 표현식을 사용할 수 있다.   
\s+는 공백문자 하나 이상의 문자열을 의미한다.

In [8]:
pd.read_table(root_url + 'ex3.txt', sep='\s+')

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


#hey!  
a,b,c,d,message  
#just wanted to make things more difficult for you  
#who reads CSV files with computers, anyway?  
1,2,3,4,hello  
5,6,7,8,world  
9,10,11,12,foo

특정 행 읽지 않기

In [9]:
# skiprows= 인자를 이용하면 특정한 행들을 읽어들이지 않게 할 수 있다.
pd.read_csv(root_url + 'ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


소실값 처리

In [10]:
res = pd.read_csv(root_url + 'ex5.csv')
res

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [11]:
pd.isnull(res)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [12]:
# 선택 인자 na_values를 이용해서 추가 소실 문자열을 직접 지정할 수 있다.
pd.read_csv(root_url + 'ex5.csv', na_values=['one'])

Unnamed: 0,something,a,b,c,d,message
0,,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [13]:
소실 = {'message': ['foo', 'NA'], 'something': ['two']} #딕셔너리형으로도 가능
pd.read_csv(root_url + 'ex5.csv', na_values=소실)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### 부분적으로 텍스트 파일 읽기

In [14]:
pd.options.display.max_rows = 10

In [15]:
res = pd.read_csv(root_url + 'ex6.csv')
res

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [16]:
# 행의 갯수 지정

pd.read_csv(root_url + 'ex6.csv', nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [17]:
# 파일을 일정한 행의 갯수 단위로 반복적으로 읽으려면 chunksize=를 이용하면 된다.
부분 = pd.read_csv(root_url + 'ex6.csv', chunksize=1000)
부분

<pandas.io.parsers.TextFileReader at 0x26a98d17eb0>

In [18]:
부분 = pd.read_csv(root_url + 'ex6.csv', chunksize=1000)

총 = pd.Series([])
for 데 in 부분:
    총 = 총.add(데['key'].value_counts(), fill_value = 0)
    
총 = 총.sort_values(ascending = False)
총

  총 = pd.Series([])


E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
     ...  
5    157.0
2    152.0
0    151.0
9    150.0
1    146.0
Length: 36, dtype: float64

### 텍스트 형식으로 파일에 쓰기

In [19]:
import pandas as pd
import numpy as np
데 = pd.read_csv(root_url + 'ex5.csv')
데

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [24]:
import sys

데.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [25]:
# 소실값을 다른 문자열로 바꾸어 저장할 수 있다.
데.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [26]:
데.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [27]:
데.to_csv(sys.stdout, index=False, columns=['c', 'b', 'a'])

c,b,a
3.0,2,1
,6,5
11.0,10,9


## Working with Delimited Formats
### JSON Data

In [29]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

JSON 기본 자료형은 **object(dict), array(list), string, number, boolean, null**이 있다.   
`object`는 중괄호로 시작해서 중괄호로 끝난다. object의 모든 키는 **문자열(string)** 이어야 한다. `array`는 대괄호로 시작해서 대괄호로 끝난다.  
json을 읽고 쓸 수 있는 모듈들은 여러 가지가 있지만 여기서는 **파이썬 표준 라이브러리인 json 모듈**을 사용한다.   
JSON 문자열을 파이썬 객체로 변경하려면 json.loads 또는 json.load 메소드를 이용한다.

In [30]:
import json

res = json.loads(obj)
res

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [31]:
# 파이썬 객체를 JSON 문자열로 변환하려면 json.dumps 또는 json.dump를 이용한다.
asjson = json.dumps(res)
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

In [34]:
자녀 = pd.DataFrame(res['siblings'], columns=['age', 'name'])
자녀

Unnamed: 0,age,name
0,30,Scott
1,38,Katie


In [35]:
!type data\example.json

지정된 경로를 찾을 수 없습니다.


### 엑셀 파일

In [36]:
엑 = pd.ExcelFile(root_url + 'ex1.xlsx')

In [37]:
pd.read_excel(엑, 'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [38]:
pd.read_excel(root_url + 'ex1.xlsx')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [39]:
writer = pd.ExcelWriter('data/ex2.xlsx')

### 웹 API 자료

깃헙(Github)에 있는 판다스 최근 이슈들에 접근하기 위해서 requests 패키지의 GET HTTP 요청을 이용한다.

In [42]:
import requests

url = 'https://api.github.com/repos/pandas-dev/pandas/issues'

resp = requests.get(url)
resp

<Response [200]>

In [43]:
data = resp.json()
data[0]['title']

'CI: Consolidate comment commandas GHA'

In [44]:
issues = pd.DataFrame(data, columns=['number', 'title', 'labels', 'state'])
issues

Unnamed: 0,number,title,labels,state
0,52587,CI: Consolidate comment commandas GHA,"[{'id': 48070600, 'node_id': 'MDU6TGFiZWw0ODA3...",open
1,52586,BUG: reindex with fill_value that should give ...,[],open
2,52585,REF: use dtype.freq less in PeriodDtype,[],open
3,52583,Backport PR #52565 on branch 2.0.x (REGR: Fix ...,"[{'id': 32815646, 'node_id': 'MDU6TGFiZWwzMjgx...",open
4,52582,PERF: numpy dtype checks,"[{'id': 8935311, 'node_id': 'MDU6TGFiZWw4OTM1M...",open
...,...,...,...,...
25,52545,PERF: to_datetime doesn't recognise Arrow date...,"[{'id': 211840, 'node_id': 'MDU6TGFiZWwyMTE4ND...",open
26,52540,"BUG: Series.rename(scalar, copy=False) still c...",[],open
27,52538,BUG: inconsistent Series/DataFrame behavior in...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
28,52536,BUG: Either incorrect unit validation for 'T' ...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open


## 데이터베이스

In [45]:
import sqlite3

In [46]:
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
c REAL, d INTEGER
);
"""

In [48]:
data = [('Atlanta', 'Georgia', 1.25, 6),
   ('Tallahassee', 'Florida', 2.6, 3),
   ('Sacramento', 'California', 1.7, 5)]

대부분 파이썬 SQL 드라이버들은 표로부터 자료를 선택하면 튜플 형식으로 반환을 한다.

데이터베이스로부터 얻은 튜플 자료들을 데이터프레임으로 만들 수 있다. 그러기위해서는 데이터베이스 커서로부터 열이름을 알아낸다.

In [None]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])