# 데이터로딩, 저장, 파일형식

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

## CSV파일 로딩과 저장

- CSV : 쉼표로 구분된 작은 CSV 텍스트파일

In [3]:
df = pd.read_csv('data/ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- read_table에 구분자를 쉼표로 지정해서 읽어 올 수도 있다

In [4]:
pd.read_table('data/ex1.csv', sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- 하지만 모든 파일에 칼럼의 이름이 있는 것은 아니다!

In [6]:
#pandas가 자동으로 컬럼이름을 생성하도록 하거나,
pd.read_csv('data/ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
#직접 칼럼 이름을 지정 할수도 있음!
pd.read_csv('data/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- message칼럼을 색인으로 하는 dataframe을 반환하려면?
- index_col인자에 'message'라는 이름을 가진 칼럼을 지정해서 색인으로 만들 수 있음

In [8]:
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('data/ex2.csv', names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


- 계층적 색인을 지정하고 싶으면 칼럼 번호나 이름의 리스트를 넘기면 됨

In [9]:
!cat data/csv_mindex.csv

'cat'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [10]:
parsed = pd.read_csv('data/csv_mindex.csv',
                     index_col=['key1', 'key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


- 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해 놓은 경우는?

In [11]:
list(open('data/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

- read_table의 구분자로 정규표현식을 쓰면 됨!


In [12]:
result = pd.read_table('data/ex3.txt', sep='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [13]:
!cat data/ex4.csv


'cat'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [14]:
#첫번째 세번째 네번째 행을 건너띄고 싶을때
pd.read_csv('data/ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [16]:
result = pd.read_csv('data/ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [17]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


- na_values옵션은 리스트나 문자열 집합을 받아서 누락된 값을 처리한다

In [18]:
result = pd.read_csv('data/ex5.csv', na_values=['NULL'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- 열마다 다른 NA문자를 사전 값으로 넘겨 처리 할수도 있음

In [19]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}


In [20]:
pd.read_csv('data/ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### 텍스트 파일 조금씩 읽어오기

- 매우 큰 대용량 파일을 처리할 때 인자를 제대로 주었는지 알아보기 위해 파일의 일부분만 읽어보거나 여러파일중에서 몇개의 파일만 읽어서 확인해보고 싶을때

In [21]:
pd.options.display.max_rows = 10

In [22]:
result = pd.read_csv('data/ex6.csv')
result.head()

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


- 파일 전체를 읽는 대신 처음 몇 5줄만 읽어보고 싶다면?

In [23]:
pd.read_csv('data/ex6.csv', nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


- 파일을 여러 조각에 나누어서 읽고 싶다면 chunksize옵션으로 행의 갯수를 주면 됨

In [24]:
chunker = pd.read_csv('data/ex6.csv', chunksize=1000)
chunker

<pandas.io.parsers.TextFileReader at 0x1717e16b9e8>

- ex6.csv파일을 순회하면서 'key'칼럼에 있는 값을 세어보려면?

In [25]:
chunker = pd.read_csv('data/ex6.csv', chunksize=1000)
chunker

<pandas.io.parsers.TextFileReader at 0x1717e16b6a0>

In [26]:
tot = pd.Series([])
tot

Series([], dtype: float64)

In [27]:
for a in chunker:
    tot = tot.add(a['key'].value_counts(), fill_value=0)

tot

0    151.0
1    146.0
2    152.0
3    162.0
4    171.0
     ...  
V    328.0
W    305.0
X    364.0
Y    314.0
Z    288.0
Length: 36, dtype: float64

In [28]:
tot = tot.sort_values(ascending=False)
tot

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
     ...  
5    157.0
2    152.0
0    151.0
9    150.0
1    146.0
Length: 36, dtype: float64

In [29]:
tot[:10]

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

### 데이터를 텍스트 형식으로 기록하기

In [30]:
data = pd.read_csv('data/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- to_csv : 쉼표로 구분된 형식으로 데이터를 파일로 쓸 수 있다.

In [31]:
data.to_csv('data/out.csv')


- 다른 구분자로 저장 가능
- 콘솔에서 확인할 수 있도록 실제파일로 기록하지 않고, sys.stdout에 결과를 기록하도록 하자

In [33]:
import sys
data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


- 결과에서 누락된 값은 비어있는 문자열로 나타나는데, 이것 역시 원하는 값으로 지정할 수 있음

In [34]:
data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


- 다른 옵션이 명시되지 않으면 행과 컬럼의 이름도 함께 기록됨
- 행과 컬럼의 이름을 포함하지 않으려면?

In [35]:
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


- 컬럼의 일부분만 기록하고 싶으면? 컬럼의 순서를 직접 지정할수는 없을까?

In [36]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0


### JSON Data

- JSON은 웹브라우저와 다른 어플리케이션이 HTTP요청으로 데이터를 보낼때 널리 사용하는 표준 파일 형식 중 하나다
- JSON은 CSV같은 표 형식의 텍스트보다 좀 더 유연한 데이터 형식이며, JSON데이터의 예는 다음과 같다

In [37]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

In [38]:
import json
result = json.loads(obj)
result

{'name': 'Wes',
 'pet': None,
 'places_lived': ['United States', 'Spain', 'Germany'],
 'siblings': [{'age': 30, 'name': 'Scott', 'pets': ['Zeus', 'Zuko']},
  {'age': 38, 'name': 'Katie', 'pets': ['Sixes', 'Stache', 'Cisco']}]}

- json.dumps는 파이썬 객체를 JSON형태로 변환한다

In [39]:
asjson = json.dumps(result)

In [40]:
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

- JSON객체나 객체의 리스트를 DataFrame 생성자로 넘기고 데이터 필드를 선택할 수 있다.

In [41]:
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


- 판다스에서 JSON을 빠르고 읽고 쓰는 네이티브 구현이 개발됨

In [43]:
data = pd.read_json('data/example.json')
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [44]:
print(data.to_json())


{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}


In [45]:
print(data.to_json(orient='records'))

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]


### XML과 HTML: 웹내용 긁어오기

conda install lxml
pip install beautifulsoup4 html5lib

In [46]:
tables = pd.read_html('data/fdic_failed_bank_list.html')
len(tables)

1

In [47]:
failures = tables[0]

In [48]:
failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [49]:
close_timestamps = pd.to_datetime(failures['Closing Date'])
close_timestamps.head()

0   2016-09-23
1   2016-08-19
2   2016-05-06
3   2016-04-29
4   2016-03-11
Name: Closing Date, dtype: datetime64[ns]

In [50]:
#close_timestamps.dt.year.value_counts()

# 실습: Naver 쇼핑 크롤러(Crawler)

> **Naver 쇼핑(http://pc.shopping2.naver.com/) 에서 인기있는 세탁기 모델을 찾아보자**

1. 먼저 네이버 쇼핑에 접속한다.
2. 세탁기 카테고리에 접근한다.
3. 원하는 필터를 선택한다. (LG 트롬, LG 통돌이, LG전자)
4. 해당 URL을 복사하여 `url` 이란 변수에 저장한다.
5. `requests` 패키지를 이용해 `url`에 해당하는 페이지를 요청하여(request) 가져온다(get).
6. HTML 태그를 파싱(Parsing) 해주는 `BeautifulSoup`이란 패키지로 파싱한다.
7. 파싱된 이후에는 컴퓨터가 해당 HTML 태그를 이해할 수 있게 된다.
8. 따라서 세탁기 모델에 해당하는 HTML 태그를 찾는다(select).
9. 출력한다.
10. 끝

In [51]:
import requests
from bs4 import BeautifulSoup

In [52]:
url = 'https://search.shopping.naver.com/search/category.nhn?brand=14459%5E14494%5E116504&pagingIndex=1&pagingSize=40&viewType=list&sort=rel&cat_id=50001408&frm=NVSHBRD'

In [53]:
r = requests.get(url)

In [54]:
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')

In [55]:
#soup

In [56]:
goods = soup.select('ul.goods_list li div.info a.tit')
#goods

In [57]:
# print("네이버 쇼핑 세탁기 순위")
# for prod in goods:
#     print(prod['title'])

> **Q. 가장 인기있는 순서대로 세탁기를 살펴봤는데... 어떤 걸 더 해볼까요?**
>
> **모델 T15DS인 제품이 몇 위인지 살펴보고 싶은데 눈에 잘 안보이네요. 각 모델이 몇 위인지도 출력해볼까요?**

In [58]:
# print("네이버 쇼핑 세탁기 순위")
# num = 0
# for prod in goods:
#     # num = num + 1
#     num += 1
#     print(num, prod['title'])

In [59]:
# seq = 0
# for prod in goods:
#     seq = seq + 1
#     print(seq, prod['title'])

## 이진 데이터 형식

- 데이터를 효율적으로 저장하는 가장 손쉬운 방법은 파이썬에 기본으로 내장되어 있는 pickle 직렬화를 통해 데이터를 이진 형식으로 저장하는것

In [60]:
frame = pd.read_csv('data/ex1.csv')
frame
frame.to_pickle('data/frame_pickle')

- pickle로 저장한 데이터는 read_pickle함수로 불러올 수 있다.

In [61]:
pd.read_pickle('data/frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- pickle은 오래 보관할 필요가 없는 데이터에만 추천한다. 오랜시간이 지나도 안정적으로 데이터를 저장할거라고 보장하기 힘들기 때문

In [62]:
!rm data/frame_pickle

'rm'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


## Web APIs 사용하기

- 데이터 피드를 JSON이나 여타 다른형식으로 얻을 수 있는 공개 API를 제공하는 웹사이트가 많다. 
- 파이썬으로 이 API를 사용하는 방법중 requests패키지가 좋음. 
- 깃허브에서 판다스의 다음 릴리즈에 대한 최초 30개의 이슈를 가져오자

In [63]:
import requests
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
resp

<Response [200]>

- Response객체의 json메서드는 파이썬 객체인 사전형태로 변환된 JSON데이터를 반환할 수 있다.

In [64]:
data = resp.json()
#data[:5]

In [65]:
issues = pd.DataFrame(data, columns=['number', 'title',
                                     'labels', 'state'])
issues.head()

Unnamed: 0,number,title,labels,state
0,26102,Include missing data count in pd.DataFrame.des...,[],open
1,26101,Improve documentation for assert_frame|series_...,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open
2,26100,is_categorical_dtype depends on boolness of th...,"[{'id': 307649777, 'node_id': 'MDU6TGFiZWwzMDc...",open
3,26099,CLN: remove compat.itervalues,[],open
4,26097,BUG: _convert_and_box_cache raise ValueError: ...,[],open


## 데이터베이스와 함께 사용해보자

- 대부분의 애플리케이션은 텍스트 파일에서 데이터를 읽어오지 않는다
- 대용량의 데이터를 저장하기에 텍스트 파일은 상당히 비효율적이기 때문!
- SQL기반의 관계형 데이터베이스가 널리 사용되고 있음
- SQL에서 데이터를 읽어와서 DataFrame에 저장하는 방법은 굉장히 직관적임
- 파이썬의 sqlite3드라이버를 사용해서 SQLite데이터베이스를 이용해보자

In [66]:
import sqlite3
#데이터 구조 생성
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""
con = sqlite3.connect('mydata.sqlite')
con.execute(query)
con.commit()

- 이제 데이터를 몇개 입력해보자!

In [67]:
data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)
con.commit()

- 대부분의 파이썬 SQL드라이버는 테이블에 대해 select쿼리를 수행하면 튜플리스트를 반환한다

In [68]:
cursor = con.execute('select * from test')
rows = cursor.fetchall()
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

- 반환된 튜플리스트를 DataFrame생성자에 바로 전달해도 되지만, 칼럼의 이름을 지정해주면 더 편함. 
- 여기서는 cursor의 description속성을 활용하자

In [69]:
cursor.description


(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [70]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


- 데이터베이스에 쿼리를 보내려고 매번 이렇게 하는건 매우 힘듬
- pandas모듈의 read_sql함수를 이용하면 간편하게 해결할 수 있음
- 그냥 select쿼리문과 데이터베이스 연결객체(con)만 넘기면 됨. 

In [71]:
import sqlalchemy as sqla
db = sqla.create_engine('sqlite:///mydata.sqlite')
pd.read_sql('select * from test', db)

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5
