## 6.1 텍스트 파일에서 데이터를 읽고 쓰는법

In [None]:
import pandas as pd

df = pd.read_csv('examples/ex1.csv')

In [5]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [14]:
pd.read_table('examples/ex2.csv', sep = ',')

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


In [17]:
names = ['a', 'b', 'c', 'd', 'message']

pd.read_csv('examples/ex2.csv', names = names, index_col = 'message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [25]:
parsed = pd.read_csv('examples/csv_mindex.csv', names = ['key1', 'key2', 'value1', ' value2'],
                    index_col = ['key1', 'key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [31]:
list(open('examples/ex1.csv'))

['a,b,c,d,message\n', '1,2,3,4,hello\n', '5,6,7,8,world\n', '9,10,11,12,foo\n']

In [40]:
result = pd.read_table('examples/ex3.csv', sep = ',')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [42]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [47]:
sentinels = {'message' : ['foo', 'NA'], 'something' : ['two']}

result = pd.read_csv('examples/ex3.csv', na_values = sentinels)
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


In [60]:
# 6.1.1 텍스트 파일 조금씩 읽어오기

pd.options.display.max_rows = 10

chunker = pd.read_csv('examples/ex6.csv', nrows = 5)

chunker

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


## 6.1.2 데이터를 텍스트 형식으로 기록하기

In [83]:
data = pd.read_csv('examples/ex5.csv')

data.to_csv('examples/out.csv', index = False, columns = ['a','b','c'])

list(open('examples/out.csv'))

['a,b,c\n', '1,2,3.0\n', '5,6,\n', '9,10,11.0\n']

In [82]:
import numpy as np

dates = pd.date_range('1/1/2000', periods = 7) # 2000년 1월 1일부터 7일을 배열로 생성

ts = pd.Series(np.arange(7), index= dates) # 그걸 인덱스로 주고 Series 객체 생성

ts.to_csv('examples/tseries.csv')

list(open('examples/tseries.csv'))

[',0\n',
 '2000-01-01,0\n',
 '2000-01-02,1\n',
 '2000-01-03,2\n',
 '2000-01-04,3\n',
 '2000-01-05,4\n',
 '2000-01-06,5\n',
 '2000-01-07,6\n']

## 6.1.3 구분자 형식 다루기

In [100]:
pd.read_table('examples/ex7.csv', sep = ',')
list(open('examples/ex7.csv')) # 구분을 예쁘게 바꿔보자.

['"a","b","c"\n', '"1","2","3"\n', '"1","2","3"\n']

In [89]:
import csv
f = open('examples/ex7.csv')

reader = csv.reader(f)

for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [105]:
with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f))
    
header, values = lines[0], lines[1:]

data_dict = {h: v for h, v in zip(header, zip(*values))}
# zip(*)을 빼고 입력을 한번 해보아라. 뭐가 문제인지 알 수 있다.

data_dict # 기존의 csv 파일을 개조하여 데이터 컬럼 사전을 만든 것이다.

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

## 6.1.4 JSON 데이터

In [106]:
import json

obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

result = json.loads(obj) # JSON을 파이썬 형태로.

result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [108]:
asjson = json.dumps(result) # 파이썬 객체를 JSON으로

asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

In [111]:
# 어떻게 JSON 객체를 DataFrame과 같은 자료구조로 변환할 것인가.

siblings = pd.DataFrame(result['siblings'], columns=['name','age'])
# result(파이썬 객체)에서 siblings key만 가져와 DataFrame으로 만든 뒤, columns까지 따온 것이다.

siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


In [114]:
# 그 외에도 pandas.read_json을 사용하면 자동으로 JSON을 Series나 DataFrame으로 변환할 수 있다.

list(open('examples/example.json'))

['[{"a": 1, "b": 2, "c": 3},\n',
 ' {"a": 4, "b": 5, "c": 6},\n',
 ' {"a": 7, "b": 8, "c": 9}]\n']

In [115]:
data = pd.read_json('examples/example.json')

data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [118]:
# 나아가 pandas의 데이터를(시리즈나 데이터프레임 자료구조를) JSON으로 저장하는 방법은 
# 시리즈나 데이터프레임의 to_json 객체 함수를 이용하는 것이다.

print(data.to_json())

print()

print(data.to_json(orient='records'))

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]
