In [1]:
import pandas as pd
import numpy as np

# 텍스트 파일에서 데이터를 읽고 쓰는 법
<br>

### pandas 파일 파싱(parsing)함수
- read_csv : 파일,url 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉼표(,)를 기본으로 한다.
- read_tabl : 데이터 구분자는 탭('\t')
- read_fwf :  고정폭 컬럼 형식에서 데이터를 읽어온다.(구분자가 없는 데이터)
- read_clipboard : 클립보드에 있는 데이터를 읽어오는 read_table함수. 웹페이지에서 표를 읽을 때 유용함
- read_excel
- read_json,html,sas,sql 등등

#### 위 함수들이 취하는 옵션
- 색인 :  반환하는 DataFrame에서 하나 이상의 컬럼을 색인으로 지정할 수 있다. 파일이나 사용자로부터 컬럼 이름을 받거나 아무것도 받지 않을 수 있다.
- 자료형 추론과 데이터 변환 : 사용자 정의 값 변환과 비어있는 값을 위한 사용자 리스트를 포함한다.
- 날짜 분석 : 여러 컬럼에 걸친 날짜와 시간 정보를 하나의 컬럼에 조합해서 결과에 반영
- 반복 : 여러 개의 파일에 걸쳐있는 자료를 반복적으로 읽어올 수 있다.
- 정제되지 않은 데이터 처리 : 로우나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 것들의 처리를 해준다.

In [None]:
pd.read_csv()

In [3]:
# !type을 이용해 내용을 확인할 수 있다.

!type ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [15]:
# ex1은 엑셀파일처럼 생겼지만 geany를 이용해 열면 내용을 정확하게 볼 수 있다.

df = pd.read_csv('ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [16]:
# read_table에 구분자를 따로 지정해 읽어올 수도 있음

pd.read_table('ex1.csv',sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [17]:
# 다른 옵션들

!type ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [19]:
# 자동으로 첫 째줄이 컬럼이 되지 않도록

pd.read_csv('examples/ex2.csv',header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [22]:
# 컬럼 이름을 만들어줌

pd.read_csv('examples/ex2.csv',names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [23]:
# 특정 컬럼을 인덱스로 하기 (index_col에 리스트 넘기면 계층적 색인 역시 가능)

pd.read_csv('examples/ex2.csv',names=['a','b','c','d','message'],index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [26]:
# 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해놓는 경우

list(open('examples/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [27]:
pd.read_table('examples/ex3.txt',sep='\s+')      # 정규표현식을 이용해 공백문자를 구분자로 표현

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


### 예외처리

In [29]:
!type ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [30]:
# 건너뛰기

pd.read_csv('ex4.csv',skiprows=[0,2,3]) # 인덱스는 표에 추가되는 순으로 부여

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [32]:
# 결측치 처리

!type ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo


In [33]:
df = pd.read_csv('ex5.csv')
df

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [34]:
df.isnull()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [36]:
# na_values 옵션은 결측치로 처리할 값들의 목록

pd.read_csv('ex5.csv', na_values=['world',2])

Unnamed: 0,something,a,b,c,d,message
0,one,1,,3.0,4,
1,two,5,6.0,,8,
2,three,9,10.0,11.0,12,foo


In [37]:
# 컬럼별로 다르게 처리하기 위해 사전을 이용할 수 있다.

pd.read_csv('ex5.csv', na_values={'message':[2,'world'],'something':['two']})

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,
2,three,9,10,11.0,12,foo


### read_csv,table에 자주 사용하는 인자들
- path
- sep 또는 delimiter , skip_footer na_values
- header : 컬럼 이름으로 사용할 로우 번호, 기본값은 0, None 역시 가능
- index_col :  색인으로 사용할 컬럼 번호나 이름(컬럼을 색인으로 넘김)
- names : 컬럼 이름으로 사용할 리스트, header=None과 함께 사용
- skiprows : 정수면 시작부터 무시할 행수, 리스트면 무시할 로우들
- nrows : 파일의 첫 일부만 읽어올 때 처음 몇 줄을 읽을지
- squeeze : True로 했을 때 컬럼이 하나 뿐이라면 Series를 반환(기본값은 False)
- convert : 컬럼에 적용할 함수(ex) convert={'foo':f}는 'foo'컬럼에 f라는 함수를 적용시킴)
- thousand : 숫자를 천 단위로 끊을 때 구분자 (점이나 쉼표 같은 문자)
<br>

- chunksize :  아래에서 상술

기타 등등

## 텍스트 파일 조금씩 읽어오기

In [3]:
# pandas의 출력 설정 (이런 것이 있다 정도 기억)

pd.options.display.max_rows = 10

In [18]:
# 파일의 일부만 읽어보고 싶으면 nrows 혹은 skiprows/ skip_footer

# 파일을 여러 조각으로 나누어서 읽고 싶으면 chunksize 옵션

chunker = pd.read_csv('examples/ex6.csv',chunksize=100)   # 각 조각이 100개가 되도록 쪼갠 것임

In [19]:
chunker

<pandas.io.parsers.TextFileReader at 0x1ed01643448>

In [20]:
# 반복문으로 확인해 볼 수 있음

chunk_list = []
for piece in chunker:                     
    chunk_list.append(piece)
 # chunk_size로 쪼갠 이터러블 객체는 for문을 돌리면 빈값이 된다. 다시 한번 활용하려면 read_csv ~를 다시 해야함

In [21]:
chunk_list[0]

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
95,1.106521,0.098153,0.789793,1.192693,T
96,-0.540543,1.782569,0.051931,0.463868,Q
97,-0.101980,0.981720,1.106990,-1.752269,M
98,0.632107,-0.761419,1.427930,-0.046928,F


In [22]:
chunk_list[1]

Unnamed: 0,one,two,three,four,key
100,-0.602748,-0.182504,-0.768164,1.260686,X
101,-0.039105,-0.069510,-1.358052,-0.292859,0
102,-0.345101,-0.179477,-0.904658,-0.071287,T
103,-0.759495,0.225916,2.235872,-0.004490,X
104,-1.686771,0.742276,0.485876,1.798507,Q
...,...,...,...,...,...
195,-0.389368,-0.932914,-0.998025,0.563617,D
196,-0.558272,-0.161775,-1.538067,0.613443,G
197,-0.158497,1.349013,-0.475158,-1.033059,0
198,0.407671,0.254557,-1.560825,1.125628,F


In [23]:
chunker = pd.read_csv('examples/ex6.csv',chunksize=100)

tot = pd.Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)          # value_cpounts 기억, fill_value는 ?
    
tot = tot.sort_values(ascending=False)
tot

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
V    328.0
I    327.0
U    326.0
P    324.0
D    320.0
A    320.0
R    318.0
Y    314.0
G    308.0
S    308.0
N    306.0
W    305.0
T    304.0
B    302.0
Z    288.0
C    286.0
4    171.0
6    166.0
7    164.0
8    162.0
3    162.0
5    157.0
2    152.0
0    151.0
9    150.0
1    146.0
dtype: float64

## 데이터를 텍스트 형식으로 기록하기

In [24]:
data = pd.read_csv('examples/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [25]:
# 데이터프레임 객체에 to_csv 하면 csv로 저장할 수 있음, 여기서는 생략하나 Series에도 to_csv 있음

data.to_csv('zzz.csv',index=False)      # index를 기본값으로 두면 자동으로 인덱스가 0,1,2...로 부여됨

In [26]:
# 실제 파일을 기록하지 않고 sys.stdout에 기록해 콘솔에서 확인할 수 있음

import sys

data.to_csv(sys.stdout,sep='|')        # sys 정도는 기억

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [29]:
# 위 결과를 잘 보면 누락된 값이 있는데 na_rep 옵션으로 누락된 값을 원하는 값으로 바꿔 표시할 수 있다.

data.to_csv(sys.stdout,na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [30]:
# 각종 옵션

data.to_csv(sys.stdout,index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [31]:
data.to_csv(sys.stdout,index=False, columns=['a','b','c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0


## 구분자 형식 다루기

In [32]:
!type ex7.csv

"a","b","c"
"1","2","3"
"1","2","3"


In [53]:
# 구분자가 한 글자인 파일은 csv모듈을 이용해 처리 가능. 열려진 파일 객체를 csv.reader함수에 넘기기만 하면 됨

import csv
f = open('ex7.csv')

reader = csv.reader(f)

In [54]:
reader

<_csv.reader at 0x1ed0266d198>

In [55]:
for line in reader:          # chunksize 때처럼 순회하면 빈 값이 된다.
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [56]:
f.close()

In [58]:
# 같은 과정

with open('ex7.csv') as f:            # 그냥 open 하는 것과 with 쓰는 것 차이 알아두기
    lines = list(csv.reader(f))
    
lines

[['a', 'b', 'c'], ['1', '2', '3'], ['1', '2', '3']]

In [59]:
with open('ex7.csv') as f:
    lines = list(csv.reader(f))
    
header, values=lines[0],lines[1:]

data_dict = {h: v for h,v in zip(header,zip(*values))}      # zip의 활용법, zip(*~~)인 경우?? 중첩된 이터러블 객체에서 다 짝지음
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [61]:
for i in zip(*values):
    print(i)

('1', '1')
('2', '2')
('3', '3')


## JSON 데이터
JSON은 csv 같은 표 형식의 텍스트보다 좀 더 유연한 데이터 형식이다. 몇 가지 미묘한 차이를 제외하면 파이썬 코드와 거의 유사하다.<br>기본 자료형은 객체(사전), 배열(리스트), 문자열, 숫자, 불리언, null이다. 객체의 키는 반드시 문자열이어야한다.<br> JSON 데이터를 읽고 쓰기 위한 json 라이러리를 활용할 수 있다. JSON 문자열을 파이썬 형태로 변환하기 위해서는 json.loads를 활용한다.

In [2]:
# 주어진 JSON 데이터

obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

In [4]:
import json

result = json.loads(obj)
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [67]:
type(result)

dict

In [69]:
# json.dumps는 파이썬 객체를 JSON 형태로 변환한다.

asjson = json.dumps(result)
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

In [73]:
# 외부에서 json파일 읽어오기

data = pd.read_json('examples/example.json')
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# to_json 함수를 사용하면 pandas의 데이터를 JSON으로 저장할 수 있다.

## XML과 HTML : 웹스크래핑
lxml, Beautiful Soup, html5lib 같은 HTML,XML 형식의 데이터를 읽고 쓸 수 있는 라이브러리가 많음.<br>
그 중 lxml은 가장 빠르게 동작하고 깨진 HTML과 XML 파일도 잘 처리해준다.

In [2]:
# https://www.fdic.gov/bank/individual/failed/banklist.html 미연방예금보험공사에서 부도은행을 보여주는 HTML을 다운로드

In [4]:
# 라이브러리들을 설치
!pip install lxml



In [5]:
tables = pd.read_html('examples/fdic_failed_bank_list.html')

In [17]:
# 아무 html 파일이나 다 읽을 수 있는 것이 아니다.
aa = pd.read_html('page_op.html')

ValueError: No tables found

In [6]:
len(tables)

1

In [19]:
# tables는 리스트
# failure은 데이터프레임->tables는 데이터프레임 하나만 원소로 가지고 있는 리스트

failures = tables[0]
failures

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"
...,...,...,...,...,...,...,...
542,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001","August 19, 2014"
543,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001","November 18, 2002"
544,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001","February 18, 2003"
545,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000","March 17, 2005"


### lxml.objectify를 이용해서 XML 파싱하기
HTML에는 데이터를 파싱하기 위해 내부적으로 lxml 또는 Beaiutiful Soup을 사용하는 pd.read_html 함수가 있다.<br>
XML과 HTML은 구조적으로 유사하지만 XML이 좀 더 범용적이다.<br> 
lxml을 이용해서 XML 형식에서 데이터를 파싱하는 방법을 살보도록 합시다.

In [21]:
from lxml import objectify

path = 'examples/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()

In [26]:
root.INDICATOR
# 모든 <INDICATOR> XML 엘리먼트를 끄집어낼 수 있다,

<Element INDICATOR at 0x20ea7a70fc8>

In [28]:
data=[]

skip_fields = ['PARENT_SEQ','INDICATOR_SEQ','DESIRED_CHANGE','DECIMAL_PLACES']

for elt in root.INDICATOR:
    el_data={}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

perf = pd.DataFrame(data)

perf.head()

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95,96.9,95,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95,96.0,95,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95,96.3,95,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95,96.8,95,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95,96.6,95,95.8
