In [1]:
import numpy as np
import pandas as pd

In [2]:
# !cat examples/ex1.csv

In [3]:
df = pd.read_csv('examples/ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
df = pd.read_csv('examples/ex2.csv', header=None)
df

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
!powershell -command Get-Content examples/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [6]:
!powershell -command Get-Content examples/ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [7]:
pd.read_csv('examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
!powershell -command Get-Content examples/csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [9]:
pd.read_csv('examples/csv_mindex.csv')

Unnamed: 0,key1,key2,value1,value2
0,one,a,1,2
1,one,b,3,4
2,one,c,5,6
3,one,d,7,8
4,two,a,9,10
5,two,b,11,12
6,two,c,13,14
7,two,d,15,16


In [10]:
# 계층적 인덱스 : 여러 열을 사용하여 계층적 인덱스를 만들 수 있음
parsed = pd.read_csv('examples/csv_mindex.csv', index_col=['key1', 'key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [11]:
!powershell -command Get-Content examples/ex3.txt

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


In [12]:
# 가변 구분자 처리 : 공백과 같이 가변적인 구분자로 분리 된 데이터는 정규 표현식을 사용하여 처리
result = pd.read_csv('examples/ex3.txt', sep='\\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [13]:
!powershell -command Get-Content examples/ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [14]:
# 행 건너뛰기: skiprows 인수를 사용하여 파일의 특정 행을 건너뛸 수 있음
pd.read_csv('examples/ex4.csv', skiprows = [0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### 결측값 처리
- pandas는 기본적으로 NA 및 NULL 과 같은 일반적인 센티넬 값을 결측값으로 처리
- na_values 옵션을 사용하여 결측값으로 인식 할 문자열을 추가
- keep_default_na 옵션을 사용하여 기본 결측값 처리를 비활성화
- 열마다 다른 결측값 센티넬을 지정

In [15]:
!powershell -command Get-Content examples/ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo


In [16]:
result = pd.read_csv('examples/ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [17]:
# 결측치의 유무 확인
pd.isna(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [18]:
# na_values 옵션을 사용하여 결측값으로 인식할 문자열을 추가 할 수 있음
result = pd.read_csv('examples/ex5.csv', na_values=['NULL'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [19]:
# NA 값을 fillna로 원하는 값으로 바꿔어 표시할 수 있음
result = result.fillna('없음')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,없음
1,two,5,6,없음,8,world
2,three,9,10,11.0,12,foo


In [20]:
# keep_default_na 옵션을 사용하여 기본 결측값 처리를 비활성화 할 수 있음
result = pd.read_csv('examples/ex5.csv', keep_default_na=False)
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [21]:
# 결측값 처리를 비활성화 하여 NA 값이 표기 되지 않음
result.isna()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False


In [22]:
# 결측값 처리를 비활성화하고 'NA'에 대한 것은 결측값으로 인식
result = pd.read_csv('examples/ex5.csv', keep_default_na=False, na_values=['NA'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [23]:
result.isna()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,False,False,False
2,False,False,False,False,False,False


In [24]:
# 칼럼마다 다른 결측값을 지정하여 처리 할 수 있음
# message에 있는 foo와 NA, something에 있는 two를 결측값 처리 하기
sentinels = {'message':['foo', 'NA'], 'something':['two']}
pd.read_csv('examples/ex5.csv', na_values = sentinels, keep_default_na=False)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### 6.1.1 텍스트 파일 조금씩 읽기

In [25]:
# 데이터가 많을 경우 시간이 걸리기 때문에 일부분만 읽어 올 수 있음
# 10줄로 모든 데이터 읽어 오기
pd.options.display.max_rows = 10

In [26]:
result = pd.read_csv('examples/ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [27]:
# 행 수 제한 : nrows 인수를 사용하여 읽을 행 수를 지정
pd.read_csv('examples/ex6.csv', nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [28]:
# 청크 읽기 : chunksize 인수를 사용하여 파일을 청크 단위로 읽을 수 있음
# chunksize = 1000 행
chunker = pd.read_csv('examples/ex6.csv', chunksize=1000)
type(chunker)

pandas.io.parsers.readers.TextFileReader

In [29]:
#for i, piece in enumerate(chunker):
#    print(piece)

In [30]:
tot = pd.Series([], dtype='int64') # 시리즈 생성
for piece in chunker:
 # key에 대한 밸류카운트(단어 빈도수 카운트)확인, fill_value를 0으로 주어 0으로 채우고 시작     
    tot = tot.add(piece['key'].value_counts(), fill_value=0)
    
tot = tot.sort_values(ascending=False)

In [31]:
tot[:10]

key
E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

### 6.1.2 데이터를 텍스트 형식으로 쓰기

In [32]:
!powershell -command Get-Content examples/ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo


In [33]:
data = pd.read_csv('examples/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [34]:
data.to_csv('examples/out.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [35]:
!powershell -command Get-Content examples/out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [36]:
import sys
data.to_csv(sys.stdout, sep='|') # sys.stdout : 적용하지 않고 화면에만 표시하게 함

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [37]:
data.to_csv(sys.stdout, na_rep="NULL")

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [38]:
# 행 및 열 레이블을 비활성화 할 수 있음
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [39]:
# 특정 열만 선택하여 저장
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'd'])

a,b,d
1,2,4
5,6,8
9,10,12


### 6.1.3 다른 구분자 형식 다루기

In [40]:
!powershell -command Get-Content examples/ex7.csv

"a","b","c"
"1","2","3"
"1","2","3"


In [41]:
import csv
f = open('examples/ex7.csv')
reader = csv.reader(f)
reader

<_csv.reader at 0x213c1176260>

In [42]:
# 구분자가 제거 됨
for line in reader:
    print(line)
f.close()

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [43]:
with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f))
    print(lines)

[['a', 'b', 'c'], ['1', '2', '3'], ['1', '2', '3']]


In [44]:
header, value = lines[0], lines[1:]
print(header)
print(value)

['a', 'b', 'c']
[['1', '2', '3'], ['1', '2', '3']]


In [45]:
# zip(*value) 행을 열로 바꾸어 줌
print(list(zip(*value))) # * 가변인자 value를 묶어주어 같은 열끼리 반환

[('1', '1'), ('2', '2'), ('3', '3')]


In [46]:
print(list(zip(header,list(zip(*value)))))

[('a', ('1', '1')), ('b', ('2', '2')), ('c', ('3', '3'))]


In [47]:
data_dict = {h: v for h, v in zip(header, zip(*value))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [48]:
df = pd.DataFrame(data_dict)
df

Unnamed: 0,a,b,c
0,1,2,3
1,1,2,3


In [49]:
# 사용자 정의 CSV 형식(my_dialect) 만들기 : csv.Diadlect 클래스를 상속 받으면 가능
class my_dialect(csv.Dialect):
    lineterminator = '\n' # 줄바꿈 문자 (행을 구분할때 사용)
    delimiter = ';' # 열(컬럼) 구분자 (기본값은 , 지만 ;로 변경)
    quotechar = '"' # 문자열을 감싸는 따옴표 (예: '데이터')
    quoting = csv.QUOTE_MINIMAL # 필요한 경우에만 따옴표 사용 (예: 데이터에 ;가 포함된 경우)

data = [
    ["이름", "나이", "직업"],
    ["철수", "25", "개발자"],
    ["영희", "30", "디자이너"]]

with open('examples/output.csv', 'w', newline="", encoding='utf8') as f:
    writer = csv.writer(f, dialect = my_dialect) # my_dialect 클래스 참조
    writer.writerows(data) # data의 내용을 한 줄 씩 출력 rows

In [50]:
!powershell -command Get-Content examples/output.csv -Encoding utf8

이름;나이;직업
철수;25;개발자
영희;30;디자이너


In [51]:
with open('examples/output.csv', 'r', encoding='utf8')as f:
    reader = csv.reader(f, dialect=my_dialect)
    for row in reader:
        print(row)

['이름', '나이', '직업']
['철수', '25', '개발자']
['영희', '30', '디자이너']


In [52]:
with open('examples/ex7.csv', 'r') as f:
    reader = csv.reader(f, dialect = my_dialect)
    for row in reader:
        print(row)

['a,"b","c"']
['1,"2","3"']
['1,"2","3"']


### 6.1.4 JSON 데이터
- JSON (JavaScript Object Notation)은 웹 브라우저와 애플리케이션 간에 데이터를 보낼 때 사용하는 표준 파일 형식
- JSON 데이터 유형 : 객체(딕셔너리), 배열(리스트), 문자열, 숫자, 불리언, null
- json 라이브러리 : 파이썬 표준 라이브러리인 json을 사용하여 데이터를 읽고 쓸 수 있음
- json.loads : json 문자열을 파이썬 객체로 변환
- json.dumps : 파이썬 객체를 json 문자열로 변환
- pandas.read_json : 특정 구조의 json 데이터 세트를 Series나 DataFrame으로 자동 변환 할 수 있음
- to.json : pandas데이터를 json으로 저장

In [53]:
# JSON 데이터 유형 : 객체(딕셔너리), 배열(리스트), 문자열, 숫자, 불리언, null
obj ="""
{"name": "Wes",
 "cities_lived": ["Akron", "Nashville", "New York", "San Francisco"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 34, "hobbies": ["guitars", "soccer"]},
              {"name": "Katie", "age": 42, "hobbies": ["diving", "art"]}]
}
"""
              

In [54]:
# json.loads : JSON 문자열을 파이썬 객체로 변환
import json
result = json.loads(obj)
result

{'name': 'Wes',
 'cities_lived': ['Akron', 'Nashville', 'New York', 'San Francisco'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 34, 'hobbies': ['guitars', 'soccer']},
  {'name': 'Katie', 'age': 42, 'hobbies': ['diving', 'art']}]}

In [55]:
asjson = json.dumps(result)
asjson

'{"name": "Wes", "cities_lived": ["Akron", "Nashville", "New York", "San Francisco"], "pet": null, "siblings": [{"name": "Scott", "age": 34, "hobbies": ["guitars", "soccer"]}, {"name": "Katie", "age": 42, "hobbies": ["diving", "art"]}]}'

In [56]:
pd.DataFrame(result['siblings'], columns=['name','age'])

Unnamed: 0,name,age
0,Scott,34
1,Katie,42


In [57]:
!powershell -command Get-Content examples/example.json

[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]


In [58]:
data = pd.read_json('examples/example.json')
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [59]:
# 데이터 프레임을 json으로 내보내기
# sys.stdout은 print()가 사용하는 표준 출력 스트림으로서 콘솔에 표시
data.to_json(sys.stdout)

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}

In [60]:
data.to_json(sys.stdout, orient='records') #orient = records(행)단위로 딕셔너리 형태의 리스트로 반환

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]

### 6.1.5 XML과 HTML : 웹 스크래핑
- XML/HTML 라이브러리 : 파이썬은 HTML 및 XML 형식으로 데이터를 읽고 쓰는데 사용되는 여러 라이브러리 (lxml, Beautiful Soup, html5lib)를 제공
- pandas.read_html : pandas는 HTML 파일에서 테이블을 DataFrame 객체로 자동 구문 분석하는 pandas.read_html 함수를 제공. 이 함수는 파이썬 라이브러리들을 사용.
- 추가 라이브러리 설치 : read_html을 사용하려면 lxml, beautifulsoup4, html5lib 라이브러리를 추가로 설치
- HTML 테이블 파싱 : read_html 함수는 태그 내에 포함된 모든 테이블 데이터를 검색하고 파싱, DataFrame 객체 리스트를 리턴
- 데이터 분석 : 파싱 된 데이터를 사용하여 데이터 정리 및 분석을 수행
- XML 파싱 : lxml.objectify를 사용하여 XML 파일을 파싱하고 데이터 추출
- pandas.read_xml : pandas.read_xml 함수를 사용하여 XML 데이터를 DataFrame으로 변환

In [61]:
# pd.read_html : <table> 태그의 모든 표 형식을 DataFrame의 리스트에 저장
tables = pd.read_html('examples/fdic_failed_bank_list.html')
tables

[                             Bank Name             City  ST   CERT  \
 0                          Allied Bank         Mulberry  AR     91   
 1         The Woodbury Banking Company         Woodbury  GA  11297   
 2               First CornerStone Bank  King of Prussia  PA  35312   
 3                   Trust Company Bank          Memphis  TN   9956   
 4           North Milwaukee State Bank        Milwaukee  WI  20364   
 ..                                 ...              ...  ..    ...   
 542                 Superior Bank, FSB         Hinsdale  IL  32646   
 543                Malta National Bank            Malta  OH   6629   
 544    First Alliance Bank & Trust Co.       Manchester  NH  34264   
 545  National State Bank of Metropolis       Metropolis  IL   3815   
 546                   Bank of Honolulu         Honolulu  HI  21029   
 
                    Acquiring Institution        Closing Date  \
 0                           Today's Bank  September 23, 2016   
 1              

In [62]:
failure = tables[0]
failure.head()
failure.tail()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
542,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001","August 19, 2014"
543,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001","November 18, 2002"
544,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001","February 18, 2003"
545,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000","March 17, 2005"
546,Bank of Honolulu,Honolulu,HI,21029,Bank of the Orient,"October 13, 2000","March 17, 2005"


In [63]:
# closing data 열을 시계열 데이터로 가져오고, 연도별 count를 출력
close_timestamps = pd.to_datetime(failure['Closing Date']) # 날짜 형식으로 변환, closing date가 열이 된 시리즈 반환
# dt.year : 시리즈에서 연도를 추출
close_timestamps.dt.year.value_counts()

Closing Date
2010    157
2009    140
2011     92
2012     51
2008     25
       ... 
2004      4
2001      4
2007      3
2003      3
2000      2
Name: count, Length: 15, dtype: int64

In [64]:
from lxml import objectify

path = 'datasets/mta_perf/Performance_MNR.xml'
with open(path) as f:
    parsed = objectify.parse(f)
root = parsed.getroot()
root

<Element PERFORMANCE at 0x213c1173b00>

In [65]:
data = []

# 제외 할 태그 목록
skip_fields = [ 'PARENT_SEQ', 'INDICATOR_SEQ', 
               'DESIRED_CHANGE', 'DECIMAL_PLACES']

for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():

        # 특정 필드를 제외 시킴
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)
data[0]

{'AGENCY_NAME': 'Metro-North Railroad',
 'INDICATOR_NAME': 'On-Time Performance (West of Hudson)',
 'DESCRIPTION': 'Percent of commuter trains that arrive at their destinations within 5 minutes and 59 seconds of the scheduled time. West of Hudson services include the Pascack Valley and Port Jervis lines. Metro-North Railroad contracts with New Jersey Transit to operate service on these lines.\n',
 'PERIOD_YEAR': 2008,
 'PERIOD_MONTH': 1,
 'CATEGORY': 'Service Indicators',
 'FREQUENCY': 'M',
 'INDICATOR_UNIT': '%',
 'YTD_TARGET': 95.0,
 'YTD_ACTUAL': 96.9,
 'MONTHLY_TARGET': 95.0,
 'MONTHLY_ACTUAL': 96.9}

In [66]:
perf = pd.DataFrame(data)
perf.head()

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95.0,96.9,95.0,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95.0,96.0,95.0,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95.0,96.3,95.0,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95.0,96.8,95.0,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95.0,96.6,95.0,95.8


In [67]:
# pandas read_xml()을 사용
perf2 = pd.read_xml(path)
perf2.head()

Unnamed: 0,INDICATOR_SEQ,PARENT_SEQ,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,DESIRED_CHANGE,INDICATOR_UNIT,DECIMAL_PLACES,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,U,%,1,95.0,96.9,95.0,96.9
1,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,U,%,1,95.0,96.0,95.0,95.0
2,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,U,%,1,95.0,96.3,95.0,96.9
3,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,U,%,1,95.0,96.8,95.0,98.3
4,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,U,%,1,95.0,96.6,95.0,95.8


### 6.2 이진 데이터 형식
- 직렬화 (serialize) : pickle
- to_pickle
- read_pickle

### 6.2.1 Excel 파일 읽기
- pandas.ExcelFile 및 pandas.read_excel : excel 2003 이상 파일에 저장 된 데이터 읽기
- xlrd 및 openpyxl 패키지
- xlrd : .xls 읽기만 가능
- openpyxl : .xlsx 읽기,쓰기 가능, pandas지원

In [68]:
xlsx = pd.ExcelFile('examples/ex1.xlsx')

In [69]:
xlsx.sheet_names

['Sheet1']

In [70]:
xlsx.parse(sheet_name='Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [71]:
# 첫번째 열을 인덱스로 지정
xlsx.parse(sheet_name='Sheet1', index_col=0)

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [72]:
frame = pd.read_excel('examples/ex1.xlsx', sheet_name = 'Sheet1')
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [73]:
# 하나의 파일에 여러개의 시트를 읽거나 써야 한다면 ExcelFile 객체를 사용
writer = pd.ExcelWriter('examples/ex2.xlsx')
frame.to_excel(writer, sheet_name='Sheet1')
writer.close()

In [74]:
# 간단하게 하나의 파일이름으로 사용 할 때
frame.to_excel('examples/ex2.xlsx')

### 6.2.2 HDF5 형식 사용
- 대량의 과학 배열 데이터를 저장하기 위한 파일 형식, 계층적 데이터 형식으로 압축을 지원하여 효율적인 저장이 가능
- HDF5
- 장점: 빠른 읽기/쓰기, 계층적 구조, 대규모 데이터 처리 가능
- 단점: 멀티플랫폼 공유 어려움, 압축 필요
- CSV
- 장점: 범용성, 사람이 읽을 수 있음
- 단점: 속도 느림, 대용량 데이터 비효율적
- Parquet
- 장점: 컬럼 기반 저장, 빅데이터 최적화
- 단점: HDF5보다 느림
- SQL
- 장점: 관계형 데이터 저장
- 단점: 설정 필요, 파일 포맷 아님

In [75]:
#!pip install tables

In [76]:
frame = pd.DataFrame({'a': np.random.standard_normal(100)})

store = pd.HDFStore('examples/mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']
display(store)

<class 'pandas.io.pytables.HDFStore'>
File path: examples/mydata.h5

In [78]:
store['obj1']

Unnamed: 0,a
0,-0.017230
1,-0.168815
2,0.009130
3,0.298095
4,-0.242869
...,...
95,0.138708
96,0.108092
97,-0.196357
98,0.073807


In [82]:
store.put('obj2', frame, format='table') # HDF5 파일에 테이블 형식으로 데이터 저장
store.select('obj2', where=['index >= 10 and index <=15']) # 테이블 형식으로 저장된 데이터 검색

Unnamed: 0,a
10,0.422136
11,-0.460505
12,-1.372947
13,-2.013316
14,2.11322
15,-0.310871


In [83]:
store.close()

In [85]:
frame.to_hdf('examples/mydata.h5', key='obj3', format='table') #HDF5 파일에 테이블 형식으로 저장
pd.read_hdf('examples/mydata.h5', key='obj3', where=['index < 5'])

Unnamed: 0,a
0,-0.01723
1,-0.168815
2,0.00913
3,0.298095
4,-0.242869


In [86]:
import os
os.remove('examples/mydata.h5')

### 6.3 Web API 와 함께
- 웹 API: 많은 웹사이트에서 json 또는 다른 형식을 통해 데이터 피드를 제공하는 공개 API를 제공
- requests 라이브러리: 파이썬에서 웹 API에 접근
- GET 요청: requests.get을 사용하여 HTTP GET 요청을 보냄
- 응답 처리: 응답 객체의 json 메서드는 파싱된 json 데이터를 파이썬 객체로 반환
- DataFrame으로 변환: 데이터를 pandas.DataFrame에 전달하여 관심 있는 필드만 따로 추출 할 수있음
- conda install requests

In [87]:
# !pip install requests



In [89]:
import requests
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url) # http get 요청 보내기
resp.raise_for_status() # 오류 상태를 알려줌
resp # 200 정상

<Response [200]>

In [91]:
data = resp.json()
data[0]['title'] # 0번째의 title을 가져옴

'BUG: Unknown Error - Getting from Databricks SQL Python - From PyArrow module (pyarrow.lib.ArrowException)'

In [92]:
data[0]['user']['login']

'Gobi2511'

In [94]:
# 데이터프레임 형식으로 원하는 항목 뽑아오기
issues = pd.DataFrame(data, columns = ['number', 'title', 'labels', 'state'])
issues

Unnamed: 0,number,title,labels,state
0,60838,BUG: Unknown Error - Getting from Databricks S...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
1,60833,BUG: `.str.contains()` regex lookbehind and lo...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
2,60831,BUG: `pd.Series.groupby` issues `FutureWarning`,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
3,60830,DOC: `pandas.DataFrame.to_html` additional des...,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open
4,60829,ENH: Improved error message and raise new erro...,"[{'id': 42670965, 'node_id': 'MDU6TGFiZWw0MjY3...",open
...,...,...,...,...
25,60800,BUG: Cannot connect to odoo,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
26,60797,API: ignore empty range/object dtype in Index ...,"[{'id': 57522093, 'node_id': 'MDU6TGFiZWw1NzUy...",open
27,60795,TST(string dtype): Resolve xfails in pytables,"[{'id': 127685, 'node_id': 'MDU6TGFiZWwxMjc2OD...",open
28,60786,ENH: generic `save` and `read` methods for Dat...,"[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open


### 6.4 데이터베이스와 함께 사용하기
- SQL 기반 데이터베이스 : SQL Server, PostgreSQL, MySQL 등은 비즈니스 환경에서 널리 사용
- sqlite3 드라이버: 파이썬 내장 sqlite3 드라이버를 사용 SQLite3 데이터베이스를 만들 수 있음
- SQL 쿼리 : 데이터베이스에서 데이터를 선택
- 튜플 목록 : 대부분의 파이썬 SQL 드라이버는 테이블에서 데이터를 선택 할 때 튜플 목록을 반환
- 커서 : 커서의 description 속성에는 열 이름이 포함되어 있음
- SQLAlchemy : 다양한 SQL 데이터베이스 간의 일반적인 차이점을 추상화하는 파이썬 SQL 툴킷
- read_sql 함수 : SQLAlchemy 연결에서 데이터를 쉽게 읽을 수 있도록 함

#### 데이터베이스 연결 예시

|데이터베이스|    연결 문자열 (Connection String)|
------------|----------------------------------
SQLite (파일)|    "sqlite:///mydata.sqlite"
SQLite (메모리)|    "sqlite:///:memory:"
MySQL|    "mysql+pymysql://user:password@localhost/dbname"
PostgreSQL|    "postgresql://user:password@localhost/dbname"

In [104]:
import sqlite3

In [109]:
# 쿼리문 생성
query = """
create table test3
(a varchar(20), b varchar(20),
 c real, d integer
 );""" # real 실수 부동소수점

conn = sqlite3.connect('mydata.sqlite') # SQLite3 데이터베이스 연결
conn.execute(query) # execute 명령어로 query 실행
conn.commit()

In [106]:
data = [("Atlanta", "Georgia", 1.25, 6),
        ("Tallahassee", "Florida", 2.6, 3),
        ("Sacramento", "California", 1.7, 5)]

In [112]:
conn = sqlite3.connect('mydata.sqlite') # SQLite3 데이터베이스 연결
stmt = 'insert into test3 values (?, ?, ?, ?)'
conn.executemany(stmt, data)
conn.commit()

In [113]:
# 데이터베이스 읽어오기
conn = sqlite3.connect('mydata.sqlite') # SQLite3 데이터베이스 연결
cursor = conn.execute('select * from test3')
rows = cursor.fetchall() # 결과를 모두 가져오기 fetch, fetchall
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5),
 ('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [114]:
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [121]:
# rows를 데이터프레임으로 변환하기 , cursor.description의 컬럼을 이용
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5
3,Atlanta,Georgia,1.25,6
4,Tallahassee,Florida,2.6,3
5,Sacramento,California,1.7,5


In [118]:
# !pip install sqlalchemy



In [122]:
import sqlalchemy as sqla
db = sqla.create_engine('sqlite:///mydata.sqlite') # 데이터베이스에 연결
pd.read_sql('select * from test3', db) # 데이터프레임 형식으로 반환

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5
3,Atlanta,Georgia,1.25,6
4,Tallahassee,Florida,2.6,3
5,Sacramento,California,1.7,5
