In [20]:
import numpy as np
import pandas as pd

In [23]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# 6.1 텍스트 파일에서 데이터 읽고 쓰기


pandas에서 표 형식의 자료를 DataFrame 객체로 읽어 오는 함수들
- read_csv
- read_table
- read_fwf
- read_clipboard
- read_excel
- read_hdf
- read_html
- read_msgpack
- read_pickle
- read_sas
- read_sql
- read_stata
- read_feather


옵션
- 색인 : 반환하는 데이터프레임에서 하나 이상의 컬럼을 색인으로 지정한다.
- 자료형 추론과 데이터 변환
- 날짜 분석 : 여러 컬럼에 걸쳐 있는 날짜/시간 정보를 하나의 컬럼에 조합한다.
- 반복 : 여러 파일의 자료를 반복적으로 읽어온다.
- 정제되지 않은 데이터 처리 : 로우/꼬리말/ 주석 건너뛰기, 숫자 안 쉼표 등

In [None]:
!cat /content/drive/MyDrive/pydata/examples/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [None]:
## 파일이 쉼표로 구분되어 있기 때문에 read_csv를 사용해서 DataFrame으로 읽어올 수 있다.

df=pd.read_csv('/content/drive/MyDrive/pydata/examples/ex1.csv')
print(df)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


In [None]:
## read_table에 구분자를 쉼표로 지정해서 읽어올 수 있다.

df=pd.read_table('/content/drive/MyDrive/pydata/examples/ex1.csv',sep=',')
print(df)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


컬럼 이름이 없는 파일의 경우

1. pandas가 자동으로 컬럼 이름을 생성하게 한다
2. 직접 컬럼 이름을 지정한다.

In [None]:
!cat /content/drive/MyDrive/pydata/examples/ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [None]:
pd.read_csv('/content/drive/MyDrive/pydata/examples/ex2.csv',header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
pd.read_csv('/content/drive/MyDrive/pydata/examples/ex2.csv',names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


message 컬럼을 색인으로 하는 DataFrame 반환하기
- index_col 인자에 4번째 컬럼 또는 'message' 이름을 가진 컬럼을 지정한다.

In [None]:
names=['a','b','c','d','message']

pd.read_csv('/content/drive/MyDrive/pydata/examples/ex2.csv',names=names,index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


계층적 색인 지정하기
- 컬럼 번호나 이름의 리스트를 넘긴다.

In [None]:
!cat /content/drive/MyDrive/pydata/examples/csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [None]:
parsed=pd.read_csv('/content/drive/MyDrive/pydata/examples/csv_mindex.csv',index_col=['key1','key2'])

parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


고정된 구분자 없이 공백 등으로 필드가 구분된 경우

In [None]:
list(open('/content/drive/MyDrive/pydata/examples/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [None]:
## 공백으로 구분되었기 때문에 정규 표현식 '\s+'를 사용하여 처리했다.

result=pd.read_table('/content/drive/MyDrive/Ch6/ex3.txt',sep='\s+')

result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


데이터 파싱 함수의 다양한 인자들
- skiprows : 특정 행을 건너뛸 수 있다.

In [None]:
!cat /content/drive/MyDrive/pydata/examples/ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [None]:
pd.read_csv('/content/drive/MyDrive/pydata/examples/ex4.csv',skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- na_values : 리스트나 문자열 집합을 받아서 누락된 값을 처리한다.

In [None]:
!cat /content/drive/MyDrive/pydata/examples/ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

In [None]:
result=pd.read_csv('/content/drive/MyDrive/pydata/examples/ex5.csv')

result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
## 해당 데이터값이 null인지 확인한다.

pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [None]:
result=pd.read_csv('/content/drive/MyDrive/pydata/examples/ex5.csv',na_values=['NULL'])

result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
## 누락된 값을 처리하는 방법을 컬럼마다 다르게 지정할 수도 있다.

sentinels={'message':['foo','NA'],'something':['two']}

pd.read_csv('/content/drive/MyDrive/pydata/examples/ex5.csv',na_values=sentinels)

## 'message'에서는 'foo'와 'NA'를, 'something'에서는 'two'를 누락된 값으로 처리했다.

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


이 외에도 read_csv와 read_table 함수에는 다양한 인자들이 존재한다. (교재 파일 p.244)

## 6.1.1 텍스트 파일 조금씩 읽어오기

파일의 일부분만 읽어보거나 여러 파일 중 몇 개의 파일만 읽어볼 수 있다.

In [None]:
## 최대 10개의 데이터만 출력한다.

pd.options.display.max_rows=10

In [None]:
result=pd.read_csv('/content/drive/MyDrive/pydata/examples/ex6.csv')

result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


nrows : 파일의 처음 몇 줄만 읽어 본다.

In [None]:
pd.read_csv('/content/drive/MyDrive/pydata/examples/ex6.csv',nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


chunksize : 파일을 여러 조각으로 나누어 읽는다.

In [None]:
chunker=pd.read_csv('/content/drive/MyDrive/pydata/examples/ex6.csv',chunksize=1000)

chunker

<pandas.io.parsers.readers.TextFileReader at 0x7f568b81d4c0>

In [None]:
## 여러 조각으로 나눈 파일들 순회하기

tot=pd.Series([])
for piece in chunker:
  tot=tot.add(piece['key'].value_counts(),fill_value=0)

tot=tot.sort_values(ascending=False)

tot[:10]

  tot=pd.Series([])


E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

##6.1.2 데이터를 텍스트 형식으로 기록하기

데이터를 읽어올 때와 마찬가지로, 데이터를 구분자로 구분한 형식으로 내보내는 것도 가능하다.

In [14]:
data=pd.read_csv('/content/drive/MyDrive/pydata/examples/ex5.csv')

data

Unnamed: 0.1,Unnamed: 0,something,a,b,c,d,message
0,0,one,1,2,3.0,4,
1,1,two,5,6,,8,world
2,2,three,9,10,11.0,12,foo


- DataFrame 객체의 to_csv 메소드를 사용하여 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있다.

In [15]:
data.to_csv('/content/drive/MyDrive/pydata/examples/out.csv')

!cat /content/drive/MyDrive/pydata/examples/out.csv

,Unnamed: 0,something,a,b,c,d,message
0,0,one,1,2,3.0,4,
1,1,two,5,6,,8,world
2,2,three,9,10,11.0,12,foo


- 다른 구분자도 사용 가능하다.

In [None]:
import sys

data.to_csv(sys.stdout, sep='|')


|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


누락된 값은 비어 있는 문자열로 나타난다.

-> na_rep을 사용하여 원하는 값으로 나타낼 수 있다.

In [None]:
data.to_csv(sys.stdout,na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


행과 열의 이름을 나타내지 않으려면 index와 header를 False로 설정해야 한다.

In [None]:
data.to_csv(sys.stdout,index=False,header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


열의 일부만 기록할 수도 있으며, 순서를 직접 지정할 수도 있다.

In [None]:
data.to_csv(sys.stdout,index=False,columns=['a','b','c'])

## 컬럼 순서를 바꿔 보면?

a,b,c
1,2,3.0
5,6,
9,10,11.0


DataFrame이 아닌 Series에도 to_csv 메소드가 존재한다.

In [None]:
dates=pd.date_range('1/1/2000',periods=7)

ts=pd.Series(np.arange(7),index=dates)

ts.to_csv('/content/drive/MyDrive/pydata/examples/tseries.csv')

!cat /content/drive/MyDrive/pydata/examples/tseries.csv

## 맨 윗줄의 ',0'을 없애고 싶다면?

,0
2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


##6.1.3 구분자 형식 다루기

pandas_read_table 함수를 사용하여 표 형태로 저장된 대부분의 파일 형식을 불러올 수 있으나, 수동으로 처리해야 하는 경우도 있다.

In [None]:
!cat /content/drive/MyDrive/pydata/examples/ex7.csv

"a","b","c"
"1","2","3"
"1","2","3"


파이썬 내장 csv 모듈을 사용하여 구분자가 한 글자인 파일을 처리할 수 있다.

In [None]:
import csv

f=open('/content/drive/MyDrive/pydata/examples/ex7.csv')
reader=csv.reader(f)

for line in reader:
  print(line)


['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


그런 다음 원하는 형태로 데이터를 넣는다.

In [None]:
## 파일을 읽어 줄 단위 리스트로 저장한다.

with open('/content/drive/MyDrive/pydata/examples/ex7.csv') as f:
  lines=list(csv.reader(f))

## 헤더와 데이터를 구분한다.
  header,values=lines[0],lines[1:]

## 사전 표기법과 로우를 컬럼으로 전치해주는 zip(*values)를 사용하여 데이터 컬럼 사전을 만든다.
  data_dict={h:v for h, v in zip(header,zip(*values))}
  data_dict

  class my_dialect(csv.Dialect):
    lineterminator='\n'
    delimiter=';'
    quotechar='"'
    quoting=csv.QUOTE_MINIMAL

  reader=csv.reader(f,dialect=my_dialect)

  reader=csv.reader(f,delimiter='|')

  print(f)

## 다 with문 안으로 넣어야 오류가 안 뜸.

<_io.TextIOWrapper name='/content/drive/MyDrive/pydata/examples/ex7.csv' mode='r' encoding='UTF-8'>


구분자로 구분된 파일을 기록하려면 csv.writer를 사용한다.
- csv.writer : 이미 열린, 쓰기가 가능한 파일 객체를 받아 csv.reader와 동일한 옵션으로 파일을 기록한다.

In [None]:
## 새로운 csv 파일 'mydata'를 만들어서 데이터 저장하기

with open('/content/drive/MyDrive/pydata/examples/mydata.csv','w') as f:
  writer=csv.writer(f,dialect=my_dialect)
  writer.writerow(('one','two','three'))
  writer.writerow(('1','2','3'))
  writer.writerow(('4','5','6'))
  writer.writerow(('7','8','9'))

!cat /content/drive/MyDrive/pydata/examples/mydata.csv

## my_dialect에서 구분자를 ';'로 정의했기 때문에 데이터가 ';'로 구분되었다.

one;two;three
1;2;3
4;5;6
7;8;9


##6.1.4 JSON 데이터

JSON
- JavaScript Object Notation
- CSV 같은 표 형식의 텍스트보다 더 유연한 데이터 형식이다.

In [None]:
## json 데이터 예시

obj="""
{"name":"Wes",
"places_lived": ["United States","Spain","Germany"],
"pet":null,
"siblings": [{"name":"Scott","age":30,"pets":["Zeus","Zuko"]},
{"name":"Katie","age":38,"pets":["Sixes","Stache","Cisco"]}]
}
"""

json.loads를 사용하여 JSON 문자열을 파이썬 형태로 변환할 수 있다.

In [None]:
import json

result=json.loads(obj)

result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

json.dumps는 파이썬 객체를 JSON 형태로 변환한다.

In [None]:
asjson=json.dumps(result)

JSON 객체의 리스트를 DataFrame의 생성자로 넘기고 데이터 필드를 선택할 수 있다.

In [None]:
siblings=pd.DataFrame(result['siblings'],columns=['name','age'])

siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


pandas.read_json는 JSON 파일을 시리즈나 데이터프레임으로 변환한다.

- 별다른 옵션이 없으면 JSON 배열의 각 객체는 테이블의 행과 같다.

In [None]:
!cat /content/drive/MyDrive/pydata/examples/example.json

[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]


In [None]:
data=pd.read_json('/content/drive/MyDrive/pydata/examples/example.json')

data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


Series나 DataFrame의 to_json 함수를 사용하여 pandas의 데이터를 JSON으로 저장할 수 있다.

In [None]:
print(data.to_json())

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}


In [None]:
print(data.to_json(orient='records'))

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]


##6.1.5 XML과 HTML : 웹 스크래핑

파이썬에서 HTML과 XML을 형식을 읽고 쓸 수 있는 라이브러리로는 lxml, Beautiful Soup, html5lib 등이 있다.

pandas의 read_html 함수는 lxml 등의 라이브러리를 사용해서 자동으로 HTML 파일을 DataFrame으로 변환해준다.

In [None]:
## read_huml을 사용하기 위해 필요한 라이브러리 설치

!pip install lxml
!pip install beautifulsoup4 html5lib

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
tables=pd.read_html('/content/drive/MyDrive/pydata/examples/fdic_failed_bank_list.html')

len(tables)

1

In [None]:
failures=tables[0]

failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [None]:
close_timestamps=pd.to_datetime(failures['Closing Date'])

close_timestamps.dt.year.value_counts()

2010    157
2009    140
2011     92
2012     51
2008     25
2013     24
2014     18
2002     11
2015      8
2016      5
2004      4
2001      4
2007      3
2003      3
2000      2
Name: Closing Date, dtype: int64

XML
- eXtensible Markup Language
- HTML과 구조적으로 유사하지만 더 범용적이다.
- 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원한다.
- HTML과 마찬가지로 lxml을 사용하여 데이터를 파싱할 수 있다.

In [None]:
!cat /content/drive/MyDrive/pydata/datasets/mta_perf/Performance_MNR.xml

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
  <PERIOD_YEAR>2008</PERIOD_YEAR>
  <PERIOD_MONTH>11</PERIOD_MONTH>
  <CATEGORY>Service Indicators</CATEGORY>
  <FREQUENCY>M</FREQUENCY>
  <DESIRED_CHANGE>U</DESIRED_CHANGE>
  <INDICATOR_UNIT>%</INDICATOR_UNIT>
  <DECIMAL_PLACES>1</DECIMAL_PLACES>
  <YTD_TARGET>98.00</YTD_TARGET>
  <YTD_ACTUAL>97.60</YTD_ACTUAL>
  <MONTHLY_TARGET>98.00</MONTHLY_TARGET>
  <MONTHLY_ACTUAL>97.00</MONTHLY_ACTUAL>
</INDICATOR>
<INDICATOR>
  <INDICATOR_SEQ>28345</INDICATOR_SEQ>
  <PARENT_SEQ>55526</PARENT_SEQ>
  <AGENCY_NAME>Metro-North Railroad</AGENCY_NAME>
  <INDICATOR_NAME>Hudson Line - OTP</INDICATOR_NAME>
  <DESCRIPTION>Percent of commuter trains that arrive at their destinations within 5 minutes and 59 seconds of the scheduled time.</DESCRIPTION>
  <PERIOD_YEAR>2008</PERIOD_YEAR>
  <PERIOD_MONTH>12</PERIOD_MONTH>
  <CATEGORY>Service Indicators</CATEGORY>
  <FREQUENCY>M</FREQUENCY>
  <DESIRED_CHANGE>U</DESIRED_CHANGE>
  <INDICATOR_UNIT>%</INDICATOR_UNIT

In [None]:
from lxml import objectify

path='/content/drive/MyDrive/pydata/datasets/mta_perf/Performance_MNR.xml'

##lxml.objectify를 사용하여 파일을 파싱한다.
parsed=objectify.parse(open(path))

##getroot()함수를 통해 파일의 루트 노드에 대한 참조를 얻어온다.
root=parsed.getroot()

In [None]:
## 몇몇 태그는 제외하고 태그 이름(ex. YTD_ACTUAL)을 키값으로 하는 사전을 만든다.

data=[]

skip_fields=['PATENT_SEQ','INDICATOR_SEQ','DESIRED_CHANGE','DECIMAL_PLACES']

for elt in root.INDICATOR:
  el_data={}
  for child in elt.getchildren():
    if child.tag in skip_fields:
      continue
    el_data[child.tag]=child.pyval
  data.append(el_data)

In [None]:
## 만든 사전 리스트를 DataFrame으로 변환한다.

perf=pd.DataFrame(data)

perf.head()

Unnamed: 0,PARENT_SEQ,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95.0,96.9,95.0,96.9
1,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95.0,96.0,95.0,95.0
2,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95.0,96.3,95.0,96.9
3,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95.0,96.8,95.0,98.3
4,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95.0,96.6,95.0,95.8


# 6.2 이진 데이터 형식

파이썬에 기본으로 내장된 pickle 직렬화를 사용해 데이터를 이진 형식으로 저장할 수 있다.
- '피클링(pickling)' 또는 '직렬화'는 파이썬 객체를 일련의 바이트들로 변환하는 것이다.
- pandas 객체는 to_pickle 메소드를 사용하여 직렬화를 한다.



In [17]:
frame=pd.read_csv('/content/drive/MyDrive/pydata/examples/ex1.csv')

frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


직렬화된 객체는 pandas.read_pickle 메소드를 사용하여 불러올 수 있다.

In [18]:
frame.to_pickle('/content/drive/MyDrive/pydata/examples/frame_pickle')

pd.read_pickle('/content/drive/MyDrive/pydata/examples/frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## 6.1.5 HDF5 형식 사용하기

HDF5
- Hierarchical Data Format
- 대량의 과학 계산용 배열 데이터를 저장하기 위해 고안된 파일 형식이다.
- HDFStore 클래스를 사용하여 데이터를 HDF5 파일에 입력할 수 있다.

In [None]:
frame=pd.DataFrame({'a':np.random.randn(100)})

store=pd.HDFStore('mydata.h5')

store['obj1']=frame

store['obj1_col']=frame['a']

store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

HDF5 파일에 포함된 객체는 파이썬 사전과 유사한 형식으로 사용할 수 있다.

In [None]:
store['obj1']

Unnamed: 0,a
0,-0.403145
1,-0.125527
2,1.121905
3,0.938403
4,-0.382687
...,...
95,0.502711
96,0.164259
97,2.062021
98,-0.163569


put 메소드와 저장 스키마 'table'을 통해 데이터를 저장할 수 있다.

In [None]:
store.put('obj2',frame,format='table')

store.select('obj2',where=['index>=10 and index<=15'])

Unnamed: 0,a
10,0.646892
11,-1.1723
12,-0.763155
13,-0.712338
14,0.052916
15,-0.241742


In [None]:
store.close()

pandas의 read_hdf 함수는 이런 기능들을 축약해서 사용할 수 있다.

In [None]:
frame.to_hdf('mydata.h5','obj3',format='table')

pd.read_hdf('mydata.h5','obj3',where=['index<5'])

## read-only mode로 열어야 한다고 하면서 오류 발생..

ValueError: ignored

## 6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기

- ExcelFile 클래스를 사용하려면 xls 또는 xlsx 파일의 경로를 지정하여 객체를 생성한다.

In [None]:
xlsx=pd.ExcelFile('/content/drive/MyDrive/pydata/examples/ex1.xlsx')

pd.read_excel(xlsx,'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


- pandas의 read_excel 함수에 파일 이름을 넘겨 데이터를 읽어 올 수도 있다.

In [None]:
frame=pd.read_excel('/content/drive/MyDrive/pydata/examples/ex1.xlsx','Sheet1')

frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


- pandas 데이터를 엑셀 파일로 저장하려면 데이터를 기록한 후 pandas의 to_excel 메소드로 넘긴다.

In [None]:
writer=pd.ExcelWriter('/content/drive/MyDrive/pydata/examples/ex2.xlsx')

frame.to_excel(writer,'Sheet1')

writer.save()


  writer.save()


writer를 거치지 않고 to_excel 메소드에 파일 경로만 넘겨도 된다.

In [None]:
frame.to_excel('/content/drive/MyDrive/pydata/examples/ex2.xlsx')

## ex2 파일이 잘 저장되었는지 읽어보려면?

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,0,1,2,3,4,hello
1,1,1,5,6,7,8,world
2,2,2,9,10,11,12,foo


# 6.3 웹 API와 함께 사용하기

API
- Application Programming Interface
- 컴퓨터나 컴퓨터 프로그램 사이의 연결
- requests 패키지를 사용하여 파이썬에서 API를 사용할 수 있다.

In [None]:
## pandas 깃허브에서 최근 이슈 가져오기

import requests

url='https://api.github.com/repos/pandas-dev/pandas/issues'

resp=requests.get(url)

resp

<Response [200]>

json 메소드는 JSON의 내용을 파이썬 사전 형태로 변환하여 반환한다.

In [None]:
data=resp.json()

data[0]['title']



데이터를 DataFrame으로 생성하고 관심 있는 필드만 따로 추출할 수 있다.

In [None]:
issues=pd.DataFrame(data,columns=['number','title','labels','state'])

issues

Unnamed: 0,number,title,labels,state
0,53139,CI: Address non-failing warnings in CI jobs,"[{'id': 48070600, 'node_id': 'MDU6TGFiZWw0ODA3...",open
1,53138,Add test case for applying a function to a gro...,[],open
2,53137,BUG: read_csv na_values parameters not working...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
3,53135,TYP: remove mypy ignore[assignment] from panda...,"[{'id': 1280988427, 'node_id': 'MDU6TGFiZWwxMj...",open
4,53131,BUG: Instantiating pandas._libs.parsers.TextRe...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
5,53130,TST: Added test for query method with string d...,"[{'id': 127685, 'node_id': 'MDU6TGFiZWwxMjc2OD...",open
6,53128,BUG: Grouby column naming,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
7,53127,BUG: astype not working correctly for similar ...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
8,53126,BUG: json_normalize does not parse nested list...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
9,53125,TST: Failing test when built with Cython 3.0b2,"[{'id': 127685, 'node_id': 'MDU6TGFiZWwxMjc2OD...",open


# 6.4 데이터베이스와 함께 사용하기

파이썬의 내장 sqlite3 드라이버를 사용하여 SQLite 데이터베이스를 이용할 수 있다.

In [3]:
from sqlalchemy.sql.ddl import CreateTable
from tables.tests.test_suite import test
import sqlite3

query="""CREATE TABLE test(a VARCHAR(20),b VARCHAR(20),c REAL, d INTEGER);"""

con=sqlite3.connect('mydata.sqlite')

con.execute(query)

<sqlite3.Cursor at 0x7f4a84eb6a40>

In [4]:
con.commit()

In [5]:
data=[('Atlanta','Georgia',1.25,6),('Tallahassee','Florida',2.6,3),('Sacramento','California',1.7,5)]

stmt="INSERT INTO test VALUES(?, ?, ?, ?)"

con.executemany(stmt,data)


<sqlite3.Cursor at 0x7f4a85ed7840>

테이블에 대해 select 쿼리를 수행하면 튜플 리스트를 반환한다.

In [6]:
con.commit()

cursor=con.execute('select * from test')

rows=cursor.fetchall()

rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

컬럼 이름을 지정하여 DataFrame 생성자에 튜플 리스트를 전달한다.

In [7]:
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [8]:
pd.DataFrame(rows,columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


더 간단하게 SQLAlchemy를 사용하여 데이터베이스에 접속하고 데이터를 읽어올 수 있다.

In [9]:
import sqlalchemy as sqla

db=sqla.create_engine('sqlite:///mydata.sqlite')

pd.read_sql('select * from test',db)

AttributeError: ignored