# Chapter 6. 데이터 로딩과 저장, 파일 형식

## 6.1 텍스트 파일에서 데이터 읽고 쓰는 법
<br> [판다스의 텍스트 및 이진 데이터 읽기 함수]
- read_csv: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터 읽음. 데이터 구분자는 쉼표(,)가 기본
- read_fwf: 고정폭 열 형식에서 데이터를 읽음(구분자 없는 데이터)
- read_clipboard: 클림보드에 있는 데이터를 읽는 read_csv 함수. 웹페이지에서 표 읽을 때 유용
- read_excel: 엑셀 파일(XLS, XLSX)에서 표 형식의 데이터 읽음
- read_hdf: 판다스에서 저장한 HDFS 파일의 데이터 읽음
- read_html: HTML 문서 내의 모든 테이블의 데이터 읽음
- read_json: JSON 문자열, 파일, URL에서 데이터 읽음
- read_feather: Feather 바이너리 파일 포맷으로부터 데이터 읽음
- read_orc: 아파치 ORC 바이너리 파일 포맷의 데이터 읽음
- read_parquet: 아파치 파케이 바이너리 파일 포맷의 데이터 읽음
- read_pickle: 파이썬 피클 포맷으로 저장된 객체 읽음
- read_sas: SAS 시스템의 사용자 정의 저장 포맷으로 저장된 데이터 읽음
- read_spss: SPSS에서 생성한 데이터 파일에서 데이터 읽음
- read_sql: SQL 쿼리 결과를 판다스의 DataFrame 형식으로 읽음
- read_sql_table: SQLAlchemy를 사용해 SQL 테이블 전체 읽음. read_sql에서 테이블 전체를 불러오는 쿼리를 사용한 것과 동일하게 작동
- read_stata: Stata 파일에서 데이터 읽음
- read_xml: XML 파일에서 데이터 표 읽음

텍스트 데이터를 DataFrame으로 읽어오는 함수가 취하는 옵션
- 색인: 반환하는 DataFrame에서 하나 이상의 열을 색인으로 지정 가능. 파일이나 사용자로부터 열 이름을 받거나 아무것도 받지 않을 수 있음.
- 자료형 추론과 데이터 변환: 사용자 정의 값 변환과 비어 있는 값을 위한 사용자 리스트 포함
- 날짜 및 시간 분석: 여러 열에 걸쳐 있는 날짜와 시간 정보를 하나의 열에 조합해서 결과에 반영
- 반복: 여러 개의 파일에 걸쳐 있는 자료를 반복적으로 읽어옴.
- 정제되지 않은 데이터 처리: 행이나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 요소 처리

In [2]:
import pandas as pd
import numpy as np
from google.colab import files

### [pandas.read_csv 함수 인수]
- path: 파일 시스템에서 위치, URL, 파일 객체를 나타내는 문자열
- sep (또는 delimiter): 필드를 구분하기 위해 사용할 연속된 문자나 정규 표현식
- header: 열 이름으로 사용할 행 번호, 기본값은 0(첫번째 행), 헤더가 없을 경우 None으로 지정 가능
- index_col: 색인으로 사용할 열 번호나 이름. 계층적 색인 지정 시 리스트를 넘길 수 있음.
- names: 결과를 위한 열 이름 리스트
- skiprows: 파일의 시작부터 무시할 행 수 또는 무시할 행 번호가 담긴 리스트(0부터 시작)
- na_values: NA 값으로 처리할 값들의 목록. keep_default_na=False로 전달하지 않으면 기본값 리스트에 추가
- keep_default_na: 기본 NA 값 리스트를 사용할 지 여부(기본값은 True)
- comment: 주석으로 분류되어 파싱하지 않을 문자 혹은 문자열
- parse_dates: 날짜를 datetime으로 변환할지 여부. 기본값은 False, True일 경우 모든 열에 적용됨. 열의 번호나 이름을 포함한 리스트를 넘겨서 변환할 열 지정 [1,2,3]을 넘기면 각각의 열을 datatime으로 변환하며, [[1,3]]을 넘기면 1,3번 열을 조합해서 하나의 datetime으로 변환
- keep_date_col: 여러 열을 datetime으로 변환했을 경우 원래 열을 남겨둘지 여부. 기본값은 True
- converters: 변환 시 열에 적용할 함수 지정. {"foo":f}는 "foo"열에 f 함수 적용. 전달하는 딕셔너리의 키 값은 열 이름이나 번호가 될 수 있음
- dayfirst: 모호한 날짜 형식인 경우 국제 형식으로 간주. 기본값은 False
- date_parser: 날짜 변환 시 사용할 함수
- nrows: 파일의 첫 일부만 읽어올 때 처음 몇 줄을 읽은 것인지 지정
- iterator: 파일을 조금씩 읽을 때 사용하도록 TextParser 객체 반환. 기본값은 False
- chunksize: TextParser 객체에서 사용할 한 번에 읽을 파일의 크기
* get_chunk: 임의의 크기만큼 데이터를 읽을 수 있음.
- skipfooter: 파일의 끝에서 무시할 줄 수
- verbose: 파싱 결과에 대한 정보 출력. 숫자가 아닌 값이 들어 있는 열에 누락된 값이 이싸면 줄 번호 출력. 기본값은 False
- encoding: 유니코드 인코딩 종류 지정. ex) "UTF-8"
- squeeze: 만일 열이 하나뿐이라면 Series 객체 반환. 기본값은 False
- thousands: 숫자를 천 단위로 끊을 때 사용할 , 또는 . 같은 구분자
- decimal: 숫자의 소수점 구분 기호. 기본값은 .
- engine: CSV 구문 분석 및 변환 엔진. c, python, pyarrow 중 하나를 지정 가능. 기본값은 c 이나, 새로운 pyarrow 엔진을 사용하면 몇몇 파일은 훨씬 빠르게 처리 가능. python 엔진은 느리나 다른 엔진에서 지원하지 않는 몇몇 기능 제공


In [1]:
# 저자 깃허브 주소
path = 'https://raw.githubusercontent.com/wesm/pydata-book/refs/heads/3rd-edition/examples/'

In [3]:
df = pd.read_csv(path + 'ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
# 파일 읽어오는 옵션
# 판다스가 자동으로 열 이름 생성
pd.read_csv(path + 'ex2.csv')

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


In [5]:
# 직접 열 이름 지정
pd.read_csv(path + 'ex2.csv',
            names=["a","b","c","d", "message"])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
# message 열을 색인으로 하는 DF 반환
# index_col 인수에 4번 열 또는 'message' 이름을 가진 열을 지정해서 색인 생성
names = ["a","b","c","d", "message"]
pd.read_csv(path + 'ex2.csv',
            names=names, index_col = 'message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [7]:
# 계층적 색인 지정 시 열 번호나 이름의 리스트 넘김
parsed = pd.read_csv(path + 'csv_mindex.csv',
                     index_col=["key1", "key2"])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [8]:
# 정규 표현식 구분자로 파일 읽기
result = pd.read_csv(path + 'ex3.txt',
                     sep="\s+")
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [9]:
# skiprows: 특정 행을 건너뜀
pd.read_csv(path + 'ex4.csv',
            skiprows=[0, 2, 3]) # 0번, 2번, 3번행 건너뜀

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
# 판다스는 NA, NULL 등의 값을 비어있는 값으로 인식
result = pd.read_csv(path + 'ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
# 누락된 값 확인
pd.isna(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [12]:
# na_values 옵션은 문자열 집합을 받아 누락된 값 처리
result =  pd.read_csv(path + 'ex5.csv',
                      na_values=["NULL"])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [13]:
# keep_default_na 옵션: NA 값 표현 비활성화
result2 =  pd.read_csv(path + 'ex5.csv',
                      keep_default_na=False)
result2

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
result2.isna()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False


In [14]:
result3 = pd.read_csv(path + 'ex5.csv',
                      keep_default_na=False,
                      na_values=["NA"])
result3

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
result3.isna()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,False,False,False
2,False,False,False,False,False,False


In [15]:
# 열마다 다른 NA 문자를 딕셔너리 값으로 넘겨 처리하기
sentinels = {"message":["foo", "NA"], "something": ["two"]}
pd.read_csv(path + 'ex5.csv',
                      keep_default_na=False,
                      na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### 6.1.1 텍스트 파일 조금씩 읽어오기


In [None]:
# 판다스 출력 설정
pd.options.display.max_rows = 10 #최대 10개의 데이터만 출력

In [16]:
result = pd.read_csv(path + 'ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [17]:
# nrows: 처음 몇 행만 읽어보고 싶을 경우
pd.read_csv(path + 'ex6.csv', nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [18]:
# chunksize: 파일을 여러 조각으로 나누어서 읽을 경우
chunker = pd.read_csv(path + 'ex6.csv', chunksize=1000)
type(chunker)

In [19]:
# TextFileReader 객체 사용 시 chunksize 단위로 파일 순회 가능
chunker = pd.read_csv(path + 'ex6.csv', chunksize=1000)
tot = pd.Series([], dtype='int64')
# csv 파일 순회하면서 "key" 값의 열 세기
for piece in chunker:
  tot = tot.add(piece["key"].value_counts(), fill_value=0)

tot = tot.sort_values(ascending=False)

# 상단 10개만 출력
tot[:10]

Unnamed: 0_level_0,0
key,Unnamed: 1_level_1
E,368.0
X,364.0
L,346.0
O,343.0
Q,340.0
M,338.0
J,337.0
F,335.0
K,334.0
H,330.0


### 6.1.2 데이터를 텍스트 형식으로 기록하기


In [20]:
data = pd.read_csv(path + 'ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [21]:
# to_csv 메서드를 이용하면 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있음
data.to_csv("out.csv")

In [22]:
import sys
data.to_csv(sys.stdout, sep="|")

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [23]:
# 누락된 값 원하는 값으로 지정
data.to_csv(sys.stdout, na_rep="NULL")

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [None]:
# 행렬의 이름 포함하지 않기
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [None]:
# 열의 일부분 기록 (순서 지정)
data.to_csv(sys.stdout, index=False, columns=["a", "b", "c"])

a,b,c
1,2,3.0
5,6,
9,10,11.0


### 6.1.3 다른 구분자 형식 다루기

In [None]:
# 구글 드라이브를 코랩에 연결하여 데이터 로딩
# url: https://rfriend.tistory.com/564
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# 구분자가 한 글자인 파일은 파이썬 내장 csv 모듈 이용해서 처리 가능
# 열려진 파일 객체를 csv.reader 함수에 넘기면 됨

import csv

f = open('/content/ex7.csv')

reader = csv.reader(f)

In [None]:
for line in reader:
  print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [None]:
f.close()

In [None]:
with open('/content/ex7.csv') as f:
  lines = list(csv.reader(f))

header, values = lines[0], lines[1:]

In [None]:
# zip(*values): 딕셔너리 표기법과 행과 열로 전치
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

#### CSV dialect 옵션
- delimiter: 필드를 구분하기 위한 한 문자로 된 구분자. 기본값은 쉼표
- lineterminator: 파일을 저장할 때 사용할 개행 문자. 기본값은 \r\n. 파일을 읽을 때는 이 값을 무시하며, 자동으로 플랫폼별 개행 문자 인식
- quotechar: 각 필드에서 값을 둘러싸고 있는 문자. 기본값은 큰따옴표
- quoting: 값을 읽거나 쓸 때 둘러쌀 문자 컨벤션.
*   csv.QUOTE_ALL(모든 필드에 적용) 추가
*   csv.QUOTE_MINIMAL(구분자 같은 특별한 문자가 포함된 필드만 적용) -> 기본값
*   csv.QUOTE_NONE(값을 둘러싸지 않음)
- skipinitialspace: 구분자 뒤에 있는 공백 문자를 무시할지 여부. 기본값은 False
- doublequote: 값을 둘러싸는 문자가 필드 내에 존재할 경우 처리 여부. True: 그 문자까지 모두 둘러쌈
- escapechar: quoting이 csv.QUOTE_NONE 일때 값에 구분자와 같은 문자가 있을 경우 구별할 수 있도록 해주는 이스케이프 문자. 기본값은 None








In [None]:
# csv.Dialect 클래스: CSV 파일을 읽고 쓰기 위해 사용하는 다이얼렉트를 정의하는 데 사용
class my_dialect(csv.Dialect):
  lineterminator = "\n"  # 개행 문자
  delimiter = ";"  # 필드 구분자
  quotechar = '"'  # 인용 문자
  quoting = csv.QUOTE_MINIMAL  # 인용 처리 방식

reader = csv.reader(f, dialect=my_dialect)

ValueError: I/O operation on closed file.

In [None]:
# 하위 클래스를 정의하지 않고 csv.reader에 키워드 매개변수로 각 CSV 파일의 특징 지정해서 전달 가능
reader = csv.reader(f, delimiter="|")

ValueError: I/O operation on closed file.

In [None]:
# csv.writer: 이미 열려 있고 쓰기가 가능한 파일 객체를 받아서 csv.reader와 동일한 옵션으로 파일 기록
with open("mydata.csv", "w") as f:
  writer = csv.writer(f, dialect=my_dialect)
  writer.writerow(("one", "two", "three"))
  writer.writerow(("1", "2", "3"))
  writer.writerow(("4", "5", "6"))
  writer.writerow(("7", "8", "9"))

### 6.1.4 JSON 데이터
- JSON: 웹 브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 중 하나 (CSV 같은 표 형식의 텍스트보다 비교적 유연)
- 기본 자료형은 객체(딕셔너리), 배열(리스트), 문자열, 숫자, 불리언, 널
- 객체의 키는 반드시 문자열
- json: JSON 데이터를 읽고 쓸 수 있는 파이썬 표준 라이브러리
- json.load: JSON 문자열을 파이썬 형태로 변환


In [None]:
obj = """
{"name": "Wes",
 "cities_lived": ["Akron", "Nashville", "New York", "San Francisco"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 34, "hobbies": ["guitars", "soccer"]},
              {"name": "Katie", "age": 42, "hobbies": ["diving", "art"]}]
}
"""

In [None]:
import json
result = json.loads(obj)
result

{'name': 'Wes',
 'cities_lived': ['Akron', 'Nashville', 'New York', 'San Francisco'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 34, 'hobbies': ['guitars', 'soccer']},
  {'name': 'Katie', 'age': 42, 'hobbies': ['diving', 'art']}]}

In [None]:
# json.dump: 파이썬 객체를 JSON으로 변환
asjson = json.dumps(result)
asjson

'{"name": "Wes", "cities_lived": ["Akron", "Nashville", "New York", "San Francisco"], "pet": null, "siblings": [{"name": "Scott", "age": 34, "hobbies": ["guitars", "soccer"]}, {"name": "Katie", "age": 42, "hobbies": ["diving", "art"]}]}'

In [None]:
# JSON 객체를 딕셔너리가 담긴 리스트로 변환해 DF 생성자로 넘기고 데이터 필드 선택
siblings = pd.DataFrame(result["siblings"], columns=["name", "age"])
siblings

Unnamed: 0,name,age
0,Scott,34
1,Katie,42


In [24]:
# pandas.read_json: 자동으로 JSON 데이터셋을 Series나 DF로 변환
# 별다른 옵션이 주어지지 않았을 경우, JSON 배열에 담긴 각 객체를 표의 행으로 간주
data = pd.read_json(path + '/example.json')
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# to_json: 판다스의 데이터를 JSON으로 저장
data.to_json(sys.stdout)

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}

In [None]:
data.to_json(sys.stdout, orient="records")

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]

### 6.1.5 XML과 HTML: 웹 스크래핑
- lxml: HTML, XML 형식의 데이터를 읽고 쓸 수 있는 라이브러리 중 하나로, 가장 빠르고 깨진 HTML과 XML 파일도 잘 처리
- pandas.read_html: 자동으로 HTML을 파싱해 DF로 변환하는 내장 함수



In [None]:
# !pip install lxml beautifulsoup4 html5lib



In [25]:
tables = pd.read_html(path + 'fdic_failed_bank_list.html')

In [26]:
len(tables)

1

In [None]:
failures = tables[0]
failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [None]:
close_timestamps = pd.to_datetime(failures["Closing Date"])
close_timestamps.dt.year.value_counts()

Unnamed: 0_level_0,count
Closing Date,Unnamed: 1_level_1
2010,157
2009,140
2011,92
2012,51
2008,25
...,...
2004,4
2001,4
2007,3
2003,3


#### lxml.objectify를 이용해서 XML 파싱하기
[XML: eXtensible Markup Language]
- 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 데이터 형식
- HTML과 구조적으로 유사하나 XML이 더 범용적

In [30]:
# lxml.objectify를 이용하여 파일 파싱 후 getroot 함수로 XML 파일의 루트 노드에 대한 참조 얻기
from lxml import objectify

path_xml = '/content/Performance_MNR.xml'

with open(path_xml) as f:
  parsed = objectify.parse(f)

root = parsed.getroot()

In [None]:
# root.INDICATOR는 모든 <INDICATOR> XML 요소를 끄집어 냄.
# 태그 이름을 키 값으로 하는 딕셔너리 생성하기
data = []

skip_fields = ["PARENT_SEQ", "INDICATOR_SEQ",
               "DESIRED_CHANGE", "DECIMAL_PLACES"]

for elt in root.INDICATOR:
  el_data = {}
  for child in elt.getchildren():
    if child.tag in skip_fields:
      continue
    el_data[child.tag] = child.pyval
  data.append(el_data)

In [None]:
# 딕셔너리 리스트 DF 변환
perf = pd.DataFrame(data)
perf.head()

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95.0,96.9,95.0,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95.0,96.0,95.0,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95.0,96.3,95.0,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95.0,96.8,95.0,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95.0,96.6,95.0,95.8


In [None]:
# pandas.read_xml 함수는 훨씬 간단
perf2 = pd.read_xml(path)
perf2.head()

Unnamed: 0,INDICATOR_SEQ,PARENT_SEQ,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,DESIRED_CHANGE,INDICATOR_UNIT,DECIMAL_PLACES,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,U,%,1,95.0,96.9,95.0,96.9
1,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,U,%,1,95.0,96.0,95.0,95.0
2,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,U,%,1,95.0,96.3,95.0,96.9
3,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,U,%,1,95.0,96.8,95.0,98.3
4,28445,,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,U,%,1,95.0,96.6,95.0,95.8


## 6.2 이진 데이터 형식
- 파이썬 내장 pickle 모듈을 이용하여 데이터를 이진 형식으로 저장
- 판다스 객체는 pickle 형식으로 데이터를 디스크에 저장할 수 있는 to_pickle 메서드 제공

In [31]:
frame = pd.read_csv(path + 'ex1.csv')
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
# pickle 파일은 파이썬 내에서만 읽을 수 있음
frame.to_pickle("frame_pickle")

In [None]:
pd.read_pickle("frame_pickle")

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
#!pip install pyarrow



In [None]:
# pyarrow 패키지 설치했다면 pd.read_parquet 함수를 이용하여 파케이 파일 읽을 수 있음
fec = pd.read_parquet("/content/fec.parquet")

### 6.2.1 마이크로소프트 엑셀 파일 읽기
- 판다스는 pandas.ExcelFile 클래스나 pandas.read_excel 함수를 통해 엑셀 버전 표 형식 데이터 읽을 수 있음


In [None]:
# !pip install openpyxl xlrd



In [None]:
# pd.ExcelFile을 사용하려면 xls 또는 xlsx 파일 경로를 전달해 인스턴스를 만들어야 함
xlsx = pd.ExcelFile('/ex1.xlsx')
xlsx.sheet_names # 시트 목록 표시

['Sheet1']

In [None]:
# 시트에 저장된 데이터 DF로 불러오기
xlsx.parse(shett_name="Sheet1")

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [None]:
# index_col을 이용해 색인 열 지정
xlsx.parse(shett_name="Sheet1", index_col = 0)

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
frame = pd.read_excel('/ex1.xlsx', sheet_name="Sheet1")
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [None]:
# 판다스 데이터 엑셀 형식으로 저장하기
# ExcelWriter 객체 생성 후 to_excel 메서드 사용
writer = pd.ExcelWriter('/ex2.xlsx')
frame.to_excel(writer, "Sheet1")
writer.close()

  frame.to_excel(writer, "Sheet1")


In [None]:
# ExcelWriter 사용 하지 않아도 됨
frame.to_excel('/ex2.xlsx')

### 6.2.2 HDF5 형식 사용하기
- HDF5: 대량의 과학 계산용 배열 데이터를 저장하기 위해 고안된 파일 포맷
- C, 자바, 줄리아, 매트랩, 파이썬 같은 다양한 언어에서도 사용할 수 있는 인터페이스 제공
- HDF5는 다양한 압축 기술을 사용해 온더플라이 압축을 지원하며 반복되는 패턴을 가진 데이터를 더 효과적으로 저장 가능
- 판다스에서 HDF5를 사용하기 위해서는 PyTables 패키지 설치 필요

In [None]:
# !pip install tables



In [None]:
# HDFStore 클래스: 딕셔너리처럼 작동하며 세밀한 요구 사항도 잘 처리
# frame = pd.DataFrame({"a": np.random.standard_normal(100)})
# store = pd.HDFStore()

## 6.3 웹 API와 함께 사용하기

In [None]:
#!pip install requests



In [None]:
# 판다스 깃허브 저장소에서 최근 30개의 이슈 가져오기
import requests

url = "https://api.github.com/repos/pandas-dev/pandas/issues"
resp = requests.get(url)
resp.raise_for_status() # 오류 확인
resp

<Response [200]>

In [None]:
# 응답 객체의 json 메서드는 JSON 내용을 파이썬 딕셔너리 형태로 변환한 객체 반환
data = resp.json()
data[0]["title"]

'Backport PR #60709: ENH(string dtype): Make str.decode return str dtype'

In [None]:
# issue 데이터를 pd.DataFrame으로 바로 전달해 관심이 있는 필드만 따로 추출
issues = pd.DataFrame(data, columns=["number", "title",
                                     "labels", "state"])
issues

Unnamed: 0,number,title,labels,state
0,60821,Backport PR #60709: ENH(string dtype): Make st...,"[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open
1,60820,test_datetimes.py: fix literal string,"[{'id': 42670965, 'node_id': 'MDU6TGFiZWw0MjY3...",open
2,60819,ENH: show the raw unicode in the output format...,"[{'id': 13101118, 'node_id': 'MDU6TGFiZWwxMzEw...",open
3,60817,STY: Enable shellcheck pre-commit hook,"[{'id': 106935113, 'node_id': 'MDU6TGFiZWwxMDY...",open
4,60816,BUG: Union of two DateTimeIndexes is incorrect...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
...,...,...,...,...
25,60766,BUG: `.map` & `.apply` would convert element t...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
26,60762,CI: Update some CI configurations,"[{'id': 48070600, 'node_id': 'MDU6TGFiZWw0ODA3...",open
27,60758,Add a JupyterLite-powered interactive shell fo...,"[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open
28,60752,"ENH: Support skipna parameter in GroupBy min, ...","[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open


## 6.4 데이터베이스와 함께 사용하기
- 비즈니스 관점에서 대부분의 데이터는 텍스트 파일이나 엑셀 파일보다는 SQL 기반의 관계형 데이터베이스 많이 사용
- RDBMS: SQL Server, PostgreSQL, MySQL 등
- 판다스는 SQL 쿼리 결과를 DF로 불러오는 함수를 몇 가지 제공

In [None]:
import sqlite3

In [None]:
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
c REAL, d INTEGER
); """


In [None]:
con = sqlite3.connect("mydata.sqlite")
con.execute(query)

<sqlite3.Cursor at 0x7b911bcd4940>

In [None]:
con.commit()

In [None]:
# 데이터 입력
data = [("Atlanta", "Georgia", 1.25, 6),
        ("Tallahassee", "Florida", 2.6, 3),
        ("Sacramento", "California", 1.7, 5)]

In [None]:
stmt = "INSERT INTO test VALUES(?,?,?,?)"
con.executemany(stmt, data)

<sqlite3.Cursor at 0x7b911baff540>

In [None]:
con.commit()

In [None]:
# 파이썬 SQL 드라이버는 테이블에서 select 쿼리를 수행하면 튜플 리스트 반환
cursor = con.execute("SELECT * FROM test")
rows = cursor.fetchall()
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [None]:
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [None]:
# 반환된 튜플 리스트를 DF 생성자에 바로 전달해도 되나, cursor의 description
# 속성에 있는 열 이름 지정 필요
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


In [None]:
# SQLAlchemy : SQL 데이터베이스 간의 일반적인 차이점을 추상화해 제공
# 판다스는 read_sql 함수를 통해 SQLAlchemy의 일반적인 연결을 이용해
# 쉽게 데이터를 읽도록 지원
# ! pip install SQLAlchemy



In [None]:
import sqlalchemy as sqla

In [None]:
db = sqla.create_engine("sqlite:///mydata.sqlite")
pd.read_sql("SELECT * FROM test", db)

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5
