## 6. 데이터 로딩과 저장, 파일 형식

6.1 텍스트 파일에서 데이터를 읽고 쓰는 법

In [None]:
import numpy as np
import pandas as pd

In [None]:
# 먼저 ex1.csv 파일 직접 열어서 내용 확인하기

# read_csv : csv 파일을 읽어서 데이터프레임으로 반환
df = pd.read_csv("examples/ex1.csv")
df

In [None]:
# 먼저 ex2.csv 파일 직접 열어서 내용 확인하기

# csv에 제목행이 없어서 첫번째행을 컬럼으로 인식함
pd.read_csv("examples/ex2.csv")

# header=None 옵션을 주면 첫번째 행도 그냥 데이터로 읽고
# 컬럼 이름은 0 1 2로 자동 생성됨
pd.read_csv("examples/ex2.csv", header=None)

# 직접 열 이름 지정하기
pd.read_csv("examples/ex2.csv", names=["a", "b", "c", "d", "message"])

In [None]:
# message의 열을 데이터프레임의 인덱스로 설정
names = ["a", "b", "c", "d", "message"]
pd.read_csv("examples/ex2.csv", names=names, index_col="message")

In [None]:
# 먼저 csv_mindex.csv 파일 직접 열어서 내용 확인하기

# csv 파일을 읽어서 데이터프레임으로 반환
# index_col 옵션 -> 두 열을 합쳐서 계층적 인덱스 만들기
# 실제 인덱스 : (one,a) (one,b)
parsed = pd.read_csv("examples/csv_mindex.csv",
                     index_col=["key1", "key2"])
parsed

In [None]:
!cat examples/ex3.txt

In [None]:
# 먼저 ex3.txt 파일 직접 열어서 내용 확인
# 구분자 : 공백

# 텍스트 파일 읽어서 데이터프레임으로 반환
# \s+ => 정규표현식
# \s는 공백문자, \s+는 하나 이상의 연속된 공백 문자
result = pd.read_csv("examples/ex3.txt", sep="\s+")
result

In [None]:
# 먼저 ex4.txt 파일 직접 열어서 내용 확인

# 첫번째(hey)를 헤더로 인식
# message~foo까지 데이터로 인식
# pd.read_csv()의 기본 구분자는 ,(쉼표)
# 3번째와 4번째 줄은 csv 형식에 안맞아서 nan으로 채워짐
pd.read_csv("examples/ex4.csv")

# skiprows 옵션 -> 0,2,3 행 건너뛰기
pd.read_csv("examples/ex4.csv", skiprows=[0, 2, 3])

In [None]:
# 먼저 ex5.txt 파일 직접 열어서 내용 확인

# "na"나 비어있는 값은 nan(잘못된값)로 처리됨
result = pd.read_csv("examples/ex5.csv")
result

In [None]:
# isna : 데이터프레임이나 시리즈에서 nan를 찾는 함수
pd.isna(result)

In [None]:
# na_values 옵션 -> 문자열 리스트를 받아서 누락된 값으로 처리
# world와 foo도 누락된값(na)로 취급
result = pd.read_csv("examples/ex5.csv", na_values=["world","foo"])
result

# "na"나 null 같은 값들은 누락된값 목록에 이미 포함됨

In [None]:
# 딕셔너리로 열마다 다른 na값 처리

# message 컬럼에서는 "foo", "NA" → NaN 처리
# something 컬럼에서는 "two" → NaN 처리
sentinels = {"message": ["foo", "NA"], "something": ["two"]}
pd.read_csv("examples/ex5.csv", na_values=sentinels)

6.1.1 텍스트 파일 조금씩 읽어 오기

In [None]:
# csv 파일에서 최대 행 10개만 표시하기
pd.options.display.max_rows = 10

In [None]:
# 중간은 ...로 표시
result = pd.read_csv("examples/ex6.csv")
result

In [None]:
# 파일 전체를 읽는 대신 처음 5줄만 읽기
# nrows 옵션 -> 처음 몇줄만 지정
pd.read_csv("examples/ex6.csv", nrows=5)

6.1.2 데이터를 텍스트 형식으로 기록하기

In [None]:
# 앞에서 본 ex5.csv 파일 다시 보기
data = pd.read_csv("examples/ex5.csv")
data

In [None]:
# 데이터프레임을 다시 csv로 내보내기
data.to_csv("examples/out.csv")

# out.csv 파일 내용 확인하기
# 기본 구분자는 쉼표(,)

In [None]:
# 데이터프레임을 다시 csv로 내보내기
# sys.stdout : 파일 대신 화면으로 출력
# sep="|" : 구분자는 파이프(|)
import sys
data.to_csv(sys.stdout, sep="|")

In [None]:
# na_rep 옵션 : na를 다른 값으로 표시 
data.to_csv(sys.stdout, na_rep="NULL")

In [None]:
# 행인덱스와 열이름 표시 안함
data.to_csv(sys.stdout, index=False, header=False)

In [None]:
# 열이름을 a,b,c로 표시
data.to_csv(sys.stdout, index=False, columns=["a", "b", "c"])

6.1.4 JSON 데이터

In [None]:
# 복사할 것!
# json 문자열 준비
obj = """
{"name": "Wes",
 "cities_lived": ["Akron", "Nashville", "New York", "San Francisco"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 34, "hobbies": ["guitars", "soccer"]},
              {"name": "Katie", "age": 42, "hobbies": ["diving", "art"]}]
}
"""

# 파이썬의 딕셔너리와 구조가 비슷함
# key : 문자열만 가능
# value : 숫자, 문자열, 빈값, 리스트, 딕셔너리 등 가능

In [None]:
# loads : 'json문자열'을 '딕셔너리'로 변환하는 함수
import json
result = json.loads(obj)
result

# 왜 변환할까? json문자열은 통데이터라서, 원하는 부분만 뽑기 어려움
# 이름 출력
result["name"]

In [None]:
# dumps : '딕셔너리'를 'json문자열'로 변환하는 함수
asjson = json.dumps(result)
asjson

# 왜 변환할까?
# 예를 들어 API를 호출할 때, 딕셔너리 같은 파이썬 객체를 직접 보낼 수 없음
# 네트워크 통신은 기본적으로 문자열이나 바이트형태만 주고 받음

In [None]:
# JSON -> 데이터프레임 으로 변환
siblings = pd.DataFrame(result["siblings"], columns=["name", "age"])
siblings

In [None]:
# example.json 파일 열어서 확인하기

# JSON데이터를 파싱해서 데이터프레임으로 읽어오기
data = pd.read_json("examples/example.json")
data

# read_json 함수는 JSON배열의 요소를 행으로 처리

In [None]:
# 데이터프레임 -> JSON
# 변환하여 화면에 출력
print(data.to_json(sys.stdout))

6.1.5 xml과 HTML: 웹 스크래핑

먼저 라이브러리 설치 <br>
conda activate myenv <br>
conda install lxml beautifulsoup4 html5lib

In [None]:
# fdic_failed_bank_list.html 파일 열어서 확인하기

# html 파일 읽기
# html 문서 안에서 <table> 태그를 찾고 dataframe 리스트로 반환
tables = pd.read_html("examples/fdic_failed_bank_list.html")

# 몇개의 <table>을 읽어왔는지 확인
len(tables)

# 첫번째 테이블에서 위에 있는 5개의 행 출력
failures = tables[0]
failures.head()

# html 파일 열기 > 개발자도구 열기 > 해당 데이터가 있는 부분 확인

In [None]:
# 각 연도별 은행 파산 건수를 세기

# 1.데이터프레임에서 "Closing Date"열만 선택
# 2.문자열->날짜로 변환
# 3.dt.yer : 날짜에서 연도만 추출
# 4.각 연도별 건수 세기
close_timestamps = pd.to_datetime(failures["Closing Date"])
close_timestamps.dt.year.value_counts()

xml 파싱하기

In [None]:
# xml 파일 내용 먼저 확인하기

# xml 파일을 읽어서 dataframe으로 변환
path = "datasets/mta_perf/Performance_MNR.xml"
perf2 = pd.read_xml(path)
# 위에 있는 5행만 보기
perf2.head()

# 결과를 파일에서 찾아보기

6.2 이진 데이터 형식

6.2.1 마이크로소프트 엑셀 파일 읽기

라이브러리 먼저 설치 <br>
conda install openpyxl xlrd

In [None]:
# 엑셀 파일 먼저 열어보기

xlsx = pd.ExcelFile("examples/ex1.xlsx")

In [None]:
# 엑셀에서 시트 이름 확인
xlsx.sheet_names

In [None]:
# 시트 데이터를 읽어서 dataframe으로 변환
xlsx.parse(sheet_name="Sheet1")

In [None]:
# 첫번째 열을 데이터프레임의 인덱스로 설정
xlsx.parse(sheet_name="Sheet1", index_col=0)

In [None]:
# pd.read_excel 함수를 사용해서 엑셀 읽기
frame = pd.read_excel("examples/ex1.xlsx", sheet_name="Sheet1")
frame

In [None]:
# writer 객체 생성 (엑셀 파일 쓰기 모드)
writer = pd.ExcelWriter("examples/ex2.xlsx")

# dataframe을 엑셀파일로 내보내기
frame.to_excel(writer, sheet_name="Sheet1")

# 파일 닫기
writer.close()

In [None]:
# writer 없이 더 간단하게 엑셀 파일 만들기
frame.to_excel("examples/ex2.xlsx")

6.3 웹 API와 함께 사용하기

In [None]:
import requests

# 샘플 github api 주소
url = "https://api.github.com/repos/pandas-dev/pandas/issues"

# api 호출
resp = requests.get(url)

# 정상적으로 호출했는지 확인
resp

In [None]:
# 응답메세지를 파싱해서 딕셔너리로 변환
data = resp.json()
data
data[0]["title"]

In [None]:
# json데이터를 dataframe으로 변환하고
# 보고싶은 필드만 선택
issues = pd.DataFrame(data, columns=["number", "title",
                                     "labels", "state"])
issues

In [None]:
6.4 데이터베이스와 함께 사용하기

In [None]:
# 설치형 db : MySQL, Oracle 등
# SQLite은 파일형 데이터베이스
# 파일만 있으면 어디서든 열수 있음

import sqlite3

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""

# mydata.sqlite 경로에 데이터베이스를 생성
con = sqlite3.connect("mydata.sqlite")

# sqlite 데이터베이스에 테이블 생성
con.execute(query)
con.commit()

라이브러리 설치 <br>
conda install sqlalchemy

In [None]:
import sqlalchemy as sqla

# 추가할 데이터를 dataframe으로 생성
data = pd.DataFrame([
    ("Atlanta", "Georgia", 1.25, 6),
    ("Tallahassee", "Florida", 2.6, 3),
    ("Sacramento", "California", 1.7, 5)
], columns=["a", "b", "c", "d"])

# 데이터베이스 연결
db = sqla.create_engine("sqlite:///mydata.sqlite")

# 테이블이 존재한다면 추가
# index=False : 인덱스 열은 저장 안함
# 테이블명, 데이터베이스명, 옵션
data.to_sql("test", db, if_exists="append", index=False)

In [None]:
# 테이블에서 모든 행을 조회
# 반환타입은 dataframe
pd.read_sql("SELECT * FROM test", db)