# 데이터 로딩, 저장, 파일 형식

In [3]:
import numpy as np
import pandas as pd

## 텍스트 파일 읽기/쓰기
- 파이썬 pandas를 이용하여 표 형식의 자료를 DataFrame 객체로 읽을 수 있음.
- 대표적인 파일 저장 형식은 excel, csv, json, txt 등이 존재

In [4]:
# csv(comma-seperated variables) : 표 형식으로 데이터를 저장하는 파일 구조. 
df = pd.read_csv('examples/ex1.csv') # csv 파일 저장
df

Unnamed: 0,이름,전화번호,주소
0,kim,010-1111-1111,seoul
1,park,010-1111-2222,seoul
2,mok,010-1111-3333,incheon


In [5]:
pd.read_csv('examples/ex1.csv', skiprows=[0]) # skiprows : 행 건너뛰기

Unnamed: 0,kim,010-1111-1111,seoul
0,park,010-1111-2222,seoul
1,mok,010-1111-3333,incheon


In [6]:
result = pd.read_table('examples/ex2.txt', sep='\s+') # 정규 표현식으로 처리
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [5]:
result = pd.read_csv('examples/ex3.csv')
print(result)
pd.isnull(result) # null 체크

  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo


Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [6]:
result = pd.read_csv('examples/ex3.csv', na_values=['world']) 
# na_values : 리스트나 문자열 집합을 받아서 누락된값으로 처리
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,
2,three,9,10,11.0,12,foo


In [7]:
# 사전형식으로 데이터 값 변경
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('examples/ex3.csv', na_values=sentinels)


Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### 텍스트 파일 부분 읽기

In [8]:
pd.options.display.max_rows = 10 # 최대 10개의 데이터만 출력되도록 설정

In [9]:
result = pd.read_csv('examples/ex4.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [10]:
pd.read_csv('examples/ex4.csv', nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


### 데이터를 텍스트 형식으로 저장

In [11]:
data = pd.read_csv('examples/ex1.csv')
data

Unnamed: 0,이름,전화번호,주소
0,kim,010-1111-1111,seoul
1,park,010-1111-2222,seoul
2,mok,010-1111-3333,incheon


In [12]:
data.to_csv('examples/out.csv') # to_csv() : csv 형식으로 저장

In [13]:
import sys
data.to_csv(sys.stdout, sep='|') # 구분자를 '|'로 지정

|이름|전화번호|주소
0|kim|010-1111-1111|seoul
1|park|010-1111-2222|seoul
2|mok|010-1111-3333|incheon


In [14]:
data.to_csv(sys.stdout, na_rep='NULL') # 누락된 값을 NULL로 지정

,이름,전화번호,주소
0,kim,010-1111-1111,seoul
1,park,010-1111-2222,seoul
2,mok,010-1111-3333,incheon


In [15]:
# 날짜 기간 데이터 csv로 저장
dates = pd.date_range('1/1/2020', periods=7)
ts = pd.Series(np.arange(7), index=dates)
print(ts)
ts.to_csv('examples/tseries.csv')

2020-01-01    0
2020-01-02    1
2020-01-03    2
2020-01-04    3
2020-01-05    4
2020-01-06    5
2020-01-07    6
Freq: D, dtype: int32


### JSON 데이터
- JSON(JavaScript Object Notation) : 웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼때 널리 사용되는 표준 파일 형식
- CSV보다 유연하며, 웹 데이터를 가져올 경우 유용
- 기본 자료형은 객체(사전), 배열(리스트), 문자열, 숫자, 논리형, 널 

In [16]:
obj = """
{"name": "mok",
 "places_lived": ["Korea", "USA", "Germany"],
 "pet": null,
 "siblings": [{"name": "Jin", "age": 30, "pets": ["choco", "badook"]},
              {"name": "Hyuk", "age": 32,
               "pets": ["back-gu", "jearong"]}]
}
"""
type(obj)

str

In [17]:
import json
result = json.loads(obj) # json 데이터 로드
result

{'name': 'mok',
 'places_lived': ['Korea', 'USA', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Jin', 'age': 30, 'pets': ['choco', 'badook']},
  {'name': 'Hyuk', 'age': 32, 'pets': ['back-gu', 'jearong']}]}

In [18]:
asjson = json.dumps(result) # 파이썬 객체를 json으로 변환

In [8]:
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings

KeyError: 'siblings'

In [20]:
data = pd.read_json('examples/example.json')
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


### XML과 HTML: 웹 스크래핑
- 웹 스크래핑 : 웹 페이지의 데이터를 스크랩
- lxml : HTML과 XML 처리에 효율적인 라이브러리

In [9]:
!pip install beautifulsoup4 html5lib



In [12]:
# read_html() : html에서 table 태그를 찾아 데이터를 가져옴
tables = pd.read_html('https://www.weather.go.kr/w/weather/forecast/short-term.do', encoding='UTF-8')
print(len(tables))
weather = tables[0]
weather.head()

1


Unnamed: 0,예보요소,평년(오늘),어제(04일),오늘(05일),내일(06일),모레(07일)
0,최저기온 (℃),13.7 ~ 17.6,8.4 ~ 18.4,-,13 ~ 19,13 ~ 19
1,최고기온 (℃),22.3 ~ 28.4,20.6 ~ 29.3,23 ~ 31,22 ~ 31,24 ~ 30
2,파고(m),서해 앞바다/안쪽먼바다/바깥먼바다,서해 앞바다/안쪽먼바다/바깥먼바다,0.5 / 0.5~1.0 / 0.5~1.0,0.5 / 0.5~1.0 / 0.5~1.0,0.5 / 0.5~1.0 / 0.5~1.0
3,파고(m),남해 앞바다/안쪽먼바다/바깥먼바다,남해 앞바다/안쪽먼바다/바깥먼바다,0.5~1.0 / 0.5~1.5 / 0.5~1.5,0.5~1.0 / 0.5~1.5 / 0.5~1.5,0.5~1.0 / 0.5~1.5 / 0.5~1.5
4,파고(m),동해 앞바다/안쪽먼바다/바깥먼바다,동해 앞바다/안쪽먼바다/바깥먼바다,0.5~1.0 / 0.5~1.5 / 0.5~1.5,0.5~1.0 / 0.5~1.5 / 0.5~1.5,0.5~1.0 / 0.5~1.5 / 0.5~1.5


### 마이크로소프트 엑셀 파일에서 데이터 읽어오기
- 2003 이후 버전의 엑셀 데이터를 읽어올 수 있음

In [37]:
xlsx = pd.ExcelFile('examples/file1.xlsx') # 엑셀 파일 객체 저장
xlsx

<pandas.io.excel._base.ExcelFile at 0x1a6cd3f8400>

In [38]:
pd.read_excel(xlsx, 'Sheet1')  # Sheet1 페이지 가져오기

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [39]:
frame = pd.read_excel('examples/file1.xlsx', 'Sheet1')
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [40]:
writer = pd.ExcelWriter('examples/file2.xlsx')
frame.to_excel(writer, 'Sheet1') # 엑셀로 작성
writer.save() # 저장

  writer.save() # 저장


In [42]:
frame.to_excel('examples/file2.xlsx')

## 웹 API와 함께 사용하기
- request 패키지를 사용하여 데이터 처리
- https://www.data.go.kr/


In [43]:
import requests 
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
resp

<Response [200]>

In [44]:
data = resp.json()
data[0]['title']
print(data)



In [46]:
issues = pd.DataFrame(data, columns=['number', 'title',
                                     'labels', 'state'])
issues

Unnamed: 0,number,title,labels,state
0,53788,DOC: fix Sphinx parallel build error caused fo...,[],open
1,53787,BUG: DataFrame.stack sorts columns,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
2,53786,BUG: DataFrame.stack sorts columns,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
3,53785,DEPR: Remove literal string/bytes input from r...,[],open
4,53784,TST: Refactor some slow tests,"[{'id': 127685, 'node_id': 'MDU6TGFiZWwxMjc2OD...",open
...,...,...,...,...
25,53746,ENH / CoW: Add lazy copy to eval,"[{'id': 2085877452, 'node_id': 'MDU6TGFiZWwyMD...",open
26,53745,TST / CoW: Add test for mask,"[{'id': 2085877452, 'node_id': 'MDU6TGFiZWwyMD...",open
27,53744,BUG: df constructor not copying ea backed series,"[{'id': 849023693, 'node_id': 'MDU6TGFiZWw4NDk...",open
28,53743,CI: Test Python 3.12,"[{'id': 129350, 'node_id': 'MDU6TGFiZWwxMjkzNT...",open


## 데이터베이스와 함께 사용하기

In [52]:
# DB 테이블 생성 및 연결
import sqlite3
query = """
CREATE TABLE contact
(name VARCHAR(20), phone VARCHAR(20),
 age INTEGER
);"""
con = sqlite3.connect('contact.sqlite')
con.execute(query)
con.commit()

In [53]:
# test 테이블에 데이터를 저장(insert)하는 코드
data = [('김진혁', '1234', 20),
        ('최진혁', '2345', 30),
        ('목진혁', '3456', 40)]
stmt = "INSERT INTO contact VALUES(?, ?, ?)"
con.executemany(stmt, data)
con.commit()

In [54]:
# contact 테이블에서 데이터를 선택(select)하는 코드
cursor = con.execute('select * from contact')
rows = cursor.fetchall()
rows

[('김진혁', '1234', 20), ('최진혁', '2345', 30), ('목진혁', '3456', 40)]

In [18]:
cursor.description
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

NameError: name 'cursor' is not defined

In [61]:
# 데이터베이스에서 테이블 import 후에, 데이터 프레임으로 출력
import sqlalchemy as sqla
db = sqla.create_engine('sqlite:///contact.sqlite')
pd.read_sql('select * from test', db)

Unnamed: 0,name,phone,age


In [56]:
# 즉석 퀴즈
# 1. test.sqlite 이름으로 DB 생성하기
# 2. contact 이름의 테이블 생성하기
# - 테이블 컬럼 (이름 - varchar(20), 
#    연락처 - varchar(20), 이메일 - varchar(20))) 생성
# 3. contact 테이블에 임의의 연락처 정보 1개 입력(insert)
# 4. contact 테이블에서 이름, 연락처 컬럼만 선택(select)하여 dataframe으로 출력


In [64]:
import sqlalchemy as sqla
query = """
CREATE TABLE contact
(이름 VARCHAR(20), 연락처 VARCHAR(20), 이메일 VARCHAR(20)
);"""
con = sqlite3.connect('quiz.sqlite')
con.execute(query)
con.commit()

In [65]:
data = [('목진혁', '010-9042-9548', '인천')]
stmt = "INSERT INTO contact VALUES(?, ?, ?)"
con.executemany(stmt, data)
con.commit()

In [66]:
db = sqla.create_engine('sqlite:///test.sqlite')
pd.read_sql('select * from contact', db)

Unnamed: 0,이름,연락처,이메일
0,목진혁,010-9042-9548,인천
1,목진혁,010-9042-9548,인천


In [67]:
# 데이터 삭제
stmt = "Delete from contact where 연락처 = '대한민국 인천'"
con.execute(stmt)

<sqlite3.Cursor at 0x1a6cf5fff40>