# **8장 흘러가는 데이터**

<br>

## **8.1 파일입출력**

파일을 읽고 쓰기 전에 **파일 열기**\
`fileobj = open(filename, mode)`
* `fileobj` : open() 에 의해 반환되는 파일 객체
* `filename` : 파일의 문자열 이름
* `mode` : 파일 타입과 파일로 무엇을 할지 명시하는 문자열

`mode` 의 첫 글자는 **작업**을 명시
* r : 파일 읽기
* w : 파일 쓰기 (파일 존재하지 않으면 파일 생성, 존재하면 덮어쓴다)
* x : 파일 쓰기 (파일이 존재하지 않을 경우만)
* a : 파일이 존재하면 파일의 끝에서부터 쓴다)

`mode` 의 두번째 글자는 파일 타입을 명시
* t(또는 아무것도 명시하지 않음) : 텍스트 타입
* b : 이진(binary) 타입

<br>

## **8.1.1 텍스트 파일 쓰기 : write()**

In [None]:
from typing import Any
sample_content1 = '''12345
abcde'''

fout = open('sample_file_write.txt', 'wt')
file_byte_length = fout.write(sample_content1)
fout.close()
print(file_byte_length)

<br>

#### **print()** 함수로 텍스트 파일 생성하기
* sep : 구분자, 기본값은 ' '
* end : 문자열 끝, 기본값은 '\n'

In [None]:
sample_content1 = '''12345
abcde'''

sample_content2 = '''가나다라마바사
아자차카타파하'''

fout = open('sample_file_print.txt', 'wt')
print(sample_content1, sample_content2, file=fout)
fout.close()


fout = open('sample_file_print_kwargs.txt', 'wt')
print(sample_content1, sample_content2, file=fout, sep="@\n", end='!')
fout.close()

<br>

## **8.1.2 텍스트 파일 읽기**

#### **read()** 함수로 전체파일 읽기 - 큰 파일 읽을때 주의 필요


In [None]:
fin = open("sample_file_print.txt", 'rt')
contents = fin.read()
fin.close()
print(contents)

<br>

#### **read(chunk)** - 한번에 읽을 문자수를 chunk 길이만큼 제한

In [None]:
fin = open("sample_file_print.txt", 'rt')

content = ''
chunk = 10
loop = 1
while True:
    fragment = fin.read(chunk)
    # 파이썬에서 빈문자열이 조건식에 쓰일 경우 False인 점을 이용
    if not fragment:
        break
    print('loop',loop, ':', fragment)
    content += fragment
    loop += 1

fin.close()
print('\n-----content\n', content)

<br>

#### **readline()** - 한 라인씩 읽기

In [None]:
fin = open('sample_file_print_kwargs.txt', 'rt')

content = ''
line_num = 1
while True:
    line = fin.readline()
    if not line:
        break
    content += line
    print('line', line_num, ':', line)
    line_num += 1

fin.close()
print('\n----content\n', content)

<br>

#### **readlines()** - 모든 라인을 읽어 리스트 반환

In [None]:
fin = open('sample_file_print_kwargs.txt', 'rt')

lines = fin.readlines()
print('lines:',lines)

content = ''
for line in lines:
    content += line

print('\n----content\n', content)
fin.close()

<br>

#### **이터레이터** 활용

In [None]:
fin = open('sample_file_print_kwargs.txt', 'rt')

print('fin:', type(fin))
content = ''
for line in fin:
    content += line

print('\n----content\n', content)
fin.close()

<br>

## **8.1.3 이진파일 읽기/쓰기**

#### mode에 't' 대신 `'b'` 사용

In [None]:
# 이진 데이터 생성
bdata = bytes(range(0, 256))
print('bdata:',bdata, '\n')
print('len of bdata:',len(bdata))

In [None]:
# 이진 데이터 쓰기
fout = open('sample_bdata', 'wb')
len = fout.write(bdata)
print('writed len:', len, '\n')
fout.close()

# 이진 데이터 읽기
fin = open('sample_bdata', 'rb')
raw_bdata = fin.read()
print('raw_bdata:', raw_bdata, '\n')
fin.close()

<br>

## **8.1.5 자동으로 파일 닫기: with**

#### 파일을 열고 닫는 작업을 context manager 에게 위임

* #### `with` 표현식 `as` 변수

In [None]:
fout_plain = open('sample_bdata', 'rb')
print('bdata_1:',fout_plain.read(), '\n')

with open("sample_bdata", 'rb') as fout_manager:
    print('bdata_2:',fout_manager.read(), '\n')

print('fout_plain is closed:', fout_plain.closed, '\n')
print('fout_manager is closed:', fout_manager.closed)

fout_plain.close()

<br>

## **8.1.6 파일 위치 찾기**

#### `tell()`: 파일의 **현재 오프셋**을 바이트 단위로 반환

In [None]:
with open('sample_bdata', 'rb') as fout:
    print('curr_offset:', fout.tell())
    fout.seek(255)
    print('curr_offset:', fout.tell())
    print('bdata:', fout.read())

<br>

#### `seek(offset, origin)`: 파일을 특정 바이트 오프셋 위치로 **이동**
* #### *origin* 0: 시작위치에서 *offset* 바이트 이후로 이동 (기본값)
* #### *origin* 1: 현재위치 *offset* 바이트 이후로 이동
* #### *origin* 2: 마지막위치에서 *offset* 바이트 위치로 이동

In [None]:
with open('sample_bdata', 'rb') as fout:
    print('curr_offset:', fout.tell())
    fout.seek(-1, 2)
    print('curr_offset:', fout.tell())
    print('bdata:', fout.read())

<br>

## **8.2 구조화된 텍스트파일**

<br>

## **8.2.1 CSV(Comma-Separated Values)**

#### **표준 csv 모듈 사용하여 입출력**

In [None]:
import csv

months = [
    ['ONE', 1],
    ['TWO', 2],
    ['THREE', 3],
    ['FOUR', 4],
    ['FIVE', 5]
]

# csv 파일쓰기
with open('months', 'wt') as fout:
    csv_out = csv.writer(fout)
    csv_out.writerows(months)

# csv 파일읽기
with open('months', 'rt') as fin:
    csv_in = csv.reader(fin)
    csv_to_list = [row for row in csv_in]

print("csv_to_list:", csv_to_list)

<br>

#### `DictReader()`: 딕셔너리의 리스트로 데이터 생성

In [None]:
import csv
with open('months', 'rt') as fin:
    cin = csv.DictReader(fin, fieldnames=['NAME', 'NUM'])
    csv_to_dict_list = [row for row in cin]
    
print('csv_to_dict_list', csv_to_dict_list)

<br>

#### `DictWriter()`: 딕셔너리 데이터로 csv 파일 쓰기

In [None]:
import csv

months = [
    {'NAME': 'ONE', 'NUM': 1},
    {'NAME': 'TWO', 'NUM': 2},
    {'NAME': 'THREE', 'NUM': 3},
    {'NAME': 'FOUR', 'NUM': 4},
    {'NAME': 'FIVE', 'NUM': 5}
]

# csv 파일쓰기
with open('months', 'wt') as fout:
    csv_out = csv.DictWriter(fout, fieldnames=['NAME','NUM'])
    # header 를 써주면 첫번째 라인에 헤더정보가 입력
    csv_out.writeheader()  
    csv_out.writerows(months)

# csv 파일읽기
with open('months', 'rt') as fin:
    # fieldnames 인자를 제외할때 : 첫번째 라인 => 딕셔너리의 key로 사용된다 
    csv_in = csv.DictReader(fin)
#     csv_in = csv.DictReader(fin, fieldnames=['NAME','NUM'])
    csv_to_dict_list = [row for row in csv_in]

print("csv_to_list:", csv_to_dict_list)

<br>

## **8.2 XML**
#### **`ElementTree` 모듈 사용**

In [None]:
from xml.etree import ElementTree as et

books_tree = et.parse('books.xml')
book_root = books_tree.getroot()
print('root tag:', book_root.tag, '\n')

for child in book_root:
    print("tag:", child.tag, 'attributes', child.attrib, '\n')

In [None]:
from xml.etree import ElementTree as et

books_tree = et.parse('books.xml')
book_root = books_tree.getroot()
# offset 으로 접근 - 1번째 book의 genre 텍스트 얻어오기
print('first book genre:', book_root[0][2].text, '\n')

In [None]:
from xml.etree import ElementTree as et

books_tree = et.parse('books.xml')
book_root = books_tree.getroot()
# 관심있는 element 탐색
for genre in book_root.iter('genre'):
    print(genre.text)

In [None]:
from xml.etree import ElementTree as et

books_tree = et.parse('books.xml')
book_root = books_tree.getroot()

# 관심있는 element 탐색2
book_list = []
for book in book_root.findall('book'):
    book_obj = {}
    book_obj['book_id'] = book.attrib['id']
    book_obj['title'] = book.find('title').text
    book_obj['price'] = book.find('price').text
    book_list.append(book_obj)

print("book_list:", book_list)

In [None]:
from xml.etree import ElementTree as et

books_tree = et.parse('books.xml')
book_root = books_tree.getroot()

# xml 수정
for book in book_root.findall('book'):
    # attribute 추가/수정 : set
    book.set('USE_YN','Y')
    # child 추가/수정 : append
    new_element = et.Element('PO_CNT')
    new_element.text = '0'
    book.append(new_element)

books_tree.write('books_edit.xml')

<br>

## **8.2.4 JSON(JavaScript Object Notation)**

#### **`json` 사용**

In [None]:
widget_json = {"widget": {
            "debug": "on",
            "window": {
                "title": "Sample Konfabulator Widget",
                "name": "main_window",
                "width": 500,
                "height": 500
            },
            "image": {
                "src": "Images/Sun.png",
                "name": "sun1",
                "hOffset": 250,
                "vOffset": 250,
                "alignment": "center"
            },
            "text": {
                "data": "Click Here",
                "size": 36,
                "style": "bold",
                "name": "text1",
                "hOffset": 250,
                "vOffset": 100,
                "alignment": "center",
                "onMouseUp": "sun1.opacity = (sun1.opacity / 100) * 90;"
            }
        }}

<br>

#### `dumps(json)`: json 을 문자열로 변환

In [None]:
import json
widget_str = json.dumps(widget_json)
print('widget_str type:', type(widget_str))
print('widget_str:', widget_str)

<br>

#### `loads(json)`: json 을 문자열로 변환

In [None]:
widget_json_load = json.loads(widget_str)
print('widget_json_load type:', type(widget_json_load))
print('widget_json_load:', widget_json_load)

<br>

#### JSON 으로 **변환할 수 없는 경우**

In [None]:
import datetime as dt

new_user = {}
new_user['id'] = 'bkb'
now= dt.datetime.utcnow()
new_user['create_at'] = now
print('new_user:', new_user)

# TypeError: Object of type datetime is not JSON serializable
new_user_str = json.dumps(new_user)

<br>

#### 방법1: **`str()`** 메서드 사용

In [None]:
new_user['create_at'] = str(new_user['create_at'])
new_user_str = json.dumps(new_user)
print('new_user_str', new_user_str)

<br>

#### 방법2: **`JSONEncoder`** 상속

In [None]:
class CustomEncoder(json.JSONEncoder):

    def default(self, o):
        if isinstance(o, dt.datetime):
            return str(o)
        return super().default(o)
new_user_str = json.dumps(new_user, cls=CustomEncoder)
print('new_user_str', new_user_str)


<br>

## **8.2.9 직렬화하기: pickle**

#### `pickle`: 바이너리 형식으로 된 객체를 저장/복완 할수 있는 모듈
* ####  `dump`: 직렬화
* ####  `load`: 역직렬화


In [None]:
import pickle as pc
import datetime as dt

now = dt.datetime.utcnow()
serialized_now = pc.dumps(now)
print('serialized_now:', serialized_now, '\n')
deserialized_now = pc.loads(serialized_now)
print('deserialized_now:', deserialized_now)

<br>

## **8.4 관계형 데이터베이스**<br>

## **8.4.2 DB-API**

**관계형 데이터베이스**에 접근하기 위한 **파이썬의 표준 API**
* **`connect()`**: 데이터베이스 연결생성. 사용자이름, 비밀번호, 서버주소 등의 인자를 포함
* **`cursor()`**: 질의를 관리하기 위한 커서 객체를 만든다
* **`excute().executemany()`**: 하나 이상의 SQL 명령 실행
* **`fetchone().fetchmany().fetchall()`**: 실행 결과를 얻어옴

## **8.4.3 SQLite**

##### `sqlite3` 라아브러리 이용

In [None]:
import sqlite3

# 연결, 부재시 local db 파일 생성
conn = sqlite3.connect('sample.db')
curs = conn.cursor()

In [None]:
# 테이블생성
curs.execute('''
CREATE TABLE STUDENT (
NAME VARCHAR(20) PRIMARY KEY,
AGE INT)
''')
conn.commit()

In [None]:
# 데이터입력
curs.execute("INSERT INTO STUDENT VALUES('KIM', 20)")
conn.commit()

In [None]:
# placeholder 사용하여 데이터입력 (튜플)
ins = 'INSERT INTO STUDENT(NAME, AGE) VALUES(?, ?)'
curs.execute(ins, ('LEE', 22))
conn.commit()

In [None]:
# 데이터조회
ins = 'SELECT NAME, AGE FROM STUDENT WHERE NAME = ?'

# ?
curs.execute(ins, ('KIM'))
print(curs.fetchall())
curs.close()
conn.close()


<br>

## **8.4.6 SQLAlchemy**

가장 인기 있는 크로스 데이터베이스의 파이썬 라이브러리

`pip install sqlalchemy`

* 가장 낮은 수준에서 데이터베이스 커넥션 풀을 처리
* 파이써닉한 SQL 빌더
* ORM - 관계형 자료구조와 어플리케이션 코드를 바인딩



In [5]:
import sqlalchemy as sa

# 데이터베이스 커넥션 얻어오기
# 데이터베이스타입 + 드라이버 :// user : password @ host : port / dbname
conn = sa.create_engine('sqlite:///sample_db2')


In [None]:
# 테이블 생성
conn.execute('''
CREATE TABLE STUDENT (
NAME VARCHAR(20) PRIMARY KEY,
AGE INT)
''')

In [None]:
# 데이터 입력
conn.execute("INSERT INTO STUDENT VALUES('KIM', 20)")

# placeholder 사용하여 데이터입력 (튜플)
ins = 'INSERT INTO STUDENT(NAME, AGE) VALUES(?, ?)'
conn.execute(ins, ('LEE', 22))

# placeholder 사용하여 데이터입력 (**args)
ins = 'INSERT INTO STUDENT(NAME, AGE) VALUES(?, ?)'
conn.execute(ins, 'PARK', 25)

In [None]:
# 데이터 확인
rows = conn.execute('SELECT * FROM STUDENT')
print('rows type:',type(rows))

for row in rows:
    print(row)



<br>

### **SQL 표현언어(EL) 사용**

In [None]:
import sqlalchemy as sa

conn = sa.create_engine('sqlite:///sample_db2')

# 어플리케이션 내에 테이블의 구조 매핑
meta = sa.MetaData()
student = sa.Table('student', meta,
                   sa.Column('NAME', sa.String, primary_key=True),
                   sa.Column('AGE', sa.Integer)
                  )
meta.create_all(conn)

conn.execute(student.insert(('BANG', 31)))

In [None]:
# 데이터 조회
result = conn.execute(student.select())
rows = result.fetchall()
print(rows)

<sqlalchemy.engine.result.ResultProxy at 0x10ac2a4f0>

In [12]:
# 데이터 입력
conn.execute("INSERT INTO STUDENT VALUES('KIM', 20)")

# placeholder 사용하여 데이터입력 (튜플)
ins = 'INSERT INTO STUDENT(NAME, AGE) VALUES(?, ?)'
conn.execute(ins, ('LEE', 22))

# placeholder 사용하여 데이터입력 (**args)
ins = 'INSERT INTO STUDENT(NAME, AGE) VALUES(?, ?)'
conn.execute(ins, 'PARK', 25)

<sqlalchemy.engine.result.ResultProxy at 0x10ac2aeb0>

In [15]:
# 데이터 확인
rows = conn.execute('SELECT * FROM STUDENT')
print('rows type:',type(rows))

for row in rows:
    print(row)


rows type: <class 'sqlalchemy.engine.result.ResultProxy'>
('KIM', 20)
('LEE', 22)
('PARK', 25)



<br>

### **SQL 표현언어(EL) 사용**

In [6]:
import sqlalchemy as sa

conn = sa.create_engine('sqlite:///sample_db2')

# 어플리케이션 내에 테이블의 구조 매핑
meta = sa.MetaData()
student = sa.Table('student', meta,
                   sa.Column('NAME', sa.String, primary_key=True),
                   sa.Column('AGE', sa.Integer)
                  )
meta.create_all(conn)

conn.execute(student.insert(('BANG', 31)))

In [7]:
# 데이터 조회
result = conn.execute(student.select())
rows = result.fetchall()
print(rows)

[('KIM', 20), ('LEE', 22), ('PARK', 25), ('BANG', 31)]
