In [1]:
from IPython.display import display, HTML
display(HTML("""<style>
div.container{width:86% !important;}
div.cell.code_cell.rendered{width:100%;}
div.CodeMirror {font-family:Consolas; font-size:12pt;}
div.output {font-size:12pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:12pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{fontsize:12pt;padding:5px;}
table.dataframe{font-size:12px;}))
</style>
"""))

<font size="5" color="red">ch09 파일 io(입/출력) 프로그래밍</font>

- 파일 : txt, pickle, csv, json, hdf5(h5)

# 1절. txt파일에 데이터 저장하고 불러오기

In [2]:
f = open('data/ch09.txt', 'w')
print('쓰기 가능한지 여부 :', f.writable())

쓰기 가능한지 여부 : True


In [3]:
f.write('Hello\nWorld')
f.close()  # close() 하지 않을 경우 쓰기한 내용이 저장 안됨

In [4]:
'''
mode : 'r' 또는 'rt' : text열기 모드
       'rb' : 바이너리 읽기 모드
       'w' 또는 'wt' : text쓰기 모드 (파일이 있으면 덮어씀, 파일이 없으면 파일 생성)
       'wb' : 바이너리 쓰기 모드
       'a' 또는 'at' : text 추가 모드 (파일이 있으면 append, 파일이 없으면 파일 생성)
       읽기모드에서는 파일이 없으면 예외/쓰기모드에서는 폴더가 없으면 예외
encoding :
    euc-kr (한글완성형) 믜X
    cp949 (확장된 한글완성형) : open()함수 기본 encoding방식(win)
    utf-8 (한글조합형): open()함수 기본 encoding방식(mac, linux), 주피터노트북 기본
'''

with open('data/ch09.txt', 'w') as f :
    print('쓰기 가능한지 여부 :', f.writable())
    f.write('Hello\nPython')

쓰기 가능한지 여부 : True


In [5]:
with open('data/ch09.txt', 'w') as f :
#     1방법
    f.write('홍길동, 33, 아무동9\n')
    f.write('김길동, 33, 아무동9\n')
#     2방법
    textlist = ['홍길동, 33, 아무동9\n', '김길동, 33, 아무동9\n']
    for line in textlist :
        f.write(line)
#     3방법
    f.writelines(textlist)

In [6]:
# 한줄씩 읽기

with open('data/ch09.txt', 'r') as f :
    line = f.readline()
    while line != '' :
        print(line, end = '')
        line = f.readline()

홍길동, 33, 아무동9
김길동, 33, 아무동9
홍길동, 33, 아무동9
김길동, 33, 아무동9
홍길동, 33, 아무동9
김길동, 33, 아무동9


In [7]:
# 모든 줄을 읽기

with open('data/ch09.txt', 'r') as f :
    lines = f.readlines()
    print(lines)

['홍길동, 33, 아무동9\n', '김길동, 33, 아무동9\n', '홍길동, 33, 아무동9\n', '김길동, 33, 아무동9\n', '홍길동, 33, 아무동9\n', '김길동, 33, 아무동9\n']


In [8]:
# 모두 읽기

with open('data/ch09.txt', 'r') as f :
    lines = f.read()
lines

'홍길동, 33, 아무동9\n김길동, 33, 아무동9\n홍길동, 33, 아무동9\n김길동, 33, 아무동9\n홍길동, 33, 아무동9\n김길동, 33, 아무동9\n'

# 2절. 피클을 이용한 객체 저장 및 불러오기

## 2.1 형식이 있는 txt 데이터 불러오기

In [40]:
class Member :
    def __init__(self, name, age, email, address) :
        self.name = name
        self.age = age
        self.email = email
        self.address = address
        
    def __str__(self) :
        return "{}, {}, {}, {}".format(self.name,
                                      "성년" if self.age > 18 else "미성년",
                                      self.email,
                                      self.address)
    
    def as__dic__(self) :
        return {
            'name' : self.name,
            'age' : self.age,
            'email' : self.email,
            'address' : self.address
            }
    
    def __eq__(self, other) :
         if isinstance(other, Member) :
            return self.name == other.name and \
                    self.age == other.age and \
                    self.email == other.email and \
                    self.address == other.address
         else:
            return False

In [41]:
user1 = Member('홍', 20, 'a@a.com', '신림동')
user2 = Member('홍', 20, 'a@a.com', '신림동')
print(user1 == user2)
print(user1.__eq__(user2))  # 같은 내용이면 True

True
True


In [42]:
user1 = Member('홍길동', 22, 'a@a.com', '신림동')
user2 = Member('홍길동', 22, 'a@a.com', '신림동')
print(user1.__eq__('홍길동'))
print(user1 == '홍길동')

False
False


In [28]:
# 형식이 있는 txt 파일 내용을 member list(피클), 딕셔너리 list(데이터프레임)로 저장

user_list = []  # member list
user_dict = []  # 딕셔너리 list

with open('data/ch09_member.txt', 'r', encoding = 'utf-8') as txt_file :
    lines = txt_file.readlines()
# print(lines)

for line in lines :
    data = line.split(',')
    name = data[0]
    age = int(data[1].strip())  # strip() : 좌우 공백(space, \t, \n)제거
    email = data[2].strip()
    address = data[3].strip()
    user = Member(name, age, email, address)
    user_list.append(user)
    user_dict.append(user.as__dic__())

In [29]:
for user in user_list :
    print(user)

홍길동, 성년, kildong@hong.com, 서울시 관악구
홍길숙, 성년, kilsuk1@hong.com, 서울시 영등포구
신길동, 성년, shinkil@hong.com, 서울시 동작구


In [30]:
user_dict

[{'name': '홍길동', 'age': 20, 'email': 'kildong@hong.com', 'address': '서울시 관악구'},
 {'name': '홍길숙',
  'age': 25,
  'email': 'kilsuk1@hong.com',
  'address': '서울시 영등포구'},
 {'name': '신길동', 'age': 30, 'email': 'shinkil@hong.com', 'address': '서울시 동작구'}]

## 2.2 피클링

- 객체 리스트(user_list) → 피클파일로 쓰기
- 피클 파일을 읽기 → 객체 리스트(load_user_list)

In [31]:
# 피클링을 이용한 객체를 저장하기

import pickle

with open('data/ch09_member.data', 'wb') as f :
    pickle.dump(user_list, f)

In [32]:
# 피클링을 이용한 파일에서 객체 데이터로 읽기

with open('data/ch09_member.data', 'rb') as f :
    load_user_list = pickle.load(f)

In [33]:
user_list == load_user_list

True

In [35]:
for idx in range(len(user_list)) :
    print(idx, user[idx])
    print(idx, load_user_list[idx])

0 홍길동, 성년, kildong@hong.com, 서울시 관악구
0 홍길동, 성년, kildong@hong.com, 서울시 관악구
1 홍길숙, 성년, kilsuk1@hong.com, 서울시 영등포구
1 홍길숙, 성년, kilsuk1@hong.com, 서울시 영등포구
2 신길동, 성년, shinkil@hong.com, 서울시 동작구
2 신길동, 성년, shinkil@hong.com, 서울시 동작구


In [36]:
for user, load_user in zip(user_list, load_user_list) :  # zip 사용
    print(user)
    print(load_user)

홍길동, 성년, kildong@hong.com, 서울시 관악구
홍길동, 성년, kildong@hong.com, 서울시 관악구
홍길숙, 성년, kilsuk1@hong.com, 서울시 영등포구
홍길숙, 성년, kilsuk1@hong.com, 서울시 영등포구
신길동, 성년, shinkil@hong.com, 서울시 동작구
신길동, 성년, shinkil@hong.com, 서울시 동작구


In [39]:
for idx, (user, load_user) in enumerate(zip(user_list, load_user_list)) :  # enumerate, zip 사용
    print(idx, user)
    print(idx, load_user)
    print(user == load_user)

0 홍길동, 성년, kildong@hong.com, 서울시 관악구
0 홍길동, 성년, kildong@hong.com, 서울시 관악구
True
1 홍길숙, 성년, kilsuk1@hong.com, 서울시 영등포구
1 홍길숙, 성년, kilsuk1@hong.com, 서울시 영등포구
True
2 신길동, 성년, shinkil@hong.com, 서울시 동작구
2 신길동, 성년, shinkil@hong.com, 서울시 동작구
True


In [41]:
# user_list와 load_user_list 비교

result = []
for user, load_user in zip(user_list, load_user_list) :
    result.append(user == load_user)
all(result)

True

# 3절. CSV 형식 파일 읽기/쓰기

- CSV파일 ↔ 리스트데이터로 읽기/쓰기
- CSV파일 ↔ 딕셔너리데이터 읽기/쓰기

## 3.1 reader

In [19]:
import csv

with open('data/ch09_member1.csv', 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    result = list(reader)
print(result)

[['홍길동', '20', 'kildong@hong.com', '서울시 관악구'], ['김길동', '40', 'kimdong@hong.com', '서울시 영등포구'], ['신길동', '30', 'sindong@hong.com', '서울시 동작구']]


In [48]:
# ""(따옴표)가 없는 데이터는 numeric으로 사져오기

import csv

with open('data/ch09_member1.csv', 'r', encoding = 'utf-8') as f :
    reader = csv.reader(f,
                       quoting = csv.QUOTE_NONNUMERIC)
#     print(list(reader))  # with 절 안에서 reader 사용 가능
    result = list(reader)  # with 절 밖에서 reader 사용하기 위한 할당
print(result)

[['홍길동', 20.0, 'kildong@hong.com', '서울시 관악구'], ['김길동', 40.0, 'kimdong@hong.com', '서울시 영등포구'], ['신길동', 30.0, 'sindong@hong.com', '서울시 동작구']]


In [49]:
import csv

with open('data/ch09_member1.csv', 'r', encoding = 'utf-8') as f :
    reader = csv.reader(f,
                       quoting = csv.QUOTE_NONNUMERIC)
    result = list(reader)
dict_list = []
for data in result :
    dict_list.append({
        'name':data[0],
        'age':int(data[1]),
        'email':data[2],
        'address':data[3]
    })
print(dict_list)

[{'name': '홍길동', 'age': 20, 'email': 'kildong@hong.com', 'address': '서울시 관악구'}, {'name': '김길동', 'age': 40, 'email': 'kimdong@hong.com', 'address': '서울시 영등포구'}, {'name': '신길동', 'age': 30, 'email': 'sindong@hong.com', 'address': '서울시 동작구'}]


## 3.2 writer

In [50]:
user_list = [['홍길동', 20, 'kildong@hong.com', '서울시 관악구'],
            ['김길동', 40, 'kimdong@hong.com', '서울시 영등포구']]

In [51]:
with open('data/ch09_member1_writer.csv', 'a', newline = '', encoding = 'utf-8') as f :
    writer = csv.writer(f)
    writer.writerows(user_list)

In [52]:
import csv

with open('data/ch09_member1_writer.csv', 'w', newline = '', encoding = 'utf-8') as f :
    writer = csv.writer(f, quoting = csv.QUOTE_NONNUMERIC)
    writer.writerows(user_list)

## 3.3 DictReader

In [57]:
import csv

with open('data/ch09_member3.csv', 'r', encoding = 'utf-8') as f :
    dict_reader = csv.DictReader(f)
    dict_list = list(dict_reader)
print(dict_list)
for row in dict_list :
    if row['job'] is None :
        print(row['name'], row['age'], row['email'], row['address'])
    else :
        print(row['name'], row['age'], row['email'], row['address'], row['job'])

[{'name': '홍길동', 'age': '20', 'email': 'h@h.com', 'address': '서울시 관악구', 'job': None}, {'name': '신길동', 'age': '40', 'email': 's@h.com', 'address': '서울시 영등포구', 'job': '팀장'}, {'name': '김길동', 'age': '30', 'email': 'k@h.com', 'address': '서울시 동작구', 'job': None}]
홍길동 20 h@h.com 서울시 관악구
신길동 40 s@h.com 서울시 영등포구 팀장
김길동 30 k@h.com 서울시 동작구


In [20]:
# header가 없는 csv파일(ch09_member1-cp.csv)을 딕셔너리로 읽기

with open('data/ch09_member1-cp.csv', encoding = 'cp949') as f :
    dict_reader = csv.DictReader(f,
                                fieldnames = ['Name', 'Age', 'Email', 'Address', 'Job'])
    result = list(dict_reader)
for row in result :
    print(row)

{'Name': '홍길동', 'Age': '20', 'Email': 'kildong@hong.com', 'Address': '서울시 관악구', 'Job': ''}
{'Name': '김길동', 'Age': '40', 'Email': 'kimdong@hong.com', 'Address': '서울시 영등포구', 'Job': '팀장'}
{'Name': '신길동', 'Age': '30', 'Email': 'sindong@hong.com', 'Address': '서울시 동작구', 'Job': ''}


In [61]:
with open('data/ch09_member1-cp.csv', encoding = 'cp949') as f :
    dict_reader = csv.DictReader(f,
                                fieldnames = ['Name', 'Age', 'Email', 'Address',],
                                restkey = 'Job')
    result = list(dict_reader)
    # print(list(dict_reader))
for row in result :
    print(row)

{'Name': '홍길동', 'Age': '20', 'Email': 'kildong@hong.com', 'Address': '서울시 관악구', 'Job': ['']}
{'Name': '김길동', 'Age': '40', 'Email': 'kimdong@hong.com', 'Address': '서울시 영등포구', 'Job': ['팀장']}
{'Name': '신길동', 'Age': '30', 'Email': 'sindong@hong.com', 'Address': '서울시 동작구', 'Job': ['']}


## 3.4 DictWriter

- 딕셔너리 리스트 → CSV파일

In [10]:
user1 = {'name':'홍길동', 'age':22, 'email':'a@a.com', 'address':'신림동'}
user2 = {'name':'신길동', 'age':32, 'email':'b@a.com', 'address':'신림동'}
user3 = {'name':'김길동', 'age':42, 'email':'c@a.com', 'address':'신림동'}

user_list = [user1, user2, user3]
fieldnames = list(user1.keys())
print(fieldnames)

['name', 'age', 'email', 'address']


In [70]:
with open('data/ch09_member4.csv', 'w', encoding = 'utf-8', newline = '') as f :
    dict_writer = csv.DictWriter(f,
                                fieldnames = fieldnames)
    dict_writer.writeheader()  # header 쓰기
    dict_writer.writerows(user_list)

### CSV ↔ 데이터프레임

In [72]:
import pandas as pd

member = pd.read_csv('data/ch09_member3.csv')
member

Unnamed: 0,name,age,email,address,job
0,홍길동,20,h@h.com,서울시 관악구,
1,신길동,40,s@h.com,서울시 영등포구,팀장
2,김길동,30,k@h.com,서울시 동작구,


In [73]:
type(member)

pandas.core.frame.DataFrame

# 4절. JSON 데이터 저장하고 불러오기 (dump, load)

- 딕셔너리리스트 ↔ JSON 파일(기본)
- 객체리스트 ↔ JSON 파일

## 4.1 dump(파일 출력)

In [12]:
data = [{'name': '홍길동', 'age': 20, 'email': 'kildong@hong.com', 'address': '서울'},
        {'name': '김길동', 'age': 30, 'email': 'kildong@hong.com', 'address': '인천'}]

In [13]:
# ensure_ascii 매개변수
    # True : 비 ASCII문은 유니코드 형태로 저장
    # False : 비 ASCII문자 원래 형태로 저장
    
import json

with open('data/ch09_member.json', 'w', encoding = 'utf-8') as jsonfile :
    json.dump(data,  # 딕셔너리 리스트
             jsonfile,
             ensure_ascii = False)

In [14]:
class Member :
    def __init__(self, name, age, email, address) :
        self.name = name
        self.age = age
        self.email = email
        self.address = address
        
    def __str__(self) :
        return "{}, {}, {}, {}".format(self.name,
                                      self.age,
                                      self.email,
                                      self.address)
    
    def as__dic__(self) :
        return {
            'name' : self.name,
            'age' : self.age,
            'email' : self.email,
            'address' : self.address
            }
    
    def __eq__(self, other) :
        if isinstance(other, Member) :
            # return self.__str__() == other.__str__()
            return self.__dict__ == other.__dict__
        else :
            return False

In [15]:
user1 = Member('홍길동', 22, 'a@a.com', '신림동')
user2 = Member('홍길동', 22, 'a@a.com', '신림동')
print(user1.__eq__(user2))
print(user1 == user2)

True
True


In [99]:
member_list = [Member('홍길동', 22, 'a@a.com', '서울'),
               Member('신길동', 32, 'a@a.com', '서울'),
               Member('김길동', 42, 'a@a.com', '서울')]

In [100]:
with open('data/ch09_member1.json', 'w', encoding = 'utf-8') as jsonfile :
    json.dump(member_list,  # 객체 리스트
             jsonfile,
             ensure_ascii = False,
             indent = '\t',
             default = Member.as__dic__  # 객체를 딕셔너리로 return 하는 인스턴스 함수
             )

## 4.2 load(파일 입력)

- json 파일 → 딕셔너리리스트(기본)
                    ↓
- json 파일 → 객체리스트

In [16]:
def as_member(dic) :
    '매개변수로 딕셔너리를 받아 Member 객체를 return'
    return Member(dic.get('name'), dic['age'], dic.get('email'), dic.get('address'))

In [18]:
member = as_member({'name':'김길동', 'age':20, 'email':'z@a.com', 'address':'관악'})
print(member)

김길동, 20, z@a.com, 관악


In [104]:
with open('data/ch09_member.json', 'r', encoding = 'utf-8') as f :
    load_data = json.load(f)
load_data

[{'name': '홍길동', 'age': 20, 'email': 'kildong@hong.com', 'address': '서울'},
 {'name': '김길동', 'age': 30, 'email': 'kildong@hong.com', 'address': '인천'}]

In [106]:
with open('data/ch09_member1.json', 'r', encoding = 'utf-8') as f :
    load_member_list = json.load(f, object_hook = as_member)

for load_member in load_member_list :
    print(load_member)

홍길동, 22, a@a.com, 서울
신길동, 32, a@a.com, 서울
김길동, 42, a@a.com, 서울


### JSON → 데이터프레임

In [1]:
import pandas as pd
pd.read_json('data/ch09_member1.json')

Unnamed: 0,name,age,email,address
0,홍길동,22,a@a.com,서울
1,신길동,32,a@a.com,서울
2,김길동,42,a@a.com,서울


In [2]:
pd.read_json('data/ch09_member.json', encoding = 'utf-8')

Unnamed: 0,name,age,email,address
0,홍길동,20,kildong@hong.com,서울
1,김길동,30,kildong@hong.com,인천


# 6절. 연습문제

## 연습문제 실습형

In [None]:
# ex1. 기능별 함수를 작성한다
'''

'''

## 연습문제 문제풀이형

In [None]:
# ex1. 다음 중 Open 함수에 대해 잘못 설명한 것은?
'''
① 함수가 반환하는 것은 열린파일 객체이다
② 파일을 열 때 사용하는 모드는 읽기(r), 쓰기(w), 추가(a), 바이너리(b) 모드가 있다
③ 바이너리(b) 모드와 쓰기(w) 모드는 같이 사용할 수 없다
④ 파일의 인코딩은 encoding 속성을 이용해 설정할 수 있다
'''

print('정답 : ③')

In [None]:
# ex2. 피클링(pickling)에 대해 잘못 설명한것은?
'''
① 파이썬의 객체직렬화(Object Serialization) 방법이다
② pickle 모듈의 dump()와 load() 함수를 이용해 객체를 쓰고 읽는다
③ 파이썬 객체를 별도의 텍스트 변환 과정없이 파일에 직접 쓰고 읽는 것을 의미한다
④ 피클링 하기위한 모드는 쓰기모드('w') 여야 한다
'''

print('정답 : ④')

In [None]:
# ex3. 다음 중 파이썬의 입/출력 모듈에대한설명중 잘못된 것은?
'''
① Pandas 패키지를 이용하면 리스트데이터를 쉽게 파일에 쓰고 읽을 수 있다
② json 모듈의 dump(), load() 함수를 이용해 JSON 데이터를 파일에 읽고 쓸 수 있다
③ h5py 모듈의 File 클래스를 이용해 HDF5 데이터를 파일에 읽고 쓸 수 있다
④ csv 모듈의 reader(), writer() 함수를 이용해 CSV 파일을 읽고 쓸 수 있다
'''

print('정답 : ')