# 파일 처리

## 파일도 하나의 객체

In [1]:
f = open("data.txt1","rt", encoding="utf-8")

print(type(f))

<class '_io.TextIOWrapper'>


### text I/O


     텍스트 I / O는 str 객체를 필요로하고 생성합니다. 
     
     기본적으로 바이트로 만들어 질 때마다 (파일의 경우와 같이) 데이터의 인코딩과 디코딩이 투명하게 이루어지며 플랫폼 별
     
     개행 문자의 선택적 변환이 이루어집니다.

In [5]:
import io

f = open("data.txt", "rt", encoding="utf-8")
print(f)

fs = io.StringIO("some initial text data")
print(fs)

<_io.TextIOWrapper name='data.txt' mode='rt' encoding='utf-8'>
<_io.StringIO object at 0x0000000005345048>


### binary I/O

     이진 I / O (버퍼링 된 I / O라고도 함)는 바이트 개체를 필요로하며 생성합니다. 
     
     인코딩, 디코딩 또는 개행 문자 변환은 수행되지 않습니다. 
     
     이 범주의 스트림은 모든 종류의 비 텍스트 데이터에 사용할 수 있으며 텍스트 데이터 처리에 대한 수동 제어가 필요한 경우에도 
     
     사용할 수 있습니다.

In [2]:
import io

f = open("data.txt", "rb")
print(f)
print(issubclass(type(f),io.BufferedIOBase))

fs = io.BytesIO(b"some initial binary data: \x00\x01")
print(fs)
print(issubclass(type(fs),io.BufferedIOBase))

<_io.BufferedReader name='data.txt'>
True
<_io.BytesIO object at 0x0000000004A26780>
True


In [3]:
f = open("data.txt", "wb")
print(f)
print(issubclass(type(f),io.BufferedIOBase))

<_io.BufferedWriter name='data.txt'>
True


### Raw I/O

     Raw I / O (버퍼되지 않은 I / O라고도 함)는 일반적으로 2 진 및 텍스트 스트림에 대한 저수준 빌딩 블록으로 사용됩니다.
     
     사용자 코드에서 원시 스트림을 직접 조작하는 것은 거의 유용하지 않습니다.

In [9]:
f = open("data.txt", "rb", buffering=0)
print(f)

<_io.FileIO name='data.txt' mode='rb' closefd=True>


## 파일은 반복자 처리를 하는 객체


In [20]:
import collections.abc as cols

print(issubclass(type(f), cols.Iterable))
print(issubclass(type(f), cols.Iterator))
print(issubclass(cols.Generator, cols.Iterator))
print(issubclass(type(f), cols.Generator))

True
True
True
False


### 파일 주요 속성 

#### mode 이해하기

    첫번째 자리 : w (쓰기) , r(읽기), x( 파일이 없으면 쓰기), a( 기존 파일 끝이 첨부해서 쓰기)
    
    두번째 자리 : t ( 텍스트), b( bytes) 
    
       

In [16]:
f = open("data.txt", "rb", buffering=0)
print(f)
print(f.name)
print(f.newlines)
print(f.mode)
print(f.encoding)

data.txt1
None
rt
utf-8


## 반복자에 따른 for문으로 처리


In [2]:
%%writefile data.txt
Moon

Overwriting data.txt


In [3]:
f = open("data.txt", "rb", buffering=0)
print(f)
for i in f :
    print(i)
    
f.close()

<_io.FileIO name='data.txt' mode='rb' closefd=True>
b'Moon'


## 파일을 쓰고 다시 읽고 반복자 형태(__next__)로 읽기


In [21]:
fw = open("data.txt","wt", encoding="utf-8")

fw.write("fist line\n")
fw.write("second line\n")
fw.close()

###  반복자이니 next 함수로 읽고 끝을 만나면 StoIteration 예외처리 

In [23]:
fr = open("data.txt","rt", encoding="utf-8")

print(next(fr))
print(next(fr))
print(next(fr))

fist line

second line



StopIteration: 

### 파일 전체를 읽는다.


In [28]:
fw = open("data.txt","wt", encoding="utf-8")

fw.write("fist line\n")
fw.write("second line\n")
fw.close()

fr = open("data.txt","rt", encoding="utf-8")

# 라인별로 리스트 타입에 넣는다.
a = fr.readlines()

print(a)
print(len(a))

fr.close()

['fist line\n', 'second line\n']
2


### 파일 한 라인을 읽는다.

In [31]:
fr = open("data.txt","rt", encoding="utf-8")

# 라인 하나를 읽는다 
a = fr.readline()

print(a)
print(len(a))

b = fr.readline()

print(b)
print(len(b))

fr.close()

fist line

10
second line

12


### 파일을 읽을 때  특정 단위로 읽기


In [33]:
fr = open("data.txt","rt", encoding="utf-8")

# 라인 하나를 읽는다 
a = fr.read(10)

print(a)
print(len(a))

b = fr.read(12)

print(b)
print(len(b))


fist line

10
second line

12


### 여러 라인을 동시에 출력하기  

In [35]:
fw1 = open("data.txt1","wt", encoding="utf-8")

a = """
fw.write("fist line\n")
fw.write("second line\n")
"""

fw1.writelines(a)
fw1.close()

fw2 = open("data.txt1","rt", encoding="utf-8")

print(fw2.read())
fw2.close()


fw.write("fist line
")
fw.write("second line
")



## seek과 tell 메소드

    seek : 주어진 위치를 찾아간다.
    tell : 현재 위치를 표시
    

### seek 메소드 처리 기준 

     * 0 - 스트림의 시작 (기본값); 오프셋은 0 또는 양수여야합니다.
     * 1 - 현재 스트림 위치; 오프셋은 음수 일 수있다.
     * 2 - 스트림의 끝; 오프셋은 일반적으로 음수입니다.

#### 주피터노트북에서 파일생성하기

    %%writefile 파일명
    

In [1]:
%%writefile data3.txt
The module defines a mixin, DictMixin, defining all dictionary methods
for classes that already have a minimum mapping interface.
This greatly simplifies writing classes that need to be substitutable
for dictionaries (such as the shelve module).

Overwriting data3.txt


In [6]:
fr3 = open("data3.txt","rt", encoding="utf-8")

print(fr3.tell())

0


####  파일 내의 위치를 이동하고 현재 위치 확인

In [7]:
fr3.seek(10)
print(fr3.tell())

fr3.seek(0)
print(fr3.tell())

10
0


In [8]:
# 라인을 붙여서 출력하도록 함
for i in fr3 :
    print(i, end="")
    
fr3.close()


The module defines a mixin, DictMixin, defining all dictionary methods
for classes that already have a minimum mapping interface.
This greatly simplifies writing classes that need to be substitutable
for dictionaries (such as the shelve module).

#### 파일을 close한 후에 file 접근하면  예외처리

In [54]:
fr3.seek(0)

ValueError: I/O operation on closed file.

#### 파일 내부 삭제 : truncate


In [57]:
help(fr3.truncate)

Help on built-in function truncate:

truncate(pos=None, /) method of _io.TextIOWrapper instance
    Truncate file to size bytes.
    
    File pointer is left unchanged.  Size defaults to the current IO
    position as reported by tell().  Returns the new size.



In [59]:
fr3 = open("data3.txt","wt", encoding="utf-8")

print(fr3.seek(100))
print(fr3.tell())
# 데이터가 삭제됨 
print(fr3.truncate(fr3.tell()))
fr3.close()

fr3 = open("data3.txt","rt", encoding="utf-8")
for i in fr3 :
    print(i, end="")

100
100
100
                                                                                                    

### 파일을 context manager 상태에서 처리하면 close를 하지 않아도 처리함


In [67]:
with open("data3.txt","rt", encoding="utf-8") as fr4 :
    for i in fr4 :
        print(i, end="")

The module defines a mixin, DictMixin, defining all dictionary methods for classes that already have a minimum mapping interface.
This greatly simplifies writing classes that need to be substitutable for dictionaries (such as the shelve module).
This module also defines a class, UserDict,that acts as a wrapper around dictionary objects.
 The need for this class has been largely supplanted by the ability to subclass directly from dict 
(a feature that became available starting with Python version 2.2). 
Prior to the introduction of dict, the UserDict class was used to create dictionary-like sub-classes
 that obtained new behaviors by overriding existing methods or adding new ones.

## File - like 처리  

    파일과 유사한 처리가 필요한 경우 임시 파일 StringIO나 BytesIO로 만들어  처리
   

    

### StringIO를 이용해서 파일과 유사한 처리를 함


In [75]:
import io

print(dir(io.StringIO))

['__class__', '__del__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '_checkClosed', '_checkReadable', '_checkSeekable', '_checkWritable', 'close', 'closed', 'detach', 'encoding', 'errors', 'fileno', 'flush', 'getvalue', 'isatty', 'line_buffering', 'newlines', 'read', 'readable', 'readline', 'readlines', 'seek', 'seekable', 'tell', 'truncate', 'writable', 'write', 'writelines']


In [86]:
import io

s = io.StringIO()
print(type(s))

s.write("Hello World")


# 읽고 쓰기 여부
print(s.writable())
print(s.readable())


print(s.getvalue())

<class '_io.StringIO'>
True
True
Hello World


In [72]:
import io

s = io.StringIO(" start Hello World")
print(type(s))


print(s.read(4))
print(s.read())

<class '_io.StringIO'>
 sta
rt Hello World


### bytesIO로 byte 문자열 처리 

In [87]:
import io

print(dir(io.BytesIO))

['__class__', '__del__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '_checkClosed', '_checkReadable', '_checkSeekable', '_checkWritable', 'close', 'closed', 'detach', 'fileno', 'flush', 'getbuffer', 'getvalue', 'isatty', 'read', 'read1', 'readable', 'readinto', 'readinto1', 'readline', 'readlines', 'seek', 'seekable', 'tell', 'truncate', 'writable', 'write', 'writelines']


In [93]:
import io

s = io.BytesIO(b" start Hello World")
print(type(s))

print(s.getvalue())


print(s.read(4))
print(s.read())

# 파일 종료
s.close()

# 종료여부 확인
print(s.closed)

<class '_io.BytesIO'>
b' start Hello World'
b' sta'
b'rt Hello World'
True


### JSON 처리


In [17]:
import json

data = [{
   'name' : 'ACME',
   'shares' : 100,
   'price' : 542.23
}]

# json 처리
json_str = json.dumps(data)
print(json_str)
print(type(json_str))

# 파이썬 처리
print(json.loads(json_str))

[{"price": 542.23, "name": "ACME", "shares": 100}]
<class 'str'>
[{'price': 542.23, 'name': 'ACME', 'shares': 100}]


In [47]:
import array
import io


bf = io.BufferedRWPair(io.BytesIO)
print(bf)
print(bf.read())

TypeError: BufferedRWPair() takes at least 2 arguments (1 given)

In [48]:
buffer

NameError: name 'buffer' is not defined

In [63]:
s = b'Hello world'
t = memoryview(s)

print(t[0])
print(chr(t[0]))

print(s is t)
print(s == t)


72
H
False
True


In [61]:
b = bytearray(20)
print(b)
b[:20] = b'12345678912345678900'
print(b)

bytearray(b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00')
bytearray(b'12345678912345678900')


In [71]:
b = bytearray(20)
buffer = memoryview(b)
buffer[:4]= b'abcd' # prints nothing
buffer[4:9] = b'ef*gh' # prints abcdef*

print(buffer.obj)
print(buffer.tobytes())

bytearray(b'abcdef*gh\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00')
b'abcdef*gh\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00'


In [97]:
import io
class StringBuffer:
    def __init__(self) :
        self.input_ = io.StringIO()
    def write(self, input_):
        self.input_.write(input_)
        print(self.input_.getvalue())
        
    #just keep concatenating until we have a * call
    def flush(self):
        del self.input_
              
sb = StringBuffer()
sb.write("aaa")
sb.flush()
print(sb.__dict__)

aaa
{}


In [95]:
import io

a = io.StringIO()
a.write("aaa")
print(a.getvalue)
print(a.read())

<_io.StringIO object at 0x000000000525A318>

