# 1. 파일 읽기와 쓰기


# OS 모듈
파이썬의 os 모듈은 운영 체제와 상호 작용하는 많은 함수와 유틸리티를 제공합니다. 이 모듈을 사용하면 파일, 디렉터리 또는 운영 체제에 관한 작업을 수행할 수 있습니다. 정말 많은 기능이 포함되어있고 자주 사용하게 될 모듈입니다.

### 1-1. fileinput
Python에서 파일을 읽고 쓰는 데 사용되는 편리한 모듈 중 하나입니다. 이 모듈을 사용하면 명령행 인수나 표준 입력에서 데이터를 읽을 수 있으며, 여러 파일에 대한 반복 작업을 쉽게 수행할 수 있습니다. 주로 텍스트 파일을 처리할 때 유용하게 사용됩니다.

In [8]:
import fileinput
import os


In [9]:
# 현재 경로 확인
os.getcwd()

'/content'

In [10]:
# 디렉토리 안에 파일(디렉토리)을 리스트로 반환
os.listdir(os.getcwd())

['.config', 'drive', 'sample_data']

### 1-2. glob()
Python의 표준 라이브러리 중 하나인 glob 모듈에서 제공되며, 파일 경로 패턴을 사용하여 파일들을 검색하는 데 사용됩니다. 이 모듈은 파일 및 디렉토리 이름을 패턴과 일치시키고 일치하는 파일 목록을 반환하는 데 유용합니다.

In [11]:
import glob

In [None]:
#해당 경로의 파일(디렉토리) 이름을 리스트로 반환
glob.glob(os.path.join('data/','*.txt'))

[]

In [12]:
with fileinput.input(glob.glob(os.path.join('data/','*.txt'))) as f:
  for line in f:
    print(line)

In [None]:
txt_files = glob.glob(os.path.join('data/','*.txt'))   # 파일 이름만 찾아서 리스트로 담아줌
print(txt_files)

[]


In [None]:
# 각 파일의 첫번째 라인을 찾아 변경하기
with fileinput.input(txt_files, inplace=True) as f:
    for line in f:
        if f.isfirstline():
            print('첫번째 라인이야!', end='\n')
        else:
            print(line, end='')

In [None]:
# 검색된 라인을 변경하기
with fileinput.input(txt_files, inplace=True) as f:
    for line in f:
        if line == '첫번째 라인이야!\n':
            print('검색된 라인을 변경했음', end='\n')
        else:
            print(line, end='')

# 키워드를 포함한 라인을 검색해서 해당 라인 변경하기



In [None]:
with fileinput.input(txt_files, inplace=True) as f:
    for line in f:
        if '2.' in line:
            print('두번째 줄입니다', end='\n')
        else:
            print(line, end='')

In [None]:
for filename in glob.glob('*.txt'):
  print(filename)

In [None]:
# 하위 경로의 txt 파일 찾기
for filename in glob.glob('**/*.txt'):
  print(filename)

data/텍스트파일2.txt
data/텍스트파일1.txt
data/텍스트파일3.txt


In [None]:
# 현재와 하위 경로의 txt 파일 모두 찾기
for filename in glob.glob('**/*.txt',recursive = True):
  print(filename)


drive/MyDrive/KTX 이음 소스 공유/korail_setting/app/build/intermediates/incremental/packageDebug/tmp/debug/file-input-save-data.txt
drive/MyDrive/KTX 이음 소스 공유/korail_setting/app/build/intermediates/incremental/packageDebug/tmp/debug/dex-renamer-state.txt
drive/MyDrive/KTX 이음 소스 공유/korail_setting/app/build/intermediates/incremental/processDebugResources/resources-list-for-resources-debug.ap_.txt
drive/MyDrive/KTX 이음 소스 공유/korail_setting/app/build/intermediates/incremental/packageRelease/tmp/release/file-input-save-data.txt
drive/MyDrive/KTX 이음 소스 공유/korail_setting/app/build/intermediates/incremental/packageRelease/tmp/release/dex-renamer-state.txt
drive/MyDrive/KTX 이음 소스 공유/korail_setting/app/build/intermediates/res/symbol-table-with-package/release/package-aware-r.txt
drive/MyDrive/KTX 이음 소스 공유/korail_setting/app/build/intermediates/res/symbol-table-with-package/debug/package-aware-r.txt
drive/MyDrive/KTX 이음 소스 공유/korail_setting

In [None]:
# 파일명 글자수로 찾기
for filename in glob.glob('????.*', recuresive = True):
  print(filename)

# 파일명 글자수로 찾기
for filename in glob.glob('??.*', recuresive = True):
  print(filename)

In [None]:
# 문자열 패턴 포함 파일명 찾기
for filename in glob.glob('[a-z][a-z][a-z][a-z][a-z][a-z].*', recursive = True):
  print(filename)

circle.py


In [None]:
# 한글 문자열 패턴 포함 파일명 찾기
for filename in glob.glob('[가-힣][가-힣].*', recursive= True):
  print(filename)

사과.txt


In [None]:
# 특정 문자 포함 파일명 찾
for filename in glob.glob('**/텍스*.*'):
  print(filename)

data/텍스트파일2.txt
data/텍스트파일1.txt
data/텍스트파일3.txt


# 키워드를 찾아 원하는 텍스트 복사

In [13]:
with fileinput.input(txt_files, inplace=True) as f:
    for line in f:
        if '3.' in line:
            print(line.replace('3.', '세번째.'), end='')
        else:
            print(line, end='')

NameError: ignored

In [None]:
import pickle
data('apple','banna','orange')

TypeError: ignored

### 1-3. pickle
Python에서 객체 직렬화(serialization)와 역직렬화(deserialization)를 위한 내장 모듈입니다. 객체 직렬화는 Python 객체를 바이트 스트림으로 변환하고, 역직렬화는 바이트 스트림을 다시 Python 객체로 변환하는 과정을 말합니다. pickle 모듈을 사용하면 Python 객체를 파일에 저장하고 나중에 불러올 수 있으며, 이를 통해 데이터의 지속성(persistence)을 구현하거나 객체를 다른 프로그램으로 전송하는 등 다양한 용도로 활용할 수 있습니다.

In [14]:
import pickle

In [None]:
data = ['apple','banna','orange']

In [None]:
with open('list.pkl', 'wb') as f:
    pickle.dump(data, f)


In [None]:
with open('list.pkl', 'rb') as f:
    data = pickle.load(f)
    print(data)

In [None]:
print(type(data))
print(data)

In [None]:
with open('dick.pkl', 'wb') as f:
    pickle.dump(data, f)

In [None]:
# 역직렬화
with open('dick.pkl', 'rb') as f:
    data = pickle.load(f)

In [None]:
data = {}
data[1] = {'id' : 1, 'userid' : 'appple', 'name' : '김사과', 'gender' : '여자'}
print(data)

### 1-4. shutil
shutil 모듈은 파이썬에서 고수준 파일 연산을 수행하기 위한 유틸리티 모듈입니다. 기본적인 os 모듈에서 제공하는 기능을 확장하여, 파일 및 디렉터리를 복사, 이동, 삭제하는 데 사용할 수 있는 더 다양한 함수를 제공합니다.

In [15]:
import shutil

In [None]:
# 파일 복사
shutil.copy('./data/텍스트파일1.txt', './data/텍스트파일1_복사본.txt')

FileNotFoundError: ignored

In [None]:
# 파일 이동
shutil.move('./data/텍스트파일1_복사본.txt', './텍스트파일1_복사본.txt')

FileNotFoundError: ignored

In [None]:
# 확장명 바꾸기
shutil.move('./텍스트파일1_복사본.txt', './텍스트파일1_복사본.py')

In [None]:
# 확장명 바꾸기2
shutil.move('./텍스트파일1_복사본.py', './텍스트파일1_복사본.txt')

# 2. 데이터 압축
파이썬에서는 데이터 압축 및 아카이브 생성을 위한 여러 모듈을 제공합니다. 이러한 모듈들을 사용하면 다양한 압축 및 아카이브 형식으로 데이터를 처리할 수 있습니다.

In [16]:
import zlib   # 데이터를 압축하거나 해제할 때 사용하는 모듈

In [None]:
data = 'Hello Python!' * 10000   # 문자열은 공백까지 합쳐서 총 13글자이다 * 10000은 이 단어가 1만번 곱했다는 뜻이니 총 13만 바이트가 된다
print(len(data))

130000


In [None]:
compress_data = zlib.compress(data.encode(encoding='utf-8'))
print(len(compress_data))

293


In [None]:
print(compress_data)

b'x\x9c\xed\xc71\r\x00 \x0c\x000+\xe0f\'&H8\x16\xf6\xf0\xe0\x1e\x1f\xa4\xfd\x1a3\xb3\xda\xb8g\xd5\xee!"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""?\xe6\x01le79'


In [None]:
org_data = zlib.decompress(compress_data).decode('utf-8')
print(len(org_data))

130000


In [17]:
import gzip

In [None]:
with open('org_data.txt','w') as f:
  f.write(data)

In [None]:
# gzip으로 압축
with gzip.open('org_data.txt.gz', 'wb') as f:
    f.write(data.encode('utf-8'))

In [None]:
# gzip 압축 해제
with gzip.open('org_data.txt.gz', 'rb') as f:
    org_data = f.read().decode('utf-8')

In [None]:
print(len(org_data))

130000


In [18]:
import zipfile

In [None]:
with zipfile.ZipFile('./data/새파일.zip','w') as myzip:
  myzip.write('./data/텍스트파일1.txt')
  myzip.write('./data/텍스트파일2.txt')
  myzip.write('./data/텍스트파일3.txt')

In [None]:
with zipfile.ZipFile('./data/새파일.zip') as myzip:
  myzip.extractall()

In [19]:
import tarfile

In [None]:
# 파일 합치고 압축하기
with tarfile.open('./data/텍스트파일.tar', 'w') as mytar:
    mytar.add('./data/텍스트파일1.txt')
    mytar.add('./data/텍스트파일2.txt')
    mytar.add('./data/텍스트파일3.txt')



In [None]:
# 압축 해제하기
with tarfile.open('./data/텍스트파일.tar') as mytar:
    mytar.extractall('/content/압축푸는곳')

## 1-5. fnmatch
fnmatch는 파일 이름과 패턴을 비교하거나 매칭하는 데 사용되는 Python의 표준 라이브러리 모듈 중 하나입니다. 이 모듈은 와일드카드 문자(*, ?)를 사용하여 파일 이름을 패턴과 비교하고 일치하는지 확인하는 기능을 제공합니다. 주로 파일 및 디렉터리 관리 작업에서 사용됩니다.

In [20]:
import fnmatch

In [21]:
for filename in os.listdir('./data'):
  if fnmatch.fnmatch(filename, '?????[0-9].txt'):
    print(filename)

FileNotFoundError: ignored