# Chapter 8. 파일시스템의 이해



:::{admonition} 학습목표와 기대효과 
:class: info  
- 학습목표
  - Main memory vs. File system의  특징을  알아보자.
  - 파이썬에서  파일을  open, read, write, close하는  방법을  알아보자.


- 기대효과
  - 코드를 통해 시스템과 연동시켜 파일을 관리(management) 할 수 있다.
:::

## 파일시스템 관리 도구

- 윈도우, 리눅스, 맥 등 모든 컴퓨터에는 파일 시스템이 존재한다. 
- 파일 시스템은 파일들을 적절한 방식으로 관리 즉, 생성, 복사, 이동, 삭제 할 수 있도록 도와주는 시스템이다.
- 파일을 관리할 수 있도록 도와주는 도구에는 대표적으로 `GUI를 이용`한 파일관리 도구와 `쉘커맨드(shell command)를 이용`한 파일관리 도구가 있다.

- GUI(Graphic User Interface)를 이용한 파일 관리도구로는 대표적으로 `파일 탐색기`가 있다.
- **파일 탐색기**를 통해 파일 목록을 볼 수도 있고 파일을 생성, 이동, 삭제, 복사 하는 등 다양한 파일 관리 작업을 할 수 있다.


<div align="center"><img src="https://haesunbyun.github.io/common/images/file1.png" style="width:400px;"></div>

- 쉘커맨드를 이용한 파일 관리도구로는 대표적으로 `명령프롬프트`가 있다.
- 쉘커맨드는 GUI가 나오기 전 파일 관리도구로 사용되었으며, 현재의 파일 탐색기에서 하는 모든 작업을 쉘커맨드로도 할 수 있어서 쉘커맨드에 익숙한 사용자들은 여전히 많이 사용한다.  

<div align="center"><img src="https://haesunbyun.github.io/common/images/file2.png" style="width:400px;"></div>

- 때로는 프로그램을 통해서도 파일 관리가 요구되기도 있다.
- 프로그래밍 언어를 통해서도 파일 관리를 할 수 있으며, 파이썬에서도 파일관리를 위한 쉘커맨드를 지원한다.


- 파이썬에서 파일관리를 하려면 먼저 모듈 os를 import해야 한다.
- 모듈 os에는 system()이라는 함수가 있다.
- os.system() 함수는 파이썬이 컴퓨터의 운영체제(os: operating system,[윈도우, 맥, 리눅스 등])에게 명령어를 전달하도록 한다.
- os.system() 괄호안에 운영체제 명령어를 넣어주면 된다.
```
import os 
os.system(운영체제명령어) 
```

- 예를 들어, os.system('dir') 하면 파일목록을 보여라는 dir 명령을 파이썬에서 수행한다.
- 그러나, 파이썬의 쉘커맨드에서는 아래의 코드가 실행되어 현재 위치의 파일 목록을 나타내지만 코랩에서는 0(return value)으로 나온다.
```
import os 
os.system('dir')
```
- 이를 위해 실행한 시스템 명령어의 결괏값을 돌려받는 popen()함수를 사용할 수 있다.
```
f = os.popen("dir")
print(f.read())
```

- 더 간단한 방법은 파이썬 쉘명령어 앞에 `!`를 붙이면 운영체제 명령어가 실행된다.
- ls는 현재 위치의 파일목록을 보여주라는 리눅스 명령어이다.
- dir은 현재 위치의 파일목록을 보여주라는 윈도우 명령어이다.
```
!ls
!dir
```

- 운영체제명령어를 실행하는 독립적인 함수들도 있다.
  - listdir() : 폴더의 목록을 보여준다.
  - chdir(폴더명): 폴더명이 적힌 폴더로 이동한다.
  - getcwd(): 현재 폴더 경로를 반환

- 아래 코드를 실행시키면 현재 위치의 파일 목록이 나온다.
```python
import os 
os.listdir() 
```

- 아래 코드는 현재 위치를 'sample_data' 폴더로 이동시킨다. 이동했다는 결과가 보이지는 않으므로 os.getcwd()을 통해 현재 위치를 반환해보면 폴더로 이동했음을 확인할 수 있다.
```python
os.chdir('sample_data')
os.getcwd()
```


## 메인 메모리 vs. 파일 시스템 특징


- 파일 관리에 하나인 `자료를 저장한다`는 측면에서 메인 메모리와 파일시스템의 역할을 비교해서 따져보자.

### 메인 메모리(주기억 장치)의 특징
- 메인 메모리는 전원을 끄면 자료가 사라져버리는 Volatile(휘발성) 메모리이다. 
- 메인 메모리에는 주소가 있어서 그 주소에 있는 값을 읽어 올 수도 쓸 수도 있는 랜덤 엑세스(Random access)가 가능하다. 
- 랜덤엑세스가 가능해서 속도가 빠르지만 저장할 수 있는 양은 크지 않다(8 to 16Gb). 
- 가격이 비싸다.

### 파일 시스템의 특징
- 전원을 꺼도 자료가 사라지지 않는 비휘발성(Non-volatile)메모리이다.
- 하드디스크(HDD), USB메모리 등이 파일시스템으로 사용되는 보조기억장치에 속한다.
- HDD는 자료를 읽어올 때 순차적 엑세스(Sequential access)로 처음부터 순서대로 읽어나간다. 물론 부분적으로 랜덤 엑세스가 가능하다.
- 속도는 느리지만 저장할 수 있는 양은 메인 메모리보다 몇 백배 크다. (512Gb to 3Tb)
- 떨어뜨리면 고장이 날 수도 있다. 
- Tape: https://www.youtube.com/watch?v=7Lh4CMz_Z6M&ab_channel=CuriousMarc
- Disc: https://www.youtube.com/watch?v=3WFnVFrPf5Q&ab_channel=80sCompaqPC
- 요즘의 대부분의 노트북들은 Flash 메모리(SSD, USB memory)를 사용한다.
- Flash 메모리는 주기억장치인 램과 HDD의 중간정도 위치라고 볼 수 있는데 자료를 읽을 때 랜덤 엑세스로 읽는다. 

## 메인 메모리 엑세스 vs. 파일 시스템 엑세스

### 메인 메모리 엑세스 

- 프로그래밍 언어에서는 변수를 선언하면 메인메모리에 저장하며 엑세스가 가능하다.

In [None]:
a=10
print(a)

### 파일 시스템 접근

- 여기에서는 파일시스템에서 파일을 다루는 가장 단순한 기법만 언급할 것이다. 
- 왜냐면 더 낮은 레벨에서의 파일시스템을 건들거나 다룰 일이 거의 없을 것이기 때문이다.
- 파일시스템을 다루는 작업이 필요하지 않을 수도 있고, 혹은 필요한 사람들은 파일시스템에서 다루는게 아니라 보통은 데이터베이스에서 다룰 일이 많을 것이기 때문이다.


- 파일시스템을 엑세스 할때에는 메인메모리를 엑세스처럼 간단하지 않다.
- 파일시스템을 엑세스 할 때에는 파일을 오픈할 때 읽을 것인지 쓸 것인지 등 엑세스 모드를 미리 알려줘야 한다. 
- 엑세스 모드는 다음과 같다.
  - r: 읽는 용도. 파일이 없을때는 에러가 난다.
  - w: 쓰는 용도. 파일이 이미 있다면 다 지우고 처음부터 쓰고, 없다면 새로 만든다.
  - a: 쓰는 용도. 파일이 이미 있다면 내용의 가장 마지막에 추가한다.
  - r+: 읽기/쓰기 용도. r모드는 순서대로만 읽으나, r+ 모드에서는 읽을위치, 쓸위치로 직접 이동이 가능하다.
  - w+ : 읽기/쓰기 용도. 파일이 이미 있다면 다 지우고 처음부터 쓴다.

- 파일을 오픈해보자.

#### 파일 열기: open()

- 파일을 열 때 사용하며, 인자로 파일명과 엑세스 모드를 넣어준다.
```
open(파일명, 엑세스 모드)
```

- 아래 코드에서는 newfile.txt파일을 쓰는 용도로 오픈한다.
- 오픈한 파일 객체를 변수 f에 저장한다. 이제 변수 f를 통해서 파일에 접근할 수 있다.
- 파일이 기존에 없었기 때문에 새로 만들어졌을 것이다.
- 코랩 메뉴의 왼쪽의 파일 아이콘을 누르면 확인이 된다.
- 파일은 아직은 내용이 없는 빈 파일이다.
```python
f = open("newfile.txt", 'w')
```

#### 파일 쓰기: write()

- 파일에 쓸 때 사용하며, 인자로 데이터를 넣어준다.
```
파일객체.write(데이터)
```

- 반복문을 통해 파일에 문자열을 써보자.
- 위에서 만들었던 파일객체 f는 쓰기모드로 열었기 때문에 파일에 데이터를 저장할 수 있다. 
- 아래 코드는 f.write(data)로 newfile.txt 파일에 데이터를 저장한다.
```python
for i in range(1, 11):
    data = f"{i}번째 줄입니다.\n"
    f.write(data)
```

#### 파일 닫기: close()

- 파일을 닫을 때 사용한다. 파일을 열었다면 반드시 닫어줘야 한다. 파일을 닫지 않으면 파일 내부에 있는 데이터가 손상 될 수도 있고, 다른 프로세스에서 해당 파일에 엑세스를 못 할 수도 있다.
```
파일객체.close()
```
- 파일 객체 f를 닫아준다.
```
f.close()
```

- 파일 닫는 부분을 with 문으로 대체하면 with를 벗어날 때 자동으로 파일을 닫아주므로 close() 함수를 사용할 필요가 없다.
```python
with open("newfile.txt", "r") as f:
  for i in range(1, 11):
    data = f"{i}번째 줄입니다.\n"
    f.write(data)
```

#### 파일 읽기


##### read()

- 파일의 전체의 내용을 하나의 문자열로 읽어온다.
```python
파일객체.read()
```

- 이제 "newfile.txt" 파일을 읽기용으로 열어서 read()함수로 파일에서 데이터를 읽어보자.
- 앞에서 저장했던 결과가 잘 출력 될 것이다.
- 파일을 읽어온 후 한 번 더 read()를 실행시키면 더 이상 읽을 내용이 없어서 빈 문자열을 반환한다.
```python
with open("newfile.txt", "r") as f:
    data = f.read()
    print(data)
    f.read()

```
```
1번째 줄입니다.
2번째 줄입니다.
3번째 줄입니다.
4번째 줄입니다.
5번째 줄입니다.
6번째 줄입니다.
7번째 줄입니다.
8번째 줄입니다.
9번째 줄입니다.
10번째 줄입니다.
''
```

##### readline()
- 한번에 한 줄씩 읽어온다.
- 읽어온 내용의 맨 끝에는 줄바꿈 기호('\n')가 들어가 있고, 반복문에서 print()에 의해 줄이 바뀌므로 결과는 내용 출력 후 빈줄이 출력될 것이다.
```python
with open("newfile.txt", "r") as f:
    while True:
        line = f.readline()
        if not line:
          break
        print(line.rstrip())

```


- rstrip()은 문자열 오른쪽 끝에 들어가 있는 공백을 모두 제거해준다. 줄바꿈도 공백이므로 제거된다. 참고로 lstrip()은 왼쪽 공백을 제거해준다.
```python
with open("newfile.txt", "r") as f:
    while True:
        line = f.readline()
        if not line:
          break
        print(line.rstrip())  
```  

##### readlines()
- 파일 전체 내용을 한 줄씩 읽어와서 리스트를 만들어준다.
```python
with open("newfile.txt", "r") as f:
    lines = f.readlines()
    for line in lines:
        print(line.rstrip())
```
- 리스트이므로 언팩킹(unpacking) 기호인 *를 붙여서 한번에 내용만 출력이 가능하다.
- 이때 리스트의 아이템마다 분리해주는 기능인 한 칸 띄어쓰기 기능이 적용되어서 한 칸씩 들어가 출력된다.
```python
with open("newfile.txt", "r") as f:
    lines = f.readlines()
    print(*lines) 
```   

#### 쉘커맨드로 읽기
- 파일안의 내용이 길지 않다면 간단하게 리눅스 쉘커맨드로 내용을 확인할 수도 있다.
```
!cat newfile.txt
```

## 마무리
- 파일 시스템 관리는 파일을 열고, 읽고, 쓰고, 닫고, 복사하고, 지우고 등의 파일을 관리하는 것을 의미한다.
- 파이썬에서 파일시스템의 파일을 엑세스하는 open(), write(), close(), read() 함수에 대해서 알아보았다.
- 파일시스템을 엑세스 할 때에는 파일을 오픈할 때 읽을 것인지 쓸 것인지 등 엑세스 모드를 미리 알려줘야 한다. 
- 엑세스 모드는 다음과 같다.
  - r: 읽는 용도. 파일이 없을때는 에러가 난다.
  - w: 쓰는 용도. 파일이 이미 있다면 다 지우고 처음부터 쓰고, 없다면 새로 만든다.
  - a: 쓰는 용도. 파일이 이미 있다면 내용의 가장 마지막에 추가한다.
  - r+: 읽기/쓰기 용도. r모드는 순서대로만 읽으나, r+ 모드에서는 읽을위치, 쓸위치로 직접 이동이 가능하다.
  - w+ : 읽기/쓰기 용도. 파일이 이미 있다면 다 지우고 처음부터 쓴다.
