# Python을 이용한 파일 입출력

![](https://i.imgur.com/rv8wZ7l.png)

이 장은 다음과 같은 주제를 다룹니다:
- `os` 라이브러리를 이용한 파일 입출력
- `urllib` 라이브러리를 이용해서 웹에서 파일 다운로드 받기
- 텍스트 파일에서 데이터 읽고 처리하기
- CSV 파일로부터 데이터를 딕셔너리와 리스트 자료형으로 가져오기
- 텍스트 파일로 데이터 저장하기

## 1. OS 라이브러리를 이용한 파일 입출력
파이썬의 `os` 라이브러리의 함수들을 이용해서 컴퓨터의 OS 환경와 상호작용할 수 있습니다.<br>
라이브러리를 import하고 몇 가지 예제들을 풀어보도록 하겠습니다.

In [1]:
import os

`os.getcwd` 함수를 통해서 현재 작업 폴더가 어딘지 확인할 수 있습니다.

In [2]:
os.getcwd()

'c:\\HCI\\K-SW_BootCamp2022\\python\\7) python-os-and-filesystem'

`os.listdir` 함수를 이용하면, 폴더 내 파일들의 목록을 구할 수 있습니다.<br>
함수에 __절대경로__ 또는 __상대경로__ 를 인수로 넣어서 시작 폴더를 설정할 수 있습니다.

In [3]:
help(os.listdir)

Help on built-in function listdir in module nt:

listdir(path=None)
    Return a list containing the names of the files in the directory.
    
    path can be specified as either str, bytes, or a path-like object.  If path is bytes,
      the filenames returned will also be bytes; in all other circumstances
      the filenames returned will be str.
    If path is None, uses the path='.'.
    On some platforms, path may also be specified as an open file descriptor;\
      the file descriptor must refer to a directory.
      If this functionality is unavailable, using it raises NotImplementedError.
    
    The list is in arbitrary order.  It does not include the special
    entries '.' and '..' even if they are present in the directory.



In [9]:
os.listdir('.') # 상대 경로

['.gitignore', 'python-os-and-filesystem.ipynb']

In [10]:
os.listdir(os.getcwd()) # 절대 경로

['.gitignore', 'python-os-and-filesystem.ipynb']

__`os.makedirs`__ 를 이용해서 새로운 폴더를 생성할 수 있습니다.<br>
__`data`__ 라는 폴더를 만들고 몇 가지 파일들을 다운받아보겠습니다.

In [11]:
os.makedirs('./data', exist_ok=True) # 실행 후 data라는 폴더가 생긴 것을 확인할 수 있음.

`exist_ok`라는 파라미터는 해당 폴더가 만들어질 수 있는지의 여부를 확인하는 역할을 합니다.<br>
자세한 내용은 다음 웹페이지를 통해 확인할 수 있습니다. [read the documentation](https://docs.python.org/3/library/os.html#os.makedirs).<br>
만들어진 `data` 폴더가 비어있는지 확인해보겠습니다.

In [12]:
'data' in os.listdir('.')

True

In [13]:
os.listdir('./data')

[]

`data`폴더 내로 몇가지 파일들을 `urllib`라이브러리를 통해 다운로드 받아보도록 하겠습니다.

In [14]:
url1 = 'https://gist.githubusercontent.com/aakashns/257f6e6c8719c17d0e498ea287d1a386/raw/7def9ef4234ddf0bc82f855ad67dac8b971852ef/loans1.txt'
url2 = 'https://gist.githubusercontent.com/aakashns/257f6e6c8719c17d0e498ea287d1a386/raw/7def9ef4234ddf0bc82f855ad67dac8b971852ef/loans2.txt'
url3 = 'https://gist.githubusercontent.com/aakashns/257f6e6c8719c17d0e498ea287d1a386/raw/7def9ef4234ddf0bc82f855ad67dac8b971852ef/loans3.txt'

In [15]:
import urllib.request

In [16]:
urllib.request.urlretrieve(url1, './data/loans1.txt')

('./data/loans1.txt', <http.client.HTTPMessage at 0x1b349c69e40>)

In [17]:
urllib.request.urlretrieve(url2, './data/loans2.txt')

('./data/loans2.txt', <http.client.HTTPMessage at 0x1b349cd0640>)

In [18]:
urllib.request.urlretrieve(url3, './data/loans3.txt')

('./data/loans3.txt', <http.client.HTTPMessage at 0x1b349cd01c0>)

파일이 제대로 다운로드 되었는지 확인해보겠습니다.

In [19]:
os.listdir('./data')

['loans1.txt', 'loans2.txt', 'loans3.txt']

### 파일로부터 읽어오기 

파일의 내용을 읽기 위해서, 내장함수인 `open`을 사용해야합니다.<br>
`open`함수는 파일 내용을 반환하고 내용에 사용할 수 있는 함수들을 제공합니다.

In [20]:
file1 = open('./data/loans1.txt', mode='r')

`open` 함수는 `mode` 파라미터는 파일에 접근하는 방식을 명시해줍니다.<Kbr>
다음과 같은 선택지를 지원합니다:

```
    ========= ===============================================================
    Character Meaning
    --------- ---------------------------------------------------------------
    'r'       읽기 모드 (default)
    'w'       쓰기 모드, 기존 데이터 지우고 새로 쓰기
    'x'       새로운 파일을 만들고 쓰기 모드로 열기
    'a'       쓰기 모드, 기존 파일 뒤에 이어서 쓰기
    'b'       이진(binary) 모드
    't'       텍스트 모드 (default)
    '+'       읽고 쓰기 모드 
    ========= ===============================================================
```



In [21]:
file1_contents = file1.read()

In [22]:
print(file1_contents)

amount,duration,rate,down_payment
100000,36,0.08,20000
200000,12,0.1,
628400,120,0.12,100000
4637400,240,0.06,
42900,90,0.07,8900
916000,16,0.13,
45230,48,0.08,4300
991360,99,0.08,
423000,27,0.09,47200


파일은 이자와 관련한 정보를 담고 있으며, CSV 형태로 구성되어 있습니다.

파일의 가장 첫번째 줄에는, 각 열들이 어떤 값들을 의미하는지에 대한 정보가 기입되어 있습니다.<br>
각각의 남아있는 줄들은 대출과 관련한 정보를 담고 있습니다.<br>
따라서 두번째 줄 `10000,36,0.08,20000` 은 다음과 같은 내용을 담고 있습니다.

* 대출금 :  `$10000`, 
* 대출기간 : `36` 개월, 
* 이자율 `8%`  
* 계약금 : `$20000`

__CSV는 데이터 분석과 시각화에서 사용하는 공시적인 자료 저장 형태입니다.__<br>
대부분의 Python에서 다루는 파일들은 CSV 파일로 구성되어 있고 본 튜토리얼 전반에 걸쳐서도 CSV 파일을 다루도록 할 것입니다.<br>
파일 작업을 마친후 해당 파일과의 연결을 종료하기 위해서는 `close`함수를 사용합니다.<br>
<font color=red>그렇지 않으면 RAM안에 Python에서 열어둔 파일 데이터가 계속 남아있을 것입니다.</font>

In [23]:
file1.close()

파일이 한번 닫히면 해당 변수를 통해 파일에 다시 접근할 수 없습니다.

In [24]:
file1.read()

ValueError: I/O operation on closed file.

###  `with` 를 활용해 자동으로 파일 닫기

파일을 내용 처리를 마친후 자동으로 닫기 위해 `with` 문을 활용할 수도 있습니다.

In [2]:
with open('./data/loans2.txt') as file2:
    file2_contents = file2.read()
    print(file2_contents)

amount,duration,rate,down_payment
828400,120,0.11,100000
4633400,240,0.06,
42900,90,0.08,8900
983000,16,0.14,
15230,48,0.07,4300


 `with` 를 통해 파일을 열게 되면 해당 문을 탈출하면서, `.close`함수가 자동으로 호출됩니다.<br>
 따라서 위와 같은 경우, 자동으로 `.close`함수가 호출되었으므로, `file2`에 다시 접근할 수 없습니다.

In [27]:
file2.read()

ValueError: I/O operation on closed file.

### 파일을 줄단위로 읽어오기
파일 객체는 `readlines` 함수를 통해 한 줄씩 읽어 올 수 있습니다.

In [28]:
with open('./data/loans3.txt', 'r') as file3:
    file3_lines = file3.readlines()

In [29]:
file3_lines

['amount,duration,rate,down_payment\n',
 '45230,48,0.07,4300\n',
 '883000,16,0.14,\n',
 '100000,12,0.1,\n',
 '728400,120,0.12,100000\n',
 '3637400,240,0.06,\n',
 '82900,90,0.07,8900\n',
 '316000,16,0.13,\n',
 '15230,48,0.08,4300\n',
 '991360,99,0.08,\n',
 '323000,27,0.09,4720010000,36,0.08,20000\n',
 '528400,120,0.11,100000\n',
 '8633400,240,0.06,\n',
 '12900,90,0.08,8900']

### <span style='color:black; background-color:#f5f0ff;'>재사용 가능한 try/finally 동작을 원한다면 contextlib과 with문을 사용하라.</sapn>

### 파일로부터 읽은 데이터의 처리

파일에 저장된 데이터에 대한 연산을 수행하기 전에, 파일 내용을 Python 기본 자료형인 `sting`보다 큰 자료구조로 저장할 필요가 있습니다.<br>
따라서 다음과 같은 작업을 통해 파일에 접근합니다:

* 파일을 줄단위로 읽어오기
* 첫번째 줄을 읽어와서 데이터 열의 이름을 가져오기
* 남은 줄들은 float자료형으로 변환하여 나누어 저장하기
* 데이터 열 이름을 기준으로 각각의 데이터들을 딕셔너리 자료형으로 저장하기
* 딕셔너리 자료형들의 리스트를 만들어 모든 대출 데이터에 접근하기

우리가 다양한 파일들에 대해 비슷한 작업을 수행할 것이기 때문에, `read_csv` 함수를 정의 하는 것이 좋습니다.<br>
`read_csv`함수는 여러가지 함수를 순차적으로 작동시키는 함수로 만들어서 파일에 접근하기 용이하게 만들어 줍니다.<br><br>

파일의 첫 번째 줄을 읽어오는 `parse_header`함수를 먼저 정의 하는 것으로 시작해보도록 하겠습니다.

In [48]:
def parse_headers(header_line):
    return header_line.strip().split(',')

`strip` 는 `\n`와 같이 뒤의 빈 공간들을 제거해주는 역할을 수행합니다.<br>
`split` 함수는 주어진 인자를 기준으로 데이터들을 나누어 리스트 형태로 저장합니다. (위의 경우 `,`를 사용합니다).

In [49]:
file3_lines[0]

'amount,duration,rate,down_payment\n'

In [50]:
headers = parse_headers(file3_lines[0])

In [51]:
headers

['amount', 'duration', 'rate', 'down_payment']

다음은 `parse_values` 함수를 만들어서 데이터를 가지고 있는 줄들을 받아 실수 리스트로 만들어 내는 작업을 수행합니다.

In [52]:
def parse_values(data_line):
    values = []
    for item in data_line.strip().split(','):
        values.append(float(item))
    return values

In [53]:
file3_lines[1]

'45230,48,0.07,4300\n'

In [54]:
parse_values(file3_lines[1])

[45230.0, 48.0, 0.07, 4300.0]

기대했던 대로, 파일 내 데이터들이 읽어진 후 실수 형태로 저장되었습니다.<br>
계약금 Column이 없는 다른 데이터를 읽어오는 작업을 해보겠습니다.

In [55]:
file3_lines[2]

'883000,16,0.14,\n'

In [56]:
parse_values(file3_lines[2])

ValueError: could not convert string to float: ''

위 예제 코드는 `ValueError` 를 야기합니다.<br>
왜냐하면 비어있는 값 `''` 이 실수형태로 변환될 수 없기 때문입니다.<br>
이러한 문제을 __edge case__ 라고 하는데 이를 해결하고자 `parse_values` 를 수정할 필요가 있습니다.

In [57]:
def parse_values(data_line):
    values = []
    for item in data_line.strip().split(','):
        if item == '':
            values.append(0.0)
        else:
            values.append(float(item))
    return values

In [58]:
file3_lines[2]

'883000,16,0.14,\n'

In [59]:
parse_values(file3_lines[2])

[883000.0, 16.0, 0.14, 0.0]

다음으로는 열 정보를 가진 첫줄의 리스트와 데이터 정보를 가진 나머지 줄의 리스트를 입력받아 하나의 Dictionary로 만들어주는 `create_item_dict`를 만들어야 합니다.


In [60]:
def create_item_dict(values, headers):
    result = {}
    for value, header in zip(values, headers):
        result[header] = value
    return result

`zip` 은 파이썬의 내장 함수입니다. <br>
이에 대한 자세한 내용은 우측 링크를 확인하십시오. [read the documentation](https://docs.python.org/3.3/library/functions.html#zip).

In [61]:
for item in zip([1,2,3], ['a', 'b', 'c']):
    print(item)

(1, 'a')
(2, 'b')
(3, 'c')


`create_item_dict`를 몇 번 더 테스트 해보도록 하겠습니다.

In [62]:
file3_lines[1]

'45230,48,0.07,4300\n'

In [63]:
values1 = parse_values(file3_lines[1])
create_item_dict(values1, headers)

{'amount': 45230.0, 'duration': 48.0, 'rate': 0.07, 'down_payment': 4300.0}

In [64]:
file3_lines[2]

'883000,16,0.14,\n'

In [65]:
values2 = parse_values(file3_lines[2])
create_item_dict(values2, headers)

{'amount': 883000.0, 'duration': 16.0, 'rate': 0.14, 'down_payment': 0.0}

기대했던 대로, 열정보와 값정보가 쌍으로 이어진 형태로 파일의 데이터가 저장되었습니다.<br>

이제 우리는 이 데이터 추출 함수들을 모아서 `read_csv` 함수를 만들면 됩니다!

In [66]:
def read_csv(path):
    result = []
    # Open the file in read mode
    with open(path, 'r') as f:
        # Get a list of lines
        lines = f.readlines()
        # Parse the header
        headers = parse_headers(lines[0])
        # Loop over the remaining lines
        for data_line in lines[1:]:
            # Parse the values
            values = parse_values(data_line)
            # Create a dictionary using values & headers
            item_dict = create_item_dict(values, headers)
            # Add the dictionary to the result
            result.append(item_dict)
    return result

만들어진 함수를 사용해보도록 하겠습니다.

In [67]:
with open('./data/loans2.txt') as file2:
    print(file2.read())

amount,duration,rate,down_payment
828400,120,0.11,100000
4633400,240,0.06,
42900,90,0.08,8900
983000,16,0.14,
15230,48,0.07,4300


In [68]:
read_csv('./data/loans2.txt')

[{'amount': 828400.0,
  'duration': 120.0,
  'rate': 0.11,
  'down_payment': 100000.0},
 {'amount': 4633400.0, 'duration': 240.0, 'rate': 0.06, 'down_payment': 0.0},
 {'amount': 42900.0, 'duration': 90.0, 'rate': 0.08, 'down_payment': 8900.0},
 {'amount': 983000.0, 'duration': 16.0, 'rate': 0.14, 'down_payment': 0.0},
 {'amount': 15230.0, 'duration': 48.0, 'rate': 0.07, 'down_payment': 4300.0}]

의도했던대로 파일을 읽어와서 각 데이터들을 딕셔너리에 저장하는 것을 확인할 수 있습니다.<br> 
`read_csv` 는 이제 행과 열의 개수에 구애받지 않고 어떠한 CSV파일이라도 읽을 수 있는 함수가 되었습니다.

In [69]:
def parse_headers(header_line):
    return header_line.strip().split(',')

def parse_values(data_line):
    values = []
    for item in data_line.strip().split(','):
        if item == '':
            values.append(0.0)
        else:
            values.append(float(item))
    return values

def create_item_dict(values, headers):
    result = {}
    for value, header in zip(values, headers):
        result[header] = value
    return result

def read_csv(path):
    result = []
    # Open the file in read mode
    with open(path, 'r') as f:
        # Get a list of lines
        lines = f.readlines()
        # Parse the header
        headers = parse_headers(lines[0])
        # Loop over the remaining lines
        for data_line in lines[1:]:
            # Parse the values
            values = parse_values(data_line)
            # Create a dictionary using values & headers
            item_dict = create_item_dict(values, headers)
            # Add the dictionary to the result
            result.append(item_dict)
    return result

<font color=blue>작고, 일반화 가능하고, 재사용가능한 함수</font>는 언제든지 만들어 두는 것이 좋습니다.<br>
만들어진 함수들은 미래의 학우의 노력과 시간을 대폭 줄여줄 수 있을 것 입니다.<br>
아래는 이전 강의에서 만들었던 함수들입니다.

In [70]:
import math

def loan_emi(amount, duration, rate, down_payment=0):
    """Calculates the equal montly installment (EMI) for a loan.
    
    Arguments:
        amount - Total amount to be spent (loan + down payment)
        duration - Duration of the loan (in months)
        rate - Rate of interest (monthly)
        down_payment (optional) - Optional intial payment (deducted from amount)
    """
    loan_amount = amount - down_payment
    try:
        emi = loan_amount * rate * ((1+rate)**duration) / (((1+rate)**duration)-1)
    except ZeroDivisionError:
        emi = loan_amount / duration
    emi = math.ceil(emi)
    return emi

각각의 대출 정보들에 대한 emi를 구하기 위해 이 함수를 사용할 수 있습니다.


In [71]:
loans2 = read_csv('./data/loans2.txt')

In [72]:
loans2

[{'amount': 828400.0,
  'duration': 120.0,
  'rate': 0.11,
  'down_payment': 100000.0},
 {'amount': 4633400.0, 'duration': 240.0, 'rate': 0.06, 'down_payment': 0.0},
 {'amount': 42900.0, 'duration': 90.0, 'rate': 0.08, 'down_payment': 8900.0},
 {'amount': 983000.0, 'duration': 16.0, 'rate': 0.14, 'down_payment': 0.0},
 {'amount': 15230.0, 'duration': 48.0, 'rate': 0.07, 'down_payment': 4300.0}]

In [73]:
for loan in loans2:
    loan['emi'] = loan_emi(loan['amount'], 
                           loan['duration'], 
                           loan['rate']/12, # the CSV contains yearly rates
                           loan['down_payment'])

In [74]:
loans2

[{'amount': 828400.0,
  'duration': 120.0,
  'rate': 0.11,
  'down_payment': 100000.0,
  'emi': 10034},
 {'amount': 4633400.0,
  'duration': 240.0,
  'rate': 0.06,
  'down_payment': 0.0,
  'emi': 33196},
 {'amount': 42900.0,
  'duration': 90.0,
  'rate': 0.08,
  'down_payment': 8900.0,
  'emi': 504},
 {'amount': 983000.0,
  'duration': 16.0,
  'rate': 0.14,
  'down_payment': 0.0,
  'emi': 67707},
 {'amount': 15230.0,
  'duration': 48.0,
  'rate': 0.07,
  'down_payment': 4300.0,
  'emi': 262}]

이제 각각의 대출정보에는 대출에 대한 EMI정보를 가지고 있는 `emi`라는 새로운 열이 존재하게 됩니다.<br>
앞으로 위의 함수를 이용해 추가적으로 모든 대출 정보를 가진 파일에 대한 `emi`를 만들어서 추가할 수 있습니다.

In [75]:
def compute_emis(loans):
    for loan in loans:
        loan['emi'] = loan_emi(
            loan['amount'], 
            loan['duration'], 
            loan['rate']/12, # the CSV contains yearly rates
            loan['down_payment'])

### 파일에 쓰기

파일 내 데이터에 접근하고 몇가지 처리를 해보는 과정을 해보았습니다.<br>
파일에 대한 처리가 완료되었다면 이제 다시 CSV 파일로 저장해주는 것이 좋습니다.<br>
우리는 `w` 모드로 파일을 `open`하여 파일에 데이터를 쓸 수 있습니다.<br>


In [76]:
loans2 = read_csv('./data/loans2.txt')

In [77]:
compute_emis(loans2)

In [78]:
loans2

[{'amount': 828400.0,
  'duration': 120.0,
  'rate': 0.11,
  'down_payment': 100000.0,
  'emi': 10034},
 {'amount': 4633400.0,
  'duration': 240.0,
  'rate': 0.06,
  'down_payment': 0.0,
  'emi': 33196},
 {'amount': 42900.0,
  'duration': 90.0,
  'rate': 0.08,
  'down_payment': 8900.0,
  'emi': 504},
 {'amount': 983000.0,
  'duration': 16.0,
  'rate': 0.14,
  'down_payment': 0.0,
  'emi': 67707},
 {'amount': 15230.0,
  'duration': 48.0,
  'rate': 0.07,
  'down_payment': 4300.0,
  'emi': 262}]

In [79]:
with open('./data/emis2.txt', 'w') as f:
    for loan in loans2:
        f.write('{},{},{},{},{}\n'.format(
            loan['amount'], 
            loan['duration'], 
            loan['rate'], 
            loan['down_payment'], 
            loan['emi']))

파일이 잘 만들어졌는지 확인해보겠습니다.

In [81]:
os.listdir('data')

['emis2.txt', 'loans1.txt', 'loans2.txt', 'loans3.txt']

In [82]:
with open('./data/emis2.txt', 'r') as f:
    print(f.read())

828400.0,120.0,0.11,100000.0,10034
4633400.0,240.0,0.06,0.0,33196
42900.0,90.0,0.08,8900.0,504
983000.0,16.0,0.14,0.0,67707
15230.0,48.0,0.07,4300.0,262



대출정보가 포함되어있는 딕셔너리로 구성된 리스트데이터를 CSV파일로 저장하는 기능을 하는 `write_csv` 함수를 만들어보도록 하겠습니다.<br>
Column 정보도 파일에 함께 넣어보도록 하겠습니다.

In [87]:
def write_csv(items, path):
    # Open the file in write mode
    with open(path, 'w') as f:
        # Return if there's nothing to write
        if len(items) == 0:
            return
        
        # Write the headers in the first line
        headers = list(items[0].keys())
        f.write(','.join(headers) + '\n')
        
        # Write one item per line
        for item in items:
            values = []
            for header in headers:
                values.append(str(item.get(header, "")))
            f.write(','.join(values) + "\n")

함수의 동작을 이해할 수 있겠습니까?<br>
아직 잘 모르겠다면 각각의 기능 단위로 출력을 확인하면서 만들어보십시오. 

In [88]:
loans3 = read_csv('./data/loans3.txt')

In [89]:
compute_emis(loans3)

In [90]:
write_csv(loans3, './data/emis3.txt')

In [91]:
with open('./data/emis3.txt', 'r') as f:
    print(f.read())

amount,duration,rate,down_payment,emi
45230.0,48.0,0.07,4300.0,981
883000.0,16.0,0.14,0.0,60819
100000.0,12.0,0.1,0.0,8792
728400.0,120.0,0.12,100000.0,9016
3637400.0,240.0,0.06,0.0,26060
82900.0,90.0,0.07,8900.0,1060
316000.0,16.0,0.13,0.0,21618
15230.0,48.0,0.08,4300.0,267
991360.0,99.0,0.08,0.0,13712
323000.0,27.0,0.09,4720010000.0,-193751447
528400.0,120.0,0.11,100000.0,5902
8633400.0,240.0,0.06,0.0,61853
12900.0,90.0,0.08,8900.0,60



이제 우리는 단지 4줄만 코딩을 해도 <br>
- 파일을 다운로드하고 <br>
- EMIs를 계산하고
- 데이터를 다시 파일로 만들어 낼 수 있습니다.

In [92]:
for i in range(1,4):
    loans = read_csv('./data/loans{}.txt'.format(i))
    compute_emis(loans)
    write_csv(loans, './data/emis{}.txt'.format(i))

In [93]:
os.listdir('./data')

['emis1.txt',
 'emis2.txt',
 'emis3.txt',
 'loans1.txt',
 'loans2.txt',
 'loans3.txt']

## Summary and Further Reading

본 튜토리얼에서는 다음 주제를 다뤘습니다.:

- `os` 라이브러리를 이용한 파일 입출력<br>
- `urllib` 라이브러리를 이용해서 웹에서 파일 다운로드 받기<br>
- 내장함수 `open`를 사용해서 파일 읽기<br>
- `with`문을 이용해서 파일을 자동으로 닫기<br>
- 텍스트 파일에서 `readlines`를 이용해 데이터 읽고 처리하기<br>
- CSV 파일로부터 데이터를 딕셔너리와 리스트 자료형으로 가져오기<br>
- 텍스트 파일로 데이터 저장하기<br>