# Chapter 3 -02. open을 사용한 파일 입출력

txt, csv, tsv 파일을 불러오는 방법을 알아보자.  

---

## open 함수 이용하기
파이썬의 내장 함수인 open 함수를 사용하면 파일을 손쉽게 불러올 수 있다.  
`파일객체 = open(파일 경로 및 이름, 모드)`  

정제되지 않은 형태의 데이터를 불러오는 경우에 주로 사용한다.  

모드에는 크게 r(default), w, a가 있다.  
> r: 읽기 (기존 파일을 읽어옴)  
w : 쓰기 (새로운 파일을 생성하여 씀. 같은 파일이 있으면 새로운 내용으로 덮어씀.)  
a : 추가하기 (기존 파일에 새로운 내용을 씀)  

파일 객체는 사용 후에 close 함수를 사용하여 닫아줘야 함 (참고: with 구문)  




## read 와 readline을 이용하여 데이터 불러오기

`f.read()` : 특정 파일에 있는 모든 내용을 불러온다.  
(f는 읽어오는 것이기 때문에 반드시 'r', 'rb'(b = binary, binary 타입의 파일을 불러올 때.) 둘 중 하나로 불러와야 함)  

`f.readline()` : 파일 f에 있는 한 줄(엔터 즉 \n 기준 및 포함)을 불러온다.  
(f는 반드시 'r', 'rb'로 불러와야 한다.)  

read(), readline()의 결과물은 string type이기 때문에 문자열 관련 함수를 숙지해야 한다.  
> str.split(sep) : str 을 sep 기준으로 분할하여 리스트로 변환한다.  
(`'a-b-c'.split('-')` = ['a', 'b', 'c']). 
map(함수, L) : literable 한 객체 L체 함수를 일괄 적용한다.  




## open

### os.chdir 로 경로 설정하기

In [1]:
import os
os.chdir(r"/Users/Angela/Desktop/과속대학쿠쿠루/1. 데이터 핸들링/데이터")

### read()를 이용한 데이터 불러오기

불러온 뒤에는 쓸모가 없으므로 반드시 닫아준다.  

`
f = open("data_reading.csv", "r")
data = f.read() 
f.close()
data[:1000]
`

In [2]:
# data 불러오기
f = open('data_reading.csv', 'r')

In [4]:
# data 읽기
data = f.read()

In [5]:
# data 불러온것 닫기
f.close()

In [6]:
# data 출력 - 1000개글자
data[:1000]

'Col1,Col2,Col3,Col4,Col5\n0.18888809146420238,0.16105292892696288,0.1504127702525998,0.8247702147554103,0.11183287230275862\n0.8277194258724868,0.16136254345104883,0.400331159000502,0.3981961133865768,0.7706960076672201\n0.844660181886513,0.10099782620549302,0.995176205519609,0.6155252896856449,0.8783894199796791\n0.9138952685419564,0.036168779255092876,0.2378403402407797,0.18762834416630736,0.5343081969025114\n0.32244342400394976,0.9550099806308116,0.3407646382285975,0.6493109172840262,0.35453974816238576\n0.3306251110157733,0.6720388851049659,0.10938064887311616,0.07568233209352304,0.9169313724492655\n0.24768623373487852,0.6864049104199853,0.7279423564551321,0.07051655013435276,0.5932367728578449\n0.5457259900662517,0.8259997208239563,0.222939569582428,0.5272524587280554,0.9494463062496303\n0.45737316471560596,0.6199415331357327,0.9979776426734485,0.3682306861093537,0.41162690950241676\n0.8637387893511083,0.685755037957085,0.7069687998728162,0.7456995967962297,0.2888004054518888\n0.

## list comprehension을 이용한 데이터 정제

이용 가능한 sheet형태로 바꾸기 위해서 리스트 컴프리헨션을 사용한다.  

숫자로 바꿀 수 있는 것은 바꾸기 위한 함수 (첫 줄에는 문자이므로)
```
def make_float(x):
    try:
        return float(x)
    except:
        return x

data = [[make_float(value) for value in line.split(',')] for line in data.split('\n')]
data
```

##### 위와 같은 함수는 for 문으로 이렇게 작성이 가능하다

```
new_data = []
for line in data.split('\n'):
    new_line = []
    for value in line.split('.'):
        new_line.append(make_float(value))
    new_data.append(new_line)
```

In [10]:
# 실수로 바꿀 수 있는 것은 바꿀 수 있도록 함수 정의
def make_float(x):
    try:
        return float(x)
    except:
        return x

In [11]:
# 불러온 데이터를 줄바꿈 하고, 잘라서, float으로 바꾸는 과정
data = [[make_float(value) for value in line.split(',')] for line in data.split('\n')]

In [13]:
data[:10]

[['Col1', 'Col2', 'Col3', 'Col4', 'Col5'],
 [0.18888809146420238,
  0.16105292892696288,
  0.1504127702525998,
  0.8247702147554103,
  0.11183287230275862],
 [0.8277194258724868,
  0.16136254345104883,
  0.400331159000502,
  0.3981961133865768,
  0.7706960076672201],
 [0.844660181886513,
  0.10099782620549302,
  0.995176205519609,
  0.6155252896856449,
  0.8783894199796791],
 [0.9138952685419564,
  0.036168779255092876,
  0.2378403402407797,
  0.18762834416630736,
  0.5343081969025114],
 [0.32244342400394976,
  0.9550099806308116,
  0.3407646382285975,
  0.6493109172840262,
  0.35453974816238576],
 [0.3306251110157733,
  0.6720388851049659,
  0.10938064887311616,
  0.07568233209352304,
  0.9169313724492655],
 [0.24768623373487852,
  0.6864049104199853,
  0.7279423564551321,
  0.07051655013435276,
  0.5932367728578449],
 [0.5457259900662517,
  0.8259997208239563,
  0.222939569582428,
  0.5272524587280554,
  0.9494463062496303],
 [0.45737316471560596,
  0.6199415331357327,
  0.9979776426

In [None]:
# 같은 동작의 함수

# new_data = []
# for line in data.split('\n'):
#     lines = []
#     for value in line.split(','):
#         new_line.append(make_float(value))
#     new_data.append(lines)

## readline을 이용한 데이터 불러오기

참고!!!  
`realine()` 을 한 번 썼을 때, 그 다음 `readline()`을 쓰면 다음 줄을 읽어오게 된다.  
엔터 기준으로 자르는 것은 맞지만, 엔터를 포함시켜 가져오는 것을 잊으면 안된다.  

file이 어떻게 구성되어있는지 알고 있을 때 쓰면 편리한 것으로 보인다.(첫 줄이 구분이 되어있고, 다음 데이터에서는 줄바꿈으로 구분되어있지 않다는 것을 알고있어야 하는 부분)  

실습 코드  
```
f = open("data_reading.csv", "r")
header = f.readline() # 첫 번째 row를 읽어옴
data = []

line = f.readline() # 두 번째 row를 읽음
while line: # line이 빈 문자열이 될 때까지
    data.append(list(map(float, line.split(',')))) 
                        # float 함수 때문에 엔터가 삭제됨
    line = f.readline()
f.close()
```

In [15]:
f = open('data_reading.csv', 'r')
header = f.readline()        # 첫 줄을 따로 읽어옴

In [16]:
header

'Col1,Col2,Col3,Col4,Col5\n'

In [17]:
data = []
line = f.readline()          # 두 번째 줄을 읽어옴, 여기서는 
while line:
    data.append(list(map(float, line.split(','))))
    line = f.readline()      # 루프 종료 즉 불러온 것이 line이 아닐때, 모두 불렀을 때
f.close()

In [20]:
data[:10]

[[0.18888809146420238,
  0.16105292892696288,
  0.1504127702525998,
  0.8247702147554103,
  0.11183287230275862],
 [0.8277194258724868,
  0.16136254345104883,
  0.400331159000502,
  0.3981961133865768,
  0.7706960076672201],
 [0.844660181886513,
  0.10099782620549302,
  0.995176205519609,
  0.6155252896856449,
  0.8783894199796791],
 [0.9138952685419564,
  0.036168779255092876,
  0.2378403402407797,
  0.18762834416630736,
  0.5343081969025114],
 [0.32244342400394976,
  0.9550099806308116,
  0.3407646382285975,
  0.6493109172840262,
  0.35453974816238576],
 [0.3306251110157733,
  0.6720388851049659,
  0.10938064887311616,
  0.07568233209352304,
  0.9169313724492655],
 [0.24768623373487852,
  0.6864049104199853,
  0.7279423564551321,
  0.07051655013435276,
  0.5932367728578449],
 [0.5457259900662517,
  0.8259997208239563,
  0.222939569582428,
  0.5272524587280554,
  0.9494463062496303],
 [0.45737316471560596,
  0.6199415331357327,
  0.9979776426734485,
  0.3682306861093537,
  0.411626909


## write를 이용한 데이터 쓰기

f.write(str) : string을 파일 f에 쓴다. 숫자나 리스트와 같은 자료형은 writing 을 할 수 없다.  
(f는 반드시 'w', 'a'로 불러와야 함)  

리스트 등을 string으로 변환하는 join 함수를 활용하면 효율적으로 파일을 쓸 수 있다.  
> `sep.join(list)`:  list의 문자열 요소들을 구분자 sep으로 연결  
 예시: `'-'.join(['a', 'b', 'c']) ` = 'a-b-c' 


들여쓰기가 유지되는 부분 까지만 f를 불러놓는 상황을 만드는 것을 with open!  

잠시 불러와서 필요한 작업을 하고 닫는 작업을 할 때 자주 쓴다.  

즉 with open 한 줄이 open과 close를 다 한 것과 같다. 
```
#f = open("written_data.csv", "w")

with open("written_data.csv", "w") as f:
    f.write(header)
    for line in data:
        f.write(','.join(list(map(str, line))))
        f.write('\n')

#f.close()
```

In [21]:
data[2]

[0.844660181886513,
 0.10099782620549302,
 0.995176205519609,
 0.6155252896856449,
 0.8783894199796791]

In [23]:
list(map(str, data[2]))

['0.844660181886513',
 '0.10099782620549302',
 '0.995176205519609',
 '0.6155252896856449',
 '0.8783894199796791']

In [24]:
example = ','.join(list(map(str, data[2])))
example

'0.844660181886513,0.10099782620549302,0.995176205519609,0.6155252896856449,0.8783894199796791'

In [25]:
with open('written_data.csv', 'w') as f:
    f.write(header)    # 보통 header를 쓰고 줄바꿈 기호를 넣는다. 
                       # 우리는 이미 있는 상황이라 따로 쓰지 않는다.
    for line in data:  # data 가 각각 다 리스트이므로,
        f.write(','.join(list(map(str, line)))) 
                       # 모두 실수로 바꿨었기에 다시 str으로 바꾼 후 이어붙임
        f.write('\n')