# **파일 읽기/쓰기**
open

파이썬에서 파일을 읽고 쓰는데는 open이라는 내장 함수를 사용한다. open은 파일 경로와 파일 열기 모드를 인자로 입력받아 파일 객체를 반환한다.

파일 객체 = open(파일 경로, 파일 열기 모드)

파일 생성하기

쓰기 모드로 존재하지 않는 파일을 열면 새 파일을 생성한다

In [1]:
f=open("newfile.txt","w")

In [2]:
f.close()

위 에시에서 f.close()는 열려 있는 파일 객체를 닫아 주는 역할을 한다. 프로그램이 종료될 때 파이썬 프로그램은 열려있는 파일들을 자동으로 닫는다. 하지만 컴퓨터에는 열 수 있는 파일 개수에 제한이 있기 때문에 직접 파일을 닫는 좋은 습관을 들이자

파일이 생성되었는지 확인하기 위해 현재 이 노트북이 존재하는 폴더에서 파일 목록을 확인해보자.

이때 ls라는 유닉스 명령어를 사용한다. 이는 파이썬의 기능이 아니라 시스템 명령어이다. colab 노트북에서는 !를 앞에 붙여서 시스템 명령어를 사용할 수 있다.

In [3]:
!ls

newfile.txt  sample_data


## **파일에 내용적기**
파일에 내용을 쓸 때는 .write 메서드를 이용한다. 이때 줄바꿈까지 직접 적어주어야 한다는 점을 잊지말자.

In [5]:
f=open("newfile.txt","w")
for i in range(10):
  data=f"{i}번째 줄입니다.\n"
  f.write(data)

f.close()

In [6]:
!cat newfile.txt

0번째 줄입니다.
1번째 줄입니다.
2번째 줄입니다.
3번째 줄입니다.
4번째 줄입니다.
5번째 줄입니다.
6번째 줄입니다.
7번째 줄입니다.
8번째 줄입니다.
9번째 줄입니다.


## **파일 읽기**
파일을 읽는 데는 여러 메서드들이 있다.

.read(): 파일 내용 전체를 한번에 읽는다.

.readline(): 파일을 한 줄 읽는다. 한번 더 실행하면 다음 줄을 읽는다.

.readlines(): 파일 내용 전체를 읽어서 각각의 줄을 요소로 갖는 리스트로 돌려준다

In [7]:
f=open("newfile.txt","r")
print(f.readline())


0번째 줄입니다.



In [8]:
f.close()

In [9]:
f=open("newfile.txt")
for line in f:
  print(line)
f.close()

0번째 줄입니다.

1번째 줄입니다.

2번째 줄입니다.

3번째 줄입니다.

4번째 줄입니다.

5번째 줄입니다.

6번째 줄입니다.

7번째 줄입니다.

8번째 줄입니다.

9번째 줄입니다.



## **with문**
파이썬에는 with이라는 독특한 예약어(keyword)가 있다ㅑ. 컨텍스트 메니저(context manager)라고도 불리는 with은 파일과 같은 리소스(resource)를 관리하는데 유용하다. 한마디로 쉽게 말해서, with은 파일을 닫는 것을 깜빡하는 것을 방지해준다

In [10]:
f=open("newfile.txt")
for line in f:
  print(line)
f.close

0번째 줄입니다.

1번째 줄입니다.

2번째 줄입니다.

3번째 줄입니다.

4번째 줄입니다.

5번째 줄입니다.

6번째 줄입니다.

7번째 줄입니다.

8번째 줄입니다.

9번째 줄입니다.



<function TextIOWrapper.close>

In [11]:
with open("newfile.txt") as f:
  for line in f:
    print(line)

0번째 줄입니다.

1번째 줄입니다.

2번째 줄입니다.

3번째 줄입니다.

4번째 줄입니다.

5번째 줄입니다.

6번째 줄입니다.

7번째 줄입니다.

8번째 줄입니다.

9번째 줄입니다.



파이썬은 with블록을 빠져 나갈 때 자동으로 파일을 닫는다

# **예외 처리**
예외는 어떨 때 생길까

다음은 예외가 생기는 다양한 예시이다.

In [12]:
#없는 파일을 열려고 했을 경우

open("non-exist-file.txt")

FileNotFoundError: ignored

In [13]:
# 숫자를 0으로 나누려고 할 경우

a=10
b=a/10

In [14]:
# 존재하지 않는 인덱스로 인덱싱을 하려고 하는 경우

a=[1,2,3]
print(a[3])

dictionary={'a':1,'b':2}
dictionary['c']

IndexError: ignored

예외가 발생했을 때 대신 다른 코드를 실행하는 방법을 알아보자

In [None]:
#try:
#  ...
#except [오류 종류]:
#  ...

파이썬은 try블록의 코드를 먼저 실행하고, 만약 예외가 발생할 경우 except블록의 코드를 실행한다. 예외가 발생하지 않으면 except 블록을 실행하지 않는다.

except뒤의 오류 종류를 명시하면 해당 오류가 발생할 때만 except문을 실행한다. 생략하는 경우 모든 종류의 오류를 잡는다.

In [15]:
try:
  10/0
except ZeroDivisionError:
  print("0으로 나눌 수 없습니다.")

0으로 나눌 수 없습니다.


발생한 오류에 대해 더 많은 정보를 알고 싶다면 오류에 대한 정보가 담긴 객체를 변수에 담아서 접근할 수 있다.

In [16]:
try:
  10/0
except ZeroDivisionError as e:
  print(e)

division by zero


## **finally**
리소스(파일 등)를 사용하고 있는 도중에 에러가 나서 실행이 멈추게 되면 리소스 점유를 해제(close)하지 못할 수도 있다. 이를 방지하기 위해 파이썬에는 finally라는 구문이 있다. finally는 try문이 성공하든 실패하든 항상 실행된다. 보통 리소스를 해제(close)해야 할 때 사용한다

try안에서 여러개의 오류가 발생할 수 있는 경우 각기 다르게 처리할 수 있다.

In [None]:
#try:
# ...
#except 오류 종류1:
# ...
#except 오류 종류2:
#  ...

## **try... else...**
오류가 발생하지 않을 경우에만 특정 코드를 실행하는 방법도 있다. if문에서 보았던 else문을 try에도 쓸 수 있다.

In [17]:
a=[1,2,3]
try:
  print(a[3])
except:
  print("에러가 발생했습니다.")
else:
  print("정상적으로 작동했습니다.")

에러가 발생했습니다.


## **오류 일부러 만들기**
때때로 프로그래밍을 할 때 오류를 일부러 발생시키는 경우가 있다. 잘못된 실행을 미리 막아야 하거나, 테스트를 할 때 에러를 발생시키는 경우가 있다.
파이썬에서는 raise 명령어를 사용해 오류를 일부러 발생시킬 수 있다.

In [18]:
def size_of_triange(base,height):
  if base<0:
    raise ValueError("base cannot be less than 0")
  if height<0:
    raise ValueError("height cannot be less than 0")

  return base*height/2

In [19]:
size_of_triange(4,-3)

ValueError: ignored

## **데이터 처리에서 예외 처리**
데이터 처리에서는 결측값(missing data) 등 때문에 예외가 자주 발생한다. 이때 예외처리를 사용할 수 있다.

In [20]:
mylist=[1,2,3,None,5,6]
total=0
for i in mylist:
  try:
    total+=i
  except:
    pass
total

17

# **라이브러리**
표준 라이브러리

데이터 분석을 할 때 자주 사용하는 표준 라이브러리를 나열해 보면 다음과 같다.


*   math
*   random

*   collections

*   pickle
*   sys


*   os




## **math**


*   math.ceil(): 주어진 숫자보다 같거나 크면서 가장 작은 정수를 반환한다.
*   math.floor(): 주어진 숫자보다 같거나 작으면서 가장 큰 정수를 반환한다.

*   math.nan: nan은 "Not a Number"의 약자로 숫자가 아닌 대상을 숫자 데이터 형식으로 변환할 때 생긴다. 데이터를 다룰 때 흔히 볼 수 있다.

이외에 로그, 삼각 함수 등 수학과 관련된 다양한 기능을 갖고 있다.

**라이브러리 불러오기**


*   import...: 라이브러리 불러오기

*   from...import...: 라이브러리 내에서 특정 모듈, 함수, 변수만 불러오기
*   import...as...: 라이브러리를 불러오되 다른 이름으로 부르기


*   from...import*: 라이브러리 내에 모든 모듈, 함수, 변수를 불러오기


마지막 방식은 어떤 대상을 불러오는지 모호하기 때문에 권장되지 않는다.




In [21]:
import math

In [22]:
print(math.ceil(3.5))
print(math.ceil(3.0))

4
3


## **random**


*   random.random(): 0부터 1사이의 숫자를 랜덤으로 반환한다

*   random.randint():주어진 범위에서 정수를 하나 뽑는다
*   random.choice(): 리스트 등을 입력으로 받아서 하나를 뽑는다


In [23]:
import random

In [24]:
random.random()

0.7333674593551043

In [27]:
random.randint(5,10)

8

In [29]:
random.choice(['하나','둘','셋'])

'하나'

## **collections**
여러가지 유용한 컬렉션 데이터 타입을 지원한다.

*   collection.Counter(): 카운터 클래스. 딕셔너리처럼 동작한다.
*   collections.defaultdict: 기본값이 있는 딕셔너리



In [30]:
from collections import Counter

counter=Counter()

counter['a']+=1
counter['b']+=1
counter['a']+=1

In [31]:
counter

Counter({'a': 2, 'b': 1})

In [32]:
counter.most_common()

[('a', 2), ('b', 1)]

In [33]:
from collections import defaultdict

In [34]:
list()

[]

In [35]:
d=defaultdict(list)

In [36]:
d['non-exist-key'].append(3)

In [37]:
d

defaultdict(list, {'non-exist-key': [3]})

## **pickle**
파이썬 객체를 파일로 저장하는 간단한 방식이다. 파일은 바이너리 형식으로 저장된다.

In [39]:
import pickle
a=[1,2,3]
f=open('list.pickle','wb')

In [40]:
pickle.dump(a,f)
f.close()

In [41]:
!cat list.pickle

�]q (KKKe.

In [42]:
f=open('list.pickle','rb')
b=pickle.load(f)
b

[1, 2, 3]

## **sys,os**
컴퓨터 시스템에 접근할 수 있는 기능을 제공하는 라이브러리


*   sys.path: 명령어를 찾는 경로의 목록과 순서를 지정하는 변수
*   os.environ:시스템의 환경변수를 담고 있는 변수

*   os.getcwd(): 현재 파일의 경로를 반환
*   os.listdir():현재 경로의 파일 목록을 보여줌




In [43]:
import sys, os

In [44]:
os.listdir()

['.config', 'list.pickle', 'newfile.txt', 'sample_data']

# **외부 라이브러리(External library)**
외부 라이브러리는 써드파티 라이브러리(Third-party library)라고도 불린다. 써드파티 라이브러리의 종류는 너무 많아서 나열하는 것이 불가능할 정도.

써드파티 라이브러리를 설치할 때는 pip을 사용한다. pip은 파이썬 명령어가 아니라 독립적인 프로그램이기 때문에 !를 붙여서 실행해야 한다.

In [45]:
!pip install numpy



## **numpy**
numpy는 행렬과 수치 해석 관련 데이터 타입과 함수들을 제공한다. 데이터 분석에서 행렬 및 수치 해석 기능은 필수적이다. numpy는 데이터 분석을 하며 직접 사용하기도 하지만 다른 많은 외부 라이브러리들이 의존하는 라이브러리이기도 하다. 즉, 다른 라이브러리들의 기본이 되는 라이브러리인 셈이다. pandas, scikit-learn, pytorch 등 데이터 분석에서 필수적인 라이브러리들이 모두 numpy에 기반하고 있다. 따라서 numpy를 직접 사용하지 않더라도 numpy의 개녑에 대해 이해하는 것은 필수적.

*   numpy.array():다차원 행렬(ndarray)을 만든다.
*   numpy.arrange(): range와 비슷한 방식으로 숫자를 나열하여 다차원 행렬(ndarray)을 만든다.

다차원 행렬(ndarray)은 numpy의 핵심 데이터 구조(data structure)이며 많은 라이브러리들이 numpy의 다차원 행렬을 사용한다.


*   ndarray.shape:다차원 행렬의 차원수를 보여준다.
*   ndarrary.dtype: 다차원 행렬이 들고 있는 값의 데이터 타입을 보여준다.

numpy는 주로 np라는 약자로 불러와서 사용한다.





In [46]:
import numpy as np

In [47]:
a=np.array([0,1,2,3,4,5])

In [48]:
a

array([0, 1, 2, 3, 4, 5])

In [50]:
a.shape

(6,)

In [51]:
a.dtype

dtype('int64')

In [53]:
b=np.arange(6)
b

array([0, 1, 2, 3, 4, 5])

In [54]:
b.reshape(2,3) #가로가 행, 세로가 열

array([[0, 1, 2],
       [3, 4, 5]])