# Numpy 파일 입출력

### 파일처리
- ndarray의 정보를 파일로 저장할 수 있다.
- 일반적인 파일 확장자는 npy를 사용한다.


In [3]:
import numpy as np

In [4]:
# 파일 저장(tofile)
n = np.random.randn(3,5)
print(n)
n.tofile('n.npy')

[[ 0.46025602 -0.55512066 -0.48535922  0.37233855 -0.17106928]
 [-0.43021132 -0.41582948  0.05677136  0.52698666  0.38106835]
 [ 0.5018153  -0.03486895 -0.84217917 -0.48572214  1.56028294]]


In [5]:
# 파일 불러오기(fromfile)
m = np.fromfile('n.npy')
print(m)

[ 0.46025602 -0.55512066 -0.48535922  0.37233855 -0.17106928 -0.43021132
 -0.41582948  0.05677136  0.52698666  0.38106835  0.5018153  -0.03486895
 -0.84217917 -0.48572214  1.56028294]


In [7]:
m = np.fromfile('C:/STUDY/SutdyPython_Numpy/n.npy') # shape(3,5)
print(m)

[ 0.46025602 -0.55512066 -0.48535922  0.37233855 -0.17106928 -0.43021132
 -0.41582948  0.05677136  0.52698666  0.38106835  0.5018153  -0.03486895
 -0.84217917 -0.48572214  1.56028294]


In [None]:
# 파일 저장, 불러오기(np.save, np.load) # 행렬에 대한 정보도 가지고 있음
np.save('n1.npy',n)
m1 = np.load('n1.npy')
print(m1)

[[ 0.67355834 -0.94162996 -0.12369967  0.24027748 -0.07535178]
 [ 0.12362399 -0.3317201   0.05009873 -1.05700837 -1.15292173]
 [ 0.36546796  0.60684358 -0.16101157 -0.0778018   0.28499247]]


In [None]:
# n.tofile -> n.npy
# np.load('n.npy')
np.load('n.npy') # Error 파일 저장형식이 다르기 때문!

ValueError: Cannot load file containing pickled data when allow_pickle=False

### 파일 처리
- txt 파일 저장, 불러오기

In [None]:
# txt 파일 저장(np.savetxt)
np.savetxt('n.txt',n)

In [None]:
# txt 파일 불러오기(np.loadtxt)
np.loadtxt('n.txt')

# np.loadtxt('./data/n.txt')

array([[ 0.67355834, -0.94162996, -0.12369967,  0.24027748, -0.07535178],
       [ 0.12362399, -0.3317201 ,  0.05009873, -1.05700837, -1.15292173],
       [ 0.36546796,  0.60684358, -0.16101157, -0.0778018 ,  0.28499247]])

In [None]:
# csv 파일 저장, 불러오기

np.savetxt('n.csv',n) # 확장자만 csv로 바꾸면 됨

In [None]:
np.savetxt('n.csv',n, delimiter = ',')

In [None]:
np.loadtxt('n.csv', delimiter= ',', dtype=str)

array([['6.735583417926885863e-01', '-9.416299558623338894e-01',
        '-1.236996661219502552e-01', '2.402774812598412191e-01',
        '-7.535177641145704430e-02'],
       ['1.236239862318083277e-01', '-3.317201042935186694e-01',
        '5.009872996211604812e-02', '-1.057008369890093169e+00',
        '-1.152921727883687186e+00'],
       ['3.654679637584956065e-01', '6.068435844325968942e-01',
        '-1.610115673040299067e-01', '-7.780180369190797807e-02',
        '2.849924740007636070e-01']], dtype='<U25')

In [None]:
np.savetxt('n.csv',n, delimiter = '***')

In [None]:
np.loadtxt('n.csv', delimiter='***')

array([[ 0.67355834, -0.94162996, -0.12369967,  0.24027748, -0.07535178],
       [ 0.12362399, -0.3317201 ,  0.05009873, -1.05700837, -1.15292173],
       [ 0.36546796,  0.60684358, -0.16101157, -0.0778018 ,  0.28499247]])

In [None]:
# 문제1
t1 = np.array(range(1,26)).reshape(5,5)
print(t1)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]]


In [None]:
np.savetxt('data.csv', t1, delimiter=',')

In [None]:
np.loadtxt('data.csv', delimiter=',')

array([[ 1.,  2.,  3.,  4.,  5.],
       [ 6.,  7.,  8.,  9., 10.],
       [11., 12., 13., 14., 15.],
       [16., 17., 18., 19., 20.],
       [21., 22., 23., 24., 25.]])

In [13]:
# 문제2
arr1 = np.loadtxt('./data/06_data1.txt', dtype=str)
print(arr1)

[['1' '15' '14' '4']
 ['12' '6' '7' '9']
 ['8' '10' '11' '5']
 ['13' '3' '2' '16']]


In [17]:
# 문제3
arr2 = np.loadtxt('./data/06_data2.txt', delimiter=',')
print(arr2)

[[ 1. 15. 14.  4.]
 [12.  6.  7.  9.]
 [ 8. 10. 11.  5.]
 [13.  3.  2. 16.]]


In [None]:
# 해설 정답
# 문제1
arr = np.arange(1,26, dtype=np.int8).reshape(5,5)
arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]], dtype=int8)

In [None]:
np.savetxt('data.csv', arr, delimiter=',')

In [None]:
np.loadtxt('data.csv', delimiter=',', dtype=np.int8)

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]], dtype=int8)

In [11]:
np.loadtxt('./data/06_data1.txt', dtype=np.str_)

array([['1', '15', '14', '4'],
       ['12', '6', '7', '9'],
       ['8', '10', '11', '5'],
       ['13', '3', '2', '16']], dtype='<U2')

In [10]:
np.loadtxt('./data/06_data1.txt', delimiter='\t', dtype=np.str_)

array([['1', '15', '14', '4'],
       ['12', '6', '7', '9'],
       ['8', '10', '11', '5'],
       ['13', '3', '2', '16']], dtype='<U2')

In [20]:
arr2 = np.loadtxt('./data/06_data2.txt', delimiter=',', dtype=np.int8)

In [21]:
print(arr2)

[[ 1 15 14  4]
 [12  6  7  9]
 [ 8 10 11  5]
 [13  3  2 16]]


### 파일처리
- 예제1) ex1, ex2 파일을 사용하여 데이터 처리

In [42]:
# 01. 파일 읽어오기

data = np.loadtxt('./data/ex1_지역별전기요금.csv', delimiter=',', dtype=int)
print(data)

# 상위 5개 데이터 출력(data[row,col])

print(data[:5,:]) 

[[      1  565082     273   27177]
 [      2 2827233     444   45111]
 [      3 1144913     289   29043]
 [      4 1131034     230   22436]
 [      5  380425     391   38020]
 [      6  668623     364   35245]
 [      7  425659     344   32331]
 [      8  947300     366   36274]
 [      9 2737725     361   36569]
 [     10   49394     580   57091]
 [     11  323151     353   35470]
 [     12  734723     398   40049]
 [     13  726699     249   25120]
 [     14  634696     285   28556]
 [     15  258605     221   22180]
 [     16  742285     282   27901]
 [     17  584500     268   26899]]


In [45]:
# 02. 데이터 확인하기

# 데이터 모양 확인
print(data.shape)

# 중복 지역 확인
print(np.unique(data[:,0]))

(17, 4)
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17]


In [50]:
# 데이터의 크기순 정렬(argsort 사용)
print(data[:,1].argsort())

# fancy index
print(data[data[:,1].argsort()])

[ 9 14 10  4  6  0 16 13  5 12 11 15  7  3  2  8  1]
[ 565082 2827233 1144913 1131034  380425  668623  425659  947300 2737725
   49394  323151  734723  726699  634696  258605  742285  584500]
[[     10   49394     580   57091]
 [     15  258605     221   22180]
 [     11  323151     353   35470]
 [      5  380425     391   38020]
 [      7  425659     344   32331]
 [      1  565082     273   27177]
 [     17  584500     268   26899]
 [     14  634696     285   28556]
 [      6  668623     364   35245]
 [     13  726699     249   25120]
 [     12  734723     398   40049]
 [     16  742285     282   27901]
 [      8  947300     366   36274]
 [      4 1131034     230   22436]
 [      3 1144913     289   29043]
 [      9 2737725     361   36569]
 [      2 2827233     444   45111]]


In [64]:
print(np.sort(data)) # sort / argsort 한가지 행, 열에는 사용 / 2차원 배열에서는 사용 X

[[      1     273   27177  565082]
 [      2     444   45111 2827233]
 [      3     289   29043 1144913]
 [      4     230   22436 1131034]
 [      5     391   38020  380425]
 [      6     364   35245  668623]
 [      7     344   32331  425659]
 [      8     366   36274  947300]
 [      9     361   36569 2737725]
 [     10     580   49394   57091]
 [     11     353   35470  323151]
 [     12     398   40049  734723]
 [     13     249   25120  726699]
 [     14     285   28556  634696]
 [     15     221   22180  258605]
 [     16     282   27901  742285]
 [     17     268   26899  584500]]


In [68]:
# 내림차순
print(data[:,1].argsort()[::-1])

print(data[data[:,1].argsort()[::-1]])

[ 1  8  2  3  7 15 11 12  5 13 16  0  6  4 10 14  9]
[[      2 2827233     444   45111]
 [      9 2737725     361   36569]
 [      3 1144913     289   29043]
 [      4 1131034     230   22436]
 [      8  947300     366   36274]
 [     16  742285     282   27901]
 [     12  734723     398   40049]
 [     13  726699     249   25120]
 [      6  668623     364   35245]
 [     14  634696     285   28556]
 [     17  584500     268   26899]
 [      1  565082     273   27177]
 [      7  425659     344   32331]
 [      5  380425     391   38020]
 [     11  323151     353   35470]
 [     15  258605     221   22180]
 [     10   49394     580   57091]]
