#### 파일 처리
 - ndarray의 정보를 파일로 저장할 수 있다
 - 일반적인 파일 확장자는 npy를 사용한다

In [1]:
import numpy as np

In [2]:
# 파일 저장(tofile)
n = np.random.randn(3,5)
print(n)
n.tofile('n.npy')

[[ 0.18834125  0.56460463  0.52335947 -0.86173284 -0.65350906]
 [-0.28595023 -0.1697172   0.9463683   0.23126131  2.18106658]
 [-1.27445401  1.61037179  1.66132169  0.29714898 -0.5243799 ]]


In [3]:
# 파일 불러오기(fromfile)
m = np.fromfile('n.npy')
print(m)

[ 0.18834125  0.56460463  0.52335947 -0.86173284 -0.65350906 -0.28595023
 -0.1697172   0.9463683   0.23126131  2.18106658 -1.27445401  1.61037179
  1.66132169  0.29714898 -0.5243799 ]


In [4]:
np.fromfile('C:/STUDY/Numpy/n.npy').reshape(3,5)   #shape(3,5)
print(m)

[ 0.18834125  0.56460463  0.52335947 -0.86173284 -0.65350906 -0.28595023
 -0.1697172   0.9463683   0.23126131  2.18106658 -1.27445401  1.61037179
  1.66132169  0.29714898 -0.5243799 ]


In [5]:
# 파일 저장, 불러오기(np.save, np.load)
np.save('n1.npy',n)
m1 = np.load('n1.npy')
print(m1)

[[ 0.18834125  0.56460463  0.52335947 -0.86173284 -0.65350906]
 [-0.28595023 -0.1697172   0.9463683   0.23126131  2.18106658]
 [-1.27445401  1.61037179  1.66132169  0.29714898 -0.5243799 ]]


In [6]:
# n.tofile > n.npy
# np.load('n.npy')
## np.load('n.npy')

# 당연 다른방식으로 저장된거라 못불러옴 
# 주석처리

###### 2022-05-26

In [7]:
# txt 파일 저장(np.savetxt)
np.savetxt('n.txt',n)

In [8]:
# txt 파일 불러오기(np.loadtxt)
np.loadtxt('n.txt')

array([[ 0.18834125,  0.56460463,  0.52335947, -0.86173284, -0.65350906],
       [-0.28595023, -0.1697172 ,  0.9463683 ,  0.23126131,  2.18106658],
       [-1.27445401,  1.61037179,  1.66132169,  0.29714898, -0.5243799 ]])

In [9]:
# csv 파일 저장, 불러오기
np.savetxt('n.csv', n, delimiter= ',')  #확장자만 csv로 바꾸면 됨

In [10]:
# csv 파일 불러오기
np.loadtxt('n.csv', delimiter=',')

array([[ 0.18834125,  0.56460463,  0.52335947, -0.86173284, -0.65350906],
       [-0.28595023, -0.1697172 ,  0.9463683 ,  0.23126131,  2.18106658],
       [-1.27445401,  1.61037179,  1.66132169,  0.29714898, -0.5243799 ]])

In [11]:
# 문제1 #  1~25범위의 5x5 int8의 2차원 행렬 생성, 구분자는 콤마로 지정, data.csv에 저장
d = np.arange(1,26,dtype=np.int8).reshape(5,5)
np.savetxt('data.csv', d, delimiter= ',')
np.loadtxt('data.csv', delimiter=',')
print(d)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]]


In [12]:
# 문제2 #  06_data1.txt파일을 읽어와서 dtype=str로 변수 arr1에 저장, 출력
arr1 = np.loadtxt('C:/STUDY/data/06_data1.txt', delimiter='\t', dtype=np.str_)
print(arr1)

[['1' '15' '14' '4']
 ['12' '6' '7' '9']
 ['8' '10' '11' '5']
 ['13' '3' '2' '16']]


In [13]:
# 문제3 #  06_data2.txt파일을 읽어와서 변수arr2에 저장, 출력
arr2 = np.loadtxt('C:/STUDY/data/06_data2.txt', delimiter=',', dtype=np.int8)
print(arr2)

[[ 1 15 14  4]
 [12  6  7  9]
 [ 8 10 11  5]
 [13  3  2 16]]


#### 01. 파일 읽어오기

In [14]:
data = np.loadtxt('C:/STUDY/data/ex1_지역별전기요금.csv', delimiter=',',
                        dtype=int)
print(data[:5, :])  # 상위 5개 데이터 출력

[[      1  565082     273   27177]
 [      2 2827233     444   45111]
 [      3 1144913     289   29043]
 [      4 1131034     230   22436]
 [      5  380425     391   38020]]


#### 02. 데이터 확인하기

In [15]:
# 데이터의 모양 확인
print(data.shape)

(17, 4)


In [16]:
# 중복 지역 확인
print(np.unique(data[:,0]))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17]


In [17]:
# 데이터의 크기순 정렬(argsort 사용)
print(data[:,1].argsort())  #sort쓰면 멋대로 행 섞어버려서 argsort써야됨

[ 9 14 10  4  6  0 16 13  5 12 11 15  7  3  2  8  1]


In [18]:
# fancy index
print(data[data[:,1].argsort()]) #오름차순

[[     10   49394     580   57091]
 [     15  258605     221   22180]
 [     11  323151     353   35470]
 [      5  380425     391   38020]
 [      7  425659     344   32331]
 [      1  565082     273   27177]
 [     17  584500     268   26899]
 [     14  634696     285   28556]
 [      6  668623     364   35245]
 [     13  726699     249   25120]
 [     12  734723     398   40049]
 [     16  742285     282   27901]
 [      8  947300     366   36274]
 [      4 1131034     230   22436]
 [      3 1144913     289   29043]
 [      9 2737725     361   36569]
 [      2 2827233     444   45111]]


In [19]:
print(data[data[:,1].argsort()[::-1]]) #내림차순

[[      2 2827233     444   45111]
 [      9 2737725     361   36569]
 [      3 1144913     289   29043]
 [      4 1131034     230   22436]
 [      8  947300     366   36274]
 [     16  742285     282   27901]
 [     12  734723     398   40049]
 [     13  726699     249   25120]
 [      6  668623     364   35245]
 [     14  634696     285   28556]
 [     17  584500     268   26899]
 [      1  565082     273   27177]
 [      7  425659     344   32331]
 [      5  380425     391   38020]
 [     11  323151     353   35470]
 [     15  258605     221   22180]
 [     10   49394     580   57091]]


#### 03. 데이터 통계

In [20]:
# 전국 대상 가구수의 합
print(np.sum(data[:,1]))

14882047


In [21]:
# 가구당 평균 전력 사용량의 전국 평균값
print(round(data[:,2].mean(),2))     # data[:,2].mean()

335.18


In [22]:
# 무식하게 평균 구하기
e_sum = np.sum(data[:,2])
e_sum

n_rows = data.shape[0]
n_rows

print('가구당 평균 전력 사용량의 전국 평균값:', round(e_sum / n_rows, 2))

가구당 평균 전력 사용량의 전국 평균값: 335.18


In [23]:
# 가구당 평균 전력 사용량이 평균 이상인 지역과 대상 가구수 추출
avg_ = data[:, 2].mean()   # 가구당 평균 전력 사용량의 전국 평균
print(data[data[:,2] > avg_, 0:2])   # 0은 생략가능

[[      2 2827233]
 [      5  380425]
 [      6  668623]
 [      7  425659]
 [      8  947300]
 [      9 2737725]
 [     10   49394]
 [     11  323151]
 [     12  734723]]


In [24]:
# 문제1 #  상위3개의 (발생년도,발생건수,구성비)의 데이터 추출
data2 = np.loadtxt('C:/STUDY/data/ex2_전년대비_시도별_교통사망사고.csv', delimiter=',',
                        dtype=float)
print(data2[:3, [0,2,3]])

[[2014.   218.     4.8]
 [2014.   872.    19. ]
 [2014.   401.     8.7]]


In [25]:
# 문제2 #  부산에서 발생한 교통사망사고 모든 현황 추출
print(data2[7,:])
  # 부산이 무슨 인덱스인지모를때
print(data[data[:,1] == 8])

[2014.     8.   163.     3.6  -47.   -22.4]
[]


In [26]:
# 문제3 # 전국 사고 발생건수의 합계와 전국 평균을 계산
print(np.sum(data2[:,2]))   # = data[:,2].sum()
print(data2[:,2].mean())
print(round(data2[:,2].mean(),2)) # 소수점 2자리까지

4583.0
269.5882352941176
269.59


In [27]:
# 문제4 # 교통사고 증감수가 가장 큰 지역의 모든 현황 추출
np.max(data2[:,4])

## 답
max(data2[:, 4])
data2[data2[:, 4] == max(data2[:,4])]
## 인덱싱
np.argmax(data2[:,4])
data2[np.argmax(data2[:,4])]

array([2014. ,    6. ,  182. ,    4. ,   19. ,   11.7])

In [28]:
# 문제5 # 교통사고 증감률이 가장 작은 지역의 모든현황 추출

## 답
min(data2[:, 5])
data2[data2[:, 5] == min(data2[:,5])]
## 인덱싱
np.argmin(data2[:,5])
data2[np.argmin(data2[:,4])]

array([2014. ,    8. ,  163. ,    3.6,  -47. ,  -22.4])

In [29]:
# 문제6 # 사고 발생 건수가 400건 이상인 곳의 지역과 교통사고 발생건수, 증감수, 증감률을 추출
p = data2[data2[:,2] >= 400]
print(p[:, [1,2,4,5]])

##
# print(data[data[:,2] >= 400][:,[1,2,4,5]])

[[  2.  872.  -45.   -4.9]
 [  3.  401.  -45.  -10.1]
 [  4.  464.  -41.   -8.1]
 [ 13.  400.  -35.   -8. ]]
