# numpy

## 인덱싱 - 데이터의 일부분을 선택

In [10]:
import numpy as np

ar = np.array([100, 200, 300, 400, 500])

#1차원 배열을 생성한 후 4행 5열의 2차원 배열로 변환
matrix = np.array(range(1,21)).reshape(4,5)
print(matrix)

#1차원 배열에서 하나의 요소를 추출
print(ar[1])

#2차원 배열에서 하나의 요소를 추출
print(matrix[1, 2])
print(matrix[1][2])

#2차원 배열에서 하나의 인덱스를 대입해서 추출 - 1행 전체
print(matrix[1])

#특정 위치 부터 끝까지
print(ar[3:])
#특정 시작 위치 부터 특정 위치 까지
print(ar[:3]) #3번은 포함되지 않습니다.

#일반적인 인덱싱은 데이터에 대한 뷰 입니다.
ar[0] = 3000
print(ar)

xr = ar[0:3]
xr[0] = 2000
print(ar)

#복제를 하고자 하면 인덱싱 한 후 copy()를 호출해야 합니다.
xr = ar[0:3].copy()
xr[0] = 1000
print(ar)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
200
8
8
[ 6  7  8  9 10]
[400 500]
[100 200 300]
[3000  200  300  400  500]
[2000  200  300  400  500]
[2000  200  300  400  500]


## Fancy Indexing

In [12]:
import numpy as np

ar = np.array([100, 200, 300, 400, 500])

#범위 대신에 list를 이용해서 인덱싱 - Fancy Indexing 이라고 합니다.
xr = ar[[0, 2, 4]]
print(xr)

#Fancy Indexing 은 복제를 수행합니다.
xr[0] = 20000
print(ar)

[100 300 500]
[100 200 300 400 500]


## Boolean Indexing

In [18]:
import numpy as np

ar = np.array([100, 200, 300, 400, 500])

#True 위치의 데이터만 골라서 복제를 해서 리턴합니다.
xr = ar[[True, False, True, True, False]]
print(xr)

xr[0] = 10000
print(ar)

cond1 = [True, False, True, True, False]
cond2 = [False, False, True, True, False]

xr = ar[cond1 and cond2]
print(xr)

[100 300 400]
[100 200 300 400 500]
[300 400]


## ndarray 의 산술 연산

In [27]:
import numpy as np

x = 100
ar1 = np.array([100, 200, 300])
ar2 = np.array([10, 20, 30])

matrix1 = np.array(range(0, 6, 1)).reshape(2,3)
matrix2 = np.array(range(0, 6, 1)).reshape(3,2)

#동일한 크기의 배열끼리 연산
print(ar1 + ar2)

#2개의 배열은 2차원 인 것은 같지만 구조가 다르기 때문에 연산 수행 불가
#print(matrix1 + matrix2)

#scala data 와 배열의 연산
#배열의 각 요소에 scala data 를 연산을 한 후 결과를 배열로 리턴
print(x + ar1)

#차원이 다른 배열끼리의 연산
#1차원 배열의 요소 개수 와 2차원 배열의 행을 구성하는 열의 개수가 같아서 수행 
print(ar1 + matrix1)

#차원이 다른 배열끼리의 연산
#1차원 배열의 요소 개수 와 2차원 배열의 행을 구성하는 열의 개수가 달라서 에러
#print(ar1 + matrix2)

[110 220 330]
[200 300 400]
[[100 201 302]
 [103 204 305]]


## 벡터화된 함수 적용

In [28]:
import numpy as np

ar1 = np.array([100, 200, 300])

#한 줄 짜리 함수를 생성
def add_func(i):
    return i + 100

#람다를 이용해서 작성
add_lambda = lambda i : i + 100

#vector 화 된 함수 생성
vectorized_add_lambda = np.vectorize(add_lambda)

#vectory 된 함수를 이용한 데이터 가공
print(vectorized_add_lambda(ar1))

[200 300 400]


## 배열의 논리 연산을 이용한 추출

In [35]:
import numpy as np

ar1 = np.array([100, 200, 300])
ar2 = np.array([150, 190, 200])

#각 요소를 가지고 연산을 해서 결과를 배열로 리턴
print(ar1 > ar2)

#함수 이용
print(np.greater(ar1, ar2))

#broadcast 연산을 이용해서 특정 조건에 맞는 데이터만 추출
print(ar[ar1 > 190])

# 190 보다 크고 250 보다 작은 데이터 추출
print(ar[ (ar1 > 190) & (ar1 < 250) ])

[False  True  True]
[False  True  True]
[200 300]
[200]


## 배열의 전치 - 행 과 열의 방향을 변경

In [40]:
import numpy as np

#2차원 배열 만들기
matrix = np.arange(15).reshape(5, 3)
print(matrix)

#전치
print(matrix.T)

# 0 번 과 1번 축을 변경
print(matrix.transpose(1, 0))


# 3차원 만들기 - 딥러닝 할 때 차원 변환을 많이 합니다.
# -1의 의미를 알아두어야 합니다.
#flattern 도 알아두어야 합니다.
matrix = np.arange(30).reshape(5, 3, -1)
print(matrix)
#3차원 이상일 때는 순서를 직접 설정
print(matrix.transpose(0, 2, 1))


[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]
[[ 0  3  6  9 12]
 [ 1  4  7 10 13]
 [ 2  5  8 11 14]]
[[ 0  3  6  9 12]
 [ 1  4  7 10 13]
 [ 2  5  8 11 14]]
[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]

 [[12 13]
  [14 15]
  [16 17]]

 [[18 19]
  [20 21]
  [22 23]]

 [[24 25]
  [26 27]
  [28 29]]]
[[[ 0  2  4]
  [ 1  3  5]]

 [[ 6  8 10]
  [ 7  9 11]]

 [[12 14 16]
  [13 15 17]]

 [[18 20 22]
  [19 21 23]]

 [[24 26 28]
  [25 27 29]]]


## 랜덤한 숫자 샘플링

In [1]:
import numpy as np

# 0부터 4까지 비복원 추출을 이용해서 배열을 만들어서 리턴
print(np.random.permutation(5))

#seed 를 고정
np.random.seed(42)

print(np.random.permutation(5))

[3 1 2 0 4]
[1 4 2 0 3]


## 기본 통계 함수

In [11]:
import numpy as np

ar = np.array([10, 20, 12, 30, 40, 21, 31, 23])

br = ar.reshape(4, 2)

print("합계:", np.sum(ar))
#데이터 개수로 나눈 값: 수학에서 사용
print("표준 편차(자유도 적용 안함):", np.std(ar))
#데이터 개수 - 1 로 나눈 값: 통계학에서 사용
print("표준 편차(자유도 1 적용):", np.std(ar, ddof=1))
#3사분위 수 구하기
print("3사분위 수:", np.percentile(ar, 75))

#2차원 배열
print("최대값:", np.max(br))
#행 과 열 단위로 최대값 구하기
print("최대값:", np.max(br, axis=0))
print("최대값:", np.max(br, axis=1))
#결과를 원래 데이터의 차원인 2차원으로 만들어서 리턴
print("최대값:", np.max(br, axis=1, keepdims=True))

합계: 187
표준 편차(자유도 적용 안함): 9.379998667377304
표준 편차(자유도 1 적용): 10.027640371920576
3사분위 수: 30.25
최대값: 40
최대값: [40 30]
최대값: [20 30 40 31]
최대값: [[20]
 [30]
 [40]
 [31]]


## 배열 통계

In [24]:
import numpy as np

ar = np.array([10, 20, 12, 30, 40, 21, 31, 23])

print("최대값:", np.max(ar))
print("최대값의 위치:", np.argmax(ar))

print("누적합:", np.cumsum(ar))
#원본 데이터 개수보다 차분을 할 때 마다 1개씩 결과가 줄어듭니다.
print("1차 차분:", np.diff(ar))
print("2차 차분:", np.diff(ar, n=2))
print("3차 차분:", np.diff(ar, n=3))

최대값: 40
최대값의 위치: 4
누적합: [ 10  30  42  72 112 133 164 187]
1차 차분: [ 10  -8  18  10 -19  10  -8]
2차 차분: [-18  26  -8 -29  29 -18]
3차 차분: [ 44 -34 -21  58 -47]


## where 

In [25]:
import numpy as np
ar = np.array([1, 2, 3, 4])
br = np.array([10, 20, 30, 40])

condition = np.array([True, False, False, True])

#True 인 경우는 ar 의 데이터를 가져오고 False 인 경우는 br의 데이터를 가져옴
print(np.where(condition, ar, br))

[ 1 20 30  4]


## 집합 관련 함수

In [28]:
import numpy as np
ar = np.array([1, 2, 3, 4, 1])
br = np.array([10, 2, 3, 40])

print(np.unique(ar)) #중복 제거

print(np.setdiff1d(ar, br)) #ar 에는 존재하고 br에는 없는 데이터
print(np.setxor1d(ar, br)) #ar, br 중 한쪽에만 존재하는 데이터

[1 2 3 4]
[1 4]
[ 1  4 10 40]


## 정렬

In [34]:
import numpy as np

ar = np.array([10, 30, 50, 20])

br = np.sort(ar)
print(br)

#내림차순
#역순으로 접근하고자 하는 경우 list 같은 경우는 reverse 함수를 이용하지만
#ndarray는 인덱싱을 이용
cr = np.sort(ar)[::-1]
print(cr)

#정렬 알고리즘을 설정
#알고리즘 테스트틀 위해서 정렬을 공부할 때는
#selection, bubble, insertion, quick. merge, heap 정렬을 해두는 것이 좋습니다.
dr = np.sort(ar, kind='mergesort')[::-1]
print(dr)


[10 20 30 50]
[50 30 20 10]
[50 30 20 10]


## 배열 분할 - split

In [37]:
import numpy as np
ar = np.array(range(1, 17)).reshape(4, -1)
print(ar)

#기본적으로 행방향으로 분할
ar_split = np.split(ar, 2)
print(ar_split)

#열 방향으로 분할
ar_split = np.split(ar, 2, axis=1)
print(ar_split)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]
[array([[1, 2, 3, 4],
       [5, 6, 7, 8]]), array([[ 9, 10, 11, 12],
       [13, 14, 15, 16]])]
[array([[ 1,  2],
       [ 5,  6],
       [ 9, 10],
       [13, 14]]), array([[ 3,  4],
       [ 7,  8],
       [11, 12],
       [15, 16]])]


## 배열 합치기

In [44]:
#concatenate

import numpy as np

ar = np.array([1, 2, 3, 4])
br = np.array([5, 6, 7, 8])

cr = np.concatenate((ar, br))
print(cr)

# 1차원 배열은 axis 가 없음
#dr = np.concatenate((ar, br), axis=1)
#print(dr)


m1 = ar.reshape(2,2)
m2 = br.reshape(2,2)

mr = np.concatenate((m1, m2))
print(mr)

mr = np.concatenate((m1, m2), axis=1)
print(mr)

[1 2 3 4 5 6 7 8]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]
[[1 2 5 6]
 [3 4 7 8]]


In [46]:
#hstack, vstack - concatenate 에서 axis를 1을 설정하는냐 생략하느냐의 차이

import numpy as np

ar = np.array([1, 2, 3, 4])
br = np.array([5, 6, 7, 8])

m1 = ar.reshape(2,2)
m2 = br.reshape(2,2)

print(np.vstack((m1, m2)))
print(np.hstack((m1, m2)))

[[1 2]
 [3 4]
 [5 6]
 [7 8]]
[[1 2 5 6]
 [3 4 7 8]]


In [47]:
# dstack : 동일한 위치의 데이터끼리 묶어서 결합하는 함수
import numpy as np

ar = np.array([1, 2, 3, 4])
br = np.array([5, 6, 7, 8])

m1 = ar.reshape(2,2)
m2 = br.reshape(2,2)

print(np.dstack((m1, m2)))

[[[1 5]
  [2 6]]

 [[3 7]
  [4 8]]]


In [50]:
#r_, c_ : 인덱서 - 기능은 hstack 또는 vstack 과 유사
import numpy as np

ar = np.array([1, 2, 3, 4])
br = np.array([5, 6, 7, 8])

m1 = ar.reshape(2,2)
m2 = br.reshape(2,2)

print(np.hstack((m1, m2)))
print(np.c_[m1, m2])

[[1 2 5 6]
 [3 4 7 8]]
[[1 2 5 6]
 [3 4 7 8]]


## 데이터 저장과 읽기 - 중요, 확장자 확인

In [57]:
import numpy as np

ar = np.array([1, 2, 3, 4])
br = np.array([5, 6, 7, 8])

#하나의 데이터 저장
np.save('./data/adam.npy', ar)
#여러 개의 데이터를 저장하고자 할 때는 이름 과 함께 설정
np.savez('./data/adams.npy', ar=ar, br=br)

#읽어오기
xr = np.load('./data/adam.npy')
print(xr)

xr = np.load('./data/adams.npy.npz')
#여러 개를 저장한 경우에는 이름이 인덱스가 됩니다.
print(xr['br'])

[1 2 3 4]
[5 6 7 8]
