### NumPy는 “Numerical Python“의 약자로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공
* Numerical Python을 의미하는 NumPy는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지
* 많은 머신러닝 알고리즘이 넘파이 기반으로 작성돼 있으며 알고리즘의 입출력 데이터를 넘파이 배열 타입으로 사용함
* 넘파이의 기본 데이터 타입은 ndarray. ndarray를 이용해 넘파이에서 다차원 배열을 쉽게 생성하고 다양한 연산 수행

#### NumPy 특징

- 강력한 N 차원 배열 객체
- 정교한 브로드캐스팅(Broadcast) 기능
- C/C ++ 및 포트란 코드 통합 도구
- 유용한 선형 대수학, 푸리에 변환 및 난수 기능
- 푸리에 변환(Fourier transform, FT)은 시간이나 공간에 대한 함수를 시간 또는 공간 주파수 성분으로 분해하는 변환
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너

#### Numpy Documentation  

https://numpy.org/doc/1.21/index.html

#### Numpy는 대용량 데이터 배열을 '효율적'으로 다룰 수 있도록 설계되었다.
- Numpy는 내부적으로 데이터를 다른 내장 파이썬 객체와 구분된 연속된 메모리 블록에 저장
- Numpy의 각종 알고리즘은 모두 C로 작성되어 타입 검사나 다른 오버헤드 없이 메모리를 직접 조작
- Numpy 배열은 또한 내장 파이썬의 연속된 자료형들보다 훨씬 더 적은 메모리를 사용
- Numpy 연산은 파이썬 반복문을 사용하지 않고 전체 배열에 대한 복잡한 계산을 수행

In [2]:
import numpy as np
arr=np.arange(1000000)
mylist=list(range(1000000))

%time for _ in range(10): arr2 = arr*2     #시간 재기

Wall time: 14 ms


In [3]:
%time for _ in range(10): mylist2 = [x*2 for x in mylist]
    
#arr와 시간 차이가 매우 많이 남

Wall time: 736 ms


In [4]:
#배열 연산
np.random.seed(0)
data=np.random.randn(2,3)
print(data, '\n')
print(data*10, '\n')
print(data+data)        #해당되는 값끼리 서로 알아서 연산

[[ 1.76405235  0.40015721  0.97873798]
 [ 2.2408932   1.86755799 -0.97727788]] 

[[17.64052346  4.00157208  9.78737984]
 [22.40893199 18.6755799  -9.7727788 ]] 

[[ 3.52810469  0.80031442  1.95747597]
 [ 4.4817864   3.73511598 -1.95455576]]


In [5]:
print(data.shape)     #배열의 크기(형태)
print(data.dtype)     #자료형
print(data.ndim)      #차원(n차원)

(2, 3)
float64
2


In [6]:
data1 = [56,32,7,8,2,3,1,88,3,1,2,3,5,533,2,22,14,231]
arr1 = np.array(data1)

print(arr1, type(arr1), '\n')

data2 = [[56,32,7,8,2,3,1,88],[3,1,2,3,5,533,2,22]]
arr2 = np.array(data2)      #2차원 배열은 각 행들의 길이가 맞지 않으면 오류남

print(arr2, type(arr2))
print(arr2.shape, arr2.ndim)
print(type(arr2), arr2.dtype)      #type()은 'arr2'자체의 타입/ .dtype는 배열 안쪽 값들의 타입

[ 56  32   7   8   2   3   1  88   3   1   2   3   5 533   2  22  14 231] <class 'numpy.ndarray'> 

[[ 56  32   7   8   2   3   1  88]
 [  3   1   2   3   5 533   2  22]] <class 'numpy.ndarray'>
(2, 8) 2
<class 'numpy.ndarray'> int32


In [7]:
#3차원 배열
data3 = [[[56,32,7,8],[2,3,1,88]], [[3,1,2,3],[5,533,2,22]], [[36,11,2,309],[52,3,299,2]]]
arr3 = np.array(data3)

print(arr3, type(arr3))
print(arr3.shape, arr3.ndim)

[[[ 56  32   7   8]
  [  2   3   1  88]]

 [[  3   1   2   3]
  [  5 533   2  22]]

 [[ 36  11   2 309]
  [ 52   3 299   2]]] <class 'numpy.ndarray'>
(3, 2, 4) 3


#### 배열 생성 및 초기화
- Numpy는 원하는 shape로 배열을 설정하고 각 요소를 특정 값으로 초기화하는 zeros, ones, full, eye 함수 제공
- 파라미터로 입력한 배열과 같은 shape의 배열을 만드는 zeros_like, ones_like, full_like 함수도 제공

In [8]:
#0으로 초기화
print(np.zeros(10),'\n')        #0으로 10개가 초기화된 배열
print(np.zeros((3,5)),'\n')     #2중 괄호 주의 zeros((3,5)) : 2,3차원 배열~
print(np.zeros((2,3,2)),'\n')   #2중 괄호

#1로 초기화
print(np.ones(10),'\n')
print(np.ones((3,5)),'\n')
print(np.ones((2,3,2)),'\n')

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]] 

[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]] 

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]] 

[[[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]] 



In [9]:
# 과제
alist=[[[56,32,7,8],[2,3,1,88]], [[3,1,2,3],[5,533,2,22]], [[36,11,2,309],[52,3,299,2]]]

arr=np.array(alist)
arr2=np.zeros_like(arr)   #지정된 배열의 크기만큼 0으로 채우기
print(np.zeros_like(arr),'\n')

arr=np.array(alist)
arr2=np.ones_like(arr)   #지정된 배열의 크기만큼 0으로 채우기
print(arr2,'\n')

arr=np.array(alist)
arr2=np.empty_like(arr)    #배열의 크기만큼 쓰레기값 채우기
print(arr2,'\n')

arr=np.array(alist)
arr2=np.full_like(arr, 5)    #배열의 크기만큼 지정된 값 채우기
print(arr2,'\n')

[[[0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]]] 

[[[1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]]] 

[[[ 56  32   7   8]
  [  2   3   1  88]]

 [[  3   1   2   3]
  [  5 533   2  22]]

 [[ 36  11   2 309]
  [ 52   3 299   2]]] 

[[[5 5 5 5]
  [5 5 5 5]]

 [[5 5 5 5]
  [5 5 5 5]]

 [[5 5 5 5]
  [5 5 5 5]]] 



In [23]:
# arange 함수: 파이썬 range()의 배열 버전
ar=np.arange(15)
ar

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [27]:
# reshape 함수
a = ar.reshape(3,5)      #개수 안 맞으면 에러
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [29]:
# transpose 함수
# 다차원 배열의 축을 전치하는 함수(열과 행을 바꿔줌)

# 3차원 배열에 사용하면 지정한 대로 축 순서 바꿈
# np.transpose(a, (1,2,0)) -> 3차원 자리에 1번축을, 2차원 자리에 2번 축을, 1차원 자리에 0번 축을
b = np.transpose(a)    #3x5 -> 5x3
b

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [None]:
arr1 = np.arange(10)
arr2 = np.arange(10).reshape(5,2)        #생성과 동시에 2차원으로 재정렬
arr3 = np.arange(24).reshape(2,4,3)      #3차원으로 재정렬

print(arr1, '\n')
print(arr2, '\n')
print(arr3)

In [None]:
ar=np.arange(30)
ar.reshape(2,-1)     # -1을 넣어주면 해당 자리에 알아서 적절한 값이 들어감 (2,-1) -> (2,15)
ar.reshape(2,-1,3)   # -1 여러개 넣는 건x (남은 값이 하나여서 계산 가능할 때만) (2,-1,3) -> (2,5,3)

In [None]:
ar=np.arange(30).reshape(2,-1)
print(ar.reshape(-1),'\n')          # 이렇게 하면 2차원이 1차원으로 돌아옴

ar=np.arange(30).reshape(2,3,-1)
print(ar.reshape(-1))          # 3차원->1차원도 가능

In [None]:
arlist=ar.tolist()      #배열 -> 리스트
print(arlist,'\n')

arr=np.array(arlist)    #리스트 -> 배열
print(arr)

#### 행렬의 종류

https://math-development-geometry.tistory.com/52

- 정방행렬은 행과 열의 수가 같은 행렬
- 대각행렬은 주대각선 원소를 제외한 모든 원소들이 0인 정방행렬
- 삼각행렬은 주대각선 원소를 기준으로 위 또는 아래에 있는 성분이 모두 0인 정방행렬
- 항등행렬은 행렬 곱셈 연산에 항등원으로 작용하는 행렬
- 영행렬은 모든 원소가 0인 행렬로 곱셈 연산에서 영원으로 작용하는 행렬
- 전치행렬은 주대각선 원소를 기준으로 행과 열을 바꿔주는 행렬
- 직교행렬은 행렬 A의 역행렬이 A의 전치행렬이고 A의 전치행렬과 A 행렬을 곱하였을때 항등행렬이 나오는 행렬

In [None]:
# 정방행렬
ar1 = np.full((2,2),7)
ar1

In [None]:
# 항등행렬(단위행렬)
ar2 = np.eye(3)      #np.eye(): 대각선의 개수를 지정해주는 함수 (대각선은 1, 나머지는 0)
ar2

In [None]:
# 대각행렬
ar3 = np.diag([1,2,3])    #대각선에 넣고 싶은 숫자 넣어주는 함수 (나머지는 0)
ar3

In [None]:
# 삼각행렬
ar4_upper = np.triu([[1,2,3],[4,5,6],[7,8,9]])    #삽입한 배열에서 대각선 아래쪽은 전부 0으로 바꿔줌
print(ar4_upper, '\n')    #상삼각행렬

a=[[1,2,3],[4,5,6],[7,8,9]]    #이렇게 리스트(혹은 배열)를 만들어서 넣어줘도 ok
# a=np.array(a)
ar4_lower = np.tril(a)    #삽입한 배열에서 대각선 위쪽은 전부 0으로 바꿔줌
print(ar4_lower, '\n')    #하삼각행렬

In [None]:
# 전치행렬 (행과 열을 서로 바꿈)
a=np.array([[1,2,3],[4,5,6],[7,8,9]])
ar5=a.T
ar5

### 직교행렬
: 직교행렬은 행렬 A의 역행렬이 A의 전치행렬이고 A의 전치행렬과 A 행렬을 곱하였을때 항등행렬이 나오는 행렬
- 행과 열이 서로 직교하는 정방행렬
- 모든 열벡터와 행벡터가 서로 직교하고 크기가 1인 단위벡터로 이루어짐
- np.linalg.qr() 함수를 사용해 QR분행 수행하여 직교행렬을 추출
- q를 추출하여 직교행렬 orth_mat을 만든다
- np.dot(orth_mat, orth_mat.T) 를 계산하여 직교성을 검증
- np.allclose() 함수로 두 행렬이 동일한지 검사. True를 반환하면 두 행렬은 동일

In [None]:
mat = np.random.randn(3,3)    #3행3열 정방행렬
print(ar6)

q,r = np.linalg.qr(mat)    # q, r분해

orth_mat=q         #직교행렬 추출
print(orth_mat)

print(np.allclose(np.dot(orth_mat, orth_mat.T), np.eye(3)))   #직교성 검증 (np.eye=항등행렬)

### 배열 인덱싱, 슬라이싱

In [None]:
ar2 =np.arange(1,10).reshape(3,3)
print(ar2, '\n')

print(ar2[1][2])     #리스트처럼 그냥 쓰면 됨
print(ar2[1][-1])
print(ar2[1,2])     #이런 식으로도 가능
print(ar2[1,-1])

In [None]:
ar2[:2,:2]        #[[1, 2], [4, 5]]
  
ar2[1:]           #[[4, 5, 6],[7, 8, 9]]
ar2[2:3,:]

ar2               #[[1, 2, 3],[4, 5, 6],[7, 8, 9]]
ar2[:,:]

ar2[:2,1:]        #[[2, 3],[5, 6]]
 
ar2[:2,0]         #[1, 4]

In [None]:
ar=np.arange(20).reshape(5,4)
print(ar,'\n')

print(ar[:2,1:])      #ar[0~1][1~3]

In [None]:
# boolean indexing
ar=np.random.randint(1,10, size=10)
print(ar)

ar[ar>5]     #해당 조건을 만족하는(True) 값만 리턴

In [None]:
array_e = np.arange(1,15)
print(array_e)

array_e[(array_e/2)>5]

In [None]:
# arr에서 0.5보다 큰 수를 출력
np.random.seed(0)
arr=np.random.randn(30)
print(arr)

arr[arr>0.5]

In [None]:
# data에서 3의 배수인 수만 출력
data=np.arange(30)
data[data%3==0]

In [None]:
bools=np.array([False,False,True,True])
bools

In [None]:
bools.any()      #하나라도 참이면 참
bools.all()      #모든 원소가 참이어야만 참

#### np.where(condition)은 
- condition 배열의 요소가 True인 인덱스를 반환하는 함수입니다. 
- condition 배열은 bool 타입이어야 하며, 반환값은 tuple 타입으로 (array of row indices, array of column indices)의 형태로 반환

In [None]:
# 0보다 크면 2로, 아니면 -2로 변경
arr=np.random.randn(4,4)
print(arr)

np.where(arr>0, 2,-2)          #where(조건, 참이면 대입할 값, 거짓이면 대입할 값)

In [None]:
# arr의 모든 양수를 2로 바꾸세요
arr = np.where(arr>0, 2, arr)    # 방법1
arr[arr > 0] = 2                 # 방법2

In [None]:
# np.sort(): 정렬 후 복사본을 반환(원본 반영x)
np.random.seed(0)
arr=np.random.randint(1,100,size=10)
print(arr)

sorted=np.sort(arr)
print(sorted)
print(arr)      #원본은 그대로

In [None]:
# 행렬이 2차원 이상일 경우 axis 축 값 설정을 통해 로우/칼럼 방향으로 정렬 수행
arr2 = np.array([[8,12],[7,1],[9,21]])
print(arr2)

np.sort(arr2,axis=0)        #axis=0 열 방향으로 정렬
np.sort(arr2,axis=1)        #axis=1 행 방향으로 정렬

In [None]:
# ndarray.sort(): 원본 반영 정렬
arr=np.random.randint(10,size=10)
print(arr)

arr.sort()          #원본 반영ok
arr

In [None]:
np.random.seed(0)
arr=np.random.randint(10,size=(10,10))
print(arr)

#arr.sort(0)    #열 방향 정렬 (원본반영)
arr.sort(1)    #행 방향 정렬(디폴트값) (원본반영)
arr

In [None]:
#정렬된 행렬의 인덱스 반환: 기존 원본 행렬의 원소에 대한 인덱스
org=np.array([3,1,9,5])
print(org)

sort_in=np.argsort(org)     #org를 정렬했을 때 '원래 어디에 있었는지' 인덱스값
org.sort()

print(org)
print(sort_in)

In [None]:
#배열 데이터의 입출력
# np.save, np.load는 바이너리 형식 (npy파일로 저장)
arr=np.arange(10)
np.save('some_array',arr)

np.load('some_array.npy')

In [None]:
# np.savez: 여러개의 배열을 압축된 형식으로 저장
arr1=np.arange(10)
arr2=np.arange(10,20)

np.savez('array_arc.npz', a=arr1, b=arr2)
arch=np.load('array_arc.npz')

arch['a']
arch['b']

In [None]:
# 인덱싱을 사용하여 [1 0 1 0 1 0 1 0 1 0]을 출력하세요
arr=np.arange(10)
print(arr)

arr=np.arange(10)
print(np.where(arr%2==0, 1, 0))      #방법1

arr=np.arange(10)
arr[:] = arr%2     #방법2
print(arr)

### 과제

In [None]:
#과제: 다음과 같이 출력(리스트 형식)
ar2 =np.arange(1,10).reshape(3,3)
print(ar2, '\n')

print(ar2[:2,2].tolist())        #[3, 6]
print(ar2[:2,:2].tolist())       #[[1, 2], [4, 5]]
print(ar2[:2,:].tolist())        #[[1, 2, 3], [4, 5, 6]]

In [None]:
#과제: 0이 아닌 값 인덱스를 배열형태로 출력: where
a=np.array([1,2,0,0,4,0])

index=np.where(a!=0)     #조건을 만족하는 값들 정보만 뽑기
print(index[0])           #[0]만 출력하면 인덱스 값만 뽑힘(튜플로 인덱스,타입이 들어가 있음)
index
#index[0][0] 하면 0,1,4 중 0 하나만 뽑힘

In [None]:
#과제: 0이 아닌 값 인덱스를 배열형태로 출력: nonzero
a=np.array([1,2,0,0,4,0])

index=np.nonzero(a)      #위에 where와 같은 형태로 뽑힘
print(index[0])          #[0]만 출력하면 인덱스 값만 뽑힘(튜플로 인덱스,타입이 들어가 있음)
index

In [None]:
#과제: 홀수번째 줄만 거꾸로 뒤집기
arr = np.arange(1,101).reshape(10,10)

for i in range(1,10,2):
    arr[i]=arr[i][::-1]
# arr[1::2] = arr[1::2, ::-1]         #반복문 대신 이렇게 해도 ok
    
print(arr, type(arr))

In [None]:
#과제: 테두리만 남기고 전부 0으로 변경
arr=np.ones((10,10))
arr[1:9, 1:9]=0
arr

In [None]:
#과제: 전부 1인 5x5배열을 -> 9x9배열로 확장, 0 채우기
arr=np.ones((5,5))

v=np.zeros((2,5))
h=np.zeros((9,2))

arr2=np.vstack((arr,v))      # arr 아래에 v 붙이기
arr2=np.vstack((v,arr2))
#print(arr2)

arr2=np.hstack((h,arr2))     # h 옆에 arr2 붙이기
arr2=np.hstack((arr2,h))
print(arr2)

In [None]:
#과제: 전부 0인 배열을 패턴화해서 출력
arr=np.zeros((8,8))

for i in range(8):
    if i%2==0:
        arr[i][1::2]=1     # 짝수 번째 줄 0101010
    else:
        arr[i][0::2]=1     # 홀수 번째 줄 1010101
arr

In [None]:
#과제 (위와 같은 문제/ tile함수 이용)
arr=np.zeros((8,8))

for i in range(8):
    if i%2==0:
        arr[i]= np.tile([0,1],4)    # 짝수 번째 줄 0101010
    else:
        arr[i]= np.tile([1,0],4)     # 홀수 번째 줄 1010101
        
# arr = np.tile(np.array([[0, 1], [1, 0]]), (4, 4))    #타일 함수 쓰는 법
arr

In [None]:
#[과제] np.arange(336).reshape(6,7,8)에서 100번째 요소의 인덱스 구하기
arr=np.arange(336).reshape(6,7,8)

b=arr.reshape(-1)
idx=np.where(arr==b[99])     #b의 99인덱스 = arr의 100번째

index=[idx[i][0] for i in range(len(idx))]    #인덱스값 뽑기
print(index)
idx

In [None]:
#[과제] np.arange(336).reshape(6,7,8)에서 100번째 요소의 인덱스 구하기
arr = np.arange(336).reshape(6,7,8)

np.unravel_index(100, arr.shape)
# unravel_index(): '1차원 배열의 인덱스'를 '다차원 인덱스'로 반환(튜플 형태)
# (찾을 1차원 인덱스 번호, 몇 차원으로 반환할 건지)