## Numpy

### 1. Numpy Array and Operation

- numpy array는 연산의 최적화를 위해 **dtype이 동일**해야 한다.
    - 다를 경우 upcasting
- numpy array의 연산은 **broadcasting** - 벡터의 연산처럼 이루어진다.

- numpy array **생성 후 <i>크기</i> 변경이 불가능**하다. append, remove 등 불가능. 단, 원소 업데이트는 가능. (mutable)

- 대용량 array인 경우, for문을 사용하는 것보다는 numpy 내부적으로 구현된 기능(연산)을 사용하는 것이 속도가 빠르다.
- CPU 연산 지원 (GPU 연산은 지원 X -> GPU에 올려봤자 GPU를 못 써먹기 때문에 의미 없음)
    - 키워드 참고: GPU 지원 라이브러리: h2o.ai | cudf, cuml | RAPIDS

### 1.1. Numpy Array creation

In [3]:
# numpy 라이브러리를 불러옵니다.
import numpy as np

## numpy 버전
np.__version__

'1.26.4'

In [3]:
# 파이썬 리스트 선언
data = [1, 2, 3, 4]

In [4]:
# 파이썬 2차원 리스트(행렬) 선언
data2 = [[1, 2],
         [3, 4]]

In [13]:
# 🔍 dtype 다르면?
dtype_test = ['섞이면', '어떻게', '되나요?', 3, 2, 1]
dtype_test = np.array(dtype_test)

print(dtype_test)
# Unicode 문자열
print(dtype_test.dtype)

['섞이면' '어떻게' '되나요?' '3' '2' '1']
<U21


파이썬 리스트와 달리 크기(shape) 정의를 따로 하고 있다.

np_arr.shape --> arr 크기 반환

(10, ) : 원소가 10개 든 1차원 배열

In [6]:
# 파이썬 list를 numpy array로 변환합니다.
# numpy array를 만드는 방식의 대부분은 파이썬 리스트를 np.array로 변환하는 방식입니다.
arr1 = np.array(data)

In [7]:
arr1.shape

(4,)

In [8]:
# 2차원 리스트를 np.array로 만듭니다.
# data2라는 리스트를 numpy array로 만들어라.
arr2 = np.array(data2)
arr2.shape

(2, 2)

In [10]:
# 0부터 9까지 숫자를 자동으로 생성한 array
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
# 정의된 구간을 균등하게 n등분으로 잘라 원소를 갖는 np array 생성 함수
## np.linspace(start, stop, step)
np.linspace(0, 1, 100)

array([0.        , 0.01010101, 0.02020202, 0.03030303, 0.04040404,
       0.05050505, 0.06060606, 0.07070707, 0.08080808, 0.09090909,
       0.1010101 , 0.11111111, 0.12121212, 0.13131313, 0.14141414,
       0.15151515, 0.16161616, 0.17171717, 0.18181818, 0.19191919,
       0.2020202 , 0.21212121, 0.22222222, 0.23232323, 0.24242424,
       0.25252525, 0.26262626, 0.27272727, 0.28282828, 0.29292929,
       0.3030303 , 0.31313131, 0.32323232, 0.33333333, 0.34343434,
       0.35353535, 0.36363636, 0.37373737, 0.38383838, 0.39393939,
       0.4040404 , 0.41414141, 0.42424242, 0.43434343, 0.44444444,
       0.45454545, 0.46464646, 0.47474747, 0.48484848, 0.49494949,
       0.50505051, 0.51515152, 0.52525253, 0.53535354, 0.54545455,
       0.55555556, 0.56565657, 0.57575758, 0.58585859, 0.5959596 ,
       0.60606061, 0.61616162, 0.62626263, 0.63636364, 0.64646465,
       0.65656566, 0.66666667, 0.67676768, 0.68686869, 0.6969697 ,
       0.70707071, 0.71717172, 0.72727273, 0.73737374, 0.74747

In [15]:
# random하게 원소를 갖는 np array 생성 함수
# 표준 정규 분포를 통해 샘플링한 원소들을 갖는다.
# np.random.randn(shape)
np.random.randn(5,3)

array([[ 0.39185254, -0.39664101, -0.99333355],
       [ 0.12675011,  0.8817703 , -1.23563402],
       [-1.52247478, -1.37792336,  0.25100286],
       [-0.18217447, -0.57548432, -0.9175155 ],
       [-0.03239451,  1.12031448,  0.45094232]])

In [13]:
# 0을 원소로 갖는 np arr 생성
# np.zeros(shape=(,,))
np.zeros(shape=(5, 3, 4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [11]:
# 10부터 99까지 숫자를 자동으로 생성한 array
np.arange(10, 100)

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60,
       61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77,
       78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,
       95, 96, 97, 98, 99])

### 1.2. Reshaping array
* 1차원: vector (x,) x행
* 2차원: matrix (x,y) x행 y열
* 3차원: tensor (x,y,z) x개의 y행 z열

#### ✅ shape
가장 바깥 괄호로부터 원소의 개수를 순차적으로 기록

In [18]:
np.zeros(shape=(5,3,4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [20]:
# 224 x 224 크기의 3개의 채널(RGB)을 가진 이미지 32개
np.zeros(shape=(32, 3, 224, 224))

array([[[[0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         ...,
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.]],

        [[0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         ...,
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.]],

        [[0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         ...,
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.]]],


       [[[0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         ...,
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0.

In [23]:
x = [[1,2,3],
     [4,5,6],
     [7,8,9]]

In [26]:
# reshape을 이용하여 만들어봅시다.
x = np.arange(1, 10).reshape(1, 9)
x

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [28]:
# reshape을 이용하여 만들어봅시다.
## 원소의 개수가 9개 >> reshape(1, 10)이 불가능하므로 에러!
x = np.arange(1, 10).reshape(1, 10)
x

ValueError: cannot reshape array of size 9 into shape (1,10)

In [27]:
# reshape을 이용하여 만들어봅시다.
## (9, ) != (9, 1)
x = np.arange(1, 10).reshape(9, 1)
x

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [29]:
# reshape을 이용하여 만들어봅시다.
## 알맞는 형태의 matrix가 계산하기 귀찮다면 (기준점, -1), (-1, 기준점)로 하면 알맞게 계산해준다.
## 단, 기준점도 구성 가능한 형태로 해주어야 함.
x = np.arange(1, 121).reshape(24, -1)
x

array([[  1,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10],
       [ 11,  12,  13,  14,  15],
       [ 16,  17,  18,  19,  20],
       [ 21,  22,  23,  24,  25],
       [ 26,  27,  28,  29,  30],
       [ 31,  32,  33,  34,  35],
       [ 36,  37,  38,  39,  40],
       [ 41,  42,  43,  44,  45],
       [ 46,  47,  48,  49,  50],
       [ 51,  52,  53,  54,  55],
       [ 56,  57,  58,  59,  60],
       [ 61,  62,  63,  64,  65],
       [ 66,  67,  68,  69,  70],
       [ 71,  72,  73,  74,  75],
       [ 76,  77,  78,  79,  80],
       [ 81,  82,  83,  84,  85],
       [ 86,  87,  88,  89,  90],
       [ 91,  92,  93,  94,  95],
       [ 96,  97,  98,  99, 100],
       [101, 102, 103, 104, 105],
       [106, 107, 108, 109, 110],
       [111, 112, 113, 114, 115],
       [116, 117, 118, 119, 120]])

In [30]:
## 기준점을 구성 가능하지 않은 수로 설정하면 오류
np.arange(1, 121).reshape(7, -1)

ValueError: cannot reshape array of size 120 into shape (7,newaxis)

In [31]:
## 기준점을 어느 한 쪽도 정하지 않으면 오류
np.arange(1, 121).reshape(-1, -1)

ValueError: can only specify one unknown dimension

### 1.3. Concatenation of arrays
파이썬 리스트와 연산 방식이 다르다!

In [33]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
# arr1 + arr2 = ?
arr1 + arr2

array([5, 7, 9])

In [34]:
# stacking vertically
## np.vstack([arr1, arr2])
np.vstack([arr1, arr2])

array([[1, 2, 3],
       [4, 5, 6]])

In [36]:
# stacking horizontally
## np.hstack([arr1, arr2])
np.hstack([arr1, arr2])

array([1, 2, 3, 4, 5, 6])

In [None]:
## np.concatanate((arr1, arr2), axis=?)
np.concatenate()

## 1.4. Array Arithmetic (like vector) --> Universal Function

In [4]:
# v1 = (1, 2, 3), v2 = (4, 5, 6) 벡터 2개 생성하기.
v1 = np.array((1,2,3))
v2 = np.array((4,5,6))
v3 = np.array([[-1, -1, -1],[1, 1, 1]]).reshape(2,3)

In [53]:
v3

array([[-1, -1, -1],
       [ 1,  1,  1]])

In [60]:
# (3,) + (2,3) ==> 크기가 매칭되는 부분(3)을 찾아서 브로드캐스팅을 2번 해서 계산해줌
v1 + v3

array([[0, 1, 2],
       [2, 3, 4]])

In [56]:
v3 = np.array([[-1, -1, -1],[1, 1, 1]]).reshape(3,2)
v3

array([[-1, -1],
       [-1,  1],
       [ 1,  1]])

In [5]:
v1 + v3

array([[0, 1, 2],
       [2, 3, 4]])

(5, ) + (3, 4, 5)   (O) <br>
(3, 4) + (5, 3, 4)  (O) <br>
(3, 4) + (3, 4, 5)  (X)

In [8]:
# 리스트로 더하기 연산해보기
L1 = [1, 2, 3]
L2 = [4, 5, 6]
L1 + L2

[1, 2, 3, 4, 5, 6]

In [9]:
#  vector addition
v1 + v2

array([5, 7, 9])

In [41]:
#  vector subtraction
v1 - v2

array([-3, -3, -3])

[x] elementwise <br>
배열의 각 요소별로 연산을 수행

In [43]:
# (not vector operation) elementwise multiplication
## 같은 위치의 원소간의 곱
v1 * v2

array([ 4, 10, 18])

In [44]:
# (not vector operation) elementwise division
v1 / v2

array([0.25, 0.4 , 0.5 ])

In [46]:
# dot product
## 내적 1 * 4 + 2 * 5 + 3 * 6
v1 @ v2

32

### 1.5. Broadcast and Universal Function

- 서로 크기가 다른 numpy array를 연산할 때, 자동으로 연산을 전파(broadcast)해주는 기능. 행렬곱 연산을 할 때 편리하다.

In [116]:
arr1 = np.array([1,2,3])

In [79]:
arr2 = np.array([[-1, -1, -1],
                [1, 1, 1]])

In [80]:
# 2개의 array를 더해보면?
arr1 + arr2 # 2->2->3(v)

array([[0, 1, 2],
       [2, 3, 4]])

In [81]:
# 2개의 array를 곱해보면? (**)
arr1 * arr2

array([[-1, -2, -3],
       [ 1,  2,  3]])

- Universal Function : broadcast 기능을 확장해서, numpy array의 모든 원소에 동일한 함수를 반복문으로 적용한 것과 같은 효과를 내는 기능.

In [117]:
## 데이터 타입 변경됨 int -> float
arr1 / 1

array([1., 2., 3.])

In [119]:
arr1 = arr1 / 1
arr1

array([1., 2., 3.])

In [118]:
# f = lambda x : 1/x
# Univeral Function
## 각 원소를 reverse 연산
1 / arr1

array([1.        , 0.5       , 0.33333333])

아래에서 

In [120]:
def reverse_num(x):
    return 1/x

for i in range(len(arr1)):
    arr1[i] = reverse_num(arr1[i])

arr1

array([1.        , 0.5       , 0.33333333])

In [None]:
# f = lambda x : x + 2


### 1.6. Indexing


In [None]:
arr1 = np.arange(10)

In [None]:
# 첫번째 원소


In [None]:
# 마지막 원소


In [None]:
# 앞에서부터 원소 3개 slicing


In [None]:
arr2 = np.array([[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]])
arr2

In [None]:
# arr2의 2row, 3column 원소 = 7


In [None]:
# arr2의 세번째 column [3, 7, 11]


In [None]:
# arr2의 두번째 row


## 2. Numpy Methods

- numpy에서 사용되는 여러가지 함수들을 사용해봅시다.

### 2.1. Math Functions 

In [122]:
# 표준정규분포에서 random sampling을 한 원소를 가지는 5x3 행렬을 만든다.
## pseudo-random - 유사 랜덤. 완전한 무작위적 랜덤이 아니라, 현재 시각(nano sec단위) 등을 기반으로 한 난수 생성
### random seed를 고정하면 같은 결과가 나온다.
np.random.seed(42)
mat1 = np.random.randn(5, 3)
mat1

array([[ 0.49671415, -0.1382643 ,  0.64768854],
       [ 1.52302986, -0.23415337, -0.23413696],
       [ 1.57921282,  0.76743473, -0.46947439],
       [ 0.54256004, -0.46341769, -0.46572975],
       [ 0.24196227, -1.91328024, -1.72491783]])

In [123]:
# mat1에 절대값 씌우기
np.abs(mat1)

array([[0.49671415, 0.1382643 , 0.64768854],
       [1.52302986, 0.23415337, 0.23413696],
       [1.57921282, 0.76743473, 0.46947439],
       [0.54256004, 0.46341769, 0.46572975],
       [0.24196227, 1.91328024, 1.72491783]])

In [124]:
mat1.abs()

AttributeError: 'numpy.ndarray' object has no attribute 'abs'

In [125]:
# mat1 제곱하기
np.square(mat1)

array([[0.24672495, 0.01911702, 0.41950044],
       [2.31961994, 0.0548278 , 0.05482011],
       [2.49391312, 0.58895606, 0.2204062 ],
       [0.2943714 , 0.21475596, 0.2169042 ],
       [0.05854574, 3.66064129, 2.97534153]])

In [126]:
# mat1의 제곱근 구하기
## RuntimeWarning: invalid value encountered in sqrt
## nan >> 실수에서는 정의할 수 없는... 복소수complex라서 nan이 나옴
np.sqrt(mat1)

  np.sqrt(mat1)


array([[0.70477951,        nan, 0.80479099],
       [1.23411096,        nan,        nan],
       [1.25666734, 0.87603352,        nan],
       [0.73658675,        nan,        nan],
       [0.49189661,        nan,        nan]])

In [127]:
## astype('complex') >> 복소수로 형변환
np.sqrt(mat1.astype('complex'))

array([[0.70477951+0.j        , 0.        +0.37183908j,
        0.80479099+0.j        ],
       [1.23411096+0.j        , 0.        +0.48389397j,
        0.        +0.48387701j],
       [1.25666734+0.j        , 0.87603352+0.j        ,
        0.        +0.68518201j],
       [0.73658675+0.j        , 0.        +0.68074789j,
        0.        +0.68244396j],
       [0.49189661+0.j        , 0.        +1.38321374j,
        0.        +1.31336127j]])

[ ] eigenvalues = ?

In [129]:
# linear algebra functions
vec = np.array([1,2,3])
vec

# 1. norm
## 벡터의 크기
### [ ] linear algra?
np.linalg.norm(vec)

# 2. eigenvalue
mat = np.array([[1, 0],
                [0, 1]])

np.linalg.eig(mat)

EigResult(eigenvalues=array([1., 1.]), eigenvectors=array([[1., 0.],
       [0., 1.]]))

### 2.2. Aggregation functions 
합계, 집계 함수

In [131]:
np.random.seed(0xC0FFEE)
## np.random.rand(shape): 0~1 균등 분표에서 샘플링
mat2 = np.random.rand(3, 2)
mat2

array([[0.57290783, 0.81519505],
       [0.92585076, 0.09358959],
       [0.26716135, 0.96059676]])

In [132]:
# Summation
## 원소의 전체 합
np.sum(mat2)

3.635301352873192

In [133]:
## 부분합
## axis=0 열 column, axis=1 행 row
print(np.sum(mat2, axis=0))
print(np.sum(mat2, axis=1))

[1.76591995 1.86938141]
[1.38810288 1.01944035 1.22775812]


In [134]:
# mean
## 평균
np.mean(mat2, axis=0)

array([0.58863998, 0.62312714])

In [135]:
# std
## standard deviation - 표준 편차
np.std(mat2, axis=0)

array([0.26913882, 0.37911557])

In [137]:
# min, max ⭐️⭐️⭐️
print(np.min(mat2, axis=1))
print(np.max(mat2, axis=1))


[0.57290783 0.09358959 0.26716135]
[0.81519505 0.92585076 0.96059676]


In [139]:
mat2

array([[0.57290783, 0.81519505],
       [0.92585076, 0.09358959],
       [0.26716135, 0.96059676]])

In [138]:
# 최소값이 있는 Index
np.argmin(mat2, axis=0)
## axis=0에서 첫 번째 열의 [2], 두 번째 열의 [1]이 최소값

array([2, 1])

In [140]:
# 최대값이 있는 Index
np.argmax(mat2, axis=0)
## axis=0에서 첫 번째 열의 [1], 두 번째 열의 [2]이 최대값

array([1, 2])

## numpy가 제공하는 데이터 타입 dtype
int 8, 16, 32, 64<br>
float 32, 64<br>
uint 8, 16<br>

bit 단위 표현(양수)
00000000 ~ 11111111

bit 단위 표현(부호)
-2^7 ~ 2^7

### float
float16: half precision
float32: single precision
float64  double precision
precision: 정밀도
0,1로만 표현하는 컴퓨터의 특성상 >정확<한 표현이 어려우므로 정밀도가 높게 표현하고자 할 때 float64를 쓰곤 한다. 대신 메모리를 많이 쓰겠지만!

In [None]:
# 그냥 정렬 (오름차순 정렬만 지원합니다)


In [None]:
# index를 정렬


## 3. Performance Check

- **Universal Function 기능**을 통해 반복문을 사용한 것보다 **훨씬 빠른 성능**을 냅니다.


- 직접 실험을 통해 그 차이를 확인해보겠습니다.

In [141]:
np.random.seed(0)

def reverse_num(values):
    output = np.empty(len(values))
    
    for i in range(len(values)):
        # dynamic type binding
        output[i] = 1.0 / values[i]
    
    return output

In [142]:
# 1부터 100까지 범위에서 1000000개를 랜덤으로 뽑아서 array를 만듭니다.
big_array = np.random.randint(1, 100, 1000000)

In [143]:
%timeit reverse_num(big_array)

1.01 s ± 3.45 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [144]:
%timeit 1.0 / big_array

859 µs ± 10.8 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
