# 06장 Numpy
---
- Dates : Aug 27, 2024  
- Author : JaeEun Yoo
---

## Numpy란?
- Numerical Python의 줄임말로, NumPy는 파이썬의 고성능 수치계산을 위한 라이브러리
- 여러 형태의 벡터 및 행렬연산과 나아가 여러 수학적인 기능들을 빠르고 간편하게 사용할 수 있는 기능들을 제공

**NumPy 공식 사이트에 소개된 NumPy의 장점!**

* POWERFUL N-DIMENSIONAL ARRAY
   * NumPy에서 배열 및 벡터를 표현하는 핵심 구조인 ndarray를 사용하여 빠르고 메모리를 효율적으로 사용할 수 있음
* NUMERICAL COMPUTING TOOLS
   * 반복문을 작성할 필요 없이 **전체 데이터 배열에 대해 빠른 연산을 제공**하는 다양한 표준 수학 함수를 제공
* PERFORMANT
   * 최적화하여 컴파일된 C/C++ 코드를 사용하여 빠른 연산 가능

## Numpy Array
행렬 및 벡터 연산을 위해선 **다차원 array**를 사용

* **array(배열)**
   * 번호와 번호에 대응하는 데이터들로 이루어진 자료 구조.
   * 일반적으로 배열에는 같은 종류의 데이터들이 순차적으로 저장
   * 값의 번호가 곧 배열의 시작점으로부터 값이 저장되어 있는 상대적인 위치
 
     
NumPy에선 이러한 다차원 array형태인 핵심적인 객체를 ndarray라고 부르며,  
아래와 같은 속성들을 가짐.  

- ndarray.ndim
- ndarray.shape
- ndarray.size
- ndarray.dtype
- ndarray.itemsize
- ndarray.data


In [3]:
import numpy as np

---
## Numpy 다루기
### 기본 배열 만들기

In [8]:
a = np.array([1, 2, 3])

![numpy array 01](./figures/numpy_01.png)

In [10]:
a.shape

(3,)

In [11]:
len(a)

3

In [14]:
a = [[1,2,3], [4,5,6]]
b = np.array(a) 

In [15]:
b

array([[1, 2, 3],
       [4, 5, 6]])

### built-in method를 활용한 다양한 배열 만들기

In [16]:
# 원소가 0으로 구성된 배열
np.zeros(2)

array([0., 0.])

In [18]:
# 원소가 1로 구성된 배열
np.ones(3)

array([1., 1., 1.])

In [19]:
# 원소가 0부터 입력된 길이까지 1씩 증가하는 정수로 구성된 배열
np.arange(4)

array([0, 1, 2, 3])

In [23]:
# x번째 인자 ~ y번째 인자까지 범위 내에서 z번째 인자 갯수만큼 선형 간격(일정한 간격)을 가진 숫자들을 배열로 반환
np.linspace(0, 10, num=5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [20]:
c = np.random.randn(2, 3)

In [21]:
c

array([[0.2643911 , 0.11716303, 0.67439651],
       [1.40762408, 0.79145681, 0.04139949]])

![numpy array 02](./figures/numpy_02.png)

---
## Numpy의 기본 연산
- 배열의 기본 산술연산은 element-wise하게 적용

In [29]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])
a+b

array([11, 22, 33])

In [30]:
2*(a+b)

array([22, 44, 66])

In [34]:
b-a

array([ 9, 18, 27])

In [32]:
A = np.array([[1, 1],
              [0, 1]])
B = np.array([[2, 0],
              [3, 4]])
A*B

array([[2, 0],
       [0, 4]])

In [35]:
A/B

  A/B


array([[0.5 ,  inf],
       [0.  , 0.25]])

In [36]:
A-b

ValueError: operands could not be broadcast together with shapes (2,2) (3,) 

In [37]:
a*B

ValueError: operands could not be broadcast together with shapes (3,) (2,2) 

## 브로드캐스팅 (BroadCasting)
- 넘파이에서 서로 다른 모양(shape)의 배열도 일정 조건을 만족하면 연산할 수 있음


### 브로드캐스팅이 가능한 조건
1. **원소가 하나인 배열**은 어떤 배열이나 브로드캐스팅이 가능

2. 하나의 배열이 1차원 배열인 경우, 브로드캐스팅이 가능  
2-1. 두 배열이 모두 2차원 배열이면, 브로드캐스팅이 불가  



In [38]:
arr1.shape = (3, )  
arr2.shape = (3, 3)  
np.add(arr1, arr2) # 가능

NameError: name 'arr1' is not defined

3. 차원의 짝이 맞을때 브로드캐스팅이 가능

In [None]:
arr1.shape = (4, 1)
arr2.shape = (1, 4)
np.add(arr1, arr2) # 가능

In [39]:
arr1 = np.array([[0, 0, 0], 
                 [1, 1, 1],
                 [2, 2, 2]])
                 
arr2 = np.array([5, 6, 7])

arr1 + arr2

array([[5, 6, 7],
       [6, 7, 8],
       [7, 8, 9]])

![numpy array 02](./figures/numpy_03.png)

In [40]:
arr3 = np.array([1, 1, 1])

arr4 = np.array([[0],
                 [1],
                 [2]])

arr3 + arr4

array([[1, 1, 1],
       [2, 2, 2],
       [3, 3, 3]])

![numpy array 02](./figures/numpy_04.png)

---
## Numpy의 인덱싱 / 슬라이싱 (Indexing / Slicing)
### 1차원 배열에서의 접근
- **1차원 배열**의 경우 기존 Python의 리스트와 동일한 방식으로 인덱싱, 슬라이싱이 가능함

![numpy array 02](./figures/numpy_05.png)

### 인덱싱 (Indexing)

In [41]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [42]:
arr[5]

5

In [43]:
arr[5:8]

array([5, 6, 7])

In [44]:
arr[5:8] = 10
arr

array([ 0,  1,  2,  3,  4, 10, 10, 10,  8,  9])

### 고차원 배열에서의 접근
- 2차원 배열 생성 시, 각 인덱스에 해당하는 원소는 스칼라가 아니고 **1차원 벡터**가 됨

In [45]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[0]

array([1, 2, 3])

In [46]:
arr2d[0][1]

2

In [47]:
arr2d[0, 1]

2

- 2차원 배열 인덱스에서 첫번째 성분은 행, 두번째 성분은 열을 의미

In [48]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [49]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [50]:
arr3d[0, 1]

array([4, 5, 6])

### 슬라이싱 (Slicing)

In [51]:
lst = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]
arr = np.array(lst)

In [52]:
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [53]:
a = arr[0:2, 0:2]

In [54]:
a

array([[1, 2],
       [4, 5]])

In [56]:
arr[1:, 1:]

array([[5, 6],
       [8, 9]])

![numpy array 02](./figures/numpy_06.png)

### 논리 인덱싱
- 비교 연산자를 활용한 논리 인덱싱

In [57]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [58]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [59]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [63]:
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [64]:
mask = (names == 'Bob') & (names == 'Joe')
mask

array([False, False, False, False, False, False, False])

### 배열에서 특정 조건을 충족하는 값 선택하기

In [60]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

In [62]:
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [65]:
a[a>5]

array([ 6,  7,  8,  9, 10, 11, 12])

## 예제 풀어보기 (Exercise)

## <Question 01>

> **0으로 채워진 길이가 10인 1차원 배열을 만들되, 7번째 인덱스는 1로 구성하세요.** 

a = array([0, 0, 0, 0, 0, 0, 0, 1, 0, 0])


## <Question 02>

> **20부터 40까지 구성된 1차원 배열을 생성하세요.** 

b = array([20, 21, 22, ..., 39, 40])
  
  
  


## <Question 03>

> **무작위 원소를 가진 3x3x3의 array를 생성하세요.**

c = array(

    [[[0.92842722, 0.92574424, 0.07725618],  
        [0.75726719, 0.75362092, 0.22836732],  
        [0.12551308, 0.9106576 , 0.17518133]],  
   
       [[0.06029213, 0.99286814, 0.80926844],  
        [0.42243376, 0.95335137, 0.18474632],  
        [0.04488715, 0.89688706, 0.37775391]],  
   
       [[0.94077574, 0.91818125, 0.35818829],  
        [0.76793943, 0.12810186, 0.99508023],  
        [0.4833759 , 0.59272653, 0.01835418]]])  

  
  
  


---
## Numpy의 속성 알아보기
### Numpy 속성 요약

![numpy array 02](./figures/numpy_07.png)

In [77]:
arr = np.array([[1,2,3,4],
                [5,6,7,8],
                [9,10,11,12]])

In [79]:
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

### 배열의 차원의 개수 : ndarray.ndim

In [80]:
arr.ndim

2

### 배열의 모양 (각 차원별 배열의 크기) : ndarray.shape (매우 중요)

In [81]:
arr.shape

(3, 4)

### 배열의 모든 원소의 개수 : ndarray.size

In [82]:
arr.size

12

### 배열에 저장된 원소의 데이터 타입 : ndarray.dtype

In [83]:
arr.dtype

dtype('int64')

### 각 원소의 크기 (byte) : ndarray.itemsize

In [84]:
arr.itemsize

8

---
## Numpy의 내장 함수 (Built-in method)
### 자주 사용되는 내장함수

In [94]:
arr1 = np.array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [95]:
arr1

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [96]:
arr1.max()

12

In [97]:
arr1.min()

1

In [98]:
arr1.sum()

78

In [99]:
arr2 = np.array([[ 0.1,  2,  0.3,  4],
       [ 5,  0.6,  7,  8],
       [ 9, 10, 0.11, 0.12]])

In [101]:
np.add(arr1,arr2)

array([[ 1.1 ,  4.  ,  3.3 ,  8.  ],
       [10.  ,  6.6 , 14.  , 16.  ],
       [18.  , 20.  , 11.11, 12.12]])

In [103]:
np.subtract(arr1,arr2)

array([[ 0.9 ,  0.  ,  2.7 ,  0.  ],
       [ 0.  ,  5.4 ,  0.  ,  0.  ],
       [ 0.  ,  0.  , 10.89, 11.88]])

In [104]:
np.multiply(arr1,arr2)

array([[  0.1 ,   4.  ,   0.9 ,  16.  ],
       [ 25.  ,   3.6 ,  49.  ,  64.  ],
       [ 81.  , 100.  ,   1.21,   1.44]])

In [105]:
np.sqrt(arr1)

array([[1.        , 1.41421356, 1.73205081, 2.        ],
       [2.23606798, 2.44948974, 2.64575131, 2.82842712],
       [3.        , 3.16227766, 3.31662479, 3.46410162]])

In [106]:
np.sqrt(4)

2.0

In [112]:
arr1.shape

(3, 4)

In [127]:
a = np.array([1, 2, 3, 4, 5, 6])


In [128]:
a.shape

(6,)

In [125]:
b = np.expand_dims(a, axis=1)

In [126]:
b.shape

(10, 1)

In [123]:
c = np.expand_dims(a, axis=0)

In [124]:
c.shape

(1, 10)

### Numpy 수학 함수

- sum(), mean() : 배열 전체 합, 평균
- cumsum(), cumprod() : 배열 누적 합, 누적 곱
- std(), var() : 표준편차, 분산
- min(), max() : 최소값, 최대값
- argmin(), argmax(): 최소 원소의 색인 값, 최대 원소의 색인 값

### Numpy 랜덤 함수
- seed() : 난수 발생기의 seed를 지정
- permutation() : 임의의 순열을 반환
- shuffle() : 리스트나 배열의 순서를 뒤섞음
- rand() : 균등분포에서 표본을 추출
- randint() : 주어진 최소/최대 범위 안에서 임의의 난수를 추출
- randn() : 표준편차가 1이고 평균값이 0인 정규분포에서 표본을 추출
- binomial() : 이항분포에서 표본을 추출
- normal() : 정규분포(가우시안)에서 표본을 추출
- beta() : 베타분포에서 표본을 추출
- chisquare() : 카이제곱분포에서 표본을 추출
- gamma() : 감마분포에서 표본을 추출
- uniform() : 균등(0,1)에서 표본을 추출