# Numpy (Numerical Python)

## NumPy를 사용하는 이유
- POWERFUL N-DIMENSIONAL ARRAY
  - NumPy에서 배열 및 벡터를 표현하는 핵심 구조인 ndarray를 사용하여 빠르고 메모리를 효율적으로 사용할 수 있다
- NUMERICAL COMPUTING TOOLS
    - 반복문을 작성할 필요 없이 전체 데이터 배열에 대해 빠른 연산을 제공하는 다양한 표준 수학 함수를 제공한다
- PERFORMANT
    - 잘 최적화하여 컴파일된 C/C++ 코드를 사용하여 빠른 연산을 가능하게 한다

In [25]:
import numpy as np
import warnings

In [26]:
warnings.filterwarnings('ignore')

# array

***배열은 동일한 데이터 타입 요소로 구성된다***

**배열 생성하는 방법**
- np.array(): list를 인자로 받아 생성
- np.array(data, dtype = 'DataType'): array 원소의 데이터 타입을 지정해서 생성

그 외</br>
- np.zeors( )
- np.ones( )
- np.full( )
- np.eye( )
- np.empty( )

https://modulabs.co.kr/blog/python-numpy/

## np.zeros

In [105]:
zero = np.zeros([3, 4])
print(zero)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


## np.ones

In [106]:
one = np.ones([3, 4])
print(one)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


## np.eye

In [107]:
# 대각행렬

eye = np.eye(3)
print(eye)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


## np.full

In [220]:
# 내가 원하는 값으로 채워진 배열 생성
full = np.full((2,2),10)
print(full)

[[10 10]
 [10 10]]


## np.empty

## ndarray의 속성

```python
ndarray.attr
```

- ndim: 배열의 차원 출력
- shape: 배열의 구조 출력
- dtype: 배열의 데이터 타입 출력
- size: 
- dtype: 
- data: 
- itemsize: 각 요소의 바이트 단위 크기
- nbytes:
    - itemsize * n(배열 원소의 수)

## 배열의 차원

### scalar: 하나의 숫자값

In [None]:
s = np.array(1)
print(s)

### 1차원 배열: 벡터(vector)

1차원 배열과 리스트는 다르다!

아래 두 출력 결과의 형태 확인

In [2]:
v = np.array([1, 2, 3, 4]) # 1차원 배열
print(v)

[1 2 3 4]


In [3]:
l = [1, 2, 3, 4]
print(l)

[1, 2, 3, 4]


In [4]:
print(v.shape) # 4행 0열

(4,)


In [5]:
print(v.ndim) # 1차원

1


In [6]:
print(v.dtype)

int64


In [7]:
print(v.itemsize)

8


### 2차원 배열: 행렬(matrix)

In [12]:
m = np.array([[1, 2], [3, 4], [5, 6]]) # 2차원 배열
print(m)

[[1 2]
 [3 4]
 [5 6]]


In [13]:
print(f'array의 차원: {m.ndim}')
print(f'array의 데이터 타입: {m.dtype}')
print(f'array의 바이트 단위 크기: {m.itemsize}')
print(f'array의 차원: {m.nbytes}')

array의 차원: 2
array의 데이터 타입: int64
array의 바이트 단위 크기: 8
array의 차원: 48


### 3차원 배열: 텐서(tensor)

In [16]:
t = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

print(t)
print(f'array의 차원: {t.ndim}')
print(f'array의 데이터 타입: {t.dtype}')
print(f'array의 바이트 단위 크기: {t.itemsize}')
print(f'array의 차원: {t.nbytes}')

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
array의 차원: 3
array의 데이터 타입: int64
array의 바이트 단위 크기: 8
array의 차원: 64


In [19]:
# for문을 이용한 배열 생성

f = np.array([i for i in range(0, 10, 2)]) # (start, end, step)

print(f)
print(f'array의 차원: {f.ndim}')
print(f'array의 데이터 타입: {f.dtype}')
print(f'array의 바이트 단위 크기: {f.itemsize}')
print(f'array의 차원: {f.nbytes}')

[0 2 4 6 8]
array의 차원: 1
array의 데이터 타입: int64
array의 바이트 단위 크기: 8
array의 차원: 40


## 데이터 타입

- 숫자형
- 문자형
- 논리형

### 숫자형

- 부호가 있는 정수(Signed integer)
- 부호가 없는 정수(Unsigned integer)
- 실수(floating point)
- 복소수(complex)

**int / uint / float / complex (8bit, 16bit, 32bit, 64bit)**

- bit 수에 따라 저장 가능한 값의 범위가 다르다
- 숫자를 입력했을때 python에서 자체적으로 적당한 bit를 선택
- 데이터가 너무 커지면, bit 제한

In [22]:
# 부호가 있는 정수

data = [1.1, 2, 3]

i = np.array(data, dtype = np.int32) # np.array 메서드에서 배열의 dtype 지정 가능
print(i)

[1 2 3]


In [215]:
print(i.dtype)

int32


In [27]:
# 부호가 없는 정수

data2 = [-1, 2, 3]

ui = np.array(data2, dtype = np.uint32) # 부호가 없는 정수형으로 dtype 지정 (unit도 8, 16, 32, 64bit가 있다)
                                        # unit32의 값의 범위는 0 ~ 4,294,967,295
                                        # -1 -> 4294967295 : 값을 처리할 범위를 넘어서 -1에 최대값을 지정함
print(ui)

[4294967295          2          3]


In [28]:
# 실수

f = np.array(data, dtype = np.float64) # or 'f'
print(f)

[1.1 2.  3. ]


In [30]:
# 복소수

c = np.array([1 + 2j, 3 + 4j, 5 + 6j], dtype = np.complex64)
print(c)

[1.+2.j 3.+4.j 5.+6.j]


In [31]:
print(c.real) # 복소수의 실수 출력

[1. 3. 5.]


In [32]:
print(c.imag) # 복소수의 허수 출력

[2. 4. 6.]


### 문자형

np.string_ 및 np.unicode_은 문자열 데이터를 다룰 때 NumPy 배열의 효율성과 함께 유용한 도구이다</br>
용도에 따라 데이터 타입을 다르게 사용한다

- string_: 바이트 문자열 타입 (byte로 표현: 컴퓨터가 알고 있는 값)
  - ex. 숫자 1은 컴퓨터에 byte로 표현해서 'x01'로 저장됨
  - ASCII 문자열 또는 UTF-8 인코딩으로 인코딩된 바이트 문자열 데이터를 처리하는 데 유용
  - 작은 단위로 사용하기 위해서 string_으로 변환
  - 바이트 문자열은 주로 파일 입출력, 네트워크 통신 등의 작업에서 활용
  - np.string_(array or list)은 변환된 객체를 반환한다
- unicode_: 유니코드 문자열 타입
  - 사용자가 보기 쉽게 해주기 위해 사용. 단, 데이터 크기가 커진다
 
+) 배열을 문자열(string)로 변환하기 위해서는 array2string 메서드 사용
```python
sample_array = np.array([[1, 2, 3], [4, 5, 6]])

np.array2string(sample_array) # '[[1 2 3]\n [4 5 6]]'
```

string_

In [50]:
data2 = [1, 2, 3]

s = np.string_(data2)
print(s)

b'\x01\x02\x03'


In [36]:
print(s.dtype) # |S3: string인데, 3개 원소로 구성되어 있다

|S3


In [39]:
data3 = [1, 2, 3, 4, 5]

s2 = np.string_(data3) # np.array(data2, dtype = 'S')
print(s2)
print(s2.dtype)

b'\x01\x02\x03\x04\x05'
|S5


In [57]:
byte_array = np.array([np.string_('apple'), np.string_('banana'), np.string_('cherry')])
print(byte_array)

[b'apple' b'banana' b'cherry']


In [58]:
byte_array[0].decode('utf=8') # byte타입을 utf-8로 디코딩

'apple'

unicode_

In [40]:
u = np.array(data3, dtype = 'U') # unicode

print(u)
print(u.dtype) # <U1: 원소의 값이 한 자리(1의 자리)

['1' '2' '3' '4' '5']
<U1


In [41]:
data4 = [11, 22, 33, 44, 55]

u2 = np.array(data4, dtype = 'U')
print(u2.dtype)

<U2


In [55]:
u3 = np.unicode_('안녕하세요')

print(u3)
print(u3.dtype)

안녕하세요
<U5


### 논리형 (boolean)

- True(1), False(0)
- 비트 연산 사용: & and, | or, ^ xor, ~ not

In [42]:
l1 = np.array([True, False, True])
l2 = np.array([False, True, False])

print(l1, l2)

[ True False  True] [False  True False]


In [45]:
and_ = np.logical_and(l1, l2) # logical_(and, or, xor, not)
print(and_)

[False False False]


### 데이터 형변환(Cast, Casting)

- 데이터들끼리 형태를 맞추기 위해 사용
- 예시) 이미지 데이터는 uint형으로 불러온다 -> float로 형변환
  - RGB는 0-255의 숫자를 이용해서 표현하기 때문에 음수는 필요없다

In [61]:
data = [1.1, 2, 3]

a = np.float64(data)
print(a)
print(a.dtype)

[1.1 2.  3. ]
float64


In [63]:
data = [1.1, 2, 3]

a = a.astype(np.int64)
print(a)
print(a.dtype)

[1 2 3]
int64


uint형의 '0'에 1을 빼서 -1이 되면, 파이썬에서 연산을 위해 자동으로 int타입으로 변환

In [68]:
np.uint16(-1) # uint16이 표현할 수 있는 범위(0 - 65,535)에서 가장 큰 값 출력

65535

In [70]:
np.uint16(-3) # 값이 음수로 커질수록 uint16의 최대값에서 값이 작아짐

65533

In [65]:
b = np.uint16(0)

print(b)
print(b.dtype)

b -= 1
print(b)
print(b.dtype)

0
uint16
-1
int64


## 산술연산

### Numpy의 연산은 정말 빠른가?

In [71]:
import time

In [72]:
data = [[1, 2, 3], [4, 5, 6]]

In [73]:
print(len(data), len(data[0]))

2 3


In [76]:
start_time = time.time()

sum_array = 0
for i in range(len(data)):
    for j in range(len(data[i])):
        sum_array += data[i][j]

print(sum_array)

end_time = time.time()
print(f'process time: {end_time - start_time}')

21
process time: 0.00019407272338867188


In [77]:
start_time = time.time()

np.sum(data)

end_time = time.time()
print(f'process time: {end_time - start_time}')

process time: 0.00014162063598632812


반복문을 이용한 배열 요소의 합 연산보다 numpy 메서드를 이용한 연산이 빠르다

연산자를 이용한 배열의 연산

```python
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

sum_ = a + b
minus = a - b
mul = a * b
div = a / b

print(sum_)
print(minus)
print(mul)
print(div)
```

### 지수함수 & 자연로그 & 삼각함수

In [78]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

In [79]:
aa = np.exp(a) # 지수함수
print(aa)

[ 2.71828183  7.3890561  20.08553692]


In [80]:
bb = np.log(b) # 자연로그(밑이 e)
print(bb)

[1.38629436 1.60943791 1.79175947]


In [81]:
cc = np.log2(b) # 밑이 2인 로그
print(cc)

[2.         2.32192809 2.5849625 ]


In [82]:
d = np.array([0, np.pi / 2, np.pi])
sin_ = np.sin(d)
cos_ = np.cos(d)
tan_ = np.tan(d)

print(d, sin_, cos_, tan_)

[0.         1.57079633 3.14159265] [0.0000000e+00 1.0000000e+00 1.2246468e-16] [ 1.000000e+00  6.123234e-17 -1.000000e+00] [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


### 행렬의 곱

행렬의 곱과 내적이 어떻게 다르더라?

In [242]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[4, 5], [6, 7]])

In [243]:
a * b

array([[ 4, 10],
       [18, 28]])

In [244]:
a @ b # 내적

array([[16, 19],
       [36, 43]])

In [245]:
a.dot(b) # 내적

array([[16, 19],
       [36, 43]])

## 배열의 연결과 분할

### concatenate

https://m.blog.naver.com/qbxlvnf11/221490583222

In [83]:
# 두 배열의 차원이 같아야 함

x = [1, 2, 3]
y = [4, 5, 6]

In [84]:
concat = np.concatenate([x, y])
print(concat)

[1 2 3 4 5 6]


In [85]:
x2 = [[1, 2], [3, 4]] # 2 x 2
y2 = [[4, 5], [6, 7]]

In [88]:
concat2 = np.concatenate([x2, y2])
print(concat2)
print(concat2.shape)

[[1 2]
 [3 4]
 [4 5]
 [6 7]]
(4, 2)


In [89]:
concat2_v = np.concatenate([x2, y2], axis = 1)
print(concat2_v)
print(concat2_v.shape)

[[1 2 4 5]
 [3 4 6 7]]
(2, 4)


### hstack / vstack / dstack

hstack - 수평(열방향)방향으로 배열을 합친다
vstack - 수직(행방향)방향으로 배열을 합친다
dstack - 

In [92]:
x2 = [[1, 2], [3, 4]] # 2 x 2
y2 = [[4, 5], [6, 7]]

In [93]:
h = np.hstack([x2, y2])
print(h)

[[1 2 4 5]
 [3 4 6 7]]


In [94]:
v = np.vstack([x2, y2])
print(v)

[[1 2]
 [3 4]
 [4 5]
 [6 7]]


### reshape

현재 배열의 차원 변경
```python
array.reshape(nrow, ncol) or np.reshape(array, ndim)
```
reshape의 인자에 -1을 사용하면, 인자에 입력된 row or column의 수를 고려해 남은 차원으로 추정한다</br>
reshape의 인자에 -1 외 인자를 입력하지 않으면, 1차원으로 변경한다

In [91]:
arr = np.array(np.arange(10))
arr.reshape(2, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [253]:
arr = np.array(np.arange(10))
arr_2d = arr.reshape(5, -1)  # length of arr은 10이므로, 행을 5로 설정한 나머지인 2를 열의 수로 추정한다
arr_2d

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [256]:
arr_2d.reshape(-1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### ravel

다차원 배열을 1차원으로 변경

In [218]:
# 일차원으로 변경

arr_3d = np.arange(9).reshape(3, 3)
print(arr_3d)
arr_3d_to_1d = arr_3d.ravel()
print(arr_3d_to_1d)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 1 2 3 4 5 6 7 8]


### flatten

다차원 배열을 1차원으로 변경

In [260]:
arr_2d

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [258]:
arr_2d.flatten()

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

#### 

### hsplit / vsplit


In [102]:
x2_arr = np.array([[1, 2], [3, 4], [5, 6]])
print(x2_arr)

[[1 2]
 [3 4]
 [5 6]]


In [101]:
hs = np.hsplit(x2_arr, 2)
print(hs)

[array([[1],
       [3],
       [5]]), array([[2],
       [4],
       [6]])]


In [103]:
vs = np.vsplit(x2_arr, 3)
print(vs)

[array([[1, 2]]), array([[3, 4]]), array([[5, 6]])]


# Numpy 함수

## Axis(축)의 개념: axis는 shape의 순서를 따라간다

https://pybasall.tistory.com/129</br>
http://machinelearningkorea.com/2019/05/18/%ED%8C%8C%EC%9D%B4%EC%8D%AC-axis-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-%EC%B9%98%ED%8A%B8%EC%BD%94%EB%93%9C/

배열은 단지 리스트의 중첩이다</br>
축은 가장 바깥 리스트에서 안쪽리스트 순으로 0부터 이름을 붙인 것이다</br>

```python
[[[1 2]
  [3 4]]
 [[5 6]
  [7 8]]]
```
와 같은 (2, 2, 2) 차원의 배열이 있다고 했을때,

axis 0은 가장 밖의 리스트
```python
[[1 2]
 [3 4]]

[[5 6]
 [7 8]]
```
2차원 배열(행렬) 2개로 이뤄진 3차원 배열이다

```python
[[[1 2]
  [3 4]]
 [[5 6]
  [7 8]]]
```

In [157]:
arr = np.array([[[1, 2],
                 [3, 4]],
                [[5, 6],
                 [7, 8]]])

In [158]:
print(arr.shape)

(2, 2, 2)


In [154]:
print(np.sum(arr, axis = 0))

[[ 6  8]
 [10 12]]


따라서, axis 0에 대한 np.sum의 결과를 보면,</br>
```python
[[ 6  8]
 [10 12]]
 
[[(1+5) (2+6)]
 [(3+7) (4+8)]]
```
이다

다음으로 axis 1을 보면,</br>
```python
[1 2]
[3 4]

[5 6]
[7 8]
```
1차원 배열(벡터) 2개로 이뤄진 2차원 배열(행렬)이 2개 있는 구조다
```python
[[1 2]
 [3 4]]

[[5 6]
 [7 8]]
```

In [155]:
print(np.sum(arr, axis = 1))

[[ 4  6]
 [12 14]]


axis 1에 대한 np.sum의 결과를 보면,
```python
[[ 4  6]
 [12 14]]

[[(1+3) (2+4)]
 [(3+7) (4+8)]]
```
이다

마지막으로, axis 2에 대한 np.sum의 결과를 보면,
```python
1 2
3 4
5 6
7 8
```
scalar 원소 2개로 구성된 1차원 배열(벡터)이 4개 있는 구조다
```python
[1 2]
[3 4]

[5 6]
[7 8]
```

In [159]:
print(np.sum(arr, axis = 2))

[[ 3  7]
 [11 15]]


axis 2에 대한 np.sum의 결과를 보면,</br>
```python
[[ 3  7]
 [11 15]]

[[(1+2) (3+4)]
 [(5+6) (7+8)]]
```
이다

이해를 돕기 위한 추가 예제

+) 아래 array 배열은 (5, 3, 2) 차원을 가진 배열이다</br>
- axis 0에 대해 np.sum을 하면, 첫번째 축 5에 대한 연산이 이뤄지고 반환되는 배열은 (3, 2) 차원을 갖는다</br>
- axis 1에 대해 np.sum을 하면, 두번째 축 3에 대한 연산이 이뤄지고 반환되는 배열은 (5, 2) 차원을 갖는다</br>
- axis 2에 대해 np.sum을 하면, 두번째 축 2에 대한 연산이 이뤄지고 반환되는 배열은 (5, 3) 차원을 갖는다

In [150]:
array = np.random.randint(10, size=(5,3,2))

print(array.shape)
print(array)

(5, 3, 2)
[[[3 4]
  [9 1]
  [2 9]]

 [[6 2]
  [9 5]
  [8 1]]

 [[4 2]
  [4 7]
  [6 7]]

 [[2 4]
  [3 5]
  [5 7]]

 [[4 0]
  [1 9]
  [2 1]]]


In [163]:
print(np.sum(array, axis = 0))
print(np.sum(array, axis = 0).shape)

[[19 12]
 [26 27]
 [23 25]]
(3, 2)


In [164]:
print(np.sum(array, axis = 1))
print(np.sum(array, axis = 1).shape)

[[14 14]
 [23  8]
 [14 16]
 [10 16]
 [ 7 10]]
(5, 2)


In [162]:
print(np.sum(array, axis = 2))
print(np.sum(array, axis = 2).shape)

[[ 7 10 11]
 [ 8 14  9]
 [ 6 11 13]
 [ 6  8 12]
 [ 4 10  3]]
(5, 3)


## 요소별 연산 함수 (element-wise function)

### abs: 절대값

In [109]:
arr1 = np.array([-1, -2, -3, -4])
abs_arr = np.abs(arr1)
print(abs_arr)

[1 2 3 4]


### sqrt: 제곱근

In [111]:
arr2 = np.array([1, 4, 9, 16])
sqrt_arr = np.sqrt(arr2)
print(sqrt_arr)

[1. 2. 3. 4.]


### any

배열 내 하나라도 True가 있는지 확인

In [129]:
arr_bool = np.array([False, True, False, False])
any_ = np.any(arr_bool)
print(any_)

True


### all

배열 내 모든 값이 True면, True 반환

In [130]:
all_ = np.all(arr_bool)
print(all_)

False


### NaN (Not A Number)

In [166]:
arr = np.array([1, 2, np.nan, 4])
arr_nsum = np.nansum(arr)
print(arr_nsum)

7.0


### where

np.where(condition, if condition is True return, if condition is False return)

In [134]:
arr = np.array([1, 2, 3, 4, 5])
condition = np.where(arr < 3)
print(condition)
print(arr[condition])

(array([0, 1]),)
[1 2]


In [135]:
np.where(arr < 3, arr, 0) # condition arr < 3의 결과 True인 값은 arr의 값을 반환하고, False인 값은 0으로 대체

array([1, 2, 0, 0, 0])

## 집계 함수 (aggregate function)

In [120]:
arr = np.array([1, 1, 2, 4, 5])

### sum

In [122]:
arr_sum = np.sum(arr)
print(arr_sum)

13


### cumsum: 누적 합계

In [124]:
arr_cumsum = np.cumsum(arr)
print(arr_cumsum)

[ 1  2  4  8 13]


In [168]:
print(type(arr_cumsum))

<class 'numpy.ndarray'>


### mean

In [116]:
arr_mean = np.mean(arr)
print(arr_mean)

2.6


### median

In [117]:
arr_median = np.median(arr)
print(arr_median)

2.0


### std

In [118]:
arr_std = np.std(arr)
print(arr_std)

1.624807680927192


### var

In [119]:
arr_var = np.var(arr)
print(arr_var)

2.64


### argmin

최소값의 index 반환

In [126]:
# arr: [1, 1, 2, 4, 5]
min_ = np.argmin(arr)
print(min_)
print(arr[min_])

0
1


### argmax

최대값의 index 반환

In [128]:
# arr: [1, 1, 2, 4, 5]
max_ = np.argmax(arr)
print(max_)
print(arr[max_])

4
5


## random: 난수 생성 함수

In [172]:
random_values = np.random.rand(2, 2) # 0 - 1 범위의 랜덤값을 지정한 shape으로 생성
print(random_values)

[[0.88430908 0.12734784]
 [0.92447132 0.18557925]]


In [173]:
random_values = np.random.randn(2, 2) # 표준정규분포의 랜덤값을 지정한 shape으로 생성
print(random_values)

[[-0.6816049  -0.43350599]
 [-0.08309276 -1.65481787]]


In [175]:
random_values = np.random.randint(0, 10, size = 5) # 정수형 난수 생성 (min, max, shape)
print(random_values)

random_values = np.random.randint(0, 10, size = (2, 2))
print(random_values)

[0 8 1 4 2]
[[7 2]
 [2 4]]


### shuffle

- 무작위로 섞인 배열 생성
- 변경사항을 원본에 적용

In [187]:
arr = np.arange(5)
print(arr)

np.random.shuffle(arr)
print(arr)

[0 1 2 3 4]
[0 1 4 2 3]


### permutation (순열)

무작위로 섞인 배열 생성

- input: scalar or array

In [209]:
print(arr)

[0 1 4 2 3]


In [208]:
arr_permu = np.random.permutation(arr)
print(arr_permu)

[1 2 3 4 0]


In [205]:
arr_permu = np.random.permutation(10)
print(arr_permu)

[9 7 5 8 6 3 2 4 1 0]


#### shuffle vs permutation

shuffle과 permutation 모두 scalar를 인자로 받으면, scalar 크기의 배열을 무작위 순서로 생성하고,</br>
array를 인자로 받으면 배열을 무작위 순서로 재배열한다

차이점은 shuffle은 무작위로 섞은 배열을 원본에 적용하기 때문에 반환값이 없고</br>
permutation은 원본에 적용하지 않고 무작위 순서의 배열을 반환한다

### choice

- replace (중복 여부)
  - default: False (중복 허용)
- p: 요소를 선택할 확률
  - 배열의 shape에 맞게 지정
  - 확률의 합이 1이 되도록 설정 (otherwise, ValueError: probabilities do not sum to 1)

In [193]:
choice = np.random.choice(arr, 3)
print(choice)

[4 4 3]


In [189]:
choice = np.random.choice(arr, 3, replace = True)
print(choice)

[2 1 3]


In [197]:
choice = np.random.choice(arr, 2, p = [0.1, 0.3, 0.3, 0.2, 0.1])
print(choice)

[2 4]


### normal

정규분포를 따르는 난수 생성

```python
np.random.normal(mean, std, shape)
```

In [210]:
arr_norm = np.random.normal(0, 1, (3, 3, 3))
print(arr_norm)

[[[-1.45725041  0.64910675  0.07482149]
  [-0.60961018  0.53639924 -0.37466139]
  [ 2.33244468  1.13007542 -0.08903637]]

 [[ 0.46309793  0.45336571 -1.47199609]
  [ 0.39363808 -0.08634284 -1.73105414]
  [ 1.3508347  -0.29187784 -0.3435375 ]]

 [[ 0.70290215  1.75202442 -0.18206039]
  [ 0.8623027  -1.19306354  1.08705651]
  [ 1.32118581 -0.99849786 -0.44722078]]]


# Boolean Indexing

원본 데이터는 유지하고 조건과 일치하는 요소들을 판별해서 새로운 배열을 만든다</br>

In [139]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) # 원본 데이터

# 사이즈가 큰 원본 데이터에 어떤 조작을 가하면 안될때 -> 복사본을 만들어서 작업
# Boolean Indexing을 통해 원하는 데이터를 불러와서 새로운 변수에 저장 후 작업

even_arr = arr[arr % 2 == 0]
print(even_arr)

[ 2  4  6  8 10]


# Broadcast

크기가 다른 배열간의 연산도 가능하게 하는 특징을 갖는다

**두 배열의 차원이 다를 경우**</br>
작은 차원 배열의 차원이 큰 차원 배열의 차원과 일치할 때까지 차원을 증가시키고 연산한다</br>

**두 배열의 차원 수가 같은 경우**</br>
크기가 1인 차원이 있으면, 다른 배열의 크기와 일치하도록 복제하고 연산한다

배열의 연산은 같은 위치의 요소간 연산을 수행한다


두 배열의 차원 수가 같은 경우, 모든 차원의 크기가 같거가 크기가 1이라면 모양이 같은 두 배열의 요소 간 연산을 한다

In [141]:
# 형태가 같은 배열간의 연산

arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

result = arr1 + arr2
print(result)

[5 7 9]


In [143]:
arr1 = np.array([[1], [2], [3]]) # 2차원 배열
arr2 = np.array([4, 5, 6])       # 1차원 배열

result = arr1 + arr2             # 2차원 배열
print(result)

[[5 6 7]
 [6 7 8]
 [7 8 9]]


# 연습문제

[정답 링크](https://colab.research.google.com/drive/1IqJHnFDPORCMDPvEQqZRgtN3n7PqVsKx#scrollTo=oh6_e4zvOvIa)

1. 주어진 여러 개의 1차원 배열을 연결하여 하나의 큰 1차원 배열로 반환하세요

In [225]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
arr3 = np.array([7, 8, 9, 10])

In [226]:
arr_concat = np.concatenate([arr1, arr2, arr3])
print(arr_concat)

[ 1  2  3  4  5  6  7  8  9 10]


2. 주어진 2차원 배열에서 각 열의 평균값을 계산하여 새로운 1차원 배열로 나타내세요

In [227]:
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

In [230]:
arr_mean = np.mean(arr, axis = 0)
print(arr_mean)

[4. 5. 6.]


3. 주어진 2차원 배열에서 각 행의 최대값을 구하여 1차원 배열로 반환하세요

In [231]:
arr_max = np.max(arr, axis = 1)
print(arr_max)

[3 6 9]


4. 0에서 1사이의 값으로 크기 10개의 1차원 배열을 만들어주세요

In [236]:
arr = np.random.rand(10)
print(arr)

[0.55261673 0.70530029 0.44360015 0.819866   0.53631928 0.77907438
 0.98981595 0.30143371 0.5864838  0.93417546]


In [237]:
arr = np.random.random(10)
print(arr)

[0.25876774 0.5068806  0.18738363 0.11611041 0.78211229 0.63927276
 0.2719837  0.93641943 0.05347526 0.16692248]


5. 주어진 1차원 배열에서 짝수인 요소들의 합을 계산하는 함수 sum_of_evens를 작성하세요
```python
def sum_of_evens(arr: np.ndarray) -> int:
```

6. 수평분할, 수직분할, 수평 스택, 수직 스택 문제를 풀어봅시다

```python
arr = np.arange(1, 13).reshape((3, 4))
```

6-1. 배열 arr을 수평분할하기 -> 다시 원본으로 스택쌓기

6-2. 수직분할하기 -> 다시 원본으로 스택쌓기

7. 배열에서 값을 10으로 나누었을 때 나머지가 0이면 원래 값 출력, 아니면 0으로 출력하세요

In [238]:
arr = np.arange(0, 100, 5).reshape((5,4))
print(arr)

[[ 0  5 10 15]
 [20 25 30 35]
 [40 45 50 55]
 [60 65 70 75]
 [80 85 90 95]]


8. (3x3)배열 lst 중 짝수만 뽑아내는 부울린 인덱싱 배열(numpy 배열)을 사용하여 짝수 배열 n 을 만드시오

In [239]:
lst = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]
arr = np.array(lst)
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


9. 각도를 이용해서 삼각함수를 만들어봅시다

In [240]:
angle = np.pi / 3 # 라디안 표기 = 60도 
# 360도는 2라디안 으로, 180도는 1라디안으로 표현합니다

10. 조건함수를 사용해서 짝수조건을 만족하는 요소의 값이 2배로 만드는 배열을 만드시오

In [241]:
arr = np.array([1, 2, 3, 4, 5])
print(arr)

[1 2 3 4 5]
