# 1. Numpy

- 파이썬 라이브러리 중 하나 -> 과학 연산
- 배열 -> 행렬 (선형대수)
- 선형대수, 푸리에 변환 -> 수학 함수

---

- 빠른속도
    - numpy 배열이 python 리스트보다 메모리 효율이 좋다.
- 선형대수 연산 (행렬)
    - ex) 벡터와 행렬 곱, 행렬분해, 등등 
- 데이터분석과 처리
- 다양한 수학 함수 제공 

In [None]:
import numpy as np 

In [None]:
a = np.array([1, 2, 3, 4]) # 1차원 배열 생성

In [None]:
print(a)
print(a.shape) # 4개의 행이다.
print(a.ndim) # 배열의 차원 
print(a.dtype) # 배열의 데이터 타입
print(a.itemsize) # 각 요소의 바이트 단위 크기

[1 2 3 4]


In [None]:
# 하나의 숫자값: 스칼라

s = np.array(1)
print(s)
print(s.ndim)
print(s.dtype)
print(s.itemsize)
print(s.nbytes)

1
0
int64
8
8


In [None]:
# 1차원: 벡터

v = np.array([1, 2, 3])
print(v)
print(v.ndim)
print(v.dtype)
print(v.itemsize)
print(v.nbytes)

[1 2 3]
1
int64
8
24


In [None]:
# 2차원: 행렬(Matrix)

m = np.array([[1, 2, 3], [1, 2, 3]])
print(m)
print(m.ndim)
print(m.dtype)
print(m.itemsize)
print(m.nbytes)

[[1 2 3]
 [1 2 3]]
2
int64
8
48


In [None]:
# 3차원: 텐서(Tensor)

t = np.array([[[1, 2],[1, 2]], [[1, 2], [1, 2]]])
print(t)
print(t.ndim)
print(t.dtype)
print(t.itemsize)
print(t.nbytes)

[[[1 2]
  [1 2]]

 [[1 2]
  [1 2]]]
3
int64
8
64


## 배열 생성 

In [None]:
import numpy as np

In [None]:
a = np.array([1, 2, 3, 4, 5])
a

array([1, 2, 3, 4, 5])

In [None]:
a = np.array([[1, 2, 3, 4], [2, 3, 4, 5], [5, 6, 7, 8]]) # 3x4 2차원 배열 == 행렬 
a

array([[1, 2, 3, 4],
       [2, 3, 4, 5],
       [5, 6, 7, 8]])

In [None]:
a = np.array(range(9)).reshape(3,3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [None]:
a = np.arange(9).reshape(3, 3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [None]:
# for 문을 이용해서 배열 생성

a = np.array([i for i in range(0, 10, 2)])

a

array([0, 2, 4, 6, 8])

## 데이터 타입 



### 1. 숫자형

- 부호가 있는 정수 (Signed integer)
- 부호가 없는 정수 (Unsigned integer)
- 실수 (Floating point)
- 복소수 (Complex)


In [None]:
# int (8bit, 16bit, 32bit, 64bit) 저장할 수 있는 값의 범위가 다르다.

data = [1.1, 2, 1] 
        
a = np.array(data, dtype = np.int32)
print(a)
print(a.dtype)

[1 2 1]
int32


In [None]:
data = [-1, 2, 3]

a = np.array(data, dtype = np.uint32) # uint 8, 16, 32(0 ~ 4,294,967,295), 64
print(a) # uint32가 처리할 수 있는 값의 범위를 넘어갔기 때문에 0 뒤에 제일 큰수가 출력
print(a.dtype)

[4294967295          2          3]
uint32


In [None]:
data = [1.1, 2, 1] 

a = np.array(data, dtype = np.float64)

print(a)

[1.1 2.  1. ]


In [None]:
a = np.array([1 + 2j, 3 + 4j, 5 + 6j], dtype = np.complex64)
print(a)
print(a.real) # 실수
print(a.imag) # 허수

[1.+2.j 3.+4.j 5.+6.j]
[1. 3. 5.]
[2. 4. 6.]


### 문자형

- string_



- unicode_


In [None]:
data = [1, 2, 3]

a = np.string_(data)
print(a)
print(a.dtype) # S3: string 3개


b'\x01\x02\x03'
|S3


In [None]:
data = [1, 2, 3, 4, 5]

a = np.string_(data) # s2 = np.array(data3, dtype = 'S')

print(a)
print(a.dtype)

b'\x01\x02\x03\x04\x05'
|S5


In [None]:
data = [1, 2, 3, 4, 5]

a = np.array(data, dtype = 'U') # unicode

print(a)
print(a.dtype)

['1' '2' '3' '4' '5']
<U1


In [None]:
data = [11, 22, 33, 44, 55]

a = np.array(data, dtype = 'U')
print(a)
print(a.dtype)

['11' '22' '33' '44' '55']
<U2


### 논리형 (boolean)

- True(1), False(0)
- 비트 연산 사용 : & and, | or, ^ xot, ~not


In [None]:
l1 = np.array([True, False, True])
l2 = np.array([False, True, False])

print(l1)
print(l2)

[ True False  True]
[False  True False]


In [None]:
print(l1.dtype)
print(l2.dtype)

bool
bool


In [None]:
and_ = np.logical_and(l1, l2)
print(and_)

[False False False]


## 데이터 형 변환 (cast, casting 형 변환)


- 데이터들끼리 형태를 맞춰주기 위해서 형변환을 한다.
- 예시) 이미지 데이터 -> uint형으로 불러옴 -> float형변환


In [None]:
# np.데이터타입(배열 or 리스트)
data = [1.1, 2, 3]

a = np.float64(data) # np.데이터타입

print(a)
print(a.dtype)

[1.1 2.  3. ]
float64


In [None]:
# 배열.astype(np.데이터타입)

a = a.astype(np.int16)

print(a)
print(a.dtype)

[1 2 3]
int16


In [None]:
b = np.uint16(0)
print(b)
print(b.dtype)

0
uint16


In [None]:
b = b - 1

print(b)
print(b.dtype) # 파이썬에서 자기가 알아서 해줌 auto casting이라 한다.

-1
int64


In [None]:
c = np.uint16(-1)
print(c)

65535


## 산술연산


In [None]:
# 리스트를 연산하려면 for문으로 하나씩 연산을 해야하지만 numpy를 사용하면 쉽게 연산이 빠르게
# 가능하다.

data = [[1,2,3], [4,5,6]]
sum = 0

for i in range(len(data)):
    for j in range(len(data[i])):
        sum += data[i][j]
print(sum)

21


In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 덧셈 
print(a + b)

# 뺄셈
print(a - b)

# 곱셈 
print(a * b)

# 나눗셈 
print(a / b)


[5 7 9]
[-3 -3 -3]
[ 4 10 18]
[0.25 0.4  0.5 ]


In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 지수 
aa = np.exp(a)
print(aa)

# 로그

bb = np.log(b) # 자연로그
print(bb)

cc = np.log2(b) # 밑이 2인 로그
print(cc)

[ 2.71828183  7.3890561  20.08553692]
[1.38629436 1.60943791 1.79175947]
[2.         2.32192809 2.5849625 ]


In [None]:
# 삼각 함수

d = np.array([0, np.pi/2, np.pi])
sin_ = np.sin(d)
cos_ = np.cos(d)
tan_ = np.tan(d)

print(sin_)
print(cos_)
print(tan_)

[0.0000000e+00 1.0000000e+00 1.2246468e-16]
[ 1.000000e+00  6.123234e-17 -1.000000e+00]
[ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


## 배열의 연결과 분할

* 병합
1. np.concatenate()
2. vstack
3. hstack
---
* 분할
1. vsplit
2. hsplit 

In [None]:
print('a' + 'b')

ab


**concatenate**
```
np.concatenate([x1, x2], axis = 0) # 행방향 
np.concatenate([x1, x2], axis = 1) # 열방향
```

In [None]:
# np.concatenate([x1, x2], axis = )
x = [1, 2, 3]
y = [4, 5, 6]

concat = np.concatenate([x,y]) # default axis = 0 행방향 

print(concat)

[1 2 3 4 5 6]


In [None]:
x2 = [[1, 2], [3, 4]] # 2x2
y2 = [[4, 5], [6, 7]]

concat2 = np.concatenate([x2, y2], axis = 1) # 열방향
concat3 = np.concatenate([x2, y2], axis = 0) # 행방향
print(concat2) # 열방향
print(concat3) # 행방향

[[1 2 4 5]
 [3 4 6 7]]
[[1 2]
 [3 4]
 [4 5]
 [6 7]]


**hstack, vstack**
```
np.hstack([x1, x2]) # 열방향
np.vstack([x1, x2]) # 행방향
```

In [None]:
# np.hstack, np.vstack

x2 = [[1, 2], [3, 4]] # 2x2
y2 = [[4, 5], [6, 7]]

# hstack horizontal - 수평 방향은 열방향 
h = np.hstack([x2, y2])
print(h)

# vstack vertical - 수직 방향은 행방향 
v = np.vstack([x2, y2])
print(v)

[[1 2 4 5]
 [3 4 6 7]]
[[1 2]
 [3 4]
 [4 5]
 [6 7]]


**hsplit, vsplit **

```
# n 은 몇개로 나눌건지
np.hsplit(array, n) # 열방향
np.vsplit(array, n) # 행방향
```

In [None]:
x2 = np.array([[1, 2], 
                [3, 4], 
                [5, 6]])
print(x2.shape)
print(x2)
# hsplit
h2 = np.hsplit(x2, 2) # 2개로 나눠줘 
print(h2[0])
print(h2[1])

(3, 2)
[[1 2]
 [3 4]
 [5 6]]
[[1]
 [3]
 [5]]
[[2]
 [4]
 [6]]


In [None]:
# vsplit

x2 = np.array([[1, 2], 
                [3, 4], 
                [5, 6]])
v2 = np.vsplit(x2, 3)
print(v2)

[array([[1, 2]]), array([[3, 4]]), array([[5, 6]])]


In [None]:
data_ex = np.array([1, 2, 3, 4])

print(data_ex.dtype)

print(data_ex.astype(np.float16))

print(np.float16(data_ex))

int64
[1. 2. 3. 4.]
[1. 2. 3. 4.]


### 다양한 배열 만들기


In [None]:
# 영행렬 만들기.
zero = np.zeros([3, 4]) 
print(zero)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [None]:
# 일행렬 만들기.
one = np.ones([3, 4]) 
print(one)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [None]:
# 대각행렬 
eye = np.eye(3) 
print(eye)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


## Numpy 제공 함수 

### 범용함수

In [None]:
# np.abs()
arr1 = np.array([-1, -2, -3, -4])
ab_arr = np.abs(arr1)

print(ab_arr)

[1 2 3 4]


In [None]:
# np.sqrt()
arr2 = np.array([1, 4, 9, 16])
sqrt_arr2 = np.sqrt(arr2)
print(sqrt_arr2)

[1. 2. 3. 4.]


### 집계 함수

In [None]:
# np.mean()
a = np.array([1, 2, 3, 4, 5])
a_mean = np.mean(a)

print(a_mean)

3.0


In [None]:
# np.mean() + axis 
# 각 행의 평균과 각 열의 평군을 구하세요.
a = np.array([[1, 2, 3], [1, 2, 3], [6, 4, 7]])

print(f'각 행의 평균은 : {np.mean(a, axis = 1)}')
print(f'각 열의 평균은 : {np.mean(a, axis = 0)}')


각 행의 평균은 : [2.         2.         5.66666667]
각 열의 평균은 : [2.66666667 2.66666667 4.33333333]


In [None]:
# np.median()
b = np.array([1, 3, 5, 7, 9])

b_median = np.median(b)

print(b_median)

5.0


In [None]:
# np.std()
c = np.array([1, 2, 3, 4, 5])

c_std = np.std(c)
print(c_std)

1.4142135623730951


In [None]:
# np.var()
d = np.array([1, 2, 3, 4, 5])
d_var = np.var(d)
print(d_var)

2.0


In [None]:
# np.sum()
d = np.array([1, 2, 3, 4, 5])
d_sum = np.sum(d)

print(d_sum)

15


In [None]:
# np.cumsum()
d = np.array([1, 2, 3, 4, 5])

d_cumsum = np.cumsum(d)

print(d_cumsum)

[ 1  3  6 10 15]


In [None]:
# np.min(), np.argmin()
d_min = np.min(d)
print(d_min)
d_min_idx = np.argmin(d)
print(d_min_idx)

1
0


In [None]:
# np.max(), np.argmax()
d_max = np.max(d)

d_max_idx = np.argmax(d)


In [None]:
# np.any()
a = np.array([0, 0, 0, 1])

a_true = np.any(a) # a안에 하나라도 True가 있는지 확인해준다.

print(a_true)

True


In [None]:
# np.all()
a_all = np.all(a) # a안에 모든 값들이 1이거나 True이면 True

print(a_all) 

### NaN

In [None]:
# NaN
# np.nansum()
# np.nanstd()

a = np.array([1, 2, np.nan, 4])
print(np.sum(a))

a_nsum = np.nansum(a) # nan값을 0으로 계산한다.
print(a_nsum)

print(np.nanstd(a))

nan
7.0
1.247219128924647


### np.where()

In [None]:
# np.where()
d = np.array([1, 2, 3, 4, 5])

condition1 = np.where(d < 3)
condition2 = np.where(d < 3, d, 0)

print(condition1)
print(condition2)

(array([0, 1]),)
[1 2 0 0 0]


### Boolean indexing

- 조건에 따른 요소들을 판별해서 새로운 배열을 만든다.

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) # 원본 데이터 

even_a = a[a % 2 == 0]

print(even_a)
print(a)

[ 2  4  6  8 10]
[ 1  2  3  4  5  6  7  8  9 10]


In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) # 원본 데이터 
def odd_num(x):
    answer = []
    for i in x:
        if i % 2 == 0:
            pass
        else:
            answer.append(i)
    return answer
odd_a = a[odd_num(a)]
print(odd_a)

[ 2  4  6  8 10]


### Broadcast(브로드 캐스트)

- 크기가 다른 배열 간의 연산도 가능하게 해줌.
- ex) 1차원, 2차원 간의 연산을 가능하게 함.


In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

c = a + b
print(c)

[5 7 9]


In [None]:
d = np.array([[1], [2], [3]])
e = np.array([4, 5, 6])
f = d + e

print(f)

[[5 6 7]
 [6 7 8]
 [7 8 9]]


- 두 배열의 차원수가 다를 경우, 더 작은 차원의 배열에 큰 차원의 배열이 맞을 때까지 1을 추가한다.
- 두 배열의 차원 수가 같을 경우에도, 크기가 1인 차원이 있다면 다른 배열의 크기와 일치하도록 복제된다.
- 두 배열의 차원 수가 같은 경우에도, 모든 차원의 크기가 같거나 크기가 1이라면 모양이 같은 두 배열의 요소 간 연산을 한다.

- 두 배열의 차원의 크기가 같다 -> 그냥 계산
- 두 배열의 차원이 다르고 한 배열의 차원이 1차원(벡터)
- 차원이 늘렸을 때 계산이 가능한 경우!

In [None]:
np.arange(3).reshape(1,3) + np.arange(3).reshape(3,1)

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

## 행렬의 곱


* \* 별연산

* @ 행렬곱

* . 내적

In [None]:
import numpy as np

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[1, 2], [3, 4]])
print(a * b) # 2X2 * 2X2 

c = np.array([[1], [2]])

print(a @ c) # 2X2 * 2X1 = 2X1



[[ 1  4]
 [ 9 16]]
[[ 5]
 [11]]


In [None]:
print(a * c)
print(c * a)

[[1 2]
 [6 8]]
[[1 2]
 [6 8]]


## 난수 생성 함수 

- random

In [None]:
import numpy as np


In [None]:
a = np.random.rand(2, 2) # 0 ~ 1 사이에 값 랜덤하게 뽑아준다 
print(a)

[[0.1323497  0.05547105]
 [0.58940448 0.90116616]]


In [None]:
b = np.random.randn(2, 2) # 평균이 0, 분산이 1
print(b)


[[-0.1645265   0.70516583]
 [-0.92667902 -1.01824535]]


In [None]:
c = np.random.randint(0, 10, size = 5) # 0에서 10사이의 정수값을 5개 뽑아줘.
print(f'c의 값: {c}')

c2 = np.random.randint(0, 10, size = (2, 2)) # 0에서 10사이의 정수값을 2x2 행렬로 뽑아줘.
print(f'c2의 값: {c2}')

c의 값: [6 4 2 1 4]
c2의 값: [[4 3]
 [4 5]]


In [None]:
d = np.arange(5) # 0~9 까지 값을 생성
np.random.shuffle(d) # 복사 본 생성이 되지 않는다. 원본값이 변한다.
print(d)

[3 1 0 2 4]


In [None]:
# choice = np.random.choice(d, 5) # 중복을 허용한다.

# choice = np.random.choice(d, 5, raplace = False) # 중복을 허용하지 않는다.

choice = np.random.choice(d, 5, p = [0.1, 0, 0.3, 0.2, 0.4]) # d의 개수와 p의 갯수가 같아야한다.
                                                             # 전체 확률 p의 합이 1이 되어야한다.
print(choice)

In [None]:
# permutation 순열 

a = np.arange(10)
print(np.random.permutation(a))

[2 3 6 1 8 0 9 7 4 5]


In [None]:
# 정규분포를 따르는 난수 생성 
# a = np.random.normal('평균', '표준편차', '갯수')

a = np.random.normal(0, 1, 3)
print(a)

[-0.77202712  2.13535004  0.72230785]


## 연습문제


In [None]:
import numpy as np

In [None]:
# 4.1 주어진 여러 개의 1차원 배열을 연결하여 하나의 큰 1차원 배열로 반환하세요.

arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
arr3 = np.array([7, 8, 9, 10])

arr_a = np.concatenate([arr1, arr2, arr3])
print(arr_a)

[ 1  2  3  4  5  6  7  8  9 10]


In [None]:
# 4.2 주어진 2차원 배열에서 각 열의 평균값을 계산하여 새로운 1차원 배열로 나타내세요.
arr = np.array([[1, 2, 3], 
                [4, 5, 6],
                [7, 8, 9]])

#print(np.mean(arr, 0)) # 행방향
#print(np.mean(arr, 1)) # 열방향 

print(np.mean(arr, axis = 0))

[4. 5. 6.]


In [None]:
# 4.3 주어진 2차원 배열에서 각 행의 최대값을 구하여 1차원 배열로 반환하세요.

print(np.max(arr, axis = 1))

[3 6 9]


In [None]:
# 4.4 0에서 1사이의 값으로 크기 10개의 1차원 배열을 만들어주세요.


print(np.linspace(0, 1, 10))

[0.         0.11111111 0.22222222 0.33333333 0.44444444 0.55555556
 0.66666667 0.77777778 0.88888889 1.        ]


In [None]:
# 4.5 주어진 1차원 배열에서 짝수인 요소들의 합을 계산하는 함수 sum_of_evens를 작성하세요.
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

def sum_of_evens(arr):
    answer = 0
    for i in arr:
        if i % 2 == 0:
            answer += i
    return answer 
print(sum_of_evens(arr))

30


In [None]:
# 4.6 수평분할, 수직분할, 수평 스택, 수직 스택 문제를 풀어봅시다.

arr = np.arange(1, 13).reshape((3, 4))
print(arr)

# 1. 수평분할하기 -> 다시원본으로 스택쌓기

arr1 = np.hsplit(arr, 2)
print(arr1)
arr2 = np.hstack([arr1[0],arr1[1]])
print(arr2)

# 2. 수직분할하기 -> 다시 원본으로 스택쌓기 

arr3 = np.vsplit(arr, 3)
print(arr3)
arr4 = np.vstack([arr3[0],arr3[1],arr3[2]])
print(arr4)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[array([[ 1,  2],
       [ 5,  6],
       [ 9, 10]]), array([[ 3,  4],
       [ 7,  8],
       [11, 12]])]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[array([[1, 2, 3, 4]]), array([[5, 6, 7, 8]]), array([[ 9, 10, 11, 12]])]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [None]:
# 4.7 배열에서 조건에 맞는 값 반환하는 문제를 풀어봅시다.
# 조건: 값을 10으로 나누었을 때 나머지가 0이면 원래 값 풀력, 아니면 0으로 출력하세요.
arr = np.arange(0, 100, 5).reshape((5,4))

print(np.where(arr % 10 == 0, arr, 0))

[[ 0  0 10  0]
 [20  0 30  0]
 [40  0 50  0]
 [60  0 70  0]
 [80  0 90  0]]


In [None]:
# 4.8 [3x3]배열 lst 중 짝수만 뽑아내는 부울린 인덱싱 배열(numpy 배열)을 사용하여 짝수 배열 n을 만드시오.
lst = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

a = np.array(lst)

print(a[a % 2 == 0 ])

[2 4 6 8]


In [None]:
# 4.9 각도를 이용해서 삼각함수를 만들어 봅시다.

angle = np.pi/3 # 라디안 표기 = 60도
# 360도는 2라디안 으로, 180도는 1라디안으로 표현합니다.

print(np.sin(angle))
print(np.cos(angle))
print(np.tan(angle))

0.8660254037844386
0.5000000000000001
1.7320508075688767


In [None]:
# 4.10 조건함수를 사용해서 짝수조건을 만족하는 요소의 값이 2배로 만드는 배열을 만드시오.

arr = np.array([1, 2, 3, 4, 5])

print(np.where(arr % 2 == 0, arr * 2, arr))

[1 4 3 8 5]
