### Numpy

- C언어로 구현된 라이브러리로, 고성능 수치계산을 위한 기능 제공
- 행렬 기반 계산에 유용한 라이브러리 입니다.

> PyTorch의 문법은 numpy와 유사하고, numpy도 데이터 과학을 위해 꼭 정리해야 하는 라이브러리

### 파이썬 리스트와 numpy
- 파이썬 리스트는 행렬 기반 계산에는 활용하기 어려움
- numpy 행렬 연산은 C언어로 구현된 내부 코드로 실행되므로, 파이썬에 비해 속도가 빠름

In [1]:
data1 =[1,2,3]
data2 = [4,5,6]

data1 + data2

[1, 2, 3, 4, 5, 6]

In [2]:
import numpy as np

### ndarray

- numpy의 핵심은 ndarray 클래스
- ndarray는 다차원 행렬 자료 구조 지원
- ndarray와 파이썬 리스트 차이점
    - 파이썬 리스트
        - 리스트 내에 각 원소의 타입이 다를 수 있음
        - 내부 연결 리스트로 구현되어, 각 원소의 저장 위치가 다를 수 있음
    - numpy ndarray
        - 각 원소의 타입이 동일함
        - 각 원소가 이어진 메모리 공간에 배치됨
        - 메모리 및 계산 속도 최적화

### ndarray 생성

In [3]:
data1 = np.array([1,2,3])
print(data1, type(data1))

[1 2 3] <class 'numpy.ndarray'>


In [4]:
data1.shape # 형태 확인

(3,)

In [5]:
data1.ndim # 배열의 차원을 나타냄

1

In [6]:
data2 = np.array([[1,2,3],[4,5,6]])
print(data2.shape, data2.ndim)

(2, 3) 2


In [7]:
print(data1.dtype, data2.dtype)

int64 int64


In [None]:
print(data1.size, data2.size) # 데이터 사이즈(원소 갯수 제공)

3 6


In [11]:
data3 = np.array([[1.,2.,3.],[4.,5.,6.]])
print(data3.shape, data3.ndim, data3.dtype, data3.size)

(2, 3) 2 float64 6


### reshape() : 배열 구조 변경

In [12]:
data3 = np.array([1,2,3,4,5,6])
print(data3)
data3 = data3.reshape(3,2)
print(data3)
data3 = data3.reshape(3,-1)
print(data3)

[1 2 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]]
[[1 2]
 [3 4]
 [5 6]]


### numpy 데이터 타입
- 크게는 정수형(int), 실수형(float), 복소수형(complex), 논리형(bool)으로 분류할 수 있음
    - 숫자형
        - 정수형
        - 부호 없는 정수형
        - 부동소수형
        - 복소수형
    - 문자형
    - 부울형

- 데이터 타입 지정 방법1 : dtype = np.Type 으로 지정하는 방법

In [14]:
data4 = np.array([[1,2,3],[4,5,6]], dtype=np.float64)
print(data4.shape, data4.ndim, data4.size)

(2, 3) 2 6


- 데이터 타입 지정 방법2 : np.Type([xx,xx]) 으로 지정하는 방법

In [16]:
data4 = np.float64([[1,2,3],[4,5,6]])
print(data4, data4.dtype)

[[1. 2. 3.]
 [4. 5. 6.]] float64


- 데이터 타입 변환 (astype)

In [19]:
data4 = np.float64([[1,2,3],[4,5,6]])
print(data4, data4.dtype)
data4 = data4.astype(dtype=np.int64)
print(data4, data4.dtype)


[[1. 2. 3.]
 [4. 5. 6.]] float64
[[1 2 3]
 [4 5 6]] int64


In [21]:
data4 = np.float64([[1,2,3],[4,5,6]])
print(data4)
data4 = data4.T
print(data4)

[[1. 2. 3.]
 [4. 5. 6.]]
[[1. 4.]
 [2. 5.]
 [3. 6.]]


numpy.transpose()
- 원하는 대로 축을 한번에 여러개를 변경

In [25]:
data = np.arange(6).reshape(1,2,3)
print(data, data.shape)
print(np.transpose(data), np.transpose(data).shape)
print(np.transpose(data,(1,2,0)), np.transpose(data,(1,2,0)).shape)

[[[0 1 2]
  [3 4 5]]] (1, 2, 3)
[[[0]
  [3]]

 [[1]
  [4]]

 [[2]
  [5]]] (3, 2, 1)
[[[0]
  [1]
  [2]]

 [[3]
  [4]
  [5]]] (2, 3, 1)


In [26]:
np.arange(6)

array([0, 1, 2, 3, 4, 5])

In [28]:
np.linspace(1,5,3)

array([1., 3., 5.])

### zeros() , ones(), full() : 특정 값으로 배열 생성
- np.zeros(shape) : 0 값으로 shape 모양의 배열 생성
- np.ones(shape) : 1 값으로 shape 모양의 배열 생성
- np.full(shape, fill_value) : 지정한 값(fill_value)으로 shape 모양의 배열 생성

In [29]:
np.zeros(shape=(2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [30]:
np.ones(shape=(3,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [31]:
np.full(shape=(4,2), fill_value=5)

array([[5, 5],
       [5, 5],
       [5, 5],
       [5, 5]])

### random.rand()와 random.randn()

- np.random.rand(shape) : 0부터 1 사이에 균일한 확률 분포로 실수 난수로 shape 모양의 배열 생성
- np.random.randn(shape) : 기댓값이 0이고, 표준편차가 1인 가우시안 표준 정규 분포를 따르는 실수 난수로 shape 모양의 배열 생성

In [33]:
print(np.random.rand(3,2))
print(np.random.randn(3,2))

[[0.64875919 0.15245328]
 [0.12533127 0.41375729]
 [0.96571117 0.55836396]]
[[ 0.70116256 -2.41999782]
 [ 2.19781496  0.15900017]
 [ 0.22438069 -2.47571321]]


ndarray 연산

- 본래 행렬 곱셈은 앞 행렬의 행 갯수와 뒷 행렬의 열 갯수가 같아야 행렬간 곱셈이 가능하지만
- ndarray 연산은 shape가 동일해야 하고 행과 열이 같은 값끼리 연산이 됨

In [34]:
data1 = np.array([[1,2,3],[4,5,6]])
data2 = np.array([[1,2,3],[4,5,6]])

print(data1 + data2)
print(data1 - data2)
print(data1 * data2)
print(data1 / data2)
print(data1 % data2)
print(data1 // data2)


[[ 2  4  6]
 [ 8 10 12]]
[[0 0 0]
 [0 0 0]]
[[ 1  4  9]
 [16 25 36]]
[[1. 1. 1.]
 [1. 1. 1.]]
[[0 0 0]
 [0 0 0]]
[[1 1 1]
 [1 1 1]]


In [42]:
data1 = np.array([[1,2],[3,4],[5,6]])
print("data1 : ",data1.dtype, data1.shape) # data1 의 데이터 타입은 int64이고, 3행 2열의 2차원 행렬이다. metrix
print(data1 + 1) # numpy의 boardcasting
data2 = np.array([[1],[2],[3]])
print("data2 : ",data2.dtype, data2.shape) # data2 의 데이터 타입은 int64이고, 3행 1열의 2차원 행렬이다. metrix
print(data1 + data2) # 3행 2열의 행렬이 생겨난다 
data3 = np.array([[1,2,3]]) 
print("data3 : ",data3.dtype, data3.shape) # data3 의 데이터 타입은 int64이고, 1행 3열의 2차원 행렬이다. metrix
print(data2 + data3)



data1 :  int64 (3, 2)
[[2 3]
 [4 5]
 [6 7]]
data2 :  int64 (3, 1)
[[2 3]
 [5 6]
 [8 9]]
data3 :  int64 (1, 3)
[[2 3 4]
 [3 4 5]
 [4 5 6]]


### 행렬 곱셈 @

- 앞 행렬의 행의 갯수와 뒷 행렬의 열의 갯수가 같아야 행렬간 곱셈이 가능

In [43]:
data1 = np.random.randn(3,2)
data2 = np.random.randn(2,3)

data1 @ data2

array([[ 0.40020305, -0.46906052,  0.93884427],
       [-1.39361921,  1.68010181, -0.57975394],
       [-0.43200897,  0.54456391,  1.18794025]])

In [47]:
data3 = np.array([[1,2,3],[4,5,6]])
print(data3)
print(data3[1,1])
print(data3[:,1]) # 슬라이싱은 : 전체를 의미 -> 모든 행의 0 1 2 중에 1열을 가져옵니다.
print(data3[:,:])
print(data3[:1,:2]) # 0번째 행의 0 1열의 값을 가져옵니다.

[[1 2 3]
 [4 5 6]]
5
[2 5]
[[1 2 3]
 [4 5 6]]
[[1 2]]


**boolean indexing**

- 조건 필터링과 검색을 동시에 할 수 있어서, 유용하게 쓰이는 인덱싱 기법

In [50]:
data1 = np.array([[1,2,3],[4,5,6]])
data2 = data1 > 3
print(data2)

print(data1[data2])

[[False False False]
 [ True  True  True]]
[4 5 6]


**fancy indexing**

- 다른 배열로 배열을 인덱싱할 수 있는 기능
- 이를 통해, 복잡한 배열 값의 하위 집합을 빠르게 접근할 수 있음

In [51]:
data1 = np.random.randn(3,2)
print(data1)

[[-1.61471692 -0.14848574]
 [-0.83536895  0.50354243]
 [ 0.62080257  0.19917329]]


In [54]:
print(data1[[1,0,2]])
print(data1[[1,-1]])

[[-0.83536895  0.50354243]
 [-1.61471692 -0.14848574]
 [ 0.62080257  0.19917329]]
[[-0.83536895  0.50354243]
 [ 0.62080257  0.19917329]]


In [63]:
# 특정 행과 열만 가져오기

print(data1[[1,2]][:, [0]])

[[-0.83536895]
 [ 0.62080257]]
