# Numpy

- 수치해석용으로 만들어진 모듈
  - ML/DL에서 많이 사용
  - 판다스도 자료의 기본 타입은 numpy를 사용
- 수학적 계산을 돕기 위해 만들어진 라이브러리

In [1]:
import numpy as np

# Numpy에서 지원하는 타입

1. array(배열)
   - 통계분석이나 ML/DL에서 많이 사용
   - 파이썬 리스트와는 다름
2. matrix
   - 수학적 계산이 필요한 경우에 많이 사용

## 베열의 기본 속성

- ndim
  - 배열의 차원
- shape
  - 배열의 크기를 나타내고, 배열의 크기는 원소의 개수와 동일
  - 배열의 모양은 튜플로 표현


### 1차원 배열
- 파이썬 리스트와 거의 동일

In [9]:
arr1D = np.array([1,2,3,4])
arr1D

array([1, 2, 3, 4])

자료의 차원 확인은 매우 중요
    - 자료의 차원이 다르면, 알고리즘이 동작하지 않음
    - 자료의 차원을 고려해서 사용해야 함

In [10]:
arr1D.ndim #배열의 차원

1

In [11]:
arr1D.shape #배열의 크기(모양)

(4,)

### 2차원 배열
- 주로 다루게 되는 배열이 2차원
- 리스트와 동일하게 배열의 원소로 배열을 갖는 배열 정도로 이해

In [5]:
arr2D = np.array([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])
arr2D

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [6]:
arr2D.ndim

2

In [7]:
arr2D.shape #(행, 열)

(3, 3)

# 배열의 특징

- 인덱싱, 슬라이싱(******)
- 팬시 인덱싱
- 배열의 타입
- 넘파에서만 정의되는 특별한 타입

## 배열의 인덱싱과 슬라이싱
- 리스트와 비슷하지만 표현은 다름 
- 기본적인 개념은 리스트와 동일 

In [12]:
display( arr1D )
display( arr1D[0] )
display( arr1D[1] )
display( arr1D[-1] )

array([1, 2, 3, 4])

1

2

4

In [13]:
#배열도 이터레이블 객체
#리스트가 아니기 때문에 리스트에서 제공하는 메소드들은 사용 불가
for x in arr1D:
  print(x)

1
2
3
4


In [14]:
#내장 함수는 사용 가능
display( min( arr1D ) )
display( max( arr1D ))

1

4

In [15]:
# 슬라이스도 리스트때 처럼 동일하게 사용
display( arr1D[:] )
display( arr1D[::-1] )

array([1, 2, 3, 4])

array([4, 3, 2, 1])

### 2차원 배열의 인덱싱과 슬라이싱
- 인덱싱은 다음과 같이 표현
$$
  array[행, 열]
$$

- 슬라이스는 행과 열을 각각 정의

$$
  array[행시작:행끝, 열시작:열끝]
$$

In [16]:
# 2차원 배열의 인덱스
display( arr2D )
display( arr2D[0, 0] )
display( arr2D[0, 1] )
display( arr2D[1, 1] )

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

1

2

5

In [17]:
# 배열은 행우선 인덱스를 제공
# 판다스와 같은 경우 열 우선 인덱스를 제공
display( arr2D[0] )
display( arr2D[0,])
display( arr2D[0, :])

array([1, 2, 3])

array([1, 2, 3])

array([1, 2, 3])

In [18]:
# 열만 인덱싱 할 수는 없고, 슬라이스를 활용
# 전체 행에 대해서 슬라이스를 한 이후에 열을 선택
display( arr2D )
display( arr2D[:, 1])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

array([2, 5, 8])

In [19]:
# 슬라이스를 잘 활용하면 행과 열을 동시에 슬라이스
display( arr2D )
display( arr2D[1:, 1:])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

array([[5, 6],
       [8, 9]])

## 팬시 인덱싱(배열 인덱싱)
- 인덱스로 배열을 사용
  - 불리언 배열: 불리언(True, False)로 이루어진 배열
  - 정수 배열: 정수로 이루어진 배열

In [20]:
# 불리언 인덱스
# 배열에서 True에 해당하는 값만 선택
# 불리언 배열을 조건에 부합하는 결과만 선택할 수 있도록 생성해서 사용
display( arr1D )
arr1D[ np.array([True, False, True, False]) ] # 배열의 크기와 인덱스 배열의 크기는 동일

array([1, 2, 3, 4])

array([1, 3])

In [21]:
# 정수 배열
# 배열에서 원하는 인덱스를 배열로 생성
# 중복 선택이 가능, 배열의 크기와 인덱스 배열의 크기가 달라도 상관 없음
display( arr1D )
idx = np.array([1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 2, 1, 1, 1])
arr1D[ idx ]

array([1, 2, 3, 4])

array([2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4,
       4, 3, 2, 2, 2])

## 배열의 타입
- 리스트와는 다르게 배열은 타입을 가짐 
  - 리스트는 여러개의 타입을 원소로 가질 수 있음
  - 배열은 하나의 타입만 원소로 가질 수 있음 
- 배열은, 배열이 생성될 때, 원소들의 타입을 보고 기본적인 자료의 타입을 결정

In [30]:
arr1D.dtype

dtype('int32')

파이썬은 숫자를 표현하는데 한계가 없음 
- 라이브러리들은 파이썬만으로만 만들어져있지 않음 
  - 속도를 빠르게 하기 위해서 C, C++ 등의 다른 언어로 만들어진 내용도 파이썬에서는 사용이 가능
  - 자료의 표현도 한계 발생 가능

In [28]:
# 원소의 타입이 여러개라면
# 가장 큰 타입을 기본 타입으로 결정
# 타입이 결정되면, 나머지 값들도 결정된 기본타입을 따르게됩니다. 
arr = np.array([1, 2, 3, 4, 5.0])
display(arr)
display(arr.dtype)

array([1., 2., 3., 4., 5.])

dtype('float64')

In [31]:
# 배열을 생성할 때, 타입을 직접 결정
arr = np.array([1, 2, 3, 4, 5], dtype=np.float32 )
display( arr )
display( arr.dtype )

array([1., 2., 3., 4., 5.], dtype=float32)

dtype('float32')

## 넘파이에서만 정의되어 있는 특별한 타입 
- 파이썬은 이런 타입 x
- inf
  - 표현할 수 없는 값
  - 함수가 수렴하지 않고, 발산하는 경우(inf, -inf)
- NaN(Not a Number)
  - 결측치를 표현(비어있는 값)
  - 값을 표현할 수 없는 경우

In [32]:
display( type( np.NaN ) )
display( np.array([0]) / np.array([0]) )
display( type(np.inf) )
display( np.log(0) )

float

  display( np.array([0]) / np.array([0]) )


array([nan])

float

  display( np.log(0) )


-inf

# 배열을 생성하는 방법

## 초기화된 배열
- 0과 1만 특별히 취급
- 원소가 전부 0이거나, 전부 1인 경우에는 선형대수에서는 특별하게 취급

In [33]:
# 0으로 초기화된 배열
np.zeros(10, dtype=np.int)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  np.zeros(10, dtype=np.int)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [34]:
# 1로 초기화된 배열
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [35]:
# 0과 1이 아닌 다른값으로 초기화 하고 싶은 경우
np.full(10, 5)

array([5, 5, 5, 5, 5, 5, 5, 5, 5, 5])

## 수열을 생성하는 방법
- range와 같은 역할
- arange
  - 실수(소수)에 대한 수열도 생성 가능

In [36]:
np.arange(1, 10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [37]:
np.arange(1, 2, 0.1)

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

In [38]:
# 주어진 구간에서, 갯수만큼 균등한 간격으로 수열을 생성
# 마지막 원소를 포함
display( np.linspace(0, 10, 11) )
display( np.linspace(1, 2, 100) )

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

array([1.        , 1.01010101, 1.02020202, 1.03030303, 1.04040404,
       1.05050505, 1.06060606, 1.07070707, 1.08080808, 1.09090909,
       1.1010101 , 1.11111111, 1.12121212, 1.13131313, 1.14141414,
       1.15151515, 1.16161616, 1.17171717, 1.18181818, 1.19191919,
       1.2020202 , 1.21212121, 1.22222222, 1.23232323, 1.24242424,
       1.25252525, 1.26262626, 1.27272727, 1.28282828, 1.29292929,
       1.3030303 , 1.31313131, 1.32323232, 1.33333333, 1.34343434,
       1.35353535, 1.36363636, 1.37373737, 1.38383838, 1.39393939,
       1.4040404 , 1.41414141, 1.42424242, 1.43434343, 1.44444444,
       1.45454545, 1.46464646, 1.47474747, 1.48484848, 1.49494949,
       1.50505051, 1.51515152, 1.52525253, 1.53535354, 1.54545455,
       1.55555556, 1.56565657, 1.57575758, 1.58585859, 1.5959596 ,
       1.60606061, 1.61616162, 1.62626263, 1.63636364, 1.64646465,
       1.65656566, 1.66666667, 1.67676768, 1.68686869, 1.6969697 ,
       1.70707071, 1.71717172, 1.72727273, 1.73737374, 1.74747

## 무작위 배열을 생성하는 방법
- 랜덤
  - 파이썬(넘파이)은 랜덤은 `균등분포`를 의미

In [39]:
# 균등분포를 통해서 정해진 갯수만큼 수를 생성
# 랜덤하기 때문에, 실행할 때마다 매번 다른 값이 생성
np.random.rand(10)

array([0.68700183, 0.15169406, 0.95539223, 0.09725837, 0.89360646,
       0.83632956, 0.24359958, 0.47067047, 0.49953817, 0.61270898])

In [40]:
# 정수 형태로 무작위수를 생성
np.random.randint(0, 10, size=10)

array([7, 3, 3, 3, 1, 2, 1, 4, 6, 0])

In [41]:
# 무작위로 생성되는 수를 고정
np.random.seed(123)
np.random.rand(10)

array([0.69646919, 0.28613933, 0.22685145, 0.55131477, 0.71946897,
       0.42310646, 0.9807642 , 0.68482974, 0.4809319 , 0.39211752])

In [42]:
# 중복되지 않은 무작위 수를 생성
arr = np.arange(1, 11)
np.random.choice(arr, size=5, replace=False)

array([ 3,  2,  9,  8, 10])

# 배열의 모양
- 저차원의 배열을 고차원의 배열로 변경 
- 고차원의 배열을 저차원의 배열로 변경
  - 저차원은 1차원 배열로 변경이 가능합니다. 
- 변경전의 크기와 변경 후의 크기가 달라지면 안됩니다. 
  - 자료의 개수가 반드시 일치

저차원 배열을 고차원 배열로 변경

In [43]:
arr1D = np.random.randint(0, 10, size=4)
arr1D

array([7, 3, 2, 4])

In [44]:
display( arr1D.reshape(2, 2) )
display( arr1D.reshape(4, 1) )

# 열의 크기를 정해놓으면 나머지는 자동으로 계산
display( arr1D.reshape(-1, 2) )
display( arr1D.reshape(-1, 1) )

array([[7, 3],
       [2, 4]])

array([[7],
       [3],
       [2],
       [4]])

array([[7, 3],
       [2, 4]])

array([[7],
       [3],
       [2],
       [4]])

고차원의 배열을 저차원으로 변경

In [45]:
arr2D = np.random.randint(1, 10, size=(3, 3) )
arr2D

array([[8, 3, 5],
       [9, 1, 8],
       [4, 5, 7]])

In [46]:
display( arr2D.flatten() )
display( arr2D.ravel() )

# 열 기준으로 변경
display( arr2D.flatten(order='F') )

array([8, 3, 5, 9, 1, 8, 4, 5, 7])

array([8, 3, 5, 9, 1, 8, 4, 5, 7])

array([8, 9, 4, 3, 1, 5, 5, 8, 7])

# 넘파이를 이용한 연산
- 기본적인 연산

## 자료의 형태
- 스칼라(Scalar)
- 벡터(Vector)
- 행렬(Matrix)

### 스칼라
- 물리학에서는 양(Volumn, Magnitude)을 표현
- 방향이 없고, 물리적인 `양`만을 표현
- 파이썬에서는 변하지 않는 상수(숫자) 정도

$$
  10, [[1]]
$$

### 벡터
- 물리학에서는 방향성을 가지고 있는 형태
- 파이썬에서 행이 n개이고, 열이 1인 형태의 배열
  - 행벡터와 열벡터가 있는데, 일반적으로 벡터라고 하면 열벡터를 의미

In [47]:
# 넘파이에서는 1차원 배열이 행벡터가 됩니다.
vector = np.random.randint(1, 10, size=5)
vector

array([2, 6, 7, 3, 2])

In [48]:
vector.reshape(-1, 1)

array([[2],
       [6],
       [7],
       [3],
       [2]])

### 행렬(Matrix)
- 여러개의 벡터가 모여서 하나의 행렬을 이루게 입니다.

In [49]:
# 행이 n개이고, 열이 m개인 배열을 행렬이라고 보면 됨
mat = np.random.randint(1, 10, size=(3, 5) )
mat

array([[9, 4, 6, 1, 3],
       [7, 3, 5, 5, 7],
       [4, 1, 7, 5, 8]])