# NumPy

## 1. About Numpy

#### 파이썬은 원래 계산에 특화된 언어가 아니다
#### 하지만 과학 계산 라이브러리 NumPy를 통해 데이터 과학, 수치해석, 머신러닝 등 다양한 분야에 적용이 가능해졌다.

> NumPy는
- Numerical Python의 약자로 전신은 Numerical
- C언어로 구현되어 빠른 처리 속도 보유
- 2005년 Travis Oliphant가 공개
- 가장 주목할 기능은 ndarray(N_dimensional Array)를 활용한 다차원 벡터화 연산(array내의 각 원소를 한번에 처리)
- 기본적으로 array 단위로 데이터를 관리/연산
- Linked list형태인 리스트 객체와 달리 np.array내 원소의 자료형(dtype)은 하나로 고정(R의 Matrix, Vector/Array)와 비교
- 이는 원소들이 연속적인 메모리 배치를 갖으며 발생하는 현상으로, 사용은 제한적이나 빠른 내부처리 속도 보유

# 2. NumPy의 자료형(dtype)

- bool
- int
- int8/16/32/64
- uint8/16/32/64
- float
- float16/32/64
- complex64/128
- string
- object
- unicode

# 3.NumPy 객체의 주요 속성(attribute)- np.array(= np.ndarray)

In [3]:
import numpy as np      
        

> ndarray.shape
- 객체의 행, 열 정보를 반환(m행, n열)

> ndarray.size
- 객체의 크기(# of elements)를 반환(m * n)

> ndarray.dtype
- 객체의 data type를 반환

> ndarray.ndim
- 객체(배열)의 차원을 반환

# 4. NumPy활용(np.array)

## 4.1. 객체 생성

### 4.1.1 객체 생성 기본

In [10]:
# np 라이브러리에서 array 클래스(틀, 설계도)로 정수(integer)1,2,3,4를 담은 객체 만들기
np_vector = np.array([1,2,3,4], dtype = np.int)

# 생성된 np_vector의 arrtibutes 확인하기
[np_vector.shape, np_vector.size, np_vector.dtype, np_vector.ndim]

# shape: 몇 행 몇 열
# size: 행 * 열
# dtype: 형태, 안에 element의 자료형은 일정함.
# ndim

[(4,), 4, dtype('int32'), 1]

In [4]:
# 1~12를 담은 객체 만들기
np_matrix = np.array([[1,2,3,4],
                      [5,6,7,8],
                      [9,10,11,12]], dtype = np.int64)
# comma 다음 개행: 디버깅할 때 편리하고, 가독성이 좋고, 주석달기 편리. 

# 생성된 np_matrix의 attributes 확인하기
[np_matrix.shape, np_matrix.size, np_matrix.dtype, np_matrix.ndim]

[(3, 4), 12, dtype('int64'), 2]

### 4.1.2 함수를 이용해 객체 생성하는 법

In [19]:
# 1으로 채워진 객체
a = np.ones(9)
a.dtype

dtype('float64')

In [17]:
#0으로 채워진 객체
np.zeros(9)

array([0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [20]:
# range() 함수로 array 생성: [start, stop)
np.arange(0, 9)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [21]:
np.arange(0, 9, 2)  

array([0, 2, 4, 6, 8])

In [23]:
# random하게 균일하게 뽑기 -> 균등 분포
np.random.uniform(0,1,10)  # 0~1사이의 숫자 중 10개 뽑기

array([0.72781449, 0.92132232, 0.17713574, 0.25742496, 0.87986834,
       0.96343245, 0.83710977, 0.88940976, 0.46206371, 0.21009985])

In [25]:
# 단위 행렬: 대각행렬만 1, 나머지는 0
np.identity(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [26]:
# 대각성분을 지정하고, 나머지는 0으로 채우는 함수
np.diag([1,2,3,4])

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

In [30]:
np.eye(N = 3, M = 5, k = 0)  
# 정방행렬이 아닌 행렬을 만들어주기
# k: 어디부터 1로 채울 것인지 결정
# N = 행 수, M = 열 수

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

In [31]:
# 쓰레기 값으로 빈 행렬 만들기
np.empty((5,5))

array([[3.65560599e-316, 7.41098469e-322, 0.00000000e+000,
        0.00000000e+000, 1.29441743e-312],
       [1.15998412e-028, 2.44171989e+232, 8.00801729e+159,
        6.19319847e-071, 6.98345624e-077],
       [6.98345624e-077, 6.01391519e-154, 7.06673073e-096,
        7.06652016e-096, 7.18988929e+140],
       [6.01347002e-154, 6.98345625e-077, 6.98345627e-077,
        1.95360427e-109, 2.86752281e+161],
       [2.78225500e+296, 9.80058441e+252, 1.23971686e+224,
        6.80209914e-310, 5.73116149e-322]])

### 4.1.3 함수에 기존 객채를 넣어서 생성하는 방법

In [44]:
np_matrix = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]], dtype = np.int)
np_matrix

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [36]:
# 형태는 기존의 형태이지만, 성분은 1을 가진 array
np.ones_like(np_matrix)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

In [46]:
np.zeros_like(np_matrix)

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [48]:
np.diag(np_matrix, k = 1)  # k : 대각행렬 중 어느 요소부터 시작하는 것을 가지고 올 것인가?


array([ 2,  7, 12])

## 2.4 reshape

- 행렬을 원하는 형태로 변경할 때 사용

In [35]:
np_matrix.reshape(2, -1)  # -1: 

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [49]:
np_matrix.reshape(2, 6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [52]:
np_matrix.flatten()
# array를 1차원으로 바꾸기

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [53]:
np_matrix.flatten().reshape(3,4)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

## 4.3. indexint & slicing을 통한 접근과 변경

### 4.3.1. Indexing 

- 특정 열, 상황, 조건에 접근하기 위해 사용

In [56]:
np_matrix = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]], dtype = np.int)
np_matrix


array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [58]:
np_matrix[1,2]

7

In [59]:
np_matrix[1][2]

7

In [60]:
np_matrix[1,2] = 100

In [61]:
np_matrix

array([[  1,   2,   3,   4],
       [  5,   6, 100,   8],
       [  9,  10,  11,  12]])

### 4.3.2 slicing: 특정 조건, 열, 상황에 맞는 아이들을 추리히 위해 사용

In [63]:
np_matrix[0,]


array([1, 2, 3, 4])

In [5]:
Z = np.arange(1, 46).reshape(5, 9)
Z

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34, 35, 36],
       [37, 38, 39, 40, 41, 42, 43, 44, 45]])

In [67]:
Z[...]

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34, 35, 36],
       [37, 38, 39, 40, 41, 42, 43, 44, 45]])

In [70]:
Z[1,1]=1
Z

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10,  1, 12, 13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34, 35, 36],
       [37, 38, 39, 40, 41, 42, 43, 44, 45]])

In [6]:
Z[3::2, 3::2]

array([[31, 33, 35]])

In [7]:
Z[:,::2]

array([[ 1,  3,  5,  7,  9],
       [10, 12, 14, 16, 18],
       [19, 21, 23, 25, 27],
       [28, 30, 32, 34, 36],
       [37, 39, 41, 43, 45]])

In [9]:
Z[::2,::2]=1
Z

array([[ 1,  2,  1,  4,  1,  6,  1,  8,  1],
       [10, 11, 12, 13, 14, 15, 16, 17, 18],
       [ 1, 20,  1, 22,  1, 24,  1, 26,  1],
       [28, 29, 30, 31, 32, 33, 34, 35, 36],
       [ 1, 38,  1, 40,  1, 42,  1, 44,  1]])

In [11]:
Z[2:,2:] =1
Z

array([[ 1,  2,  1,  4,  1,  6,  1,  8,  1],
       [10, 11, 12, 13, 14, 15, 16, 17, 18],
       [ 1, 20,  1,  1,  1,  1,  1,  1,  1],
       [28, 29,  1,  1,  1,  1,  1,  1,  1],
       [ 1, 38,  1,  1,  1,  1,  1,  1,  1]])

In [12]:
Z[2:4, 2:4]

array([[1, 1],
       [1, 1]])

### 4.3.3 Fancy indexing for 1-dim Boolean array

In [74]:
np_vector = np.arange(1, 13, dtype = np.int)
np_vector

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [75]:
np_vector < 9

array([ True,  True,  True,  True,  True,  True,  True,  True, False,
       False, False, False])

In [77]:
np_vector[np_vector < 9]  # true에 해당하는 값이 반환

array([1, 2, 3, 4, 5, 6, 7, 8])

### 4.3.4 Fancy indexting for 2-dim Integer array

In [79]:
np_matrix = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]], dtype = np.int)

In [82]:
np_matrix[[1,2,1],[0,2,3]]

array([ 5, 11,  8])

## 4.4 객체 operation

### 4.4.1 1-dim array

In [14]:
np_vector = np.arange(1, 13, dtype = np.int)

In [15]:
np_vector.sum()

78

In [16]:
np.sum(np_vector)  # 객체 내 메소드를 사용하거나 패키지 내 함수를 사용하거나 결과는 똑같음.

78

In [85]:
np_vector.mean()

6.5

In [86]:
np_vector.std()

3.452052529534663

In [88]:
np_vector.max()

12

### 4.4.2. 2-dim array

- axis: 연산이 어느방향으로 진행되는지 알려주는 argument
- axis = 0 -> 행 방향/기준
- axis = 1 -> 열 방향/기준

In [91]:
np_matrix = np.array(np.arange(1, 13, dtype = np.int).reshape(3, 4))
np_matrix

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [93]:
np_matrix.sum(axis = 0)

array([15, 18, 21, 24])

In [94]:
np_matrix.sum(axis = 1)

array([10, 26, 42])

## 4.5. 복수 객체 Operation

### 4.4.1. 1-dim array

In [98]:
np_vector_1 = np.arange(1, 13, dtype = np.int)
np_vector_2 = np.arange(13, 25, dtype = np.int)


In [96]:
np_vector_1

array([13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24])

In [99]:
np_vector_2

array([13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24])

In [101]:
np_vector_1 + np_vector_2

array([14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36])

In [103]:
np_vector_1 - np_vector_2

array([-12, -12, -12, -12, -12, -12, -12, -12, -12, -12, -12, -12])

In [104]:
np_vector_1 / np_vector_2

# 값이 계속 커짐: 숫자적인 센스가 있어야 함.
# 분자와 분모의 증가량의 비율의 차이가 다르기 때문에 
# 같이 1씩 증가하지만, 작은수에서 1씩 더하는 것 : 큰 수에서 1씩 더하는 것 의 비율이 다름

array([0.07692308, 0.14285714, 0.2       , 0.25      , 0.29411765,
       0.33333333, 0.36842105, 0.4       , 0.42857143, 0.45454545,
       0.47826087, 0.5       ])

In [105]:
np_vector_1 * np_vector_2

array([ 13,  28,  45,  64,  85, 108, 133, 160, 189, 220, 253, 288])

In [106]:
np.dot(np_vector_1, np_vector_2.T)

1586

In [107]:
np.concatenate((np_vector_1, np_vector_2))

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24])

### 4.5.2. 2-dim array

In [110]:
np_matrix_1 = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]], dtype = np.int)
np_matrix_1

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [113]:
np_matrix_2 = np.arange(13, 25, dtype = np.int).reshape(3,4)
np_matrix_2

array([[13, 14, 15, 16],
       [17, 18, 19, 20],
       [21, 22, 23, 24]])

In [115]:
np_matrix_1 + np_matrix_2

array([[14, 16, 18, 20],
       [22, 24, 26, 28],
       [30, 32, 34, 36]])

In [116]:
np_matrix_1 - np_matrix_2

array([[-12, -12, -12, -12],
       [-12, -12, -12, -12],
       [-12, -12, -12, -12]])

In [117]:
np_matrix_1 / np_matrix_2

array([[0.07692308, 0.14285714, 0.2       , 0.25      ],
       [0.29411765, 0.33333333, 0.36842105, 0.4       ],
       [0.42857143, 0.45454545, 0.47826087, 0.5       ]])

In [119]:
np_matrix_2.T

array([[13, 17, 21],
       [14, 18, 22],
       [15, 19, 23],
       [16, 20, 24]])

In [17]:
np.dot(np_matrix_1, np_matrix_2.T)  # 행렬 곱 => 내적(곱해서 더하기)

NameError: name 'np_matrix_1' is not defined

In [121]:
np_matrix_1 @ np_matrix_2.T

array([[150, 190, 230],
       [382, 486, 590],
       [614, 782, 950]])

In [123]:
np.concatenate((np_matrix_1, np_matrix_2), axis = 0)  # 행 기준(방향)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [17, 18, 19, 20],
       [21, 22, 23, 24]])

In [18]:
# 열 방향/기준
np.concatenate((np_matrix_1, np_matrix_2), axis = 1)


NameError: name 'np_matrix_1' is not defined

## 4.6. Broadcasting 

- 원칙적으로 shape이 다른 array간의 연산은 불가능하나, broadiasting을 통해 자동으로 형태를 맞춰 연산 가능

In [20]:
np_matrix_1 = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]], dtype = np.int)
np_scala_1 = np.int(3)
np_vector_3 = np.array([1,2,3,4], dtype = np.int)
np_vector_4 = np.array([1,2,3], dtype = np.int)

In [23]:
np_matrix_1 + np_matrix_1

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24]])

In [25]:
np_matrix_1 - np_matrix_1

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [27]:
np_matrix_1 * np_matrix_1  # 원소들끼리 곱

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]])

In [28]:
np_matrix_1 / np_matrix_1  # 원소들끼리 나누기

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [32]:
# (3, 4) + (1, 4)
np_matrix_1 + np_vector_3.reshape(1, 4)

array([[ 2,  4,  6,  8],
       [ 6,  8, 10, 12],
       [10, 12, 14, 16]])

In [33]:
# (3, 4) + ((3, 1)
np_matrix_1 + np_vector_4.reshape(3, 1)

array([[ 2,  3,  4,  5],
       [ 7,  8,  9, 10],
       [12, 13, 14, 15]])

In [39]:
np_vector_3.reshape(4,1)

array([[1],
       [2],
       [3],
       [4]])

In [40]:
np_vector_4.reshape(1,3)

array([[1, 2, 3]])

In [38]:
# (4, 1) + (1, 3)
np_vector_3.reshape(4,1) + np_vector_4.reshape(1,3)


array([[2, 3, 4],
       [3, 4, 5],
       [4, 5, 6],
       [5, 6, 7]])

In [135]:
a = np.array(np.arange(1, 10, dtype = np.int)).reshape(3,3)
b = np.array([1,2,3], dtype = np.int)

In [136]:
a + b

array([[ 2,  4,  6],
       [ 5,  7,  9],
       [ 8, 10, 12]])

In [138]:
a + b.T

array([[ 2,  4,  6],
       [ 5,  7,  9],
       [ 8, 10, 12]])

## 4.7. 그 외 자주 사용하는 NumPy 함수들

### 4.7.1.np.where

In [139]:
np_matrix_1

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [141]:
np_vector_3

array([1, 2, 3, 4])

In [142]:
np.where(np_vector_3 >2) # 2가 넘는 인덱스

(array([2, 3], dtype=int64),)

In [143]:
np.where(np_vector_3, 10, 0)  # 조건에 따라 값을 할당. true = 10, flase = 0 할당

array([10, 10, 10, 10])

In [145]:
np.where(np_matrix_1 > 6)  # 6이 넘는 인덱스, (1, 2), (1, 3), (2, 0).......으로 읽기

(array([1, 1, 2, 2, 2, 2], dtype=int64),
 array([2, 3, 0, 1, 2, 3], dtype=int64))

In [147]:
np.where(np_matrix_1>6, 10, 0)  # ielif보다 더 편하고 직관적
# 조건에 해당하는 값을 할등

array([[ 0,  0,  0,  0],
       [ 0,  0, 10, 10],
       [10, 10, 10, 10]])

### 4.7.2 np.argmax/min
 
- 가장 큰 숫자의 인덱스를 반환

In [41]:
np.argmax(np_vector_3)

3

In [149]:
np.argmax(np_matrix_1)

11

In [150]:
np.argmax(np_matrix_1, axis = 0)   #각 열에서 인덱스가 2인 것이 가장 크다

array([2, 2, 2, 2], dtype=int64)

In [42]:
np.argmax(np_matrix_1, axis = 1)

array([3, 3, 3], dtype=int64)

## 4.8. 예외값 처리

- 예외값의 정의 및 분류에 대해 이해하고 이를 처리할 수 있음.

In [43]:
np.nan

nan

In [44]:
1- np.inf 

-inf

In [45]:
0 / 0  # 불가능한 상태

ZeroDivisionError: division by zero

In [46]:
np.inf / np.inf

nan

In [47]:
np.inf - np.inf

nan

In [48]:
0 * np.inf

nan

In [49]:
1/0

ZeroDivisionError: division by zero

In [50]:
-1/0

ZeroDivisionError: division by zero

In [52]:
# 자연로그, power
np.exp(709)  #e ** 709

8.218407461554972e+307

In [53]:
np.exp(810)

inf

In [54]:
np.exp(-np.nan)

nan

In [55]:
5 + np.nan

nan

In [56]:
5 + np.inf

inf

In [58]:
5 - np.inf

-inf

In [59]:
(3 + 5j) * np.nan

(nan+nanj)

In [60]:
x = np.nan

In [61]:
# nan 값인지 아닌지 확인
np.isnan(x)  

True

In [62]:
v5 = np.array([1,3,np.nan])

In [63]:
np.isnan(v5)

array([False, False,  True])

In [66]:
v5[~np.isnan(v5)] #nan 값이 아닌 값 출력

array([1., 3.])

In [68]:
np.sum(v5) # nan 값이 포함되어 있으므로 계산 불가


nan

In [76]:
# nan 값을 제외하고 더하기
np.nansum(v5)  # treat np.nan sa 0

4.0

In [71]:
np.sum(v5[~np.isnan(v5)])  # nan값이 아닌 값들만 더하기

4.0

In [73]:
np.prod(v5)  # nan 값을 곱하므로 결과는 nan

nan

In [75]:
# nan을 제외하고 곱 

np.nanprod(v5)

3.0