# Numpy는


### => NumPy is the fundamental package for scientific computing with Python

![image.png](attachment:image.png)- 성능이 좋은 n차원 배열

- C, Fortran 으로 작성된 함수를 파이썬으로 연동하여 쓸 수 있도록 구성.

- 기본 python 의 array 자료구조인 list 보다 빠른 연산을 지원하고 메모리를 효율적으로 사용.

- 유용한 선형 대수, 난수 생성 기능을 제공


# 1. python list vs numpy array

In [1]:
list(range(5))

[0, 1, 2, 3, 4]

In [2]:
import numpy as np

np.array([1,2,3,4,5])

array([1, 2, 3, 4, 5])

## 2. numpy array 만들기

In [3]:
# 1 차원 array
np.array([1,2,3,4,5])

array([1, 2, 3, 4, 5])

In [4]:
# 1 차원 array dtype을 명시적으로 지정

In [5]:
np.array([1,3,4,5], dtype=float)

array([1., 3., 4., 5.])

In [7]:
# 2차원 array
arr2 = np.array([[1,2],[3,4]])

In [9]:
# array 의 모양 확인하기
arr2.shape

(2, 2)

In [14]:
# 3차원
arr3 = np.array([[[1,2,3], [4,5,6]], [[3,2,1], [4,5,6]]], dtype = float)

In [15]:
arr3.shape

(2, 2, 3)

## 3. 다양한 배열을 만드는 방법

In [16]:
# 모든 element의 value를 0으로 생성
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [22]:
# 모든 element의 value를 1로 생성
np.ones((4,3,5),dtype=np.int16)

array([[[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]],

       [[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]],

       [[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]],

       [[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]]], dtype=int16)

In [23]:
# 모든 element의 원하는 value로 생성
np.full((2,2),7)

array([[7, 7],
       [7, 7]])

In [19]:
# (N, N) shape의 단위 행렬(Unit Matrix)을 생성
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [26]:
# 요소의 초기화 과정을 없애고, 기존 메모리값을 그대로 사용. 가장 빠르게 배열을 생성하는 방법.
np.empty((4,2))

array([[-1.28822975e-231, -3.11109593e+231],
       [ 2.47032823e-323,  0.00000000e+000],
       [ 0.00000000e+000,  0.00000000e+000],
       [-1.28822975e-231, -4.34242466e-311]])

In [30]:
# 어떤 범위의 수로 array를 생성할 때
np.arange(0,10,1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [33]:
# 난수의 array 생성
np.random.random((2,2,3))

array([[[0.97219949, 0.69638972, 0.31127013],
        [0.0259763 , 0.23188931, 0.26807073]],

       [[0.85747495, 0.92109978, 0.05445891],
        [0.58370111, 0.07840511, 0.28920787]]])

In [36]:
# normalize 된 value의 array 생성
np.random.normal(0,1, (2,2,))

array([[1.82179607, 0.29651702],
       [1.04268467, 1.11237002]])

In [38]:
# int 타입의 난수 array 생성

In [40]:
np.random.randint(0,20,(2,2,1))

array([[[ 9],
        [ 4]],

       [[12],
        [12]]])

In [41]:
# log 스케일의 일정 간격으로 array 생성
np.logspace(0.1, 1, 20, endpoint=True)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

# 4. array information 확인하기

In [44]:
example = np.random.random((2,3))

print(example)

[[0.55054523 0.0325436  0.75658731]
 [0.59436372 0.72867484 0.88763276]]


In [45]:
# 차원
example.ndim

2

In [46]:
# shape
example.shape

(2, 3)

In [47]:
# size
example.size

6

In [48]:
# dtype
example.dtype

dtype('float64')

# 5. indexing & slicing

- indexing: 인덱스 값으로 값을 찾아내는 것.
- slicing: 인덱스 값으로 배열의 부분을 나눠서 가져오는 것

In [50]:
# indexing

x = np.arange(5)

In [52]:
print(x, x[1], x[2])

[0 1 2 3 4] 1 2


In [53]:
# slicing
x = np.arange(10)

In [54]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [55]:
x[2:]

array([2, 3, 4, 5, 6, 7, 8, 9])

In [56]:
x[3:7]

array([3, 4, 5, 6])

In [57]:
x[:3]

array([0, 1, 2])

# 6. array 의 모양 바꾸기

### reshape -> array의 shape를 변경하는 메서드
### concatenate -> array 를 이어 붙이는 메서드
### split -> axis 축을 기준으로 나눌 수 있음

In [59]:
# reshape
x = np.ones(8)

x.shape

(8,)

In [60]:
reshape_x = x.reshape((2,2,2))

reshape_x.shape

(2, 2, 2)

In [61]:
# concatenate 

x = np.array([1,3,5])
y = np.array([2,4,6])

np.concatenate([x,y])

array([1, 3, 5, 2, 4, 6])

In [63]:
# concatenate 는 axis 축을 명시해서 해당 축을 기준으로 이어붙일 수 있음

mat = np.arange(4).reshape(2,2)
np.concatenate([mat, mat], axis=0)

array([[0, 1],
       [2, 3],
       [0, 1],
       [2, 3]])

In [64]:
np.concatenate([mat,mat], axis=1)

array([[0, 1, 0, 1],
       [2, 3, 2, 3]])

In [70]:
# split

mat = np.arange(16).reshape(4,4)

mat

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [71]:
upper, lower = np.split(mat, [3], axis=0)

print(upper, lower)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] [[12 13 14 15]]


In [73]:
left, right = np.split(mat, [3], axis=1)
print(left, right)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]] [[ 3]
 [ 7]
 [11]
 [15]]


# 7. 기본 연산

## - list for 루프 연산과 비교.
## - 행렬간 연산
## - 브로드캐스팅


In [91]:
# list for 연산과 비교

## example -> 모든 배열의 원소에 +1 을 만드는 함수

# if python list

python_list = [1]*100000

def add_one_to_list(python_list):
    for i in range(len(python_list)):
        python_list[i] +=1
    return python_list
%time add_one_to_list(python_list)

CPU times: user 9.63 ms, sys: 846 µs, total: 10.5 ms
Wall time: 9.71 ms


[2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,
 2,


In [92]:
# if numpy array

numpy_array = np.ones(100000)
numpy_array +=1

In [93]:
%time numpy_array +=1

CPU times: user 255 µs, sys: 85 µs, total: 340 µs
Wall time: 217 µs


In [94]:
# 기본 연산

x = np.arange(3)

print(x+7)
print(x-7)
print(x*7)
print(x/7)

[7 8 9]
[-7 -6 -5]
[ 0  7 14]
[0.         0.14285714 0.28571429]


In [100]:
# 행렬간 연산

a = np.arange(1,5,1)
b = np.arange(4,0,-1)

In [101]:
print(a,b)

[1 2 3 4] [4 3 2 1]


In [103]:
a + b

array([5, 5, 5, 5])

In [104]:
a - b

array([-3, -1,  1,  3])

In [105]:
# broadcasting -> shape가 다른 array 간의 연산

In [106]:
mat = np.arange(9).reshape(3,3)
mat

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [107]:
mat + 5

array([[ 5,  6,  7],
       [ 8,  9, 10],
       [11, 12, 13]])

In [108]:
mat + np.array([1,2,3])

array([[ 1,  3,  5],
       [ 4,  6,  8],
       [ 7,  9, 11]])

In [109]:
np.arange(3) + np.arange(3).reshape(3,1)

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

# 8. numpy array의 통계 관련 함수

In [110]:
# array 통계 관련 함수

example = np.arange(9).reshape(3,3)

print("최대값: {}, 최소값: {}, 총 합: {}, 평균 값: {}".format(
    np.max(example), np.min(example), np.sum(example), np.mean(example) ))

최대값: 8, 최소값: 0, 총 합: 36, 평균 값: 4.0


In [111]:
# axis 별 합계

print(example)

print(np.sum(example, axis=0))

print(np.sum(example, axis=1))

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[ 9 12 15]
[ 3 12 21]


# 9. masking 연산

#### masking 연산은 판정식을 통해서 true, array 리스트를 만들어서 특정 조건의 값만 추출.

In [112]:
x = np.array([1,3,5,7,9])

In [113]:
x < 3

array([ True, False, False, False, False])

In [114]:
x > 5

array([False, False, False,  True,  True])

In [116]:
x[x<6]

array([1, 3, 5])