In [1]:
# 라이브러리 불러오기
import numpy as np

In [2]:
# Numpy 객체 정보를 확인하기 위한 사용자 함수 정의 : 객체타입, 구조, 차원, 데이터타입
def np_print(arr):
    text="""
    type : {}
    shape : {}
    dimension : {}
    dtype : {}
    data : \n {}""".format(type(arr), arr.shape, arr.ndim, arr.dtype, arr)
    print(text)

#### (참고) 데이터가 퍼져있는 정도를 나타내는 개념

1. 편차(std/sd) : 단위에 대한 보정이 들어가 있지 않아서 상대적인 비교가 어려움
2. 변동계수(cv) : 편차/평균
    - 두 개 이상의 변수(서로 다른 단위를 사용하는 경우)에 대해 데이터가 퍼져있는 정도를 파악하는 경우

In [3]:
# a 데이터 생성
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
a = np.arange(1, 10).reshape(3, 3)
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [4]:
# 표준편차 - 가로축 기준(axis = 1)
a.std(axis=1)

array([0.81649658, 0.81649658, 0.81649658])

In [5]:
# 표준편치 - 세로축 기준(axis = 0)
a.std(axis=0)

array([2.44948974, 2.44948974, 2.44948974])

In [6]:
a.std()

2.581988897471611

In [7]:
# 고유값(대표값) - 전체값에 적용
# numpy 함수 : np.unique(arr)
np.unique(a)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [8]:
# 0이상 3이하의 정수값을 가지는 3행 3열 배열 생성
g = np.random.randint(0, 4, (3, 3))
np_print(g)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : int32
    data : 
 [[2 3 2]
 [0 2 2]
 [1 2 1]]


In [9]:
np.unique(g)

array([0, 1, 2, 3])

In [10]:
# 고유값 - 가로축 기준
# 하나의 가로축에 대하여 구성 요소 조합이 고유한 가로축으로 반환
np.unique(g, axis=1)

array([[2, 2, 3],
       [0, 2, 2],
       [1, 1, 2]])

In [11]:
np_print(g)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : int32
    data : 
 [[2 3 2]
 [0 2 2]
 [1 2 1]]


In [12]:
# 고유값 - 세로축 기준
# 하나의 가로축에 대하여 구성 요소 조합이 고유한 가로축으로 반환
np.unique(g, axis=0)

array([[0, 2, 2],
       [1, 2, 1],
       [2, 3, 2]])

#### 브로드캐스팅(BroadCasting)

- 서로 다른 구조(shape)를 가진 배열에 대해 연산을 수행할 때 구조를 맞추는 과정
- 배열과 스칼라값 간의 연산
- 배열과 배열 간의 연산
- 브로드캐스팅 규칙 : 축의 길이가 일치하거나 둘 중 하나의 길이가 1인 두 배열에 대해 호환성을 가짐
<img src='img/broadcast.png' width='600' height='400' align='left'>

In [14]:
# 사용할 배열 객체 확인
b = np.arange(4, 13).reshape(3, 3)
np_print(a)
np_print(b)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : int32
    data : 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]

    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : int32
    data : 
 [[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [15]:
a + b

array([[ 5,  7,  9],
       [11, 13, 15],
       [17, 19, 21]])

#### 1. 배열과 값(single value, scala)

- 스칼라 값을 배열의 구조와 동일한 배열로 변형하여 연산 수행

In [16]:
# 구조가 다른 배열 간의 연산
# a 배열의 모든 요소에 각각 10씩 더하기
# 10을 (1, 1)로 보고 a에 맞춰줌
a + 10

array([[11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

In [17]:
# 스칼라 -> 배열 변형
# 3행 3열 구조에 모든 요소가 10인 배열 생성
scalar_arr = np.full_like(a, 10)
np_print(scalar_arr)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : int32
    data : 
 [[10 10 10]
 [10 10 10]
 [10 10 10]]


In [18]:
a + scalar_arr

array([[11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

#### 2. 서로 다른 구조의 배열

- 행, 열의 최대 길이를 기준으로 구조를 생성한 배열로 변형하여 연산 수행
- 확장된 행, 열에 대해서 기존 배열과 동일한 데이터로 구성

In [19]:
# 1행 4열의 구조에서 1, 2, 3, 4를 값으로 가지는 배열 x 생성
# 4행 1열의 구조에서 1, 2, 3, 4를 값으로 가지는 배열 y 생성
x = np.arange(1, 5).reshape(1, 4)
y = np.arange(1, 5).reshape(4, 1)

np_print(x)
np_print(y)


    type : <class 'numpy.ndarray'>
    shape : (1, 4)
    dimension : 2
    dtype : int32
    data : 
 [[1 2 3 4]]

    type : <class 'numpy.ndarray'>
    shape : (4, 1)
    dimension : 2
    dtype : int32
    data : 
 [[1]
 [2]
 [3]
 [4]]


In [20]:
# 배열 x를 동일한 값으로 4행으로 확장한 새로운 배열 생성
# 행 방향으로 배열 추가(세로 길이 증가) 메서드 : np.append(arr1, arr2, arr3)
new_x = np.append(x, x, axis=0)
new_x

array([[1, 2, 3, 4],
       [1, 2, 3, 4]])

In [21]:
new_x = np.append(new_x, new_x, axis=0)
new_x

array([[1, 2, 3, 4],
       [1, 2, 3, 4],
       [1, 2, 3, 4],
       [1, 2, 3, 4]])

In [22]:
# 배열 y를 동일한 값으로 4열로 확장한 새로운 배열 생성
# 열 방향으로(가로 방향으로) 배열 추가 베서드 : np.append(arr1, arr2, arr3)
new_y = np.append(y, y, axis=1)
new_y

array([[1, 1],
       [2, 2],
       [3, 3],
       [4, 4]])

In [23]:
new_y = np.append(new_y, new_y, axis=1)
new_y

array([[1, 1, 1, 1],
       [2, 2, 2, 2],
       [3, 3, 3, 3],
       [4, 4, 4, 4]])

In [24]:
# 1행 4열의 배열과 4행 1열의 배열의 브로드캐스팅 연산
print(x)
print(y)
print(x + y)

[[1 2 3 4]]
[[1]
 [2]
 [3]
 [4]]
[[2 3 4 5]
 [3 4 5 6]
 [4 5 6 7]
 [5 6 7 8]]


In [25]:
# 4행 4열로 확장된 x, y 간의 연산과 동일
new_x + new_y

array([[2, 3, 4, 5],
       [3, 4, 5, 6],
       [4, 5, 6, 7],
       [5, 6, 7, 8]])

### 벡터 연산 

- 요소들에 대한 연산을 벡터 연산으로 처리하면 일반적인 for반복문으로 연산 작업을 처리하는 것보다 월등히 뛰어난 처리 속도로 효율적인 작업 가능

In [27]:
# 0부터 시작하여 1000000개 요소를 가진 배열 생성
x = np.arange(0, 1000000) # x = np.arange(1000000)도 가능
x

array([     0,      1,      2, ..., 999997, 999998, 999999])

In [28]:
%%time
# 해당 셀을 수행하는데 소요된 시간을 재주는 주피터노트북 명령어
# 셀의 가장 상단에 위치(주석 포함해서 모든 구문보다 위에 있어야 함)

# 반복문을 통한 합계
# 시간 단위 : 1s = 1,000ms(밀리세컨드) = 1,000,000us(마이크로 세컨드)
loop_result = 0
for i in x :
    loop_result += i
loop_result

Wall time: 141 ms


  


1783293664

In [29]:
%%time # ns : 10억분의 1
# 벡터 연산(넘파이명령어)를 통한 합계 연산
np.sum(x)

Wall time: 0 ns


1783293664

In [30]:
%%time
x.sum()

Wall time: 998 µs


1783293664