# Numpy

데이터 분석, 머신러닝, 딥러닝 등의 분야에서 가장 시간이 많이 걸리고 품을 들여야 하는 것이 데이터의 수집과 정제

데이터 분석의 결과 혹은 기계학습의 결과가 좋으려면 양질의 데이터를 입력해야한다.

- Numpy: Numerical Python. 수치 계산에 특화
    - Pandas: 데이터 분석 모듈
    - Matplotlib: 데이터 시각화 모듈
- Pandas, Matplotlib의 base가 되는 기본 자료구조를 제공

뒤로 가면 Numpy를 직접적으로 사용할 일은 많지 않을 것임. Pandas, Matplotlib의 내부 자료 구조로 numpy가 활용되는 것이기 때문.

numpy가 제공하는 자료구조 **ndarray**  
n-dimensional array - 다차원배열  
많은 양의 데이터를 보다 적은 메모리 공간만을 이용해 빠르게 처리하기 위해 리스트 대신 다차원배열을 활용하는 것.

In [3]:
# numpy는 외부 모듈이므로 설치 후 import가 필요
# conda install numpy

import numpy as np # alias 'np'

print('numpy imported!')

numpy imported!


In [6]:
a = [1, 2, 3, 4, 5] # 파이썬 리스트
print(a) # [1, 2, 3, 4, 5]

b = np.array([1, 2, 3, 4, 5]) # 리스트를 가지고 ndarray를 만든다
print(b) # [1 2 3 4 5] 1차원 ndarray

print(type(b)) # <class 'numpy.ndarray'> 리스트와 완전히 다른 객체

# ndarray의 특징
# list 안에는 어떤 타입이든 막 들어올 수 있었다.
c = [1, 3.14, '홍길동', True]

# 그러나 ndarray에는 반드시 같은 데이터 타입만 들어갈 수 있다.
d = np.array([1, 2, 3.14, 4, 5])
print(d) # [1.   2.   3.14 4.   5.  ] 모든 값이 실수로 변환되었다.
print(d.dtype) # float64. ndarray를 이루는 데이터의 타입 반환

[1, 2, 3, 4, 5]
[1 2 3 4 5]
<class 'numpy.ndarray'>
[1.   2.   3.14 4.   5.  ]
float64


In [13]:
# ndarray와 list의 가장 큰 차이는 차원을 표현할 수 있다는 것

myList = [[1, 2, 3], [4, 5, 6]] # 중첩 리스트
print(myList)

arr = np.array(myList) # 2차원 배열로 2차원 행렬을 표현
print(arr)

print(arr[0, 1]) # 2 / 0행 1열

print(arr[0]) # [1 2 3] / 1차원의 ndarray / 0행 전체

print(arr[0][1]) # 따라서 [n, m]을 [n][m]으로 써도 같은 값이 반환된다. 그렇지만 전자처럼 쓰는게 좋다.

[[1, 2, 3], [4, 5, 6]]
[[1 2 3]
 [4 5 6]]
2
[1 2 3]
2


In [21]:
# ndarray의 중요한 속성

arr = np.array([1, 2, 3, 4])
print(arr) # [1 2 3 4]
print(arr.dtype) # int32
print(arr.ndim) # 차원 / 1
print(arr.shape) # 많이 사용하는 속성. 형태를 파악할 수 있는 속성을 튜플로 나타냄. 튜플로부터 차원 수, 요소의 개수 알 수 있음
                 # ( N차원 요소 개수, N-1차원 요소 개수 )

b = [[1, 2], [3, 4], [5, 6]]
arr = np.array(b)
print(arr.shape) # (3, 2) / 3행 2열 / 전체 6개 데이터

[1 2 3 4]
int32
1
(4,)
(3, 2)


In [7]:
a = 10 # 스칼라Scalar (0차원 데이터)
b = [10, 20, 30, 40] # 벡터Vector (1차원) **물론 개념상의 구분임. list 자료구조에는 차원 개념이 없음
c = [ # 행렬Matrix (2차원)
    [1, 2, 3],
    [4, 5, 6]
]
d = [ # 3차원
    [
        [1, 3, 5],
        [7, 9, 11]
    ],
    [
        [2, 4, 6],
        [8, 10, 12]
    ]
]

# 벡터에 대해
# 수학, 물리에서는 방향성을 가진 물리량을 벡터라고 칭하지만,
# 여기서는 1차원 데이터 집합을 벡터로 지칭한다.

# 다차원 행렬에 대해
# 데이터를 다루는데 있어서 3차원 이상의 행렬을 사용할 일이 있는가?
# 대표적인 3차원 행렬이 이미지이다. 세로, 가로, 색상정보로 이루어지게 된다.
# 이미지로 이루어진 배열은 4차원 행렬로 다루어야 한다.

arr = np.array(b)
print('1차원')
print(arr)
print()

arr = np.array(c)
print('2차원')
print(arr)
print()

arr = np.array(d)
print('3차원')
print(arr)
print()
print(arr.shape) # (2, 2, 3) = 2면 2행 3열
                 # 튜플의 요소 개수 3개 -> 3차원
                 # 각 튜플은 각 차원의 요소 수를 의미
                 # 3차원 2개 / 2차원 2개 / 1차원 3개
                 # 모두 곱하면 전체 요소 수

1차원
[10 20 30 40]

2차원
[[1 2 3]
 [4 5 6]]

3차원
[[[ 1  3  5]
  [ 7  9 11]]

 [[ 2  4  6]
  [ 8 10 12]]]

(2, 2, 3)


In [12]:
# ndarray를 만드는 기본 방법: numpy.array()

# 영행렬 numpy.zeros(shape_tuple)
print('numpy.zeros((3, 4))')
# 인자로 주어진 shape에 해당하는 배열을 만들고 0으로 채운다.
arr = np.zeros((3, 4)) # 3행 4열
print(arr)
# [[0. 0. 0. 0.]
# [0. 0. 0. 0.]
# [0. 0. 0. 0.]]
print()

# 범위 numpy.arange(start, end, step)
# 특정 범위에 해당하는 1차원 배열 출력
print('numpy.arange(0, 10, 2)')
arr = np.arange(0, 10, 2) # 기본 클래스인 range와 다름
print(arr) # [0 2 4 6 8]
# 주의: 범위에 대한 개념을 가지고 있는 range와 다르게, numpy.arange는 실제 해당 범위의 값을 메모리에 할당하여 가지고 있음

numpy.zeros((3, 4))
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

numpy.arange(0, 10, 2)
[0 2 4 6 8]


In [44]:
# ndarray.reshape(n, m [, o])
# ndarray를 특정 형태로 변형

print('# arr')
arr = np.arange(0, 12, 1) # 1차원 ndarray
print(arr)
print()

print('# arr.reshape(2, 6)')
arr_reshaped = arr.reshape(2, 6)
print(arr_reshaped)
print()

print('# reshaped ndarray share values with original ndarray')
print('arr[-1] = 100')
arr[-1] = 100
print('arr')
print(arr)
print('arr_reshaped')
print(arr_reshaped) # reshape된 ndarray에도 값이 변해있음.
                    # 즉, ndarray.reshape는 원본 데이터를 복사하는 것이 아니라,
                    # 기존 데이터로부터 형태만 바꿔서 보여주는 것이라고 보면 됨.
                    # 데이터는 여전히 원본이 가지고 있음.
                    # 따라서 이를 view라고 부름
print()

print('# reshape to 3 demensional matrix')
print('# arr.reshape(2, 2, 3)')
arr_reshaped = arr.reshape(2, 2, 3) # 2면 2행 3열
print(arr_reshaped)
print()

print('# reshape but fix the number of columns')
print('arr.reshape(-1, 2)')
arr_reshaped = arr.reshape(-1, 2)
print(arr_reshaped)
print()

print('# or you can fix the number of rows')
print('arr.reshape(3, -1)')
arr_reshaped = arr.reshape(3, -1)
print(arr_reshaped)
print()

print('# and ok with 3 dimensional matrix')
print('arr.reshape(-1, 2, 2)')
arr_reshaped = arr.reshape(-1, 2, 2)
print(arr_reshaped)
print()

print('# but should not ambiguous')
print('arr.reshape(-1, 3, -1)')
try:
    arr_reshaped = arr.reshape(-1, 3, -1)
    print(arr_reshaped)
except ValueError as e:
    print('an exception throwed: ')
    print(e)
print()

# arr
[ 0  1  2  3  4  5  6  7  8  9 10 11]

# arr.reshape(2, 6)
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]

# reshaped ndarray share values with original ndarray
arr[-1] = 100
arr
[  0   1   2   3   4   5   6   7   8   9  10 100]
arr_reshaped
[[  0   1   2   3   4   5]
 [  6   7   8   9  10 100]]

# reshape to 3 demensional matrix
# arr.reshape(2, 2, 3)
[[[  0   1   2]
  [  3   4   5]]

 [[  6   7   8]
  [  9  10 100]]]

# reshape but fix the number of columns
arr.reshape(-1, 2)
[[  0   1]
 [  2   3]
 [  4   5]
 [  6   7]
 [  8   9]
 [ 10 100]]

# or you can fix the number of rows
arr.reshape(3, -1)
[[  0   1   2   3]
 [  4   5   6   7]
 [  8   9  10 100]]

# and ok with 3 dimensional matrix
arr.reshape(-1, 2, 2)
[[[  0   1]
  [  2   3]]

 [[  4   5]
  [  6   7]]

 [[  8   9]
  [ 10 100]]]

# but should not ambiguous
arr.reshape(-1, 3, -1)
an exception throwed: 
can only specify one unknown dimension



In [55]:
# 1차원 ndarray의 indexing과 slicing

arr = np.arange(0, 5, 1)
print('whole:')
print(arr) # [0 1 2 3 4]

print('\nlast value / arr[-1]')
print(arr[-1]) # 4

print('\nslicing / arr[0:2]')
print(arr[0:2]) # [0 1]

print('\nslicing / arr[2:-1]')
print(arr[2:-1]) # [2 3]

print('\nslicing / arr[0::2]') # arr[start:end:step]
print(arr[0::2]) # [0 2 4]

whole:
[0 1 2 3 4]

last value / arr[-1]
4

slicing / arr[0:2]
[0 1]

slicing / arr[2:-1]
[2 3]

slicing / arr[0:2]
[0 2 4]


In [61]:
# 2차원 ndarray의 indexing과 slicing

arr = np.arange(1, 17, 1).reshape(4, 4)
print(arr)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]
#  [13 14 15 16]]

print('\nindexing (1, 2)')
print(arr[1, 2]) # 7

print('\nindexing + slicing (1, 2:4)')
print(arr[1, 2:4]) # [7 8] (1차원 ndarray)

print('\nindexing + slicing (:, 2)')
print(arr[:, 2]) # [ 3  7 11 15] 모든 행에 대해 2번째 값들을 가져오기



[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]

indexing (1, 2)
7

indexing + slicing (1, 2:4)
[7 8]

indexing + slicing (:, 2)
[ 3  7 11 15]


In [67]:
# Boolean indexing
# indexing에 Boolean mask를 이용
# 예> arr[boolean_mask]

arr = np.arange(0, 5, 1)
print(arr)

# Boolean mask는 인덱싱을 적용할 ndarray와 shape이 같으며,
# Bool 값을 가지는 ndarry
boolean_mask = np.array([True, False, True, True, False])

print()
print(arr)
print(boolean_mask)
print(arr[boolean_mask]) # [0 2 3]

# boolean_mask가 True인 위치의 값들만 걸러져 반환되었다.

[0 1 2 3 4]

[0 1 2 3 4]
[ True False  True  True False]
[0 2 3]


In [72]:
# [참고] ndarray의 연산 기초

arr = np.array([1, 2, 3, 4, 5])
print(arr)

arr1 = np.array([5, 4, 3, 2, 1])
print(arr1)

print(arr + arr1) # [6 6 6 6 6] / 연결되는 것이 아니라, 행렬의 덧셈이 이뤄짐

print(arr > arr1) # [False False False  True  True] / 위치마다 각 값이 비교됨 -> Boolean mask로 사용 가능

[1 2 3 4 5]
[5 4 3 2 1]
[6 6 6 6 6]
[False False False  True  True]


In [78]:
# Boolean indexing (이어서)

# 짝수만 뽑기
arr = np.arange(0, 10, 1)
print(arr[arr % 2 == 0]) # [0 2 4 6 8]

[0 2 4 6 8]


In [88]:
# Fancy indexing

arr = np.arange(0, 12, 1).reshape(3, 4).copy() # 값을 복사했으므로 뷰가 아닌 실제 값의 집합

print(arr)
# [[ 0  1  2  3]
#  [ 4  5  6  7]
#  [ 8  9 10 11]]

# 일반적인 인덱싱
print(arr[2, 2]) # 10 (스칼라)
print(arr[1:2, 2]) # [6] / 한 쪽만 슬라이싱이므로 1차원 ndarray가 반환됨 (벡터)
print(arr[1:2, 1:2]) # [[5]] / 두 쪽 모두 슬라이싱이므로 2차원  ndarray가 반환됨 (행렬)
print()

# [0 1 2]
# [4 5 6]
# 을 뽑아내려면,
print(arr[:2, :-1]) # -1 마지막열은 배제
print()

# 그럼,
# [0 2]
# [4 6]
# 을 뽑아내려면, => Fancy indexing 사용
print(arr[:2, [0, 2]]) # 추출하고 싶은 인덱스를 리스트로 넣어줌
# => EDA(Exploratory Data Analysis, 탐색적 데이터 분석)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
10
[6]
[[5]]

[[0 1 2]
 [4 5 6]]

[[0 2]
 [4 6]]


In [100]:
# ndarray의 연산

arr = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

arr1 = np.arange(1, 7, 1).reshape(3, 2)
arr2 = np.arange(1, 7, 1).reshape(2, 3)
print(arr1, '\n')
print(arr2)

try:
    print(arr1 + arr2) # ValueError: operands could not be broadcast together with shapes (3,2) (2,3) 
except ValueError as e:
    print('ValueError', e)
    print('연산을 수행하려면 shape이 무조건 가능해아 함')

[[1 2]
 [3 4]
 [5 6]] 

[[1 2 3]
 [4 5 6]]
ValueError operands could not be broadcast together with shapes (3,2) (2,3) 
연산을 수행하려면 shape이 무조건 가능해아 함


In [107]:
arr = np.array([1, 2, 3, 4, 5])
print(arr)
print(arr + 3) # shape가 달라서(1차원/0차원) 연산이 불가할 것같지만,
               # arr + [3, 3, 3, 3, 3]와 같이 차원을 높여줌.
               # 이러한 과정을 브로드캐스팅 Braodcating이라고 부름
# [1 2 3 4 5]
# [4 5 6 7 8]
print()
        
        
arr = np.arange(0, 6, 1).reshape(2, 3)
print(arr + 3)
# [[3 4 5] \2차원 배열로 브로드캐스팅됨.
# [6 7 8]]
print()

arr1 = np.array([1, 2, 3])
print(arr)
print(arr + arr1)

[1 2 3 4 5]
[4 5 6 7 8]

[[3 4 5]
 [6 7 8]]

[[0 1 2]
 [3 4 5]]
[[1 3 5]
 [4 6 8]]


In [120]:
# 행렬곱연산 (Matrix Multiplication)
# 기본적인 사칙연산, 비교연산 외에 행렬곱연산도 가능.
# 머신러닝에서 사용되므로 알아야함.

arr1 = np.array([
    [1, 2],
    [3, 4],
    [5, 6]
])
print(arr1)
print()

arr2 = np.array([
    [1, 2],
    [3, 4]
])
print(arr2)
print()

print(np.dot(arr1, arr2)) # 행렬곱

[[1 2]
 [3 4]
 [5 6]]

[[1 2]
 [3 4]]

[[ 7 10]
 [15 22]
 [23 34]]


In [134]:
# 집계함수와 축
# for문보다 훨씬 빠름

arr = np.arange(1, 6, 1)
print(arr)

# 합계
print(arr.sum()) # 15

# 평균 (산술평균)
print(arr.mean()) # 3.0

# 최대값
print(arr.max()) # 5

# 최대값의 인덱스
print(arr.argmax()) # 4

# 축(axis)
# n차원 ndarray는 축이 n개
# 축을 0부터 시작하는 수로 표현함 (1차원 축 1개 -> 0번 축) (2차원 축 2개 -> 0번 축, 1번 축)

## 1차원 ndarray의 축
print(arr.sum(axis=0), end='\n\n') # 0번 축(열 방향)의 진행 방향으로 진행하는 값의 합계

## 2차원 ndarray의 축
arr = np.arange(1, 7, 1).reshape(2, 3)
print(arr)
# [[1 2 3]
# [4 5 6]]

print(arr.sum()) # axis를 생략하면 기본값으로 축에 상관 없이 합계를 구함
# 21

# 2차원 ndarray의 축
# 1. 행이 증가하는 방향의 축 => 0번 축 (위에서 아래로)
# 2. 열이 증가하는 방향의 축 => 1번 축 (왼쪽에서 오른쪽으로)
#
# *이때 0번 축이 1차원 ndarray에서는 열 방향 축이었는데, 2차원 ndarray에서는 행 방향 축이 되었음에 주의.
# 축의 번호는 차원에 따라 변하게 됨

print(arr.sum(axis=0)) # 행방향(위에서 아래로)으로 더하면 값이 3개가 나옴. 1차원 ndarray 반환.
# [5 7 9]

print(arr.sum(axis=1)) # 열방향(왼쪽에서 오른쪽로)으로 더하면 값이 2개가 나옴. 1차원 ndarray 반환.
# [ 6 15]

[1 2 3 4 5]
15
3.0
5
4
15

[[1 2 3]
 [4 5 6]]
21
[5 7 9]
[ 6 15]


In [137]:
# 예제

# 다음의 2차원 ndarray에서, 10보다 큰 값의 합을 구하라

arr = np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12],
    [13, 14, 15, 16]
])

print(arr[arr > 10])
print(arr[arr > 10].sum()) # 답: 81

[11 12 13 14 15 16]
81
