# Numpy
## What is Numpy?
<img src="https://numpy.org/doc/stable/_static/numpylogo.svg" width="400">

* 과학 및 공학 분야의 파이썬 프로그래밍에서 사용되는 오픈 소스 라이브러리
    * 데이터 분석 및 인공지능 구현 등에 사용
    * 행렬 형태로 구성된 데이터 조작에 용이
        * 대규모의 다차원 배열 조작도 포함
            * ex) Tensor
    * 빠르고 간단하게 데이터 처리 가능

## So why Numpy?
* 파이썬의 List의 경우 자료형의 상관없이 저장이 가능하기에 값을 저장하는 것이 아닌 주소를 저장
    * 해당 주소는 연속적이지 않음
    * 반면에 Numpy 배열의 경우 단일 자료형의 데이터만 취급하기 때문에 연속적으로 저장
* 아래 이미지를 통해 값의 접근하는 과정을 비교해 보자.
    * Numpy의 경우, 순서만 알면 바로 접근 가능하지만, List의 경우 해당 주소에 존재하는 객체에 접근하여 값을 찾아야 하기에 접근 과정이 번잡
    
<img src="https://i.stack.imgur.com/K26b0.png" width="500">

* "빠르고 간단하게 데이터 처리 가능"이 무슨 의미인지 코드로 확인해 보자
* 해당 예제는 단순히 왜 Numpy를 사용하는지 보여주기 위함이다.

* 행렬의 내적 계산
    * 코드의 간결성과 평균 실행 시간을 비교해 보자
    * 내적의 계산 방법은 다루지 않는다.

In [14]:
A = [list(range(10000, 20000)), list(range(20000, 30000))]  # 2행 10000열 크기의 행렬
B = [[1, 2] for _ in range(10000)]  # 10000행 2열 크기의 행렬

In [6]:
AB1 = [[0]*len(B[0]) for _ in range(len(A))]

In [7]:
%%time
for i in range(len(A)): 
    for j in range(len(B[0])): 
        for k in range(len(A[0])): 
            AB1[i][j] += A[i][k] * B[k][j]
AB1

CPU times: total: 0 ns
Wall time: 16.4 ms


[[149995000, 299990000], [249995000, 499990000]]

## List Comprehension 사용

In [8]:
%%time
AB2 = [[sum(a*b for a, b in zip(A_row,B_col)) for B_col in zip(*B)] for A_row in A]
AB2

CPU times: total: 0 ns
Wall time: 10.1 ms


[[149995000, 299990000], [249995000, 499990000]]

In [9]:
import numpy as np
A_ = np.array(A)
B_ = np.array(B)


In [10]:
%%time
A_.dot(B_)

CPU times: total: 0 ns
Wall time: 0 ns


array([[149995000, 299990000],
       [249995000, 499990000]])

In [11]:
AB1 == AB2 == A_.dot(B_).tolist()

True

---------
## How to use Numpy
* 만약 설치가 안 되어 있다면 아래 셀을 실행하여 설치할 수 있다.

In [8]:
%pip install numpy # 터미널 명령어 실행 , 파이썬 명령어가 아니라

Note: you may need to restart the kernel to use updated packages.


* Numpy 라이브러리를 사용하기 위해 아래 셀과 같이 import
* np는 import한 라이브러리의 별칭
    * 별칭을 지정하지 않으면 해당 라이브러리를 사용할 때마다 "numpy." 의 형태로 사용해야 함
    * 별칭을 지정하는데 별도의 규칙은 없지만 통용적으로 "np"를 사용

In [9]:
import numpy as np

In [10]:
ar = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) # 배열 : 원소는 모두 같은 타입, 원소의 갯수는 변경하지 못함.

In [11]:
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
type(ar)

numpy.ndarray

### 1-Dmension
* 일반적으로 1차원 형태의 데이터 집합을 벡터(Vector)라고 한다.

In [13]:
list_arr1 = [1, 3, 2, 5]
print(list_arr1)
print(type(list_arr1))

[1, 3, 2, 5]
<class 'list'>


In [14]:
#numpy_arr = np.array([1, 3, 2, 5])
numpy_arr1 = np.array(list_arr1)
print(numpy_arr1)
print(type(numpy_arr1))

[1 3 2 5]
<class 'numpy.ndarray'>


### 2-Dimension
* 일반적으로 2차원 형태의 데이터 집합을 행렬(Matrix)라고 한다.

In [15]:
list_arr2 = [[1, 3, 2, 5], [7, 4, 9, 0]]
print(list_arr2)
print(type(list_arr2))

[[1, 3, 2, 5], [7, 4, 9, 0]]
<class 'list'>


In [16]:
#numpy_arr = np.array([[1, 3, 2, 5], [7, 4, 9, 0]])
numpy_arr2 = np.array(list_arr2)
print(numpy_arr2)
print(type(numpy_arr2))

[[1 3 2 5]
 [7 4 9 0]]
<class 'numpy.ndarray'>


### 3-Dimension
* 일반적으로 3차원 혹은 그 이상의 차원을 가진 데이터의 집합을 텐서(Tensor)라고 한다.

In [17]:
list_arr3 = [[[1, 3, 2, 5], [7, 4, 9, 0]], [[6, 8, 12, 15], [17, 14, 19, 10]]]
print(list_arr3)
print(type(list_arr3))

[[[1, 3, 2, 5], [7, 4, 9, 0]], [[6, 8, 12, 15], [17, 14, 19, 10]]]
<class 'list'>


In [18]:
#numpy_arr = np.array([[[1, 3, 2, 5], [7, 4, 9, 0]], [[6, 8, 12, 15], [17, 14, 19, 10]]])
numpy_arr3 = np.array(list_arr3)
print(numpy_arr3)
print(type(numpy_arr3))

[[[ 1  3  2  5]
  [ 7  4  9  0]]

 [[ 6  8 12 15]
  [17 14 19 10]]]
<class 'numpy.ndarray'>


<img src="https://art28.github.io/assets/lecture_asset/linear_algebra/1_1.png" width="800">

## 벡터화 연산
배열의 각 요소에 대한 반복 연산을 하나의 명령어로 처리함

In [19]:
x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
2 * x # 요소에 대한 반복 없이 한번에 연산 x * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [21]:
a = np.array([1,2,3])
b = np.array([10,20,30])

2 * a + b

array([12, 24, 36])

In [22]:
a == 2

array([False,  True, False])

In [23]:
b > 10

array([False,  True,  True])

In [24]:
(a == 2) & (b > 10) # 동시 만족해야 함 

array([False,  True, False])

In [25]:
# 2차원 배열
c = np.array([[0, 1, 2], [3, 4, 5]])
c

array([[0, 1, 2],
       [3, 4, 5]])

In [26]:
len(c) # 2행이라서 2라고 뜸 , 행 개수

2

In [27]:
len(c[0]) # [0,1,2] 3개

3

### 연습문제

In [17]:
arr = np.array([[10,20,30,40],[50,60,70,80]])
arr

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

- - -

In [19]:
arr = np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]],[[11,12,13,14],[15,16,17,18],[19,20,21,22]]])
arr

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [24]:
print(arr.ndim) #텐서 차원 
print(arr.shape) # 텐서 크기

3
(2, 3, 4)


In [27]:
arr[0][1][2] # arr[0,1,2] 동일하다.

7

In [29]:
arr[1][2][3] # arr[-1,-1,-1] 동일하다.

22

## 슬라이싱

In [33]:
# 슬라이싱
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [34]:
a[0, :]

array([0, 1, 2, 3])

In [35]:
a[1, :]

array([4, 5, 6, 7])

In [36]:
a[:, 1] # 두번째 열 

array([1, 5])

In [37]:
a[1, 1:] # 두번째 행의 두번째 열부터 

array([5, 6, 7])

In [38]:
a[:2, :2]

array([[0, 1],
       [4, 5]])

### 연습문제

In [32]:
b = np.array([[0,1,2,3,4],[5,6,7,8,9],[10,11,12,13,14]])
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [33]:
b[1,2]

7

In [34]:
b[-1,-1]

14

In [36]:
b[1,1:3]

array([6, 7])

In [51]:
b[1:,2] #답 찾기

array([ 7, 12])

In [43]:
b[:-1, -2:] #답 찾기

array([[3, 4],
       [8, 9]])

- - -

## 배열 인덱싱
데이터베이스의 질의 기능을 수행함. 인덱스 배열: 불리언 배열 방식, 정수 배열 방식

In [45]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([True, False, True, False, True,
                False, True, False, True, False])
a[idx]

array([0, 2, 4, 6, 8])

In [46]:
a % 2

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)

In [47]:
a % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [48]:
a[a % 2 == 0]

array([0, 2, 4, 6, 8])

In [49]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8]) # 정수 배열 인덱싱
a[idx]

array([11, 33, 55, 77, 99])

In [50]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])
a[idx]

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

In [51]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [52]:
a[:, [True, False, False, True]]

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [53]:
a[[2, 0, 1], :]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

### 연습문제

In [44]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
              11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [47]:
c = np.array([2,5,8,11,14,17])
x[c]

array([ 3,  6,  9, 12, 15, 18])

In [50]:
c = np.array([8])
c

array([8])