# Numpy (Numeric python)
> - 패키지 이름과 같이 **수리적 파이썬 활용**을 위한 파이썬 패키지
> - **선형대수학 구현**과 **과학적 컴퓨팅 연산**을 위한 함수를 제공
> - (key) `nparray` 다차원 배열을 사용하여 **벡터의 산술 연산**이 가능
> - **브로드캐스팅**을 활용하여 shape(형태 혹은 모양)이 다른 데이터의 연산이 가능
>> - 기존 언어에서는 제공 X
>> - 굉장히 파워풀한 기능으로서 빅데이터 연산에 굉장히 효율이 좋음     

# Numpy 설치 와 import
> - 선행 학습을 통해 클래스와 함수에서 클래스를 불러들여 사용할 수 있다고 배웠습니다.
- 다만 직접 작성한 클래스가 아닐경우, 그리고 현재 컴퓨터에 사용해야 할 패키지가 없을경우 간단한 명령어로 설치가능.
>> - `pip`, `conda` 명령어 : python 라이브러리 관리 프로그램으로 오픈소스라이브러리를 간편하게 설치 할 수 있도록 하는 명령어

> - 1. 콘솔창에서 실행 시  
**`pip` `install` `[패키지명]`** 혹은  
**`conda` `install` `[패키지명]`**
> - 2. 주피터 노트북으로 실행 시  
**`!pip` `install` `[패키지명]`**  
> - 아나콘다 환경으로 python 환경설정 시 기본적으로 Numpy 설치가 되어있음

In [1]:
# 주피터 노트북에서 Numpy 설치
!pip install numpy

You should consider upgrading via the '/Library/Frameworks/Python.framework/Versions/3.7/bin/python3 -m pip install --upgrade pip' command.[0m


In [2]:
# Numpy 사용을 위해 패키지 불러들이기
import numpy as np
# 관례적으로 np라는 약자를 많이 사용하게 됩니다.
# 파이썬을 사용하는 대부분의 유저들이 사용하고 있는 닉네임이니 이건 꼭 지켜서 사용해주시는 것을 추천드립니다.

## 데이터분석을 위한 잠깐의 선형대수학
numpy는 기본적으로 수리적 컴퓨팅을 위한 패키지 입니다. 선형대수학을 약간만 이해한다면 데이터를 훨씬 더 깊이있게 다룰 수 있습니다.

![scalar1](./image/scalar1.png)
출처 : https://art28.github.io/blog/linear-algebra-1/

## 데이터의 구분에 따른 표현 방법과 예시

#### 스칼라
    1, 3.14, 실수 혹은 정수  
    
#### 벡터
    [1, 2, 3, 4], 문자열  
    
#### 3 X 4 매트릭스
    [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]]
     
#### 2 X 3 X 4 텐서
    [[[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]],
     [[1, 2, 3, 4], 
     [5, 6, 7, 8],
     [9, 0, 11, 12]]]

### 데이터로 표현한 선형대수학
![scalar2](./image/scalar2.png)
출처 : https://m.blog.naver.com/nabilera1/221978354680

### 데이터 형태에 따른 사칙연산

> 스칼라 +, -, *, / -> 결과도 스칼라  
벡터 +, -, 내적 -> +, - 결과는 벡터, 내적 결과는 스칼라  
매트릭스 +, -, *, /  
텐서 +, -, *, /  

### 데이터분석에 자주 사용하는 특수한 연산
벡터와 벡터의 내적
    
$$\begin{bmatrix}1 & 2 & 3 & 4 \end{bmatrix} \times \begin{bmatrix}1 \\ 2 \\ 3 \\ 4 \end{bmatrix} = 1 * 1 + \
2 * 2 + 3 * 3 + 4 * 4 = 30$$
# $$ A^TA $$

#### 벡터와 벡터의 내적이 이루어지려면
    
    1. 벡터가 마주하는 shape의 갯수(길이)가 같아야 합니다.
    2. 연산 앞에 위치한 벡터는 전치(transpose) 되어야 합니다.

![transpose](./image/transpose.gif)
    출처 : https://ko.wikipedia.org/wiki/%EC%A0%84%EC%B9%98%ED%96%89%EB%A0%AC
    

#### 벡터 내적으로 방정식 구현

$$y = \begin{bmatrix}1 & 2 & 1 \end{bmatrix} \times \begin{bmatrix}x_1 \\ x_2 \\ x_3 \\ \end{bmatrix} = 1 * x_1 + \
2 * x_2 + 1 * x_3 = x_1 + 2x_2 + x_3$$

## 브로드캐스팅
> 파이썬 넘파이 연산은 브로드캐스팅을 지원합니다.  
벡터연산 시 shape이 큰 벡터의 길이만큼 shape이 작은 벡터가 연장되어 연산됩니다.

![broadcasting](./image/broadcasting.png)
출처 : http://www.astroml.org/book_figures/appendix/fig_broadcast_visual.html

## Numpy function(함수)
> `numpy`는 컴퓨팅연산을 위한 다양한 연산함수를 제공합니다.  
>> 연산함수 기본구조  
ex) **`np.sum`**(연산대상, axis=연산방향)  
**`dtype()`**

### 수리연산
- **`prod()`**
- **`dot()`**
- **`sum()`**
- **`cumprod()`**
- **`cumsum()`**
- **`abs()`**
- **`sqaure()`**
- **`sqrt()`**
- **`exp()`**
- **`log()`**

### 통계연산
- **`mean()`**
- **`std()`**
- **`var()`**
- **`max()`**
- **`min()`**
- **`argmax()`**
- **`argmin()`**

### 로직연산
- **`arange()`**
- **`isnan()`**
- **`isinf()`**
- **`unique()`**

### 기하
- **`shape()`**
- **`reshape()`**
- **`ndim()`**
- **`transpose()`**
    
각종 연산 함수 참고: https://numpy.org/doc/stable/reference/routines.math.html

### numpy 함수 실습

In [6]:
# 함수 예제를 위한 데이터셋
test_list = [1, 2, 3, 4]
test_list2 = [[1, 3], [5, 7]]
test_flist = [1, 3.14, -4.5]
test_list_2nd = [[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]]
test_list_3rd = [[[1, 2, 3, 4],
              [5, 6, 7, 8]],
              
              [[1, 2, 3, 4],
               [5, 6, 7, 8]],

              [[1, 2, 3, 4],
               [5, 6, 7, 8]]]
test_exp = [0, 1, 10]
test_nan = [0, np.nan, np.inf]

In [7]:
test_list

[1, 2, 3, 4]

In [8]:
# 곱연산
np.prod(test_list)

24

In [9]:
# 합연산
np.sum(test_list)

10

In [10]:
# 누적곱연산
np.cumprod(test_list)

array([ 1,  2,  6, 24])

In [11]:
# 누적합연산
np.cumsum(test_list)

array([ 1,  3,  6, 10])

In [12]:
# 절대값
np.abs(test_flist)

array([1.  , 3.14, 4.5 ])

In [13]:
# 제곱
np.square(test_list)

array([ 1,  4,  9, 16])

In [17]:
# 루트
np.sqrt(test_list)

array([1.        , 1.41421356, 1.73205081, 2.        ])

In [18]:
# exp
np.exp(test_list)

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [53]:
# 로그


  


array([      -inf, 0.        , 2.30258509])

In [20]:
test_list_2nd

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [19]:
# 평균
np.mean(test_list_2nd)

5.0

In [21]:
# 표준편차
np.std(test_list_2nd)

2.581988897471611

In [22]:
# 분산
np.var(test_list_2nd)

6.666666666666667

In [23]:
# 최대값
np.max(test_list_2nd)

9

In [24]:
# 최소값
np.min(test_list_2nd)

1

In [25]:
test_list_2nd

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [26]:
# 최대값 인덱스 
# 출력값이 인덱스
np.argmax(test_list_2nd)

8

In [27]:
# 최소값 인덱스
np.argmin(test_list_2nd)

0

In [29]:
# 범위설정
# range() 함수와 비슷하게 작동함
# for i in range(0, 100, 10):
#     print(i)
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [77]:
test_nan

[0, nan, inf]

In [78]:
# 결측 확인


array([False,  True, False])

In [79]:
# 발산 확인


array([False, False,  True])

In [31]:
test_list_3rd

[[[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]]]

In [32]:
# 고유값 확인
np.unique(test_list_3rd)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [33]:
# 고유값 갯수 확인
len(np.unique(test_list_3rd))

8

In [37]:
test_list_3rd

[[[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]]]

In [36]:
# 데이터 구조(모양)확인
np.shape(test_list_3rd)

(3, 2, 4)

In [40]:
# 데이터 shape 변경
# 어떤 조건에서 reshape가능한가? 데이터 내부에 존재하는 속성 갯수가 같아야 함.
np.reshape(test_list_3rd, (2, 2, 6))

array([[[1, 2, 3, 4, 5, 6],
        [7, 8, 1, 2, 3, 4]],

       [[5, 6, 7, 8, 1, 2],
        [3, 4, 5, 6, 7, 8]]])

In [42]:
test_list_3rd

[[[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]]]

In [41]:
# 데이터 차원확인
np.ndim(test_list_3rd)

3

In [95]:
np.ndim(test_list_2nd)

2

In [43]:
test_list_2nd

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [46]:
# 전치행렬
np.transpose(test_list_2nd)

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

## Numpy array (배열, 행렬)
> - numpy 연산의 기본이 되는 데이터 구조입니다.  
- 리스트보다 간편하게 만들 수 있으며 **연산이 빠른** 장점이 있습니다.  
- **브로드캐스팅 연산을 지원**합니다.  
- 단, **같은 type**의 데이터만 저장 가능합니다.  
- array 또한 numpy의 기본 함수로서 생성 가능합니다.  
>> array 함수 호출 기본구조  
ex) **`np.array(배열변환 대상 데이터)`**  
ex) **`np.arange(start, end, step_forward)`**

### numpy array 실습

In [47]:
# 기존 데이터 구조를 array로 변환
test_array = np.array(test_list)
test_array2 = np.array(test_list2)
test_farray = np.array(test_flist)
test_array_2nd = np.array(test_list_2nd)
test_array_3rd = np.array(test_list_3rd)

In [48]:
# array 생성 확인
test_array

array([1, 2, 3, 4])

In [50]:
# 같은 타입의 데이터만 들어가는지 확인
test_list = [1, 2, '3', 4, 5.0]
temp_array = np.array(test_list)
temp_array

array(['1', '2', '3', '4', '5.0'], dtype='<U21')

In [51]:
# 2차원 배열 확인
test_array_2nd

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [52]:
# 3차원 배열 확인
test_array_3rd

array([[[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]]])

In [53]:
# np.arange 함수로 생성
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 특수한 형태의 array를 함수로 생성
함수 호출의 기본구조
> ex) **`np.ones([자료구조 shape])`**  
>> 자료구조 shape은 정수, **[ ]**리스트, **( )** 튜플 로만 입력가능합니다.
- ones()
- zeros()
- empty()
- eye()

In [58]:
# 1로 초기화한 array 생성
np.ones((5, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [59]:
# 0으로 초기화
np.zeros((5, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [60]:
# 빈 값으로 초기화
np.empty((5, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [64]:
# 항등행렬 초기화
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### array 속성 및 내장함수
`np.array` 에는 유용한 수리, 통계 연산을 위한 함수가 갖추어져 있습니다. 다차원 기하학적 연산을 위한 함수도 함께 살펴보겠습니다.  
    
> array 내장 속성 호출 기본구조  
ex) **`test_array.ndim`**  
자주 사용하는 속성 `shape`, `dtype`, `ndim`
    
> array 내장함수 호출 기본구조  
ex) **`test_array.prod()`**
    
위에 학습한 np.sum() 과는 달리 array 변수의 인자를 받아 그대로 사용합니다.

#### array 속성

In [65]:
# 데이터 타입확인
test_array.dtype

dtype('int64')

In [66]:
# 데이터구조 확인
# np.shape()
test_array.shape

(4,)

In [67]:
# 데이터 차원 확인
test_array.ndim

1

In [70]:
test_array_3rd

array([[[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]]])

In [69]:
# 아래 행렬에 대해서도 데이터의 shape과 차원을 확인해봅니다.
np.shape()
test_array_3rd.shape

(3, 2, 4)

In [71]:
# 전치행렬
test_array_3rd.T

array([[[1, 1, 1],
        [5, 5, 5]],

       [[2, 2, 2],
        [6, 6, 6]],

       [[3, 3, 3],
        [7, 7, 7]],

       [[4, 4, 4],
        [8, 8, 8]]])

#### array 내장함수

In [77]:
# np.prod()
test_array.min()

1

In [None]:
# numpy 함수와 키워드가 같습니다.
test_array.prod()
test_array.sum(axis=)
...
... 

### array 연산
컴퓨팅 연산을 위한 패키지인 만큼 편리한 배열 연산 기능을 지원합니다. 여러 array 연산을 통해 다른 자료구조와의 연산 차이를 알아봅시다.

In [80]:
# 리스트의 연산 test
test_list * 2

[1, 2, '3', 4, 5.0, 1, 2, '3', 4, 5.0]

In [81]:
# array의 연산방식 확인
test_array 

array([1, 2, 3, 4])

In [85]:
# array 덧셈, 뺄셈, 곱셈, 나눗셈
test_array < 2

array([ True, False, False, False])

In [86]:
# 실제 연산속도 차이를 확인하기 위한 큰 데이터 생성
big_list = [x for x in range(200000)]
big_array = np.array(big_list)

In [87]:
len(big_list)

200000

In [89]:
%%time
for index, item in enumerate(big_list):
    big_list[index] = item + 1

CPU times: user 69.3 ms, sys: 5.25 ms, total: 74.6 ms
Wall time: 74 ms


In [90]:
%%time
big_array + 1

CPU times: user 1.33 ms, sys: 1.77 ms, total: 3.1 ms
Wall time: 1.46 ms


array([     1,      2,      3, ..., 199998, 199999, 200000])

In [91]:
# 행렬내적
first_array = np.arange(15).reshape(5, 3)
second_array = np.arange(15).reshape(3, 5)

In [93]:
first_array

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [94]:
second_array

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [92]:
first_array.shape, second_array.shape

((5, 3), (3, 5))

In [96]:
# 행렬내적 연산 dot
first_array.dot(second_array).shape

(5, 5)

### array 인덱싱, 슬라이싱(매우중요)
> 기본적으로 자료구조란 데이터의 묶음, 그 묶음을 관리 할 수 있는 바구니를 이야기 합니다.  
데이터 분석을 위해 자료구조를 사용하지만 자료구조안 내용에 접근을 해야 할 경우도 있습니다.
>> **인덱싱**이란?  
데이터 바구니 안에 든 내용 하나에 접근하는 명령, 인덱스는 내용의 순번  
>> **슬라이싱**이란?  
데이터 바구니 안에 든 내용 여러가지에 접근 하는 명령  

기본적으로 인덱싱과 슬라이싱의 색인은 리스트와 동일합니다.

#### 인덱싱, 슬라이싱 실습

In [97]:
# 0부터 9까지 범위를 가지는 array생성
index_test = np.array(range(10)) + 10
index_test

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [98]:
# 0부터 3번 인덱스까지
index_test[0:4]

array([10, 11, 12, 13])

In [99]:
# 4번 인덱스부터 마지막 인덱스까지
index_test[4:]

array([14, 15, 16, 17, 18, 19])

In [100]:
# 마지막 인덱스부터 뒤에서 3번째 인덱스까지
index_test[-3:]

array([17, 18, 19])

In [101]:
# 0부터 3씩 증가하는 인덱스
index_test[::3]

array([10, 13, 16, 19])

In [102]:
index_test2 = np.array(range(25)).reshape([5, 5])
index_test2
# index_test2[1:3, 0:3]

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [103]:
index_test3 = np.array(range(27)).reshape([3, 3, 3])
index_test3

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

#### 여러가지 인덱싱 및 슬라이싱 방법을 시도해봅시다

In [104]:
index_test2 = np.array(range(25)).reshape([5, 5])

In [105]:
index_test2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [107]:
index_test2[2:, 1:4]

array([[11, 12, 13],
       [16, 17, 18],
       [21, 22, 23]])

In [108]:
index_test2[:2, 2:]

array([[2, 3, 4],
       [7, 8, 9]])

In [109]:
index_test3 = np.arange(40).reshape(2, 5, 4)

In [110]:
index_test3

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]],

       [[20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31],
        [32, 33, 34, 35],
        [36, 37, 38, 39]]])

array([[13, 14],
       [17, 18]])

array([[ 1,  5,  9, 13, 17],
       [21, 25, 29, 33, 37]])