# Numpy (Numeric python)
    패키지 이름과 같이 수리적 파이썬 활용을 위한 파이썬 패키지
    선형대수학 구현과 과학적 컴퓨팅 연산을 위한 함수를 제공
    (key)nparray 다차원 배열을 사용하여 벡터의 산술 연산이 가능
    브로드캐스팅을 활용하여 shape(형태 혹은 모양)이 다른 데이터의 연산이 가능
    - 기존 언어에서는 제공 X
    - 굉장히 파워풀한 기능으로서 빅데이터 연산에 굉장히 효율이 좋음     

## 1. Numpy 설치 와 import
선행 학습을 통해 클래스와 함수에서 클래스를 불러들여 사용할 수 있다고 배웠습니다.

다만 직접 작성한 클래스가 아닐경우, 그리고 현재 컴퓨터에 사용해야 할 패키지가 없을경우 간단한 명령어로 설치가능.
    
    conda, pip 명령어 : python 라이브러리 관리 프로그램으로 
               오픈소스라이브러리를 간편하게 설치 할 수 있도록 하는 명령어

    콘솔창에서 실행 시
    pip install [패키지명]
    conda install [패키지명]
    
    주피터 노트북으로 실행 시
    !pip install [패키지명]
    
    아나콘다 환경으로 python 환경설정 시 기본적으로 Numpy 설치가 되어있음

In [None]:
# 주피터 노트북에서 Numpy 설치
!pip install numpy

In [4]:
# Numpy 사용을 위해 패키지 불러들이기
import numpy as np
# 관례적으로 np라는 약자를 많이 사용하게 됩니다.
# 파이썬을 사용하는 대부분의 유저들이 사용하고 있는 닉네임이니 이건 꼭 지켜서 사용해주시는 것을 추천드립니다.

### 데이터분석을 위한 잠깐의 교양 수학
    numpy는 기본적으로 수리적 컴퓨팅을 위한 패키지 입니다.
    선형대수학을 약간만 이해한다면 데이터를 훨씬 더 깊이있게 다룰 수 있습니다.

#### 스칼라
    1, 3.14, 실수 혹은 정수
#### 벡터
    [1, 2, 3, 4], '안녕하세요'

#### 3 X 4 매트릭스
    
    [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]]
     
#### 2 X 3 X 4 텐서
    
    [[[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]],
     [[1, 2, 3, 4], 
     [5, 6, 7, 8],
     [9, 0, 11, 12]]]
     

#### 데이터 형태에 따른 사칙연산
    스칼라 +, -, *, / -> 결과도 스칼라
    벡터 +, -, 내적 -> +, - 결과는 벡터, 내적 결과는 스칼라
    매트릭스 +, -, *, /
    텐서 +, -, *, /

   ### 데이터분석에 자주 사용하는 특수한 연산
    벡터와 벡터의 내적
    
$$\begin{bmatrix}1 & 2 & 3 & 4 \end{bmatrix} \times \begin{bmatrix}1 \\ 2 \\ 3 \\ 4 \end{bmatrix} = 1 * 1 + \
2 * 2 + 3 * 3 + 4 * 4 = 30$$
# $$ A^TA $$

#### 벡터와 벡터의 내적이 이루어지려면
    
    1. 벡터가 마주하는 shape의 갯수(길이)가 같아야 합니다.
    2. 연산 앞에 위치한 벡터는 전치(transpose) 되어야 합니다.

![transpose](./transpose.gif)
    출처 : https://ko.wikipedia.org/wiki/%EC%A0%84%EC%B9%98%ED%96%89%EB%A0%AC
    

#### 벡터 내적으로 방정식 구현

$$y = \begin{bmatrix}1 & 2 & 1 \end{bmatrix} \times \begin{bmatrix}x_1 \\ x_2 \\ x_3 \\ \end{bmatrix} = 1 * x_1 + \
2 * x_2 + 1 * x_3 = x_1 + 2x_2 + x_3$$


### 브로드캐스팅
    파이썬 넘파이 연산은 브로드캐스팅을 지원합니다.
![broadcasting](./broadcasting.png)
    출처 : http://www.astroml.org/book_figures/appendix/fig_broadcast_visual.html

## 2. Numpy function
    numpy는 컴퓨팅연산을 위한 다양한 연산함수를 제공합니다.
    자주 사용하는 함수 위주로 살펴보겠습니다.
    
    연산함수 기본구조
    ex) np.sum(연산대상, axis=연산방향)
    
    - dtype()

수리연산
    - prod()
    - dot()
    - sum()
    - cumprod()
    - cumsum()
    - abs()
    - sqaure()
    - sqrt()
    - exp()
    - log()

통계연산
    - mean()
    - std()
    - var()
    - max()
    - min()
    - argmax()
    - argmin()
 

로직연산
    - arange()
    - isnan()
    - isinf()
    - unique()

기하
    - shape()
    - reshape()
    - ndim()
    - transpose()
    
각종 연산 함수 참고: https://numpy.org/doc/stable/reference/routines.math.html

In [5]:
# 함수 예제를 위한 데이터셋
test_list = [1, 2, 3, 4]
test_list2 = [[1, 3], [5, 7]]
test_flist = [1, 3.14, -4.5]
test_list_2nd = [[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]]
test_list_3rd = [[[1, 2, 3, 4],
              [5, 6, 7, 8]],
              
              [[1, 2, 3, 4],
               [5, 6, 7, 8]],

              [[1, 2, 3, 4],
               [5, 6, 7, 8]]]
test_exp = [0, 1, 10]
test_nan = [0, np.nan, np.inf]

In [6]:
# 곱연산
np.prod(test_list)

24

In [7]:
# 합연산
np.sum(test_list)

10

In [9]:
# 누적곱연산
np.cumprod(test_list)

array([ 1,  2,  6, 24], dtype=int32)

In [11]:
# 누적합연산
np.cumsum(test_list)

array([ 1,  3,  6, 10], dtype=int32)

In [None]:
# 절대값
np.fabs(test_flist)

In [None]:
# 제곱
np.square(test_list)

In [None]:
# 루트
np.sqrt(test_nan)

In [None]:
# exp
np.exp(test_exp)

In [None]:
# 로그
np.log(test_exp)

In [None]:
# 평균
np.mean(test_list)

In [None]:
# 표준편차
np.std(test_list_3rd)

In [12]:
# 분산
np.var(test_list_3rd)

5.25

In [None]:
# 최대값
np.max(test_list_2nd)

In [None]:
# 최소값
np.min(test_list)

In [13]:
# 최대값 인덱스
np.argmax(test_list)

(4, 4)

In [None]:
# 최소값 인덱스
np.argmin()

In [None]:
# 범위설정
# range() 함수와 비슷하게 작동함
np.arange(0, 100, 2)

In [None]:
# 결측 확인
np.isnan(test_nan)

In [None]:
# 발산 확인
np.isinf(test_nan)

In [None]:
# 고유값 확인
np.unique()

In [None]:
# 데이터 구조(모양)확인
np.shape()

In [None]:
# 데이터 shape 변경
np.reshape(test_list_3rd, [4, 6])

In [19]:
# 데이터 차원확인
np.ndim(test_list_3rd)

3

In [15]:
test_list_2nd

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [14]:
# 전치행렬
np.transpose(test_list_2nd)

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

## 3. Numpy array (배열, 행렬)
    numpy 연산의 기본이 되는 데이터 구조입니다.
    리스트보다 간편하게 만들 수 있으며 연산이 빠른 장점이 있습니다.
    브로드캐스팅 연산을 지원합니다.
    단, 같은 type의 데이터만 저장 가능합니다.
    
    array 또한 numpy의 기본 함수로서 생성 가능합니다.
    array 함수 호출 기본구조
    
    ex) np.array(배열변환 대상 데이터)
    ex) np.arange(start, end, step_forward)

In [34]:
# 기존 데이터 구조를 array로 변환
test_array = np.array(test_list)
test_array2 = np.array(test_list2)
test_farray = np.array(test_flist)
test_array_2nd = np.array(test_list_2nd)
test_array_3rd = np.array(test_list_3rd)

In [None]:
# np.arange 함수로 생성
range_array = np.arange(10)
range_array

#### 특수한 형태의 array를 함수로 생성

함수 호출의 기본구조
    
    ex) np.ones([자료구조 shape])
    자료구조 shape은 정수, []리스트, ()튜플 로만 입력가능합니다.
    
    - ones
    - zeros
    - empty
    - eye

In [None]:
# 1로 초기화
np.ones([4, 4])

In [None]:
# 0으로 초기화
np.zeros([4, 4])

In [None]:
# 빈 값으로 초기화
np.empty([5, 5])

In [None]:
# 항등행렬 초기화
np.eye(10)

### 3-1. array 속성 및 내장함수
    np.array에는 굉장히 유용한 수리, 통계 연산을 위한 함수가 갖추어져 있습니다.
    다차원 기하학적 연산을 위한 함수도 함께 살펴보겠습니다.
    
    array 내장 속성 호출 기본구조
    ex) test_array.ndim
    
    자주 사용하는 속성 shape, dtype, ndim
    
    array 내장함수 호출 기본구조
    ex) test_array.prod()
    
    위에 학습한 np.sum() 과는 달리 array 변수의 인자를 받아 그대로 사용합니다.

#### array 속성

In [None]:
# 데이터 타입확인
test_array.dtype

In [None]:
# 데이터구조 확인
test_array.shape

In [None]:
# 데이터 차원 확인
test_array.ndim

In [None]:
# 전치행렬
test_array_3rd.T

#### array 내장함수

In [None]:
# numpy 함수와 키워드가 같습니다.
test_array.prod()
test_array.sum()
...
... 

In [None]:
test_array.sum()

### 3-2. array 연산
    컴퓨팅 연산을 위한 패키지인 만큼 편리한 배열 연산 기능을 지원합니다.
    여러 numpy 연산을 통해 다른 자료구조와의 연산 차이를 알아봅시다.

In [37]:
# array 덧셈, 뺄셈, 곱셈, 나눗셈
test_array / 5

array([0.2, 0.4, 0.6, 0.8])

In [None]:
# 행렬내적, I
test_array.dot(test_array)

### 4. array 인덱싱, 슬라이싱
    기본적으로 자료구조란 데이터의 묶음, 그 묶음을 관리 할 수 있는 바구니를 이야기 합니다.
    데이터 분석을 위해 바구니를 사용하지만 바구니 안에 있는 내용에 접근을 해야 할 경우도 있습니다.
    
    인덱싱이란?
    데이터 바구니 안에 든 내용 하나에 접근하는 명령, 인덱스는 내용의 순번
    
    슬라이싱이란?
    데이터 바구니 안에 든 내용 여러가지에 접근 하는 명령
    
    기본적으로 인덱싱과 슬라이싱의 색인은 리스트와 비슷합니다.

In [None]:
index_test = np.array(range(10))
index_test = index_test + 10
index_test

In [None]:
index_test2 = np.array(range(25)).reshape([5, 5])
index_test2[1:3, 0:3]

In [None]:
index_test3 = np.array(range(27)).reshape([3, 3, 3])
index_test3

#### 여러가지 인덱싱 및 슬라이싱 방법을 시도해봅시다

In [None]:
index_test

In [None]:
index_test.max()

In [None]:
index_test2[1]

In [None]:
index_test3[2, 1, 1]

In [None]:
index_test3[2, 1, :]