# Numpy (Numeric python)
> - 패키지 이름과 같이 **수리적 파이썬 활용**을 위한 파이썬 패키지
> - **선형대수학 구현**과 **과학적 컴퓨팅 연산**을 위한 함수를 제공
> - (key) `nparray` 다차원 배열을 사용하여 **벡터의 산술 연산**이 가능

> - **브로드캐스팅**을 활용하여 shape(형태 혹은 모양)이 다른 데이터의 연산이 가능
>> - 기존 언어에서는 제공 X
>> - 굉장히 파워풀한 기능으로서 빅데이터 연산에 굉장히 효율이 좋음     

## Numpy 설치 와 import
> - 선행 학습을 통해 클래스와 함수에서 클래스를 불러들여 사용할 수 있다고 배웠습니다.
> - 다만 직접 작성한 클래스가 아닐경우, 그리고 현재 컴퓨터에 사용해야 할 패키지가 없을경우 간단한 명령어로 설치가능.

>> - `pip`, `conda` 명령어 : python 라이브러리 관리 프로그램으로 오픈소스라이브러리를 간편하게 설치 할 수 있도록 하는 명령어  

> 콘솔창에서 실행 시  
**`pip` `install` `[패키지명]`** 혹은  
**`conda` `install` `[패키지명]`**

> 주피터 노트북으로 실행 시  
**`!pip` `install` `[패키지명]`**  

아나콘다 환경으로 python 환경설정 시 기본적으로 Numpy 설치가 되어있음

In [1]:
# 주피터 노트북에서 Numpy 설치
!pip install numpy



In [2]:
# Numpy 사용을 위해 패키지 불러들이기
import numpy as np
# 관례적으로 np라는 약자를 많이 사용하게 됩니다.
# 파이썬을 사용하는 대부분의 유저들이 사용하고 있는 닉네임이니 이건 꼭 지켜서 사용해주시는 것을 추천드립니다.

In [4]:
[1, 2, 3, 4, 5]
a = '안녕하세요'
a[0]

'안'

In [121]:
test_array.reshape(4, 1).shape

(4, 1)

## 데이터분석을 위한 잠깐의 선형대수학
numpy는 기본적으로 수리적 컴퓨팅을 위한 패키지 입니다. 선형대수학을 약간만 이해한다면 데이터를 훨씬 더 깊이있게 다룰 수 있습니다.  
<img src="https://drive.google.com/uc?id=1FIVLOIP-X72PeWS7tgChMEoWCUYtyOqa">

출처 : https://art28.github.io/blog/linear-algebra-1/

## 데이터의 구분에 따른 표현 방법과 예시

#### 스칼라
    1, 3.14, 실수 혹은 정수  
    
#### 벡터
    [1, 2, 3, 4], 문자열  
    
#### 3 X 4 매트릭스
    [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]]
     
#### 2 X 3 X 4 텐서
    [[[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]],
     [[1, 2, 3, 4], 
     [5, 6, 7, 8],
     [9, 0, 11, 12]]]

### 데이터로 표현한 선형대수학
<img src="https://drive.google.com/uc?id=1JXgwhjipPcV147LPIrC2CgT0TmS4jT1R">

출처 : https://m.blog.naver.com/nabilera1/221978354680

### 데이터 형태에 따른 사칙연산

> 스칼라 +, -, *, / -> 결과도 스칼라  
벡터 +, -, 내적 -> +, - 결과는 벡터, 내적 결과는 스칼라  
매트릭스 +, -, *, /  
텐서 +, -, *, /  

### 데이터분석에 자주 사용하는 특수한 연산
벡터와 벡터의 내적
    
$$\begin{bmatrix}1 & 2 & 3 & 4 \end{bmatrix} \times \begin{bmatrix}1 \\ 2 \\ 3 \\ 4 \end{bmatrix} = 1 * 1 + \
2 * 2 + 3 * 3 + 4 * 4 = 30$$
# $$ A^TA $$

#### 벡터와 벡터의 내적이 이루어지려면
    
    1. 벡터가 마주하는 shape의 갯수(길이)가 같아야 합니다.
    2. 연산 앞에 위치한 벡터는 전치(transpose) 되어야 합니다.
<img src="https://drive.google.com/uc?id=1VdfUo6iFHpTrPd_5RSjJLjlrX_5zWO0v" height="300px" width="300px">  

출처 : https://ko.wikipedia.org/wiki/%EC%A0%84%EC%B9%98%ED%96%89%EB%A0%AC  

#### 벡터 내적으로 방정식 구현

$$y = \begin{bmatrix}1 & 2 & 1 \end{bmatrix} \times \begin{bmatrix}x_1 \\ x_2 \\ x_3 \\ \end{bmatrix} = 1 * x_1 + \
2 * x_2 + 1 * x_3 = x_1 + 2x_2 + x_3$$

In [6]:
[1, 2, 3, 4] + [5]

[1, 2, 3, 4, 5]

## 브로드캐스팅
> 파이썬 넘파이 연산은 브로드캐스팅을 지원합니다.  
벡터연산 시 shape이 큰 벡터의 길이만큼 shape이 작은 벡터가 연장되어 연산됩니다.

<img src="https://drive.google.com/uc?id=139z17KEUFNIoJR_-lSnnxepmJAJx--cw" height="500px" width="500px">  

출처 : http://www.astroml.org/book_figures/appendix/fig_broadcast_visual.html

## Numpy function(유니버셜 함수)
> `numpy`는 컴퓨팅연산을 위한 다양한 연산함수를 제공합니다.  
>> 연산함수 기본구조  
ex) **`np.sum`**(연산대상, axis=연산방향)  
**`dtype()`**

### 수리연산
- **`prod()`**
- **`dot()`**
- **`sum()`**
- **`cumprod()`**
- **`cumsum()`**
- **`abs()`**
- **`sqaure()`**
- **`sqrt()`**
- **`exp()`**
- **`log()`**

### 통계연산
- **`mean()`**
- **`std()`**
- **`var()`**
- **`max()`**
- **`min()`**
- **`argmax()`**
- **`argmin()`**

### 로직연산
- **`arange()`**
- **`isnan()`**
- **`isinf()`**
- **`unique()`**

### 기하
- **`shape()`**
- **`reshape()`**
- **`ndim()`**
- **`transpose()`**
    
각종 연산 함수 참고: https://numpy.org/doc/stable/reference/routines.math.html

### numpy 함수 실습

In [1]:
# 함수 예제를 위한 데이터셋
test_list = [1, 2, 3, 4]
test_list2 = [[1, 3], [5, 7]]
test_flist = [1, 3.14, -4.5]
test_list_2nd = [[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]]

test_list_3rd = [[[1, 2, 3, 4],
              [5, 6, 7, 8]],
              
              [[1, 2, 3, 4],
               [5, 6, 7, 8]],

              [[1, 2, 3, 4],
               [5, 6, 7, 8]]]
test_exp = [0, 1, 10]
test_nan = [0, np.nan, np.inf]

In [2]:
# 곱연산
np.prod(test_list) # 1,2,3,4

24

In [3]:
# 합연산
np.sum(test_list)

10

In [4]:
# 누적곱연산
np.cumprod(test_list)

array([ 1,  2,  6, 24])

In [5]:
# 누적합연산
# 월별 보고서 매일 매출 일자별 정리
# 누적수익률
np.cumsum(test_list)

array([ 1,  3,  6, 10])

In [6]:
test_flist

[1, 3.14, -4.5]

In [None]:
# 절대값


In [None]:
# 제곱


In [None]:
# 루트


In [None]:
# exp


In [None]:
# 로그


## 통계값

In [None]:
test_list

In [7]:
# 평균
np.mean(test_list) # 1, 2, 3, 4

2.5

In [8]:
# 표준편차
np.std(test_list)

1.118033988749895

In [9]:
# 분산
np.var(test_list)

1.25

In [None]:
# 최대값


In [None]:
# 최소값


In [10]:
test_list_2nd

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [11]:
# 자주 사용합니다.
# 최대값 존재하고 있는 인덱스 넘버를 리턴
# 출력값이 인덱스
# 연산을 통해서 결과값을 내면 거기에 있는 최대값 찾기
# 두가지 확률값의 비교 통해서 더 큰값 찾기

np.argmax(test_list_2nd)

8

In [12]:
# 최소값 인덱스
# argmax보다는 덜 쓰이지만 자주 보임
np.argmin(test_list_2nd)

0

In [14]:
# 범위설정
# (시작포인트, 마지막포인트 + 1, 스텝수)
# range() 함수와 동일하게 작동함
# for i in range(0, 100, 10):
#     print(i)
np.arange(0, 21, 5)

array([ 0,  5, 10, 15, 20])

In [15]:
# 범위 데이터 생성
# (시작포인트, 마지막포인트, 데이터갯수)
# 그래프 그릴 때 x값으로 사용함
np.linspace(0, 10, 50)

array([ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653,
        1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469,
        2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286,
        3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102,
        4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918,
        5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735,
        6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551,
        7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367,
        8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184,
        9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ])

In [16]:
test_nan

[0, nan, inf]

In [18]:
# 결측 확인 (데이터가 있어야 할 위치에 데이터가 없을 경우 NaN, 결측치)
# 검증할 때 쓰입니다.
np.isnan(test_nan)

array([False,  True, False])

In [None]:
# 발산 확인
np.isinf()

In [19]:
test_list_3rd

[[[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]]]

In [20]:
# 고유값 확인
np.unique(test_list_3rd)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [21]:
# 데이터 구조(모양)확인
np.shape(test_list_3rd)

(3, 2, 4)

In [24]:
# 데이터 shape 변경
# 어떤 조건에서 reshape가능한가? 데이터 내부에 존재하는 속성 갯수가 같아야 함.
np.reshape(test_list_3rd, (2, 2, 2, 3))

array([[[[1, 2, 3],
         [4, 5, 6]],

        [[7, 8, 1],
         [2, 3, 4]]],


       [[[5, 6, 7],
         [8, 1, 2]],

        [[3, 4, 5],
         [6, 7, 8]]]])

In [25]:
np.shape(test_list_3rd)

(3, 2, 4)

In [26]:
# 데이터 차원확인
# 데이터가 존재하는 축방향이 늘어나면 차원수도 늘어남
# 기하학적 데이터의 차원수를 이야기하고
# 데이터분석을 할 때는 열기준으로 차원을 이야기 합니다.
np.ndim(test_list_3rd)

3

In [27]:
# 전치행렬
np.transpose(test_list_3rd)

array([[[1, 1, 1],
        [5, 5, 5]],

       [[2, 2, 2],
        [6, 6, 6]],

       [[3, 3, 3],
        [7, 7, 7]],

       [[4, 4, 4],
        [8, 8, 8]]])

## Numpy array (배열, 행렬)
> - numpy 연산의 기본이 되는 데이터 구조입니다.  
> - 리스트보다 간편하게 만들 수 있으며 **연산이 빠른** 장점이 있습니다.  
> - **브로드캐스팅 연산을 지원**합니다.  
> - 단, **같은 type**의 데이터만 저장 가능합니다.  
> - array 또한 numpy의 기본 함수로서 생성 가능합니다.  

>> array 함수 호출 기본구조  
ex) **`np.array(배열변환 대상 데이터)`**  
ex) **`np.arange(start, end, step_forward)`**

### numpy array 실습

In [28]:
# 기존 데이터 구조를 array로 변환
test_array = np.array(test_list)
test_array2 = np.array(test_list2)
test_farray = np.array(test_flist)
test_array_2nd = np.array(test_list_2nd)
test_array_3rd = np.array(test_list_3rd)

In [29]:
# array 생성 확인
test_array

array([1, 2, 3, 4])

In [31]:
# 같은 타입의 데이터만 들어가는지 확인
np.array([1, 2, 3.14, '100'])

array(['1', '2', '3.14', '100'], dtype='<U32')

In [32]:
# 2차원 배열 확인
test_array_2nd

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [33]:
# 3차원 배열 확인
test_array_3rd

array([[[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]]])

In [35]:
# np.arange 함수로 생성
np.arange(30).reshape(5, 6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

### 특수한 형태의 array를 함수로 생성
함수 호출의 기본구조
> ex) **`np.ones([자료구조 shape])`**  
> 자료구조 shape은 정수, **[ ]**리스트, **( )** 튜플 로만 입력가능합니다.

>> - ones()  
>> - zeros()  
>> - empty()  
>> - eye()

In [36]:
# 1로 초기화한 array 생성
np.ones((5, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [None]:
# 0으로 초기화


In [None]:
# 빈 값으로 초기화


In [37]:
# 항등행렬 초기화
# 항등행렬의 수학적 의미는 항등행렬 X A = A
# shape이 안맞는 경우 연산이 가능하도록 할 때
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### array 속성 및 내장함수
`np.array` 에는 유용한 수리, 통계 연산을 위한 함수가 갖추어져 있습니다. 다차원 기하학적 연산을 위한 함수도 함께 살펴보겠습니다.  
    
> array 내장 속성 호출 기본구조  
ex) **`test_array.ndim`**  
자주 사용하는 속성 `shape`, `dtype`, `ndim`
    
> array 내장함수 호출 기본구조  
ex) **`test_array.prod()`**
    
위에 학습한 np.sum() 과는 달리 array 변수의 인자를 받아 그대로 사용합니다.

#### array 속성

In [39]:
class test:
    
    def __init__(self, x):
        self.x = x
        
    def func(self):
        return self.x

In [40]:
test_class = test(100)

In [42]:
test_class.func()

100

In [None]:
test_list = [1, 2, 3, 4]
test_list.append()

In [46]:
# 데이터 타입확인
test_array.dtype

dtype('int64')

In [47]:
# 데이터구조 확인
# np.shape()
test_array.shape

(4,)

In [48]:
# 데이터 차원 확인
test_array.ndim

1

In [49]:
# 전치행렬
test_array.T

array([1, 2, 3, 4])

#### array 내장함수

In [None]:
test_array

In [52]:
# 내장함수 호출
test_array.cumsum()

array([ 1,  3,  6, 10])

In [None]:
# numpy 함수와 키워드가 같습니다.

### array 연산
컴퓨팅 연산을 위한 패키지인 만큼 편리한 배열 연산 기능을 지원합니다. 여러 array 연산을 통해 다른 자료구조와의 연산 차이를 알아봅시다.

In [55]:
# 리스트연산 test
a = [1, 2, 3, 4]

In [56]:
for item in a:
    print(item + 5)

6
7
8
9


In [57]:
test_array

array([1, 2, 3, 4])

In [60]:
# array 덧셈, 뺄셈, 곱셈, 나눗셈
test_array 

array([False, False, False, False])

In [61]:
# 실제 연산속도 차이를 확인하기 위한 큰 데이터 생성
big_list = [i for i in range(50000000)]
big_array = np.array(big_list)

In [62]:
# 리스트연산테스트
big_list_1 = [i + 1 for i in big_list]

In [63]:
# array 연산테스트
big_array_1 = big_array + 1

In [66]:
# 행렬내적
a = np.arange(24).reshape(4, 6)
b = np.arange(60).reshape(6, 10)
a @ b

array([[ 550,  565,  580,  595,  610,  625,  640,  655,  670,  685],
       [1450, 1501, 1552, 1603, 1654, 1705, 1756, 1807, 1858, 1909],
       [2350, 2437, 2524, 2611, 2698, 2785, 2872, 2959, 3046, 3133],
       [3250, 3373, 3496, 3619, 3742, 3865, 3988, 4111, 4234, 4357]])

### 벡터 가중합
벡터의 내적은 가중합을 계산할 때 쓰일 수 있습니다. **가중합(weighted sum)**이란 복수의 데이터를 단순히 합하는 것이 아니라 각각의 수에 어떤 가중치 값을 곱한 후 이 곱셈 결과들을 다시 합한 것을 말합니다.  
데이터 벡터가 $x=[x_1, \cdots, x_N]^T$이고 가중치 벡터가 $w=[w_1, \cdots, w_N]^T$이면 데이터 벡터의 가중합은 다음과 같습니다.

$$ 
\begin{align}
w_1 x_1 + \cdots + w_N x_N = \sum_{i=1}^N w_i x_i 
\end{align}
$$ 

이 값을 벡터 $x$와 $w$의 곱으로 나타내면 $w^Tx$ 또는 $x^Tw$ 라는 간단한 수식으로 표시할 수 있습니다.  
쇼핑을 할 때 각 물건의 가격은 데이터 벡터, 각 물건의 수량은 가중치로 생각하여 내적을 구하면 총금액을 계산할 수 있습니다.

In [70]:
# 벡터의 가중합 연습문제
# 삼성전자, 셀트리온, 카카오로 포트폴리오를 구성하려한다. 
# 각 종목의 가격은 80,000원, 270,000원, 160,000원이다.
# 삼성전자 100주, 셀트리온 30주, 카카오 50주로 구성하기 위한 매수금액을 구하시오
# (80000 * 100) + (270000 * 30) + (160000 * 50)
price = np.array([80000, 270000, 160000])
stock = np.array([100, 30, 50])
price @ stock

# 선형 회귀모델 y = b0 + b1x1 + b2x2

24100000

## array 인덱싱, 슬라이싱(매우중요)
> 기본적으로 자료구조란 데이터의 묶음, 그 묶음을 관리 할 수 있는 바구니를 이야기 합니다.  
데이터 분석을 위해 자료구조를 사용하지만 자료구조안 내용에 접근을 해야 할 경우도 있습니다.
>> **인덱싱**이란?  
데이터 바구니 안에 든 내용 하나에 접근하는 명령, 인덱스는 내용의 순번  
>> **슬라이싱**이란?  
데이터 바구니 안에 든 내용 여러가지에 접근 하는 명령  

기본적으로 인덱싱과 슬라이싱의 색인은 리스트와 동일합니다.

### 인덱싱, 슬라이싱 실습

In [71]:
# 10부터 19까지 범위를 가지는 array생성
index_array = np.arange(10, 20)

In [72]:
index_array

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [74]:
# 0부터 3번 인덱스까지
index_array[:4]

array([10, 11, 12, 13])

In [75]:
# 4번 인덱스부터 마지막 인덱스까지
index_array[4:]

array([14, 15, 16, 17, 18, 19])

In [77]:
# 마지막 인덱스부터 뒤에서 3번째 인덱스까지
index_array[-1:-4:-1]

array([19, 18, 17])

In [79]:
# 0부터 3씩 증가하는 인덱스
index_array[::3]

array([10, 13, 16, 19])

### 여러가지 인덱싱 및 슬라이싱 방법을 시도해봅시다

In [80]:
# 인덱싱 테스트 array 생성
index_test2 = np.array(range(25)).reshape([5, 5])
index_test2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [83]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test2[2:, 1:4]

array([[11, 12, 13],
       [16, 17, 18],
       [21, 22, 23]])

array([[11, 12, 13],
       [16, 17, 18],
       [21, 22, 23]])

In [87]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test2[:2, 2:]

array([[2, 3, 4],
       [7, 8, 9]])

array([[2, 3, 4],
       [7, 8, 9]])

In [90]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test2[:, 1]

array([ 1,  6, 11, 16, 21])

array([ 1,  6, 11, 16, 21])

In [91]:
index_test3 = np.arange(40).reshape(2, 5, 4)
index_test3

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]],

       [[20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31],
        [32, 33, 34, 35],
        [36, 37, 38, 39]]])

In [97]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test3[0, 3:, 1:3]

array([[13, 14],
       [17, 18]])

array([[13, 14],
       [17, 18]])

In [101]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test3[:, 2:, :3]

array([[[ 8,  9, 10],
        [12, 13, 14],
        [16, 17, 18]],

       [[28, 29, 30],
        [32, 33, 34],
        [36, 37, 38]]])

array([[[ 8,  9, 10],
        [12, 13, 14],
        [16, 17, 18]],

       [[28, 29, 30],
        [32, 33, 34],
        [36, 37, 38]]])

In [105]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test3[:, :, 1]

array([[ 1,  5,  9, 13, 17],
       [21, 25, 29, 33, 37]])

array([[ 1,  5,  9, 13, 17],
       [21, 25, 29, 33, 37]])

## 팬시인덱싱
numpy에서 벡터연산을 통해 bool 형태의 벡터를 기준으로 데이터를 선별하는 방법

In [106]:
# 테스트 array 생성
pet = np.array(['개', '고양이', '고양이', '햄스터', '개', '햄스터'])
num = np.array([1, 2, 3, 4, 5, 6])
indexing_test = np.arange(30).reshape(6, 5)
indexing_test

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [111]:
# num array 조건연산
num == 4

array([False, False, False,  True, False, False])

In [109]:
# pet array 조건연산
pet == '고양이'

array([False,  True,  True, False, False, False])

In [112]:
# 팬시인덱스 전달
indexing_test[num == 4]

array([[15, 16, 17, 18, 19]])

In [117]:
# 조건연산 추가 sum, any, all
(pet == '고양이').sum() # 값이 고양이인 데이터가 2개 있음
(pet == '고양이').any() # 값이 고양이인 데이터가 하나라도 있으면 True
(pet == '고양이').all() # 데이터가 모두 고양이면 True

False