# Numpy (Numeric python)
> - 패키지 이름과 같이 **수리적 파이썬 활용**을 위한 파이썬 패키지
> - **선형대수학 구현**과 **과학적 컴퓨팅 연산**을 위한 함수를 제공
> - (key) `nparray` 다차원 배열을 사용하여 **벡터의 산술 연산**이 가능

> - **브로드캐스팅**을 활용하여 shape(형태 혹은 모양)이 다른 데이터의 연산이 가능
>> - 기존 언어에서는 제공 X
>> - 굉장히 파워풀한 기능으로서 빅데이터 연산에 굉장히 효율이 좋음     

## Numpy 설치 와 import
> - 선행 학습을 통해 클래스와 함수에서 클래스를 불러들여 사용할 수 있다고 배웠습니다.
> - 다만 직접 작성한 클래스가 아닐경우, 그리고 현재 컴퓨터에 사용해야 할 패키지가 없을경우 간단한 명령어로 설치가능.

>> - `pip`, `conda` 명령어 : python 라이브러리 관리 프로그램으로 오픈소스라이브러리를 간편하게 설치 할 수 있도록 하는 명령어  

> 콘솔창에서 실행 시  
**`pip` `install` `[패키지명]`** 혹은  
**`conda` `install` `[패키지명]`**

> 주피터 노트북으로 실행 시  
**`!pip` `install` `[패키지명]`**  

아나콘다 환경으로 python 환경설정 시 기본적으로 Numpy 설치가 되어있음

In [None]:
# 주피터 노트북에서 Numpy 설치
!pip install numpy



In [None]:
# Numpy 사용을 위해 패키지 불러들이기
import numpy as np
# 관례적으로 np라는 약자를 많이 사용하게 됩니다.
# 파이썬을 사용하는 대부분의 유저들이 사용하고 있는 닉네임이니 이건 꼭 지켜서 사용해주시는 것을 추천드립니다.

In [None]:
test_list = '안녕하세요' # Vector
# 리스트, 문자열은 순서가 있음 --> 전형적인 vector
test_list[0]

'안'

In [None]:
# 엑셀, DataFrame --> Matrix(행렬)

# 이미지, RGB, 영상, 비디오 --> Tensor (3차원 이상)

## 데이터분석을 위한 잠깐의 선형대수학
numpy는 기본적으로 수리적 컴퓨팅을 위한 패키지 입니다. 선형대수학을 약간만 이해한다면 데이터를 훨씬 더 깊이있게 다룰 수 있습니다.  
<img src="https://drive.google.com/uc?id=1FIVLOIP-X72PeWS7tgChMEoWCUYtyOqa">

출처 : https://art28.github.io/blog/linear-algebra-1/

## 데이터의 구분에 따른 표현 방법과 예시

#### 스칼라
    1, 3.14, 실수 혹은 정수  
    
#### 벡터
    [1, 2, 3, 4], 문자열  
    
#### 3 X 4 매트릭스
    [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]]
     
#### 2 X 3 X 4 텐서
    [[[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]],
     [[1, 2, 3, 4], 
     [5, 6, 7, 8],
     [9, 0, 11, 12]]]

## 파이썬에서는 열벡터를 기준으로 한다.

### 데이터로 표현한 선형대수학
<img src="https://drive.google.com/uc?id=1JXgwhjipPcV147LPIrC2CgT0TmS4jT1R">

출처 : https://m.blog.naver.com/nabilera1/221978354680

### 데이터 형태에 따른 사칙연산

> 스칼라 +, -, *, / -> 결과도 스칼라  
벡터 +, -, 내적(곱하기) -> +, - 결과는 벡터, 내적 결과는 스칼라  
매트릭스(행렬) +, -, *, /  
텐서 +, -, *, /  

### 데이터분석에 자주 사용하는 특수한 연산
벡터와 벡터의 내적


파이썬에서는 열벡터를 기준으로 한다.
    
$$\begin{bmatrix}1 & 2 & 3 & 4 \end{bmatrix} \times \begin{bmatrix}1 \\ 2 \\ 3 \\ 4 \end{bmatrix} = 1 * 1 + \
2 * 2 + 3 * 3 + 4 * 4 = 30$$
# $$ A^TA $$

## 딥러닝의 핵심!

shape

(1, 4) (4, 1) = (1, 1)

(4,  6)(6,  5) = (4,  5)

- 모든 매트릭스(행렬)도 트랜스포즈가 가능

- 벡터는 shape 맞춰주려고 트랜스포즈 하는 것!, 매트릭스(행렬)는 중간값만 맞는다면 트랜스포즈 필요없음

#### 벡터와 벡터의 내적이 이루어지려면
    
    1. 벡터가 마주하는 shape의 갯수(길이)가 같아야 합니다.
    2. 연산 앞에 위치한 벡터는 전치(transpose) 되어야 합니다.
<img src="https://drive.google.com/uc?id=1VdfUo6iFHpTrPd_5RSjJLjlrX_5zWO0v" height="300px" width="300px">  

출처 : https://ko.wikipedia.org/wiki/%EC%A0%84%EC%B9%98%ED%96%89%EB%A0%AC  

#### 벡터 내적으로 방정식 구현

$$y = \begin{bmatrix}1 & 2 & 1 \end{bmatrix} \times \begin{bmatrix}x_1 \\ x_2 \\ x_3 \\ \end{bmatrix} = 1 * x_1 + \
2 * x_2 + 1 * x_3 = x_1 + 2x_2 + x_3$$

In [None]:
test_list= [1,2,3]
test_list + [5]

[1, 2, 3, 5]

### 벡터 + 스칼라 시

스칼라가 벡터의 shape 만큼 연장되어 브로드캐스팅이 가능하다.

### 행렬 + 벡터 시

벡터가 행렬의 shape 만큼 연장되어 브로드캐스팅이 가능하다.

### 열벡터 + 행벡터 시

서로의 shape이 연장되어 브로드캐스팅이 가능하다.

## 브로드캐스팅
> 파이썬 넘파이 연산은 브로드캐스팅을 지원합니다.  
벡터연산 시 shape이 큰 벡터의 길이만큼 shape이 작은 벡터가 연장되어 연산됩니다.

<img src="https://drive.google.com/uc?id=139z17KEUFNIoJR_-lSnnxepmJAJx--cw" height="500px" width="500px">  

출처 : http://www.astroml.org/book_figures/appendix/fig_broadcast_visual.html

## Numpy function(유니버셜 함수)
> `numpy`는 컴퓨팅연산을 위한 다양한 연산함수를 제공합니다.  
>> 연산함수 기본구조  
ex) **`np.sum`**(연산대상, axis=연산방향)  
**`dtype()`**

### 수리연산
- **`prod()`**
- **`dot()`**
- **`sum()`**
- **`cumprod()`**
- **`cumsum()`**
- **`abs()`**
- **`sqaure()`**
- **`sqrt()`**
- **`exp()`**
- **`log()`**

### 통계연산
- **`mean()`**
- **`std()`**
- **`var()`**
- **`max()`**
- **`min()`**
- **`argmax()`**
- **`argmin()`**

### 로직연산
- **`arange()`**
- **`isnan()`**
- **`isinf()`**
- **`unique()`**

### 기하
- **`shape()`**
- **`reshape()`**
- **`ndim()`**
- **`transpose()`**
    
각종 연산 함수 참고: https://numpy.org/doc/stable/reference/routines.math.html

### numpy 함수 실습

In [None]:
# 함수 예제를 위한 데이터셋
test_list = [1, 2, 3, 4]
test_list2 = [[1, 3], [5, 7]]
test_flist = [1, 3.14, -4.5]
test_list_2nd = [[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]]

test_list_3rd = [[[1, 2, 3, 4],
              [5, 6, 7, 8]],
              
              [[1, 2, 3, 4],
               [5, 6, 7, 8]],

              [[1, 2, 3, 4],
               [5, 6, 7, 8]]]
test_exp = [0, 1, 10]
test_nan = [0, np.nan, np.inf]

In [None]:
# 곱연산
np.prod(test_list)

24

In [None]:
# 합연산


In [None]:
# 누적곱연산
np.cumprod(test_list)

array([ 1,  2,  6, 24])

In [None]:
# 누적합연산
# 누적수익률
np.cumsum(test_list)

array([ 1,  3,  6, 10])

In [None]:
test_flist

In [None]:
# 절대값
np.abs(test_list)

array([1, 2, 3, 4])

In [None]:
# 제곱
np.square(test_list)

array([ 1,  4,  9, 16])

In [None]:
# 루트
np.sqrt(test_list)

array([1.        , 1.41421356, 1.73205081, 2.        ])

In [None]:
# exp : 밑이 자연상수 e인 지수함수(e^x)로 변환 / 결과값이 inf라면, 해당 값이 무한대(infinite)라는 것
np.exp(test_list)

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [None]:
# 로그
np.log(test_list)

array([0.        , 0.69314718, 1.09861229, 1.38629436])

## 통계값

In [None]:
test_list

In [None]:
# 평균
np.mean(test_list)

2.5

In [None]:
# 표준편차
np.std(test_list)

1.118033988749895

In [None]:
# 분산
test_list = [1,2,3,4]

test1 = np.array(test_list) # np 클래스에 array() 메소드를 받는 객체 생성!
test1.var() # test1 객체에 var() 메소드

np.var(test_list) # np 클래스에 var() 메소드, test_list를 파라미터로 받는

1.25

In [None]:
# test_list.min() 과 min(test_list)
test_list = np.arange(1,5)
test_list.min()
min(test_list)

1

In [None]:
# 최대값
test1.max()

4

In [None]:
# 최소값
test1.min()

1

In [None]:
test_list_2nd

In [None]:
test_list

[1, 2, 3, 4]

In [None]:
# 자주 사용합니다.
# 최대값 존재하고 있는 인덱스 넘버를 리턴
# 출력값이 인덱스
# 최대값의 위치를 보고싶을 때
np.argmax(test_list)

3

In [None]:
# 최소값 인덱스
# argmax보다는 덜 쓰이지만 자주 보임
np.argmin(test_list)

0

In [None]:
# 범위설정
# (시작 값, 마지막 값 + 1, 스텝수)
# range() 함수와 동일하게 작동함
# for i in range(0, 100, 10):
#     print(i)
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# 범위 데이터 생성 : linspace == linear space (선형 공간)
# (시작 값, 마지막 값 + 1, 데이터갯수)
# 시각화 sample 데이터 시 자주 사용함
np.linspace(0,10,20)

array([ 0.        ,  0.52631579,  1.05263158,  1.57894737,  2.10526316,
        2.63157895,  3.15789474,  3.68421053,  4.21052632,  4.73684211,
        5.26315789,  5.78947368,  6.31578947,  6.84210526,  7.36842105,
        7.89473684,  8.42105263,  8.94736842,  9.47368421, 10.        ])

In [None]:
import pandas as pd
test1 =  pd.DataFrame(test_nan)
test1

Unnamed: 0,0
0,0.0
1,
2,inf


In [None]:
# 결측 확인
test1.isna()

Unnamed: 0,0
0,False
1,True
2,False


In [None]:
# 발산 확인
test1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       2 non-null      float64
dtypes: float64(1)
memory usage: 152.0 bytes


In [None]:
test_list_3rd

[[[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]]]

In [None]:
# 고유값 확인
np.unique(test_list_3rd)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [None]:
# 데이터 구조(모양)확인
np.shape(test_list_3rd)

(3, 2, 4)

In [None]:
# 데이터 shape 변경
# 어떤 조건에서 reshape가능한가? 데이터 내부에 존재하는 속성 갯수가 같아야 함.
np.reshape(test_list_3rd, (2,2,2,3)) # 곱해서 24로만 되면 reshape 가능!

test_list3 = np.array(test_list_3rd)
test_list3.reshape((3,4,2))

array([[[1, 2],
        [3, 4],
        [5, 6],
        [7, 8]],

       [[1, 2],
        [3, 4],
        [5, 6],
        [7, 8]],

       [[1, 2],
        [3, 4],
        [5, 6],
        [7, 8]]])

In [None]:
test_list3

(3, 2, 4)

In [None]:
# 데이터 차원확인
# 데이터가 존재하는 축방향이 늘어나면 차원수도 늘어남
# 기하학적 데이터의 차원수를 이야기하고
# 데이터분석을 할 때는 열기준으로 차원을 이야기 합니다.
np.reshape(test_list_3rd, (2,2,2,3))
np.ndim(test_list_3rd) #  차원 확인

# 행, 열, 축

3

In [None]:
# 전치행렬


## Numpy array (배열, 행렬)
> - numpy 연산의 기본이 되는 데이터 구조입니다.  
> - 리스트보다 간편하게 만들 수 있으며 **연산이 빠른** 장점이 있습니다.  
> - **브로드캐스팅 연산을 지원**합니다.  
> - 단, **같은 type**의 데이터만 저장 가능합니다.  
> - array 또한 numpy의 기본 함수로서 생성 가능합니다.  

>> array 함수 호출 기본구조  
ex) **`np.array(배열변환 대상 데이터)`**  
ex) **`np.arange(start, end, step_forward)`**

### numpy array 실습

In [None]:
# 기존 데이터 구조를 array로 변환
test_list = [1,2,3,4]
test_array = np.array(test_list)
test_array2 = np.array(test_list2)
test_farray = np.array(test_flist)
test_array_2nd = np.array(test_list_2nd)
test_array_3rd = np.array(test_list_3rd)

In [None]:
# array 생성 확인
test_array_3rd

array([[[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]]])

In [None]:
# 같은 타입의 데이터만 들어가는지 확인
test_list.append('안녕')
test_array = np.array(test_list)
test_array # array는 같은 타입의 데이터만 들어가는 것!

array(['1', '2', '3', '4', '안녕', '안녕'], dtype='<U21')

In [None]:
# np.arange 함수로 생성
np.arange(25).reshape(5,5) # 따라서 list보다 array를 사용하는 게 편함

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [None]:
test_list_3rd = np.array(test_list_3rd)
test_list_3rd.transpose()

array([[[1, 1, 1],
        [5, 5, 5]],

       [[2, 2, 2],
        [6, 6, 6]],

       [[3, 3, 3],
        [7, 7, 7]],

       [[4, 4, 4],
        [8, 8, 8]]])

### 특수한 형태의 array를 함수로 생성
함수 호출의 기본구조
> ex) **`np.ones([자료구조 shape])`**  
> 자료구조 shape은 정수, **[ ]**리스트, **( )** 튜플 로만 입력가능합니다.

>> - ones()  
>> - zeros()  
>> - empty()  
>> - eye()

In [None]:
# 1로 초기화한 array 생성
np.ones((5,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [None]:
# 0으로 초기화
np.zeros((5,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [None]:
# 빈 값으로 초기화

test = np.array([i for i in range(10)])

np.empty((5,5))


array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [None]:
# 항등행렬 초기화
# 항등행렬의 수학적 의미는 항등행렬 X A = A
# shape이 안맞는 경우 연산이 가능하도록 할 때


### array 속성 및 내장함수
`np.array` 에는 유용한 수리, 통계 연산을 위한 함수가 갖추어져 있습니다. 다차원 기하학적 연산을 위한 함수도 함께 살펴보겠습니다.  
    
> array 내장 속성 호출 기본구조  
ex) **`test_array.ndim`**  
자주 사용하는 속성 `shape`, `dtype`, `ndim` (함수가 아님!)
    
> array 내장함수 호출 기본구조  
ex) **`test_array.prod()`**
    
위에 학습한 np.sum() 과는 달리 array 변수의 인자를 받아 그대로 사용합니다.

#### array 속성

In [None]:
# 데이터 타입확인
test_array.argmax() # 클래스.함수

# 속성인지 함수인지 헷갈리면 출력해보면 됨
# argmax 실행해보고 함수면 () 씌워주고 출력하면 됨

3

In [None]:
# 데이터구조 확인
# np.shape()
test_array.shape # 클래스.속성

(4,)

In [None]:
# 데이터 차원 확인
test_array2.ndim

2

In [None]:
# 전치행렬


#### array 내장함수

In [None]:
test_array

array([1, 2, 3, 4])

In [None]:
# 내장함수 호출
test_array.sort(kind='mergesort')
test_array

array([1, 2, 3, 4])

In [None]:
# numpy 함수와 키워드가 같습니다.


### array 연산
컴퓨팅 연산을 위한 패키지인 만큼 편리한 배열 연산 기능을 지원합니다. 여러 array 연산을 통해 다른 자료구조와의 연산 차이를 알아봅시다.

브로드캐스팅 연산을 한번 해보자

In [None]:
# 리스트연산 test
test_list + [5] # 데이터타입이 다를 수 있으니 연산이 안되는 것

[1, 2, 3, 4, '안녕', '안녕', 5]

In [None]:
# array 덧셈, 뺄셈, 곱셈, 나눗셈
test_array + 5 

array([6, 7, 8, 9])

In [None]:
# 실제 연산속도 차이를 확인하기 위한 큰 데이터 생성
big_list = [i for i in range(500000)] # list comprehension이 list 하나하나 for문 돌려서 하는 것보다 3배 정도 빠름
big_array =  np.array(big_list)

In [None]:
# 리스트연산테스트
%timeit big_list2 = [i + 1 for i in big_list]

10 loops, best of 5: 36.2 ms per loop


In [None]:
# array 연산테스트
%timeit big_array + 1 # 훨씬 빠름!!, 브로드캐스트로 연산한 것

The slowest run took 9.11 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 5: 548 µs per loop


In [None]:
# 행렬내적
a = np.arange(24).reshape(4, 6)
b = np.arange(24).reshape(8, 3)

In [None]:
# 행렬내적 연산
a @ b 

ValueError: ignored

### 벡터 가중합
벡터의 내적은 가중합을 계산할 때 쓰일 수 있습니다. **가중합(weighted sum)**이란 복수의 데이터를 단순히 합하는 것이 아니라 각각의 수에 어떤 가중치 값을 곱한 후 이 곱셈 결과들을 다시 합한 것을 말합니다.  
데이터 벡터가 $x=[x_1, \cdots, x_N]^T$이고 가중치 벡터가 $w=[w_1, \cdots, w_N]^T$이면 데이터 벡터의 가중합은 다음과 같습니다.

$$ 
\begin{align}
w_1 x_1 + \cdots + w_N x_N = \sum_{i=1}^N w_i x_i 
\end{align}
$$ 

이 값을 벡터 $x$와 $w$의 곱으로 나타내면 $w^Tx$ 또는 $x^Tw$ 라는 간단한 수식으로 표시할 수 있습니다.  
쇼핑을 할 때 각 물건의 가격은 데이터 벡터, 각 물건의 수량은 가중치로 생각하여 내적을 구하면 총금액을 계산할 수 있습니다.

In [None]:
# 벡터의 가중합 연습문제
# 삼성전자, 셀트리온, 카카오로 포트폴리오를 구성하려한다. 
# 각 종목의 가격은 80,000원, 270,000원, 160,000원이다.
# 삼성전자 100주, 셀트리온 30주, 카카오 50주로 구성하기 위한 매수금액을 구하시오
print( (80000 * 100) + (270000 * 30) + (160000 * 50) )

a = [80000, 270000, 160000]
b = [100, 30, 50]
na = np.array(a)
nb = np.array(b)

print(na @ nb)

# 벡터끼리의 내적을 구한 것

24100000
24100000


## array 인덱싱, 슬라이싱(매우중요)
> 기본적으로 자료구조란 데이터의 묶음, 그 묶음을 관리 할 수 있는 바구니를 이야기 합니다.  
데이터 분석을 위해 자료구조를 사용하지만 자료구조안 내용에 접근을 해야 할 경우도 있습니다.
>> **인덱싱**이란?  
데이터 바구니 안에 든 내용 하나에 접근하는 명령, 인덱스는 내용의 순번  
>> **슬라이싱**이란?  
데이터 바구니 안에 든 내용 여러가지에 접근 하는 명령  

기본적으로 인덱싱과 슬라이싱의 색인은 리스트와 동일합니다.

### 인덱싱, 슬라이싱 실습

In [None]:
# 10부터 19까지 범위를 가지는 array생성
index_test = np.arange(10,20)
index_test

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [None]:
# 0부터 3번 인덱스까지
index_test[:4]

array([10, 11, 12, 13])

In [None]:
# 4번 인덱스부터 마지막 인덱스까지
index_test[4:] # index_test[4:len(index_test)]

array([14, 15, 16, 17, 18, 19])

In [None]:
# 마지막 인덱스부터 뒤에서 3번째 인덱스까지
index_test[-1:-4:-1]

array([19, 18, 17])

In [None]:
# 0부터 3씩 증가하는 인덱스
index_test[::3]

array([10, 13, 16, 19])

### 여러가지 인덱싱 및 슬라이싱 방법을 시도해봅시다

In [None]:
# 인덱싱 테스트 array 생성
index_test2 = np.array(range(25)).reshape([5, 5])
index_test2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [None]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요

In [None]:
index_test2[2:, 1:4]

array([[11, 12, 13],
       [16, 17, 18],
       [21, 22, 23]])

In [None]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요

In [None]:
index_test2[:2, 2:]

array([[2, 3, 4],
       [7, 8, 9]])

In [None]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요

In [None]:
index_test2[:, 1:2]

array([[ 1],
       [ 6],
       [11],
       [16],
       [21]])

In [None]:
index_test3 = np.arange(40).reshape(2, 5, 4)
index_test3
index_test3.shape

(2, 5, 4)

In [None]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요

In [None]:
index_test3[:1, 3:, 1:3]

array([[[13, 14],
        [17, 18]]])

array([[13, 14],
       [17, 18]])

In [None]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요

In [None]:
index_test3[:, 2:, :3]

array([[[ 8,  9, 10],
        [12, 13, 14],
        [16, 17, 18]],

       [[28, 29, 30],
        [32, 33, 34],
        [36, 37, 38]]])

array([[[ 8,  9, 10],
        [12, 13, 14],
        [16, 17, 18]],

       [[28, 29, 30],
        [32, 33, 34],
        [36, 37, 38]]])

In [None]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요

In [None]:
index_test3[:, :, 1:2].reshape(1,2,5)

array([[[ 1,  5,  9, 13, 17],
        [21, 25, 29, 33, 37]]])

array([[ 1,  5,  9, 13, 17],
       [21, 25, 29, 33, 37]])

## 팬시인덱싱
numpy에서 벡터연산을 통해 bool 형태의 벡터를 기준으로 데이터를 선별하는 방법

In [None]:
# 테스트 array 생성
pet = np.array(['개', '고양이', '고양이', '햄스터', '개', '햄스터'])
num = np.array([1, 2, 3, 4, 5, 6])
indexing_test = np.random.randn(6, 5)
indexing_test

array([[-1.16180276, -2.3676744 , -1.18709504,  0.12395937,  0.07477319],
       [ 0.38758954, -0.19676703, -0.28911346, -1.95467505,  1.03571292],
       [ 0.34115113,  0.73218391, -1.8291113 , -0.76490603,  0.66732273],
       [ 1.91983683,  0.19437291, -0.07463843, -0.44697922,  0.63683149],
       [-1.2975673 ,  0.08911714, -0.44071619,  1.85167383,  0.33212934],
       [ 0.43783228,  1.83835769,  1.11610228,  0.72022867, -0.35524488]])

In [None]:
# num array 조건연산
num > 3 # 브로드캐스팅으로 진행한 것, for문으로 하나하나 확인한 것이 아님

array([False, False, False,  True,  True,  True])

In [None]:
# pet array 조건연산
pet == '고양이'

array([False,  True,  True, False, False, False])

In [None]:
# 팬시인덱스 전달
indexing_test[pet == '고양이']

array([[ 0.38758954, -0.19676703, -0.28911346, -1.95467505,  1.03571292],
       [ 0.34115113,  0.73218391, -1.8291113 , -0.76490603,  0.66732273]])

In [None]:
# 조건연산 추가 sum, any, all
(num > 3).sum()
(num > 3).any() # 어느 값이 하나라도 True면 True
(num > 3).all()


False