<a href="https://colab.research.google.com/github/KSeungBin/python/blob/master/01_package_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy (Numeric python)
> - 패키지 이름과 같이 **수리적 파이썬 활용**을 위한 파이썬 패키지
> - **선형대수학 구현**과 **과학적 컴퓨팅 연산**을 위한 함수를 제공
> - (key) `nparray` 다차원 배열을 사용하여 **벡터의 산술 연산**이 가능

> - **브로드캐스팅**을 활용하여 shape(형태 혹은 모양)이 다른 데이터의 연산이 가능
>> - 기존 언어에서는 제공 X
>> - 굉장히 파워풀한 기능으로서 빅데이터 연산에 굉장히 효율이 좋음     

## Numpy 설치 와 import
> - 선행 학습을 통해 클래스와 함수에서 클래스를 불러들여 사용할 수 있다고 배웠습니다.
> - 다만 직접 작성한 클래스가 아닐경우, 그리고 현재 컴퓨터에 사용해야 할 패키지가 없을경우 간단한 명령어로 설치가능.

>> - `pip`, `conda` 명령어 : python 라이브러리 관리 프로그램으로 오픈소스라이브러리를 간편하게 설치 할 수 있도록 하는 명령어  

> 콘솔창에서 실행 시  
**`pip` `install` `[패키지명]`** 혹은  
**`conda` `install` `[패키지명]`**

> 주피터 노트북으로 실행 시  
**`!pip` `install` `[패키지명]`**  

아나콘다 환경으로 python 환경설정 시 기본적으로 Numpy 설치가 되어있음

In [None]:
# 주피터 노트북에서 Numpy 설치
!pip install numpy

In [1]:
# Numpy 사용을 위해 패키지 불러들이기
import numpy as np
# 관례적으로 np라는 약자를 많이 사용하게 됩니다.
# 파이썬을 사용하는 대부분의 유저들이 사용하고 있는 닉네임이니 이건 꼭 지켜서 사용해주시는 것을 추천드립니다.

## 데이터분석을 위한 잠깐의 선형대수학
numpy는 기본적으로 수리적 컴퓨팅을 위한 패키지 입니다. 선형대수학을 약간만 이해한다면 데이터를 훨씬 더 깊이있게 다룰 수 있습니다.  
- 벡터 : 방향과 크기(아래 이미지 : 스칼라 2개 = 벡터의 크기 2  / 방향은 아래쪽)
- 행렬 : 열벡터 + 행벡터 -> table 형태 (데이터프레임, 엑셀데이터)
- 텐서 : 이미지, 영상은 텐서 데이터(3차원 이상은 텐서) 

<img src="https://drive.google.com/uc?id=1FIVLOIP-X72PeWS7tgChMEoWCUYtyOqa">

출처 : https://art28.github.io/blog/linear-algebra-1/

In [2]:
test_list = '안녕하세요'  # 문자열은 전형적인 벡터
test_list[0]

'안'

In [None]:
# 리스트로 -> 방향의 벡터
test_list = [1,2,3,4]

## 데이터의 구분에 따른 표현 방법과 예시

#### 스칼라
    1, 3.14, 실수 혹은 정수  
    
#### 벡터
    [1, 2, 3, 4], 문자열  
    
#### 3 X 4 매트릭스
    [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]]
     
#### 2 X 3 X 4 텐서
    [[[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 0, 11, 12]],
     [[1, 2, 3, 4], 
     [5, 6, 7, 8],
     [9, 0, 11, 12]]]

### 데이터로 표현한 선형대수학
<img src="https://drive.google.com/uc?id=1JXgwhjipPcV147LPIrC2CgT0TmS4jT1R">

- python은 column vector를 기본으로 함    

- 위 이미지 중 tensor는 컬러 이미지를 시각화한 것
  
출처 : https://m.blog.naver.com/nabilera1/221978354680

### 데이터 형태에 따른 사칙연산

> 스칼라 +, -, *, / -> 결과도 스칼라  
벡터 +, -, 내적 -> +, - 결과는 벡터, 내적 결과는 스칼라  
매트릭스 +, -, *, /  
텐서 +, -, *, /  

### 데이터분석에 자주 사용하는 특수한 연산
벡터와 벡터의 내적
    
$$\begin{bmatrix}1 & 2 & 3 & 4 \end{bmatrix} \times \begin{bmatrix}1 \\ 2 \\ 3 \\ 4 \end{bmatrix} = 1 * 1 + \
2 * 2 + 3 * 3 + 4 * 4 = 30$$
# $$ A^TA $$

- transpose = 한 축을 기준으로 행렬을 뒤집는 것
- 벡터의 경우, transpose를 해야 shape을 맞춰 내적을 할 수 있음 
- 행렬의 내적 ex) (2,5) * (5,4) = (2,4)

#### 벡터와 벡터의 내적이 이루어지려면
    
    1. 벡터가 마주하는 shape의 갯수(길이)가 같아야 합니다.
    2. 연산 앞에 위치한 벡터는 전치(transpose) 되어야 합니다.
<img src="https://drive.google.com/uc?id=1VdfUo6iFHpTrPd_5RSjJLjlrX_5zWO0v" height="300px" width="300px">  

출처 : https://ko.wikipedia.org/wiki/%EC%A0%84%EC%B9%98%ED%96%89%EB%A0%AC  

#### 벡터 내적으로 방정식 구현
- linear regression 문제(머신러닝의 기본)

$$y = \begin{bmatrix}1 & 2 & 1 \end{bmatrix} \times \begin{bmatrix}x_1 \\ x_2 \\ x_3 \\ \end{bmatrix} = 1 * x_1 + \
2 * x_2 + 1 * x_3 = x_1 + 2x_2 + x_3$$

## 브로드캐스팅
> 파이썬 넘파이 연산은 브로드캐스팅을 지원합니다.  
벡터연산 시 shape이 큰 벡터의 길이만큼 shape이 작은 벡터가 연장되어 연산됩니다.

<img src="https://drive.google.com/uc?id=139z17KEUFNIoJR_-lSnnxepmJAJx--cw" height="500px" width="500px">  

출처 : http://www.astroml.org/book_figures/appendix/fig_broadcast_visual.html

In [3]:
test_list = [1,2,3]
test_list + 5

TypeError: ignored

In [4]:
test_list + [5]

[1, 2, 3, 5]

In [5]:
# broadcasting : 스칼라 값을 더해줄 수 있음
np.arange(3) + 5 # 스칼라 값을 vector처럼 변환해주어 벡터 연산

array([5, 6, 7])

## Numpy function(유니버셜 함수)
> `numpy`는 컴퓨팅연산을 위한 다양한 연산함수를 제공합니다.  
>> 연산함수 기본구조  
ex) **`np.sum`**(연산대상, axis=연산방향)  
**`dtype()`**

### 수리연산
- **`prod()`**
- **`dot()`**
- **`sum()`**
- **`cumprod()`**
- **`cumsum()`**
- **`abs()`**
- **`sqaure()`**
- **`sqrt()`**
- **`exp()`**
- **`log()`**

### 통계연산
- **`mean()`**
- **`std()`**
- **`var()`**
- **`max()`**
- **`min()`**
- **`argmax()`**
- **`argmin()`**

### 로직연산
- **`arange()`**
- **`isnan()`**
- **`isinf()`**
- **`unique()`**

### 기하
- **`shape()`**
- **`reshape()`**
- **`ndim()`**
- **`transpose()`**
    
각종 연산 함수 참고: https://numpy.org/doc/stable/reference/routines.math.html

### numpy 함수 실습

In [6]:
# 함수 예제를 위한 데이터셋
test_list = [1, 2, 3, 4]
test_list2 = [[1, 3], [5, 7]]
test_flist = [1, 3.14, -4.5]
test_list_2nd = [[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]]

test_list_3rd = [[[1, 2, 3, 4],
              [5, 6, 7, 8]],
              
              [[1, 2, 3, 4],
               [5, 6, 7, 8]],

              [[1, 2, 3, 4],
               [5, 6, 7, 8]]]
test_exp = [0, 1, 10]
test_nan = [0, np.nan, np.inf]

In [7]:
# 곱연산 : 1 * 2 * 3 * 4
np.prod(test_list)

24

In [9]:
# 합연산 : 일간 매출을 월말에 total해서 report쓸 때나 누적 수익률 등을 구할 때 사용
np.cumsum(test_list)

array([ 1,  3,  6, 10])

In [8]:
# 누적곱연산
np.cumprod(test_list)

array([ 1,  2,  6, 24])

In [None]:
# 누적합연산


In [None]:
test_flist

In [None]:
# 절대값


In [None]:
# 제곱


In [None]:
# 루트


In [None]:
# exp


In [None]:
# 로그


## 통계값

In [None]:
test_list

In [None]:
# 평균


In [None]:
# 표준편차


In [None]:
# 분산


In [None]:
# 최대값


In [None]:
# 최소값


In [None]:
test_list_2nd

In [10]:
# 자주 사용합니다. : 최대 확률을 가진 결과값을 빼올 때 많이 사용
# 최대값 존재하고 있는 인덱스 넘버를 리턴
# 출력값이 인덱스
print(test_list)
np.argmax(test_list)

[1, 2, 3, 4]


3

In [11]:
# 최소값 인덱스
# argmax보다는 덜 쓰이지만 자주 보임
np.argmin(test_list)

0

In [12]:
# 범위설정
# (시작포인트, 마지막포인트 + 1, 스텝수)
# range() 함수와 동일하게 작동함
# for i in range(0, 100, 10):
#     print(i)
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
# 범위 데이터 생성 : 시각화할 때 sample data 생성할 때 많이 사용
# (시작 값, 마지막 값 + 1, 데이터갯수)
np.linspace(0,10,50)

array([ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653,
        1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469,
        2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286,
        3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102,
        4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918,
        5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735,
        6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551,
        7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367,
        8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184,
        9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ])

In [None]:
test_nan

In [None]:
# 결측 확인


In [None]:
# 발산 확인


In [14]:
test_list_3rd

[[[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]],
 [[1, 2, 3, 4], [5, 6, 7, 8]]]

In [15]:
# 고유값 확인(중복값이 제거된 유니크한 값)
np.unique(test_list_3rd)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [16]:
# 데이터 구조(모양)확인 : tensor
np.shape(test_list_3rd)

(3, 2, 4)

In [17]:
# 데이터 shape 변경
# 어떤 조건에서 reshape가능한가? 데이터 내부에 존재하는 속성 갯수(24개)가 같아야 함.
np.reshape(test_list_3rd, (4,6))
np.reshape(test_list_3rd, (2,12))
np.reshape(test_list_3rd, (3,8))

array([[1, 2, 3, 4, 5, 6],
       [7, 8, 1, 2, 3, 4],
       [5, 6, 7, 8, 1, 2],
       [3, 4, 5, 6, 7, 8]])

In [None]:
np.shape(test_list_3rd)

In [18]:
# 데이터 차원확인
# 데이터가 존재하는 축방향이 늘어나면 차원수도 늘어남
# 기하학적 데이터의 차원수를 이야기하고
# 데이터분석을 할 때는 열기준으로 차원을 이야기 합니다.
np.reshape(test_list_3rd, (2,2,2,3))

array([[[[1, 2, 3],
         [4, 5, 6]],

        [[7, 8, 1],
         [2, 3, 4]]],


       [[[5, 6, 7],
         [8, 1, 2]],

        [[3, 4, 5],
         [6, 7, 8]]]])

In [19]:
np.ndim(test_list_3rd)

3

In [None]:
# 전치행렬


## Numpy array (배열, 행렬)
> - numpy 연산의 기본이 되는 데이터 구조입니다.  
> - 리스트보다 간편하게 만들 수 있으며 **연산이 빠른** 장점이 있습니다.  
> - **브로드캐스팅 연산을 지원**합니다.  
> - 단, **같은 type**의 데이터만 저장 가능합니다.  
> - array 또한 numpy의 기본 함수로서 생성 가능합니다.  

>> array 함수 호출 기본구조  
ex) **`np.array(배열변환 대상 데이터)`**  
ex) **`np.arange(start, end, step_forward)`**

### numpy array 실습

In [20]:
# 기존 데이터 구조를 array로 변환
test_array = np.array(test_list)
test_array2 = np.array(test_list2)
test_farray = np.array(test_flist)
test_array_2nd = np.array(test_list_2nd)
test_array_3rd = np.array(test_list_3rd)

In [22]:
# array 생성 확인
test_array_3rd   # list보다 array로 변환했을 때 사람이 이해하기 쉬운 형태

array([[[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[1, 2, 3, 4],
        [5, 6, 7, 8]]])

In [23]:
# 같은 타입의 데이터만 들어가는지 확인
test_list.append('안녕') 
test_array = np.array(test_list)
test_array  # 기존의 실수나 정수도 문자열로 변경되어, array 안에 문자열 데이터만 들어가있음

array(['1', '2', '3', '4', '안녕'], dtype='<U21')

In [None]:
# 2차원 배열 확인


In [None]:
# 3차원 배열 확인


In [24]:
# np.arange 함수로 생성
np.arange(25).reshape(5,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

### 특수한 형태의 array를 함수로 생성
함수 호출의 기본구조
> ex) **`np.ones([자료구조 shape])`**  
> 자료구조 shape은 정수, **[ ]**리스트, **( )** 튜플 로만 입력가능합니다.

>> - ones()  
>> - zeros()  
>> - empty()  
>> - eye()

In [25]:
# 1로 초기화한 array 생성
np.ones((5,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [None]:
# 0으로 초기화


In [None]:
# 빈 값으로 초기화


In [None]:
# 항등행렬 초기화
# 항등행렬의 수학적 의미는 항등행렬 X A = A
# shape이 안맞는 경우 연산이 가능하도록 할 때


### array 속성 및 내장함수
`np.array` 에는 유용한 수리, 통계 연산을 위한 함수가 갖추어져 있습니다. 다차원 기하학적 연산을 위한 함수도 함께 살펴보겠습니다.  
    
> array 내장 속성 호출 기본구조  : 속성은 괄호 붙이지 않는다
ex) **`test_array.ndim`**  
자주 사용하는 속성 `shape`, `dtype`, `ndim`
    
> array 내장함수 호출 기본구조  : 함수는 소괄호 붙여야 한다
ex) **`test_array.prod()`**
    
위에 학습한 np.sum() 과는 달리 array 변수의 인자를 받아 그대로 사용합니다.

#### array 속성

In [26]:
# 데이터 타입확인
test_array.argmax

<function ndarray.argmax>

In [27]:
# function이니까 소괄호붙여야겠다
test_array.argmax()

4

In [28]:
# 데이터구조 확인
# np.shape()
test_array.shape  # 'class명.' 하면 속성이나 내장함수에 바로 접근할 수 있다.

(5,)

In [None]:
# 데이터 차원 확인


In [None]:
# 전치행렬


#### array 내장함수

In [None]:
test_array

In [None]:
# 내장함수 호출


In [None]:
# numpy 함수와 키워드가 같습니다.


### array 연산
컴퓨팅 연산을 위한 패키지인 만큼 편리한 배열 연산 기능을 지원합니다. 여러 array 연산을 통해 다른 자료구조와의 연산 차이를 알아봅시다.

In [29]:
# 리스트연산 test
# array는 만드는 것도 편하고 연산이 빠르다
test_list + [5]  # 리스트의 덧셈 : 뒤에 append만 해줌(그 이유는 리스트 안에 들어있는 데이터 타입이 각각 다를 수 있기 때문)

[1, 2, 3, 4, '안녕', 5]

In [30]:
test_array

array(['1', '2', '3', '4', '안녕'], dtype='<U21')

In [31]:
# 문자열을 숫자형 데이터로 바꾼 후 Broadcasting 연산
test_list = [1,2,3,4]
test_array = np.array(test_list)
test_array + 5

array([6, 7, 8, 9])

In [None]:
# array 덧셈, 뺄셈, 곱셈, 나눗셈


In [None]:
# 실제 연산속도 차이를 확인하기 위한 큰 데이터 생성
big_list = [i for i in range(50000000)] # big data   # for문을 돌려 list에 하나씩 append하는 것보다 list comprehension이 연산 속도 훨씬 빠르다
big_array = np.array(big_list)

In [None]:
%%time
# 리스트연산테스트
big_list2 = [ i+1 for i in big_list]

In [None]:
%%time
# array 연산테스트(broadcast 연산)
big_array + 1    # 리스트연산보다 8배 ~ 20배 더 빠르다.

In [32]:
# 행렬내적
a = np.arange(24).reshape(4,6)
b = np.arange(24).reshape(6,4)

In [33]:
# 행렬내적 연산
a @ b

array([[ 220,  235,  250,  265],
       [ 580,  631,  682,  733],
       [ 940, 1027, 1114, 1201],
       [1300, 1423, 1546, 1669]])

### 벡터 가중합
벡터의 내적은 가중합을 계산할 때 쓰일 수 있습니다. **가중합(weighted sum)**이란 복수의 데이터를 단순히 합하는 것이 아니라 각각의 수에 어떤 가중치 값을 곱한 후 이 곱셈 결과들을 다시 합한 것을 말합니다.  
데이터 벡터가 $x=[x_1, \cdots, x_N]^T$이고 가중치 벡터가 $w=[w_1, \cdots, w_N]^T$이면 데이터 벡터의 가중합은 다음과 같습니다.

$$ 
\begin{align}
w_1 x_1 + \cdots + w_N x_N = \sum_{i=1}^N w_i x_i 
\end{align}
$$ 

이 값을 벡터 $x$와 $w$의 곱으로 나타내면 $w^Tx$ 또는 $x^Tw$ 라는 간단한 수식으로 표시할 수 있습니다.  
쇼핑을 할 때 각 물건의 가격은 데이터 벡터, 각 물건의 수량은 가중치로 생각하여 내적을 구하면 총금액을 계산할 수 있습니다.  
=> 데이터 벡터 1개와 가중치 벡터 1개를 내적해서 계산

In [37]:
# 벡터의 가중합 연습문제
# 삼성전자, 셀트리온, 카카오로 포트폴리오를 구성하려한다. 
# 각 종목의 가격은 80,000원, 270,000원, 160,000원이다.
# 삼성전자 100주, 셀트리온 30주, 카카오 50주로 구성하기 위한 매수금액을 구하시오
# (80000 * 100) + (270000 * 30) + (160000 * 50)

stock = np.array([100, 30, 50])            # 수량 벡터
price = np.array([80000, 270000, 160000])  # 가격 벡터
stock @ price

24100000

## array 인덱싱, 슬라이싱(매우중요)
> 기본적으로 자료구조란 데이터의 묶음, 그 묶음을 관리 할 수 있는 바구니를 이야기 합니다.  
데이터 분석을 위해 자료구조를 사용하지만 자료구조안 내용에 접근을 해야 할 경우도 있습니다.
>> **인덱싱**이란?  
데이터 바구니 안에 든 내용 하나에 접근하는 명령, 인덱스는 내용의 순번  
>> **슬라이싱**이란?  
데이터 바구니 안에 든 내용 여러가지에 접근 하는 명령  

기본적으로 인덱싱과 슬라이싱의 색인은 리스트와 동일합니다.

### 인덱싱, 슬라이싱 실습

In [39]:
# 10부터 19까지 범위를 가지는 array생성
index_test = np.arange(10,20)  # 벡터 데이터
index_test

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [40]:
# 0부터 3번 인덱스까지
index_test[0:4] # index_test[:4]

array([10, 11, 12, 13])

In [48]:
# 4번 인덱스부터 마지막 인덱스까지
index_test[4:]  # index_test[4:len(index_test)]

array([14, 15, 16, 17, 18, 19])

In [44]:
# 마지막 인덱스부터 뒤에서 3번째 인덱스까지
index_test[-3:]  # index_test[-1:-4:-1]

array([17, 18, 19])

In [47]:
# 0부터 3씩 증가하는 인덱스
index_test[::3]  

array([10, 13, 16, 19])

### 여러가지 인덱싱 및 슬라이싱 방법을 시도해봅시다

In [49]:
# 인덱싱 테스트 array 생성  : array는 배열이므로 차원수를 늘였다 줄였다 할 수 있다.
index_test2 = np.array(range(25)).reshape([5, 5])
index_test2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [50]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test2[2:,1:4]  # [행 기준 슬라이싱 먼저, 열 기준 슬라이싱 다음]

array([[11, 12, 13],
       [16, 17, 18],
       [21, 22, 23]])

array([[11, 12, 13],
       [16, 17, 18],
       [21, 22, 23]])

In [52]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test2[:2, 2:]

array([[2, 3, 4],
       [7, 8, 9]])

array([[2, 3, 4],
       [7, 8, 9]])

In [53]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test2[:, 1]

array([ 1,  6, 11, 16, 21])

array([ 1,  6, 11, 16, 21])

In [54]:
index_test3 = np.arange(40).reshape(2, 5, 4)
index_test3

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]],

       [[20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31],
        [32, 33, 34, 35],
        [36, 37, 38, 39]]])

In [57]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test3[0, 3:, 1:3]

array([[13, 14],
       [17, 18]])

array([[13, 14],
       [17, 18]])

In [None]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test3[:, 2:, :3]  # 축이 아무리 늘어나도(차원수), 가장 바깥 축부터 연산이 일어난다.

array([[[ 8,  9, 10],
        [12, 13, 14],
        [16, 17, 18]],

       [[28, 29, 30],
        [32, 33, 34],
        [36, 37, 38]]])

In [59]:
# 아래 슬라이싱 결과와 같게 코드를 입력해보세요
index_test3[:, :, 1]

array([[ 1,  5,  9, 13, 17],
       [21, 25, 29, 33, 37]])

array([[ 1,  5,  9, 13, 17],
       [21, 25, 29, 33, 37]])

## 팬시인덱싱
numpy에서 벡터연산을 통해 bool 형태의 벡터를 기준으로 데이터를 선별하는 방법

In [60]:
# 테스트 array 생성
pet = np.array(['개', '고양이', '고양이', '햄스터', '개', '햄스터'])
num = np.array([1, 2, 3, 4, 5, 6])
indexing_test = np.random.randn(6, 5)
indexing_test

array([[ 0.12328906, -1.25099938,  1.78001153, -0.19196726, -2.48292504],
       [-1.15406497, -0.64194307,  2.24880445, -0.5440453 ,  0.1411387 ],
       [ 1.60873034,  2.62441759, -0.17709429,  0.88418182,  0.75324275],
       [-0.31181912,  0.35797675, -0.84838519,  0.26071968, -0.05199483],
       [-0.58066332, -1.88057318, -1.17760317, -1.69354891, -0.28858522],
       [ 0.55690962,  0.83916083, -1.4268228 , -1.80359013,  0.68278726]])

In [61]:
# num array 조건연산(조건연산에는 비교연산과 멤버연산(not, in)도 포함되어있음)
num > 3   # broadcasting : 하나하나 가져와서 계산하는 게 아닌 한번에 계산

array([False, False, False,  True,  True,  True])

In [62]:
# pet array 조건연산
pet == '고양이'

array([False,  True,  True, False, False, False])

In [64]:
# 팬시인덱스 전달 : 인덱싱 or 슬라이싱은 행방향, 열방향 모두 가능
print(indexing_test[num > 3])
indexing_test[pet=='고양이']

[[-0.31181912  0.35797675 -0.84838519  0.26071968 -0.05199483]
 [-0.58066332 -1.88057318 -1.17760317 -1.69354891 -0.28858522]
 [ 0.55690962  0.83916083 -1.4268228  -1.80359013  0.68278726]]


array([[-1.15406497, -0.64194307,  2.24880445, -0.5440453 ,  0.1411387 ],
       [ 1.60873034,  2.62441759, -0.17709429,  0.88418182,  0.75324275]])

In [65]:
# 조건연산 추가 sum, any, all : 데이터 검증 시 많이 사용

(num > 3).sum() # false는 0, true는 1  => 따라서, sum하면 true인 개수를 구할 수 있다
(num > 3).any() # 어느 하나라도 true가 있으면 true 출력
(num > 3).all() # 모두 true여야 true 출력

3