# 넘파이 (Numpy)
    - 파이썬을 활용한 데이터 분석에서 가장 기본이되는 라이브러리
    - 넘파이로만으로도 많이 사용되지만, 판다스(Pandas), 머신러닝 등 수 많은 분야에서 기본적으로 사용되므로, 파이썬 개발자라면 필수로 알아야하는 라이브러리이다.
    - https://numpy.org/

### 1) 수학 수치 연산
    - 합, 평균, 행렬연산 등이 가능하다

### 2) 기본 타입
    - ndarray(n-dimenstional array) 다차원 배열의 표연이 가능하다

### 3) 파이썬 list가 있음에도 필요한 이유
    - 성능 : 성능적으로 훨씬 빠르다.
    - 메모리 : 적은 메모리를 사용한다
    - 제공함수 : 선형대수, 통계관련 여러 수치 함수를 제공한다.
    - 그 외 수많은 모듈에서 numpy 함수명과 기능을 그대로 사용한다.



<img width="500" src="https://raw.githubusercontent.com/mrdbourke/tensorflow-deep-learning/main/images/00-scalar-vector-matrix-tensor.png" />

    - Scalar: 0차원 array(단일값)
    - Vector : 1차원 array
    - Matrix : 2차원 array
    - Tensor : 3차원(이상) array

In [None]:
import numpy as np

In [None]:
# 1차원 array(백터) 생성
# np.array(iterable)

arr1 = np.array([1,2,3])
arr2 = np.array([5,6,7])

In [None]:
# __repr__ : represent호출 (미리보기)
arr1

array([1, 2, 3])

In [None]:
print(type(arr1))

<class 'numpy.ndarray'>


In [None]:
# __str__ : String호출
print(arr1)

[1 2 3]


In [None]:
# 0차원 : Scalar
# np.array(10)
print(np.array(10))

10


## 타입 승격
    - array는 모든 원소가 '한 가지 타입' 으로 정의해야 한다.
    - 모든 타입 중 가장 큰 타입으로 강제로 변환한다.


In [None]:
# List

li1 =  [1, 2, True, '김', 5.5]
print(li1)
print(type(li1))

# 타입 승격
arr1 = np.array([1, 2, True, '김', 5.5])
print(arr1)
print(type(arr1))


[1, 2, True, '김', 5.5]
<class 'list'>
['1' '2' 'True' '김' '5.5']
<class 'numpy.ndarray'>


In [None]:
# 정수와 실수가 포함되어 있음으로 실수 타입으로 타입 승격한다.
np.array([1,1,5,5.5,5])

array([1. , 1. , 5. , 5.5, 5. ])

## numpy 필드

In [None]:
arr3 = np.array([1,2,3,4,5])
arr3

array([1, 2, 3, 4, 5])

### shape
    - numpy에서는 해당 array의 크기를 알 수 있다. shape를 확인함으로서 몇개의 데이터가 있는지 몇 차원으로 존재하는지 확인할 수 있다.
    - arr.shape의 경과는 튜플로 (행, 열)로 행만 존재하면 1차원, 행렬이 존재하면 2차원으로 차수를 알 수 있다. 또한 행*열을 곱하면 크기도 확인할 수 있다.



In [None]:
arr3.shape

(5,)

### mdim
    - 몇 차원 데이터인지 확인할 수 있는 필드


In [None]:
# len(arr3.shape) 와 같다.
arr3.ndim

1

### size
  - 데이터의 개수

In [None]:
arr3.size

5

### len()
  - array는 iterable한 객체이다. 따라서 길이를 셀 수 있다.

In [None]:
len(arr3)

5

### dtype
  - 데이터의 타입
  

In [None]:
# 정수는 8byte 이다.
arr3.dtype

dtype('int64')

##  numpy의 자료형
    - 부호가 있는 정수 int(8, 16, 32, 64)
    - 부호가 없는 정수 uint(8, 16, 32, 64)
    - 실수 float(16, 32, 64, 128)
    - x복소수 complex(64, 128 256)
    - 불리언 bool
    - x 문자열 string_
    - x 파이썬 오브젝트 object
    - x 유니코드 unicode_

## 2차원 array 생성

In [None]:
arr5 = np.array([1,2,3,4])
arr6 = np.array([[5,6,7,8], [9,10,11,12]])

In [None]:
arr5

array([1, 2, 3, 4])

In [None]:
arr6

array([[ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
print(arr6.shape)
arr6

(2, 4)


array([[ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
arr6.ndim

2

In [None]:
arr6.size

8

## 3차원 array

In [None]:
arr7 = np.array([
          [
              [10, 20, 30, 40],
              [50, 60, 70, 80],
              [90, 100, 110, 120],
          ],
          [
              [100, 200, 300, 400],
              [500, 600, 700, 800],
              [90, 1000, 1100, 1200],
          ]
      ])

In [None]:
# 숫자가 3개니까 3차원
# 2*3*4 24 size
arr7.shape

(2, 3, 4)

In [None]:
arr7.size

24

In [None]:
arr7.ndim

3

## 같은 값이라도 차원이 다를 수 있다.
    - "차원 변환" 이 중요하다.

In [None]:
np.array(10)

array(10)

In [None]:
np.array([10])

array([10])

In [None]:
np.array([[10]])

array([[10]])

In [None]:
np.array([[[10]]])

array([[[10]]])

## np.arange
  - range()와 유사하다


In [None]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

In [None]:
#numpy에 dtype을 붙여주면 그 타입으로 변경된다.
# np.arange(10, 0, -1, dtype=np.int16)
np.arange(10, 0, -1, dtype=np.int16).dtype


dtype('int16')

In [None]:
#다른 타입으로 어레이를 복제하려면?
ar1 = np.arange(3,10)
ar1.dtype

dtype('int64')

## astype(타입)
    - 타입 변환한 array를 리턴(복제)
    - 원본 배열은 변화가 없다

In [None]:
ar1_copy = ar1.astype(np.float32)
#오리지널 데이터는 안건드린다
print(ar1.dtype)
print(ar1)
#클론한 값만 변형된다.
print(ar1_copy.dtype)
print(ar1_copy)

int64
[3 4 5 6 7 8 9]
float32
[3. 4. 5. 6. 7. 8. 9.]


## reshape()
    - ndarray의 형태, 차원을 바꾸기 위해 사용한다.
    - 머신러닝, 데이터 프로세싱에서 매우 자주 사용되는 차원 변환.

In [None]:
np.arange(12).reshape(2, 6)

#사이즈가 맞지 않아서 에러
# np.arange(12).reshape(2, 4)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [None]:
# 3차원
print(np.arange(12).reshape(3, 2, 2).shape)
np.arange(12).reshape(3, 2, 2)

(3, 2, 2)


array([[[ 0,  1],
        [ 2,  3]],

       [[ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11]]])

## np.ones, np.zeros
    - array의 초기값을 설정
    - 1로 채울껀지(ones) 0으로 채울껀지(zeros)

In [None]:
np.ones(5)
np.ones(5, dtype=np.int16)

array([1, 1, 1, 1, 1], dtype=int16)

In [None]:
np.ones(6, dtype=np.int8).reshape(2, 3)


array([[1, 1, 1],
       [1, 1, 1]], dtype=int8)

In [None]:
#부호가 없는 int값만 들어갈수 있다 +-값은 못들어간다.
np.zeros(10, dtype=np.uint8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=uint8)

In [None]:
#3차원 매트릭스 구조로 자료구조가 들어간다.
np.zeros((3,2,5), dtype=np.uint8)

array([[[0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0]],

       [[0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0]],

       [[0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0]]], dtype=uint8)

## 단위 행렬
    - 선형 대수학에서 사용되는 중요한 개념으로, 주어진 크기의 정사각형 행렬에서 주 대각서의 모든 원소는 1이고, 나머지 원소들은 0인 행렬을 의미한다
    - 머신러닝에서 데이터를 변환하거나 특정 모델을 학습할 때, 가중치 초기화나 수치 계산에서 단위 행렬을 사용한다.


In [None]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## np.random 서브 모듈
    - rand : 0 ~ 1 사이의 균일 분포(uniform distribution) [균일하게 값들을 뽑아내는 방법]
    - randn : 가우시안 표준 정규 분포 [평균치의 값을 뽑아내는것]
    - randint : 균일 분포의 정규 난수



In [None]:
# np.random.rand(개수)
# 0~1까지의 난수
np.random.rand(10)

array([0.84952129, 0.20222675, 0.4686309 , 0.36333596, 0.05392127,
       0.83746755, 0.87622681, 0.53251216, 0.94732295, 0.8515771 ])

In [None]:
#2행 3열로 만들수 있다. 다차원으로
np.random.rand(2,3)

array([[1.00348333e-01, 9.00923416e-01, 9.36327846e-01],
       [7.48759670e-01, 8.23473614e-04, 4.58986263e-01]])

<img width=300 src="https://thebook.io/img/080263/218.jpg" />

    1) 균일 분포
        - 균일 분포는 모든 값이 동일한 확률로 발생하는 분포

    2) 정규 분포 (가우시안 분포)
        - 정규 분포는 가장 일반적이고 중요한 연속 확률 분포로, 벨 모양의 대칭적 분포
        - 가장 많은 데이터가 평균 근처에 집중

In [None]:
np.random.randn(5)

array([-1.43204404, -0.04342495, -0.50094113, -0.93364674,  0.29775881])

In [None]:
# 0 ~ 5까지의 난수
np.random.randint(5)

3

In [None]:
# [10, 20) 10 이상 20 미만
# (19, 20] 10초과 20 이하

# 10 이상 20 미만
np.random.randint(10, 20)

17

In [None]:
# [10, 20) 10 이상 20 미만
# (19, 20] 10초과 20 이하

# 10 이상 20 미만
# 3차원 배열
np.random.randint(0, 100, (3, 5, 2))

array([[[30, 65],
        [26, 70],
        [38, 44],
        [69, 97],
        [76,  4]],

       [[83,  7],
        [10, 82],
        [88, 43],
        [57, 92],
        [69, 11]],

       [[99, 65],
        [43, 67],
        [66, 77],
        [20, 80],
        [48, 86]]])

## seed()
    - 난수를 예측가능하도록 만든다. 실행할 때마다 동일한 난수가 발생하도록 한다.
    - 재현성 : 특정 알고리즘의 결과를 재현한다.
    - 디버깅 : 해당 알고리즘의 결과로 오류를 추적한다.



In [None]:
# seed(시작값)
np.random.seed(0)
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [None]:
# e-01: 지수 표기법
# 숫자가 너무 작거나 클때 사용하는 과학적 표기법
np.random.seed(1)
np.random.rand(5)

array([4.17022005e-01, 7.20324493e-01, 1.14374817e-04, 3.02332573e-01,
       1.46755891e-01])

## np.unique()
    - 중복된 값을 제거하고 고유한 값들만 반환하는 함수

In [None]:
np.unique([11, 10, 11, 20, 15, 10])

array([10, 11, 15, 20])

## 인덱싱(index)
    - 파이썬 리스트와 동일한 계념으로 사용
    - ,를 사용하여 각 차원의 인덱스에 접근이 가능하다.
    - 인덱싱 할 때 마다 차원이 감소한다.

In [None]:
ar2 = np.arange(10)
ar2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
print(ar2[5])

5


In [None]:
print(ar2[-1], ar2[4])

9 4


In [None]:
ar2[5] = 100
ar2

array([  0,   1,   2,   3,   4, 100,   6,   7,   8,   9])

In [None]:
ar2 = ar2.reshape(2, 5)
ar2[0][2]

np.int64(2)

In [None]:
ar2[1][0]

np.int64(100)

In [None]:
# , 를 통해서 접근하는법
# 권장, 콤마 접근법
ar2[1,0]

np.int64(100)

In [None]:
####Day4#######################################################################################################
ar2

array([[  0,   1,   2,   3,   4],
       [100,   6,   7,   8,   9]])

In [None]:
#find 7, 1 in ar2
print(ar2[1,2], ar2[0,1])

7 1


## Advenced Indexing

-Interger array Indexing

In [None]:
ar2[0]

array([0, 1, 2, 3, 4])

In [None]:
ar2[[0]]

array([[0, 1, 2, 3, 4]])

In [None]:
ar2[[0]].shape

(1, 5)

In [None]:
# 배열을 다수의 인덱스 배열로 인뎃싱하면
# 여러 인덱스를 동시에 참조하여 값을 추출한다.
ar2[[1,0,0,1,0,0]]

array([[100,   6,   7,   8,   9],
       [  0,   1,   2,   3,   4],
       [  0,   1,   2,   3,   4],
       [100,   6,   7,   8,   9],
       [  0,   1,   2,   3,   4],
       [  0,   1,   2,   3,   4]])

## 슬라이싱 (slicing)
    - 리스트, 문자열 slicing과 동일한 개념으로 사용한다
    - ,(콤마)를 사용하여 각 차원 별로 슬라이싱이 가능하다.
    - 슬라이싱은 차원 변화가 없다.

In [None]:
ar4 = np.arange(10)
ar4

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# index 1 ~ 7 까지 출력
ar4[1:7]

array([1, 2, 3, 4, 5, 6])

In [None]:
ar4[3:]

array([3, 4, 5, 6, 7, 8, 9])

In [None]:
ar4[:]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
#step 값, 2씩 건너뛰기
ar4[::2]

array([0, 2, 4, 6, 8])

In [None]:
# 시작지점, 끝나는 지점을 선택할 수 있다
ar4[1::2]

array([1, 3, 5, 7])

In [None]:
# 거꾸로 출력
ar4[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [None]:
ar5 = [
    [1,2,3,4],
    [5,6,7,8],
    [9,10,11,12],
]

ar5

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]

In [None]:
#슬라이싱은 차원값이 안바뀐다
#이 경우 2차원으로 들고온다
ar5[0:1]

[[1, 2, 3, 4]]

In [None]:
ar5[1:3]

[[5, 6, 7, 8], [9, 10, 11, 12]]

In [None]:
# list는 차원별 slicing이 불가능하다.
ar5[:2]
ar5[:2][1:4]

[[5, 6, 7, 8]]

In [None]:
# numpy는 차원별 slicing이 가능하다

ar6 = np.arange(15).reshape(3,5)
ar6

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
# ar6[:2][1:4]
# 차원별 slicing, (콤마)접근법으로 사용!
ar6[:2, 1:4]

array([[1, 2, 3],
       [6, 7, 8]])

## shape(차원) 변환
    - "차원변화"은 데이터 분석과 인공지능에서 매우 빈번하게 발생되는 작업이니 만큼 자유잦재로 변환할 수 있어야하고, 머릿속으로 변환하는 데이터의 구조가 그려지도록 익숙해져야 한다.
    - 예) 이미지 데이터 백터화
    - 기본적으로 이미지는 2차원 혹은 3차원 (RGB)이나 트레이닝을 위해 1차원으로 변경하여 사용된다.

### ravel(), np.ravel()
    - 펼치다 라는 의미로 다차원 배열을 1차원으로 변경
    - 'order' 파라미터
        -'C' - row 우선 변경, C style
        -'F' - column 우선 변경, Fortran Style
    - ravel()은 np안에 일반함수이며, ndarray의 맴버 함수로도 존재한다.

In [None]:
ar6

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
#ravel은 차원을 축소하는 개념
ar6.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [None]:
ar6.ravel()

# np.ravel?
# ?를 넣으면 다큐먼트가 나온다

### 포트란(Fortran)
    - 프로그래밍 언어에서 배열을 저장하는 기본 방식
    - Fortran으로 스타일을 지정하면 [[1,2,3], [4,5,6]] 배열은 1,4,2,5,3,6 순서로 배열이 저장된다.
    - 행 우선 방식인 C스타일로 스타일을 지정하면 1,2,3,4,5,6 순서로 배열이 저장된다.
    

In [None]:
np.ravel(ar6, order='C')

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [None]:
np.ravel(ar6, order='F')

array([ 0,  5, 10,  1,  6, 11,  2,  7, 12,  3,  8, 13,  4,  9, 14])

## 플랫튼, flatten()
    - ravel과 차이점
      - copy를 생성하여 변경한다. 즉, 원본 배열이 변경되지 않은 복사본을 반환한다.
      - ndarray의 멤버 함수로만 제공한다.

    - 'order'의 파라미터는 ravel과 동일하다


In [None]:
ar7 = np.arange(15).reshape(3, 5)
ar7

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
ar7.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [None]:
temp = ar7.ravel()
temp

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [None]:
temp[0] = 100

In [None]:
ar7

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [None]:
temp2 = ar7.flatten()
temp2

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

In [None]:
temp[0] = 100
temp2[0] = 10000

In [None]:
ar7

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [None]:
temp2

array([10000,     1,     2,     3,     4,     5,     6,     7,     8,
           9,    10,    11,    12,    13,    14])

In [None]:
ar7

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

## reshape
    - array의 shape을 다른 차원으로 변경
    - 주의할 점은 reshape한 후의 결과의 전체 요소 개수와 이전 개수가 같아야 가능하다.
    - -1의 값을 주어서 나머지 차원을 유추하게 할 수 있다.



In [None]:
ar8 = np.arange(36)
ar8

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35])

In [None]:
ar8.reshape(6,6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

In [None]:
# 값을 유추하고 싶을때 -1을 넣어라
ar8.reshape(6, -1 ,2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]],

       [[12, 13],
        [14, 15],
        [16, 17]],

       [[18, 19],
        [20, 21],
        [22, 23]],

       [[24, 25],
        [26, 27],
        [28, 29]],

       [[30, 31],
        [32, 33],
        [34, 35]]])

## 차원 확장 / 제거
    - 차원을 확장하고 제거하는 동작도 머신러닝에서 사용된다
    - reshape()로 차원 변환(확장/제거)를 자유롭게 할 수 있다.

## 차원 확장, np.expand_dims()
    - axis로 지정된 차원을 추가

## 차원 자동 제거, squeeze, np.squeeze()
    - 차원 중 사이즈가 1인 것을 찾아 스칼라로 값을 바꾸고 차원을 제거한다.

In [None]:
ar9 = np.arange(6)
ar9

array([0, 1, 2, 3, 4, 5])

In [None]:
ar9.shape

(6,)

In [None]:
# 1 -> 2차원
ar9 = ar9.reshape(6,1)
ar9

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5]])

In [None]:
# 2차원 -> 3차원
ar9 = ar9.reshape(6,1,1)
ar9

array([[[0]],

       [[1]],

       [[2]],

       [[3]],

       [[4]],

       [[5]]])

In [None]:
# 차원 제거
ar9 = ar9.reshape((6, ))
ar9

array([0, 1, 2, 3, 4, 5])

In [None]:
ar9 = ar9.reshape(1,1,1, -1)
ar9

array([[[[0, 1, 2, 3, 4, 5]]]])

In [None]:
ar10 = np.arange(4).reshape((2,1,2))
ar10

array([[[0, 1]],

       [[2, 3]]])

In [None]:
# (2, 1, 2) -> (2, 2)
ar10.squeeze()

array([[0, 1],
       [2, 3]])

In [None]:
# np.expand_dims()
# axis

# (3, )
arr11 = np.arange(3)
arr11


array([0, 1, 2])

In [None]:
arr11 = np.expand_dims(arr11, axis=0)

In [None]:
# (3, ) -> (1, 3)
arr11
arr11.shape

(1, 3)

In [None]:
# (2,2)
ar12 = np.arange(4).reshape(2,2)
ar12

array([[0, 1],
       [2, 3]])

In [None]:
ar12 = np.expand_dims(ar12, axis=2)
ar12

array([[[0],
        [1]],

       [[2],
        [3]]])

In [None]:
ar12.shape

(2, 2, 1)

In [None]:
arr1 = np.array([10,20,30,40])
arr1

array([10, 20, 30, 40])

In [None]:
# np.newaxis
# [n.newaxis, :]: 첫 번째 축에 차원을 추가
# [:, np.newaxis]: 두 번째 축에 차원을 추가
arr1 = arr1[np.newaxis, :]
arr1

array([[10, 20, 30, 40]])

In [None]:
# row vector
arr1

array([[10, 20, 30, 40]])

In [None]:
arr2 = np.array([10,20,30,40])
arr2

array([10, 20, 30, 40])

In [None]:
arr2 = arr2[:, np.newaxis]

In [None]:
# column vector
arr2

array([[10],
       [20],
       [30],
       [40]])

## Transpose, T, swapaxes
    - 전치행렬 (Transpose matrix)
    - 차원 축 바꾸기

<img width=200 src='https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcS1ALhVmtP-k5cjHofz9sU_v3oS9FsHe6-cSA&s' />


In [None]:
arr3 = np.arange(15).reshape(3, 5)
arr3

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
# (3, 5) -> (5, 3)
np.transpose(arr3)
# arr3.reshape(5, 3)

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [None]:
arr3.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [None]:
np.swapaxes(arr3, 0,1)

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

### 기본연산, 기본함수

In [None]:
data1 = np.arange(15).reshape(3,5)
data2 = np.arange(0, 150, 10).reshape(3,5)
data3 = np.random.rand(15).reshape(3,5)
data4 = np.arange(15).reshape(3,5)

In [None]:
data1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
data2

array([[  0,  10,  20,  30,  40],
       [ 50,  60,  70,  80,  90],
       [100, 110, 120, 130, 140]])

In [None]:
data3

array([[0.09233859, 0.18626021, 0.34556073, 0.39676747, 0.53881673],
       [0.41919451, 0.6852195 , 0.20445225, 0.87811744, 0.02738759],
       [0.67046751, 0.4173048 , 0.55868983, 0.14038694, 0.19810149]])

In [None]:
data4

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

## array간 연산

In [None]:
a = [10, 20, 30, 40]
b = 10000
c = [100, 200, 300, 400]

In [None]:
# * 반복, + 연결
a * 2

[10, 20, 30, 40, 10, 20, 30, 40]

In [None]:
#시퀀스 자료구조는 같은 자료구조끼리만 연산 가능하다
# a + b
a + c

[10, 20, 30, 40, 100, 200, 300, 400]

In [None]:
# array끼리는 연산이 가능하다
# numpy는 같은 배열끼리 연산이 된다
data1 + data2

array([[  0,  11,  22,  33,  44],
       [ 55,  66,  77,  88,  99],
       [110, 121, 132, 143, 154]])

In [None]:
data1 - data2


array([[   0,   -9,  -18,  -27,  -36],
       [ -45,  -54,  -63,  -72,  -81],
       [ -90,  -99, -108, -117, -126]])

In [None]:
data1 + 10

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

## 브로드캐스팅
    - 다른 크기의 배열들 간에도 자동으로 연산이 가능하도록 해주는 Numpy의 강력한 기능

In [None]:
# 10은 1차원 스칼라이다.
data1 + [10]

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [None]:
#2차원 스칼라
#각각의 형태에 따라 이름이 붙여져있다.
#차수가 다른데도 연산이 가능하다.
data1 + [[10]]

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [None]:
data1 + [[[10]]]

array([[[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24]]])

In [None]:
data1 + np.array(10)

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [None]:
# data1 + np.array([10, 20])

## 브로드캐스팅의 특징
    - 기본적으로는 shape와 같은 두 ndarray에 대한 연산은 각 원소별로 진행한다
    - 다른 shape를 갖는 array 간의 연산의 경우 브로드 캐스팅(shape를 맞춤) 후 진행한다

<img width=500 src='https://www.astroml.org/_images/fig_broadcast_visual_1.png' />

In [None]:
x = np.arange(15).reshape(3, 5)
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
y = np.random.rand(15).reshape(3, 5)
y

array([[0.31551563, 0.68650093, 0.83462567, 0.01828828, 0.75014431],
       [0.98886109, 0.74816565, 0.28044399, 0.78927933, 0.10322601],
       [0.44789353, 0.9085955 , 0.29361415, 0.28777534, 0.13002857]])

In [None]:
x + y

array([[ 0.31551563,  1.68650093,  2.83462567,  3.01828828,  4.75014431],
       [ 5.98886109,  6.74816565,  7.28044399,  8.78927933,  9.10322601],
       [10.44789353, 11.9085955 , 12.29361415, 13.28777534, 14.13002857]])

In [None]:
a = np.arange(12).reshape(4, -1)
b = np.arange(100,103)


In [None]:
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [None]:
b

array([100, 101, 102])

In [None]:
a + b

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

## 브로드 캐스팅의 규칭
    - 뒷 차원에서부터 비교하여
        1. Shape가 같아야 한다
        2. 차원 중 값아 1이 존재해야 한다
    - 결과 차원은 둘 중 큰 Size의 차원으로 확장된다.

[공식문서](https://numpy.org/doc/stable/user/basics.broadcasting.html)



In [None]:
'''
    브로드 캐스팅 가용한 경우
    스칼라와 연산하는 경우
    A : 256 x 256 x 10
    B :           x 30
    R : 256 x 256 x 30

    확장 가능한 1이 존재하는 경우
    A : 8 x 1 x 3 x 1
    B :     7 x 1 x 9
    R : 8 x 7 x 3 x 9

    -> 차수가 다른 경우 B가 확장된다.
    단, 배열이 앞쪽에 1을 추가
    B : 1 x 7 x 1 x 9
'''

'''
    브로드 캐스팅이 불가능한 경우
    사이즈가 맞지 않는 경우
    A : 3
    B : 4

    A :
'''

None

In [None]:
c = np.arange(1000, 1004)
c

array([1000, 1001, 1002, 1003])

In [None]:
print(a.shape)
print(c.shape)

(4, 3)
(4,)


In [None]:
# 사이즈가 달라서 연산이 불가함
# a + c

In [None]:
# full(칸, 값)
a = np.full(4, 100)
a

array([100, 100, 100, 100])

In [None]:
# a: (4, )
# (1, )
a + 1

array([101, 101, 101, 101])

In [None]:
# (4, ), (2, )
# a + [1, 2]

In [None]:
b = np.arange(1, 9).reshape(2, 4)
b

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
#a 가 확장이 된 것이다
#작은쪽이 큰 쪽으로 확장된다

# (4, ) + (2, 4)
# a: (4, ) -> (1, 4)로 확장
# (1, 4) + (2, 4) -> (2, 4) 브로드캐스팅
a + b

array([[101, 102, 103, 104],
       [105, 106, 107, 108]])

In [None]:
d = np.arange(10, 70, 10).reshape(2,3)
d
# (2, 3)

array([[10, 20, 30],
       [40, 50, 60]])

In [None]:
e = np.array([1, 2])
e

array([1, 2])

In [None]:
# d + e
# d: (2, 3)
# e: (2, )
# 위 두개 array로 아래 결과를 만들기
# array([
#         [11, 22, 31],
#         [42, 51, 62]
#        ])

(d.T + e).T


array([[11, 21, 31],
       [42, 52, 62]])

In [None]:
d + e.reshape(2,1)

array([[11, 21, 31],
       [42, 52, 62]])

In [None]:
# 배열의 형상을 더 명확히 구현
(d.reshape(3, 2) + e).reshape(2,3)


array([[11, 22, 31],
       [42, 51, 62]])

## 차원축(axis)
    - 넘파이의 많은 함수들은 axis= 파라미터를 가지고 있다
    - 1차원 array라면 각 차원에 대한 axis 값은 0(1개)
    - 2차원 array라면 각 차원에 대한 axis 값은 0, 1(2개)
    - 3차원 array라면 각 차원에 대한 axis 값은 0, 1, 2(3개)
    
    - axis= 값을 명시하면 그 함수의 연산은 해당 axis(축)에 '따라서' 연산을 수행하게 된다.

In [None]:
x1 = np.arange(15)
x1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [None]:
# 모든 값을 연산
np.sum(x1)

np.int64(105)

In [None]:
np.sum(x1, axis=None)

np.int64(105)

In [None]:
x2 = x1.reshape(3,5)
x2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
x2.shape

(3, 5)

In [None]:
# axis = 0 : column 방향
np.sum(x2, axis=0)

array([15, 18, 21, 24, 27])

In [None]:
# axis = 1 : row 방향
np.sum(x2, axis=1)

array([10, 35, 60])

In [None]:
y = np.random.rand(15).reshape(3,5)

In [None]:
y.max()

np.float64(0.6997583600209312)

In [None]:
y.argmax()

np.int64(9)

In [None]:
y.min()

np.float64(0.019366957870297075)

In [None]:
y.argmin()

np.int64(0)

In [None]:
np.max(y, axis = 1)
np.max(y, axis = 0)

array([0.10233443, 0.67883553, 0.69440016, 0.58930554, 0.69975836])

In [None]:
np.argmax(y, axis=1)
np.argmax(y, axis=0)

array([2, 0, 2, 1, 1])

## Boolean indexing
    - array 인덱싱 시, bool(리스트 aka. mask)를 전달하여 true인 경우만 필터링한다
    - for 사용하지 않고도 array에서 '조건'에 맞는 데이터만 추출하는 기능

In [None]:
f = np.random.randint(1, 100, size =10)
f

array([46, 69, 58, 83, 97, 14, 11, 24, 82,  8])

In [None]:
even_mask = f % 2 == 0
even_mask

array([ True, False,  True, False, False,  True, False,  True,  True,
        True])

In [None]:
f[even_mask]

array([46, 58, 14, 24, 82,  8])

## 다중 조건 사용하기
    - 파이썬 논리 연산자인 and, or, not 키워드를 사용할 수 없다
    - & : AND
    - I : OR   

In [None]:
f[(f % 2 == 0) & (f < 50)]

array([46, 14, 24,  8])