<img src='https://numpy.org/doc/stable/_static/numpylogo.svg'>

## 넘파이(NumPy)

#### 넘파이
- Numerical Python
- 고성능 수치 계산을 위한 파이썬의 패키지
- 넘파이는 <b>ndarray</b> 기반의 다양한 연산기능을 제공 
- Matrix와 Vector와 같은 Array 연산의 표준이 되었음
- 파이썬 list에 비해 빠르고 메모리 효율적
- 반복문 없이 배열 처리 지원
- 선형대수와 관련된 연산 제공

#### 넘파이 사용하기
- 넘파이 설치: pip install numpy(아나콘다와 함께 설치됨)
- 넘파이 사용: import numpy as np
- 일반적으로 np라는 별칭으로 호출함


In [None]:
import numpy as np

#### Python Documentation
- docs: https://docs.python.org/3/
- cheatsheet: https://perso.limsi.fr/pointal/_media/python:cours:mementopython3-english.pdf


#### NumPy Documentation
- docs: https://numpy.org/doc/
- cheatsheet: https://www.datacamp.com/blog/numpy-cheat-sheet-data-analysis-in-python


## 넘파이 배열

#### ndarray
- N차원(Dimension) 배열(Array) 객체
- C 언어에 기반한 배열 구조
- 배열의 모든 요소가 같은 타입 (타입 불일치시 상위타입)
- 배열과 배열간의 수학적 연산 적용 가능
- 고급 연산자와 풍부한 함수들을 제공


#### 넘파이 배열(ndarray) vs 파이썬 리스트(list)

- 배열을 파이썬 리스트로도 표현 가능함
- 파이썬 리스트는 복잡한 Matrix 표현문제와 파이썬(인터프리터)의 처리속도가 느리다는 문제가 있음
- 넘파이 배열은 동일 자료형으로 데이터를 저장하기에 각각의 데이터 항목에 필요한 저장공간이 일정함. 
- 넘파이 배열은 임의 접근(random access) 가능: 원하는 위치에 바로 접근해서 데이터를 읽고 쓸 수 있음
- 실제 우리가 접하게 될 데이터는 처리할 양이 매우 크다는 것. 데이터가 많아질 수록 넘파이 배열을 사용하는 것이 빠른 처리속도를 지님

<img src='http://jakevdp.github.io/images/array_vs_list.png' width=700><br>
출처: https://jakevdp.github.io/blog/2014/05/09/why-python-is-slow/

<br>

- numpy.ndarray로 계산 시 python list 타입에 비해 계산 속도가 빠름<br>
<img src='https://miro.medium.com/max/792/1*rQoLViAcg2Hj8AD1EmONAg.png'><br>
출처: https://medium.com/@gough.cory/performance-of-numpy-array-vs-python-list-194c8e283b65



### ndarray의 속성

- shape: 배열의 차원으로 (m, n)형식의 튜플형임. m과 n은 각 차원의 요소(element)의 크기를 
- ndim: 배열 축 혹은 차원의 개수를 알려주는 정수
- dtype: 배열내의 요소의 자료형
- itemsize: 배열내의 요소의 크기. 바이트 단위로 기술
- size: 배열 요소의 개수. 이 개수는 shape내의 원소의 크기의 곱(m*n)과 같음.
- nbytes: 배열의 메모리 크기. itemsize * size 도 같음.

<br>
<img src='https://media.vlpt.us/images/hangils/post/a8d0eca9-1902-4f78-b877-c20e02e1389b/image.png' width=700><br>
출처: https://velog.io/@hangils/Python-Numpy
<br><br>



#### 차원(Dimension)과 축(axis)
- ndarray는 1~3차원 뿐만 아니라, 4,5,6 이상의 다차원을 표현할 수 있음
- shape는 넘파이 배열의 차원 구성을 반환함
- 차원이 증가될 때 추가되는 축이 왼쪽에 추가되고 axis=0이 됨. 나머지 축은 오른쪽으로 이동하고 axis가 1씩 증가됨
<br>
<table align=left>
  <tr><td>표현</td><td>차원</td><td>shape</td><td>axis</td><td>설명</td></tr>
  <tr><td>스칼라(scalar)</td><td>0D tensor</td><td>()</td><td>축이 0개</td><td>원소 하나</td></tr>
  <tr><td>벡터(vector)</td><td>1D tensor</td><td>(4,)</td><td>축이 1개, axis=0</td><td>여러 요소가 순서대로 모여 있는 형태</td></tr>
  <tr><td>행렬(matrix)</td><td>2D tensor</td><td>(2, 3)</td><td>축이 2개, axis=0(행), axis=1(열)</td><td>행과 열 형태</td></tr>
  <tr><td>텐서(tensor)</td><td>3D tensor</td><td>(4, 3, 2)</td><td>축이 3개, axis=0(높이), axis=1(행), axis=2(열)</td><td>행과 열, 높이를 가진 입체 형태</td></tr>
</table>

<br>
<br><br>
  <img src='https://media.vlpt.us/images/mingki/post/e0cdf6b1-cfd0-4a64-82d1-0c489237f1c2/array_shape.png' width=600><br>
출처: https://velog.io/@mingki/Numpy-넘파이
<br><br>

<br>
<img src='https://blog.finxter.com/wp-content/uploads/2021/01/numpy_shape-1-scaled.jpg' width=700><br>
출처: https://blog.finxter.com/how-to-get-shape-of-array/
<br><br>



## 배열의 생성과 형태 탐색

#### ndarray의 자료형
<table align=left>
  <tr><td>데이터 타입</td><td>설명</td></tr>
  <tr><td>int32, int64</td><td>정수형 자료형</td></tr>
  <tr><td>float32, float64</td><td>실수형 자료형</td></tr>
  <tr><td>bool</td><td>논리형 자료형, True or False</td></tr>
  <tr><td>string</td><td>문자열</td></tr>
  <tr><td>unicode string</td><td>유니코드 문자열</td></tr>
  <tr><td>object</td><td>객체</td></tr>
</table>
<br>

#### 특수 부동소수점 값

- np.nan: Not a Number의 약자로, 숫자가 없음을 표현하는 IEEE 754 특수 부동소수점 값
- np.inf: 양의 무한대의 IEEE 754 특수 부동소수점 값


### 다양한 배열 생성

<br>
<img src='https://media.vlpt.us/images/hangils/post/e49dba71-2a39-4134-8384-391cf4e0b96d/image.png' width=700><br>
출처: https://velog.io/@hangils/Python-Numpy
<br><br>

#### 가. arange
- 범위를 지정하여 array를 만듦
- np.arange(시작, 끝, step): step에 실수도 가능.(파이썬 list에서는 정수만 가능)

<br>
<img src='https://cdn-coiao.nitrocdn.com/CYHudqJZsSxQpAPzLkHFOkuzFKDpEHGF/assets/static/optimized/rev-4d1b478/wp-content/uploads/2018/10/numpy-arange-syntax-explanation.png' width=700><br>
출처: https://www.sharpsightlabs.com/blog/numpy-arange/
<br><br>

In [None]:
np.arange(10)

In [None]:
np.arange(0, 5, 0.5)

In [None]:
np.arange(1, 10, 3)

In [None]:
np.arange(7, 0, -3)

#### 나. zeros
- 0으로 가득찬 ndarray 생성

In [None]:
np.zeros(shape=(10,), dtype=int)

In [None]:
np.zeros((2,5))

#### 다. ones
- 1로 가득찬 ndarray 생성

In [None]:
np.ones(shape=(10,), dtype=float)

#### 라. empty
- shape만 주어지고 비어있는 ndarray 생성(메모리 초기화 안됨)

In [None]:
np.empty((3, 5), dtype=int)

In [None]:
a = np.empty((3, 5))

In [None]:
a.dtype

#### 마. something_like
- 기존 ndarray의 shape크기만큼 (zeros, ones, empty)배열을 반환

In [None]:
arr3 = np.arange(30).reshape(5, 6)
np.ones_like(arr3)

#### 바. identity
- 단위 행렬을 생성

In [None]:
np.identity(n=3, dtype=int)

#### 사. eye
- 대각선이 1인 행렬, k값의 시작 index변경 가능

In [None]:
np.eye(N=3, M=5, dtype=int)

In [None]:
np.eye(3)

In [None]:
np.eye(3, 5, k=2) # k = 시작 index

#### 아. diag
- 대각 행렬(diagonal matrix)의 값을 추출함


In [None]:
arr4 = np.arange(9).reshape(3, 3)
arr4

In [None]:
np.diag(arr4)

#### 자. random sampling
- 데이터 분포에 따른 sampling으로 배열 생성

- 균등분포(uniform): 0~1사이의 각 숫자가 나타날 확률이 균등한 분포. 일반적으로 난수생성기가 만들어주는 방식.

In [None]:
np.random.randint(6)  # 0~5 난수 1개 생성

In [None]:
np.random.randint(1, 20)  # 1~19 난수 1개 생성

In [None]:
np.random.rand(6)  # 0~1 사이의 균일 분포에서 난수 matrix array 생성

In [None]:
np.random.randn(8)  # 가우시안 표준 정규 분포에서 난수 matrix array 생성

In [None]:
np.random.uniform(0, 1, 12).reshape(-1, 3) # 균등분포

- 정규분포(normal): 0~1사이의 각 숫자가 나타날 확률이 엎어진 종모양을 따르는 분포. 우리 일상생활에서 많이 사용됨.

In [None]:
np.random.normal(0, 1, 12).reshape(-1, 3) # 정규분포

## 배열 변경하기

### 배열의 형태(shape) 바꾸기

#### reshape
- 배열의 shape를 변경함(요소의 갯수는 동일)
- reshape: size만 같다면 다차원으로 자유롭게 변형 가능
- 차원값에 -1을 입력하면 -1 부분은 자동으로 차원을 채워줌, -1은 하나만 사용할 수 있고 지정된 차원을 바탕으로 자동으로 계산해서 형태를 변경함
- 원본 데이터는 변경하지 않고 형태를 변경한 ndarray를 반환함.

<br>
<img src='https://jalammar.github.io/images/numpy/numpy-reshape.png' width=700><br>
출처: https://jalammar.github.io/visual-numpy/
<br><br>

In [None]:
a = np.array([[1,2,5,8], [1,2,5,8]])
a.shape

#### flatten
- ndarray 객체의 메서드임.
- 2차원 이상의 배열을 1차원 배열로 변환함
- 항상 사본을 반환함 (반환 된 배열을 수정하면 원래 배열이 수정되지 않음)
<br><br> 
![flatten](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fk.kakaocdn.net%2Fdn%2FslQnB%2FbtqDhuRknyw%2Fcypbuh6kP9bCbXh2PZgAu0%2Fimg.png)
<br>출처: https://www.edwith.org/aipython/joinLectures/27853

In [None]:
a = np.array([[[1,2,5,8],
               [1,2,5,8]],
              [[1,2,5,8],
               [1,2,5,8]]])
a.shape

#### transpose
- 전치행렬
- T 속성으로도 구현가능
<br>
<img src='https://jalammar.github.io/images/numpy/numpy-transpose.png' width=500><br>
출처: https://jalammar.github.io/visual-numpy/
<br><br>

In [None]:
a = np.arange(1,7).reshape(3,2)
a

### 배열 합치기

#### concatenate
- 선택한 축(axis)의 방향으로 배열을 연결함

<br>
<img src='https://kanoki.org/images/2020/01/image-16.png'><br>
<img src='https://kanoki.org/images/2020/01/image-17.png'><br>
출처: https://kanoki.org/2020/01/10/concatenating-arrays-in-numpy/
<br><br>

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
np.concatenate((a, b))

<br>
<img src='https://kanoki.org/images/2020/01/image-18.png'><br>
출처: https://kanoki.org/2020/01/10/concatenating-arrays-in-numpy/
<br><br>

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
np.concatenate((a, b))

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
np.concatenate((a, b), axis=0)

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
np.concatenate((a, b), axis=1)

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
np.concatenate((a, b), axis=1)

#### vstack & hstack
- vstack: 배열을 세로(Vertical, 수직)로 행렬 결합. 열의 개수가 일치해야 함.
- hstack: 배열을 가로(Horizontal, 수평)로 행렬 결합. 행의 개수가 일치해야 함<br>
<table>
<tr>
<td>
<img src='https://datascienceparichay.com/wp-content/uploads/2021/08/numpy-vstack-to-vertically-stack-arrays-768x444.png.webp' width=500><br>
</td>
<td>
<img src='https://datascienceparichay.com/wp-content/uploads/2021/08/numpy-hstack-to-horizontally-stack-arrays-1-768x444.png.webp' width=500><br>
</td>
</tr>
</table>
출처: https://datascienceparichay.com/article/numpy-vstack/
<br>
https://datascienceparichay.com/article/numpy-hstack/

<br>

In [None]:
a = np.array([[1, 1], [0, 0]])
b = np.array([[0, 1], [1, 0]])
c = np.vstack((a, b))
c

In [None]:
a = np.array([[1, 3], [2, 4]])
b = np.array([[0, 0], [1, 1]])
c = np.hstack((a, b))
c

### 배열 분할하기

#### split
- 배열을 동일 크기로 분리함
- 동일한 크기로 분리할 수 없으면 에러(ValueError)를 발생함

<br>
<img src='https://www.w3resource.com/w3r_images/numpy-manipulation-split-function-image-a.png'><br>
출처: https://www.w3resource.com/numpy/manipulation/split.php

<br>

In [None]:
arr = np.array([1, 2, 3, 4, 5, 6])
a, b, c = np.split(arr, 3)

In [None]:
a

In [None]:
b

#### vsplit & hsplit
- vsplit: 배열을 세로(Vertical, 수직)로 행렬 분할. 열의 개수가 일치해야 함.
- hsplit: 배열을 가로(Horizontal, 수평)로 행렬 분할. 행의 개수가 일치해야 함<br>

<table>
<tr>
<td>
<img src='https://datascienceparichay.com/wp-content/uploads/2021/08/vertically-split-numpy-array-with-vsplit-768x444.png.webp' width=500><br>
</td>
<td>
<img src='https://datascienceparichay.com/wp-content/uploads/2021/08/numpy-hsplit-to-horizontally-split-array-768x444.png.webp' width=500><br>
</td>
</tr>
</table>
출처: https://datascienceparichay.com/article/vertically-split-numpy-array-with-vsplit/
<br>
https://datascienceparichay.com/article/horizontally-split-numpy-array-with-hsplit/

<br>

In [None]:
arr = np.array([[1, 1], [0, 0], [0, 1], [1, 0]])
a, b = np.vsplit(arr, 2)

In [None]:
a

In [None]:
b

In [None]:
arr = np.array([[1, 3, 0, 0], [2, 4, 1, 1]])
a, b = np.hsplit(arr, 2)

In [None]:
a

In [None]:
b

## 넘파이 배열 연산


### 벡터화 연산
- 넘파이 배열은 벡터화(vectorized) 연산을 함.
- 벡터화 연산은 유니버셜 함수(universal functions, ufuncs)를 통해 구현됨.
- 넘파이 벡터화 연산
  - 배열 연산을 벡터화하는 수단을 제공해서 느린 파이썬 루프 대신 C에서 루프가 발생하도록 함.
  - 배열에 연산을 수행해 각 요소에 적용하여 연산을 수행함
  - 불필요한 데이터 사본을 만들지 않고 이를 수행함
  - 넘파이의 연산을 빠르게 만드는 핵심 연산임

In [None]:
# 파이썬 리스트의 연산
a = [1, 2, 3]
b = [4, 5, 6]
a + b

In [None]:
# 넘파이 배열의 연산
a = np.array(a)
b = np.array(b)
a + b

### 유니버설 함수(ufuncs)
- 유니버셜 함수(universal functions, ufuncs)
- 간단한 함수를 고속으로 수행할 수 있는 벡터화된 래퍼 함수
- ufuncs는 배열간 또는 배열과 상수간 연산을 지원함
- 동일한 형태의 배열끼리 ufuncs 연산: 각 위치에 있는 요소끼리 연산
- 다른 형태의 배열끼리 ufuncs 연산: 브로드캐스팅으로 연산
- 단항 유니버설 함수와 이항 유니버설 함수가 있음
- ufuncs 함수 docs: https://numpy.org/doc/stable/reference/ufuncs.html




#### 사칙연산 관련 함수
- 요소별 사칙 연산을 한다.
- x1 + x2 사칙연산자 사용시 np.add(arr1, arr2)를 ufunc를 호출한다.
<br>
<table align='left'>
  <tr>
    <td>ufuncs</td><td>ufuncs 사용 예</td><td>연산자</td><td>설명</td>
  </tr>
  <tr>
    <td>numpy.add</td> <td>np.add(x1, x2)</td> <td>x1 + x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소끼리 더한다.</td>
  </tr>
  <tr>
    <td>numpy.subtract</td> <td>np.subtract(x1, x2)</td> <td>x1 - x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소끼리 뺀다.</td>
  </tr>
  <tr>
    <td>numpy.multiply</td> <td>np.multiply(x1, x2)</td> <td>x1 * x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소끼리 곱한다.</td>
  </tr>
  <tr>
    <td>numpy.divide</td> <td>np.divide(x1, x2)</td> <td>x1 / x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소끼리 나눈다.</td>
  </tr>

</table>
<br><br>

<br>
<img src='https://jalammar.github.io/images/numpy/numpy-arrays-adding-1.png' width=500><br>
<br>
<img src='https://jalammar.github.io/images/numpy/numpy-array-subtract-multiply-divide.png'><br>
출처: https://jalammar.github.io/visual-numpy/
<br><br>

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.ones_like(a)
print(a.shape)
print(b.shape)

In [None]:
np.add(a, b)

#### 비교연산 관련 함수
- 넘파이 배열의 요소 값을 비교한 후 불리언 값으로 반환함
<br>
<table align='left'>
  <tr>
    <td>ufuncs</td><td>ufuncs 사용 예</td><td>연산자</td><td>설명</td>
  </tr>
  <tr>
    <td>numpy.equal</td> <td>np.equal(x1, x2)</td> <td>x1 == x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소가 같은지 비교한다. 같으면 True</td>
  </tr>
  <tr>
    <td>numpy.not_equal</td> <td>np.not_equal(x1, x2)</td> <td>x1 != x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소가 다른지 비교한다. 다르면 True</td>
  </tr>
  <tr>
    <td>numpy.less</td> <td>np.less(x1, x2)</td> <td>x1 < x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소가 작은지 비교한다. x1이 x2보다 작으면 True</td>
  </tr>
  <tr>
    <td>numpy.less_equal</td> <td>np.less_equal(x1, x2)</td> <td>x1 <= x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소가 작거나 같은지 비교한다. x1이 x2보다 작거나 같으면 True</td>
  </tr>
  <tr>
    <td>numpy.greater</td> <td>np.greater(x1, x2)</td> <td>x1 > x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소가 큰지 비교한다. x1이 x2보다 크면 True</td>
  </tr>
  <tr>
    <td>numpy.greater_equal</td> <td>np.greater_equal(x1, x2)</td> <td>x1 >= x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소가 크거나 같은지 비교한다. x1이 x2보다 크거나 같으면 True</td>
  </tr>

</table>
<br><br>

In [None]:
a = np.array([1, 3, 0])
b = np.array([5, 2, 0])

#### 비트연산 관련 함수
- 넘파이 배열의 요소 값을 비트연산한 후 불리언 값으로 반환함
<br>
<table align='left'>
  <tr>
    <td>ufuncs</td><td>ufuncs 사용 예</td><td>연산자</td><td>설명</td>
  </tr>
  <tr>
    <td>numpy.bitwase_and</td> <td>np.bitwase_and(x1, x2)</td> <td>x1 & x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소가 둘 다 True이면 True임. 두 배열의 비트 단위 AND를 요소 단위로 계산함.</td>
  </tr>
  <tr>
    <td>numpy.bitwase_or</td> <td>np.bitwase_or(x1, x2)</td> <td>x1 | x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소가 둘 중 하나가 True면 True임. 두 배열의 비트 단위 OR을 요소 단위로 계산함.</td>
  </tr>
  <tr>
    <td>numpy.bitwase_xor</td> <td>np.bitwase_xor(x1, x2)</td> <td>x1 ^ x2</td>
    <td>넘파이 배열의 각 위치에 있는 요소가 서로 다르면 True임. 두 배열의 비트 단위 XOR을 요소 단위로 계산함.</td>
  </tr>
  <tr>
    <td>numpy.invert</td> <td>np.invert(x1)</td> <td>~ x1</td>
    <td>넘파이 배열의 각 위치에 있는 요소를 True면 False로 False면 True로 변환함.</td>
  </tr>

</table>
<br><br

In [None]:
x1 = np.array([True, False, True, False])
x2 = np.array([True, True, False, False])

### 브로드캐스팅(broadcasting)
- 브로드캐스팅은 서로 shape(배열의 형태)이 다른 ndarray의 연산을 가능하도록 shape을 맞춰주는 것을 의미함.
- shape이 다른 배열끼리 shape를 먼저 맞춘 후 element-wise 연산을 수행함
- 연산이 가능한 형태로 자동으로 reshape 및 반복된 값으로 자동으로 할당한 후 연산을 수행함.
- scalar외에 vector, matrix간 연산도 지원
- 브로드캐스팅 규칙
  - 규칙 1: 두 배열의 차원 수가 다르면 더 작은 수의 차원을 가진 배열 형상의 앞쪽(왼쪽)을 1로 채운다.
  - 규칙 2: 두 배열의 형상이 어떤 차원에서도 일치하지 않는다면 해당 차원의 형상이 1인 배열이 다른 형상과 일치하도록 늘어난다.
  - 규칙 3: 임의의차원에서 크기가 일치하지 않고 1도 아니라면 오류가 발생한다.
- docs: https://numpy.org/doc/stable/user/basics.broadcasting.html


<br>
<img src='https://blog.kakaocdn.net/dn/F1Vnx/btqUOB0QnUP/BuJrYHkX2Wlyhr77oIA4X0/img.png'><br>
출처: 파이썬 데이터 사이언스 핸드북 75쪽 <br>
https://upgrade-j.tistory.com/entry/pythonNumpy-벡터화-연산과-브로드캐스팅Broadcasting
<br><br>

In [None]:
a = np.arange(3) # shape = (3,)
b = 5  # broadcasting: scalar -> (1,) -> (3,)
print(a)

In [None]:
a + b

In [None]:
a = np.ones((3, 3)) # shape = (3, 3)
b = np.arange(3) # broadcasting: shape = (3,) -> (1, 3) -> (3, 3)
print(a.shape)
print(b.shape)

In [None]:
a + b

In [None]:
a = np.arange(3).reshape((3, 1)) # broadcasting: shape = (3, 1) -> (3, 3)
b = np.arange(3) # broadcasting: shape = (1, 3) -> (3, 3)
a + b

#### Dot product 연산
- 넘파이 배열을 곱할 때 사용함
- 2차원 행렬이라면 일반적인 행렬 곱을 수행함
- numpy.dot docs : https://numpy.org/doc/stable/reference/generated/numpy.dot.html?highlight=numpy%20dot#
<br>

![dot](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fk.kakaocdn.net%2Fdn%2FEeRjx%2FbtqDg4rHzNl%2FrZOINeS4Pl0XGgKHoVZHp0%2Fimg.png)
<br>
출처: https://www.edwith.org/aipython/joinLectures/27853
<br>
<img src='https://jalammar.github.io/images/numpy/numpy-matrix-dot-product-1.png' width=700><br>
<img src='https://jalammar.github.io/images/numpy/numpy-matrix-dot-product-2.png' width=800><br>
출처: https://jalammar.github.io/visual-numpy/
<br><br>



In [None]:
a = np.arange(1,7).reshape(2,3)
b = np.arange(7,13).reshape(3,2)
a.dot(b)

## 수학 관련 함수

### 넘파이 집계 함수
- 요소 값들을 집계한 결과를 반환한다.
<br> 
<table align='left'>
  <tr>
    <td>집계연산</td><td>사용 예</td><td>설명</td>
  </tr>
  <tr>
    <td>numpy.sum</td> <td>np.sum(arr)</td> 
    <td>넘파이 배열의 합을 구한다.</td>
  </tr>
  <tr>
    <td>numpy.mean</td> <td>np.mean(arr)</td> 
    <td>넘파이 배열의 평균을 구한다.</td>
  </tr>
  <tr>
    <td>numpy.min</td> <td>np.min(arr)</td> 
    <td>넘파이 배열의 최솟값을 구한다.</td>
  </tr>  
  <tr>
    <td>numpy.max</td> <td>np.max(arr)</td> 
    <td>넘파이 배열의 최대값을 구한다.</td>
  </tr>  
  <tr>
    <td>numpy.argmin</td> <td>np.argmin(arr)</td> 
    <td>넘파이 배열의 최솟값 인덱스를 구한다.</td>
  </tr>  
  <tr>
    <td>numpy.argmax</td> <td>np.argmax(arr)</td> 
    <td>넘파이 배열의 최대값 인덱스를 구한다.</td>
  </tr>   
  <tr>
    <td>numpy.prod</td> <td>np.prod(arr)</td> 
    <td>넘파이 배열의 곱을 구한다.</td>
  </tr>   
  <tr>
    <td>numpy.std</td> <td>np.std(arr)</td> 
    <td>넘파이 배열의 표준편차를 구한다.</td>
  </tr>   
  <tr>
    <td>numpy.var</td> <td>np.var(arr)</td> 
    <td>넘파이 배열의 분산을 구한다.</td>
  </tr>   
  <tr>
    <td>numpy.median</td> <td>np.median(arr)</td> 
    <td>넘파이 배열의 중앙값 구한다.</td>
  </tr>   
  <tr>
    <td>numpy.percentile</td> <td>np.percentile(arr)</td> 
    <td>넘파이 배열의 요소의 순위 기반 백분위 수를 구한다.</td>
  </tr>   
  <tr>
    <td>numpy.any</td> <td>np.any(arr)</td> 
    <td>넘파이 배열의 요소 중 참이 있는지 검사한다. 참이 하나라도 있으면 True를 반환한다.</td>
  </tr>   
  <tr>
    <td>numpy.all</td> <td>np.all(arr)</td> 
    <td>넘파이 배열의 모든 요소가 참인지 검사한다. 모든 요소가 참이면 True를 반환한다.</td>
  </tr>  


</table>
<br><br>

#### math

<br>
<img src='https://jalammar.github.io/images/numpy/numpy-matrix-aggregation-1.png' width=700><br>
출처: https://jalammar.github.io/visual-numpy/
<br><br>

In [None]:
arr = np.arange(1, 13).reshape(3, 4)
arr

In [None]:
arr = np.arange(1, 13).reshape(3, 4)

print("합계:", np.sum(arr)) # 합계
print("평균:", np.mean(arr)) # 평균

print("표준편차: ", np.std(arr)) # 표준편차
print("분산: ", np.var(arr)) # 분산

print("최대값:", np.max(arr))  # 최대값
print("최소값:", np.min(arr)) # 최소값
print("최대값의 위치:", np.argmax(arr))  # 최대값의 위치
print("최소값의 위치:", np.argmin(arr)) # 최소값의 위치

print("중앙값:", np.median(arr)) # 중앙값
print("1사분위수: ", np.percentile(arr, 25)) # 1사분위 수
print("2사분위수: ", np.percentile(arr, 50)) # 2사분위 수=중앙값
print("3사분위수: ", np.percentile(arr, 75)) # 3사분위 수

#### all & any

In [None]:
arr = np.arange(10)
arr

#### axis를 설정한 연산
- 모든 함수를 실행할 때, 기준이 되는 dimension 축
- axis는 축소할 배열의 차원을 지정
- axis=0: 0번째 축을 기준으로 연산을 함. 첫번째 축을 축소함
- axis=1: 1번째 축을 기준으로 연산을 함. 두번째 축을 축소함 

<br>
<img src='https://sebastianraschka.com/images/blog/2020/numpy-intro/array_1.png' width=200><br>
<br>
<img src='https://sebastianraschka.com/images/blog/2020/numpy-intro/ufunc.png' width=500><br>
출처: https://sebastianraschka.com/blog/2020/numpy-intro.html
<br><br>
<br>
<img src='https://jalammar.github.io/images/numpy/numpy-matrix-aggregation-4.png'><br>
출처: https://jalammar.github.io/visual-numpy/
<br><br>


In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

#### sum 예

In [None]:
arr = np.arange(1, 13).reshape(3, 4)
arr

## 인덱싱과 슬라이싱



### 배열 인덱싱(indexing)
- 파이썬 스타일 arr[x][y], 넘파일 스타일 arr[x, y] 모두 사용 가능함
- arr[x, y]: 콤마 앞 x는 행, 콤마 뒤 y는 열을 나타냄
- 인덱스 표기법을 사용하여 배열의 요소를 변경할 수 있음
- view가 만들어짐

<br>
[그림] 왼쪽 두 개 인덱싱 / 오른쪽 두 개 슬라이싱
<br>
<img src='https://jalammar.github.io/images/numpy/numpy-matrix-indexing.png' width=600><br>
출처: https://jalammar.github.io/visual-numpy/
<br><br>

In [None]:
a = np.array([[1, 2],
              [3, 4]
              [5, 6]])
a

### 배열 슬라이싱(slicing)
- arr[start:stop:step]: 하위 배열에 접근하기
- list와 달리 행과 열 부분을 나눠서 슬라이싱 가능함
- matrix의 부분집합을 추출할 때 유용함
- view가 만들어짐

<br>
<br>
<img src='https://t1.daumcdn.net/cfile/tistory/24037B3958B18FD907' width=600><br>
출처: https://rfriend.tistory.com/292
<br><br>



### 팬시 인덱싱(fancy indexing)
- arr[[x]]: index에 배열을 사용함
- 정수 배열을 indexer로 사용해서 다차원 배열로 부터 Indexing하는 방법
- copy가 만들어짐


#### row fancy indexing
- 특정 순서로 다차원 배열의 행을 Fancy Indexing 하기
<br>
<img src='https://t1.daumcdn.net/cfile/tistory/2101783A58B6AE8D30' width=600><br>
출처: https://rfriend.tistory.com/292
<br><br>

In [None]:
a = np.arange(15).reshape(5, 3)
a

#### row/columns fancy indexing
- 특정 순서로 다차원 배열의 행과 열을 Fancy Indexing 하기 
<br>
<img src='https://t1.daumcdn.net/cfile/tistory/263AD73558B6C13920' width=700><br>
출처: https://rfriend.tistory.com/292
<br><br>




In [None]:
a = np.arange(15).reshape(5, 3)
a

### 부울 인덱싱(boolean indexing)
- 마스크(mask)로 부울 배열을 사용해 데이터 자체의 특정 부분 집합을 선택함
<br>
<img src='https://laboputer.github.io/assets/img/ml/python/numpy/7.JPG' width=700><br>
출처: https://laboputer.github.io/machine-learning/2020/04/25/numpy-quickstart/
<br><br>

### 결합 인덱싱
- 팬시 인덱싱을 다른 인덱싱 방식과 결합함

In [None]:
x = np.arange(0, 12).reshape(3,4)
x

In [None]:
x[2, [2, 0, 1]]

In [None]:
x[1:, [2, 0, 1]]

In [None]:
mask = np.array([1, 0, 1, 0], dtype=bool)
x[:, mask]

## 넘파이 더 알아가기

#### where

In [None]:
a = np.array([10, 20, 30, 40, 50, 60])
a

### view & copy
- 복사가 되지 않는 경우: reference
- 얕은 복사: ndarray.view()
- 깊은 복사: ndarray.copy()

In [None]:
# 복사가 되지 않는 경우
# No Copy at All

a = np.array([1, 2, 3, 4])
b = a

print(b is a)
print(id(a))
print(id(b))

In [None]:
# 얕은 복사
# View or Shallow Copy

a = np.array([1, 2, 3, 4])
b = a.view()  # view()는 데이터 각각의 참조값이 복사됨

print(b is a)
print(id(a))
print(id(b))

a[3] = 7
print(b) # b 출력시 값이 변경됨을 확인

In [None]:
# 깊은 복사
# Deep Copy

a = np.array([1, 2, 3, 4])
b = a.copy()  # copy()는 데이터 전부가 새로운 객체로 생성됨

print(b is a)
print(id(a))
print(id(b))

a[3] = 7
print(b) # b 출력시 값이 변경되지 않음을 확인

### sort
- np.sort(x): x가 정렬된 배열을 반환함, x는 변경되지 않음
- x.sort(): x가 정렬됨.x도 변경됨
- 넘파이 배열에서는 np.sort()를 활용하는 것이 속도가 빠르다.

In [None]:
x = np.array([1,5,7,2,9])
y = np.sort(x)

In [None]:
y

In [None]:
y[0] = 10
y

In [None]:
x

In [None]:
x = np.random.rand(10)
x

In [None]:
np.sort(x)

In [None]:
np.random.shuffle(x)
x

### 파일 입출력



#### loadtxt & savetxt

In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
data = np.loadtxt('life_expectancy.csv', delimiter=',', skiprows=1)

In [None]:
print(data)

In [None]:
np.savetxt('result.csv', data, delimiter=',', fmt='%.1f')

In [None]:
!ls

#### load & save
- Numpy object(pickle) 형태로 데이터를 저장하고 불러옴. 텍스트 상태의 데이터가 아닌 파이썬 객체 자체를 바이너리 파일로 저장함.
- Binary파일 형태로 저장

In [None]:
np.save('test_npy', arr=a)

In [None]:
npy = np.load('test_npy.npy')
npy

## 참고문헌

- Pandas 사이트: https://pandas.pydata.org/
- Jake VanderPlas, "Python Data Science Handbook", O'Reilly
- Wes Mckinney, "Python for Data Analysis", O'Reilly
- 천인국, 박동규, 강영민, "따라하며 배우는 파이썬 데이터 과학", 생능출판사
- 이미지의 사이트 내용 참조 (각 이미지 아래 출처 표기함)