<a href="https://colab.research.google.com/github/dol8224/web_1/blob/master/_NumPy_%ED%95%9C%EB%B2%88%EC%97%90_%EC%A0%9C%EB%8C%80%EB%A1%9C_%EB%B0%B0%EC%9A%B0%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NumPy 한번에 제대로 배우기



---



## NumPy 특징

* Numerical Python의 약자
* 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
* 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
* 정교한 브로드캐스팅(broadcasting) 기능
* 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
* 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
* 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음

In [2]:
import numpy as np
np.__version__

'1.19.5'



---



## 배열 생성

### 리스트로 배열 만들기


In [9]:
a1 = np.array([1, 2, 3, 4, 5, 6])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[3: 5])
a1[3] = 12
a1[4] = 15
print(a1)

[1 2 3 4 5 6]
<class 'numpy.ndarray'>
(6,)
[4 5]
[ 1  2  3 12 15  6]


In [15]:
a2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(a2)
print(a2.shape)
print(a2[2,2])
print(a2[0, 2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
9
3


In [20]:
a3 = np.array([[[1, 2, 3], [4, 5, 6]], 
               [[7, 8, 9], [10, 11, 12]],
               [[13, 14, 15], [16, 17, 18]]])
print(a3)
print(a3[1, 1, 2])
print(a3[2, 0, 1])

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]

 [[13 14 15]
  [16 17 18]]]
12
14


### 배열 생성 및 초기화

* `zeros()`: 모든 요소를 0으로 초기화

In [21]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* `ones()`: 모든 요소를 1로 초기화

In [24]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

* `full()`: 모든 요소를 지정한 값으로 초기화

In [28]:
a4 = np.full((3, 2), 1.245)
print(a4)

[[1.245 1.245]
 [1.245 1.245]
 [1.245 1.245]]


* `eye()`: 단위행렬(identity matrix) 생성
  + 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [29]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

* `tri()`: 삼각행렬 생성

In [30]:
np.tri(5)

array([[1., 0., 0., 0., 0.],
       [1., 1., 0., 0., 0.],
       [1., 1., 1., 0., 0.],
       [1., 1., 1., 1., 0.],
       [1., 1., 1., 1., 1.]])

* `empty()`: 초기화되지 않은 배열 생성
  + 초기화가 없어서 배열 생성비용 저렴하고 빠름
  + 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [35]:
a17 = np.empty(17)
print(a17)

[4.65222530e-310 2.35541533e-312 2.41907520e-312 2.14321575e-312
 2.46151512e-312 2.31297541e-312 2.35541533e-312 2.05833592e-312
 2.22809558e-312 2.56761491e-312 2.48273508e-312 2.05833592e-312
 2.05833592e-312 2.29175545e-312 2.07955588e-312 2.14321575e-312
 4.65205137e-310]


* `_like()`: 지정된 배열과 shape가 같은 행렬 생성
  + `np.zeros_like()`
  + `np.ones_like()`
  + `np.full_like()`
  + `np.empty_like()`

In [36]:
np.zeros_like(a17)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [37]:
np.full_like(a17, 2.5)

array([2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5,
       2.5, 2.5, 2.5, 2.5])

In [38]:
np.empty_like(a3)

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]],

       [[13, 14, 15],
        [16, 17, 18]]])

### 생성한 값으로 배열 생성

* `arange()`: 정수 범위로 배열 생성

In [39]:
np.arange(1, 30)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

* `linspace()`: 범위 내에서 균등 간격의 배열 생성

In [40]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

* `logspace()`: 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [41]:
np.logspace(0.2, 2, 30)

array([  1.58489319,   1.82839054,   2.10929795,   2.43336298,
         2.8072162 ,   3.23850691,   3.73605958,   4.31005447,
         4.97223589,   5.73615251,   6.61743456,   7.63411364,
         8.80699168,  10.16006653,  11.72102298,  13.52179921,
        15.5992403 ,  17.99585204,  20.76067067,  23.9502662 ,
        27.62989983,  31.87485926,  36.77199915,  42.42151817,
        48.93900918,  56.45782431,  65.13180342,  75.1384218 ,
        86.6824214 , 100.        ])

### 랜덤값으로 배열 생성


* `random.random()`: 랜덤한 수의 배열 생성

In [42]:
np.random.random((3, 4))

array([[0.22148839, 0.20981186, 0.87342131, 0.79382603],
       [0.82687366, 0.4811295 , 0.50222862, 0.49635266],
       [0.25726721, 0.97405634, 0.07455221, 0.07546688]])

* `random.randint()`: 일정 구간의 랜덤 정수의 배열 생성

In [45]:
np.random.randint(0, 10, (3, 5, 4))

array([[[8, 6, 7, 1],
        [0, 2, 4, 3],
        [2, 4, 0, 0],
        [9, 2, 8, 5],
        [6, 9, 4, 4]],

       [[6, 5, 0, 0],
        [4, 4, 4, 3],
        [4, 3, 1, 7],
        [7, 6, 9, 5],
        [1, 2, 1, 8]],

       [[6, 4, 2, 5],
        [4, 0, 0, 1],
        [9, 5, 8, 7],
        [0, 8, 0, 8],
        [7, 6, 0, 6]]])

* `random.normal()`: 정규분포(normal distribution)를 고려한 랜덤한 수의 배열 생성
* 평균=0, 표준편차=1, 3 x 3 배열

In [47]:
np.random.normal(1, 10, (3, 4))

array([[-10.68697384,  -8.20233551,   9.61837937,  18.36675288],
       [  2.19414953, -12.66098993,  -9.49088135,  18.49055052],
       [  6.68215385, -10.13522062,  11.00252147,  -4.40921221]])

* `random.rand()`: 균등분포(uniform distribution)를 고려한 랜덤한 수의 배열 생성

In [51]:
np.random.rand(3, 4)

array([[0.80677222, 0.69802683, 0.6074289 , 0.50812009],
       [0.69299131, 0.93471102, 0.60568311, 0.99852502],
       [0.43815563, 0.84557252, 0.30892159, 0.33936681]])

* `random.randn()`: 표준 정규 분포(standard normal distribution)를 고려한 랜덤한 수의 배열 생성

In [52]:
np.random.randn(5, 3)

array([[-0.03218253,  0.4037545 ,  0.43082021],
       [ 0.12198756,  0.50587674,  0.14561601],
       [ 1.47539264,  0.29867383,  0.43187371],
       [-0.23911352,  2.0535815 ,  0.68924996],
       [-1.80040406, -0.91731765, -2.28362585]])

### 표준 데이터 타입

In [53]:
np.zeros(20, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [54]:
np.zeros((3, 4), dtype=bool)

array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False]])

In [56]:
np.full((3, 5), 1.5, dtype=float)

array([[1.5, 1.5, 1.5, 1.5, 1.5],
       [1.5, 1.5, 1.5, 1.5, 1.5],
       [1.5, 1.5, 1.5, 1.5, 1.5]])

### 날짜/시간 배열 생성




---



## 배열 조회

### 배열 속성 정보

### 인덱싱(Indexing)

### 슬라이싱(Slicing)

* 슬라이싱 구문: `a[start:stop:step]`
* 기본값: start=0, stop=ndim, step=1

### 불리언 인덱싱(Boolean Indexing)

* 배열 각 요소의 선택 여부를 불리언(True or False)로 지정
* True 값인 인덱스의 값만 조회

### 팬시 인덱싱(Fancy Indedxing)



---



## 배열 값 삽입/수정/삭제/복사

### 배열 값 삽입

* `insert()`: 배열의 특정 위치에 값 삽입
* axis를 지정하지 않으면 1차원 배열로 변환
* 추가할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

### 배열 값 수정

* 배열의 인덱싱으로 접근하여 값 수정

### 배열 값 삭제

* `delete()`: 배열의 특정 위치에 값 삭제
* axis를 지정하지 않으면 1차원 배열로 변환
* 삭제할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

### 배열 복사

* 리스트 자료형과 달리 배열의 슬라이스는 복사본이 아님


* `copy()`: 배열이나 하위 배열 내의 값을 명시적으로 복사



---



## 배열 변환

### 배열 전치 및 축 변경

### 배열 재구조화


* `reshape()`: 배열의 형상을 변경

* `newaxis()`: 새로운 축 추가

### 배열 크기 변경

* 배열 모양만 변경

* 배열 크기 증가
* 남은 공간은 0으로 채워짐

* 배열 크기 감소
* 포함되지 않은 값은 삭제됨

### 배열 추가

* `append()`: 배열의 끝에 값 추가

* axis 지정이 없으면 1차원 배열 형태로 변형되어 결합

* axis를 0으로 지정
* shape[0]을 제외한 나머지 shape은 같아야 함

* axis를 1로 지정
* shape[1]을 제외한 나머지 shape은 같아야 함

### 배열 연결

* `concatenate()`: 튜플이나 배열의 리스트를 인수로 사용해 배열 연결

* `vstack()`: 수직 스택(vertical stack), 1차원으로 연결

* `hstack()`: 수평 스택(horizontal stack), 2차원으로 연결

* `dstack()`: 깊이 스택(depth stack), 3차원으로 연결

* `stack()`: 새로운 차원으로 연결

### 배열 분할

* `split()`: 배열 분할

* `vsplit()`: 수직 분할, 1차원으로 분할

* `hsplit()`: 수평 분할, 2차원으로 분할

* `dsplit()`: 깊이 분할, 3차원으로 분할



---



## 배열 연산

* NumPy의 배열 연산은 벡터화(vectorized) 연산을 사용
* 일반적으로 NumPy의 범용 함수(universal functions)를 통해 구현
* 배열 요소에 대한 반복적인 계산을 효율적으로 수행

### 브로드캐스팅(Broadcasting)

### 산술 연산(Arithmetic Operators)

#### 절대값 함수(Absolute Function)

* `absolute()`, `abs()`: 내장된 절대값 함수

#### 제곱/제곱근 함수

* `square`, `sqrt`: 제곱, 제곱근 함수

#### 지수와 로그 함수 (Exponential and Log Function)

#### 삼각 함수(Trigonometrical Function)


### 집계 함수(Aggregate Functions)

#### sum(): 합 계산

#### cumsum(): 누적합 계산

#### diff(): 차분 계산

#### prod(): 곱 계산

#### cumprod(): 누적곱 계산

#### dot()/matmul(): 점곱/행렬곱 계산

#### tensordot(): 텐서곱 계산

#### cross(): 벡터곱

#### inner()/outer(): 내적/외적

#### mean(): 평균 계산

#### std(): 표준 편차 계산

#### var(): 분산 계산

#### min(): 최소값

#### max(): 최대값

#### argmin(): 최소값 인덱스

#### argmax(): 최대값 인덱스

#### median(): 중앙값

#### percentile(): 백분위 수



#### any()

#### all()

### 비교 연산(Comparison Operators)


#### 불리언 연산자(Boolean Operators)


### 배열 정렬

#### 부분 정렬

* `partition()`: 배열에서 k개의 작은 값을 반환

## 배열 입출력


sample_data




---

