<a href="https://colab.research.google.com/github/Tom-Jung/Tom-Jung/blob/main/_NumPy_%ED%95%9C%EB%B2%88%EC%97%90_%EC%A0%9C%EB%8C%80%EB%A1%9C_%EB%B0%B0%EC%9A%B0%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NumPy 한번에 제대로 배우기



---



## NumPy 특징

* Numerical Python의 약자
* 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
* 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
* 정교한 브로드캐스팅(broadcasting) 기능
* 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
* 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
* 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음

In [None]:
import numpy as np

In [None]:
np.__version__

'1.21.6'



---



## 배열 생성

### 리스트로 배열 만들기


In [None]:
a1 = np.array([1,2,3,4,5])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0],a1[1],a1[2],a1[3],a1[4])
a1[0] = 4
a1[1] = 5
a1[2] = 6
print(a1)

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3 4 5
[4 5 6 4 5]


In [None]:
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(a2)
print(a2.shape)
print(a2[0,0],a2[1,1],a2[2,1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 5 8


In [None]:
a3=np.array(([[[1,2,3],[4,5,6],[7,8,9]],
              [[1,2,3],[4,5,6],[7,8,9]],
              [[1,2,3],[4,5,6],[7,8,9]]]))
print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


### 배열 생성 및 초기화

* `zeros()`: 모든 요소를 0으로 초기화

In [None]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* `ones()`: 모든 요소를 1로 초기화

In [None]:
np.ones(10)
np.ones((3,3,3))

array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

* `full()`: 모든 요소를 지정한 값으로 초기화

In [None]:
np.full((3,3),1.23) 

array([[1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23]])

* `eye()`: 단위행렬(identity matrix) 생성
  + 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [None]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

* `tri()`: 삼각행렬 생성

In [None]:
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

* `empty()`: 초기화되지 않은 배열 생성
  + 초기화가 없어서 배열 생성비용 저렴하고 빠름
  + 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [None]:
np.empty(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

* `_like()`: 지정된 배열과 shape가 같은 행렬 생성
  + `np.zeros_like()`
  + `np.ones_like()`
  + `np.full_like()`
  + `np.empty_like()`

In [None]:
np.zeros_like(a1)

array([0, 0, 0, 0, 0])

In [None]:
np.ones_like(a2)

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [None]:
print(a3)
np.full_like(a3,10)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

### 생성한 값으로 배열 생성

* `arange()`: 정수 범위로 배열 생성

* `linspace()`: 범위 내에서 균등 간격의 배열 생성

* `logspace()`: 범위 내에서 균등간격으로 로그 스케일로 배열 생성

### 랜덤값으로 배열 생성


* `random.random()`: 랜덤한 수의 배열 생성

* `random.randint()`: 일정 구간의 랜덤 정수의 배열 생성

* `random.normal()`: 정규분포(normal distribution)를 고려한 랜덤한 수의 배열 생성
* 평균=0, 표준편차=1, 3 x 3 배열

* `random.rand()`: 균등분포(uniform distribution)를 고려한 랜덤한 수의 배열 생성

* `random.randn()`: 표준 정규 분포(standard normal distribution)를 고려한 랜덤한 수의 배열 생성

### 표준 데이터 타입

### 날짜/시간 배열 생성




---



## 배열 조회

### 배열 속성 정보

### 인덱싱(Indexing)

### 슬라이싱(Slicing)

* 슬라이싱 구문: `a[start:stop:step]`
* 기본값: start=0, stop=ndim, step=1

### 불리언 인덱싱(Boolean Indexing)

* 배열 각 요소의 선택 여부를 불리언(True or False)로 지정
* True 값인 인덱스의 값만 조회

### 팬시 인덱싱(Fancy Indedxing)



---



## 배열 값 삽입/수정/삭제/복사

### 배열 값 삽입

* `insert()`: 배열의 특정 위치에 값 삽입
* axis를 지정하지 않으면 1차원 배열로 변환
* 추가할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

### 배열 값 수정

* 배열의 인덱싱으로 접근하여 값 수정

### 배열 값 삭제

* `delete()`: 배열의 특정 위치에 값 삭제
* axis를 지정하지 않으면 1차원 배열로 변환
* 삭제할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

### 배열 복사

* 리스트 자료형과 달리 배열의 슬라이스는 복사본이 아님


* `copy()`: 배열이나 하위 배열 내의 값을 명시적으로 복사



---



## 배열 변환

### 배열 전치 및 축 변경

### 배열 재구조화


* `reshape()`: 배열의 형상을 변경

* `newaxis()`: 새로운 축 추가

### 배열 크기 변경

* 배열 모양만 변경

* 배열 크기 증가
* 남은 공간은 0으로 채워짐

* 배열 크기 감소
* 포함되지 않은 값은 삭제됨

### 배열 추가

* `append()`: 배열의 끝에 값 추가

* axis 지정이 없으면 1차원 배열 형태로 변형되어 결합

* axis를 0으로 지정
* shape[0]을 제외한 나머지 shape은 같아야 함

* axis를 1로 지정
* shape[1]을 제외한 나머지 shape은 같아야 함

### 배열 연결

* `concatenate()`: 튜플이나 배열의 리스트를 인수로 사용해 배열 연결

* `vstack()`: 수직 스택(vertical stack), 1차원으로 연결

* `hstack()`: 수평 스택(horizontal stack), 2차원으로 연결

* `dstack()`: 깊이 스택(depth stack), 3차원으로 연결

* `stack()`: 새로운 차원으로 연결

### 배열 분할

* `split()`: 배열 분할

* `vsplit()`: 수직 분할, 1차원으로 분할

* `hsplit()`: 수평 분할, 2차원으로 분할

* `dsplit()`: 깊이 분할, 3차원으로 분할



---



## 배열 연산

* NumPy의 배열 연산은 벡터화(vectorized) 연산을 사용
* 일반적으로 NumPy의 범용 함수(universal functions)를 통해 구현
* 배열 요소에 대한 반복적인 계산을 효율적으로 수행

### 브로드캐스팅(Broadcasting)

### 산술 연산(Arithmetic Operators)

#### 절대값 함수(Absolute Function)

* `absolute()`, `abs()`: 내장된 절대값 함수

#### 제곱/제곱근 함수

* `square`, `sqrt`: 제곱, 제곱근 함수

#### 지수와 로그 함수 (Exponential and Log Function)

#### 삼각 함수(Trigonometrical Function)


### 집계 함수(Aggregate Functions)

#### sum(): 합 계산

#### cumsum(): 누적합 계산

#### diff(): 차분 계산

#### prod(): 곱 계산

#### cumprod(): 누적곱 계산

#### dot()/matmul(): 점곱/행렬곱 계산

#### tensordot(): 텐서곱 계산

#### cross(): 벡터곱

#### inner()/outer(): 내적/외적

#### mean(): 평균 계산

In [13]:
a2 = np.array([[2,3, 6],
               [3,1,7],
               [9, 6,7]])
print(a2)
print(np.mean(a2))
print(np.mean(a2, axis=0))
print(np.mean(a2, axis=1))

[[2 3 6]
 [3 1 7]
 [9 6 7]]
4.888888888888889
[4.66666667 3.33333333 6.66666667]
[3.66666667 3.66666667 7.33333333]


#### std(): 표준 편차 계산

In [14]:
print(a2)
print(np.std(a2))
print(np.std(a2, axis=0))
print(np.std(a2, axis=1))

[[2 3 6]
 [3 1 7]
 [9 6 7]]
2.5579698740491863
[3.09120617 2.05480467 0.47140452]
[1.69967317 2.49443826 1.24721913]


#### var(): 분산 계산

In [22]:
print(a2)
print(np.var(a2))
print(np.var(a2, axis=0))
print(np.var(a2, axis=1))

[[ 2  3  6]
 [ 3 10  7]
 [ 9  6  7]]
6.765432098765432
[9.55555556 8.22222222 0.22222222]
[2.88888889 8.22222222 1.55555556]


#### min(): 최소값

In [17]:
print(a2)
print(np.min(a2))
print(np.min(a2, axis=0))
print(np.min(a2, axis=1))

[[2 3 6]
 [3 1 7]
 [9 6 7]]
1
[2 1 6]
[2 1 6]


#### max(): 최대값

In [18]:
print(a2)
print(np.max(a2))
print(np.max(a2, axis=0))
print(np.max(a2, axis=1))

[[2 3 6]
 [3 1 7]
 [9 6 7]]
9
[9 6 7]
[6 7 9]


#### argmin(): 최소값 인덱스

In [24]:
a2[1,1] = 1
print(a2)
print(np.argmin(a2))
print(np.argmin(a2, axis=0))
print(np.argmin(a2, axis=1))

[[2 3 6]
 [3 1 7]
 [9 6 7]]
4
[0 1 0]
[0 1 1]


#### argmax(): 최대값 인덱스

In [26]:
print(a2)
print(np.argmax(a2))
print(np.argmax(a2, axis=0))
print(np.argmax(a2, axis=1))

[[2 3 6]
 [3 1 7]
 [9 6 7]]
6
[2 2 1]
[2 2 0]


#### median(): 중앙값

In [27]:
print(a2)
print(np.median(a2))
print(np.median(a2, axis=0))
print(np.median(a2, axis=1))

[[2 3 6]
 [3 1 7]
 [9 6 7]]
6.0
[3. 3. 7.]
[3. 3. 7.]


#### percentile(): 백분위 수



In [29]:
a1 = np.array([0, 1, 2, 3])
print(a1)
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation='linear'))
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation='higher'))
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation='lower'))
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation='nearest'))
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation='midpoint'))

[0 1 2 3]
[0.  0.6 1.2 1.8 2.4 3. ]
[0 1 2 2 3 3]
[0 0 1 1 2 3]
[0 1 1 2 2 3]
[0.  0.5 1.5 1.5 2.5 3. ]


#### any()

In [34]:
a2 = np.array([[False, False, True],
              [True, True, True],
              [False, True, True]])
print(a2)
print(np.any(a2, axis=0))
print(np.any(a2, axis=1))

[[False False  True]
 [ True  True  True]
 [False  True  True]]
[ True  True  True]
[ True  True  True]


#### all()

In [35]:
print(a2)
print(np.all(a2, axis=0))
print(np.all(a2, axis=1))

[[False False  True]
 [ True  True  True]
 [False  True  True]]
[False False  True]
[False  True False]


### 비교 연산(Comparison Operators)


In [39]:
a1 = np.arange(1, 10)
print(a1)
print(a1 == 5)
print(a1 != 5)
print(a1 < 5)
print(a1 <= 5)
print(a1 > 5)
print(a1 >= 5)

[1 2 3 4 5 6 7 8 9]
[False False False False  True False False False False]
[ True  True  True  True False  True  True  True  True]
[ True  True  True  True False False False False False]
[ True  True  True  True  True False False False False]
[False False False False False  True  True  True  True]
[False False False False  True  True  True  True  True]


In [47]:
a2 = np.arange(1, 10).reshape(3,3)
print(a2)
print(np.sum(a2))
print(np.count_nonzero(a2>5))
print(np.sum(a2 > 5))
print(np.sum(a2 >5, axis=0))
print(np.sum(a2 >5, axis=1))
print(np.any(a2>5))
print(np.any(a2 >5, axis=0))
print(np.any(a2 >5, axis=1))
print(np.all(a2>5))
print(np.all(a2 >5, axis=0))
print(np.all(a2 >5, axis=1))

[[1 2 3]
 [4 5 6]
 [7 8 9]]
45
4
4
[1 1 2]
[0 1 3]
True
[ True  True  True]
[False  True  True]
False
[False False False]
[False False  True]


In [49]:
a1 = np.array([1, 2, 3, 4, 5])
print(a1)
b1 = np.array([1, 2, 3, 3, 4])
print(b1)
print(np.isclose(a1, b1))


[1 2 3 4 5]
[1 2 3 3 4]
[ True  True  True False False]


In [55]:
a1 = np. array([np.nan, 2, np.inf, 4, np.NINF])
print(a1)
print(np.isnan(a1))
print(np.isinf(a1))
print(np.isfinite(a1))

[ nan   2.  inf   4. -inf]
[ True False False False False]
[False False  True False  True]
[False  True False  True False]


#### 불리언 연산자(Boolean Operators)


In [63]:
a2 =np.arange(1, 10).reshape(3, 3)
print(a2)

print((a2 > 5) & (a2 < 8))
print(a2[(a2 > 5) & (a2 < 8)])

print((a2 > 5) | (a2 < 8))
print(a2[(a2 > 5) | (a2 < 8)])

print((a2 > 5) ^ (a2 < 8))
print(a2[(a2 > 5) ^ (a2 < 8)])

print(~(a2 > 5))
print(a2[~(a2 > 5)])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False False False]
 [False False  True]
 [ True False False]]
[6 7]
[[ True  True  True]
 [ True  True  True]
 [ True  True  True]]
[1 2 3 4 5 6 7 8 9]
[[ True  True  True]
 [ True  True False]
 [False  True  True]]
[1 2 3 4 5 8 9]
[[ True  True  True]
 [ True  True False]
 [False False False]]
[1 2 3 4 5]


### 배열 정렬

In [68]:
a1 = np.random.randint(1, 10, size=10)
print(a1)
print(np.sort(a1))
print(a1)
print(np.argsort(a1))
print(a1)
print(a1.sort())
print(a1)

[6 2 1 3 9 8 3 2 2 8]
[1 2 2 2 3 3 6 8 8 9]
[6 2 1 3 9 8 3 2 2 8]
[2 1 7 8 3 6 0 5 9 4]
[6 2 1 3 9 8 3 2 2 8]
None
[1 2 2 2 3 3 6 8 8 9]


In [70]:
a2 = np.random.randint(1, 10, size=(3, 3))
print(a2)
print(np.sort(a2, axis=0))
print(np.sort(a2, axis=1))

[[5 3 5]
 [2 7 7]
 [1 9 7]]
[[1 3 5]
 [2 7 7]
 [5 9 7]]
[[3 5 5]
 [2 7 7]
 [1 7 9]]


#### 부분 정렬

* `partition()`: 배열에서 k개의 작은 값을 반환

In [72]:
a1 = np.random.randint(1,10, size=10)
print(a1)
print(np.partition(a1,3))

[1 4 1 9 5 9 9 2 7 5]
[1 1 2 4 5 9 9 9 7 5]


In [78]:
a2 = np.random.randint(1, 10, size=(5,5))
print(a2)
print(np.partition(a2, 3))
print(np.partition(a2, 3, axis=0))
print(np.partition(a2, 3, axis=1))

[[1 1 8 5 3]
 [6 9 8 7 5]
 [9 1 7 4 1]
 [1 7 9 9 1]
 [2 4 4 6 2]]
[[1 1 3 5 8]
 [5 6 7 8 9]
 [4 1 1 7 9]
 [1 1 7 9 9]
 [2 2 4 4 6]]
[[1 1 4 4 1]
 [1 1 7 5 1]
 [2 4 8 6 2]
 [6 7 8 7 3]
 [9 9 9 9 5]]
[[1 1 3 5 8]
 [5 6 7 8 9]
 [4 1 1 7 9]
 [1 1 7 9 9]
 [2 2 4 4 6]]


## 배열 입출력


In [81]:
a2 = np.random.randint(1, 10, size=(5,5))
print(a2)
np.save("a", a2)

[[9 1 9 4 5]
 [2 6 1 1 6]
 [3 5 3 8 7]
 [6 8 9 8 1]
 [6 1 9 4 8]]


In [83]:
!ls

a.npy  sample_data


In [106]:
b2 = np.random.randint(1, 10, size=(5, 5))
print(b2)
np.savez("ab", a2, b2)

[[7 9 7 2 5]
 [7 6 8 6 3]
 [1 5 7 4 5]
 [5 5 2 7 6]
 [9 7 4 5 5]]


In [107]:
!ls

ab.npz	a.csv  a.npy  b2.csv  sample_data


In [108]:
npy = np.load("a.npy")
print(npy)

[[9 1 9 4 5]
 [2 6 1 1 6]
 [3 5 3 8 7]
 [6 8 9 8 1]
 [6 1 9 4 8]]


In [109]:
npz = np.load("ab.npz")
print(npz.files)
print(npz['arr_0'])
print(npz['arr_1'])

['arr_0', 'arr_1']
[[9 1 9 4 5]
 [2 6 1 1 6]
 [3 5 3 8 7]
 [6 8 9 8 1]
 [6 1 9 4 8]]
[[7 9 7 2 5]
 [7 6 8 6 3]
 [1 5 7 4 5]
 [5 5 2 7 6]
 [9 7 4 5 5]]


In [110]:
print(a2)
np.savetxt("a.csv",a2, delimiter=',')

[[9 1 9 4 5]
 [2 6 1 1 6]
 [3 5 3 8 7]
 [6 8 9 8 1]
 [6 1 9 4 8]]


In [111]:
!ls

ab.npz	a.csv  a.npy  b2.csv  sample_data


In [112]:
!cat a.csv

9.000000000000000000e+00,1.000000000000000000e+00,9.000000000000000000e+00,4.000000000000000000e+00,5.000000000000000000e+00
2.000000000000000000e+00,6.000000000000000000e+00,1.000000000000000000e+00,1.000000000000000000e+00,6.000000000000000000e+00
3.000000000000000000e+00,5.000000000000000000e+00,3.000000000000000000e+00,8.000000000000000000e+00,7.000000000000000000e+00
6.000000000000000000e+00,8.000000000000000000e+00,9.000000000000000000e+00,8.000000000000000000e+00,1.000000000000000000e+00
6.000000000000000000e+00,1.000000000000000000e+00,9.000000000000000000e+00,4.000000000000000000e+00,8.000000000000000000e+00


In [114]:
csv = np.loadtxt("a.csv", delimiter=',')
print(csv)

[[9. 1. 9. 4. 5.]
 [2. 6. 1. 1. 6.]
 [3. 5. 3. 8. 7.]
 [6. 8. 9. 8. 1.]
 [6. 1. 9. 4. 8.]]


In [115]:
print(b2)
np.savetxt("b2.csv", b2, delimiter=',', fmt='%.2e', header='c1 c2 c3 c4 c5')

[[7 9 7 2 5]
 [7 6 8 6 3]
 [1 5 7 4 5]
 [5 5 2 7 6]
 [9 7 4 5 5]]


In [117]:
!cat b2.csv

# c1 c2 c3 c4 c5
7.00e+00,9.00e+00,7.00e+00,2.00e+00,5.00e+00
7.00e+00,6.00e+00,8.00e+00,6.00e+00,3.00e+00
1.00e+00,5.00e+00,7.00e+00,4.00e+00,5.00e+00
5.00e+00,5.00e+00,2.00e+00,7.00e+00,6.00e+00
9.00e+00,7.00e+00,4.00e+00,5.00e+00,5.00e+00


In [118]:
csv = np.loadtxt("b2.csv", delimiter=',')
print(csv)

[[7. 9. 7. 2. 5.]
 [7. 6. 8. 6. 3.]
 [1. 5. 7. 4. 5.]
 [5. 5. 2. 7. 6.]
 [9. 7. 4. 5. 5.]]




---

