# 기초 라이브러리 사용 설명서 1탄 - Numpy

## 1. Numpy
- Numpy는 파이썬에서 선형대수 기반 프로그램을 가능하게 하는 대표적인 패키지이며 빠른 계산과 배열 연산 능력 보장

In [1]:
# numpy 모듈 import
import numpy as np

## 2. np.array()
- 리스트와 같은 다양한 인자를 입력 받아서 ndarray로 변환하는 기능 수행


- .shape로 배열의 모양을 확인할 수 있으며 ndarray의 행과 열의 수를 튜플 형태로 가짐


- 대괄호[] 중첩으로 배열 증가

In [7]:
# 1차원 배열
array1 = np.array([1, 2, 3])
print(array1)
print('배열1의 array 형태:', array1.shape)
print()

# 2차원 배열
array2 = np.array([[1, 2, 3], [4, 5, 6]])
print(array2)
print('배열2의 array 형태:', array2.shape)
print()

# 3차원 배열
array3 = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]]])
print(array3)
print('배열3의 array 형태:', array3.shape)

[1 2 3]
배열1의 array 형태: (3,)

[[1 2 3]
 [4 5 6]]
배열2의 array 형태: (2, 3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]]
배열3의 array 형태: (1, 3, 3)


### 1) ndarray의 데이터 타입
- 숫자, 문자열, bool 값 등 모두 가능


- 연산의 특성 상 같은 데이터 타입만 가능

In [12]:
# dtype으로 데이터 타입 속성 확인 가능
list1 = [1.5, 2.4, 3.7]
print(type(list1))

array1 = np.array(list1)
print(type(array1))

print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1.5 2.4 3.7] float64


In [10]:
# 서로 다른 데이터 타입 섞여있을 경우, 데이터 타입이 더 큰 타입으로 변환
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

['1' '2' 'test'] <U11


In [11]:
# 메모리 절약해야 할 때 astype()을 사용하여 데이터 타입 변경 가능
array_int = np.array([1, 2, 3])
print(array_int, array_int.dtype)

array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

[1 2 3] int32
[1. 2. 3.] float64


### 2) ndarray를 편리하게 생성하기

In [13]:
# arange()
sequence_array = np.arange(10)
print(sequence_array)

[0 1 2 3 4 5 6 7 8 9]


In [20]:
# zeros()
zeros1 = np.zeros((3, 2))
print(zeros1)

zeros2 = np.zeros([3, 2])
print(zeros2)

[[0. 0.]
 [0. 0.]
 [0. 0.]]
[[0. 0.]
 [0. 0.]
 [0. 0.]]


In [21]:
# ones()
ones1 = np.ones((3, 2))
print(ones1)

ones2 = np.ones([3, 2])
print(ones2)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]]


In [22]:
# random.randn()
rd = np.random.randn(3, 2)   # 중첩 괄호 사용 X
print(rd)

[[-1.22191295 -0.20217961]
 [-0.68732064  0.8351026 ]
 [ 0.9741616   0.24630202]]


## 3. 차원과 크기 변경: reshape()
- ndarray를 특정 차원 및 크기로 변환

In [23]:
array1 = np.arange(10)
print('array1: \n', array1)

array2 = array1.reshape(2, 5)
print('array2: \n', array2)

array1: 
 [0 1 2 3 4 5 6 7 8 9]
array2: 
 [[0 1 2 3 4]
 [5 6 7 8 9]]


In [24]:
# reshape(-1, 1)을 이용해 3차원 -> 2차원, 2차원 -> 1차원 변경 가능
array1 = np.arange(8)

array3d = array1.reshape((2, 2, 2))
print('array3d: \n', array3d)

array2d = array3d.reshape(-1, 1)
print('array2d: \n', array2d)

array3d: 
 [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
array2d: 
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]


## 4. 데이터 세트 선택하기: 인덱싱(Indexing)

### 1) 단일 값 추출
- 객체에 해당하는 위치의 인덱스 값을 [] 안에 입력

In [25]:
array1 = np.arange(start=1, stop=10)
print('array1:', array1)

print('array1[2]:', array1[2])
print('맨 뒤의 값:', array1[-1], '\n맨 뒤에서 두 번째 값:', array1[-2])

array1: [1 2 3 4 5 6 7 8 9]
array1[2]: 3
맨 뒤의 값: 9 
맨 뒤에서 두 번째 값: 8


In [27]:
# 데이터 값 수정도 가능
array1[0] = 9
print(array1)

[9 2 3 4 5 6 7 8 9]


In [28]:
# 다차원에서 단일 값 추출 가능
array2 = array1.reshape(3, 3)
print(array2)

print('1행 1열 값:', array2[0, 0])
print('1행 2열 값:', array2[0, 1])

[[9 2 3]
 [4 5 6]
 [7 8 9]]
1행 1열 값: 9
1행 2열 값: 2


In [29]:
# 4차원 배열
array4 = np.random.randn(2, 2, 4, 5).round(3)
print(array4)

print('-' * 45)

print('\narray4[0, 0]:\n', array4[0, 0])
print('\narray4[0, 1]:\n', array4[0, 1])
print('\narray4[1, 0]:\n', array4[1, 0])
print('\narray4[1, 1]:\n', array4[1, 1])

print('-' * 45)

print('\narray4[0][1][3]:\n', array4[0][1][3])
print('\narray4[0][1][3][4]:\n', array4[0, 1, 3, 4])   # 대괄호 대신 쉼표로도 차원 접근 가능

[[[[ 1.293  0.308  0.957  0.8   -1.053]
   [ 1.512  0.153 -0.144  1.016 -0.828]
   [-0.682  0.217  0.469  0.444 -0.212]
   [-0.178  0.467 -0.111  0.254  0.794]]

  [[ 1.482 -1.499 -0.802  1.175 -0.314]
   [ 0.36  -1.215 -1.61   1.37   0.577]
   [-0.148  0.008 -0.084 -2.188  0.169]
   [-0.041 -1.382  0.542  0.599  0.48 ]]]


 [[[ 2.23   0.538  0.517 -0.255  0.865]
   [-0.285 -0.792 -1.108  1.197 -0.102]
   [ 0.57  -0.651 -0.577 -0.455  0.237]
   [-1.211 -0.165  0.303  0.701  0.798]]

  [[-0.654  2.241 -0.739  1.395 -0.785]
   [-0.881 -0.211 -0.189  0.594  0.159]
   [-0.426 -0.229  1.249  0.876 -0.181]
   [ 1.191 -1.88   0.878 -1.428  0.015]]]]
---------------------------------------------

array4[0, 0]:
 [[ 1.293  0.308  0.957  0.8   -1.053]
 [ 1.512  0.153 -0.144  1.016 -0.828]
 [-0.682  0.217  0.469  0.444 -0.212]
 [-0.178  0.467 -0.111  0.254  0.794]]

array4[0, 1]:
 [[ 1.482 -1.499 -0.802  1.175 -0.314]
 [ 0.36  -1.215 -1.61   1.37   0.577]
 [-0.148  0.008 -0.084 -2.188  0.169]
 [-0

### 2) 슬라이싱 (Slicing)
- :를 이용하여 연속 데이터 추출

In [33]:
array1 = np.arange(start=1, stop=10)
print(array1[0:2])   

[1 2]


In [34]:
print(array1, '\n')
print(array1[:5])
print(array1[3:])
print(array1[:])

[1 2 3 4 5 6 7 8 9] 

[1 2 3 4 5]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [40]:
array1 = array1.reshape(3, 3)
print(array1)
print('-' * 10)
print(array1[0:2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
----------
[[1 2 3]
 [4 5 6]]


In [41]:
# 2차원 ndarray에서는 콤마(,)로 행과 열 인덱스 지정
print(array1)
print('-' * 10)
print(array1[0:3, 1:3])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
----------
[[2 3]
 [5 6]
 [8 9]]


In [42]:
print(array1)
print('-' * 10)
print(array1[1:, :2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
----------
[[4 5]
 [7 8]]


### 3) 팬시 인덱싱
- 리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray 반환

In [43]:
print(array1)
print('-' * 10)

print(array1[[0, 2]])   # 0행, 2행
print('-' * 10)

print(array1[[0, 2], 1])   # 0행 1열, 2행 1열
print('-' * 10)

print(array1[[0, 2], 0:2])   # 0행 0열, 0행 1열, 2행 0열, 2행 1열

[[1 2 3]
 [4 5 6]
 [7 8 9]]
----------
[[1 2 3]
 [7 8 9]]
----------
[2 8]
----------
[[1 2]
 [7 8]]


### 4) 불린 인덱싱
- 조건 필터링과 검색을 동시에 할 수 있기 때문에 자주 사용

In [44]:
boolean = array1[array1 > 3]
print('array1 > 3인 불린 인덱싱 결과 값:', boolean)
print('객체반환:\n', array1 > 3)

array1 > 3인 불린 인덱싱 결과 값: [4 5 6 7 8 9]
객체반환:
 [[False False False]
 [ True  True  True]
 [ True  True  True]]


## 5. 행렬 정렬 - sort() & argsort()

### 1) 행렬 정렬
- np.sort(): 원본 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬 반환


- ndarray.sort(): 원본 행렬 자체를 정렬, 반환 값은 None

In [45]:
org_array = np.array([4, 2, 8, 6])

print('원본 행렬:', org_array)
print('np.sort 호출 후 반환된 행렬:', np.sort(org_array))
print('np.sort 호출 후 원본 행렬:', org_array)
print('ndarray.sort 호출 후 반환된 행렬:', org_array.sort())
print('ndarray.sort 호출 후 원본 행렬:', org_array)

원본 행렬: [4 2 8 6]
np.sort 호출 후 반환된 행렬: [2 4 6 8]
np.sort 호출 후 원본 행렬: [4 2 8 6]
ndarray.sort 호출 후 반환된 행렬: None
ndarray.sort 호출 후 원본 행렬: [2 4 6 8]


In [46]:
# 내림차순 반환
print('내림차순 정렬:', np.sort(org_array)[::-1])

내림차순 정렬: [8 6 4 2]


In [48]:
# 2차원 배열은 axis(0: 행, 1: 열) 축 값 설정을 통해 정렬 수행
array2 = np.array([[8, 1], [7, 12]])
print(array2)

print('열 방향 정렬:\n', np.sort(array2, axis=1))
print('행 방향 정렬:\n', np.sort(array2, axis=0))

[[ 8  1]
 [ 7 12]]
열 방향 정렬:
 [[ 1  8]
 [ 7 12]]
행 방향 정렬:
 [[ 7  1]
 [ 8 12]]


### 2) np.argsort()
- 정렬된 행렬의 인덱스 반환

In [49]:
org_array = np.array([4, 2, 8, 6])
print('np.argsort 호출 후 반환된 인덱스:', np.argsort(org_array))

np.argsort 호출 후 반환된 인덱스: [1 0 3 2]


In [50]:
# 내림차순 반환
print('np.argsort 호출 후 반환된 인덱스:', np.argsort(org_array)[::-1])

np.argsort 호출 후 반환된 인덱스: [2 3 0 1]


## 6. 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

### 1) 행렬 내적 (행렬 곱)
- np.dot() 사용

In [52]:
a = np.array([[1, 2, 3], [4, 5, 6]])
print('a행렬: \n', a)

b = np.array([[7, 8], [9, 10], [11, 12]])
print('b행렬: \n', b)

print('a와 b의 행렬 내적 결과:\n', np.dot(a, b))

a행렬: 
 [[1 2 3]
 [4 5 6]]
b행렬: 
 [[ 7  8]
 [ 9 10]
 [11 12]]
a와 b의 행렬 내적 결과:
 [[ 58  64]
 [139 154]]


### 2) 전치 행렬
- 원 행렬에서 행과 열의 위치를 교환한 원소로 구성한 행렬


- np.transpose() 사용

In [53]:
a = np.array([[1, 2], [3, 4]])
print('a행렬:\n', a)
print('a의 전치행렬:\n', np.transpose(a))

a행렬:
 [[1 2]
 [3 4]]
a의 전치행렬:
 [[1 3]
 [2 4]]


## 7. 배열 간 사칙연산
- 동일한 모양의 두 배열을 사칙연산

In [55]:
a = np.array([[11, 12, 13], [2, 3, 4]])
print('a행렬:\n', a)
print('a + a =\n', a + a)

a행렬:
 [[11 12 13]
 [ 2  3  4]]
a + a =
 [[22 24 26]
 [ 4  6  8]]


## 8. Broadcasting
- 배열과 1개의 숫자를 사칙연산

In [56]:
print('a행렬:\n', a)
print('a + 13 =\n', a + 13)
print('a - 13 =\n', a - 13)
print('a * 3 =\n', a * 3)

a행렬:
 [[11 12 13]
 [ 2  3  4]]
a + 13 =
 [[24 25 26]
 [15 16 17]]
a - 13 =
 [[ -2  -1   0]
 [-11 -10  -9]]
a * 3 =
 [[33 36 39]
 [ 6  9 12]]


In [58]:
# 같은 형태인 여러 개의 배열 연산 가능
a1 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
a2 = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])

print(a1, '\n+\n', a2, '\n=', a1 + a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]] 
+
 [[1 2 3]
 [1 2 3]
 [1 2 3]] 
= [[ 2  4  6]
 [ 5  7  9]
 [ 8 10 12]]


In [59]:
# 다른 형태 배열 연산 가능
broad = np.arange(10).reshape(5, 2)
casting = np.arange(10, 12)

print(broad)
print('-' * 10)
print(casting)
print('-' * 10)
print(broad + casting)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
----------
[10 11]
----------
[[10 12]
 [12 14]
 [14 16]
 [16 18]
 [18 20]]


## 9. 집계 (Aggregation)

### 1) 합계
- sum()

In [60]:
print('a행렬:\n', a)
print(a.sum())

a행렬:
 [[11 12 13]
 [ 2  3  4]]
45


In [61]:
# 축 설정
print('열 방향 합계:', a.sum(axis=1))
print('행 방향 합계:', a.sum(axis=0))

열 방향 합계: [36  9]
행 방향 합계: [13 15 17]


### 2) 평균
- mean()

In [62]:
print(a.mean())

7.5


### 3) 곱셈
- prod()

In [63]:
print(a.prod())

41184


### 4) 최댓값과 최솟값
- max(): 최댓값
- min(): 최솟값

In [64]:
print(a.max())
print(a.min())

13
2


In [67]:
print(a)
print(a[1].max())
print(a[0].min())

[[11 12 13]
 [ 2  3  4]]
4
11


In [68]:
# 최댓값, 최솟값인 원소의 인덱스 번호
print(a.argmax())
print(a.argmin())

2
3


### 5) 표준편차와 분산
- std(): 표준편차
- var(): 분산

In [69]:
print(a.std())
print(a.var())

4.573474244670748
20.916666666666668
