# 파이썬 데이터분석 특화 데이터 형태: Numpy

- **목적:** 고성능 과학계산을 위한 데이터분석 패키지로 다차원의 데이터를 활용하게 함  
(https://numpy.org/doc/stable/index.html)
> - 저차원 및 고차원 데이터 입출력 및 산술연산
> - 대표적으로 사용되는 표준 수학 함수기능 지원
> - 행렬(저차원 및 고차원)을 다루는 선형대수 및 변환기능 지원

- **Numpy:** Numerical Python의 약자로 수치를 다루는 분야를 위한 패키지
> - Array 또는 Matrix와 같은 자료구조 수치를 다루는 Python 데이터형태
>> - array: 같은 종류(자료형)의 데이터를 저장하는 함수
>> - ndarray: array함수로 만든 다차원의 데이터 형태(모든 값은 같은 자료형)

## 배열(Array) 생성

```
np.array() # 리스트와 같은 순서가 있는 데이터를 받아 Numpy 데이터 생성
```

| 함수 | 내용 |
|------------|-----------------------------------------------------------------------------------------------------|
| np.array | 입력된 데이터를 ndarray로 변환. dtype을 명시하면 자료형을 설정할 수 있다 |
| np.asarray | 입력 데이터를 ndarray로 변환하나 이미 ndarray일 경우에는 새로 메모리에 ndarray가 생성되지는 않는다 |
| np.arange | range 함수와 유사하나 ndarray를 반환 |
| np.ones | 전달인자로 전달한 dtype과 모양(행,렬)으로 배열을 생성하고 모든 내용을 1로 초기화하여 ndarray를 반환 |
| np.zeros | ones와 같으나 초기값이 0이다 |
| np.empty | ones와 zeros와 비슷하나 값을 초기화하지는 않는다 |

In [47]:
# Functions for generating scalar, vector, and multi-dimensional data
import numpy as np

a1d = np.array([1,2,3])
print(a1d)
print(type(a1d))
print(a1d.dtype)

[1 2 3]
<class 'numpy.ndarray'>
int32


In [48]:
b2d = np.array([[1,2,3], [4,5,6]]) # 각 배열의 길이는 동일해야 함
print(b2d)
print(type(b2d))
print(b2d.shape)

[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>
(2, 3)


In [50]:
c3d = np.array([[[1,2,3], [4,5,6]]])
print(c3d)
print(type(c3d))
print(c3d.shape)

[[[1 2 3]
  [4 5 6]]]
<class 'numpy.ndarray'>
(1, 2, 3)


In [51]:
c3d = np.array([[[1,2,3], [4,5,6]],
                [[10,20,30], [40,50,60]]])
print(c3d)
print(type(c3d))
print(c3d.shape)

[[[ 1  2  3]
  [ 4  5  6]]

 [[10 20 30]
  [40 50 60]]]
<class 'numpy.ndarray'>
(2, 2, 3)


In [21]:
# 타입변환
test = [10,20,30]
print(type(test))
test2 = np.asarray(test)
print(type(test2))

<class 'list'>
<class 'numpy.ndarray'>


In [25]:
# array sequence generating
np.arange(1,20)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19])

In [52]:
# Functions for generating data
a2d = np.zeros((3,3))
print(a2d)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [53]:
b2d = np.ones((2,3))
print(b2d)

[[1. 1. 1.]
 [1. 1. 1.]]


In [54]:
c2d = np.full((3,3), 7)
print(c2d)

[[7 7 7]
 [7 7 7]
 [7 7 7]]


In [55]:
d2d = np.eye(3)
print(d2d)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [56]:
e2d = np.random.random((2,2))
print(e2d)

[[0.047082   0.16630931]
 [0.60442241 0.73321425]]


In [57]:
# 값의 type 변환
print(np.array(np.random.random((2,2)), dtype=np.float64))
print(np.array(np.random.random((2,2)), dtype=np.complex))
print(np.array(np.random.random((2,2)), dtype=np.int))
print(np.array(np.random.random((2,2)), dtype=np.bool))
print(np.array(np.random.random((2,2)), dtype=np.object))

[[0.45041731 0.49391561]
 [0.15601883 0.95128344]]
[[0.47296334+0.j 0.9840526 +0.j]
 [0.7033955 +0.j 0.44285049+0.j]]
[[0 0]
 [0 0]]
[[ True  True]
 [ True  True]]
[[0.20868071807120692 0.852697975826214]
 [0.9915466508035085 0.8021339898127327]]


## 배열 연산

- 기본 수학 함수는 배열에서 값마다 계산되며 numpy 내장 함수 모두 사용 가능
- 값연산 이외에 벡터와 다차원 연산이 가능하기 때문에 반복문(for, while) 사용없이 직관적 연산 가능
- (고급) 크기가 다른 배열간의 연산도 브로드캐스팅(Broadcasting) 방식으로 연산 가능

**1) 단일 배열에 사용하는 함수**

| 함수 | 설명 |
|------------------------|--------------------------------------------------------------------------|
| abs, fabs | 각 원소의 절대값을 구한다. 복소수가 아닌 경우에는 fabs로 빠르게 연산가능 |
| sqrt | 제곱근을 계산 arr ** 0.5와 동일 |
| square | 제곱을 계산 arr ** 2와 동일 |
| Exp | 각 원소에 지수 ex를 계산 |
| Log, log10, log2, logp | 각각 자연로그, 로그10, 로그2, 로그(1+x) |
| sign | 각 원소의 부호를 계산 |
| ceil | 각 원소의 소수자리 올림 |
| floor | 각 원소의 소수자리 버림 |
| rint | 각 원소의 소수자리 반올림. dtype 유지 |
| modf | 원소의 몫과 나머지를 각각 배열로 반환 |
| isnan | 각 원소가 숫자인지 아닌지 NaN으로 나타내는 불리언 배열 |
| isfinite, isinf | 배열의 각 원소가 유한한지 무한한지 나타내는 불리언 배열 |
| cos, cosh, sin, sinh, tan, tanh | 일반 삼각함수와 쌍곡삼각 함수 |
| logical_not | 각 원소의 논리 부정(not) 값 계산 |

**2) 서로 다른 배열에 사용하는 함수**

| 함수 | 설명 |
|------------------------------------------------------------|----------------------------------------------------------------------|
| add | 두 배열에서 같은 위치의 원소끼리 덧셈 |
| subtract | 첫번째 배열 원소 - 두번째 배열 원소 |
| multiply | 배열의 원소끼리 곱셈 |
| divide | 첫번째 배열의 원소에서 두번째 배열의 원소를 나눗셈 |
| power | 첫번째 배열의 원소에 두번째 배열의 원소만큼 제곱 |
| maximum, fmax | 두 원소 중 큰 값을 반환. fmax는 NaN 무시 |
| minimum, fmin | 두 원소 중 작은 값 반환. fmin는 NaN 무시 |
| mod | 첫번째 배열의 원소에 두번째 배열의 원소를 나눈 나머지 |
| greater, greater_equal, less, less_equal, equal, not_equal | 두 원소 간의 >, >=, <, <=, ==, != 비교연산 결과를 불리언 배열로 반환 |
| logical_and, logical_or, logical_xor | 각각 두 원소 간의 논리연산 결과를 반환 |

In [35]:
a2d = np.array([[1,2],[3,4]], dtype=np.float64)
b2d = np.array([[5,6],[7,8]], dtype=np.float64)
print(a2d)
print(b2d)

[[1. 2.]
 [3. 4.]]
[[5. 6.]
 [7. 8.]]


In [36]:
# Elementwise sum; both produce the array
print(a2d + b2d)
print(np.add(a2d, b2d))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [37]:
# Elementwise difference; both produce the array
print(a2d - b2d)
print(np.subtract(a2d, b2d))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [38]:
# Elementwise product; both produce the array
print(a2d * b2d)
print(np.multiply(a2d, b2d))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [39]:
# Elementwise division; both produce the array
print(a2d / b2d)
print(np.divide(a2d, b2d))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [40]:
# Elementwise square root; produces the array
print(np.sqrt(a2d))

[[1.         1.41421356]
 [1.73205081 2.        ]]


In [42]:
a2d = np.array([[-1,2,3],[-4,5,6],[7,8,-9]])
print(a2d)
print(np.abs(a2d))

[[-1  2  3]
 [-4  5  6]
 [ 7  8 -9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [46]:
print(np.sqrt(a2d))
# is same as
print(a2d**0.5)

[[       nan 1.41421356 1.73205081]
 [       nan 2.23606798 2.44948974]
 [2.64575131 2.82842712        nan]]
[[       nan 1.41421356 1.73205081]
 [       nan 2.23606798 2.44948974]
 [2.64575131 2.82842712        nan]]


  print(np.sqrt(a2d))
  print(a2d**0.5)


In [44]:
print(np.sign(a2d))
print(np.ceil(a2d))

[[-1  1  1]
 [-1  1  1]
 [ 1  1 -1]]
[[-1.  2.  3.]
 [-4.  5.  6.]
 [ 7.  8. -9.]]


In [60]:
np.isnan(a2d)

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

In [62]:
np.isinf(a2d)

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

In [63]:
np.isfinite(a2d)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [64]:
np.cos(a2d)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [76]:
np.logical_not(np.cos(a2d))

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

In [69]:
np.tan(a2d)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [75]:
np.logical_not(np.tan(a2d))

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [45]:
b2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(b2d)
print(np.add(a2d, b2d))
print(np.multiply(a2d, b2d))
print(np.power(a2d, b2d))
print(np.greater(b2d, a2d))
print(np.logical_and(a2d, a2d+b2d))

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 0  4  6]
 [ 0 10 12]
 [14 16  0]]
[[ -1   4   9]
 [-16  25  36]
 [ 49  64 -81]]
[[        -1          4         27]
 [       256       3125      46656]
 [    823543   16777216 -387420489]]
[[ True False False]
 [ True False False]
 [False False  True]]
[[False  True  True]
 [False  True  True]
 [ True  True False]]


## 배열  값 선택과 다루기

- **슬라이싱(Slicing):** List와 유사한 방식으로 배열에 적용할 수 있으며 차이가 있다면 배열은 다차원 일 수 있으므로 배열의 각 차원에 대해 슬라이스를 사용함. 슬라이싱으로 값을 선택하면 결과의 차원은 원래의 차원보다 같거나 작음.

- **정수 배열 인덱싱(Int Array Indexing):**  배열의 특정 위치에 있는 값으로 구성할 수 있음

- **부울 배열 인덱싱(Boolean Array indexing):** 배열의 특정 값만 선택할 수 있으며, 일부 조건이 참인 경우의 값을 선택하는데 사용


In [77]:
a = np.arange(10)
print(a)
print(a[5])
print(a[5:8])

[0 1 2 3 4 5 6 7 8 9]
5
[5 6 7]


In [78]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)
print(a[1,:])
print(a[1:2,:])
print(a[1:3,:])
print(a[:,1:3])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[5 6 7 8]
[[5 6 7 8]]
[[ 5  6  7  8]
 [ 9 10 11 12]]
[[ 2  3]
 [ 6  7]
 [10 11]]


In [79]:
a = np.array([[1,2], [3, 4], [5, 6]])
print(a)
print(a[[0, 1, 2], [0, 1, 0]])
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

[[1 2]
 [3 4]
 [5 6]]
[1 4 5]
[1 4 5]


In [89]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)
b = np.array([0, 2, 0, 1])
print(a[np.arange(4), b])
print(a[np.arange(4), b] + 10)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[ 1  6  7 11]
[11 16 17 21]


In [90]:
a = np.array([[1,2], [3, 4], [5, 6]])
print(a)
print(a>2)
print(a[a>2])

[[1 2]
 [3 4]
 [5 6]]
[[False False]
 [ True  True]
 [ True  True]]
[3 4 5 6]


In [91]:
# is similar as "Python List", but..
b = list(range(10))
print(b)
print(b[5:8])

a[5:8] = 100
print(a)
# b[5:8] = 100
# print(b)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[5, 6, 7]
[[1 2]
 [3 4]
 [5 6]]


In [92]:
names = np.array(['철수', '영희', '말자', '숙자'])
print(names)
names == '철수'

['철수' '영희' '말자' '숙자']


array([ True, False, False, False])

In [93]:
data = np.random.randn(4,4)
print(data)
data[data<0] = 0
print(data)
data[names == '철수']

[[ 0.08501739 -0.75428506 -1.03639243 -0.49167507]
 [-0.2954514   0.15891463 -0.49501109 -0.7695158 ]
 [-0.45682789 -0.00812022  0.43017586 -0.04823353]
 [ 1.52059986 -0.64937599 -1.50132013  0.44877387]]
[[0.08501739 0.         0.         0.        ]
 [0.         0.15891463 0.         0.        ]
 [0.         0.         0.43017586 0.        ]
 [1.52059986 0.         0.         0.44877387]]


array([[0.08501739, 0.        , 0.        , 0.        ]])

# Numpy 통계 함수

In [94]:
# Statistics
a2d = np.array([[-1,2,3],[-4,5,6],[7,8,-9]])
print(a2d)
print(a2d + 2)
print(a2d * 2)

[[-1  2  3]
 [-4  5  6]
 [ 7  8 -9]]
[[ 1  4  5]
 [-2  7  8]
 [ 9 10 -7]]
[[ -2   4   6]
 [ -8  10  12]
 [ 14  16 -18]]


In [100]:
print(a2d)
print(np.sum(a2d, axis=0))
print(np.sum(a2d, axis=1))

[[-1  2  3]
 [-4  5  6]
 [ 7  8 -9]]
[ 2 15  0]
[4 7 6]


In [96]:
print(np.mean(a2d, axis=0))
print(np.std(a2d, axis=0))
print(np.var(a2d, axis=0))
print(np.min(a2d, axis=0))
print(np.max(a2d, axis=0))

[0.66666667 5.         0.        ]
[4.64279609 2.44948974 6.4807407 ]
[21.55555556  6.         42.        ]
[-4  2 -9]
[7 8 6]


In [101]:
print(a2d)
print(np.argmin(a2d, axis=0))
print(np.argmax(a2d, axis=0))

[[-1  2  3]
 [-4  5  6]
 [ 7  8 -9]]
[1 0 2]
[2 2 1]


In [102]:
print(a2d)
print(np.cumsum(a2d, axis=0))
print(np.cumprod(a2d, axis=0))

[[-1  2  3]
 [-4  5  6]
 [ 7  8 -9]]
[[-1  2  3]
 [-5  7  9]
 [ 2 15  0]]
[[  -1    2    3]
 [   4   10   18]
 [  28   80 -162]]


In [103]:
a2d = np.array([[-1,2,3],[-4,5,6],[7,8,-9]])
b2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

c2d = np.concatenate((a2d, b2d), axis=0)
c2d

array([[-1,  2,  3],
       [-4,  5,  6],
       [ 7,  8, -9],
       [ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9]])

In [104]:
c2d = np.concatenate((a2d, b2d), axis=1)
c2d

array([[-1,  2,  3,  1,  2,  3],
       [-4,  5,  6,  4,  5,  6],
       [ 7,  8, -9,  7,  8,  9]])

In [105]:
c2d.reshape((9,2))

array([[-1,  2],
       [ 3,  1],
       [ 2,  3],
       [-4,  5],
       [ 6,  4],
       [ 5,  6],
       [ 7,  8],
       [-9,  7],
       [ 8,  9]])

In [106]:
a2d = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13 ,14 ,15, 16]])
print(a2d)
print(np.split(a2d, 2, axis=0))

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]
[array([[1, 2, 3, 4],
       [5, 6, 7, 8]]), array([[ 9, 10, 11, 12],
       [13, 14, 15, 16]])]


In [107]:
print(np.split(a2d, 2, axis=1))

[array([[ 1,  2],
       [ 5,  6],
       [ 9, 10],
       [13, 14]]), array([[ 3,  4],
       [ 7,  8],
       [11, 12],
       [15, 16]])]
