# Numpy
- 넘파이는 수치해석용 파이썬 패키지이다
- 다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원
- 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용

### 1. 학습목표

- 배열과 리스트의 차이점을 알고 배열을 사용하는 이유를 이해한다.
- 배열을 생성하고 다루는 방법을 익힌다
- 넘파이를 사용하여 기술 통계를 낼 수 있다.
- 난수를 발생시키고 그 결과를 분석하는 방법을 공부한다.

In [2]:
import numpy as np

In [3]:
np.__version__

'1.19.2'

## 3.1 넘파이 배열
- 모든 원소가 같은 자료형이어야 한다.
- 원소의 갯수를 바꿀 수 없다.

### 배열 자료구조 클래스인 nderray - vector, metrix 
- ndarray : n차원의 배열객체, ndarray는 파이썬과 다르게 오직 같은종류의 데이터만을 배열에 담을 수 있다.

### 배열의 차원과 크기 - ndim, shape

In [7]:
def aryinfo(arr) :
    print("type : {}".format(type(arr)))
    print("shape : {}, dimension : {}, dtype : {} ".format(arr.shape, arr.ndim, arr.dtype))
    print("Array's date :\n", arr)

### 1차원 배열 만들기
- 넘파이의 array 함수에 리스트를 넣으면 ndarray 클래스 객체 즉, 배열로 변환 해준다.
- 따라서 1차원 배열을 만드는 방법은 다음과 같다. 

In [5]:
ary = np.array([0,1,2,3,4,5,6,7,8,9])
ary

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
aryinfo(ary)

type : <class 'numpy.ndarray'>
shape : (10,), dimension : 1, dtype : int32 
Array's date :
 [0 1 2 3 4 5 6 7 8 9]


### 백터화 연산 (Vectorized operation)
- 배열객체는 배열의 각 원소에 대한 반복연산을 하나의 명령어로 처리하는 백터화 연산을 지원한다.
- for 반복문 없이 한번의 연산으로 계산 할 수 있다.

In [8]:
data = [0,1,2,3,4,5,6,7,8,9]
data * 2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [10]:
answer = []
for d in data :
    answer.append(d * 2)
answer

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [11]:
x = np.array(data)
x * 2
print(x, type(x))

[0 1 2 3 4 5 6 7 8 9] <class 'numpy.ndarray'>


In [9]:
data2 = [i*2 for i in data ]
print (data2, type(data2))

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18] <class 'list'>


### 비교연산, 논리연산

In [10]:
oneAry = np.array([1,2,3])
twoAry = np.array([10,20,30])
oneAry + twoAry * 2

array([21, 42, 63])

In [14]:
oneAry == 2

array([False,  True, False])

In [15]:
twoAry > 10

array([False,  True,  True])

In [16]:
(oneAry == 2) & (twoAry > 10)

array([False,  True, False])

### 2차원 배열
- ndarray 는 N-dimensional Array 의 약자이다. 다차원 배열 자료구조를 지원한다.
- 2차원 배열은 행렬 (Matrix)라고 하는데 행렬에서는 가로줄을 행(row) 세로줄을 열 (Column)이라고 부른다.
- list of list를 이용하면 2차원 배열을 생성할 수 있다.

In [13]:
matrix = np.array([[0,1,2],[3,4,5]])
aryinfo(matrix)

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : int32 
Array's date :
 [[0 1 2]
 [3 4 5]]


In [15]:
print("행의 갯수 :", len(matrix))
print("열의 갯수 :", len(matrix[1]))

행의 갯수 : 2
열의 갯수 : 3


In [17]:
# 연습문제1 - 넘파이를 사용하여 다음과 같은 행렬을 만든다.
# 10, 20, 30, 40
# 50, 60, 70, 80 

x = np.array([[10,20,30,40],[50,60,70,80]])
x

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

### 3차원 배열
- list of list of list 를 이용하면 3차원 배열도 생성 할 수 있다.

In [19]:
threeDimAry = np.array([[[1,2,3,4],
                         [5,6,7,8],
                         [9,10,11,12]],
                        [[11,12,13,14],
                         [15,16,17,18],
                         [19,20,21,22]]])

In [20]:
aryinfo(threeDimAry)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4), dimension : 3, dtype : int32 
Array's date :
 [[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[11 12 13 14]
  [15 16 17 18]
  [19 20 21 22]]]


In [22]:
print ('배열의 깊이:', len(threeDimAry))
print ('배열의 행 :', len(threeDimAry[0]))
print ('배열의 열 :', len(threeDimAry[0][0]))

배열의 깊이: 2
배열의 행 : 3
배열의 열 : 4


In [24]:
x = np.array([100, 'hello', 3.14])

print ('array {}'.format(x))
print ('type {}'.format(type(x)))
print ('x.type {}'.format(x.dtype))
print ('x[0] type {}'.format(type(x[0])))

array ['100' 'hello' '3.14']
type <class 'numpy.ndarray'>
x.type <U11
x[0] type <class 'numpy.str_'>


### 배열의 인덱싱
- 1차원 배열의 인덱승은 리스트의 인덱싱과 같다.

In [25]:
data = np.array([0,1,2,3,4,5])
aryinfo(data)

type : <class 'numpy.ndarray'>
shape : (6,), dimension : 1, dtype : int32 
Array's date :
 [0 1 2 3 4 5]


In [26]:
data[2]

2

In [24]:
data[-1]

9

- 다차원 배열일때는 , 를 사용하여 인덱싱 할 수 있다.

In [28]:
matrix = np.array([[0,1,2],[3,4,5]])
aryinfo(matrix)

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : int32 
Array's date :
 [[0 1 2]
 [3 4 5]]


In [27]:
matrix[0,2], matrix[0,1], matrix[1,1], matrix[-1,-1]

(2, 1, 4, 5)

### 배열 슬라이싱
- 다차원 배열의 원소 중 복수 개를 접근하려면 슬라이싱과 , 를 함께 사용 하면 된다

In [29]:
# 첫번째 행의 전체
print (matrix [0, : ])

# 두번째 열의 전체
print (matrix [ : , 1 ])

# 두번째 행의 두번째 열부터 끝까지
print (matrix [ 1 , 1 : ])

[0 1 2]
[1 4]
[4 5]


In [31]:
m = np.array([[ 0,  1,  2,  3,  4],
            [ 5,  6,  7,  8,  9],
            [10, 11, 12, 13, 14]])

In [33]:
# 값 7을 인덱싱하라
print (m[1,2])

# 값 14를 인덱싱하라
print (m[2,-1])

# 배열 [6,7]를 슬라이싱 하라
print (m[1,1:3])

# 배열 [7,12]를 슬라이싱하라
print (m[1:,2])

# 배열 [[8,4],[8,9]]를 슬라이싱하라
print (m[0:2,3:5])

7
14
[6 7]
[ 7 12]
[[3 4]
 [8 9]]


### 배열 인덱싱
- 배열 인덱싱의 방식에는 불리언 (Boolean) 배열 방시곽 정수 배열 방식 두가지가 있다.

- Boolean 배열 인덱싱 방식은 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 ndarray 객체의 크기와 같아야 한다

In [36]:
odd_even = np.array([0,1,2,3,4,5,6,7,8,9])
idx = np.array([True, False, True, False, True, False, True, False, True, False])
aryinfo(odd_even)

type : <class 'numpy.ndarray'>
shape : (10,), dimension : 1, dtype : int32 
Array's date :
 [0 1 2 3 4 5 6 7 8 9]


In [37]:
odd_even[idx]

array([0, 2, 4, 6, 8])

In [38]:
odd_even % 2

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)

In [39]:
odd_even % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [40]:
odd_even [odd_even % 2 == 0]

array([0, 2, 4, 6, 8])

### 정수배열 인덱싱 (Fancing indexing)
- 인덱스 배열의 원소 각가이 원래 ndarray 객체 원소 하나를 가리키는 인덱스 정수이어야 한다

In [42]:
data = np.array([1,2,3,4,5,6,7,8,9])
idx  = np.array([0, 2, 4, 6, 8])

data [idx]

array([1, 3, 5, 7, 9])

In [37]:
idx = np.array([0,0,0,1,1,1,2,2,2])
data[idx]

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

In [38]:
n_dim_ary = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
aryinfo(n_dim_ary)

type : <class 'numpy.ndarray'>
shape : (3, 4), dimension : 2, dtype : int32 
Array's date :
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [39]:
print (n_dim_ary[0:,0])
print (n_dim_ary[0:,3])

[1 5 9]
[ 4  8 12]


In [41]:
n_dim_ary[ : , [0, 3]]

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [42]:
# 불리언
n_dim_ary[ : , [True, False, False, True]]

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [43]:
n_dim_ary[[2,0,1], : ]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

In [44]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [43]:
# 3의 배수를 찾아라
print (x [x % 3 == 0])

[30 60]


In [44]:
# 4로 나누면 1이 남는 수를 찾아라
print (x [x % 4 == 1])

[]


In [45]:
# 3으로 나누면 나누어지고 4로 나누면1이 남는 수를 찾아라
print (x[ (x % 3 == 0) & (x % 4 == 1)])
print (type(x[ (x % 3 == 0) & (x % 4 == 1)]))

[]
<class 'numpy.ndarray'>


## 3.2 배열의 생성과변형
- ndarray 클래스는 원소가 모두 같은 자료형이어야 한다.
- array 명령으로 배열을 만들 때 자료형을 명시적으로 적용하려면 dtype 인수를 사용한다.


In [47]:
ary = np.arange(0,12,1).reshape(3,4)
aryinfo(ary)

type : <class 'numpy.ndarray'>
shape : (3, 4), dimension : 2, dtype : int32 
Array's date :
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [48]:
# 10을 찾고자한다면
print(ary[2, 2], type(ary[2,2]))

10 <class 'numpy.int32'>


In [49]:
# 6을 찾고자한다면
print(ary[1:2, 2], type(ary[1:2,2]))

# 5을 찾고자한다면
print(ary[1:2, 1:2], type(ary[1:2, 1:2]))

[6] <class 'numpy.ndarray'>
[[5]] <class 'numpy.ndarray'>


- Vector(1차원 - 배열) - pnadas (series)
- Matrix(n차원 - 행렬) - pandas (DtaFrame)

In [51]:
print (ary[ : , [0, 2]], type(ary[ : , [0, 2]]))

[[ 0  2]
 [ 4  6]
 [ 8 10]] <class 'numpy.ndarray'>


In [55]:
# 2, 10을 찾는다면?
aryinfo (ary[[0,2],2])

aryinfo (ary[[0,2],2:3])

type : <class 'numpy.ndarray'>
shape : (2,), dimension : 1, dtype : int32 
Array's date :
 [ 2 10]
type : <class 'numpy.ndarray'>
shape : (2, 1), dimension : 2, dtype : int32 
Array's date :
 [[ 2]
 [10]]


In [54]:
# [[0 2 ]
#  [8 10]] 을 찾는다면?
aryinfo (ary[[0,2],[0,2]])

# np.ix_()
print ('np.ix_() --->')
print(ary[np.ix_([0,2],[0,2])])

print ('*'*50)
rowidx = np.array([0,2])
print ('rowdix :', rowidx)

print ('*'*50)
colidx = np.array([0,2])
print ('coldix :', rowidx)

print ('*'*50)
print('rowdix :',ary[[rowidx]])

print ('*'*50)
print(ary[[rowidx]][ : , colidx])

print ('*'*50)
print(ary[[0,2]][ : , [0,2]])

type : <class 'numpy.ndarray'>
shape : (2,), dimension : 1, dtype : int32 
Array's date :
 [ 0 10]
np.ix_() --->
[[ 0  2]
 [ 8 10]]
**************************************************
rowdix : [0 2]
**************************************************
coldix : [0 2]
**************************************************
rowdix : [[ 0  1  2  3]
 [ 8  9 10 11]]
**************************************************
[[ 0  2]
 [ 8 10]]
**************************************************
[[ 0  2]
 [ 8 10]]


  print('rowdix :',ary[[rowidx]])
  print(ary[[rowidx]][ : , colidx])


In [56]:
x = np.array([1,2,3], dtype = 'f')
aryinfo (x)

type : <class 'numpy.ndarray'>
shape : (3,), dimension : 1, dtype : float32 
Array's date :
 [1. 2. 3.]


In [57]:
x[0] + x[1]

3.0

### inf 와 NaN
- 넘파이에서는 무한대를 표현하기 위한 np.inf 와 정의 할 수 없는 수자를 나타내는 np.nan 을 사용 할 수 있다.

- inf (np.innf(infinity))
- NaN (np.nan(not a number))

In [58]:
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])
  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])


array([  0.,  inf, -inf,  nan])

In [59]:
np.log(0)

  np.log(0)


-inf

In [60]:
np.exp(-np.inf)

0.0

### 배열 생성
- Numpy 에서는 몇가지 단순한 배열을 생성하는 명령을 제공한다

- array()
- arange() - 파이썬의 range 명령어와 동일
- zeros() - 모든값이 0인 배열을 생성
- ones() - 모든값이 1인 배열을 생성
- zeros_like(), ones_like() - 크기를 튜플로 명시하지 않고 다른 배열과 같은 크기의 배열을 생성
- empty() - 배열을 생성만 하고 특정값으로 초기화 하지 않음
- linspace()

In [61]:
z = np.zeros(5)
aryinfo(z)

type : <class 'numpy.ndarray'>
shape : (5,), dimension : 1, dtype : float64 
Array's date :
 [0. 0. 0. 0. 0.]


In [62]:
z = np.zeros((2,3))
aryinfo(z)

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : float64 
Array's date :
 [[0. 0. 0.]
 [0. 0. 0.]]


In [65]:
z = np.zeros((5,2), dtype='i')
aryinfo(z)

type : <class 'numpy.ndarray'>
shape : (5, 2), dimension : 2, dtype : int32 
Array's date :
 [[0 0]
 [0 0]
 [0 0]
 [0 0]
 [0 0]]


In [64]:
o = np.ones((2,3,4), dtype='i')
aryinfo(o)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4), dimension : 3, dtype : int32 
Array's date :
 [[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]


In [66]:
zl = np.zeros_like(z, dtype='f')
aryinfo(zl)

type : <class 'numpy.ndarray'>
shape : (5, 2), dimension : 2, dtype : float32 
Array's date :
 [[0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]]


In [67]:
zl = np.ones_like(z, dtype='f')
aryinfo(zl)

type : <class 'numpy.ndarray'>
shape : (5, 2), dimension : 2, dtype : float32 
Array's date :
 [[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


In [68]:
e = np.empty((4,3))
aryinfo(e)

type : <class 'numpy.ndarray'>
shape : (4, 3), dimension : 2, dtype : float64 
Array's date :
 [[1.08107119e-311 3.16202013e-322 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 2.33654681e-052]
 [4.16149903e-061 3.98660431e-062 3.27677013e+179]
 [1.49054409e+161 5.69852245e-066 8.44922341e+169]]


In [69]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
np.arange(3, 21, 2) # 시작, 끝(포함하지 않는다), 단계

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

In [51]:
- linspace 명령이나 logspace 명령은 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할한ㄷ

SyntaxError: invalid syntax (<ipython-input-51-dcf864201202>, line 1)

In [71]:
np.linspace(0,100,5)

array([  0.,  25.,  50.,  75., 100.])

- 전치연산 (transpose matrix) 
- 행렬의 행은 열로, 열은 행으로 바꾼 행렬을 의미한다
- T (속성)

In [72]:
ary = np.array([[1,2,3],[4,5,6]])
aryinfo(ary)

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : int32 
Array's date :
 [[1 2 3]
 [4 5 6]]


In [73]:
ary_t = ary.T
aryinfo(ary_t)

type : <class 'numpy.ndarray'>
shape : (3, 2), dimension : 2, dtype : int32 
Array's date :
 [[1 4]
 [2 5]
 [3 6]]


In [74]:
# Vector 에 trnspose 가능할까?
vec = np.arange(10)
aryinfo(vec)

type : <class 'numpy.ndarray'>
shape : (10,), dimension : 1, dtype : int32 
Array's date :
 [0 1 2 3 4 5 6 7 8 9]


In [75]:
vec_t = vec.T
aryinfo(vec_t)

type : <class 'numpy.ndarray'>
shape : (10,), dimension : 1, dtype : int32 
Array's date :
 [0 1 2 3 4 5 6 7 8 9]


In [76]:
vec_r_t = vec.reshape(1,10).T
aryinfo(vec_r_t)

type : <class 'numpy.ndarray'>
shape : (10, 1), dimension : 2, dtype : int32 
Array's date :
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


In [77]:
x = np.arange(12)
aryinfo(x)

type : <class 'numpy.ndarray'>
shape : (12,), dimension : 1, dtype : int32 
Array's date :
 [ 0  1  2  3  4  5  6  7  8  9 10 11]


In [78]:
xx = x.reshape(3,4)
aryinfo(xx)

type : <class 'numpy.ndarray'>
shape : (3, 4), dimension : 2, dtype : int32 
Array's date :
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [79]:
x_reshape = x.reshape(2, 2, -1)
aryinfo(x_reshape)

type : <class 'numpy.ndarray'>
shape : (2, 2, 3), dimension : 3, dtype : int32 
Array's date :
 [[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]


In [80]:
x_reshape = x.reshape(2, -1, 2)
aryinfo(x_reshape)

type : <class 'numpy.ndarray'>
shape : (2, 3, 2), dimension : 3, dtype : int32 
Array's date :
 [[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]


- 다차원 배열을 무조건 1차원으로 만들기 위해서는 FLATTEN 나 ravel 메서드를 사용한다

In [81]:
aryinfo(x_reshape.flatten())

type : <class 'numpy.ndarray'>
shape : (12,), dimension : 1, dtype : int32 
Array's date :
 [ 0  1  2  3  4  5  6  7  8  9 10 11]


In [82]:
# 변형할때 주의점
x = np.arange(5)
aryinfo(x)

type : <class 'numpy.ndarray'>
shape : (5,), dimension : 1, dtype : int32 
Array's date :
 [0 1 2 3 4]


In [84]:
x_re = x.reshape (1,5)
aryinfo(x_re)

type : <class 'numpy.ndarray'>
shape : (1, 5), dimension : 2, dtype : int32 
Array's date :
 [[0 1 2 3 4]]


In [83]:
x_re = x.reshape (5,1)
aryinfo(x_re)

type : <class 'numpy.ndarray'>
shape : (5, 1), dimension : 2, dtype : int32 
Array's date :
 [[0]
 [1]
 [2]
 [3]
 [4]]


- ndarray iterator - nditer()

In [85]:
# 1차형 배열에 대한 순차적 접근을 한다면?
for tmp in x :
    print (tmp, end=" ")
    print (type(tmp))

0 <class 'numpy.int32'>
1 <class 'numpy.int32'>
2 <class 'numpy.int32'>
3 <class 'numpy.int32'>
4 <class 'numpy.int32'>


In [86]:
ite = np.nditer(x, flags=['c_index'])
while not ite.finished :
    print(x[ite.index], end=" ")
    ite.iternext()

0 1 2 3 4 

In [87]:
# 2차형 배열에 대한 순차접근
two_dim_ary = np.array([[1,2,3],[4,5,6]])
aryinfo(two_dim_ary)

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : int32 
Array's date :
 [[1 2 3]
 [4 5 6]]


In [88]:
print (two_dim_ary)
print (two_dim_ary.shape[0]) # row
print (two_dim_ary.shape[1]) # col

[[1 2 3]
 [4 5 6]]
2
3


In [311]:
for i in range(two_dim_ary.shape[0]):
    for j in range(two_dim_ary.shape[1]):
        print (two_dim_ary[i][j], end=" ")
    print('\n')

1 2 3 

4 5 6 



In [312]:
ite = np.nditer(two_dim_ary, flags=['multi_index'])
while not ite.finished :
    print(two_dim_ary[ite.multi_index], end=" ")
    ite.iternext()

1 2 3 4 5 6 