## Numpy 학습
### 학습목표

- 배열과 리스트의 차이점
- 배열생성 및 다루는 기법
- 기술통계함수
- 결과에 대한 분석하는 방법

#### 배열(Array)

- 모든 원소가 같은 자료형이야 한다
- 원소의 갯수를 바꿀 수 없다(resizing X)
- 배열의 차원, 크기, 타입(ndim , shape , dtype) 

In [4]:
import numpy as np
np.__version__

'1.20.1'

In [6]:
# 배열 정보를 확인하기 위한 함수 정의
def aryInfo(ary) :
    print('type       : {}'.format( type(ary) ))
    print('shape      : {}'.format( ary.shape ))
    print('dimension  : {}'.format( ary.ndim ))
    print('dtype      : {}'.format( ary.dtype ))
    print('Array Data : \n' , ary) 

#### 1 차원 배열 생성

- array()

In [7]:
oneAry = np.array([0,1,2,3,4,5,6,7,8,9])
aryInfo(oneAry)

type       : <class 'numpy.ndarray'>
shape      : (10,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]


- vectorized operation(벡터화 연산)

In [8]:
data = [0,1,2,3,4,5,6,7,8,9]
data * 2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [11]:
result = []
for d in data :
    result.append(d * 2)
print(result)

result2 = [d * 2 for d in data]
print(result2)

result3 = oneAry * 2 
print(result3)

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
[ 0  2  4  6  8 10 12 14 16 18]


- 벡터화 연산은 비교, 산술, 논리 연산을 포함하는 모든 수학연산에 적용 됨...

In [21]:
data01 = [1, 2, 3, 4, 5]
data02 = [10, 20, 30, 40, 50]
print( type(data01) , type(data02))

xAry = np.array(data01)
yAry = np.array(data02)
print( type(xAry) , type(yAry))

print('산술연산 - ')
print( xAry + yAry)

print('산술연산 - ')
print( 2 * xAry + yAry)

print('비교연산 - boolean masking')
print( xAry == 2)
print( yAry > 10)

print('논리연산 - ')
print( (xAry == 2) & (yAry > 10) )
print( (xAry == 2) | (yAry > 10) )

<class 'list'> <class 'list'>
<class 'numpy.ndarray'> <class 'numpy.ndarray'>
산술연산 - 
[11 22 33 44 55]
산술연산 - 
[12 24 36 48 60]
비교연산 - boolean masking
[False  True False False False]
[False  True  True  True  True]
논리연산 - 
[False  True False False False]
[False  True  True  True  True]


#### 2차원 배열

- N - dimensional Array
- 행렬(Matrix)
- list of list -> 2차원
- list of list of list -> 3차원

In [31]:
# 2개의 행과 3개의 열을 갖는 배열 만든다면?
twoAry = np.array([[1,2,3],[4,5,6]] , dtype = np.float64)
print('array info - ')
aryInfo(twoAry)

print()
print('len() - 행의 갯수')
print(len(twoAry))
print(len(twoAry[0]))
print(len(twoAry[1]))

array info - 
type       : <class 'numpy.ndarray'>
shape      : (2, 3)
dimension  : 2
dtype      : float64
Array Data : 
 [[1. 2. 3.]
 [4. 5. 6.]]

len() - 행의 갯수
2
3
3


In [37]:
# 3차원 - 2 * 3 * 4
threeAry = np.array([ [ [1,2,3,4] ,[5,6,7,8], [9,10,11,12] ] , 
                      [ [13,14,15,16], [17,18,19,20], [21,22,23,24] ]
                    ])
print('array info - ')
aryInfo(threeAry)

print()
print('len() - depth')
print(len(threeAry))
print(len(threeAry[0]))
print(len(threeAry[1]))
print('row col' , len(threeAry[0][0]))

array info - 
type       : <class 'numpy.ndarray'>
shape      : (2, 3, 4)
dimension  : 3
dtype      : int32
Array Data : 
 [[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

len() - depth
2
3
3
row col 4


- 요소의 타입을 변경할 때 사용하는 함수 : astype()

In [38]:
typeChange = threeAry.astype(np.float64)
aryInfo(typeChange)

type       : <class 'numpy.ndarray'>
shape      : (2, 3, 4)
dimension  : 3
dtype      : float64
Array Data : 
 [[[ 1.  2.  3.  4.]
  [ 5.  6.  7.  8.]
  [ 9. 10. 11. 12.]]

 [[13. 14. 15. 16.]
  [17. 18. 19. 20.]
  [21. 22. 23. 24.]]]


#### 배열의 인덱싱(Indexing) , 배열의 슬라이싱(Slicing)

In [48]:
indexAry = np.array([1,2,3,4,5,6,7,8,9])

print('indexing - ')
print(indexAry[1])
print(indexAry[-1])

print()
print('ary info - ')
aryInfo(twoAry)
# 첫번째 행의 첫번째 열
print('첫번째 행의 첫번째 열 - ')
print(twoAry[0 , 0])

# 두번째 행의 두번째 열
print('두번째 행의 첫번째 열 - ')
print(twoAry[1 , 1])

# 마지막 행의 마지막 열
print('마지막 행의 마지막 열 - ')
print(twoAry[-1 , -1])

# 첫번째행의 전체
print('첫번째행의 전체 - ')
print(twoAry[0 , : ])

# 두번째 열의 전체
print('두번째 열의 전체 - ')
print(twoAry[ : , 1 ])

# 두번째 열의 두번째부터 끝까지
print('두번째 행의 두번째부터 끝까지 - ')
print(twoAry[ 1 , 1: ])

indexing - 
2
9

ary info - 
type       : <class 'numpy.ndarray'>
shape      : (2, 3)
dimension  : 2
dtype      : float64
Array Data : 
 [[1. 2. 3.]
 [4. 5. 6.]]
첫번째 행의 첫번째 열 - 
1.0
두번째 행의 첫번째 열 - 
5.0
마지막 행의 마지막 열 - 
6.0
첫번째행의 전체 - 
[1. 2. 3.]
두번째 열의 전체 - 
[2. 5.]
두번째 행의 두번째부터 끝까지 - 
[5. 6.]


In [60]:
matrixAry = np.array([[0, 1, 2, 3, 4],
                      [5, 6, 7, 8, 9],
                      [10, 11, 12, 13, 14]
                     ]) # 3 * 5

aryInfo(matrixAry)
print()
print('이 행렬에서 값 7 을 인덱싱한다. - ' , matrixAry[ 1 , 2 ])
print('이 행렬에서 값 14 을 인덱싱한다. - ', matrixAry[ -1 , -1 ])
print('이 행렬에서 배열 [6, 7] 을 슬라이싱한다. - ' , matrixAry[ 1 , 1:3 ] , type(matrixAry[ 1 , 1:3 ]))
print('이 행렬에서 배열 [7, 12] 을 슬라이싱한다. - ', matrixAry[ 1:3 , 2 ])
print('이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다. - ' ,   matrixAry[ 0:2 , 3:5 ] , 
                                                                  type(matrixAry[ 0:2 , 3:5 ]) , 
                                                                  matrixAry[ 0:2 , 3:5 ].ndim)


type       : <class 'numpy.ndarray'>
shape      : (3, 5)
dimension  : 2
dtype      : int32
Array Data : 
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

이 행렬에서 값 7 을 인덱싱한다. -  7
이 행렬에서 값 14 을 인덱싱한다. -  14
이 행렬에서 배열 [6, 7] 을 슬라이싱한다. -  [6 7] <class 'numpy.ndarray'>
이 행렬에서 배열 [7, 12] 을 슬라이싱한다. -  [ 7 12]
이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다. -  [[3 4]
 [8 9]] <class 'numpy.ndarray'> 2


#### fancy indexing
- boolean indexing
- 정수 배열 인덱싱

In [69]:
# 짝수의 원소를 골라내기 위해서 불리언 인덱스를 활용 할 수 있다.
ary = np.array([0,1,2,3,4,5,6,7,8,9])
# ary[ary%2==0]
# print( ary%2 )
print( ary[ary%2==0] )
print( ary%2==0 )
idx = np.array([True, False,True, False,True, False,True, False,True, False])
print( ary[idx] )

# 홀수의 원소를 골라내기 위해서 정수 배열 인덱스를 활용 할 수 있다.
print( ary[ary%2!=0] )
evenidx = np.array([1,3,5,7,9])
oddidx  = np.array([0,2,4,6,8])
print( ary[evenidx] )
print( ary[oddidx] )



[0 2 4 6 8]
[ True False  True False  True False  True False  True False]
[0 2 4 6 8]
[1 3 5 7 9]
[1 3 5 7 9]
[0 2 4 6 8]


In [82]:
x = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) 
print('info - ')
aryInfo(x)

print()
print('3의 배수를 출력 - ' , x[x%3==0])
print('4로 나누면 1이 남는 수를 출력 - ' , x[x%4 == 1])
print('3의 배수이고 4로 나누면 1이 남는 수를 출력 - ' , ( x[(x%3==0) & (x%4 == 1)] ) )


info - 
type       : <class 'numpy.ndarray'>
shape      : (20,)
dimension  : 1
dtype      : int32
Array Data : 
 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]

3의 배수를 출력 -  [ 3  6  9 12 15 18]
4로 나누면 1이 남는 수를 출력 -  [ 1  5  9 13 17]
3의 배수이고 4로 나누면 1이 남는 수를 출력 -  [9]


In [101]:
ary = np.arange(1, 13, 1).reshape(3,4)
print('info - ')
aryInfo(ary)

print()
digitIdx = [0,3]
print( ary[ : , digitIdx ] )

print()
booleanIdx = [True, False, False, True]
print( ary[ : , booleanIdx ] )
print()
print('[[5]] - ')
aryInfo( ary[ 1:2 , 0:1 ] )

print()
print('[2 10] - ')
rowIdx = [0,2]
aryInfo( ary[ rowIdx , 1 ] )

print()
print('[ [2] [10] ] - ')
aryInfo( ary[ [0,2], 1:2 ] )

print()
print('[ [1 3] [9 11] ] - ')

rowIdx = np.array([0,2]) 
colIdx = np.array([0,2]) 
# print( ary[[rowIdx]])
aryInfo( ary[[rowIdx]][:, colIdx]  )


info - 
type       : <class 'numpy.ndarray'>
shape      : (3, 4)
dimension  : 2
dtype      : int32
Array Data : 
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

[[ 1  4]
 [ 5  8]
 [ 9 12]]

[[ 1  4]
 [ 5  8]
 [ 9 12]]

[[5]] - 
type       : <class 'numpy.ndarray'>
shape      : (1, 1)
dimension  : 2
dtype      : int32
Array Data : 
 [[5]]

[2 10] - 
type       : <class 'numpy.ndarray'>
shape      : (2,)
dimension  : 1
dtype      : int32
Array Data : 
 [ 2 10]

[ [2] [10] ] - 
type       : <class 'numpy.ndarray'>
shape      : (2, 1)
dimension  : 2
dtype      : int32
Array Data : 
 [[ 2]
 [10]]

[ [1 3] [9 11] ] - 
type       : <class 'numpy.ndarray'>
shape      : (2, 2)
dimension  : 2
dtype      : int32
Array Data : 
 [[ 1  3]
 [ 9 11]]


  aryInfo( ary[[rowIdx]][:, colIdx]  )


#### 넘파이 데이터타입

- dtype : b -> boolean , i -> integer , u -> 부호없는정수 , f -> float , U -> 문자열

In [106]:
ary = np.array([1,2,3,4] , dtype='U')
aryInfo(ary)

print(ary[0]+ary[3])

type       : <class 'numpy.ndarray'>
shape      : (4,)
dimension  : 1
dtype      : <U1
Array Data : 
 ['1' '2' '3' '4']
14


#### Inf & NaN
- infinity
- Not a Number

In [107]:
np.array([0, 1, -1, 0]) / np.array([1,0,0,0])

  np.array([0, 1, -1, 0]) / np.array([1,0,0,0])
  np.array([0, 1, -1, 0]) / np.array([1,0,0,0])


array([  0.,  inf, -inf,  nan])

In [108]:
np.log(0)

  np.log(0)


-inf

#### 배열 생성 함수
- array()
- zeros() , ones() , zeros_like() , ones_like() , emtpy() , arange() , linspace() , logspace()

In [116]:
print('1차원 - ')
zero = np.zeros(5 , dtype='i')
aryInfo(zero)

print()
print('2차원 - ')
zero = np.zeros((3,4) , dtype='i')
aryInfo(zero)

print()
print('2차원 - ')
zero = np.zeros((3,3,4) , dtype='i')
aryInfo(zero)


1차원 - 
type       : <class 'numpy.ndarray'>
shape      : (5,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 0 0 0 0]

2차원 - 
type       : <class 'numpy.ndarray'>
shape      : (3, 4)
dimension  : 2
dtype      : int32
Array Data : 
 [[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]

2차원 - 
type       : <class 'numpy.ndarray'>
shape      : (3, 3, 4)
dimension  : 3
dtype      : int32
Array Data : 
 [[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]


In [113]:
one = np.ones(5 , dtype='U')
aryInfo(one)

type       : <class 'numpy.ndarray'>
shape      : (5,)
dimension  : 1
dtype      : <U1
Array Data : 
 ['1' '1' '1' '1' '1']


In [117]:
z_like = np.zeros_like(zero)
aryInfo(z_like)

type       : <class 'numpy.ndarray'>
shape      : (3, 3, 4)
dimension  : 3
dtype      : int32
Array Data : 
 [[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]


In [118]:
o_like = np.ones_like(one)
aryInfo(o_like)

type       : <class 'numpy.ndarray'>
shape      : (5,)
dimension  : 1
dtype      : <U1
Array Data : 
 ['1' '1' '1' '1' '1']


In [119]:
e = np.empty((4,3))
aryInfo(e)

type       : <class 'numpy.ndarray'>
shape      : (4, 3)
dimension  : 2
dtype      : float64
Array Data : 
 [[4.24399158e-314 8.48798317e-314 1.27319747e-313]
 [1.69759663e-313 2.12199579e-313 2.54639495e-313]
 [2.97079411e-313 3.39519327e-313 3.81959242e-313]
 [4.24399158e-313 4.66839074e-313 5.09278990e-313]]


In [120]:
np.arange(0, 10) # start ... end-1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [123]:
np.arange(0, 10 , 2).reshape(5,1)

array([[0],
       [2],
       [4],
       [6],
       [8]])

In [125]:
np.linspace(0, 100, 10)

array([  0.        ,  11.11111111,  22.22222222,  33.33333333,
        44.44444444,  55.55555556,  66.66666667,  77.77777778,
        88.88888889, 100.        ])

#### 전치행렬(transpose matrix) ? 행렬의 행은 열로 열은 행으로 바꾼 행렬을 의미한다
- T
- transpose operation

In [126]:
ary = np.arange(1, 7).reshape(2,3)
aryInfo(ary)

type       : <class 'numpy.ndarray'>
shape      : (2, 3)
dimension  : 2
dtype      : int32
Array Data : 
 [[1 2 3]
 [4 5 6]]


In [127]:
ary_transpose = ary.T
aryInfo(ary_transpose)

type       : <class 'numpy.ndarray'>
shape      : (3, 2)
dimension  : 2
dtype      : int32
Array Data : 
 [[1 4]
 [2 5]
 [3 6]]


In [133]:
vec = np.arange(10)
aryInfo(vec)
print()
print('1차원 배열에 대한 전치연산은 가능할까? - ' , vec.T)
print('안된다.. 그런데 방법이 있을까? - ')
print('있다. 뭘까요? - ')
vec_transpose = vec.reshape(1, 10).T
aryInfo( vec_transpose )


type       : <class 'numpy.ndarray'>
shape      : (10,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]

1차원 배열에 대한 전치연산은 가능할까? -  [0 1 2 3 4 5 6 7 8 9]
안된다.. 그런데 방법이 있을까? - 
있다. 뭘까요? - 
type       : <class 'numpy.ndarray'>
shape      : (10, 1)
dimension  : 2
dtype      : int32
Array Data : 
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


- 다차원 배열을 1차원으로 만들어야 한다면?
- flatten

In [135]:
aryInfo( vec_transpose.flatten() )

type       : <class 'numpy.ndarray'>
shape      : (10,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]


- 배열 사용시 주의점(차원에 대한 주의가 필요함!!)

In [146]:
ary = np.arange(10)
aryInfo(ary)

print()
print('reshape - ')
aryInfo( ary.reshape(1,10) )

print()
print('reshape - ')
aryInfo( ary.reshape(10,1) )

print()
print('reshape 이 아닌 차원증가를 위해서는 : newaxis - ')
aryInfo(ary[ np.newaxis ,  : ])
print()
aryInfo(ary[ : ,  np.newaxis ])

type       : <class 'numpy.ndarray'>
shape      : (10,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]

reshape - 
type       : <class 'numpy.ndarray'>
shape      : (1, 10)
dimension  : 2
dtype      : int32
Array Data : 
 [[0 1 2 3 4 5 6 7 8 9]]

reshape - 
type       : <class 'numpy.ndarray'>
shape      : (10, 1)
dimension  : 2
dtype      : int32
Array Data : 
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]

reshape 이 아닌 차원증가를 위해서는 : newaxis - 
type       : <class 'numpy.ndarray'>
shape      : (1, 10)
dimension  : 2
dtype      : int32
Array Data : 
 [[0 1 2 3 4 5 6 7 8 9]]

type       : <class 'numpy.ndarray'>
shape      : (10, 1)
dimension  : 2
dtype      : int32
Array Data : 
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


#### ndarray(배열) 모든원소에 대해서 순차적으로 접근해야하는 경우
- iternext() , finished


In [149]:
ary = np.arange(10)
ary

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [152]:
for tmp in ary :
    print(tmp , end=" ")

0 1 2 3 4 5 6 7 8 9 

In [155]:
print('1차원  ndarray 에 대한 iterator - ')
ite = np.nditer(ary ,flags=['c_index'])

while not ite.finished :
    idx = ite.index
    print(ary[idx], end=" ")
    ite.iternext()

1차원  ndarray 에 대한 iterator - 
0 1 2 3 4 5 6 7 8 9 

In [157]:
print('2차원  ndarray 에 대한 iterator - ')
ary = ary.reshape(2,5)
ary

2차원  ndarray 에 대한 iterator - 


array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [166]:
print('shape - ' , ary.shape)
print('row - ' , ary.shape[0])
print('col - ' , ary.shape[1])

for i in range(ary.shape[0]) :
    for j in range(ary.shape[1]) :
        print( ary[i][j], end=" ")
    print()

print()
print('nditer - ')
ite = np.nditer(ary ,flags=['multi_index'])

while not ite.finished :
    idx = ite.multi_index
    print(ary[idx], end=" ")
    ite.iternext()

shape -  (2, 5)
row -  2
col -  5
0 1 2 3 4 
5 6 7 8 9 

nditer - 
0 1 2 3 4 5 6 7 8 9 