## Numpy day01
### 학습목표

- 배열과 리스트의 차이점
- 배열생성 및 다루는 기법
- 기술통계함수
- 결과에 대한 분석 방법

#### 배열(Array)
- 모든 원소가 같은 자료형이어야 한다 
- 원소의 갯수를 변경할 수 없다(resizing X)
- 배열의 차원, 크기, 타입(ndim, shape, dtype)

In [2]:
# numpy 불러오기
import numpy as np

# numpy 버전 확인
np.__version__

'1.20.1'

In [3]:
# 배열 정보를 확인하기 위한 함수
def aryinfo(ary):
    print('type       : {}'.format(type(ary)))
    print('shape      : {}'.format(ary.shape))
    print('dimension  : {}'.format(ary.ndim))
    print('dtype      : {}'.format(ary.dtype))
    print('Array Data : \n', ary)

#### 1차원 배열 생성

- array()
- 배열이 메모리를 적게 차지하고 빠르게 처리

In [5]:
oneAry = np.array([0,1,2,3,4,5,6,7,8,9])
aryinfo(oneAry)

type       : <class 'numpy.ndarray'>
shape      : (10,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]


- vectorized operation(벡터화 연산)

In [6]:
data = [0,1,2,3,4,5,6,7,8,9]
data * 2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [9]:
# 각각의 요소에 *2 연산을 해주고 싶을 때

# 01
result= []
for d in data :
    result.append(d*2)
print(result)

# 02
result2 = [d*2 for d in data]
print(result2)

# 03(numpy 배열을 활용)
# numpy array 를 사용하면 수행속도가 빠르고 간편
result3 = oneAry * 2
print(result3)

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
[ 0  2  4  6  8 10 12 14 16 18]


- 벡터와 연산은 비교, 산술, 논리 연산을 포함하는 모든 수학연산에 적용된다

In [21]:
data01 = [1,2,3,4,5]
data02 = [10,20,30,40,50]
print(type(data01), type(data02))

# 빠른 연산을 위해 'list'를 'array'로 변경
xAry = np.array(data01)
yAry = np.array(data02)
print(type(xAry),type(yAry))

print('산술연산: ')
print(xAry + yAry)

print('산술연산: ')
print(2 * xAry + yAry)

print('비교연산(boolean masking): ') 
print(xAry == 2)
print(yAry > 10)

print('논리연산: ')
print((xAry == 2) & (yAry > 10)) # and 연산
print((xAry == 2) | (yAry > 10)) # or 연산

<class 'list'> <class 'list'>
<class 'numpy.ndarray'> <class 'numpy.ndarray'>
산술연산: 
[11 22 33 44 55]
산술연산: 
[12 24 36 48 60]
비교연산(boolean masking): 
[False  True False False False]
[False  True  True  True  True]
논리연산: 
[False  True False False False]
[False  True  True  True  True]


#### 2차원 배열

- N - dimensioanl Array
- 행렬(matrix)
- list of list -> 2차원
- list of list of list -> 3차원


In [26]:
# 2개의 행과 3개의 열을 가지는 배열을 만든다면 ?
twoAry = np.array([[1,2,3],[4,5,6]], dtype = np.float64)
aryinfo(twoAry)
print()
print('len() - 행의 갯수 ')
print(len(twoAry))
print(len(twoAry[0])) # 각 요소의 갯수
print(len(twoAry[1]))

type       : <class 'numpy.ndarray'>
shape      : (2, 3)
dimension  : 2
dtype      : float64
Array Data : 
 [[1. 2. 3.]
 [4. 5. 6.]]

len(): 
2
3
3


#### 3차원 배열

In [32]:
# 2 * 3 * 4 (3행 4열 데이터 2개)
threeAry = np.array( [ [ [1,2,3,4 ],[5,6,7,8],[9,10,11,12] ] , 
                      [ [13,14,15,16], [17,18,19,20], [21,22,23,24] ] ] )

aryinfo(threeAry)
print()
print('len() - dept')
print(len(threeAry))
print(len(threeAry[0]))
print(len(threeAry[1]))
print(len(threeAry[0][0])) # 0번째 데이터의 0번째 행 갯수

type       : <class 'numpy.ndarray'>
shape      : (2, 3, 4)
dimension  : 3
dtype      : int32
Array Data : 
 [[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

len() - dept
2
3
3
4


- 요소의 타입을 변경할 때 사용하는 함수 : astype()

In [33]:
typeChange = threeAry.astype(np.float64)
aryinfo(threeAry)

type       : <class 'numpy.ndarray'>
shape      : (2, 3, 4)
dimension  : 3
dtype      : int32
Array Data : 
 [[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]


- 배열의 인덱싱(indexing)

In [55]:
indexAry = np.array([1,2,3,4,5,6,7,8,9])

print('indexing - ')
print(indexAry[1])
print(indexAry[-1])

print()
print('ary info - ')
aryinfo(twoAry)

print()
print('첫번째 행의 첫번째 열')
print(twoAry[0,0])

print('첫번째 행의 두번째 열')
print(twoAry[0,1])

print('마지막 행의 마지막 열')
print(twoAry[-1,-1])

print('첫번째 행의 전체')
print(twoAry[0,:])

print('두번째 열의 전체')
print(twoAry[:,1])


print('두번째 행의 두번째부터 끝까지')
print(twoAry[1:, 1:])


indexing - 
2
9

ary info - 
type       : <class 'numpy.ndarray'>
shape      : (2, 3)
dimension  : 2
dtype      : float64
Array Data : 
 [[1. 2. 3.]
 [4. 5. 6.]]

첫번째 행의 첫번째 열
1.0
첫번째 행의 두번째 열
2.0
마지막 행의 마지막 열
6.0
첫번째 행의 전체
[1. 2. 3.]
두번째 열의 전체
[2. 5.]
두번째 행의 두번째부터 끝까지
[[5. 6.]]


In [56]:
matrixAry = np.array([[0,1,2,3,4], 
                      [5,6,7,8,9],
                      [10,11,12,13,14]]) # 3행 5열

aryinfo(matrixAry)

type       : <class 'numpy.ndarray'>
shape      : (3, 5)
dimension  : 2
dtype      : int32
Array Data : 
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [71]:
# 이 행렬에서 값 7 을 인덱싱한다.
print('이 행렬에서 값 7 을 인덱싱한다')
print(matrixAry[1, 2])

# 이 행렬에서 값 14 을 인덱싱한다.
print('이 행렬에서 값 14 을 인덱싱한다.')
print(matrixAry[-1, -1])

# 이 행렬에서 배열 [6, 7] 을 슬라이싱한다.
print('이 행렬에서 배열 [6, 7] 을 슬라이싱한다.')
print(matrixAry[1, 1:3])

# 이 행렬에서 배열 [7, 12] 을 슬라이싱한다.
print('이 행렬에서 배열 [7, 12] 을 슬라이싱한다.')
print(matrixAry[1:3, 2])

# 이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다.
print('이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다.')
print(matrixAry[:2, 3:])


이 행렬에서 값 7 을 인덱싱한다
7
이 행렬에서 값 14 을 인덱싱한다.
14
이 행렬에서 배열 [6, 7] 을 슬라이싱한다.
[6 7]
이 행렬에서 배열 [7, 12] 을 슬라이싱한다.
[ 7 12]
이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다.
[[3 4]
 [8 9]]


#### fancy indexing
- boolean indexing
- 정수 배열 indexing

In [83]:
# 짝수의 원소를 골라내기 위해 불리언 인덱스를 활용할 수 있다

ary = np.array([0,1,2,3,4,5,6,7,8,9])
# ary[ary%2 == 0]
# print(ary%2)

print(ary[ary%2 == 0])
print(ary%2 == 0)

# idx와 matching 해서 True값만 가져온다

idx = np.array([True, False, True, False,True, False,True, False,True, False])
print( ary[idx] )

# 홀수의 원소를 골라내기 위해서 정수 배열 인덱스를 활용할 수 있다
print(ary[ary%2!=0])
evenidx = np.array([0,2,4,6,8])
oddidx = np.array([1,3,5,7,9])
print(ary[evenidx], ary[oddidx] )

[0 2 4 6 8]
[ True False  True False  True False  True False  True False]
[0 2 4 6 8]
[1 3 5 7 9]
[0 2 4 6 8] [1 3 5 7 9]


In [93]:
x = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])
print('info - ')
print(aryinfo(x))
print()
print('3의 배수를 출력 - ',x[x%3==0])
print('4로 나누어 나머지가 1인 원소를 출력 - ',x[x%4==1])
print('3의 배수이고, 4로 나누어 나머지가 1인 원소 출력 - ',x[(x%3==0)&(x%4==1)])

info - 
type       : <class 'numpy.ndarray'>
shape      : (20,)
dimension  : 1
dtype      : int32
Array Data : 
 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
None

3의 배수를 출력 -  [ 3  6  9 12 15 18]
4로 나누어 나머지가 1인 원소를 출력 -  [ 1  5  9 13 17]
3의 배수이고, 4로 나누어 나머지가 1인 원소 출력 -  [9]


In [126]:
ary = np.arange(1,13,1).reshape(3,4)
aryinfo(ary)
print()

# 정수 배열 인덱싱
print(ary[ :,[0,3]]) 
print()

# 불리언 인덱싱
boolidx = [True, False, False, True] # 불리언은 배열의 길이와 동일해야 한다.
print(ary[:,boolidx])
print()

print('1차원 [2,10]을 출력해보자')
aryinfo((ary[[0,2] ,1]))
print()

print('2차원 [[2],[10]]을 출력해보자')
aryinfo((ary[[0,2] ,1:2]))

print('1,3,9,11 을 출력해보자')

type       : <class 'numpy.ndarray'>
shape      : (3, 4)
dimension  : 2
dtype      : int32
Array Data : 
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

[[ 1  4]
 [ 5  8]
 [ 9 12]]

[[ 1  4]
 [ 5  8]
 [ 9 12]]

1차원 [2,10]을 출력해보자
type       : <class 'numpy.ndarray'>
shape      : (2,)
dimension  : 1
dtype      : int32
Array Data : 
 [ 2 10]

2차원 [[2],[10]]을 출력해보자
type       : <class 'numpy.ndarray'>
shape      : (2, 1)
dimension  : 2
dtype      : int32
Array Data : 
 [[ 2]
 [10]]
1,3,9,11 을 출력해보자


#### numpy 데이터 타입
- dtype : b -> boolean / i -> integer, u -> 부호없는 정수, f -> float , U -> 문자열

In [130]:
ary = np.array([1,2,3,4,], dtype = 'U')
aryinfo(ary)

print(ary[0] + ary[3])

type       : <class 'numpy.ndarray'>
shape      : (4,)
dimension  : 1
dtype      : <U1
Array Data : 
 ['1' '2' '3' '4']
14


#### Inf & NaN
- Inf = infinite
- NaN = not a number

In [131]:
np.array([0,1,-1,0])/np.array([1,0,0,0])

  np.array([0,1,-1,0])/np.array([1,0,0,0])
  np.array([0,1,-1,0])/np.array([1,0,0,0])


array([  0.,  inf, -inf,  nan])

#### 배열 생성 함수
- array()
- zeros(): 사이즈가 정해져있고, 0으로 채워지는 배열 생성 함수
- ones()
- zeros_like()
- empty()
- arange()
- linspace()
- logspace()

In [135]:
print('1차원')
zero = np.zeros(5, dtype='i')
aryinfo(zero)

print()
print('2차원')
zero = np.zeros((3,4), dtype='i')
aryinfo(zero)

print()
print('2차원')
zero = np.zeros((2, 3,4), dtype='i')
aryinfo(zero)

1차원
type       : <class 'numpy.ndarray'>
shape      : (5,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 0 0 0 0]

2차원
type       : <class 'numpy.ndarray'>
shape      : (3, 4)
dimension  : 2
dtype      : int32
Array Data : 
 [[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]

3차원
type       : <class 'numpy.ndarray'>
shape      : (2, 3, 4)
dimension  : 3
dtype      : int32
Array Data : 
 [[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]


In [137]:
one = np.ones(5, dtype = 'U')
aryinfo(one)

type       : <class 'numpy.ndarray'>
shape      : (5,)
dimension  : 1
dtype      : <U1
Array Data : 
 ['1' '1' '1' '1' '1']


In [138]:
z_like = np.zeros_like(zero)
aryinfo(z_like)

type       : <class 'numpy.ndarray'>
shape      : (2, 3, 4)
dimension  : 3
dtype      : int32
Array Data : 
 [[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]


In [139]:
o_like = np.ones_like(one)
aryinfo(o_like)

type       : <class 'numpy.ndarray'>
shape      : (5,)
dimension  : 1
dtype      : <U1
Array Data : 
 ['1' '1' '1' '1' '1']


In [140]:
em = np.empty((4,3))
aryinfo(em)

type       : <class 'numpy.ndarray'>
shape      : (4, 3)
dimension  : 2
dtype      : float64
Array Data : 
 [[1.23680501e-311 3.16202013e-322 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 2.14256824e+160]
 [4.12121999e-061 2.64983661e-052 3.98548349e-062]
 [1.02218794e+166 3.29587736e-032 1.89936126e-052]]


In [142]:
np.arange(0,10, 2)

array([0, 2, 4, 6, 8])

In [144]:
np.arange(0,10, 2).reshape(5,1)

array([[0],
       [2],
       [4],
       [6],
       [8]])

In [145]:
np.linspace(0,100,5)

array([  0.,  25.,  50.,  75., 100.])

#### 전치행렬(transpose matrix?)
행렬의 행은 열으로, 열은 행으로 바꾼 행렬을 의미

- T
- transpose operation

In [148]:
ary = np.arange(1, 7).reshape(2,3)
aryinfo(ary)

type       : <class 'numpy.ndarray'>
shape      : (2, 3)
dimension  : 2
dtype      : int32
Array Data : 
 [[1 2 3]
 [4 5 6]]


In [149]:
ary_tp = ary.T
aryinfo(ary_tp)

type       : <class 'numpy.ndarray'>
shape      : (3, 2)
dimension  : 2
dtype      : int32
Array Data : 
 [[1 4]
 [2 5]
 [3 6]]


In [154]:
vec = np.arange(10)
aryinfo(vec)
print("벡터는 행렬이 아니기 때문에 transpose(행렬전환)이 불가능")

print()
print("전치연산이 가능하도록 벡터를 행렬로 바꿀 수 있을까?")

print()

aryinfo(vec.reshape(1,10))
vec_T = (vec.reshape(1,10).T)
aryinfo(vec_T)

type       : <class 'numpy.ndarray'>
shape      : (10,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]
벡터는 행렬이 아니기 때문에 transpose(행렬전환)이 불가능

전치연산이 가능하도록 벡터를 행렬로 바꿀 수 있을까?

type       : <class 'numpy.ndarray'>
shape      : (1, 10)
dimension  : 2
dtype      : int32
Array Data : 
 [[0 1 2 3 4 5 6 7 8 9]]
type       : <class 'numpy.ndarray'>
shape      : (10, 1)
dimension  : 2
dtype      : int32
Array Data : 
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


- 다차원 배열을 1차원으로 만들어야 한다면?
- flatten()

In [156]:
aryinfo(vec_T.flatten())

type       : <class 'numpy.ndarray'>
shape      : (10,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]


- 배열 사용시 주의점(차원에 대한 주의가 필요)

In [160]:
ary = np.arange(10)
aryinfo(ary)

print()
print('2차원 reshape - ')
aryinfo(ary.reshape(1,10))

type       : <class 'numpy.ndarray'>
shape      : (10,)
dimension  : 1
dtype      : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]

2차원 reshape - 
type       : <class 'numpy.ndarray'>
shape      : (1, 10)
dimension  : 2
dtype      : int32
Array Data : 
 [[0 1 2 3 4 5 6 7 8 9]]


#### ndarray(배열) 모든 원소에 대해 순차적으로 접근해야 하는 경우
- iternext() ,finished

In [162]:
ary = np.arange(10)
ary

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [166]:
for tmp in ary :
    print(tmp, end=" ")

0 1 2 3 4 5 6 7 8 9 

In [165]:
print('1차원 ndarray에 대한 iterator - ')
ite = np.nditer(ary, flags = ['c_index'])

while not ite.finished:
    idx = ite.index
    print(ary[idx], end=" ")
    ite.iternext()

1차원 ndarray에 대한 iterator - 
0 1 2 3 4 5 6 7 8 9 

In [167]:
print('2차원 ndarray에 대한 iterator - ')
ary = ary.reshape(2,5)
ary

2차원 ndarray에 대한 iterator - 


array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [170]:
print('shape-', ary.shape)
print('row-', ary.shape[0])
print('col-',ary.shape[1])

for i in range(ary.shape[0]):
    for j in range(ary.shape[1]):
        print( ary[i][j], end = " ")
    print()
    
while not ite.finished :
    idx = ite.multi_index
    print(ary[idx], end = " ")
    ite.iternext()

shape- (2, 5)
row- 2
col- 5
0 1 2 3 4 
5 6 7 8 9 
