# Numpy 학습
### 학습목표
- 배열과 리스트의 차이점
- 배열생성 및 다루는 기법
- 기술통계함수
- 결과에 대해 분석하는 방법

### 배열(Array)
- 모든 원소가 같은 자료형이어야 한다.
- 원소의 갯수를 바꿀수 없다(resizing X)
- 배열의 차원, 크기, 타입(ndim, shape, dtype)

In [4]:
import numpy as np # numpy모듈을 np라는 별칭으로 사용하겠다.
np.__version__ #numpy버전 확인

'1.20.1'

In [5]:
# 배열정보를 확인하기 위한 함수 정의
def aryInfo(ary):
    print('type       :{}'.format(type(ary)))
    print('shape      :{}'.format(ary.shape)) 
    print('dimension  :{}'.format(ary.ndim))  # 몇차원의 배열인지
    print('dtype      :{}'.format(ary.dtype)) # 데이터 타입
    print('Array Data :\n',ary)

#### 1차원 배열 생성
- array() 함수 사용

In [6]:
oneAry = np.array([0,1,2,3,4,5,6,7,8,9])
aryInfo(oneAry)

type       :<class 'numpy.ndarray'>
shape      :(10,)
dimension  :1
dtype      :int32
Array Data :
 [0 1 2 3 4 5 6 7 8 9]


- vectorized operation(벡터화 연산)


In [7]:
data=[0,1,2,3,4,5,6,7,8,9] 
data*2 # 각각의 요소에 2씩 곱하고 싶은건데 파이썬의 리스트는 수만큼 반복된다.

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [9]:
result1=[]
for d in data:     # for문 활용했을 때
    result1.append(d*2)
print(result1)

result2=[d*2 for d in data] # list comprehension 활용했을 때
print(result2)

result3=oneAry*2 # numpy 활용했을 때
print(result3)

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
[ 0  2  4  6  8 10 12 14 16 18]


- 벡터화 연산은 비교, 산술, 논리연산을 포함하는 모든 수학연산에 적용된다.

In [19]:
data01=[1,2,3,4,5]
data02=[10,20,30,40,50]
print(type(data01),type(data02))

xAry=np.array(data01)
yAry=np.array(data02)
print(type(xAry),type(yAry))

# 산술연산
print("xAry + yAry = ",xAry + yAry) 
print("2*xAry + yAry=",2*xAry + yAry) 

# 비교연산 - boolean masking
print("xAry==2 ?",xAry==2) 
print("yAry>10 ?",yAry>10)

# 논리연산
print("(xAry==2) & (yAry>10) ", (xAry==2)&(yAry>10))
print("(xAry==2) | (yAry>10) ", (xAry==2)|(yAry>10))

<class 'list'> <class 'list'>
<class 'numpy.ndarray'> <class 'numpy.ndarray'>
xAry + yAry =  [11 22 33 44 55]
2*xAry + yAry= [12 24 36 48 60]
xAry==2 ? [False  True False False False]
yAry>10 ? [False  True  True  True  True]
(xAry==2) & (yAry>10)  [False  True False False False]
(xAry==2) | (yAry>10)  [False  True  True  True  True]


#### 2차원 배열

- N - dimmensional Array
- 행렬(Matrix)
- list of list -> 2차원
- list of list of list -> 3차원

In [24]:
# 2개의 행과 3개의 열을 갖는 배열을 만든다면?
# shape(행의 수, 열의 수)
twoAry= np.array([[1,2,3],[4,5,6]], dtype =np.float64)
aryInfo(twoAry)
print("len(twoAry):",len(twoAry))
print("len(twoAry[0]):",len(twoAry[0])) 
print("len(twoAry[1]):",len(twoAry[1]))

type       :<class 'numpy.ndarray'>
shape      :(2, 3)
dimension  :2
dtype      :float64
Array Data :
 [[1. 2. 3.]
 [4. 5. 6.]]
len(twoAry): 2
len(twoAry[0]): 3
len(twoAry[1]): 3


In [29]:
# 3차원 - 3 * 4 행렬 2개 만드려면? (2 * 3 * 4)

threeAry = np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]],
                     [[13,14,15,16],[17,18,19,20],[21,22,23,24]]])
aryInfo(threeAry)
print("len(threeAry):",len(threeAry)) # 층(깊이)이라고 이해하면 쉬움.
print('len(threeAry[0][0])',len(threeAry[0][0]))

type       :<class 'numpy.ndarray'>
shape      :(2, 3, 4)
dimension  :3
dtype      :int32
Array Data :
 [[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]
len(threeAry): 2
len(threeAry[0][0]): 4


- astype() : 요소의 타입을 변경할때 사용하는 함수 

In [32]:
typeChange=threeAry.astype(np.float64)
aryInfo(typeChange)

type       :<class 'numpy.ndarray'>
shape      :(2, 3, 4)
dimension  :3
dtype      :float64
Array Data :
 [[[ 1.  2.  3.  4.]
  [ 5.  6.  7.  8.]
  [ 9. 10. 11. 12.]]

 [[13. 14. 15. 16.]
  [17. 18. 19. 20.]
  [21. 22. 23. 24.]]]


#### 배열의 인덱싱(indexing)

In [39]:
indexAry=np.array([1,2,3,4,5,6,7,8,9])

print('--------indexing--------')
print('indexAry[1]:',indexAry[1])
print('indexAry[-1]:',indexAry[-1])

print('--------ary Info--------')
aryInfo(twoAry)
# 첫번째 행의 첫번째 열
print("첫번째 행의 첫번째 열 : ",twoAry[0,0])
# 두번째 행의 두번째 열
print("두번째 행의 두번째 열: ",twoAry[1,1])
# 마지막 행의 마지막 열
print("마지막 행의 마지막 열: ",twoAry[-1,-1])

--------indexing--------
indexAry[1]: 2
indexAry[-1]: 9
--------ary Info--------
type       :<class 'numpy.ndarray'>
shape      :(2, 3)
dimension  :2
dtype      :float64
Array Data :
 [[1. 2. 3.]
 [4. 5. 6.]]
첫번째 행의 첫번째 열 :  1.0
두번째 행의 두번째 열:  5.0
마지막 행의 마지막 열:  6.0


#### 배열의 슬라이싱(Slicing)

In [54]:
print("array:\n",twoAry)
# 첫번째행의 전체
print("첫번째행의 전체:",twoAry[0,:])
# 두번째열의 전체
print("두번째열의 전체",twoAry[:,1])
# 두번째 행의 두번째부터 끝까지
print("두번째 행의 두번째부터 끝까지",twoAry[1,1:])

array:
 [[1. 2. 3.]
 [4. 5. 6.]]
첫번째행의 전체: [1. 2. 3.]
두번째열의 전체 [2. 5.]
두번째 행의 두번째부터 끝까지 [5. 6.]


In [67]:
matrixAry=np.array([[0,1,2,3,4],
                   [5,6,7,8,9],
                  [10,11,12,13,14]]) # 3*5배열

aryInfo(matrixAry)

# 이 행렬에서 값 7 을 인덱싱한다.
print("이 행렬에서 값 7 을 인덱싱한다 :", matrixAry[1,2])
# 이 행렬에서 값 14 을 인덱싱한다.
print("이 행렬에서 값 14 을 인덱싱한다 :", matrixAry[2,4], matrixAry[2,-1])
# 이 행렬에서 배열 [6, 7] 을 슬라이싱한다.
print("이 행렬에서 배열 [6, 7] 을 슬라이싱한다. :", matrixAry[1,1:3])
# 이 행렬에서 배열 [7, 12] 을 슬라이싱한다.
print("이 행렬에서 배열 [7, 12] 을 슬라이싱한다.:", matrixAry[1:3,2])
# 이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다.
print("이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다.:", matrixAry[0:2,3:5],type(matrixAry[0:2,3:5]),matrixAry[0:2,3:5].ndim)

type       :<class 'numpy.ndarray'>
shape      :(3, 5)
dimension  :2
dtype      :int32
Array Data :
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
이 행렬에서 값 7 을 인덱싱한다 : 7
이 행렬에서 값 14 을 인덱싱한다 : 14 14
이 행렬에서 배열 [6, 7] 을 슬라이싱한다. : [6 7]
이 행렬에서 배열 [7, 12] 을 슬라이싱한다.: [ 7 12]
이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다.: [[3 4]
 [8 9]] <class 'numpy.ndarray'> 2


#### fancy indexing
- boolean indexing
- 정수 배열 인덱싱

In [76]:
# 짝수의 원소를 골라내기 위해서 boolean index를 활용할 수 있다.
ary=np.array([0,1,2,3,4,5,6,7,8,9])
# ary[ary%2==0] 파이썬 문법 사용한 경우
print("파이썬문법 사용하면 ary[ary%2==0]:",ary[ary%2==0])
print("ary%2==0:",ary%2==0)
idx=np.array([True,False,True,False,True,False,True,False,True,False])
print("ary[idx]:",ary[idx])


# 홀수의 원소를 골라내기 위해서 정수 배열 인덱스를 활용할 수 있다.
print(ary[ary%2!=0])
evenidx=np.array([1,3,5,7,9])
oddidx=np.array([0,2,4,6,8])
print(ary[evenidx])
print(ary[oddidx])


파이썬문법 사용하면 ary[ary%2==0]: [0 2 4 6 8]
ary%2==0: [ True False  True False  True False  True False  True False]
ary[idx]: [0 2 4 6 8]
[1 3 5 7 9]
[1 3 5 7 9]
[0 2 4 6 8]


In [88]:
x=np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])
print('--x array Info--')
print()
print('3의 배수를 출력:',x[x%3==0])
print('4를 나누면 1이 남는 수를 출력 : ', x[x%4==1])
print('3의 배수이고 4로 나누면 1이 남는 수를 출력:', (x[(x%3==0)&(x%4==1)]))


--x array Info--

3의 배수를 출력: [ 3  6  9 12 15 18]
4를 나누면 1이 남는 수를 출력 :  [ 1  5  9 13 17]
3의 배수이고 4로 나누면 1이 남는 수를 출력: [9]


In [136]:
ary=np.arange(1,13,1).reshape(3,4) # reshape()함수로 배열 형태 변환.
aryInfo(ary)
print(ary[:,[0,3]],"\n")
digitidx=[0,3]
print("정수배열 인덱스 사용:\n",ary[:,digitidx])
booleanidx=[True,False,False,True]
print("boolean indexing 사용 \n:",ary[:,booleanidx])

# 5만 가져와서 aryinfo확인
aryInfo(ary[1:2,0:1]) # 2차원으로 나옴.
aryInfo(ary[1,0]) # 요소로 나옴.

print()
print('[2 10]으로 가져오기:', ary[[0,2],1], ary[[0,2],1].ndim) # 1차원으로 꺼내기
print('[[2][10]]으로 가져오기:', ary[[0,2],1:2],ary[[0,2],1:2].ndim) # 2차원으로 꺼내기
rowidx=np.array([0,2])
colidx=np.array([0,2])
print('[[1,3],[9,11]]:',ary[[rowidx]][:,colidx])



type       :<class 'numpy.ndarray'>
shape      :(3, 4)
dimension  :2
dtype      :int32
Array Data :
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[ 1  4]
 [ 5  8]
 [ 9 12]] 

정수배열 인덱스 사용:
 [[ 1  4]
 [ 5  8]
 [ 9 12]]
boolean indexing 사용 
: [[ 1  4]
 [ 5  8]
 [ 9 12]]
type       :<class 'numpy.ndarray'>
shape      :(1, 1)
dimension  :2
dtype      :int32
Array Data :
 [[5]]
type       :<class 'numpy.int32'>
shape      :()
dimension  :0
dtype      :int32
Array Data :
 5

[2 10]으로 가져오기: [ 2 10] 1
[[2][10]]으로 가져오기: [[ 2]
 [10]] 2
[[1,3],[9,11]]: [[ 1  3]
 [ 9 11]]


  print('[[1,3],[9,11]]:',ary[[rowidx]][:,colidx])


#### numpy datatype
- dtype: b ->boolean, i -> integer, u -> 부호없는 정수, f->float, U->문자열

In [138]:
ary=np.array([1,2,3,4],dtype='U') # 데이터 타입:문자열
aryInfo(ary)

print(ary[0]+ary[3])

type       :<class 'numpy.ndarray'>
shape      :(4,)
dimension  :1
dtype      :<U1
Array Data :
 ['1' '2' '3' '4']
14


#### Inf & NaN
- infinity
- Not a Number

In [139]:
np.array([0,1,-1,0])/np.array([1,0,0,0])

  np.array([0,1,-1,0])/np.array([1,0,0,0])
  np.array([0,1,-1,0])/np.array([1,0,0,0])


array([  0.,  inf, -inf,  nan])

In [140]:
np.log(0)

  np.log(0)


-inf

#### 배열 생성 함수
- array()
- zeros(), ones(), zeros_like(), ones_like(), empty(), arrange(),linespace(),logspace()

In [149]:
# 1차원
print('-----1차원-----')
zero= np.zeros(5,dtype='i') # 모든 요소의 값을 0으로 채워줌.
aryInfo(zero)

print()
# 2차원
print('-----2차원-----')
zero1=np.zeros((3,4), dtype='U') # dtype을 문자열로 줄경우, 0은 NULL로 인식 
aryInfo(zero1)

print()
# 3차원
print('-----3차원-----')
zero2=np.zeros((2,3,4),dtype='i')
aryInfo(zero2)

-----1차원-----
type       :<class 'numpy.ndarray'>
shape      :(5,)
dimension  :1
dtype      :int32
Array Data :
 [0 0 0 0 0]

-----2차원-----
type       :<class 'numpy.ndarray'>
shape      :(3, 4)
dimension  :2
dtype      :<U1
Array Data :
 [['' '' '' '']
 ['' '' '' '']
 ['' '' '' '']]

-----3차원-----
type       :<class 'numpy.ndarray'>
shape      :(2, 3, 4)
dimension  :3
dtype      :int32
Array Data :
 [[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]


In [146]:
one=np.ones(5, dtype='U') # 모든 요소의 값을 1로 채워줌.
aryInfo(one)

type       :<class 'numpy.ndarray'>
shape      :(5,)
dimension  :1
dtype      :<U1
Array Data :
 ['1' '1' '1' '1' '1']


In [152]:
z_like=np.zeros_like(zero) # zeros()로 만들어준 배열을 그대로 copy할때
aryInfo(z_like)

type       :<class 'numpy.ndarray'>
shape      :(5,)
dimension  :1
dtype      :int32
Array Data :
 [0 0 0 0 0]


In [153]:
o_like=np.ones_like(one) # ones()로 만들어준 배열을 그대로 copy할때
aryInfo(o_like)

type       :<class 'numpy.ndarray'>
shape      :(5,)
dimension  :1
dtype      :<U1
Array Data :
 ['1' '1' '1' '1' '1']


In [154]:
e=np.empty((4,3)) # 비어있는 배열이지만, 메모리의 주소값이 대신해서 들어가있는 형태가 출력된다.
aryInfo(e)

type       :<class 'numpy.ndarray'>
shape      :(4, 3)
dimension  :2
dtype      :float64
Array Data :
 [[1.06114615e-311 3.16202013e-322 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 1.37055580e-071]
 [2.21499697e+160 5.64602831e-038 5.74017190e+174]
 [1.05161866e-046 3.43833333e+179 1.72345756e-047]]


In [159]:
np.arange(0,10) # start...end-1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [161]:
np.arange(0,10,2).reshape(5,1) # reshape()사용할때, 사이즈 맞춰줘야함. 사이즈 안맞추면 오류!

array([[0],
       [2],
       [4],
       [6],
       [8]])

In [162]:
np.linspace(0,100,5) # (시작값, 끝값, 개수)

array([  0.,  25.,  50.,  75., 100.])

#### 전치행렬(transpose matrix)? 행렬의 행은 열ㄹ로 열은 행으로 바꾼 행렬을 의미한다.
- T
- transpose operation

In [164]:
ary=np.arange(1,7).reshape(2,3)
aryInfo(ary)

type       :<class 'numpy.ndarray'>
shape      :(2, 3)
dimension  :2
dtype      :int32
Array Data :
 [[1 2 3]
 [4 5 6]]


In [165]:
ary_transpose=ary.T
aryInfo(ary_transpose)

type       :<class 'numpy.ndarray'>
shape      :(3, 2)
dimension  :2
dtype      :int32
Array Data :
 [[1 4]
 [2 5]
 [3 6]]


In [180]:
vec=np.arange(10)
aryInfo(vec)
print("1차원 배열에 대한 전치연산은 가능할까?",vec.T,"\n")
vec_transpose=vec.reshape(1,10).T
print(".T로는 불가능하다. 그래도 전치행렬로 바꿔본다면?\n",vec_transpose)


type       :<class 'numpy.ndarray'>
shape      :(10,)
dimension  :1
dtype      :int32
Array Data :
 [0 1 2 3 4 5 6 7 8 9]
1차원 배열에 대한 전치연산은 가능할까? [0 1 2 3 4 5 6 7 8 9] 

.T로는 불가능하다. 그래도 전치행렬로 바꿔본다면?
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


- 다차원 배열을 1차원으로 만들어야 한다면?
- flatten()

In [182]:
aryInfo(vec_transpose.flatten())

type       :<class 'numpy.ndarray'>
shape      :(10,)
dimension  :1
dtype      :int32
Array Data :
 [0 1 2 3 4 5 6 7 8 9]


- 배열 사용시 주의점(차원에 대한 주의가 필요함!)

In [188]:
ary=np.arange(10)
aryInfo(ary) # 1차원

print()
print('-----reshape-----')
aryInfo(ary.reshape(1,10)) # 2차원

print()
print('-----reshape-----')
aryInfo(ary.reshape(10,1)) # 2차원

print()
print('reshape이 아닌 차원증가를 위해서는: newaxis')
aryInfo(ary[:,np.newaxis]) # 2차원
aryInfo(ary[np.newaxis,:]) # 2차원

type       :<class 'numpy.ndarray'>
shape      :(10,)
dimension  :1
dtype      :int32
Array Data :
 [0 1 2 3 4 5 6 7 8 9]

-----reshape-----
type       :<class 'numpy.ndarray'>
shape      :(1, 10)
dimension  :2
dtype      :int32
Array Data :
 [[0 1 2 3 4 5 6 7 8 9]]

-----reshape-----
type       :<class 'numpy.ndarray'>
shape      :(10, 1)
dimension  :2
dtype      :int32
Array Data :
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]

reshape이 아닌 차원증가를 위해서는: newaxis
type       :<class 'numpy.ndarray'>
shape      :(10, 1)
dimension  :2
dtype      :int32
Array Data :
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]
type       :<class 'numpy.ndarray'>
shape      :(1, 10)
dimension  :2
dtype      :int32
Array Data :
 [[0 1 2 3 4 5 6 7 8 9]]


#### ndarray(배열) 모든 원소에 대해서 순차적으로 접근해야하는 경우
- iternext(), finished

In [189]:
ary = np.arange(10)
ary

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [190]:
# 파이썬 문법 for문 활용한 경우
for tmp in ary: 
    print(tmp,end='') 

0123456789

In [193]:
# numpy iternext() 활용한 경우
print('1차원 ndarray에 대한 iterator')
ite=np.nditer(ary,flags=['c_index'])
while not ite.finished:
    idx=ite.index
    print(ary[idx],end=" ")
    ite.iternext()

1차원 ndarray에 대한 iterator
0 1 2 3 4 5 6 7 8 9 

In [194]:
print('2차원 ndarray에 대한 iterator')
ary=ary.reshape(2,5)
ary

2차원 ndarray에 대한 iterator


array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [208]:
print("shape:",ary.shape)
print("row:",ary.shape[0])
print("col:",ary.shape[1])

print()
print("파이썬 문법 for문 활용한 경우")
for i in range(ary.shape[0]):
    for j in range(ary.shape[1]):
        print(ary[i][j],end=" ")
    print()
    
print()
print("numpy iternext() 활용한 경우")
ite= np.nditer(ary, flags=['multi_index'])

while not ite.finished: # multi index라서 2*5로 표현X
    idx=ite.multi_index
    print(ary[idx],end=' ')
    ite.iternext()

shape: (2, 5)
row: 2
col: 5

파이썬 문법 for문 활용한 경우
0 1 2 3 4 
5 6 7 8 9 

numpy iternext() 활용한 경우
0 1 2 3 4 5 6 7 8 9 