# Numpy Basic

- 대량 데이터의 배열 연산을 가능하게 하므로, 빠른 배열 연산 속도를 보장함.
- 데이터 핸들링은 numpy보다 pandas를 주로 이용함.

<목차>
- 데이터 타입 이해하기(dtype,astype)
- np.array 쉽게 생성하기(arange,linspace,random) /번외: np.zeros, np.ones, np.full
- 많이 이용하는 메서드(reshape,tolist)
- 넘파이 연산(기본,np.sum,np.dot,np.sort)

In [1]:
#import numpy
import numpy as np

In [None]:
#numpy의 기반 데이터 타입: ndarray (다차원 배열을 쉽게 생성하고 다양한 연산 수행 가능)
##array가 몇 차원인지 제대로 이해하자!
##리스트 []는 1차원, [[]]는 2차원으로 받아들이기

array1 = np.array([1,2,3])
print(array1)
print('array1 type:', type(array1))
print('array1 array 형태:', array1.shape) #1차원 array
print('='*50)

array2 = np.array([[1,2,3],[2,3,4]])
print(array2)
print('array2 type:', type(array2))
print('array2 array 형태:', array2.shape) #2차원 array
print('='*50)

array3 = np.array([[1,2,3]])
print(array3)
print('array3 type:', type(array3))
print('array3 array 형태:', array3.shape) #이건 몇차원일까요?
print('='*50)

array4 = np.array([[[1,2,3],[4,5,6],[7,8,9]]])
print(array4)
print('array4 type:', type(array4))
print('array4 array 형태:', array4.shape) #이것은?
print('='*50)

array5 = np.array([[[[1,2,3],[4,5,6]],[7,8,9]]])
print(array5)
print('array5 type:', type(array5))
print('array5 array 형태:', array5.shape) #위의 array4와 다른 점이 무엇일까요?

[1 2 3]
array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
[[1 2 3]
 [2 3 4]]
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
[[1 2 3]]
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)
[[[1 2 3]
  [4 5 6]
  [7 8 9]]]
array4 type: <class 'numpy.ndarray'>
array4 array 형태: (1, 3, 3)
[[list([[1, 2, 3], [4, 5, 6]]) list([7, 8, 9])]]
array5 type: <class 'numpy.ndarray'>
array5 array 형태: (1, 2)


In [None]:
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원, array4: {:3}차원, array5: {:4}차원'
      .format(array1.ndim,array2.ndim,array3.ndim,array4.ndim, array5.ndim))

array1: 1차원, array2: 2차원, array3:  2차원, array4:   3차원, array5:    2차원


In [None]:
#numpy 연산: 같은 데이터 타입끼리만 가능함 ##실전에서, 데이터 타입은 꼭 확인해야 하는 것 중 하나!
#데이터 타입 확인: dtype()
#데이터 타입: int형(integer)/float형(소수)/str형(문자, ' '가 붙어있음.)

list1=[1,2,3]
print(type(list1))
array1=np.array(list1) #list를 array로 변경
print(type(array1))

print(array1, array1.dtype) #int형 array는 모두 'int32'


#하지만 int형 외 string, float형이 섞여 있다면, 데이터 타입은?
list2=[1,2,'GH']
array2=np.array(list2)
print(array2,array2.dtype)

list3=[1,2,119.0]
array3=np.array(list3)
print(array3,array3.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64
['1' '2' 'GH'] <U21
[  1.   2. 119.] float64


In [None]:
#데이터 타입을 변경하고 싶을 땐: astype()
array_int=np.array([1,2,3])
array_float=array_int.astype('float64')
print(array_int.dtype, array_float.dtype)

array_str=array_int.astype('str')
print(array_str,array_str.dtype)

int64 float64
['1' '2' '3'] <U21


In [None]:
#nparray 쉽게 생성하기- arange, linspace, random
##주로 테스트용으로 데이터를 만들거나, 대규모의 데이터를 일괄적으로 초기화할 경우 사용

#np.arange([start],stop,[step],dtype=None) #stop 포함x
print(np.arange(0,10,2,np.float))

#stop만 써도 된다.
arr=np.arange(10)
print(arr)

#np.linspace(start,stop,num) #stop 포함o
print(np.linspace(0,1,5))

#np.random.normal(mean,sd,size)
print(np.random.normal(0,1,(2,3)))

##seed를 줄 수 있음!
np.random.seed(100)
print(np.random.random((2,2)))

[0. 2. 4. 6. 8.]
[0 1 2 3 4 5 6 7 8 9]
[0.   0.25 0.5  0.75 1.  ]
[[ 0.98132079  0.51421884  0.22117967]
 [-1.07004333 -0.18949583  0.25500144]]
[[0.54340494 0.27836939]
 [0.42451759 0.84477613]]


In [None]:
#######참고#########

#np.zeros
print(np.zeros((3,2),dtype='int32'))#float64가 디폴트

#np.ones
print(np.ones((3,2),dtype='float64')) #float64가 디폴트

#np.full
print(np.full((3,3),5))

[[0 0]
 [0 0]
 [0 0]]
[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[5 5 5]
 [5 5 5]
 [5 5 5]]


In [None]:
#ndarray의 차원과 크기를 변경하는: reshape()
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2,5)
print('array2:\n', array2)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]


In [None]:
#reshape()는 변경할 수 없는 사이즈를 쓰면 오류 발생, 정확한 사이즈를 써줍시다
array3 = array3.reshape(4,5)
print('array3:\n', array3) 

ValueError: cannot reshape array of size 3 into shape (4,5)

In [None]:
#실전에선 reshape의 인자로 -1을 많이 써요! #행과 열 중 하나는 지정하고 -1을 써주면 자동으로 완료
arr1 = np.arange(10)
arr2 = arr1.reshape(-1,5)
arr3 = arr1.reshape(5,-1)

print('arr1:\n',arr1)
print('arr2:\n',arr2,'arr2 shape:',arr2.shape)
print('arr3:\n',arr3,'arr3 shape:',arr3.shape)

arr1:
 [0 1 2 3 4 5 6 7 8 9]
arr2:
 [[0 1 2 3 4]
 [5 6 7 8 9]] arr2 shape: (2, 5)
arr3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]] arr3 shape: (5, 2)


In [None]:
#그렇다고 이건 안돼요....
arr4 = arr1.reshape(3,-1)
print(arr4)

ValueError: cannot reshape array of size 10 into shape (3,newaxis)

In [None]:
#가장 많이 쓰이는 건 reshape(-1,1)! 기억해두면 좋아요!
##왜냐하면, reshape(-1,1)은 원본 ndarray가 어떤 형태라도 2차원으로 변환되기 때문

array1 = np.arange(8) #1차원
print(array1)

array3d = array1.reshape((2,2,2))
print('array3d:\n',array3d) #3차원

array5 = array3d.reshape(-1,1)
print('array5:\n',array5) #3->2차원

array6 = array1.reshape(-1,1)
print('array6:\n',array6) #1->2차원

[0 1 2 3 4 5 6 7]
array3d:
 [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
array5:
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]
array6:
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]


In [None]:
#array를 list로 바꾸고 싶을 땐: tolist() #이것도 많이 활용돼요!
arr = np.arange(15)
arr_to_list = arr.tolist()
print(arr)
print(arr_to_list)

#다시 list를 array로 바꾸고 싶다면?
list_to_arr = np.array(arr_to_list)
print(list_to_arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


In [None]:
#numpy 연산 모음-기본, np.dot, np.sum, np.sort

In [None]:
#기본 연산
tmp = np.random.randint(0,4,size=(6,6)) # 0이상 4 미만 정수 랜덤하게 뽑은 6x6 array
tmp2 = np.random.randint(0,4,size=(6,6))
print(tmp)
print(tmp2)

[[2 0 2 1 2 2]
 [2 2 1 0 0 3]
 [0 3 0 2 0 3]
 [1 1 2 2 3 0]
 [0 3 1 1 1 3]
 [0 0 3 3 3 3]]
[[1 3 1 1 2 3]
 [3 3 0 2 1 1]
 [2 3 2 3 1 3]
 [0 2 1 2 0 3]
 [3 1 2 0 2 0]
 [0 2 1 2 1 0]]


In [None]:
#element-wise하게 덧셈, 곱셈
print(tmp+tmp2)
print(tmp*tmp2)

#당연히 스칼라(scalar)에 대해서도 가능합니다.
print(tmp+1)
print(tmp*100)

[[3 3 3 2 4 5]
 [5 5 1 2 1 4]
 [2 6 2 5 1 6]
 [1 3 3 4 3 3]
 [3 4 3 1 3 3]
 [0 2 4 5 4 3]]
[[2 0 2 1 4 6]
 [6 6 0 0 0 3]
 [0 9 0 6 0 9]
 [0 2 2 4 0 0]
 [0 3 2 0 2 0]
 [0 0 3 6 3 0]]
[[3 1 3 2 3 3]
 [3 3 2 1 1 4]
 [1 4 1 3 1 4]
 [2 2 3 3 4 1]
 [1 4 2 2 2 4]
 [1 1 4 4 4 4]]
[[200   0 200 100 200 200]
 [200 200 100   0   0 300]
 [  0 300   0 200   0 300]
 [100 100 200 200 300   0]
 [  0 300 100 100 100 300]
 [  0   0 300 300 300 300]]


In [None]:
#행렬의 내적(곱)-np.dot()
np.dot(tmp,tmp2) 

array([[12, 20, 13, 14, 12, 15],
       [10, 21,  7, 15, 10, 11],
       [ 9, 19,  5, 16,  6,  9],
       [17, 19, 13, 13, 11, 16],
       [14, 21,  8, 17,  9,  9],
       [15, 24, 18, 21, 12, 18]])

In [None]:
arr=np.arange(1,9).reshape(2,2,2)
print(arr)

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


In [None]:
#행렬의 합-np.sum()
#축 기준을 무엇으로 설정하느냐에 따라 값이 달라짐!
print(np.sum(arr,axis=0)) #row 방향 합 
print(np.sum(arr,axis=1)) #col 방향 합

[[ 6  8]
 [10 12]]
[[ 4  6]
 [12 14]]


In [None]:
#행렬 정렬하기-np.sort()
org_array=np.array([3,1,9,5])
print('원본 행렬:', org_array)
print('np.sort()로 정리된 행렬:',np.sort(org_array))
print('내림차순으로 정리된 행렬:',np.sort(org_array)[::-1]) #내림차순으로 하려면 [::-1]을 적용
print('--------2차원에서는------')
array2d=np.array([[8,12],[7,1]])
print('원본 행렬:\n',array2d)
print('row방향 정렬:\n',np.sort(array2d,axis=0))
print('col방향 정렬:\n',np.sort(array2d,axis=1))

원본 행렬: [3 1 9 5]
np.sort()로 정리된 행렬: [1 3 5 9]
내림차순으로 정리된 행렬: [9 5 3 1]
--------2차원에서는------
원본 행렬:
 [[ 8 12]
 [ 7  1]]
row방향 정렬:
 [[ 7  1]
 [ 8 12]]
col방향 정렬:
 [[ 8 12]
 [ 1  7]]
