# Numpy 패키지

- pandas에서 데이터를 저장 및 처리에 사용되는 패키지  
- 외부 패키지로 반드시 설치 필요  
- 고속 데이터 처리, 수치 계산 수행 패키지
- 머신러닝/딥러닝용 패키지 Scikit-lern, Tensorflow, PyTorch, Keras 등등에서도 내부 데이터 저장 및 수치 계산 사용되는 패키지

- 중요) 동일한 데이터 타입의 데이터를 저장하는 배열(Array) 타입!!
- 주피터에서 설치시 => !pip install numpy

In [6]:
# 버전 확인
import numpy as np

np.__version__

'1.21.5'

In [7]:
# - 외형은 판다스와 같다고 볼 수 있음
# - array(배열) : 연속된 메모리 공간, 동일한 데이터 타입
# => 순차적 데이터 저장하는 자료형, 서로 연관이씨는 dat를 하나의 변수명으로 저장
# => 원소 개수 변경 불가, 위치를 가리키는 숫자는 인덱스

# => 처음부터 메모리를 정하기 때문에처리 속도 향상
# => 파이썬에서는 제공x, 다른 객체 지향 언어에는 있음(C, 자바 등)

In [8]:
# numpy => 동일한 데이터 타입이어야 함
# 판다스 설치시 자동으로 설치 됨 (상호간 버전이 같아야 하고)


In [9]:
# 적어도 4~ 부터

In [10]:
# dtype(s)를 했을 때 뜨는 알파벳으로 볼 때 => 판다스 내부적으로 넘파이의 배열로 저장 된다는 것을 말함

In [13]:
# ndarray 객체 생성 하기  -->  numpy.array()

arr1 = np.array([1,2,3])
arr1, type(arr1)

(array([1, 2, 3]), numpy.ndarray)

In [18]:
# ndarray 객체의 속성 확인하기
# 객체변수명.속성명
# ndim : 차원 ( ex) 1, 2, 3... )
# shape : 형태 ( ex) (갯수,), (행, 열), (면, 행, 열) )
# type : 데이터 타입
# itemsize : 배열 요소의 바이트 크기
# size : 배열 요소 갯수
print( arr1.ndim, arr1.shape, arr1.dtype, arr1.itemsize, arr1.size, sep='\n' )

1
(3,)
int32
4
3


In [24]:
# 배열의 요소. 즉 아이템, 원소 접근하기
# 0-base 인덱스 자동 지정 => 객체변수명[ 인덱스 ]

print(f'객체변수명 arr1 : {arr1}, {type(arr1)}')
print(f'객체변수명 arr1[0] : {arr1[0]}, {type(arr1[0])}')
print(f'객체변수명 arr1[1] : {arr1[1]}, {type(arr1[1])}')

객체변수명 arr1 : [1 2 3], <class 'numpy.ndarray'>
객체변수명 arr1[0] : 1, <class 'numpy.int32'>
객체변수명 arr1[1] : 2, <class 'numpy.int32'>


In [27]:
# 모든 값을 0으로 채워서 ndarray 객체 생성하는 함수 => ones()
arr2 = np.array([0,0,0,0])
arr2 = np.ones(4, dtype = np.int16)
# 2가지 모두 가능
arr2

array([1, 1, 1, 1], dtype=int16)

In [28]:
print( arr1.ndim, arr1.shape, arr1.dtype, arr1.itemsize, arr1.size, sep='\n' )
print(f'객체변수명 arr2 : {arr2}, {type(arr2)}')
print(f'객체변수명 arr2[0] : {arr2[0]}, {type(arr2[0])}')
print(f'객체변수명 arr2[1] : {arr2[1]}, {type(arr2[1])}')

1
(3,)
int32
4
3
객체변수명 arr2 : [1 1 1 1], <class 'numpy.ndarray'>
객체변수명 arr2[0] : 1, <class 'numpy.int16'>
객체변수명 arr2[1] : 1, <class 'numpy.int16'>


In [29]:
# 초기화하지 않고 ndarray 객체 생성 => numpy.empty()
arr3 = np.empty((2,3))
arr3

array([[ 4.63939877e-308, -5.64938534e+036, -1.78409531e+046],
       [-4.32950182e-035, -8.72433218e-026, -1.57234264e-063]])

In [31]:
# np.arange => 파이썬의 range와 비슷
power = 40
modulo = 10000
x1 = [(n ** power) % modulo for n in range(8)]
x2 = [(n ** power) % modulo for n in np.arange(8)]
print(x1)
print(x2)

[0, 1, 7776, 8801, 6176, 625, 6576, 4001]
[0, 1, 0, 6897, 0, 3617, 0, 1537]


In [32]:
# 2차원 형태의 ndarray 객체 생성
arr4 = np.array([[1,2,3],[4,5,6]])
arr4

array([[1, 2, 3],
       [4, 5, 6]])

In [33]:
arr4.shape, arr4.ndim

((2, 3), 2)

In [35]:
# 2차원 -> 1차원
arr5 = arr4.flatten()

In [36]:
arr5.shape, arr4.ndim

((6,), 2)

In [38]:
# 1차원 -> 다른 차원으로 변경 reshape()
arr6 = arr5.reshape((1,6))
arr6

array([[1, 2, 3, 4, 5, 6]])

In [39]:
arr6 = arr5.reshape((3,2))
arr6

array([[1, 2],
       [3, 4],
       [5, 6]])

In [41]:
arr6 = arr5.reshape((1,3,2))  # 3차원 -> 대괄호 3개
arr6

array([[[1, 2],
        [3, 4],
        [5, 6]]])

In [43]:
arr7 = arr6.flatten()  
arr7.shape, arr7.ndim

((6,), 1)

In [45]:
# numpy.vstack(tup)
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
np.vstack((a,b))

array([[1, 2, 3],
       [4, 5, 6]])

In [46]:
a = np.array([[1], [2], [3]])
b = np.array([[4], [5], [6]])
np.vstack((a,b))

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [47]:
# 넘파이에서의 '집계'함수 => 축 입력할 때 주의
# 판다스에서 썼던 것들과는 반대라고 생각할 것
# => axis = 0 (열) 기준 계산
# => axis = 1 (행) 기준 계산

In [48]:
# 차원/형태 변환 => reshape(-1, n) or reshape(n, -1)
# 모르는 자리에 '-1'을 넣어
arr8 = np.arange(8)
arr8

array([0, 1, 2, 3, 4, 5, 6, 7])

In [49]:
arr9 = arr8.reshape(-1,2)
arr9

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [50]:
arr9 = arr8.reshape(-1,3) 
arr9
# 3을 곱해서는 8이 나올 수가 없지 => 개수가 맞아야 함# => 오류가 나지

ValueError: cannot reshape array of size 8 into shape (3)