I. 개요

NumPy는 C언어로 구성되었으며, 고성능의 수치계산을 위해 나온 패키지이며, Numerical Python의 약자이다.

Python을 활용한 데이터 분석을 수행할 때, 그리고 데이터 시각화나 전처리를 수행할 때, NumPy는 매우 자주 사용되기 때문에 한번쯤은 꼭 다듬고 가는 것이 중요하다.

이전 포스트에서는 Python - NumPy 소개 및 다양한 객체 생성에 대해 다루었으니, 본 포스트 읽기에 앞서서 기본적인 개념에 대해 확인하기를 바란다.

II. 모듈 Import

패키지 설치방법은 설치 문서를 확인한다.

In [2]:
import numpy as np
print(np.__version__)

1.18.5


III. NumPy 기본 활용법

NumPy 객체 생성을 한 뒤에, 파일 저장, 서로 다른 배열끼리의 사칙연산 등을 수행할 수 있다.

(1) NumPy 객체 파일 저장 및 불러오기

savetxt, loadtxt, 그리고 genfromtxt 함수를 활용하여 객체를 불러오는 예제를 실습한다.

In [3]:
# 객체 생성 후 저장하기
x = np.arange(0.0, 50.0, 1.0)
print(x)
np.savetxt('data.out', x, delimiter=',')

[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17.
 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49.]


In [4]:
!ls

data.out  sample_data


현재 폴더에 data.out 파일이 생성된 것을 확인할 수 있다.

In [5]:
# `data.out` 불러오기
z = np.loadtxt('data.out', unpack=True)
print(z)

[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17.
 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49.]


In [6]:
# genfromtxt 활용
my_array2 = np.genfromtxt('data.out', 
                          skip_header=1, 
                          filling_values=-999)
print(my_array2)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36.
 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49.]


z객체와 마찬가지로 my_array2도 객체가 정상적으로 생성된 것을 확인할 수 있다.

loadtxt와 genfromtxt의 차이점이 있기는 하다. 결론부터 말하면, genfromtxt가 다양한 옵션을 제공한다. 간단한 예를 들면, genfromtxt의 경우 열들의 자료형을 자동으로 결정해주어 사용자들이 좀 더 편안하게 사용할 수 있도록 도와준다 (Clinton, 2016, p. 281-2).

(2) 2차원 배열 Inspection

ndim, size, flags, itemsize, nbytes를 활용하여 배열의 정보를 획득한다.
특히, 딥러닝 모형 정의 및 학습할 때, NumPy 배열 에러 등이 종종 발생하기 때문에 기본 개념은 학습하는 것을 추천한다.

In [7]:
my2D_Array = np.array([[1,2,3,4], [2,4,6,8], [3,6,9,12]])
print(my2D_Array)

[[ 1  2  3  4]
 [ 2  4  6  8]
 [ 3  6  9 12]]


In [8]:
# ndim
print(my2D_Array.ndim)

2


In [9]:
# size (각 item의 개수를 의미)
print(my2D_Array.size)

12


In [10]:
# 2차원 배열의 memory layout 확인 
print(my2D_Array.flags)

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False



In [11]:
# 1차원의 길이 in bytes (예. 숫자는 2bytes)
print(my2D_Array.itemsize)

8


In [12]:
# 전체 bytes
print(my2D_Array.nbytes)

96
