10개의 양수로 된 간단한 numpy 배열 만들기

In [1]:
import numpy

In [5]:
numbers = numpy.array(range(1, 11), copy = True)
print(numbers)

[ 1  2  3  4  5  6  7  8  9 10]


In [6]:
# ones() = 1로, zeros() = 0으로, empty() = 아직 생성되지 않은 엔트리로 구성
# https://numpy.org/doc/stable/reference/generated/numpy.array.html


In [11]:
# 아직 생성되지 않은 엔트리로 구성된 배열을 1로 채움
ones = numpy.ones([2, 4])

In [17]:
ones = numpy.ones([2, 4], dtype = numpy.float64)
print(ones)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [18]:
# 아직 생성되지 않은 엔트리로 구성된 배열을 0으로 채움
zeros = numpy.zeros([2, 4], dtype = numpy.float64)
print(zeros)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [16]:
# 아직 생성되지 않은 엔트리로 구성된 배열
empty = numpy.empty([2, 4], dtype = numpy.float64)
print(empty)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]]


데이터 확인하기

In [19]:
ones.shape

(2, 4)

In [21]:
ones.ndim

2

In [22]:
ones.dtype

dtype('float64')

In [23]:
numbers.dtype

dtype('int64')

arange(start, stop, step, dtype=None) 일정 간격으로 배열 생성하는 함수

In [30]:
numpy_numbers = numpy.arange(2, 5, 0.25)
print(numpy_numbers)

[2.   2.25 2.5  2.75 3.   3.25 3.5  3.75 4.   4.25 4.5  4.75]


astype(dtype, casting="unsafe", copy=True) 아이템의 타입 변경해 주는 함수


In [32]:
numpy_numbers = numpy_numbers.astype(numpy.int)
numpy_numbers.dtype

dtype('int64')

reshape(d0, d1, ...) 대상 배열의 모양을 바꿔주는 함수

In [36]:
# 몇 가지 S&P 주식 기호들
sap = numpy.array(["MMM", "ABT", "ABBV", "ACN", "ACE", "ATVI", "ADBE", "ADT"])
sap    #U4 는 4글자 유니코드


array(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ATVI', 'ADBE', 'ADT'],
      dtype='<U4')

In [37]:
sap.shape

(8,)

In [54]:
asdf = sap.reshape(4, 2)
asdf

array([['MMM', 'ABT'],
       ['ABBV', 'ACN'],
       ['ACE', 'ATVI'],
       ['ADBE', 'ADT']], dtype='<U4')

In [44]:
ap2d = sap.reshape(2, 4)
ap2d

array([['MMM', 'ABT', 'ABBV', 'ACN'],
       ['ACE', 'ATVI', 'ADBE', 'ADT']], dtype='<U4')

In [47]:
# 기존 배열과 새로운 배열의 아이템의 개수는 항상 동일 해야 함
# numpy 보존의 법칙 성립
sp3d = sap.reshape(2, 2, 2)
print(sp3d)

[[['MMM' 'ABT']
  ['ABBV' 'ACN']]

 [['ACE' 'ATVI']
  ['ADBE' 'ADT']]]


In [50]:
sp3d[0] # 1차원

array([['MMM', 'ABT'],
       ['ABBV', 'ACN']], dtype='<U4')

In [51]:
sp3d[1] # 2차원

array([['ACE', 'ATVI'],
       ['ADBE', 'ADT']], dtype='<U4')

In [None]:
sap3d[2] # 3차원

데이터 클리닝(data cleaning)을 위해 사용되는 boolean indexing

In [56]:
# 절대 음수 값이 와서는 안되는 데이터셋
dirty = numpy.array([9, 4, 1, -0.01, -0.02, -0.001])
whos_dirty = dirty < 0    #프로세스는 True일 때 진행   ##boolean indexing
whos_dirty

array([False, False, False,  True,  True,  True])

In [57]:
dirty[whos_dirty] = 0 # 모든 음수밗을 0으로 바꿈    #True인 인덱스 값을 0으로
dirty

array([9., 4., 1., 0., 0., 0.])

논리 연산자 | or, & and, - not 결합하여 boolean indexing 사용


In [59]:
linear = numpy.arange(-1, 1.1, 0.2)
linear

array([-1.00000000e+00, -8.00000000e-01, -6.00000000e-01, -4.00000000e-01,
       -2.00000000e-01, -2.22044605e-16,  2.00000000e-01,  4.00000000e-01,
        6.00000000e-01,  8.00000000e-01,  1.00000000e+00])

In [64]:
# -0.5 ~ 0.5 사이의 값만 0으로 변환   -----> 사이의 값을 True 인덱스 값을 반환해서 True를 0으로 또 반환

whos_linear = (linear >= -0.5) & (linear <= 0.5)    # 연산 순서를 위해서 소괄호를 꼭 해줘라
linear[whos_linear] = 0
linear

array([-1. , -0.8, -0.6,  0. ,  0. ,  0. ,  0. ,  0. ,  0.6,  0.8,  1. ])

스마트 인덱싱

In [66]:
# S&P 리스트에서 두번째, 세번째, 마지막 주식 기호를 추출
sap[[1, 2, -1]]

array(['ABT', 'ABBV', 'ADT'], dtype='<U4')

In [67]:
sap

array(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ATVI', 'ADBE', 'ADT'],
      dtype='<U4')

In [70]:
ap2d

array([['MMM', 'ABT', 'ABBV', 'ACN'],
       ['ACE', 'ATVI', 'ADBE', 'ADT']], dtype='<U4')

In [71]:
ap2d[:, [1]]      #대괄호를 하나 더 씌워주면 1차원 상승

array([['ABT'],
       ['ATVI']], dtype='<U4')

In [72]:
ap2d[:, 1]

array(['ABT', 'ATVI'], dtype='<U4')

차원만 같다면 numpy에서는 사칙연산 가능 (그낭 더하기) -> 브로드캐스팅

In [73]:
a = numpy.arange(4)
b = numpy.arange(1, 5)
print(a)
print(b)

[0 1 2 3]
[1 2 3 4]


In [75]:
a + b

array([1, 3, 5, 7])

In [76]:
a + 5

array([5, 6, 7, 8])

In [81]:
noise = (numpy.eye(4) + 0.02) * numpy.random.random([4, 4])
noise

array([[0.83787194, 0.00414581, 0.00663175, 0.01016953],
       [0.00753009, 0.97559745, 0.00885416, 0.00136419],
       [0.01102047, 0.00439945, 0.78546511, 0.00445558],
       [0.01743526, 0.00389687, 0.00227006, 0.14361028]])

In [80]:
numpy.random.random([4, 4])   # 연산을 위해서는 차원과 행렬이 같아야한다.

array([[0.49059429, 0.0497861 , 0.82204925, 0.70982363],
       [0.30181672, 0.70073741, 0.26310393, 0.01193558],
       [0.92905185, 0.91274844, 0.67969549, 0.44161803],
       [0.62396499, 0.68675539, 0.93006167, 0.07491007]])