10개의 양수로 된 간단한 numpy 배열 만들기

In [None]:
import numpy as np

numbers = np.array(range(1,11), copy = True)
numbers

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

ones() -> 1, zeros() -> 0, empty() -> 아직 생성되지 않은 엔트리로 구성
https://numpy.org/doc/stable/reference/generated/numpy.array.html

In [None]:
# 아직 생성되지 않은 
ones = np.ones([2,4], dtype=np.int64)
ones


array([[1, 1, 1, 1],
       [1, 1, 1, 1]])

In [None]:
zeros = np.zeros([2,4], dtype=np.float64)
zeros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [None]:
empty = np.empty([2,4], dtype=np.int64)
empty

array([[     94236508450048,                  28, 7575164962486616063,
        3343197489899464494],
       [7382915394978148976, 6225501230042399790, 7598824916820257889,
        7161130708401676643]])

In [None]:
ones.shape

(2, 4)

In [None]:
ones.ndim

2

In [None]:
ones.dtype

dtype('int64')

In [None]:
empty.dtype

dtype('int64')

In [None]:
numbers.dtype

dtype('int64')

arange(start, stop, step, dtype=None) 일정 간격으로 배열 생성하는 함수


In [None]:
np_numbers = np.arange(2,5,0.25)
np_numbers

array([2.  , 2.25, 2.5 , 2.75, 3.  , 3.25, 3.5 , 3.75, 4.  , 4.25, 4.5 ,
       4.75])

astype(dtype, casting="unsafe", copy=True) 아이템의 타입 변경해 주는 함수

In [None]:
np_numbers.dtype

dtype('float64')

In [None]:
np_numbers = np_numbers.astype(np.int)
np_numbers.dtype

dtype('int64')

In [None]:
# 몇 가지 s&p 주식 기호들
sap = np.array(["MMM","ABT","ABBY","ACN","ACE","ATVI","DBE","ADT"])
sap

array(['MMM', 'ABT', 'ABBY', 'ACN', 'ACE', 'ATVI', 'DBE', 'ADT'],
      dtype='<U4')

In [None]:
sap.shape

(8,)

In [None]:
sap2d = sap.reshape(2,4), #데이터 안에서 가능한 차원으로 만들어야한다.
sap2d

(array([['MMM', 'ABT', 'ABBY', 'ACN'],
        ['ACE', 'ATVI', 'DBE', 'ADT']], dtype='<U4'),)

In [None]:
# 기존 배열과 새로운 배열의 아이템의 개수는 항상 동일 해야 함
# numpy 보존의 법칙 성립

sap3d = sap.reshape(2,2,2) # 3차원 변경
sap3d

array([[['MMM', 'ABT'],
        ['ABBY', 'ACN']],

       [['ACE', 'ATVI'],
        ['DBE', 'ADT']]], dtype='<U4')

In [None]:
sap3d[0]

array([['MMM', 'ABT'],
       ['ABBY', 'ACN']], dtype='<U4')

In [None]:
sap3d[1]

array([['ACE', 'ATVI'],
       ['DBE', 'ADT']], dtype='<U4')

In [None]:
#sap3d[2]

데이터 클리닝을 위해 사용 되는 boolean indexing

In [None]:
# 절대 음수 값이 와서는 안되는 데이터셋

dirty = np.array([9,4, 1,-0.01,-0.02,-0.001])
whos_dirty = dirty < 0 # boolean indexing
whos_dirty

array([False, False, False,  True,  True,  True])

In [None]:
dirty[whos_dirty] = 0 # 모든 음수값을 0으로 바꿈
dirty

array([9., 4., 1., 0., 0., 0.])

논리 연산자 | or, & and, - not 결합하여 boolean indexing 사용


In [None]:
linear = np.arange(-1,1.1,0.2)
linear

array([-1.00000000e+00, -8.00000000e-01, -6.00000000e-01, -4.00000000e-01,
       -2.00000000e-01, -2.22044605e-16,  2.00000000e-01,  4.00000000e-01,
        6.00000000e-01,  8.00000000e-01,  1.00000000e+00])

In [None]:
# -0.5 ~ 0.5 사이의 값만 -> 0으로 변경하고 싶음 
whos_linear = (linear <= 0.5) & (linear >= -0.5)
whos_linear

array([False, False, False,  True,  True,  True,  True,  True, False,
       False, False])

In [None]:
sap

array(['MMM', 'ABT', 'ABBY', 'ACN', 'ACE', 'ATVI', 'DBE', 'ADT'],
      dtype='<U4')

In [None]:
# s&p 리스트에서 두번째, 세번째, 마지막 주식 기호를 추출
sap[[1,2,-1]]

array(['ABT', 'ABBY', 'ADT'], dtype='<U4')

In [None]:
sap2d

(array([['MMM', 'ABT', 'ABBY', 'ACN'],
        ['ACE', 'ATVI', 'DBE', 'ADT']], dtype='<U4'),)

In [None]:
sap2d = sap.reshape(2,4)
sap2d[: ,[1]]

array([['ABT'],
       ['ATVI']], dtype='<U4')

In [None]:
sap2d[:,1]

array(['ABT', 'ATVI'], dtype='<U4')

차원만 같다면 numpy에서는 사칙연산 가능 (그낭 더하기) -> 브로드캐스팅


In [None]:
a = np.arange(4)
b = np.arange(1,5)

print(a)
print(b)

[0 1 2 3]
[1 2 3 4]


In [None]:
a+b

array([1, 3, 5, 7])

In [None]:
a*5

array([ 0,  5, 10, 15])

In [None]:
noise = np.eye(4)
noise

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [None]:
noise2 = np.eye(6)
noise2

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

In [None]:
noise = np.eye(4) + 0.01 * np.random.random([4,4])
noise

array([[1.00687541e+00, 3.03319492e-03, 4.04050555e-03, 1.71468721e-03],
       [6.74112533e-03, 1.00437860e+00, 8.43500287e-03, 4.85590991e-03],
       [3.17846813e-03, 4.06583684e-05, 1.00178344e+00, 4.94949051e-03],
       [4.88950612e-03, 5.14249974e-03, 7.91530283e-03, 1.00869890e+00]])