# 배열 만들기
* numpy 배열: 배열을 생성할 때는 효율성을 높이려고 배열을 데이터에 연결한다.

In [4]:
import numpy as np
#1 0개의 양수로 된 간단한 numpy 배열 만들기
numbers = np.array(range(1, 11), copy=True)
numbers

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

ones(): 1로 / zeros(): 0으로/ empty(): 아직 생성되지 않은 엔트리로 구성한다. </br>
https://numpy.org/doc/stable/reference/generated/numpy.array.html



In [12]:
# 아직 생성되지 않은 엔트리로 구성된 배열을 1로 채움
ones = np.ones([2, 4])
# np.ones()의 default는 float64임
# np.ones([2, 4], dtype=np.int64)를 이용하여 인트로 바꿀 수 있음
ones

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [13]:
# 아직 생성되지 않은 엔트리를 구성된 배열을 0으로 채움
zeros = np.zeros([2, 4])
zeros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [14]:
# 아직 생성되지 않은 엔트리로 구성된 배열
empty = np.empty([2, 4])
empty

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### 데이터 확인하기
* 많이 사용됨!!
* 가지고 온 data를 확인하는 과정이 더 중요하다.

In [17]:
ones.shape
# 데이터 셋이 들어올 때 처음으로 할 일은 .shape을 확인함


(2, 4)

In [18]:
ones.ndim
# 차원을 확인함

2

In [20]:
ones.dtype
# 꼭 확인

dtype('float64')

In [21]:
numbers.dtype

dtype('int64')

arange(start, stop, step, dtype=None) 일정 간격으로 배열 생성하는 함수



In [24]:
np_numbers = np.arange(2, 5, 0.25)
np_numbers

array([2.  , 2.25, 2.5 , 2.75, 3.  , 3.25, 3.5 , 3.75, 4.  , 4.25, 4.5 ,
       4.75])

astype(dtype, casting="unsafe", copy=True) 아이템의 타입 변경해 주는 함수(많이 사용!, 중요!)


In [27]:
np_numbers = np_numbers.astype(np.int)
np_numbers

array([2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4])

reshape(d0, d1, ...) 대상 배열의 모양을 바꿔주는 함수

In [28]:
# 몇 가지 S&P 주식 기호들
sap = np.array(["MMM", "ABT", "ABBV", "ACN", "ACE", "ATVI", "ADBE", "ADT"])
sap #U4 는 4글자 유니코드

array(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ATVI', 'ADBE', 'ADT'],
      dtype='<U4')

In [29]:
sap.shape

(8,)

In [31]:
sap2d = sap.reshape(2, 4)
# 원본 데이터 안에서 해결가능한 shape이어야 한다.
sap2d

array([['MMM', 'ABT', 'ABBV', 'ACN'],
       ['ACE', 'ATVI', 'ADBE', 'ADT']], dtype='<U4')

In [32]:
# 기존 배열과 새로운 배열의 아이템의 개수는 항상 동일 해야 함
# numpy 보존의 법칙 성립

sap3d = sap.reshape(2, 2, 2)
sap3d
# (면, 행, 열)

array([[['MMM', 'ABT'],
        ['ABBV', 'ACN']],

       [['ACE', 'ATVI'],
        ['ADBE', 'ADT']]], dtype='<U4')

데이터 클리닝(data cleaning)을 위해 사용 되는 boolean indexing


In [33]:
# 절대 음수 값이 와서는 안되는 데이터셋
# 중요함

dirty = np.array([9, 4, 1, -0.01, -0.02, -0.001])
whos_dirty = dirty < 0 
# boolean indexing

whos_dirty
# 항상 True인 것들을 프로세싱을 함!(반대로 생각하기)
# 살릴 값들은 false로, 없앨 값들은 true로 주기 

array([False, False, False,  True,  True,  True])

In [34]:
dirty[whos_dirty] = 0 
# 모든 음수값을 0으로 바꾼다.
dirty

array([9., 4., 1., 0., 0., 0.])

논리 연산자 | or, & and, - not 결합하여 boolean indexing 사용


In [35]:
linear = np.arange(-1, 1.1, 0.2)
linear

array([-1.00000000e+00, -8.00000000e-01, -6.00000000e-01, -4.00000000e-01,
       -2.00000000e-01, -2.22044605e-16,  2.00000000e-01,  4.00000000e-01,
        6.00000000e-01,  8.00000000e-01,  1.00000000e+00])

In [37]:
# -0.5 ~ 0.5 사이의 값만 0으로 변경하고 싶음
whos_linear = (linear <= 0.5) & (linear >= -0.5)

whos_linear

array([False, False, False,  True,  True,  True,  True,  True, False,
       False, False])

In [39]:
linear[whos_linear] = 0

linear
# True인 값들을 0으로 바꿔준다. 

array([-1. , -0.8, -0.6,  0. ,  0. ,  0. ,  0. ,  0. ,  0.6,  0.8,  1. ])

스마트 인덱싱

In [41]:
# s&p 리스트에서 두 번째, 세 번째, 마지막 주식 기호를 추출
sap[[1, 2, -1]]
# 대괄호를 두 번 씌워줘야 한다.

array(['ABT', 'ABBV', 'ADT'], dtype='<U4')

In [42]:
# 중간열에 있는 값들을 가져오기
sap2d

array([['MMM', 'ABT', 'ABBV', 'ACN'],
       ['ACE', 'ATVI', 'ADBE', 'ADT']], dtype='<U4')

In [43]:
sap2d[:, [1]]

array([['ABT'],
       ['ATVI']], dtype='<U4')

In [44]:
sap2d[:, 1]
# 대괄호의 갯수가 2개이면 2차원 배열 // 1개이면 1차원 배열

array(['ABT', 'ATVI'], dtype='<U4')

차원만 같다면 numpy에서는 사칙연산 가능 (그낭 더하기) -> 브로드캐스팅</br>
연산을 하려면 차원이 같아야 한다.</br>
한 번에 모든 데이터에 연산이 가능하다.


In [45]:
a = np.arange(4)
b = np.arange(1, 5)
print(a)
print(b)

[0 1 2 3]
[1 2 3 4]


In [46]:
a + b

array([1, 3, 5, 7])

In [47]:
a * 5

array([ 0,  5, 10, 15])

In [56]:
noise = np.eye(4) + 0.01 * np.random.random([4, 4])

noise

array([[1.00259250e+00, 1.98985241e-03, 3.29236566e-03, 5.81399286e-03],
       [9.71027463e-03, 1.00598281e+00, 3.40899228e-04, 5.73403045e-03],
       [8.55679720e-03, 2.63244967e-03, 1.00014913e+00, 5.84348231e-03],
       [7.11507365e-03, 9.85647096e-03, 8.81599362e-03, 1.00895361e+00]])