## Numpy

In [7]:
# 선언
import numpy as np 

# 1차원 배열 선언
# 튜플처럼 데이터의 쌍이 없고 리스트 형태로만 존재하므로 1차원 배열
# dtype으로 데이터 배열을 지정해주는 편이 좋다.
array_1d = np.array([1, 2, 3, 4, 5], dtype=float)
print(array_1d)

array_1d_int = np.array([1, 2, 3, 4, 5], dtype=int)
print(array_1d_int)

[1. 2. 3. 4. 5.]
[1 2 3 4 5]


In [4]:
# 2차원 배열 선언
array_2d = np.array([(1,2,3), (4,5,6), (7,8,9)], dtype=float)
print(array_2d)

[[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]]


다른 방식으로 array 만들기 : 형태만 지정

In [12]:
# empty([row, col]): 배열의 형태만 지정하고 랜덤한 값을 할당
# 왜 이런걸 쓰나? : 데이터셋을 만드는건 나중에 하고, 꼴만 만들어두기 위해
array_2d_empty = np.empty([3,3])
print(array_2d_empty)

[[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]]


In [14]:
array_2d_zeros = np.zeros([3,3])
print(array_2d_zeros)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [15]:
array_2d_ones = np.ones([3,3])
print(array_2d_ones)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


테스트 데이터 생성

In [18]:
# arange(start, end, step)
# linspace와 유사
array_arange = np.arange(0, 10, 2, dtype=float)
print(array_arange)

[0. 2. 4. 6. 8.]


In [20]:
array_linspace = np.linspace(0, 10, 2)
print(array_linspace)

# ?

[ 0. 10.]


In [29]:
np.sort(np.array([5, 7, 6, 1, 3, 3, 0]))

array([0, 1, 3, 3, 5, 6, 7])

배열 결합 : concat

In [30]:
np_temp = np.array([3, 1, 2, 5, 6, 1])
np_concat = np.concatenate([array_1d, np_temp])

print(np_concat)

[1. 2. 3. 4. 5. 3. 1. 2. 5. 6. 1.]


데이터 삭제

CRUD?

대부분의 프로그램은 CRUD을 따른다

CREATE  
READ  
UPLOAD  
DELETE  

In [35]:
# delete(numpy array, index)
np.delete(np_concat, [-1])
np.delete(np_concat, -1)

# concat는 1차원 데이터이므로 위 두 명령은 동일

array([1., 2., 3., 4., 5., 3., 1., 2., 5., 6.])

데이터가 방대할 경우 일일이 지정하는 경우는 없고 열단위로 제거한다

파일 불러오기

In [60]:
# loadtxt를 이용 : txt, csv 모두 읽을 수 있다.
# delimiter 설정 안하면 오류 발생
np_data = np.loadtxt("dataset/wine.csv", delimiter=",")

배열 크기

In [68]:
print(f'배열의 크기 : {np_data.size}')
print(f'배열의 크기 2 : {np_data.shape[0]} X {np_data.shape[1]}')

# reshape : 음성데이터 처리에서 활용
np_concat_date_delete_copy = np.delete(np_concat, [0, 1])
print(np_concat_date_delete_copy)
print(len(np_concat_date_delete_copy))

# 사이즈가 맞아야 함 3 * 3 : 9
np_data_reshape = np_concat_date_delete_copy.reshape(3, 3)
print(np_data_reshape)

배열의 크기 : 84461
배열의 크기 2 : 6497 X 13
[3. 4. 5. 3. 1. 2. 5. 6. 1.]
9
[[3. 4. 5.]
 [3. 1. 2.]
 [5. 6. 1.]]


슬라이싱

In [75]:
print("[0]")
print(np_data_reshape[0])
print("---------------")

print("[0:2]")
print(np_data_reshape[0:2])
print("---------------")

print("[:]")
print(np_data_reshape[:])
print("---------------")

print("[:, 2]")
print(np_data_reshape[:, 2])

[0]
[3. 4. 5.]
---------------
[0:2]
[[3. 4. 5.]
 [3. 1. 2.]]
---------------
[:]
[[3. 4. 5.]
 [3. 1. 2.]
 [5. 6. 1.]]
---------------
[:, 2]
[5. 2. 1.]


배열 쌓기

vertical stack

In [82]:
np_array_1 = np_data_reshape
print(np_array_1)
np_array_2 = np_data_reshape
print(np_array_2)

[[3. 4. 5.]
 [3. 1. 2.]
 [5. 6. 1.]]
[[3. 4. 5.]
 [3. 1. 2.]
 [5. 6. 1.]]


In [83]:
np_array_vstack = np.vstack([np_array_1, np_array_2])
print(np_array_vstack)

[[3. 4. 5.]
 [3. 1. 2.]
 [5. 6. 1.]
 [3. 4. 5.]
 [3. 1. 2.]
 [5. 6. 1.]]


h? stack

In [85]:
np_array_hstack = np.hstack([np_array_1, np_array_2])
print(np_array_hstack)

[[3. 4. 5. 3. 4. 5.]
 [3. 1. 2. 3. 1. 2.]
 [5. 6. 1. 5. 6. 1.]]


배열 자르기

hsplit(array_name, number)  
vsplit(array_name, number)

In [88]:
np_array_hsplit = np.hsplit(np_array_hstack, 2)
print(np_array_hsplit)

[array([[3., 4., 5.],
       [3., 1., 2.],
       [5., 6., 1.]]), array([[3., 4., 5.],
       [3., 1., 2.],
       [5., 6., 1.]])]


In [94]:
np_array_vsplit = np.vsplit(np_array_hstack, 3)
print(np_array_vsplit)

[array([[3., 4., 5., 3., 4., 5.]]), array([[3., 1., 2., 3., 1., 2.]]), array([[5., 6., 1., 5., 6., 1.]])]


In [90]:
np_array_vsplit = np.vsplit(np_array_vstack, 2)
print(np_array_vsplit)

[array([[3., 4., 5.],
       [3., 1., 2.],
       [5., 6., 1.]]), array([[3., 4., 5.],
       [3., 1., 2.],
       [5., 6., 1.]])]


통계

- `sum()` : 합 
- `max()` : 최대값
- `min()` : 최소값
- `mean()` : 평균
- `std()` : 표준편차

In [95]:
print( np_data_reshape )
print( np_data_reshape.sum() )
print( np_data_reshape.max() )
print( np_data_reshape.min() )
print( np_data_reshape.mean() )
print( np_data_reshape.std() )

[[3. 4. 5.]
 [3. 1. 2.]
 [5. 6. 1.]]
30.0
6.0
1.0
3.3333333333333335
1.699673171197595


난수 생성

randint : 범위 안의 정수 추출  

`random.randint(start, end, size="num")`

In [97]:
np_randint = np.random.randint(0, 45, size = 6)
print(np_randint)

[28 14  9 12 20  1]


rand : 0부터 1 사이의 값을 무작위 추출

`random.rand(row, col)`

In [99]:
np_rand = np.random.rand(3, 3)
print(np_rand)

[[0.42048434 0.03035864 0.07948655]
 [0.15533998 0.83733061 0.59673019]
 [0.43243304 0.99940508 0.35985139]]


randn : 표준 정규분포 안의 수 추출

`random.randn(num)`

In [100]:
np_randn = np.random.randn(10)
print(np_randn)

[-0.85866813 -0.08684326  0.06526858  1.02420493 -1.21701359 -1.34417628
 -1.79357237 -0.20758609  1.66264521 -0.22557499]


데이터 가공

shuffle : 데이터 섞기

데이터를 활용할 때 어느정도 데이터를 섞어야 함  
머신러닝 모델 만들 때 학습이 잘못되는 것을 (편향 등) 방지하기 위함  
- 총 데이터를 train, test dataset으로 나눌 때 데이터가 편향되어있다면 훈련이 잘못될 수 있다. 

In [103]:
print(np_randint, end=" => ")
np.random.shuffle(np_randint)
print(np_randint)

[ 9 14 12 28  1 20] => [12 14  9 28 20  1]


choice : 확률을 지정하여 선택
- `random.choice(array_name, pick number, p = [ ... ])`
- 결측치 처리시 활용 가능
    
\[중요!] unique : 유일한것 선택 

In [110]:
np_texts = ['A', 'B', 'C', 'D', 'E']
np_choice = np.random.choice(np_texts, 10, p = [0.1, 0, 0.3, 0.6, 0])
print(np_choice)

['C' 'D' 'C' 'D' 'D' 'D' 'D' 'D' 'D' 'A']


In [111]:
# 중요!
print(np.unique(np_choice))

['A' 'C' 'D']


Matrix Transpose

In [114]:
np_test_array = np.array([
    ('row1_col1', 'row1_col2', 'row1_col3'),
    ('row2_col1', 'row2_col2', 'row2_col3'), 
    ('row3_col1', 'row3_col2', 'row3_col3')])
print(np_test_array)
print(np_test_array.T)

[['row1_col1' 'row1_col2' 'row1_col3']
 ['row2_col1' 'row2_col2' 'row2_col3']
 ['row3_col1' 'row3_col2' 'row3_col3']]
[['row1_col1' 'row2_col1' 'row3_col1']
 ['row1_col2' 'row2_col2' 'row3_col2']
 ['row1_col3' 'row2_col3' 'row3_col3']]


In [115]:
print(np_data)

[[ 7.  1.  0. ...  9.  5.  1.]
 [ 8.  1.  0. ... 10.  5.  1.]
 [ 8.  1.  0. ... 10.  5.  1.]
 ...
 [ 7.  0.  0. ...  9.  6.  0.]
 [ 6.  0.  0. ... 13.  7.  0.]
 [ 6.  0.  0. ... 12.  6.  0.]]


In [116]:
print(np_data.T)

[[ 7.  8.  8. ...  7.  6.  6.]
 [ 1.  1.  1. ...  0.  0.  0.]
 [ 0.  0.  0. ...  0.  0.  0.]
 ...
 [ 9. 10. 10. ...  9. 13. 12.]
 [ 5.  5.  5. ...  6.  7.  6.]
 [ 1.  1.  1. ...  0.  0.  0.]]


결과에 접근할 수 있도록 전치행렬 생성